[go: up one dir, main page]

DE60103086T2 - Verbesserung von quellcodierungssystemen durch adaptive transposition - Google Patents

Verbesserung von quellcodierungssystemen durch adaptive transposition Download PDF

Info

Publication number
DE60103086T2
DE60103086T2 DE60103086T DE60103086T DE60103086T2 DE 60103086 T2 DE60103086 T2 DE 60103086T2 DE 60103086 T DE60103086 T DE 60103086T DE 60103086 T DE60103086 T DE 60103086T DE 60103086 T2 DE60103086 T2 DE 60103086T2
Authority
DE
Germany
Prior art keywords
passage
character
pulse train
pulse
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60103086T
Other languages
English (en)
Other versions
DE60103086D1 (de
Inventor
Kristofer KJÖRLING
Fredrik Henn
Per Ekstrand
Lars Villemoes
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Coding Technologies Sweden AB
Original Assignee
Coding Technologies Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Coding Technologies Sweden AB filed Critical Coding Technologies Sweden AB
Application granted granted Critical
Publication of DE60103086D1 publication Critical patent/DE60103086D1/de
Publication of DE60103086T2 publication Critical patent/DE60103086T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Technisches Gebiet
  • Die vorliegende Erfindung bezieht sich auf ein neues Verfahren zur Verbesserung von Quellcodierungssystemen unter Verwendung einer Hochfrequenzrekonstruktion. Die Erfindung lehrt, dass Tonsignale entweder als pulszugähnlich oder nicht-pulszugähnlich klassifiziert werden können. Basierend auf dieser Klassifizierung können bedeutende Verbesserungen an der wahrgenommenen Audioqualität durch adaptives Schalten von Transpositionierern erreicht werden. Die Erfindung zeigt, dass die so geschalteten Transpositionierer fundamentale Unterschiede in ihren Charakteristika aufweisen müssen.
  • Hintergrund der Erfindung
  • In „Source Coding Enhancement using Spectral-Band Replication" [WO 98/57436], wurde die Transposition definiert und als eine effiziente Einrichtung für eine Hochfrequenzerzeugung errichtet, die bei einem HFR-basierten (HFR = High Frequency Reconstruction) Codec verwendet werden soll. Verschiedene Transpositioniererimplementierungen wurden beschrieben. Abgesehen von einer kurzen Erörterung von Verbesserungen beim Übergangsansprechverhalten bzw. Transienten-Rnsprechverhalten wurde eine programmabhängige Anpassung von fundamentalen Transpositionierercharakteristika nicht ausführlich erläutert.
  • Zusammenfassung der Erfindung
  • Eine Vorrichtung zum Erzeugen eines Hochfrequenz-Rekonstruktionssignals basierend auf einem bandbreitenbegrenzten Audiosignal gemäß Anspruch 1, 17 und ein Verfahren gemäß Anspruch 15 zum Ausführen derselben. Die vorliegende Erfindung lehrt, dass Tonpassagen, d. h., Auszüge dominiert durch Beiträge aus Instrumenten, die Töne abgeben, als „pulszugähnlich" oder „nicht-pulszugähnlich" charakterisiert werden können. Ein typisches Beispiel der Ersteren ist die menschliche Stimme im Fall von Vokalen, oder ein Einzel-Tonhöhen-Instrument bzw. Einzel-Pitch-Instrument, wie z. B. eine Trompete, bei der das „Erregungssignal" als ein „Pulszug" modelliert werden kann. Letzteres ist der Fall, wenn verschiedene unterschiedliche Tonhöhen kombiniert werden und somit kein einzelner Pulszug identifiziert werden kann. Gemäß der vorliegenden Erfindung kann das HFR-Verhalten bedeutend verbessert werden, durch Unterscheiden zwischen den obigen zwei Fällen und entsprechendes Anpassen der Transpositionierereigenschaften.
  • Wenn eine pulszugähnlicher Passage erfasst wird, soll der Transpositionierer vorzugsweise auf einer Pro-Puls-Basis arbeiten. Hier kann das decodierte Niederband, das als das Eingangssignal für den Transpositionierer dient, als eine Reihe von Impulsantworten h(n) mit Tiefpasscharakter mit einer Grenzfrequenz fc betrachtet werden, getrennt durch eine Periode Tp. Dies entspricht einer Fourier-Reihe mit einer Grundfrequenz 1/TP, die Harmonische bei allen ganzzahligen Mehrfachen von 1/Tp bis zu der Frequenz fC enthält. Das Ziel des Transpositionierers ist das Erhöhen der Bandbreite der individuellen Antworten h(n) bis zu der gewünschten Bandbreite Nfc, wobei N der Transpositionsfaktor ist, ohne Ändern der Periode Tp. Da die Pulsperiode bewahrt wird, entspricht das transpositionierte Signal weiterhin einer Fourier-Reihe mit Grundfrequenz 1/Tp, die nun alle Teiltöne bis zu Nfc enthält. Somit schafft dieses Verfahren eine perfekte Fortsetzung für die abgeschnittene Fourier- Reihe des Niederbandes. Einige bekannte Verfahren erfüllen die Anforderung zum Bewahren der Pulsperiode. Beispiele sind Frequenztranslation und FD-Transposition gemäß [WO 98/57436], wo das Fenster kurz genug ausgewählt ist, um nicht mehr als eine Periode zu enthalten, d. h. Länge (Fenster) ≤ Tp. Keine dieser Implementierungen handhabt Material mit mehreren Tonhöhen gut, und nur die FD-Transposition liefert eine perfekte Fortsetzung für die abgeschnittene Fourier-Reihe des Niederbandes.
  • Wenn eine nicht-pulszugähnlicher Passage erfasst wird, z. B. wenn mehrere Tonhöhen vorhanden sind, verschiebt sich die Anforderung an den Transpositionierer statt dessen von der Bewahrung von Pulsperioden zu der Bewahrung von ganzzahligen Beziehungen zwischen Niederbandharmonischen und erzeugten höheren Teiltönen. Diese Anforderung wird durch die FD-Transpositionsverfahren in [WO 98/57436] erfüllt, wo das Fenster lang genug ausgewählt ist, dass viele Perioden Ti der individuellen Tonhöhen, die die Sequenz bilden, innerhalb eines Fensters enthalten sind, d. h. Länge (Fenster) ≫ Ti. Hierdurch wird eine abgeschnittene Fourier-Reihe [fi, 2fi, 3fi, ...] in dem Transpositioniererquellfrequenzbereich transpositioniert zu [Nfi, 2Nfi, 3Nfi, ...], wobei N der ganzzahlige Transpositionsfaktor ist. Deutlich, im Gegensatz zu der obigen Pro-Puls-Operation, erzeugt dieses Schema keine vollständige Fortsetzung der Niederband-Fourier-Reihe. Diese ist tolerierbar für Signale mit mehreren Tonhöhen (Multi-Pitches), aber nicht ideal für den pulszugähnlichen Fall der Einzeltonhöhe. Somit wird der Transpositionsmodus vorzugsweise nur bei nichtpulszugähnlichen Fällen verwendet.
  • Gemäß der vorliegenden Erfindung kann eine Unterscheidung zwischen pulsähnlichen und nicht-pulsähnlichen Signalen in dem Codierer durchgeführt werden, und ein entsprechendes Steuerungssignal wird zu dem Decodierer gesendet. Alternativ kann die Erfassung in dem Decodierer durchgeführt werden, wodurch der Bedarf nach Steuerungssignalen beseitigt wird, aber auf Kosten einer höheren Decodiererkomplexität. Beispiele von Detektorprinzipien sind die transiente Erfassung in dem Zeitbereich sowie die Spitzenerfassung im Frequenzbereich. Der Decodierer umfasst eine Einrichtung für die notwendige Transpositioniereranpassung. Als ein Beispiel wird ein System, das eine Frequenztranslation für den pulszugähnlichen Fall verwendet, und ein FD-Transpositionierer mit langem Fenster für den nicht-pulszugähnlichen Fall, beschrieben. Das tatsächliche Schalten oder Überblenden zwischen den Transpositionierern wird vorzugsweise in einer Hüllkurveneinstellungsfilterbank durchgeführt.
  • Die vorliegende Erfindung weist die folgenden Merkmale auf:
    • – adaptives Auswählen unterschiedlicher Verfahren zur Hochfrequenzerzeugung über Zeit basierend darauf, ob das Signal, das verarbeitet wird, einen pulszugähnlichen Charakter oder einen nicht-pulszugähnlichen Charakter aufweist.
    • – die Auswahl wird basierend auf einer Analyse durch Spitzenerfassung in einer Zeit- und Frequenz-Bereichsdarstellung des Signals durchgeführt.
    • – die unterschiedlichen Verfahren zur Hochfrequenzerzeugung sind Frequenztranslation und FD-Transposition, oder
    • – die unterschiedlichen Verfahren zur Hochfrequenzerzeugung sind FD-Transposition mit unterschiedlichen Fenstergrößen, oder
    • – die unterschiedlichen Verfahren zur Hochfrequenzerzeugung sind Zeitbereichs-Pulszugtransposition und FD-Transposition.
  • Kurze Beschreibung der Zeichnungen
  • Die vorliegende Erfindung wird nun mittels darstellenden Beispielen beschrieben, die den Schutzbereich oder das Wesen der Erfindung nicht einschränken, unter Bezugnahme auf die beiliegenden Zeichnungen, in denen:
  • 1a ein Eingangspulszugsignal x(n) darstellt.
  • 1b das Größenspektrum |X(f)| des Signals x(n) darstellt.
  • 2a die Impulsantwort h0(n) eines FIR-Filters darstellt.
  • 2b das Größenspektrum |H0(f)| des FIR-Filters darstellt.
  • 3a ein Signal darstellt y0(n) = x(n)·h0(n).
  • 3b das Größenspektrum |Y0(f)| des Signals y0(n) darstellt.
  • 4a die dezimierte Impulsantwort h1(n) eines FIR-Filters darstellt.
  • 4b das Größenspektrum |H1(f)| des dezimierten FIR-Filters darstellt.
  • 5a das transpositionierte Signal y1(n) darstellt.
  • 5b das Größenspektrum |Y1(f)| des Signals y1(n) darstellt.
  • 6 das Größenspektrum |Y2(f)| darstellt, nach der FD-Transposition mit einem langen Fenster des Signals x(n).
  • 7 eine Implementierung der vorliegenden Erfindung auf der Decodiererseite darstellt.
  • Beschreibung der bevorzugten Ausführungsbeispiele
  • Die nachfolgend beschriebenen Ausführungsbeispiele sind ausschließlich darstellend für die Prinzipien der vorliegenden Erfindung zum adaptiven Transpositioniererschalten für HFR-Systeme. Es wird darauf hingewiesen, dass Modifikationen und Variationen der Anordnungen und der Details, die hierin beschrieben werden, für Fachleute auf dem Gebiet offensichtlich sind. Es ist daher die Absicht, dass dieselben nur durch den Schutzbereich der ausstehenden Patentansprüche eingeschränkt zu werden und nicht durch die spezifischen Details, die durch die Beschreibung und Erklärung der Ausführungsbeispiele hierin vorgelegt werden.
  • Die „Ideale Transposition" eines pulszugähnlichen Einzel-Pitch-Signals bzw. Einzeltonhöhensignals kann definiert werden mit Hilfe eines einfachen Modells. Das Originalsignal sei eine Summe von Diracs δ(n) getrennt durch m Abtastwerte, d. h. ein Pulszug
    Figure 00060001
  • 1a zeigt x(n), und 1b das entsprechende Größenspektrum |X(f)|. Offensichtlich entspricht |X(f)| einer aus einer Fourier-Reihe mit Grundfrequenz fs/m, wobei fs die Abtastfrequenz ist. y(n) sei eine tiefpassgefilterte Version von x(n), wobei das Tiefpass-FIR-Filter die Impulsantwort h0(n) der Länge p aufweist, derart, dass p < m, siehe 2a und 2b für die Zeit- bzw. Frequenz-Bereichsdarstellung. Die Filtergrenzfrequenz ist fc. Das Ausgangssignal ist dann gegeben durch
    Figure 00070001
    das heißt, eine Reihe von Impulsantworten, getrennt durch m Abtastwerte. 3a und 3b zeigen y0(n) und |Y0(f)|. Die Original-Fourier-Reihe wurde effektiv beschnitten bei der Frequenz fc. Es sei angenommen, dass ein zeitbereichsbasierter Transpositionierer in der Lage ist, die individuellen Impulsantworten h0(n – lm) zu erfassen, und dass diese Signale durch den Faktor 2 dezimiert werden, d. h. jeder zweite Abtastwert wird zu dem Ausgang zugeführt. Die verworfenen Abtastwerte werden kompensiert durch Einfügung von Nullen zwischen den kürzeren Antworten h1(n – lm), um die Länge des Signals zu bewahren. Die dezimierte Impulsantwort h1(n) und die entsprechende Frequenzdarstellung |H1(f)| sind in 4a und 4b gezeigt. Offensichtlich entspricht das Schmälern des Zeitbereichssignals einem Verbreitern des Frequenzbereichssignals, in diesem Fall um einen Faktor 2. Schließlich ist das transpositionierte Signal
    Figure 00070002
    und |Y1(f)| in 5a und 5b gezeigt.
  • Die Bandbreite des LP-gefilterten Pulszug wurde erhöht, während die korrekten Zeit-, und dadurch ebenfalls die Frequenz-Eigenschaften bewahrt wurden. Das Ausgangssignal y1(n) entspricht einer Fourier-Reihe mit Teiltönen, die eine Frequenz bis zu 2fc erreichen.
  • Die obige Transposition kann auf verschiedene Weisen angenähert werden. Ein Lösungsansatz ist das Verwenden eines Frequenzbereichstranspositionierers (FD-Transpositionierer; FD = frequency domain), wie z. B. des STFT-Transpositionierers, der in der [WO 98/57436] beschrieben ist, aber mit unterschiedlichen Fenstergrößen, d. h. ein kurzes Fenster wird für Pulszugsignale verwendet und ein langes Fenster wird für alle anderen Signale verwendet. Das kurze Fenster (mit Länge ≤ m bei dem obigen Beispiel) stellt sicher, dass der Transpositionierer auf einer Pro-Puls-Basis arbeitet, was die oben ausgeführte gewünschte Pulstranspo sitionierung ergibt. Ein unterschiedlicher Lösungsansatz für eine Pulstransposition ist das Verwenden einer Einseitenband-Modulation. Dies stellt sicher, dass die Periodenzeit zwischen den Pulsen Tp korrekt ist, die erzeugten Teiltöne sind jedoch nicht harmonisch auf die Teiltöne des Niederbandes bezogen. Es sollte ferner herausgestellt werden, dass unterschiedliche Pulszugtranspositionsalgorithmen für unterschiedliches Programmmaterial unterschiedlich ausgeführt werden können. Daher könnten verschiedene Pulszugtranspositionierer mit geeigneten Erfassungsalgorithmen verwendet werden, bei dem Codierer und/oder dem Decodierer, um ein optimales Verhalten sicherzustellen.
  • Für das Pulszugsignal, das bei dem obigen Beispiel verwendet wird, ergibt eine Implementierung mit einem FD-Transpositionsverfahren unter Verwendung eines langen Fensters, unzufriedenstellende Ergebnisse. Dies liegt an dem Folgenden:
    Wenn ein langes Fenster (der Länge ≫ m) bei dem FD-Transpositionsverfahren verwendet wird, gilt die nachfolgende Beziehung:
    Figure 00080001
    wobei u(n) das Eingangssignal ist, v(n) das Ausgangssignal ist, M der Transpositionsfaktor ist, N die Anzahl von Sinuskurven ist, fi, ei(n), αi die individuellen Eingangsfrequenzen, Zeithüllkurven und bzw. Phasenkonstanten sind, βi die willkürlichen Ausgangsphasenkonstanten sind und fs die Abtastfrequenz ist und 0 ≤ Mfi ≤ fs/2. Das Eingangssignal x(n) unter Verwendung der Beziehung in Gleichung 3 ergibt ein Ausgangssignal y2(n) mit einem Größenspektrum |Y2(f)| gemäß 6, wo die Teiltöne von y2(n) harmonisch in Bezug zu den Teiltönen von x(n) stehen. Die Distanz zwischen denselben hat sich jedoch gemäß dem Transpositionsfaktor er höht, d. h. die Tonhöhe bzw. Pitch des Signals hat sich um den Transpositionsfaktor erhöht. Wenn dieses neue Hochbandsignal zu dem ursprünglichen Niederbandsignal hinzugefügt wird, können die zwei unterschiedlichen Tonhöhen deutlich unterschieden werden. Dies verursacht z. B., dass Sprachsignale klingen, als ob ein zusätzlicher Sprecher gleichzeitig aber mit einer höheren Tonhöhe sprechen würde, d. h. eine sogenannte Geisterstimme tritt auf.
  • Sobald jedoch das Eingangssignal keine Einzeltonhöhen-Pulszugcharakteristika aufweist, ist eine Pulstransposition nicht anwendbar, wenn eine Hochqualitäts-HFR erforderlich ist. Somit ist es höchst wünschenswert, zu erfassen, welches Transpositionsverfahren das beste Ergebnis zu einer gegebenen Zeit ergibt, um das Verhalten des HFR-Systems zu optimieren.
  • Um von den unterschiedlichen Transpositionscharakteristika zu profitieren ist es bei einem Decodierer notwendig, bei dem Codierer und/oder dem Decodierer zu bewerten, welches Transpostionsverfahren die besten Ergebnisse zu einer gegebenen Zeit ergibt. Es gibt verschiedene Möglichkeiten, pulszugähnliche Charakteristika in einem Signal zu erfassen, wobei dies entweder im dem Zeitbereich oder in dem Frequenzbereich durchgeführt werden kann. Wenn ein Pulszug eine Zeitperiode Tp aufweist, werden die Pulse zeitlich um diese Zeitperiode getrennt, und die Frequenzkomponenten sind 1/Tp auseinander. Somit, wenn Tp hoch ist, d. h, ein Pulszug mit niedriger Tonhöhe, wird dies vorzugsweise in dem Zeitbereich erfasst, da die Pulse relativ weit auseinander und somit leicht zu unterscheiden sind. Wenn jedoch Tp niedrig ist, entspricht dies einem Pulszug mit hoher Tonhöhe, und wird somit einfacher in dem Frequenzbereich erfasst. Bei einer Zeitbereichserfassung wird es bevorzugt, das Signal spektral Weiß zu machen, um einen Charakter zu erhalten, der so pulszugähnlich ist wie möglich, für eine leichtere Erfassung. Die Erfassungsschemata in dem Zeitbereich und dem Frequenzbereich sind ähnlich. Sie basieren auf einer Spitzenerfassung und einer statistischen Analyse der Distanzen zwischen erfassten Spitzen. In dem Zeitbereich wird die Spitzenerfassung durchgeführt, durch Vergleichen des Energie- und Spitzen-Pegels des Signals vor und nach einem willkürlichen Punkt, wodurch nach einem transienten Verhalten in dem Signal gesucht wird. In dem Frequenzbereich wird die Spitzenerfassung an dem Harmonische-Produktspektrum durchgeführt, was eine gute Anzeige ist, ob eine starke Harmonische-Reihe vorhanden ist. Die Distanzen zwischen den erfassten Tonhöhen werden in einem Histogramm präsentiert, wonach die Erfassung durchgeführt wird, durch Vergleichen des Verhältnisses zwischen Tonhöhen-bezogenen Einträgen und Nicht-Tonhöhen-bezogenen Einträgen.
  • Die exemplarisch in 7 gezeigte Implementierung zeigt die Verwendung von zwei unterschiedlichen Typen von Transpositionsverfahren in demselben Decodierersystem – die Typen sind ein FD-Transpositionierer unter Verwendung eines langen Fensters und eine Frequenztranslationsvorrichtung [PCT/SE01/01150]. Der Demultiplexer 701 entpackt das Bitstromsignal und führt es zu einem willkürlichen Basisbanddecodierer 702 zu. Das Ausgangssignal aus dem Basisbanddecodierer, d. h. ein bandbreitenbeschränktes Audiosignal, wird zu einer Analysefilterbank 703 zugeführt, die das Audiosignal in Spektralbänder aufspaltet. Das Audiosignal wird gleichzeitig zu einer FD-Transpositioniereinheit 705 zugeführt. Das Ausgangssignal aus derselben wird zu einer zusätzlichen Analysefilterbank 706 zugeführt, die von demselben Typ ist wie die Filterbankeinheit 703. Die Daten aus der Filterbankeinheit 703 werden gemäß den Prinzipien der Frequenztranslationsvorrichtungen überführt 704 und zu der Mischeinheit 707 zugeführt, zusammen mit dem Ausgangssignal aus der Analysefilterbank 70b. Die Mischeinheit vermischt die Daten gemäß dem Steuerungssignal, übertragen von dem Codierer, oder den Steuerungssignalen, erhalten durch den Decodierer. Die vermischten Spektraldaten werden nachfolgend gemäß Hüllkurve in dem Hüllkurveneinsteller 708 einge stellt, unter Verwendung von Daten- und Steuerungs-Signalen, die in dem Bitstrom gesendet werden. Das Spektraleingestellte Signal und die Daten aus der Analysefilterbank 703 werden zu einer Synthesefilterbankeinheit 709 zugeführt, wodurch ein Hüllkurven-eingestelltes Breitbandsignal erzeugt wird. Abschließend wird das digitale Breitbandsignal in ein analoges Ausgangssignal umgewandelt 710.

Claims (17)

  1. Vorrichtung zum Erzeugen eines Hochfrequenz-Rekonstruktionssignals basierend auf einem bandbreitenbegrenzten Audiosignal, gekennzeichnet durch eine Einrichtung (701) zum Erhalten von Informationen, ob eine Passage des bandbreitenbegrenzten Audiosignals, die verarbeitet werden soll, einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist, wobei eine Passage einen pulszugähnlichen Charakter aufweist, wenn die Passage eine Reihe von Pulsen umfaßt, denen eine Pulsperiode zugeordnet ist, und wobei eine Passage einen nicht pulszugähnlichen Charakter aufweist, wenn die Passage keine Reihe von Pulsen umfaßt, denen die Pulsperiode zugeordnet ist; eine Einrichtung (707) zum adaptiven Auswählen unterschiedlicher Verfahren zur Hochfrequenzerzeugung über der Zeit, für Passagen, die basierend auf den Informationen verarbeitet werden sollen; und eine Einrichtung (704, 705) zum Ausführen eines ausgewählten Hochfrequenzerzeugungsverfahrens für eine Passage des bandbreitenbegrenzten Audiosignals, um das Hochfrequenz-Rekonstruktionssignal zu erhalten.
  2. Vorrichtung gemäß Anspruch 1, bei der die Einrichtung zum Erhalten zum Empfangen eines Steuerungssignals angeordnet ist, das anzeigt, ob eine Passage einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist.
  3. Vorrichtung gemäß Anspruch 1, bei der die Einrichtung zum Erhalten einen Detektor zum Erfassen umfaßt, ob eine Passage einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist, wobei der Detektor zum Ausführen einer Transienten-Erfassung in einem Zeitbereich oder einer Spitzenerfassungsoperation in dem Frequenzbereich angeordnet ist.
  4. Vorrichtung gemäß Anspruch 3, bei der der Detektor angeordnet ist zum Ausführen der Transienten-Erfassung, wenn die Pulsperiode vergleichbar hoch ist, und bei der der Detektor angeordnet ist zum Ausführen der Spitzenerfassungsoperation, wenn die Pulsperiode vergleichbar niedrig ist.
  5. Vorrichtung gemäß Anspruch 3 oder Anspruch 4, bei der der Detektor angeordnet ist zum Ausführen eines Spektralweißungsschrittes zum spektralen Weißmachen einer Passage vor dem Ausführen der Erfassung.
  6. Vorrichtung gemäß einem der Ansprüche 3 bis 5, bei der der Detektor angeordnet ist, um einen Schritt zum Ausführen einer Spitzenerfassungsoperation und einen Schritt zum Durchführen einer statistischen Analyse von Distanzen zwischen erfaßten Spitzen auszuführen.
  7. Vorrichtung gemäß Anspruch 6, bei der der Detektor angeordnet ist, um einen Schritt zum Vergleichen einer Energie und eines Spitzenpegels eines Signals auszuführen, vor und nach einem willkürlichen Punkt, so daß ein transientes Verhalten in dem Signal gesucht wird.
  8. Vorrichtung gemäß Anspruch 6, bei der der Detektor angeordnet ist zum Ausführen eines Schrittes der Spitzenerfassung an einen Harmonische-Produktspektrum, so daß erfaßte Pitches in einem Histogramm dargestellt werden, woraufhin eine Erfassung durchgeführt wird durch Vergleichen eines Verhältnisses zwischen Pitchbezogenen Einträgen und nicht Pitch-bezogenen Einträgen in dem Histogramm.
  9. Vorrichtung gemäß einem der vorangehenden Ansprüche, bei der die unterschiedlichen Verfahren zur Hochfrequenzerzeugung Frequenzbereichstranspositionen mit unterschiedlichen Fenstergrößen umfassen, wobei eine vergleichbar kleine Fenstergröße für eine Passage ausgewählt wird, die einen pulszugähnlichen Charakter aufweist, und wobei eine vergleichbar lange Fenstergröße für eine Passage ausgewählt wird, die einen nicht pulszugähnlichen Charakter aufweist.
  10. Vorrichtung gemäß Anspruch 9, bei der die kleine Fenstergröße kürzer oder gleich der Pulsperiode ist.
  11. Vorrichtung gemäß einem der Ansprüche 1 bis 8, bei der die unterschiedlichen Verfahren für eine Hochfrequenzerzeugung eine Frequenztranslation für eine Passage, die einen pulszugähnlichen Charakter aufweist, und eine Frequenzbereichstransposition für eine Passage, die einen nicht pulszugähnlichen Charakter aufweist, umfassen, wobei eine Fenstergröße der Frequenzbereichstranslation größer ist als 1/fi, wobei fi eine Frequenz einer abgeschnittenen Fourier-Reihe ist.
  12. Vorrichtung gemäß einem der Ansprüche 1 bis 8, bei der die unterschiedlichen Verfahren für eine Hochfrequenzerzeugung eine Zeitbereichs-Pulszugtransposition für eine Passage umfassen, die einen pulszugähnlichen Charakter aufweist, und eine Frequenzbereichstransposition, die einen nicht pulszugähnlichen Charakter aufweist, wobei die Fenstergröße der Frequenzbereichsposition größer ist als 1/fi, wobei fi eine Frequenz einer abgeschnittenen Fourier-Reihe ist.
  13. Vorrichtung gemäß Anspruch 8, bei der die Einrichtung zum Ausführen eines ausgewählten Verfahrens folgende Merkmale umfaßt: einen Frequenzbereichstranspositionierer (705), eine erste Analysefilterbank (706), die mit dem Frequenzbereichstranspositionierer (705) verbunden ist, eine zweite Analysefilterbank (703); eine Frequenztranslationsvorrichtung (704), die mit einem Ausgang der zweiten Analysefilterbank verbunden ist, wobei die zweite Analysefilterbank (703) eine Filterbank desselben Typs ist wie die erste Analysefilterbank (706), einen Mischer (707) zum Mischen einer Ausgabe aus der ersten Filterbank (706) und einer Ausgabe der Frequenztranslationsvorrichtung (704), wobei der Mischer angeordnet ist zum Mischen gemäß einem Steuerungssignal, um gemischte Spektraldaten auszugeben, und eine Hüllkurveneinstellungseinrichtung (708) zum Ausführen einer Hüllkurveneinstellung an den gemischten Spektraldaten unter Verwendung von Hüllkurvendaten, um das Hochfrequenz-Rekonstruktionssignal bereitzustellen.
  14. Verfahren zum Erzeugen eines Hochfrequenz-Rekonstruktionssignals basierend auf einem bandbreitenbegrenzten Audiosignal, das folgende Schritte aufweist: Erhalten (701) von Informationen, ob eine Passage des bandbreitenbegrenzten Audiosignals, die verarbeitet werden soll, einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist, wobei eine Passage einen pulszugähnlichen Charakter aufweist, wenn die Passage eine Reihe von Pulsen umfaßt, denen eine Pulsperiode zugeordnet ist, und wobei eine Passage einen nicht pulszugähnlichen Charakter aufweist, wenn die Passage keine Reihe von Pulsen umfaßt, denen die Pulsperiode zugeordnet ist; adaptives Auswählen (707) unterschiedlicher Verfahren zur Hochfrequenzerzeugung über der Zeit, für Passagen, die basierend auf den Informationen verarbeitet werden sollen; und Ausführen (704, 705) eines ausgewählten Hochfrequenzerzeugungsverfahrens für eine Passage des bandbreitenbegrenzten Audiosignals, um das Hochfrequenz-Rekonstruktionssignal zu erhalten.
  15. Verfahren zum Codieren eines Audiosignals, um ein codiertes Basisband-Audiosignal zu erhalten, wobei das Verfahren durch folgende Schritte gekennzeichnet ist: Erfassen, ob eine Passage des Audiosignals, die verarbeitet werden soll, einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist, wobei eine Passage einen pulszugähnlichen Charakter aufweist, wenn die Passage eine Reihe von Pulsen umfaßt, denen eine Pulsperiode zugeordnet ist, und wobei eine Passage einen nicht pulszugähnlichen Charakter aufweist, wenn die Passage keine Reihe von Pulsen aufweist, denen die Pulsperiode zugeordnet ist; und Zuordnen eines Steuerungssignals zu dem codierten Basisband-Audiosignal, wobei das Steuerungssignal anzeigt, ob eine Passage des codierten Basisband-Audiosignals einen pulszugähnlichen Charakter aufweist oder nicht.
  16. Verfahren gemäß Anspruch 15, bei dem der Schritt zum Erfassen erfaßt, ob eine Passage einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist, durch Durchführen einer Transienten-Erfassung in einem Zeitbereich oder einer Spitzenerfassungsoperation in dem Frequenzbereich.
  17. Vorrichtung zum Codieren eines Audiosignals, um ein codiertes Basisband-Audiosignal zu erhalten, gekennzeichnet durch eine Einrichtung zum Erfassen, ob eine Passage des Audiosignals, die verarbeitet werden soll, einen pulszugähnlichen Charakter oder einen nicht pulszugähnlichen Charakter aufweist, wobei eine Passage einen pulszugähnlichen Charakter aufweist, wenn die Passage eine Reihe von Pulsen umfaßt, denen eine Pulsperiode zugeordnet ist, und wobei eine Passage einen nicht pulszugähnlichen Charakter aufweist, wenn die Passage keine Reihe von Pulsen aufweist, denen die Pulsperiode zugeordnet ist; und eine Einrichtung zum Zuordnen eines Steuerungssignals zu dem codierten Basisband-Audiosignal, wobei das Steuerungssignal anzeigt, ob eine Passage des codierten Basisband-Audiosignals einen pulszugähnlichen Charakter aufweist oder nicht.
DE60103086T 2000-12-22 2001-12-19 Verbesserung von quellcodierungssystemen durch adaptive transposition Expired - Lifetime DE60103086T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE0004818A SE0004818D0 (sv) 2000-12-22 2000-12-22 Enhancing source coding systems by adaptive transposition
SE0004818 2000-12-22
PCT/SE2001/002828 WO2002052545A1 (en) 2000-12-22 2001-12-19 Enhancing source coding systems by adaptive transposition

Publications (2)

Publication Number Publication Date
DE60103086D1 DE60103086D1 (de) 2004-06-03
DE60103086T2 true DE60103086T2 (de) 2005-01-20

Family

ID=20282398

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60103086T Expired - Lifetime DE60103086T2 (de) 2000-12-22 2001-12-19 Verbesserung von quellcodierungssystemen durch adaptive transposition

Country Status (9)

Country Link
US (1) US7260520B2 (de)
EP (1) EP1338000B1 (de)
JP (1) JP3992619B2 (de)
KR (1) KR100566630B1 (de)
CN (1) CN1223990C (de)
AT (1) ATE265731T1 (de)
DE (1) DE60103086T2 (de)
SE (1) SE0004818D0 (de)
WO (1) WO2002052545A1 (de)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
KR100462615B1 (ko) * 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
DE10252327A1 (de) * 2002-11-11 2004-05-27 Siemens Ag Verfahren zur Erweiterung der Bandbreite eines schmalbandig gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
KR100501930B1 (ko) * 2002-11-29 2005-07-18 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US20070206682A1 (en) * 2003-09-29 2007-09-06 Eric Hamilton Method And Apparatus For Coding Information
KR100608062B1 (ko) 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
WO2006089055A1 (en) * 2005-02-15 2006-08-24 Bbn Technologies Corp. Speech analyzing system with adaptive noise codebook
US8219391B2 (en) * 2005-02-15 2012-07-10 Raytheon Bbn Technologies Corp. Speech analyzing system with speech codebook
CN101405792B (zh) * 2006-03-20 2012-09-05 法国电信公司 用于在音频解码器中对信号进行后处理的方法
US8229106B2 (en) 2007-01-22 2012-07-24 D.S.P. Group, Ltd. Apparatus and methods for enhancement of speech
KR100972297B1 (ko) * 2007-08-28 2010-07-23 한국전자통신연구원 가변 비트 해상도 혹은 클락 주파수를 가지는 아날로그디지털 변환기를 이용한 적응형 변조방식 및 그 장치
WO2009028806A2 (en) * 2007-08-28 2009-03-05 Electronics And Telecommunications Research Institute Method for applying amplitude use to digital amplyfier with variable bit resolution or clock frequency and apparatus for excuting the method
US9275648B2 (en) 2007-12-18 2016-03-01 Lg Electronics Inc. Method and apparatus for processing audio signal using spectral data of audio signal
JP2009300707A (ja) * 2008-06-13 2009-12-24 Sony Corp 情報処理装置および方法、並びにプログラム
MX2011000372A (es) 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Sintetizador de señales de audio y codificador de señales de audio.
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
CA2836862C (en) 2008-07-11 2016-09-13 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
WO2010036061A2 (en) 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101108955B1 (ko) * 2008-09-25 2012-02-06 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
AU2013201597B2 (en) * 2009-01-16 2015-11-12 Dolby International Ab Cross product enhanced harmonic transposition
EP4145446B1 (de) 2009-01-16 2023-11-22 Dolby International AB Produktübergreifende verbesserte harmonische transposition
EP2239732A1 (de) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Vorrichtung und Verfahren zur Erzeugung eines synthetischen Audiosignals und zur Kodierung eines Audiosignals
RU2452044C1 (ru) 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
CO6440537A2 (es) 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
EP4451267B1 (de) 2009-10-21 2025-04-23 Dolby International AB Überabtastung in einer kombinierten umsetzer-filterbank
EP3564955B1 (de) 2010-01-19 2020-11-25 Dolby International AB Verbesserte block-basierte harmonische teilband-transposition
CN103069484B (zh) * 2010-04-14 2014-10-08 华为技术有限公司 时/频二维后处理
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
BR112012024360B1 (pt) 2010-07-19 2020-11-03 Dolby International Ab sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento
JP5714180B2 (ja) 2011-05-19 2015-05-07 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーディング方式の鑑識検出
RU2632585C2 (ru) * 2013-06-21 2017-10-06 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Способ и устройство для получения спектральных коэффициентов для заменяющего кадра аудиосигнала, декодер аудио, приемник аудио и система для передачи аудиосигналов
EP3067889A1 (de) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und vorrichtung zur transformation für signal-adaptive kernelschaltung bei der audiocodierung

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4398062A (en) * 1976-11-11 1983-08-09 Harris Corporation Apparatus for privacy transmission in system having bandwidth constraint
ES2225321T3 (es) * 1991-06-11 2005-03-16 Qualcomm Incorporated Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos.
US5717824A (en) * 1992-08-07 1998-02-10 Pacific Communication Sciences, Inc. Adaptive speech coder having code excited linear predictor with multiple codebook searches
JPH06177688A (ja) 1992-10-05 1994-06-24 Mitsubishi Electric Corp オーディオ信号処理装置
US5568588A (en) * 1994-04-29 1996-10-22 Audiocodes Ltd. Multi-pulse analysis speech processing System and method
SE506379C3 (sv) * 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5788338A (en) 1996-07-09 1998-08-04 Westinghouse Air Brake Company Train brake pipe remote pressure control system and motor-driven regulating valve therefor
US5842709A (en) * 1996-10-16 1998-12-01 Kwikee Products Co., Inc. Retractable, swing down step assembly
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
EP0950322B1 (de) * 1997-11-03 2005-03-09 Koninklijke Philips Electronics N.V. Anordnung mit einfügungsmittel zur identifizierung mittels zusatzinformation eines informationspaketstroms, der kodierte digitale daten überträgt
KR19990085742A (ko) 1998-05-21 1999-12-15 김영환 디지털 오디오 인코더의 과도부분 검출방법
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
EP1147515A1 (de) * 1999-11-10 2001-10-24 Koninklijke Philips Electronics N.V. Breitbandsprachsynthese unter verwendung einer abbildungsmatrix
US6732070B1 (en) * 2000-02-16 2004-05-04 Nokia Mobile Phones, Ltd. Wideband speech codec using a higher sampling rate in analysis and synthesis filtering than in excitation searching

Also Published As

Publication number Publication date
WO2002052545A1 (en) 2002-07-04
US7260520B2 (en) 2007-08-21
JP3992619B2 (ja) 2007-10-17
CN1223990C (zh) 2005-10-19
ATE265731T1 (de) 2004-05-15
JP2004517358A (ja) 2004-06-10
KR100566630B1 (ko) 2006-03-31
EP1338000B1 (de) 2004-04-28
CN1481546A (zh) 2004-03-10
EP1338000A1 (de) 2003-08-27
DE60103086D1 (de) 2004-06-03
US20020118845A1 (en) 2002-08-29
KR20040029314A (ko) 2004-04-06
SE0004818D0 (sv) 2000-12-22
HK1056428A1 (en) 2004-02-13

Similar Documents

Publication Publication Date Title
DE60103086T2 (de) Verbesserung von quellcodierungssystemen durch adaptive transposition
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE602004005020T2 (de) Audiosignalsynthese
DE69228211T2 (de) Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE102008015702B4 (de) Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals
DE60212696T2 (de) Bandbreitenvergrösserung für audiosignale
DE60012198T2 (de) Kodierung der hüllkurve des spektrums mittels variabler zeit/frequenz-auflösung
DE3486280T2 (de) Vorrichtung zur Erzeugung von Musiktönen vom Wellenformauslesespeichertyp.
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
EP1853089B1 (de) Verfahren zum Unterdrücken von Rückkopplungen und zur Spektralerweiterung bei Hörvorrichtungen
EP1869671B1 (de) Verfahren und vorrichtung zur geräuschunterdrückung
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE2551632C2 (de) Verfahren zum Zusammensetzen von Sprachnachrichten
DE69629934T2 (de) Umgekehrte transform-schmalband/breitband tonsynthese
WO2007087823A1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE19743662A1 (de) Verfahren und Vorrichtung zur Erzeugung eines bitratenskalierbaren Audio-Datenstroms
DE60024403T2 (de) Verfahren zur extraktion von klangquellen-informationen
DE3228757A1 (de) Verfahren und vorrichtung zur zeitabhaengigen komprimierung und synthese von hoerbaren signalen
DE3019823A1 (de) Datenumsetzer und damit ausgestattete sprachsyntheseanordnung
DE69824613T2 (de) Ein system und verfahren zur prosodyanpassung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition