[go: up one dir, main page]

ES2599007T3 - Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal - Google Patents

Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal Download PDF

Info

Publication number
ES2599007T3
ES2599007T3 ES14738857.3T ES14738857T ES2599007T3 ES 2599007 T3 ES2599007 T3 ES 2599007T3 ES 14738857 T ES14738857 T ES 14738857T ES 2599007 T3 ES2599007 T3 ES 2599007T3
Authority
ES
Spain
Prior art keywords
spectral
frequency
prediction
representation
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14738857.3T
Other languages
English (en)
Inventor
Sascha Disch
Frederik Nagel
Ralf Geiger
Balaji Nagendran Thoshkahna
Konstantin Schmidt
Stefan Bayer
Christian Neukam
Bernd Edler
Christian Helmrich
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2599007T3 publication Critical patent/ES2599007T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Abstract

Aparato para decodificar una senal de audio codificada, que comprende: un decodificador de audio de dominio espectral (602) para generar una primera representacion decodificada de un primer conjunto de primeras porciones espectrales que son valores residuales de prediccion espectral; un regenerador de frecuencia (604) para generar una segunda porcion espectral reconstruida utilizando una primera porcion espectral del primer conjunto de primeras porciones espectrales, en el que la segunda porcion espectral reconstruida y el primer conjunto de primeras porciones espectrales comprenden valores residuales de prediccion espectral; y un filtro de prediccion inversa (606, 616, 622) para realizar una prediccion inversa sobre la frecuencia utilizando los valores residuales de prediccion espectral para el primer conjunto de primeras porciones espectrales y la segunda porcion espectral reconstruida utilizando la informacion del filtro de prediccion (607) incluida en la senal de audio codificada.

Description

5
10
15
20
25
30
35
40
45
50
55
60
Aparato y metodo para codificar y decodificar una senal de audio codificada utilizando modelado de ruido/parche
temporal
DESCRIPCION
Campo de la invencion
La presente invencion se refiere a la codificacion/decodificacion de audio y, en particular, a la codificacion de audio que utiliza Relleno Inteligente de Espacios (IGF).
La codificacion de audio es el dominio de la compresion de la senal que trata el aprovechamiento de la redundancia y la irrelevancia de senales de audio utilizando el conocimiento psicoacustico. Actualmente, los codec de audio generalmente necesitan alrededor de 60 kbps/canal para la codificacion perceptual transparente de casi cualquier tipo de senal de audio. Los codec mas nuevos tienen como objetivo reducir la tasa de bits de codificacion aprovechando las similitudes espectrales en la senal y utilizando tecnicas tales como la extension de ancho de banda (BWE, por sus siglas en ingles). Un esquema de extension de ancho de banda (BWE) utiliza un parametro bajo de tasa de bits establecido para representar los componentes de alta frecuencia (HF) de una senal de audio. El espectro de HF se rellena con el contenido espectral de regiones de baja frecuencia (LF) y la forma espectral, pendiente y continuidad temporal se ajustan para mantener el timbre y el color de la senal original. Estos metodos de extension de ancho de banda (BWE) permiten que los codec de audio mantengan buena calidad a tasas de bits incluso bajas de alrededor de 24 kbps/canal.
El almacenamiento o la transmision de senales de audio a menudo estan sometidos a estrictas limitaciones de tasas de bits. En el pasado, los codificadores se vieron obligados a reducir drasticamente el ancho de banda de audio transmitida cuando solo estaba disponible una tasa de bits muy baja.
Los codec de audio modernos ahora son capaces de codificar senales de banda ancha utilizando los metodos de extension de ancho de banda (BWE) [1]. Estos algoritmos se basan en una representacion parametrica del contenido de alta frecuencia (HF) - que se genera a partir de la parte de baja frecuencia (LF) codificada en forma de onda de la senal decodificada por medio de transposicion a la region espectral de alta frecuencia (HF) (“emparchar”) y la aplicacion de un procesamiento posterior basado en parametros. En los esquemas de extension de ancho de banda (BWE), la reconstruccion de la region espectral de alta frecuencia (HF) por encima de una denominada frecuencia de cruce determinada se basa a menudo en el emparchado espectral. En general, la region de alta frecuencia (HF) esta compuesta de multiples parches adyacentes y cada uno de estos parches se obtiene de regiones de paso de banda (BP) del espectro de baja frecuencia (LF) por debajo de la frecuencia de cruce determinada. Los sistemas del estado actual de la tecnica desempenan con eficiencia el emparchado dentro de una representacion de bancos de filtros, por ejemplo Banco de Filtros Espejo en Cuadratura (QMF, por sus siglas en ingles), copiando un conjunto de coeficientes de subbandas adyacentes desde una region de origen a la region de destino.
Otra tecnica que se encuentra en los codec de audio actuales que aumenta la eficiencia de compresion y permite de esta manera el ancho de banda de audio extendido en tasas de bits bajas es el reemplazo sintetico basado en parametros de partes apropiadas de los espectros de audio. Por ejemplo, las partes de la senal similar a ruido de la senal de audio original pueden reemplazarse sin perdida sustancial de calidad subjetiva por ruido artificial generado en el decodificador y ajustado a escala por parametros de informacion lateral. Un ejemplo es la herramienta de Sustitucion de Ruido Perceptual herramienta (PNS, por sus siglas en ingles) contenida en la Codificacion Avanzada de Audio MPEG-4 (AAC, por sus siglas en ingles) [5].
Otra disposicion que tambien permite un ancho de banda de audio extendido en tasas de bits bajas es la tecnica de relleno de ruido contenida en el Sistema Unificado de Codificacion de Voz y Audio MPEG-D (USAC, por sus siglas en ingles) [7]. Los espacios espectrales (ceros) que se deducen por la zona muerta del cuantificador debido a una cuantificacion demasiado basta, posteriormente se llenan de ruido artificial en el decodificador y se ajustan a escala por un procesamiento posterior basado en parametros.
Otro sistema del estado actual de la tecnica se denomina Reemplazo Espectral Preciso (ASR, por sus siglas en ingles) [2-4]. Ademas de un codec de forma de onda, el reemplazo espectral preciso (ASR) emplea una etapa de smtesis de senal especializada que restaura perceptualmente porciones sinusoidales importantes de la senal en el decodificador. Asimismo, un sistema descrito en [5] se basa en el modelado sinusoidal en la region de alta frecuencia (HF) de un codificador de forma de onda para permitir que el ancho de banda de audio extendido tenga una calidad perceptual adecuada a tasas de bits bajas. Todos estos metodos implican la transformacion de los datos en un segundo dominio aparte de la Transformada de Coseno Discreta Modificada (MDCT, por sus siglas en ingles) y tambien etapas de analisis/smtesis bastante complejas para la conservacion de componentes sinusoidales de alta frecuencia (HF).
5
10
15
20
25
30
35
40
45
50
55
60
La Fig. 13a ilustra un diagrama esquematico de un codificador de audio para una tecnologfa de extension de ancho de banda como, por ejemplo, la que se utiliza en la Codificacion Avanzada de Audio de Alta Eficiencia (HE-AAC, por sus siglas en ingles). Una senal de audio en la lmea 1300 se introduce en un sistema de filtro que comprende un paso bajo 1302 y un paso alto 1304. La senal emitida por el filtro de paso alto 1304 se introduce en un extractor/codificador de parametros 1306. El extractor/codificador de parametros 1306 esta configurado para calcular y codificar parametros tales como, por ejemplo, un parametro de envolvente espectral, un parametro de adicion de ruido, un parametro de armonicos faltantes, o un parametro de filtrado inverso. Estos parametros extrafdos se introducen en un multiplexor de corriente de bits 1308. La senal de salida de paso bajo se introduce en un procesador que generalmente comprende la funcionalidad de un muestreador descendente 1310 y un codificador central 1312. El paso bajo 1302 restringe el ancho de banda para que se codifique en un ancho de banda significativamente menor que el producido en la senal de audio de entrada original en la lmea 1300. Esto proporciona una ganancia de codificacion significativa debido al hecho de que la totalidad de las funcionalidades que se producen en el codificador central solo tienen que operar en una senal con un ancho de banda reducido. Cuando, por ejemplo, el ancho de banda de la senal de audio en la lmea 1300 es de 20 kHz y cuando el filtro de paso bajo 1302 tiene a modo de ejemplo un ancho de banda de 4 kHz, con el fin de cumplir el teorema de muestreo, es teoricamente suficiente que la senal posterior al muestreador descendente tenga una frecuencia de muestreo de 8 kHz, que es una reduccion sustancial de la tasa de muestreo requerida para la senal de audio 1300 que tiene que ser de al menos 40 kHz.
La Fig. 13b ilustra un diagrama esquematico de un decodificador de extension de ancho de banda respectivo. El decodificador comprende un multiplexor de corriente de bits 1320. El demultiplexor de corriente de bits 1320 extrae una senal de entrada para un decodificador central 1322 y una senal de entrada para un decodificador de parametros 1324. Una senal de salida del decodificador central tiene, en el ejemplo anterior, una tasa de muestreo de 8 kHz y, por lo tanto, un ancho de banda de 4 kHz mientras que, para una reconstruccion completa de ancho de banda, la senal de salida de un reconstructor de alta frecuencia 1330 debe ser de 20 kHz lo que requiere una tasa de muestreo de al menos 40 kHz. Con el fin de hacer esto posible, se requiere un procesador de decodificador que tenga la funcionalidad de un muestreador ascendente 1325 y un banco de filtros 1326. El reconstructor de alta frecuencia 1330 recibe entonces la senal de baja frecuencia analizada por frecuencia emitida por el banco de filtros 1326 y reconstruye el rango de frecuencias definido por el filtro de paso alto 1304 de la Fig. 13a utilizando la representacion parametrica de la banda de alta frecuencia. El reconstructor de alta frecuencia 1330 tiene varias funcionalidades tales como la regeneracion del rango de frecuencias superior que utiliza el rango de origen en el rango de baja frecuencia, un ajuste de envolvente espectral, una funcionalidad de adicion de ruido y una funcionalidad para introducir armonicos faltantes en el rango de frecuencia superior y, si se aplica y calcula en el codificador de la Fig. 13a, una operacion de filtrado inverso con el fin de tener en cuenta el hecho de que el rango de frecuencia superior normalmente no es tan tonal como el rango de frecuencia inferior. En la Codificacion Avanzada de Audio de Alta Eficiencia (HE-AAC), los armonicos faltantes se re-sintetizan en el lado del decodificador y se colocan exactamente en el medio de una banda de reconstruccion. Por lo tanto, todas las lmeas de armonicos faltantes que se han determinado en una cierta banda de reconstruccion no se colocan en los valores de frecuencia en donde estaban ubicadas en la senal original. En cambio, dichas lmeas de armonicos faltantes se colocan en frecuencias en el centro de la banda determinada. Por lo tanto, cuando una lmea de armonico faltante en la senal original se coloco muy cerca del lfmite de la banda de reconstruccion en la senal original, el error en la frecuencia introducida al colocar esta lmea de armonico faltante en la senal reconstruida en el centro de la banda esta cerca del 50 % de la banda de reconstruccion individual, para la que se han generado y transmitido parametros.
Ademas, a pesar de que los codificadores centrales de audio tfpicos operan en el dominio espectral, el decodificador central, no obstante, genera una senal de dominio temporal que, a continuacion, es convertida nuevamente en un dominio espectral por la funcionalidad del banco de filtros 1326. Esto introduce retardos de procesamiento adicionales, puede introducir artefactos debido al procesamiento en tandem de la transformacion en primer lugar del dominio espectral en el dominio de frecuencia y nuevamente la transformacion en generalmente un dominio de frecuencia diferente y, por supuesto, esto tambien requiere una cantidad sustancial de complejidad computacional y, por lo tanto, energfa electrica, que representa basicamente un problema cuando se aplica la tecnologfa de extension de ancho de banda en dispositivos moviles como, por ejemplo, telefonos moviles, tabletas o computadoras portatiles, etc.
Los codec de audio actuales realizan la codificacion de audio de baja tasa de bits utilizando la extension de ancho de banda (BWE) como parte integral del esquema de codificacion. Sin embargo, las tecnicas de extension de ancho de banda (BWE) se limitan a reemplazar solo contenido de alta frecuencia (HF). Asimismo, no permiten la codificacion de forma de onda del contenido perceptivamente importante por encima de una frecuencia de cruce determinada. Por lo tanto, los codec de audio contemporaneos, pierden detalle de alta frecuencia (HF) o timbre cuando se implementa la extension de ancho de banda (BWE), ya que la alineacion exacta de los armonicos tonales de la senal no se tiene en cuenta en la mayona de los sistemas.
Otra desventaja de los sistemas de extension de ancho de banda (BWE) del estado actual de la tecnica es la
5
10
15
20
25
30
35
40
45
50
55
60
necesidad de transformacion de la senal de audio en un nuevo dominio para la implementacion de la BWE (por ejemplo, transformacion de la Transformada de Coseno Discreta Modificada (MDCT) al dominio de Filtros Espejo en Cuadratura (QMF). Esto conduce a complicaciones de sincronizacion, complejidad computacional adicional y aumento de requisitos de memoria.
En particular, si se implementa un sistema de extension de ancho de banda en un banco de filtros o el dominio de la transformada de tiempo-frecuencia, solo hay una posibilidad limitada para controlar la forma temporal de la senal de extension de ancho de banda. Generalmente, la granularidad temporal esta limitada por el tamano de salto utilizado entre ventanas adyacentes de la transformada. Esto puede conducir a pre o post-ecos no deseados en el rango espectral de la extension de ancho de banda. Con el fin de aumentar la granularidad temporal se pueden utilizar cuadros de extension de ancho de banda mas cortos o con tamanos de salto mas cortos, si bien esto produce una sobrecarga de tasa de bits debido a que, durante un cierto penodo de tiempo, se debe transmitir un numero mas grande de parametros, generalmente un cierto conjunto de parametros para cada cuadro de tiempo. De lo contrario, si los cuadros de tiempo individuales se hacen demasiado grandes, entonces se generan pre y post-ecos particularmente para las porciones de transicion de una senal de audio.
Un objetivo de la presente invencion consiste en proporcionar un concepto mejorado de codificacion/decodificacion.
Este objetivo se logra mediante un aparato para decodificar una senal de audio codificada de acuerdo con la reivindicacion 1, un aparato para codificar una senal de audio de acuerdo con la reivindicacion 10, un metodo de decodificacion de acuerdo con la reivindicacion 16, un metodo de codificacion de acuerdo con la reivindicacion 18 o un programa informatico de acuerdo con la reivindicacion 19.
La presente invencion se basa en el descubrimiento de que una mejora de la calidad y la reduccion de la tasa de bits espedficamente para senales que comprenden porciones de transicion, como ocurre muy a menudo en las senales de audio, se obtiene combinando la tecnologfa de Modelado de Ruido Temporal (TNS, por sus siglas en ingles) (vease, por ejemplo, el documento US 2006/0122828 A1) o Modelado de Recuadro Temporal (TTS, por sus siglas en ingles) con reconstruccion de alta frecuencia. El procesamiento de Modelado de Ruido Temporal (TNS)/Modelado de Recuadro Temporal (TTS) en el lado del codificador implementado por una prediccion sobre la frecuencia reconstruye la envolvente de tiempo de la senal de audio. Dependiendo de la implementacion, es decir, cuando el filtro de modelado de ruido temporal se determina dentro de un rango de frecuencia no solo abarcando el rango de frecuencia de origen sino tambien el rango de frecuencia de destino para reconstruirse en un decodificador de regeneracion de frecuencia, la envolvente temporal se aplica no solo a la senal de audio central hasta una frecuencia de inicio de relleno de espacios, sino que tambien se aplica la envolvente temporal a los rangos espectrales de segundas porciones espectrales reconstruidas. Por lo tanto, los pre-ecos o los post-ecos que se producinan sin el modelado de recuadro temporal se reducen o eliminan. Esto se logra aplicando una prediccion inversa sobre la frecuencia no solo dentro del rango de frecuencia central hasta una cierta frecuencia de inicio de relleno de espacios sino tambien dentro de un rango de frecuencia por encima del rango de frecuencia central. Para este fin, la regeneracion de frecuencia o la generacion de recuadros de frecuencia se realizan en el lado del decodificador antes de aplicar una prediccion sobre la frecuencia. Sin embargo, la prediccion sobre la frecuencia se puede aplicar ya sea antes o despues del modelado de la envolvente espectral dependiendo de si el calculo de informacion de energfa se ha realizado sobre los valores espectrales residuales posteriores al filtrado o a los valores espectrales (completos) antes del modelado de la envolvente.
El procesamiento del Modelado de Recuadro Temporal (TTS) sobre uno o mas recuadros de frecuencia establece adicionalmente una continuidad de correlacion entre el rango de origen y el rango de reconstruccion o en dos rangos de reconstruccion adyacentes o recuadros de frecuencia.
En una implementacion se prefiere utilizar el filtrado complejo de Modelado de Ruido Temporal (TNS)/Modelado de Recuadro Temporal (TTS). De este modo se evitan los artefactos de solapamiento (temporales) de una representacion real muestreada cnticamente, como la Transformada de Coseno Discreta Modificada (MDCT). Un filtro complejo de Modelado de Ruido Temporal (TNS) se puede calcular en el lado del codificador aplicando no solo una transformada de coseno discreta modificada sino tambien una transformada sinusoidal discreta modificada para obtener adicionalmente una transformada modificada compleja. Sin embargo, solo se transmiten los valores de la transformada de coseno discreta modificada, es decir, la parte real de la transformada compleja. Sin embargo, en el lado del decodificador, es posible estimar la parte imaginaria de la transformada utilizando los espectros de la MDCT de cuadros anteriores o posteriores de modo que, en el lado del decodificador, el filtro complejo se puede aplicar nuevamente en la prediccion inversa sobre la frecuencia y, espedficamente, la prediccion sobre el lfmite entre el rango de origen y el rango de reconstruccion y tambien sobre el lfmite entre los recuadros de frecuencia adyacentes de la frecuencia dentro del rango de reconstruccion.
Un aspecto adicional se basa en el descubrimiento de que los problemas relacionados con la separacion de la extension de ancho de banda por un lado y la codificacion central por otro lado se pueden abordar y superar realizando la extension de ancho de banda en el mismo dominio espectral en el que opera el decodificador central.
5
10
15
20
25
30
35
40
45
50
55
60
Por lo tanto, se proporciona un decodificador central de tasa completa que codifica y decodifica todo el rango de la senal de audio. Esto no genera la necesidad de un muestreador descendente en el lado del codificador y un muestreador ascendente en el lado del decodificador. En cambio, todo el procesamiento se realiza en toda la tasa de muestreo o en todo el dominio de ancho de banda. Con el fin de obtener una alta ganancia de codificacion, la senal de audio se analiza con el fin de encontrar un primer conjunto de primeras porciones espectrales que tiene que codificarse con una alta resolucion, en donde este primer conjunto de primeras porciones espectrales puede incluir, en una forma de realizacion, porciones tonales de la senal de audio. Por otra parte, los componentes no tonales o con ruido en la senal de audio que constituyen un segundo conjunto de segundas porciones espectrales se codifican parametricamente con baja resolucion espectral. Entonces, la senal de audio codificada solo requiere que el primer conjunto de primeras porciones espectrales este codificado de manera que conserve la forma de onda con una alta resolucion espectral y, adicionalmente, que el segundo conjunto de segundas porciones espectrales este codificado parametricamente con una baja resolucion utilizando “recuadros” de frecuencia obtenidos del primer conjunto. En el lado del decodificador, el decodificador central, que es un decodificador de banda completa, reconstruye el primer conjunto de primeras porciones espectrales de manera que conserve la forma de onda, es decir, desconociendo si hay una regeneracion de frecuencia adicional. Sin embargo, el espectro asf generado tiene un monton de espacios espectrales. Estos espacios se rellenan posteriormente con la tecnologfa de relleno inteligente de espacios (IGF, por sus siglas en ingles) de la invencion utilizando una regeneracion de frecuencia que aplica datos parametricos por un lado, y que utiliza un rango espectral de origen, es decir, primeras porciones espectrales reconstruidas por el decodificador de audio de tasa completa, por otro lado.
En otras formas de realizacion, las porciones espectrales, que se reconstruyen por relleno de ruido solamente en lugar de replicacion de ancho de banda o relleno de recuadros de frecuencia, constituyen un tercer conjunto de terceras porciones espectrales. Debido al hecho de que el concepto de codificacion opera en un dominio unico para la codificacion/decodificacion central por un lado, y la regeneracion de frecuencia por otro lado, el relleno inteligente de espacios (IGF) no solo se limita a llenar un rango de frecuencia superior sino que puede llenar rangos de frecuencia inferiores, ya sea por relleno de ruido sin regeneracion de frecuencia o por regeneracion de frecuencia utilizando un recuadro de frecuencia en un rango de frecuencia diferente.
Asimismo, se insiste en que una informacion sobre energfas espectrales, una informacion sobre energfas individuales o una informacion de energfa individual, una informacion sobre una energfa de conservacion o una informacion de energfa de conservacion, una informacion sobre una energfa de recuadro o una informacion de energfa de recuadro, o una informacion sobre una energfa faltante o una informacion de energfa faltante pueden comprender no solo un valor de energfa sino tambien un valor de amplitud (por ejemplo, absoluto), un valor de nivel o cualquier otro valor, del que se puede obtener un valor de energfa final. Por lo tanto, la informacion sobre una energfa puede comprender, por ejemplo, el valor de energfa propiamente dicho, y/o un valor de un nivel y/o de una amplitud y/o de una amplitud absoluta.
Un aspecto adicional se basa en el descubrimiento de que la situacion de correlacion no solo es importante para el rango de origen, sino tambien es importante para el rango de destino. Ademas, la presente invencion reconoce el hecho de que pueden ocurrir diferentes situaciones de correlacion en el rango de origen y en el rango de destino. Cuando se considera, por ejemplo, una senal de voz con ruido de alta frecuencia, puede ocurrir que la banda de baja frecuencia que comprende la senal de voz con un pequeno numero de armonicos superiores este altamente correlacionada en el canal izquierdo y el canal derecho, cuando el altavoz se coloca en el medio. La porcion de alta frecuencia, sin embargo, puede estar fuertemente correlacionada debido al hecho de que podna haber un ruido de alta frecuencia diferente en el lado izquierdo en comparacion con otro ruido de alta frecuencia o ningun ruido de alta frecuencia en el lado derecho. Por lo tanto, cuando se realiza una operacion simple de relleno de espacios que ignora esta situacion, entonces la porcion de alta frecuencia estana correlacionada tambien, y esto podna generar graves artefactos de segregacion espacial en la senal reconstruida. Con el fin de abordar esta cuestion, los datos parametricos para una banda de reconstruccion o, en general, para el segundo conjunto de segundas porciones espectrales que tiene que reconstruirse utilizando un primer conjunto de primeras porciones espectrales, se calculan para identificar, ya sea una primera o una segunda representacion de dos canales, diferente para la segunda porcion espectral o, dicho de otra manera, para la banda de reconstruccion. Por lo tanto, en el lado del codificador se calcula una identificacion de dos canales para las segundas porciones espectrales, es decir, para las porciones para las que se calcula adicionalmente la informacion de energfa para las bandas de reconstruccion. A continuacion, un regenerador de frecuencia en el lado del decodificador regenera una segunda porcion espectral en funcion de una primera porcion del primer conjunto de primeras porciones espectrales, es decir, el rango de origen y los datos parametricos para la segunda porcion tal como la informacion de energfa de la envolvente espectral o cualquier otro dato de la envolvente espectral y, adicionalmente, dependiendo de la identificacion de dos canales para la segunda porcion, es decir, para esta banda de reconstruccion bajo reconsideracion.
La identificacion de dos canales se transmite preferentemente como una etiqueta para cada banda de reconstruccion y estos datos se transmiten desde un codificador a un decodificador y el decodificador a continuacion decodifica la senal central indicada preferentemente por etiquetas calculadas para las bandas centrales. A continuacion, en una implementacion, la senal central se almacena en ambas representaciones estereo (por
5
10
15
20
25
30
35
40
45
50
55
60
ejemplo, izquierda/derecha y media/lateral) y, para el relleno de recuadros de frecuencia de relleno inteligente de espacios (IGF), se elige la representacion de recuadros de origen para adaptar la representacion de recuadros de destino indicada por las etiquetas de identificacion de dos canales para el relleno inteligente de espacios o las bandas de reconstruccion, es decir, para el rango de destino.
Se hace hincapie en que este procedimiento no solo funciona para las senales estereo, es decir, por un canal izquierdo y el canal derecho, sino que tambien funciona para las senales multicanal. En el caso de las senales multicanal se pueden procesar varios pares de canales diferentes, por ejemplo como un canal izquierdo y un canal derecho como un primer par, un canal envolvente izquierdo y un canal envolvente derecho como el segundo par y un canal central y un canal LFE como el tercer par. Otras formaciones de pares se pueden determinar para los formatos de canal de salida superiores tales como 7.1, 11.1 y asf sucesivamente.
Un aspecto adicional se basa en el descubrimiento de que ciertas alteraciones en la calidad del audio se pueden resolver mediante la aplicacion de un esquema de relleno de recuadros de frecuencia adaptativa de la senal. Para este fin se lleva a cabo un analisis en el lado del codificador con el fin de encontrar el mejor candidato de region de origen de adaptacion para una cierta region de destino. Se genera y transmite como informacion lateral al decodificador una informacion de adaptacion que identifica para una region de destino una determinada region de origen junto con opcionalmente alguna informacion adicional. El decodificador aplica entonces una operacion de relleno de recuadros de frecuencia utilizando la informacion de adaptacion. Para este fin, el decodificador lee la informacion de adaptacion a partir de la corriente de datos o archivo de datos transmitidos y accede a la region de origen identificada para una determinada banda de reconstruccion y, si esta indicado en la informacion de adaptacion, realiza ademas algun procesamiento de estos datos de region de origen para generar datos espectrales en bruto para la banda de reconstruccion. Entonces, este resultado de la operacion de llenado de recuadros de frecuencia, es decir, los datos espectrales en bruto para la banda de reconstruccion, se modela utilizando informacion de la envolvente espectral con el fin de obtener finalmente una banda de reconstruccion que comprenda las primeras porciones espectrales asf como tambien las porciones tonales. Estas porciones tonales, sin embargo, no se generan por el esquema de relleno de recuadros adaptativo, sino que estas primeras porciones espectrales se emiten por el decodificador de audio o el decodificador central directamente.
El esquema de seleccion de recuadros espectral adaptativo puede operar con baja granularidad. En esta implementacion, una region de origen se subdivide en regiones de origen generalmente superpuestas y la region de destino o las bandas de reconstruccion estan dadas por las regiones de destino de frecuencia que no se superponen. Entonces, las similitudes entre cada region de origen y cada region de destino se determinan en el lado del codificador y el mejor par de adaptacion de una region de origen y la region de destino se identifica por la informacion de adaptacion y, en el lado del decodificador, la region de origen identificada en la informacion de adaptacion se utiliza para la generacion de datos espectrales en bruto para la banda de reconstruccion.
Con el fin de obtener una granularidad mas alta, a cada region de origen se le permite cambiar con el fin de obtener un cierto retardo cuando las similitudes son maximas. Este retardo puede ser tan preciso como un intervalo de frecuencia y permite incluso una mejor adaptacion entre una region de origen y la region de destino.
Asimismo, ademas de solo identificar un mejor par de adaptacion, este retardo de correlacion tambien puede transmitirse dentro de la informacion de adaptacion y, adicionalmente, incluso puede transmitirse un signo. Cuando se determina que la senal es negativa en el lado del codificador, a continuacion tambien se transmite una etiqueta de signo correspondiente dentro de la informacion de adaptacion y, en el lado del decodificador, los valores espectrales region de la region de origen se multiplican por “-1” o, en una representacion compleja, se “hacen girar” a 180 grados.
Una implementacion adicional de la presente invencion aplica una operacion de blanqueo de recuadros. El blanqueo de un espectro quita la informacion de envolvente espectral en bruto y enfatiza la estructura precisa espectral que es de interes principal para la evaluacion de la similitud de recuadros. Por lo tanto, un recuadro de frecuencia por un lado y/o la senal de origen por otro lado se blanquean antes de calcular una medida de correlacion cruzada. Cuando solo se blanquea el recuadro utilizando un procedimiento predefinido, se transmite una etiqueta de blanqueo que indica al decodificador que se aplicara el mismo proceso de blanqueo predefinido al recuadro de frecuencia dentro de IGF.
En cuanto a la seleccion de recuadros, se prefiere utilizar el retardo de la correlacion para desplazar espectralmente el espectro regenerado por un numero entero de intervalos de transformacion. Dependiendo de la transformacion subyacente, el desplazamiento espectral puede requerir correcciones de adicion. En caso de retardos impares, el recuadro se modula adicionalmente a traves de la multiplicacion por una secuencia temporal alternativa de -1/1 para compensar la representacion de frecuencia inversa de cualquier otra banda dentro de la Transformada de Coseno Discreta Modificada (MDCT). Ademas, el signo del resultado de la correlacion se aplica cuando se genera el recuadro de frecuencia.
5
10
15
20
25
30
35
40
45
50
55
60
Asimismo, se prefiere utilizar el recorte y la estabilizacion de recuadros con el fin de asegurar que se eviten los artefactos creados por el cambio rapido de regiones de origen para la misma region de reconstruccion o la region de destino. Para ello se realiza un analisis de similitud entre las diferentes regiones de origen identificadas y cuando un recuadro de origen es similar a otros recuadros de origen con una similitud por encima de un umbral, entonces este recuadro de origen puede retirarse del conjunto de recuadros de origen potenciales, ya que esta muy correlacionado con otros recuadros de origen. Ademas, como un tipo de estabilizacion de seleccion de recuadros, se prefiere mantener el orden del cuadro anterior si ninguno de los recuadros de origen en el cuadro actual se correlaciona (mejor que un umbral determinado) con los recuadros de destino en el cuadro actual.
El sistema de codificacion de audio codifica de manera eficiente las senales de audio arbitrarias en un rango amplio de tasas de bits. Por consiguiente, para las tasas altas de bits, el sistema de la invencion converge con la transparencia, para tasas bajas de bits se reduce al mmimo la molestia perceptual. Por lo tanto, la parte principal de tasa de bits disponible se utiliza para codificar en forma de onda solo la estructura perceptualmente mas relevante de la senal en el codificador, y los espacios espectrales resultantes se rellenan en el decodificador con el contenido de la senal que se aproxima en lmeas generales al espectro original. Un presupuesto de bits muy limitado se consume para controlar el denominado Relleno Inteligente de Espacios (IGF) basado en parametros por informacion lateral especializada transmitida desde el codificador al decodificador.
A continuacion, las formas de realizacion preferidas de la presente invencion se describiran con referencia a los dibujos adjuntos, en los cuales:
La
Fig. 1a
La
Fig. 1b
La
Fig. 2a
La
Fig. 2b
La
Fig. 3a
La
Fig. 3b
La
Fig. 4a
La
Fig. 4b
La
Fig. 5a
La
Fig. 5b
La
Fig. 5c
La
Fig. 6a
La
Fig. 6b
La
Fig. 6c
La
Fig. 7a
La
Fig. 7b
La
Fig. 7c
La
Fig. 7d
La
Fig. 7e
La
Fig. 8a
La
Fig. 8b
La
Fig. 8c
La
Fig. 8d
La
Fig. 8e
La
Fig. 9a
La
Fig. 9b
ilustra un aparato para codificar una senal de audio;
ilustra un decodificador para decodificar una senal de audio codificada que concuerda con el codificador de la Fig. 1a;
ilustra una implementacion preferida del decodificador; ilustra una implementacion preferida del codificador;
ilustra una representacion esquematica de un espectro generado por el decodificador de dominio espectral de la Fig. 1b;
ilustra una tabla que indica la relacion entre los factores de ajuste de escala para las bandas de factor de escala y las energfas para las bandas de reconstruccion y la informacion de relleno de ruido para una banda de relleno de ruido;
ilustra la funcionalidad del codificador de dominio espectral para aplicar la seleccion de porciones espectrales en el primer y el segundo conjunto de porciones espectrales; ilustra una implementacion de la funcionalidad de la Fig. 4a;
ilustra una funcionalidad de un codificador de la Transformada de Coseno Discreta Modificada (MDCT);
ilustra una funcionalidad del decodificador con una tecnologfa de MDCT; ilustra una implementacion del regenerador de frecuencia;
ilustra un codificador de audio con la funcionalidad de modelado de ruido temporal/modelado de recuadro temporal;
ilustra un decodificador con la tecnologfa de modelado de ruido temporal/modelado de recuadro temporal;
ilustra una funcionalidad adicional de modelado de ruido temporal/modelado de recuadro temporal con un orden diferente del filtro de prediccion espectral y el modelador espectral; ilustra una implementacion de la funcionalidad del modelado de recuadro temporal (TTS); ilustra una implementacion del decodificador que se adapta a la implementacion del codificador de la Fig. 7a;
ilustra un espectrograma de una senal original y una senal extendida sin Modelado de Recuadro Temporal (TTS);
ilustra una representacion de frecuencia que ilustra la correspondencia entre las frecuencias de relleno inteligente de espacios y las energfas de modelado de recuadro temporal; ilustra un espectrograma de una senal original y una senal extendida con Modelado de Recuadro Temporal (TTS);
ilustra un decodificador de dos canales con regeneracion de frecuencia;
ilustra una tabla que ilustra combinaciones diferentes de las representaciones y los rangos de origen/destino;
ilustra un diagrama de flujo que ilustra la funcionalidad del decodificador de dos canales con regeneracion de frecuencia de la Fig. 8a;
ilustra una implementacion mas detallada del decodificador de la Fig. 8a;
ilustra una implementacion de un codificador para el procesamiento de dos canales que se
decodificara por el decodificador de la Fig. 8a;
ilustra un decodificador con la tecnologfa de regeneracion de frecuencia utilizando valores de energfa para el rango de frecuencia de regeneracion;
ilustra una implementacion mas detallada del regenerador de frecuencia de la Fig. 9a;
5
10
15
20
25
30
35
40
45
50
55
60
ilustra un esquema que ilustra la funcionalidad de la Fig. 9b; ilustra una implementacion adicional del decodificador de la Fig. 9a;
ilustra un diagrama de bloques de un codificador que concuerda con el decodificador de la Fig. 9a;
ilustra un diagrama de bloques para ilustrar una funcionalidad adicional del calculador de parametros de la Fig. 10a;
ilustra un diagrama de bloques para ilustrar una funcionalidad adicional del calculador de parametros de la Fig. 10a;
ilustra un diagrama de bloques que ilustra una funcionalidad adicional del calculador de parametros de la Fig. 10a;
ilustra un decodificador adicional que tiene una identificacion espedfica del rango de origen
para una operacion de relleno de recuadros espectrales en el decodificador;
ilustra la funcionalidad adicional del regenerador de frecuencia de la Fig. 11 a;
ilustra un codificador utilizado para cooperar con el decodificador de la Fig. 11a;
ilustra un diagrama de bloques de una implementacion del calculador de parametros de la Fig.
11c;
ilustran esquemas de frecuencia para ilustrar un rango de origen y un rango de destino; ilustra un esquema de ejemplo de correlacion de dos senales; ilustra un codificador de la tecnica anterior con extension de ancho de banda; y ilustra un decodificador de la tecnica anterior con extension de ancho de banda.
convertidor de espectro de tiempo 100 para convertir una senal de audio que tiene una tasa de muestreo en una representacion espectral 101 emitida por el convertidor de espectro de tiempo. El espectro 101 se introduce en un analizador espectral 102 para analizar la representacion espectral 101. El analizador espectral 101 esta configurado para determinar un primer conjunto de primeras porciones espectrales 103 para codificarse con una primera resolucion espectral y un segundo conjunto diferente de segundas porciones espectrales 105 para codificarse con una segunda resolucion espectral. La segunda resolucion espectral es mas pequena que la primera resolucion espectral. El segundo conjunto de segundas porciones espectrales 105 se introduce en un calculador de parametros o codificador parametrico 104 para calcular la informacion de envolvente espectral que tiene la segunda resolucion espectral. Asimismo, se proporciona un codificador de audio de dominio espectral 106 para generar una primera representacion codificada 107 del primer conjunto de primeras porciones espectrales que tiene la primera resolucion espectral. Ademas, el calculador de parametros/codificador parametrico 104 esta configurado para generar una segunda representacion codificada 109 del segundo conjunto de segundas porciones espectrales. La primera representacion codificada 107 y la segunda representacion codificada 109 se introducen en un multiplexor de corriente de bits o formador de corriente de bits 108 y el bloque 108 finalmente emite la senal de audio codificada para la transmision o el almacenamiento en un dispositivo de almacenamiento.
La
Fig. 9c
La
Fig. 9d
La
Fig. 10a
La
Fig. 10b
La
Fig. 10c
La
Fig. 10d
La
Fig. 11a
La
Fig. 11b
La
Fig. 11c
La
Fig. 11d
La
Fig. 12a y12b
La
Fig. 12c
La
Fig. 13a
La
Fig. 13b
La
Fig 1a ilustra
Generalmente, una primera porcion espectral tal como 306 de la Fig. 3a estara rodeada por dos segundas porciones espectrales tales como 307a, 307b. Esto no se aplica en la Codificacion Avanzada de Audio de Alta Eficiencia (HE AAC), en donde el rango de frecuencia del codificador central es de banda limitada
La Fig. 1b ilustra un decodificador que concuerda con el codificador de la Fig. 1a. La primera representacion codificada 107 se introduce en un decodificador de audio de dominio espectral 112 para generar una primera representacion decodificada de un primer conjunto de primeras porciones espectrales, teniendo la representacion decodificada una primera resolucion espectral. Ademas, la segunda representacion codificada 109 se introduce en un decodificador parametrico 114 para generar una segunda representacion decodificada de un segundo conjunto de segundas porciones espectrales que tiene una segunda resolucion espectral que es mas baja que la primera resolucion espectral.
El decodificador comprende ademas un regenerador de frecuencia 116 para regenerar una segunda porcion espectral reconstruida que tiene la primera resolucion espectral que utiliza una primera porcion espectral. El regenerador de frecuencia 116 realiza una operacion de relleno de recuadros, es decir utiliza un recuadro o una porcion del primer conjunto de primeras porciones espectrales y copia este primer conjunto de primeras porciones espectrales en el rango de reconstruccion o banda de reconstruccion que tiene la segunda porcion espectral y generalmente lleva a cabo el modelado de la envolvente espectral u otra operacion indicada por la segunda representacion decodificada emitida por el decodificador parametrico 114, es decir utilizando la informacion sobre el segundo conjunto de segundas porciones espectrales. El primer conjunto decodificado de primeras porciones espectrales y el segundo conjunto reconstruido de porciones espectrales indicado en la salida del regenerador de frecuencia 116 en la lmea 117 se introduce en un convertidor de espectro-tiempo 118 configurado para convertir la primera representacion decodificada y la segunda porcion espectral reconstruida en una representacion de tiempo 119, teniendo la representacion de tiempo una tasa alta de muestreo determinada.
La Fig. 2b ilustra una implementacion del codificador de la Fig. 1a. Una senal de entrada de audio 99 se introduce en
5
10
15
20
25
30
35
40
45
50
55
60
un banco de filtros de analisis 220 correspondiente al convertidor de espectro de tiempo 100 de la Fig. 1a. A continuacion se realiza la operacion de modelado de ruido temporal en el bloque de modelado de ruido temporal (TNS) 222. Por lo tanto, la entrada en el analizador espectral 102 de la Fig. 1a correspondiente a un enmascaramiento tonal de bloque 226 de la Fig. 2b pueden ser valores espectrales completes, cuando no se aplica la operacion de modelado de ruido temporal/modelado de recuadro temporal o pueden ser valores residuales espectrales, cuando se aplica la operacion de modelado de ruido temporal (TNS) como se ilustra en la Fig. 2b, bloque 222. Para las senales de dos canales o senales multicanal se puede realizar ademas una codificacion conjunta de canal 228, por lo que el codificador de dominio espectral 106 de la Fig. 1a puede comprender el bloque de codificacion conjunta de canal 228. Asimismo, se proporciona un codificador por entropfa 232 para realizar una compresion de datos sin perdidas que es tambien una porcion del codificador de dominio espectral 106 de la Fig. 1a.
El analizador espectral/enmascaramiento tonal 226 separa la salida del bloque de modelado de ruido temporal (TNS) 222 en la banda central y los componentes tonales correspondientes al primer conjunto de primeras porciones espectrales 103 y los componentes residuales correspondientes al segundo conjunto de segundas porciones espectrales 105 de la Fig. 1a. El bloque 224 indicado como la codificacion de extraccion de parametros de relleno inteligente de espacios (IGF) corresponde al codificador parametrico 104 de la Fig. 1a y el multiplexor de la corriente de bits 230 corresponde al multiplexor de corriente de bits 108 de la Fig. 1a.
Preferentemente, el banco de filtros de analisis 222 se implementa como una MDCT (banco de filtros de la transformada de coseno discreta modificada) y la MDCT se utiliza para transformar la senal 99 en un dominio de frecuencia temporal con la transformada de coseno discreta modificada que actua como la herramienta de analisis de frecuencia.
El analizador espectral 226 aplica preferentemente un enmascaramiento de tonalidad. Esta etapa de estimacion de enmascaramiento de tonalidad se utiliza para separar los componentes tonales de los componentes similares a ruido en la senal. Esto permite que el codificador central 228 codifique todos los componentes tonales con un modulo psicoacustico. La etapa de estimacion de enmascaramiento de tonalidad se puede implementar de muchas maneras diferentes y se implementa preferentemente de manera similar en su funcionalidad a la etapa de estimacion de pista sinusoidal utilizada en el modelado sinusoidal y de ruido para la codificacion de voz/audio [8, 9] o un codificador de audio basado en el modelo HILN descrito en [10]. Preferentemente se utiliza una implementacion que es facil de implementar sin la necesidad de mantener trayectorias de nacimiento-muerte, pero tambien se puede utilizar cualquier otro detector de tonalidad o ruido.
El modulo de relleno inteligente de espacios (IGF) calcula la similitud que existe entre una region de origen y una region de destino. La region de destino estara representada por el espectro de la region de origen. La medida de la similitud entre las regiones de origen y de destino se realiza utilizando un enfoque de correlacion cruzada. La region de destino se divide en nTar recuadros de frecuencia que no se superponen. Para cada recuadro en la region de destino, nSrc se crea un recuadro de origen a partir de una frecuencia fija de inicio. Estos recuadros de origen se superponen por un factor entre 0 y 1, en donde 0 significa el 0 % de solapamiento y 1 significa el 100 % de solapamiento. Cada uno de estos recuadros de origen esta correlacionado con el recuadro de destino en diversos retardos para encontrar el recuadro de origen que se adapte mejor al recuadro de destino. El mejor numero de recuadro de adaptacion se almacena en tileNum[idx_tar], el retardo en el que se correlaciona mejor con el objetivo se almacena en xcorr_lag[idx_tar][idx_src] y el signo de la correlacion se almacena en xcorr_sign[idx_tar][idx_src]. En caso de que la correlacion sea muy negativa, el recuadro de origen debe multiplicarse por -1 antes del proceso de relleno de recuadro en el decodificador. El modulo de relleno inteligente de espacios (IGF) tambien se encarga de no sobrescribir los componentes tonales en el espectro ya que los componentes tonales se conservan utilizando el enmascaramiento de tonalidad. Se utiliza un parametro de energfa por bandas para almacenar la energfa de la region de destino que permita reconstruir el espectro con precision.
Este metodo tiene ciertas ventajas en comparacion con la SBR clasica [1] en donde la cuadncula de armonicos de una senal multitono se conserva por el codificador central en tanto que solo los espacios entre las sinusoides se llenan con el mejor “ruido modelado” de adaptacion de la region de origen. Otra ventaja de este sistema en comparacion con ASR (Reemplazo Espectral Preciso) [2-4] es la ausencia de una etapa de smtesis de la senal que crea las porciones importantes de la senal en el decodificador. En cambio, esta tarea es asumida por el codificador central, lo que permite la conservacion de los componentes importantes del espectro. Otra ventaja del sistema propuesto es la escalabilidad continua que ofrecen las caractensticas. Solo el uso de tileNum[idx_tar] y xcorr_lag = 0, para cada recuadro se denomina adaptacion de granularidad en bruto y se puede utilizar para tasas bajas de bits mientras que el uso de la variable xcorr_lag para cada recuadro permite adaptar mejor los espectros de destino y de origen.
Ademas, se propone una tecnica de estabilizacion de eleccion de recuadros que elimina los artefactos de dominio de frecuencia tales como trino y ruido musical.
En caso de pares de canales estereo se aplica un procesamiento de estereo conjunto adicional. Esto es necesario,
5
10
15
20
25
30
35
40
ya que para un determinado rango de destino, la senal puede ser una fuente de sonido en panoramica y altamente correlacionada. En caso de que las regiones de origen elegidas para esta region en particular no esten bien correlacionadas, a pesar de que las energias se adaptan a las regiones de destino, la imagen espacial puede sufrir debido a las regiones de origen no correlacionadas. El codificador analiza cada banda de energia de la region de destino, por lo general realizando una correlation cruzada de los valores espectrales y si se supera un determinado umbral, establece una etiqueta conjunta para esta banda de energia. En el decodificador, las bandas de energia de los canales izquierdo y derecho se tratan individualmente si no se establece esta etiqueta conjunta de estereo. En caso de que se establezca la etiqueta de estereo conjunto, tanto las energias como el emparchado se realizan en el dominio de estereo conjunto. La information de estereo conjunto para las regiones de relleno inteligente de espacios (IGF) se senala de manera similar a la informacion conjunta de estereo para la codification central, que incluye una etiqueta que indica en el caso de la prediction si la direction de la prediction es de mezcla descendente a residual o viceversa.
Las energias pueden calcularse a partir de las energias transmitidas en el dominio L/R.
midNrg[k] = leftNrg[k] + rightNrg[k];
sideNrg[k] = leftNrg[k] - rightNrg[k];
en donde k es el mdice de frecuencia en el dominio de la transformada.
Otra solution consiste en calcular y transmitir las energias directamente en el dominio de estereo conjunto para las bandas en donde el estereo conjunto esta activo, por lo que no es necesaria la transformation de energia adicional en el lado del decodificador.
Los recuadros de origen se crean siempre de acuerdo con la Matriz Media/Lateral:
midTile\k\ =0,5 • (leftTile[k] + rightTile\k]) sideTile[k] =0,5 • (leftTile[k] - rightTile[k])
Ajuste de energia:
midTile[k] = midTile[k] * midNrg[k]\
sldeTile[k] = sideTile[k] * sideNrg[k\,
Transformacion conjunta de estereo -> LR:
Si no se codifica ningun parametro de prediccion adicional:
leftTile[k ] = midTile[k ] + sideTile[k ] rightTile[k ] = midTile[k ] - sideTile[k ]
Si se codifica un parametro de prediccion adicional y si la direccion senalada es del medio al lateral:
sideTile[k] =sideTile[k] - predictionCoeff ■ midTile[k] leftTile[k ] =midTile[k ] + sideTile[k ] rightTile[k ] =midTile[k ] - sideTile[k ]
Si la direccion senalada es del lateral al medio:
midTile\[k] =midTile[k] - predictionCoeff ■ sideTile[k] leftTile[k ] =midTile\[k ] - sideTile[k ] rightTile [k ] =midTile\[k ] + sideTile[k ]
5
10
15
20
25
30
35
40
45
50
55
60
Este procesamiento asegura que a partir de los recuadros utilizados para regenerar regiones de destino altamente correlacionadas y regiones de destino en panoramica, los canales izquierdo y derecho resultantes siguen representando una fuente de sonido correlacionada y en panoramica incluso si las regiones de origen no estan correlacionadas, conservando la imagen estereo para dichas regiones.
En otras palabras, en la corriente de bits se transmiten etiquetas conjuntas de estereo que indican si se utilizara L/R o M/S como un ejemplo para la codificacion conjunta de estereo general. En el decodificador, en primer lugar, la senal central se decodifica como lo indican las etiquetas conjuntas de estereo para las bandas centrales. En segundo lugar, la senal central se almacena en ambas representaciones L/R y M/S. Para el relleno de recuadros del relleno inteligente de espacios (IGF), la representacion de recuadros de origen se selecciona para ajustar la representacion de recuadros de destino como lo indica la informacion conjunta de estereo para las bandas de IGF.
El modelado de ruido temporal (TNS) es una tecnica estandar y forma parte de la Codificacion Avanzada de Audio (AAC) [11 - 13]. El modelado de ruido temporal (TNS) se puede considerar como una extension del esquema basico de un codificador perceptual, mediante la insercion de un paso de procesamiento opcional entre el banco de filtros y la etapa de cuantificacion. La tarea principal del modulo de modelado de ruido temporal (TNS) consiste en ocultar el ruido de cuantificacion producido en la region de enmascaramiento temporal de senales de transicion y, por lo tanto, produce un esquema de codificacion mas eficiente. En primer lugar, el modelado de ruido temporal (TNS) calcula un conjunto de coeficientes de prediccion utilizando “prediccion directa” en el dominio de la transformada, por ejemplo, la Transformada de Coseno Discreta Modificada (MDCT). Estos coeficientes se utilizan a continuacion para aplanar la envolvente temporal de la senal. A medida que la cuantificacion afecta el espectro filtrado del modelado de ruido temporal (TNS), tambien el ruido de cuantificacion es temporalmente plano. Mediante la aplicacion del filtrado inverso del modelado de ruido temporal (TNS) en el lado del decodificador, el ruido de cuantificacion se modela de acuerdo con la envolvente temporal del filtro de TNS y, por lo tanto, el ruido de cuantificacion se enmascara por el transitorio.
El relleno de inteligente de espacios (IGF) se basa en una representacion de MDCT. Preferentemente, para la codificacion eficiente se tienen que utilizar bloques largos de aproximadamente 20 ms. Si la senal dentro de dicho bloque largo contiene transitorios, en las bandas espectrales del relleno inteligente de espacios (IGF) ocurren pre- y post-ecos audibles debido al relleno de recuadros. La Fig. 7c muestra un efecto de pre-eco tfpico antes del inicio del transitorio debido al relleno inteligente de espacios (IGF). En el lado izquierdo se muestra el espectrograma de la senal original y en el lado derecho se muestra el espectrograma de la senal extendida de ancho de banda sin filtrado del modelado de ruido temporal (TNS).
Este efecto de pre-eco se reduce utilizando TNS en el contexto del relleno inteligente de espacios (IGF). En esta instancia, el TNS se utiliza como una herramienta de modelado de recuadro temporal (TTS) ya que la regeneracion espectral en el decodificador se lleva a cabo sobre la senal residual del TNS. Los coeficientes de prediccion del TTS requeridos se calculan y aplican utilizando el espectro completo en el lado del codificador como es habitual. Las frecuencias de inicio y fin del modelado de ruido temporal (TNS)/modelado de recuadro temporal (TTS) no resultan afectadas por la frecuencia de inicio del relleno inteligente de espacios (IGF) fiGFstart de la herramienta de IGF. En comparacion con el modelado de ruido temporal (TNS) de la tecnica anterior, la frecuencia de fin del modelado de recuadro temporal (TTS) aumenta a la frecuencia de fin de la herramienta de relleno inteligente de espacios (IGF), que es mayor que fiGFstart . En el lado del decodificador se aplican los coeficientes de TNS/TTS sobre el espectro completo nuevamente, es decir el espectro central mas el espectro regenerado mas los componentes tonales del mapa de tonalidad (vease la Fig. 7e). La aplicacion de modelado de recuadro temporal (TTS) es necesaria para formar la envolvente temporal del espectro regenerado para adaptarse a la envolvente de la senal original nuevamente. Por lo tanto, los pre-ecos ilustrados se reducen. Adicionalmente, todavfa modela el ruido de cuantificacion en la senal por debajo fiGFstart como es habitual en el modelado de ruido temporal (TNS).
En los decodificadores de la tecnica anterior, el emparchado espectral en una senal de audio altera la correlacion espectral en los lfmites de parche y, por lo tanto, afecta la envolvente temporal de la senal de audio introduciendo dispersion. Por lo tanto, otra ventaja de la aplicacion del relleno de recuadros del relleno inteligente de espacios (IGF) en la senal residual es que, despues de la aplicacion del filtro de modelado, los lfmites del recuadro se correlacionan perfectamente, lo que resulta en una reproduccion temporal mas fiel de la senal.
En un codificador de la invencion, el espectro que ha sido sometido al filtrado de TNS/TTS, el procesamiento de enmascaramiento de tonalidad y la estimacion de parametros de relleno inteligente de espacios (IGF), carece de cualquier senal por encima de la frecuencia de inicio de IGF excepto los componentes tonales. Este espectro disperso esta codificado ahora por el codificador central utilizando los principios de codificacion aritmetica y codificacion predictiva. Estos componentes codificados junto con los bits de senalizacion forman la corriente de bits del audio.
La Fig. 2a ilustra la implementacion correspondiente del decodificador. La corriente de bits en la Fig. 2a
5
10
15
20
25
30
35
40
45
50
55
60
correspondiente a la senal de audio codificada se introduce en el demultiplexor/decodificador que estana conectado, con respecto a la Fig. 1b, a los bloques 112 y 114. El demultiplexor de corriente de bits separa la senal de audio de entrada en la primera representacion codificada 107 de la Fig. 1b y la segunda representacion codificada 109 de la Fig. 1b. La primera representacion codificada que tiene el primer conjunto de primeras porciones espectrales se introduce en el bloque de decodificacion conjunta de canales 204 correspondiente al decodificador de dominio espectral 112 de la Fig. 1b. La segunda representacion codificada se introduce en el decodificador parametrico 114 que no se ilustra en la Fig. 2a y a continuacion se introduce en el bloque de relleno inteligente de espacios (IGF) 202 correspondiente al regenerador de frecuencia 116 de la Fig. 1b. El primer conjunto de primeras porciones espectrales necesario para la regeneracion de frecuencia se introduce en el bloque de IGF 202 a traves de la lmea 203. Asimismo, despues de la decodificacion conjunta de canales 204, la decodificacion central espedfica se aplica en el bloque de enmascaramiento tonal 206 de manera que la salida del enmascaramiento tonal 206 corresponda a la salida del decodificador de dominio espectral 112. A continuacion, el combinador 208 lleva a cabo una combinacion, es decir una construccion de cuadros en donde la salida del combinador 208 tiene ahora el espectro de rango completo, pero todavfa en el dominio filtrado de modelado de ruido temporal (TNS)/modelado de recuadro temporal (TTS). Posteriormente, en el bloque 210 se realiza una operacion inversa de TNS/TTS utilizando informacion de filtro de TNS/TTS proporcionada a traves de la lmea 109, es decir la informacion lateral de TTS esta incluida preferentemente en la primera representacion codificada generada por el codificador de dominio espectral 106 que puede ser, por ejemplo, un codificador central de codificacion avanzada de audio (AAC) directa o codificacion unificada de voz y audio (USAC), o puede estar incluida tambien en la segunda representacion codificada. En la salida del bloque 210 se proporciona un espectro completo hasta la frecuencia maxima que es la frecuencia de rango completo definida por la tasa de muestreo de la senal de entrada original. A continuacion se lleva a cabo una conversion de espectro/tiempo en el banco de filtros de smtesis 212 para obtener finalmente la senal de salida de audio.
La Fig. 3a ilustra una representacion esquematica del espectro. El espectro se subdivide en bandas de factor de escala SCB en donde hay siete bandas de factor de escala SCB1 a SCB7 en el ejemplo ilustrado de la Fig. 3a. Las bandas de factor de escala pueden ser bandas de factor de escala de codificacion avanzada de audio (AAC) que estan definidas en la norma AAC y tienen un ancho de banda cada vez mayor hasta frecuencias superiores como se ilustra en la Fig. 3a esquematicamente. Se prefiere realizar el relleno inteligente de espacios (IGF) no desde el comienzo del espectro, es decir a bajas frecuencias, sino iniciar la operacion de IGF a una frecuencia de inicio de IGF ilustrada en 309. Por lo tanto, la banda de frecuencia central se extiende desde la frecuencia mas baja a la frecuencia de inicio de IGF. Por encima de la frecuencia de inicio de IGF se aplica el analisis de espectro para separar los componentes espectrales de alta resolucion 304, 305, 306, 307 (el primer conjunto de primeras porciones espectrales) de componentes de baja resolucion representados por el segundo conjunto de segundas porciones espectrales. La Fig. 3a ilustra un espectro que se introduce a modo de ejemplo en el codificador de dominio espectral 106 o en el codificador conjunto de canales 228, es decir, el codificador central opera en todo el rango pero codifica una cantidad significativa de valores espectrales cero, es decir estos valores espectrales cero se cuantifican a cero o se fijan en cero antes de la cuantificacion o despues de la cuantificacion. De todos modos, el codificador central opera en el rango completo, es decir, como si el espectro fuera como el ilustrado, es decir, el decodificador central no necesariamente tiene que estar al tanto de cualquier relleno inteligente de espacios del segundo conjunto de segunda porciones espectrales con una resolucion espectral inferior.
Preferentemente, la alta resolucion esta definida por una codificacion por lmeas de lmeas espectrales, tales como las lmeas de la transformada de coseno directa modificada (MDCT), mientras que la segunda resolucion o baja resolucion se define, por ejemplo, calculando solo un unico valor espectral por banda de factor de escala, en donde una banda de factor de escala abarca varias lmeas de frecuencia. Por lo tanto, la segunda resolucion baja, con respecto a su resolucion espectral, mucho menor que la primera o alta resolucion definida por la codificacion por lmeas se aplica generalmente por el codificador central tal como un codificador central de codificacion avanzada de audio (AAC) o codificacion unificada de voz y audio (USAC).
En cuanto al factor de ajuste de escala o calculo de energfa, la situacion se ilustra en la Fig. 3b. Debido al hecho de que el codificador es un codificador central y debido al hecho de que puede haber, pero no necesariamente, componentes del primer conjunto de porciones espectrales en cada banda, el codificador central calcula un factor de ajuste de escala para cada banda no solo en el rango central por debajo de la frecuencia de inicio de relleno inteligente de espacios (IGF) 309, sino tambien por encima de la frecuencia de inicio de IGF hasta la frecuencia maxima fiGFstop que es menor o igual a la mitad de la frecuencia de muestreo, es decir, fs/2. Por lo tanto, las porciones tonales codificadas 302, 304, 305, 306, 307 de la Fig. 3a y, en esta forma de realizacion junto con los factores de ajuste de escala SCB1 a SCB7 corresponden a los datos espectrales de alta resolucion. Los datos espectrales de baja resolucion se calculan a partir de la frecuencia de inicio de IGF y corresponden a los valores de informacion de energfa E1, E2, E3, E4, que se transmiten junto con los factores de ajuste de escala SF4 a SF7.
En particular, cuando el codificador central se encuentra en una condicion de baja tasa de bits se puede aplicar ademas la operacion de relleno de ruido adicional en la banda central, es decir una frecuencia inferior a la frecuencia de inicio del relleno inteligente de espacios (IGF), es decir, en las bandas de factor de escala SCB1 a SCB3. En el
5
10
15
20
25
30
35
40
45
50
55
60
relleno de ruido, existen varias lmeas espectrales adyacentes que se han cuantificado a cero. En el lado del decodificador, estos valores espectrales cuantificados a cero se re-sintetizan y los valores espectrales re- sintetizados se ajustan en su magnitud utilizando una energfa de relleno de ruido tal como NF2 ilustrada en 308 en la Fig. 3b. La energfa de relleno de ruido, que se puede dar en terminos absolutos o en terminos relativos particularmente con respecto al factor de ajuste de escala como en la codificacion unificada de voz y audio (USAC) corresponde a la energfa del conjunto de valores espectrales cuantificados a cero. Estas lmeas espectrales de relleno de ruido tambien pueden considerarse un tercer conjunto de terceras porciones espectrales que se regeneran por la smtesis de relleno de ruido simple sin ninguna operacion de relleno inteligente de espacios (IGF) basada en la regeneracion de frecuencia utilizando recuadros de frecuencia de otras frecuencias para la reconstruccion de recuadros de frecuencia utilizando valores espectrales de un rango de origen y la informacion de energfa E1, E2, E3, E4.
Preferentemente, las bandas para las cuales se calcula la informacion de energfa coinciden con las bandas de factor de escala. En otras formas de realizacion se aplica un agrupamiento de valores de informacion de energfa de manera que, por ejemplo, para las bandas de factor de escala 4 y 5 solo se transmite un unico valor de informacion de energfa, pero incluso en esta forma de realizacion, los Kmites de las bandas de reconstruccion agrupadas coinciden con los Kmites de las bandas de factor de escala. Si se aplican diferentes separaciones de bandas, entonces se pueden aplicar nuevos calculos o calculos de sincronizacion, y esto puede tener sentido en funcion de la aplicacion determinada.
Preferentemente, el codificador de dominio espectral 106 de la Fig. 1a es un codificador activado psicoacusticamente como se ilustra en la Fig. 4a. Generalmente, como se ilustra por ejemplo en la norma MPEG2/4 AAC o MPEG1/2, Capa 3, la senal de audio para codificar despues de haberse transformado en el rango espectral (401 en la Figura. 4a) se envfa a un calculador de factor de escala 400. El calculador de factor de ajuste de escala se controla mediante un modelo psicoacustico que recibe adicionalmente la senal de audio para cuantificar o recibe, como en la norma MPEG1/2 Capa 3 o MPEG AAC, una representacion espectral compleja de la senal de audio. El modelo psicoacustico calcula, para cada banda de factor de escala, un factor de escala que representa el umbral psicoacustico. Adicionalmente, los factores de ajuste de escala a continuacion se ajustan, por la cooperacion bien conocida de los bucles de iteracion interna y externa o por cualquier otro procedimiento de codificacion adecuado de manera que se cumplan determinadas condiciones de tasas de bits. A continuacion, los valores espectrales para cuantificar por un lado, y los factores de ajuste de escala calculados por otro lado se introducen en un procesador cuantificador 404. En la operacion de codificacion de audio simple, los valores espectrales para cuantificar se ponderan por los factores de ajuste de escala y los valores espectrales ponderados a continuacion se introducen en un cuantificador fijo que generalmente tiene una funcionalidad de compresion para rangos de amplitud superiores. Entonces, en la salida del procesador cuantificador si existen indices de cuantificacion que a continuacion se envfan a un codificador por entropfa que generalmente tiene codificacion espedfica y muy eficiente para un conjunto de indices de cuantificacion cero para valores de frecuencia adyacentes o, como tambien se denomina en la tecnica, una “serie” de valores cero.
En el codificador de audio de la Fig. 1a, sin embargo, el procesador cuantificador generalmente recibe informacion sobre las segundas porciones espectrales del analizador espectral. Por lo tanto, el procesador cuantificador 404 se asegura de que, en la salida del procesador cuantificador 404, las segundas porciones espectrales identificadas por el analizador espectral 102 son cero o tienen una representacion reconocida por un codificador o un decodificador como una representacion cero que puede codificarse de manera muy eficiente, espedficamente cuando existen “series” de valores cero en el espectro.
La Fig. 4b ilustra una implementacion del procesador cuantificador. Los valores espectrales de la transformada de coseno discreta modificada (MDCT) se pueden introducir en un bloque fijado en cero 410. Posteriormente, las segundas porciones espectrales ya se fijan en cero antes de realizar una ponderacion por los factores de ajuste de escala en el bloque 412. En una implementacion adicional, el bloque 410 no se proporciona, pero la cooperacion fijada en cero se realiza en el bloque 418 posterior al bloque de ponderacion 412. Incluso en otra implementacion, la operacion fijada en cero tambien se puede realizar en un bloque fijado en cero 422 posterior a una cuantificacion en el bloque cuantificador 420. En esta implementacion, los bloques 410 y 418 no estarian presentes. En general se proporcionan al menos uno de los bloques 410, 418, 422 dependiendo de la implementacion espedfica.
Entonces, en la salida del bloque 422 se obtiene un espectro cuantificado correspondiente a lo que se ilustra en la Fig. 3a. Este espectro cuantificado se introduce entonces en un codificador por entropfa tal como 232 en la Fig. 2b que puede ser un codificador Huffman o un codificador aritmetico como se define, por ejemplo, en la norma de codificacion unificada de voz y audio (USAC).
Los bloques fijados en cero 410, 418, 422, que se proporcionan alternativamente entre si o en paralelo se controlan por el analizador espectral 424. El analizador espectral comprende preferentemente cualquier implementacion de un detector de tonalidad bien conocido o comprende cualquier tipo diferente de detector operativo para separar un espectro en componentes para codificar con una alta resolucion y componentes para codificar con una baja
5
10
15
20
25
30
35
40
45
50
55
60
resolucion. Otros de estos algoritmos implementados en el analizador espectral pueden ser un detector de actividad de voz, un detector de ruido, un detector de voz o cualquier otro detector que determine, en funcion de la informacion espectral o metadatas asociados, los requisitos de resolucion para diferentes porciones espectrales.
La Fig. 5a ilustra una implementacion preferida del convertidor de espectro de tiempo 100 de la Fig. 1a como se implementa, por ejemplo, en la codificacion avanzada de audio (AAC) o en la codificacion unificada de voz y audio (USAC). El convertidor de espectro de tiempo 100 comprende un divisor de ventanas 502 controlado por un detector de transitorios 504. Cuando el detector de transitorios 504 detecta un transitorio, entonces senala un intercambio de ventanas largas a ventanas cortas al divisor de ventanas. A continuacion, el divisor de ventanas 502 calcula para los bloques superpuestos, cuadros divididos en ventanas, teniendo cada cuadro dividido en ventanas normalmente dos valores N como, por ejemplo, los valores 2048. A continuacion se realiza una transformacion dentro de un transformador de bloques 506, y generalmente este transformador de bloques proporciona ademas una eliminacion de manera que realiza una eliminacion/transformada combinada para obtener un cuadro espectral con valores N tales como los valores espectrales de la transformada de coseno discreta modificada (MDCT). Por lo tanto, para una operacion de ventanas largas, el cuadro en la entrada del bloque 506 comprende dos valores N como, por ejemplo, 2048 valores y un cuadro espectral entonces tiene 1024 valores. Sin embargo, a continuacion, se realiza un intercambio en los bloques cortos, es decir cuando se realizan ocho bloques cortos teniendo cada bloque corto 1/8 valores de dominio temporal divididos en ventanas en comparacion con una ventana larga y cada bloque espectral tiene 1/8 valores espectrales en comparacion con un bloque largo. Por lo tanto, cuando esta decimacion se combina con una operacion del 50 % de solapamiento del divisor de ventanas, el espectro es una version muestreada cnticamente de la senal de audio de dominio temporal 99.
Posteriormente se hace referencia a la Fig. 5b que ilustra una implementacion espedfica del regenerador de frecuencia 116 y el convertidor de tiempo de espectro 118 de la Fig. 1b, o de la operacion combinada de los bloques 208, 212 de la Fig. 2a. En la Fig. 5b se ilustra una banda de reconstruccion espedfica tal como la banda de factor de escala de la Fig. 3a. La primera porcion espectral en esta banda de reconstruccion, es decir, la primera porcion espectral 306 de la Fig. 3a se introduce en el bloque constructor/regulador de cuadros 510. Asimismo, una segunda porcion espectral reconstruida para la banda de factor de escala 6 se introduce tambien en el constructor/regulador de cuadros 510. Ademas, la informacion de la energfa tal como E3 de la Fig. 3b para una banda de factor de escala 6 tambien se introduce en el bloque 510. La segunda porcion espectral reconstruida en la banda de reconstruccion ya ha sido generada por el relleno de recuadros de frecuencia utilizando un rango de origen y la banda de reconstruccion a continuacion corresponde al rango de destino. En esta instancia se lleva a cabo un ajuste de energfa del cuadro para obtener finalmente el cuadro reconstruido completo que tiene los valores N como, por ejemplo, los que se obtienen en la salida del combinador 208 de la Fig. 2a. A continuacion, en el bloque 512 se lleva a cabo una transformada/interpolacion inversa de bloques para obtener 248 valores de dominio temporal para los 124 valores espectrales, por ejemplo, en la entrada del bloque 512. A continuacion, en el bloque 514 se realiza una operacion de smtesis de division de ventanas que esta controlada nuevamente por una indicacion de ventana larga/ventana corta transmitida como informacion lateral en la senal de audio codificada. A continuacion, en el bloque 516 se realiza una operacion de solapamiento/adicion con un cuadro de tiempo anterior. Preferentemente, la transformada de coseno discreta modificada (MDCT) aplica un solapamiento del 50 % de manera que, para cada nuevo cuadro de tiempo de valores 2N se emiten finalmente los valores de dominio temporal N. Se prefiere un solapamiento del 50 % debido al hecho de que proporciona un muestreo cntico y un cruce continuo de un cuadro al cuadro siguiente debido a la operacion de solapamiento/adicion del bloque 516.
Tal como se ilustra en 301 en la Fig. 3a se puede aplicar adicionalmente una operacion de relleno de ruido, no solo por debajo de la frecuencia de inicio de relleno inteligente de espacios (IGF) sino tambien por encima de la frecuencia de inicio de IGF como para la banda de reconstruccion contemplada coincidiendo con la banda de factor de escala 6 de la Fig. 3a. A continuacion, los valores espectrales de relleno de ruido tambien se pueden introducir en el constructor/regulador de cuadros 510 y el ajuste de los valores espectrales de relleno de ruido tambien se puede aplicar dentro de este bloque o los valores espectrales de relleno de ruido ya se pueden ajustar utilizando la energfa de relleno de ruido antes de introducirse en el constructor/regulador de cuadros 510.
Preferentemente, una operacion de IGF, es decir una operacion de relleno de recuadros de frecuencia que utiliza valores espectrales de otras porciones se puede aplicar en el espectro completo. Por lo tanto, una operacion de relleno de recuadros espectrales no solo se puede aplicar en la banda alta por encima de una frecuencia de inicio de relleno inteligente de espacios (IGF) sino que tambien se puede aplicar en la banda baja. Asimismo, el relleno de ruido sin relleno de recuadros de frecuencia tambien se puede aplicar no solo por debajo de la frecuencia de inicio de relleno inteligente de espacios (IGF) sino tambien por encima de la frecuencia de inicio de IGF. Sin embargo, se ha descubierto que la alta calidad y la alta eficiencia de la codificacion de audio se pueden obtener cuando la operacion de relleno de ruido esta limitada al rango de frecuencia por debajo de la frecuencia de inicio de IGF y cuando la operacion de relleno de recuadros de frecuencia esta limitada al rango de frecuencia por encima de la frecuencia de inicio de IGF, como se ilustra en la Fig. 3a.
Preferentemente, los recuadros de destino (TT) (que tienen frecuencias superiores a la frecuencia de inicio de IGF)
5
10
15
20
25
30
35
40
45
50
55
60
estan sujetos a los Ifmites de la banda de factor de escala del codificador de tasa completa. Los recuadros de origen (ST), de los cuales se obtiene informacion, es decir para frecuencias inferiores a la frecuencia de inicio de IGF no estan sujetos a los lfmites de la banda de factor de escala. El tamano de los recuadros de origen (ST) debe corresponder al tamano del recuadro de destino (TT) asociado. Esto se demuestra utilizando el siguiente ejemplo. TT[0] tiene una longitud de 10 Intervalos de MDCT. Esto corresponde exactamente a la longitud de dos SBC posteriores (tal como 4 + 6). Entonces, todos los recuadros de origen (ST) posibles que deben correlacionarse con TT[0], tambien tienen una longitud de 10 intervalos. Un segundo recuadro de destino TT[1] que es adyacente a TT[0] tiene una longitud de 15 intervalos 1 (SCB tiene una longitud de 7 + 8). Entonces, el recuadro de origen (ST) para lo anterior tiene una longitud de 15 intervalos en lugar de 10 intervalos como para TT[0].
En caso de que no se pueda encontrar un recuadro de destino (TT) para un recuadro de origen (ST) con la longitud del recuadro de destino (por ejemplo, cuando la longitud del TT es mayor que el rango de origen disponible), entonces no se calcula una correlacion y el rango de origen se copia un numero de veces en este TT (la copia se realiza una despues de la otra de manera que una lmea de frecuencia para la frecuencia mas baja de la segunda copia sigue inmediatamente - en la frecuencia - la lmea de frecuencia para la frecuencia mas alta de la primera copia), hasta que el recuadro de destino (TT) se rellene completamente.
Posteriormente se hace referencia a la Fig. 5c que ilustra una forma de realizacion preferida adicional del regenerador de frecuencia 116 de la Fig. 1b o el bloque de relleno inteligente de espacios (IGF) 202 de la Fig. 2a. El bloque 522 es un generador de recuadros de frecuencia que no solo recibe una ID de la banda de destino sino que ademas recibe una ID de la banda de origen. A modo de ejemplo, se ha determinado en el lado del codificador que la banda de factor de escala 3 de la Fig. 3a es muy adecuada para la reconstruccion de la banda de factor de escala 7. Por lo tanto, la ID de la banda de origen sena 2 y la ID de la banda de destino sena 7. Basandose en esta informacion, el generador de recuadros de frecuencia 522 aplica una operacion de copiado o de relleno de recuadros de armonicos o cualquier otra operacion de relleno de recuadros para generar la segunda porcion en bruto de los componentes espectrales 523. La segunda porcion en bruto de los componentes espectrales tiene una resolucion de frecuencia identica a la resolucion de frecuencia incluida en el primer conjunto de primeras porciones espectrales.
Entonces, la primera porcion espectral de la banda de reconstruccion tal como 307 de la Fig. 3a se introduce en un constructor de cuadros 524 y la segunda porcion en bruto 523 se introduce tambien en el constructor de cuadros 524. A continuacion, el cuadro reconstruido se ajusta por el regulador 526 utilizando un factor de ganancia para la banda de reconstruccion calculada por el calculador de factor de ganancia 528. Es importante destacar, sin embargo, que la primera porcion espectral en el cuadro no resulta afectada por el regulador 526, sino que solo la segunda porcion en bruto para el cuadro de reconstruccion resulta afectada por el regulador 526. Para este fin, el calculador del factor de ganancia 528 analiza la banda de origen o la segunda porcion en bruto 523 y ademas analiza la primera porcion espectral en la banda de reconstruccion para encontrar finalmente el factor de ganancia correcto 527 de manera que la energfa del cuadro ajustado emitido por el regulador 526 tiene la energfa E4 cuando se contempla una banda de factor de escala 7.
En este contexto, es muy importante evaluar la precision de la reconstruccion de alta frecuencia de la presente invencion en comparacion con la codificacion avanzada de audio de alta eficiencia (HE-AAC). Esto se explica con respecto a la banda de factor de escala 7 en la Fig. 3a. Se supone que un codificador de la tecnica anterior ilustrado en la Fig. 13a detectana la porcion espectral 307 a codificar con una alta resolucion como un “armonico faltante”. Entonces, la energfa de este componente espectral se transmitina junto con una informacion de la envolvente espectral para la banda de reconstruccion tal como la banda de factor de escala 7 al decodificador. A continuacion, el decodificador recreana el armonico faltante. Sin embargo, el valor espectral, en el que el armonico faltante 307 se reconstruina por el decodificador de la tecnica anterior de la Fig. 13b estana en el medio de la banda 7 a una frecuencia indicada por la frecuencia de reconstruccion 390. Por lo tanto, la presente invencion evita un error de frecuencia 391 que se introducina por el decodificador de la tecnica anterior de la Fig. 13d.
En una implementacion, el analizador espectral tambien se implementa para el calculo de similitudes entre primeras porciones espectrales y segundas porciones espectrales y para determinar, basandose en las similitudes calculadas, para una segunda porcion espectral en un rango de reconstruccion una primera porcion espectral que se adapte a la segunda porcion espectral tanto como sea posible. Entonces, en esta implementacion de rango de origen/rango de destino variable, el codificador parametrico introducira ademas en la segunda representacion codificada una informacion de adaptacion que indica un rango de origen de adaptacion para cada rango de destino. En el lado del descodificador, esta informacion despues podna utilizarse por un generador de recuadros de frecuencia 522 de la Fig. 5c que ilustra una generacion de una segunda porcion en bruto 523 basandose en una ID de la banda de origen y una ID de la banda de destino.
Asimismo, tal como se ilustra en la Fig. 3a, el analizador espectral esta configurado para analizar la representacion espectral hasta una frecuencia maxima de analisis que es solo una pequena cantidad por debajo de la mitad de la frecuencia de muestreo y que es preferentemente al menos un cuarto de la frecuencia de muestreo o generalmente
5
10
15
20
25
30
35
40
45
50
55
60
superior.
Como se ilustra, el codificador opera sin reduccion de muestreo y el decodificador opera sin muestreo ascendente. En otras palabras, el codificador de audio de dominio espectral esta configurado para generar una representacion espectral que tiene una frecuencia de Nyquist definida por la tasa de muestreo de la senal de audio introducida originalmente.
Asimismo, tal como se ilustra en la Fig. 3a, el analizador espectral esta configurado para analizar la representacion espectral que se inicia con una frecuencia de relleno de espacios y que termina con una frecuencia maxima representada por una frecuencia maxima incluida en la representacion espectral, en donde una porcion espectral que se extiende desde una frecuencia minima hasta la frecuencia de inicio de relleno de espacios pertenece al primer conjunto de porciones espectrales y en donde otra porcion espectral tal como 304, 305, 306, 307 que tiene valores de frecuencia por encima de la frecuencia de relleno de espacios, esta incluida adicionalmente en el primer conjunto de primeras porciones espectrales.
Como se explico anteriormente, el decodificador de audio de dominio espectral 112 esta configurado de manera que una frecuencia maxima representada por un valor espectral en la primera representacion decodificada es igual a una frecuencia maxima incluida en la representacion de tiempo que tiene la tasa de muestreo, en donde el valor espectral para la frecuencia maxima en el primer conjunto de primeras porciones espectrales es cero o diferente de cero. De todos modos, para esta frecuencia maxima en el primer conjunto de componentes espectrales existe un factor de ajuste de escala para la banda de factor de escala, que se genera y transmite sin importar si todos los valores espectrales en esta banda de factor de escala se fijan en cero o no, como se describe en el contexto de las Figs. 3a y 3b.
Por lo tanto, la invencion es ventajosa con respecto a otras tecnicas parametricas para aumentar la eficiencia de compresion, por ejemplo, la sustitucion de ruido y el relleno de ruido (estas tecnicas son exclusivamente para la representacion eficiente de contenido de senal local similar a ruido), por lo que la invencion permite una reproduccion de frecuencia precisa de componentes tonales. Hasta la fecha, ningun metodo del estado actual de la tecnica aborda la representacion parametrica eficiente del contenido arbitrario de la senal por relleno de espacios espectrales sin la restriccion de una division fija a priori en la banda baja (LF) y en la banda alta (HF).
Las formas de realizacion del sistema de la invencion mejoran los enfoques del estado actual de la tecnica y, por lo tanto, proporcionan una alta eficiencia de compresion, ninguna o solo una pequena molestia perceptual y ancho de banda de audio completo, incluso para tasas bajas de bits.
El sistema en general consiste en:
codificacion central de banda completa
relleno inteligente de espacios (relleno de recuadros o relleno de ruido) partes tonales dispersas en nucleo, seleccionadas por enmascaramiento tonal codificacion conjunta de par de estereo para la banda completa, incluyendo el relleno de recuadros TNS en el recuadro
blanqueo espectral en el rango de relleno inteligente de espacios (IGF)
Un primer paso hacia un sistema mas eficiente consiste en eliminar la necesidad de transformar datos espectrales en un segundo dominio de transformada diferente del dominio del codificador central. Como la mayona de los codec de audio tal como, por ejemplo, la codificacion avanzada de audio (AAC), utilizan la transformada de coseno discreta modificada (MDCT) como transformada basica, tambien es util realizar la extension de ancho de banda (BWE) en el dominio de la MDCT. Un segundo requisito para el sistema de BWE sena la necesidad de conservar la cuadncula tonal mediante la cual se conservan incluso componentes tonales de alta frecuencia (HF) y, por lo tanto, la calidad del audio codificado es superior a los sistemas existentes. Para tener en cuenta ambos requisitos mencionados anteriormente para un esquema de extension de ancho de banda (BWE) se propone un nuevo sistema denominado Relleno Inteligente de Espacios (IGF). La Fig. 2b muestra el diagrama de bloques del sistema propuesto en el lado del codificador y la Fig. 2a muestra el sistema en el lado del decodificador.
La Fig. 6a ilustra un aparato para decodificar una senal de audio codificada en otra implementacion de la presente invencion. El aparato para decodificar comprende un decodificador de audio de dominio espectral 602 para generar una primera representacion decodificada de un primer conjunto de porciones espectrales y como el regenerador de frecuencia 604 conectado corriente abajo del decodificador de audio de dominio espectral 602 para generar una segunda porcion espectral reconstruida utilizando una primera porcion espectral del primer conjunto de primeras porciones espectrales. Como se ilustra en 603, los valores espectrales en la primera porcion espectral y en la segunda porcion espectral son valores residuales de prediccion espectral. Con el fin de transformar estos valores residuales de prediccion espectral en una representacion espectral completa se proporciona un filtro de prediccion espectral 606. Este filtro de prediccion inversa esta configurado para realizar una prediccion inversa sobre la
5
10
15
20
25
30
35
40
45
50
55
60
frecuencia utilizando los valores residuales espectrales para el primer conjunto de la primera frecuencia y las segundas porciones espectrales reconstruidas. El filtro de prediccion inversa espectral 606 esta configurado por la informacion de filtro incluida en la senal de audio codificada. La Fig. 6b ilustra una implementacion mas detallada de la forma de realizacion de la Fig. 6a. Los valores residuales de prediccion espectral 603 se introducen en un generador de recuadros de frecuencia 612 que genera valores espectrales en bruto para una banda de reconstruccion o para una determinada segunda porcion de frecuencia y estos datos en bruto que ahora tienen la misma resolucion que la primera representacion espectral de alta resolucion se introducen en el modelador espectral 614. El modelador espectral ahora modela el espectro utilizando informacion de la envolvente transmitida en la corriente de bits y los datos modelados espectralmente a continuacion se aplican al filtro de prediccion espectral 616 generando finalmente un cuadro de valores espectrales completos utilizando la informacion de filtro 607 transmitida desde el codificador al decodificador a traves de la corriente de bits.
En la Fig. 6b se supone que, en el lado del codificador, el calculo de la informacion de filtro transmitida a traves de la corriente de bits y utilizada a traves de la lmea 607 se realiza con posterioridad al calculo de la informacion de la envolvente. Por lo tanto, en otras palabras, un codificador que concuerda con el decodificador de la Fig. 6b primero calculana los valores residuales espectrales y a continuacion calculana la informacion de la envolvente con los valores residuales espectrales tal como se ilustra, por ejemplo, en la Fig. 7a. Sin embargo, la otra implementacion tambien es util para ciertas implementaciones, cuando la informacion de la envolvente se calcula antes de realizar el filtrado de modelado de ruido temporal (TNS) o de modelado de recuadro temporal (TTS) en el lado del codificador. A continuacion, el filtro de prediccion espectral 622 se aplica antes de realizar el modelado espectral en el bloque 624. Por lo tanto, en otras palabras, los valores espectrales (completos) se generan antes de aplicar la operacion de modelado espectral 624.
Preferentemente se calcula un filtro de TNS o un filtro de TTS de valor complejo. Esto se ilustra en la Fig. 7a. La senal de audio original se introduce en un bloque de transformada de coseno discreta modificada (MDCT) compleja 702. A continuacion se realiza el calculo del filtro de TTS y el filtrado de TTS en el dominio complejo. A continuacion, en el bloque 706 se calcula la informacion lateral del relleno inteligente de espacios (IGF) y tambien se calcula cualquier otra operacion tal como el analisis espectral para la codificacion, etc. Posteriormente, el primer conjunto de primera porcion espectral generado por el bloque 706 se codifica con un codificador activado por modelo psicoacustico que se ilustra en 708 para obtener el primer conjunto de primeras porciones espectrales indicado en X(k) en la Fig. 7a y todos estos datos se envfan al multiplexor de corriente de bits 7l0.
En el lado del decodificador, los datos codificados se introducen en un demultiplexor 720 para separar la informacion lateral de IGF por un lado, la informacion lateral de TTS por otro lado y la representacion codificada del primer conjunto de primeras porciones espectrales.
A continuacion, el bloque 724 se utiliza para calcular un espectro complejo a partir de uno o mas espectros de valor real. A continuacion, tanto los espectros de valor real como los espectros complejos se introducen en el bloque 726 para generar valores de frecuencia reconstruidos en el segundo conjunto de segundas porciones espectrales para una banda de reconstruccion. Entonces, en el cuadro de banda completa obtenido completamente y relleno de recuadros se realiza la operacion inversa de modelado de recuadro temporal (TTS) 728 y, en el lado del decodificador se realiza una operacion inversa final de MDCT compleja en el bloque 730. Por lo tanto, el uso de la informacion de filtro de TNS complejo permite generar automaticamente, cuando se aplica no solo dentro de la banda central o dentro de las bandas de recuadros por separado sino tambien sobre los lfmites centrales/de recuadros o sobre los lfmites de recuadros/recuadros, un procesamiento de lfmites de recuadros que finalmente vuelve a introducir una correlacion espectral entre los recuadros. Esta correlacion espectral sobre los lfmites de los recuadros no se obtiene generando solamente recuadros de frecuencia y realizando un ajuste de la envolvente espectral en estos datos en bruto de los recuadros de frecuencia.
La Fig. 7c ilustra una comparacion de una senal original (panel izquierdo) y una senal extendida sin Modelado de Recuadro Temporal (TTS). Se puede observar que hay artefactos intensos ilustrados por las porciones ampliadas en el rango de frecuencias superior ilustrado en 750. Esto, sin embargo, no ocurre en la Fig. 7e cuando la misma porcion espectral en 750 se compara con el componente relacionado con los artefactos 750 de la Fig. 7c.
Las formas de realizacion o el sistema de codificacion de audio de la invencion utilizan la parte principal de tasa de bits disponible para codificar en forma de onda solo la estructura perceptualmente mas relevante de la senal en el codificador, y los espacios espectrales resultantes se rellenan en el decodificador con el contenido de la senal que se aproxima en lmeas generales al espectro original. Un presupuesto de bits muy limitado se consume para controlar el asf denominado Relleno de Espacios Inteligente (IGF) basado en parametros por informacion lateral especializada transmitida desde el codificador al decodificador.
El almacenamiento o la transmision de senales de audio a menudo estan sujetos a estrictas limitaciones de tasas de bits. En el pasado, los codificadores se vieron obligados a reducir drasticamente el ancho de banda de audio transmitido cuando solo estaba disponible una tasa de bits muy baja. Los codec de audio modernos ahora son
5
10
15
20
25
30
35
40
45
50
55
60
capaces de codificar senales de banda ancha utilizando los metodos de extension de ancho de banda (BWE) tales como la Replicacion de Ancho de Banda Espectral (SBR, por sus siglas en ingles) [1]. Estos algoritmos se basan en una representacion parametrica del contenido de alta frecuencia (HF) - que se genera a partir de la parte de baja frecuencia (LF) codificada en forma de onda de la senal decodificada por medio de transposicion a la region espectral de alta frecuencia (HF) (“emparchado”) y la aplicacion de un procesamiento posterior basado en parametros. En los esquemas de extension de ancho de banda (BWE), la reconstruccion de la region espectral de alta frecuencia (HF) por encima de una denominada frecuencia de cruce determinada se basa a menudo en el emparchado espectral. En general, la region de alta frecuencia (HF) consiste en multiples conexiones adyacentes y cada una de estas conexiones se obtiene de regiones de paso de banda (BP) del espectro de baja frecuencia (LF) por debajo de la frecuencia de cruce determinada. Los sistemas del estado actual de la tecnica desempenan con eficiencia el emparchado dentro de una representacion de bancos de filtros copiando un conjunto de coeficientes de subbandas adyacentes desde una region de origen a la region de destino.
Si se implementa un sistema de BWE en un banco de filtros o el dominio de la transformada de tiempo-frecuencia, solo hay una posibilidad limitada para controlar la forma temporal de la senal de extension de ancho de banda. Generalmente, la granularidad temporal esta limitada por el tamano de salto utilizado entre ventanas adyacentes de la transformada. Esto puede conducir a pre o post-ecos no deseados en el rango espectral de la extension de ancho de banda (BWE).
En la codificacion de audio perceptual se sabe que la forma de la envolvente temporal de una senal de audio se puede restaurar utilizando tecnicas de filtrado espectral como el Modelado de la Envolvente Temporal (TNS) [14]. Sin embargo, el filtro del TNS conocido del estado actual de la tecnica es un filtro de valor real en los espectros de valor real. Dicho filtro de valor real en los espectros de valor real puede verse seriamente afectado por artefactos de solapamiento, especialmente si la transformada real subyacente es una Transformada de Coseno Discreta Modificada (MDcT).
El modelado de recuadros de la envolvente temporal aplica filtrado complejo en espectros de valor complejo, tales como los obtenidos, por ejemplo, a traves de una Transformada de Coseno Discreta Modificada Compleja (CMDCT). De esta manera se evitan los artefactos de solapamiento.
El modelado de recuadros temporal consiste en
• la estimacion de coeficientes de filtro complejo y la aplicacion de un filtro de aplanamiento en el espectro de la senal original en el codificador
• la transmision de los coeficientes de filtro en la informacion lateral
• la aplicacion de un filtro de modelado en el espectro reconstruido relleno de recuadros en el decodificador
La invencion extiende la tecnica del estado actual de la tecnica conocida a partir de la codificacion por transformada de audio, espedficamente el Modelado de Ruido Temporal (TNS) por prediccion lineal a lo largo de la direccion de la frecuencia, para el uso en una forma modificada en el contexto de extension de ancho de banda.
Asimismo, el algoritmo de extension de ancho de banda de la invencion se basa en un Relleno Inteligente de Espacios (IGF), pero emplea una transformada de valor complejo (CMDCT) sobremuestreada en oposicion a la configuracion estandar de relleno inteligente de espacios (IGF) que se basa en una representacion de la transformada de coseno discreta modificada (MDCT) cnticamente muestreada de valor real de una senal. La CMDCT puede observarse como la combinacion de los coeficientes de la MDCT en la parte real y los coeficientes de la transformada sinusoidal discreta modificada (MDST) en la parte imaginaria de cada coeficiente espectral de valor complejo.
Aunque el nuevo enfoque se describe en el contexto de IGF, el procesamiento de la invencion puede utilizarse en combinacion con cualquier metodo de extension de ancho de banda (BWE) que se basa en una representacion de bancos de filtros de la senal de audio.
En este nuevo contexto, la prediccion lineal a lo largo de la direccion de la frecuencia no se utiliza como modelado de ruido temporal, sino mas bien como una tecnica de modelado de recuadro temporal (TTS). El cambio de nombre se justifica por el hecho de que los componentes de la senal rellenos de recuadros se modelan temporalmente por TTS en comparacion con el modelado de ruido de cuantificacion por TNS en los codec de la transformada perceptual del estado actual de la tecnica.
La Fig. 7a muestra un diagrama de bloques de un codificador de BWE que utiliza IGF y el nuevo enfoque de TTS.
Por lo tanto, el esquema basico de codificacion funciona de la siguiente manera:
- calcular la CMDCT de una senal de dominio temporal x(n) para obtener la senal de dominio de frecuencia X(k)
- calcular el filtro de TTS de valor complejo
5
10
15
20
25
30
35
40
45
50
55
60
- obtener la informacion lateral para la BWE y eliminar la informacion espectral que tiene que replicarse por el decodificador
- aplicar la cuantificacion utilizando el modulo psicoacustico (PAM, por sus siglas en ingles)
- almacenar/transmitir los datos, solo se transmiten los coeficientes de MDCT de valor real
La Fig. 7b muestra el decodificador correspondiente. Este invierte principalmente los pasos realizados en el codificador.
En este punto, el esquema basico de decodificacion funciona de la siguiente manera:
- estimar los coeficientes de la transformada sinusoidal discreta modificada (MDST) partir de los valores de la transformada de coseno discreta modificada (MDCT) (este procesamiento agrega un retardo de decodificador de bloques) y combinar los coeficientes de la MDCT y la MDST en coeficientes de la transformada de coseno discreta modificada compleja (CMDCT) de valor complejo
- realizar el relleno de recuadros con su procesamiento posterior
- aplicar el filtrado de modelado de recuadro temporal (TTS) inverso con los coeficientes transmitidos del filtro de TTS
- calcular la CMDCT inversa
Como alternativa, cabe destacar que el orden de la smtesis de TTS y el procesamiento posterior de IGF tambien se puede invertir en el decodificador si el analisis de TTS y la estimacion de parametros de IGF se invierten coherentemente en el codificador.
Para una codificacion de transformada eficiente se deben utilizar preferentemente los denominados “bloques largos” de aproximadamente 20 ms para lograr una ganancia de transformada razonable. Si la senal dentro de dicho bloque largo contiene transitorios, en las bandas espectrales reconstruidas ocurren pre- y post-ecos audibles debido al relleno de recuadros. La Fig. 7c muestra efectos tfpicos de pre- y post-ecos que alteran los transitorios debido al relleno inteligente de espacios (IGF). En el panel izquierdo de la Fig. 7c se muestra el espectrograma de la senal original y en el panel derecho se muestra el espectrograma de la senal de relleno de recuadros sin el filtrado del modelado de recuadro temporal (TTS) de la invencion. En este ejemplo, la frecuencia de inicio de IGF fiGFstart o fSplit entre la banda central y la banda rellena de recuadros se selecciona como fs/4. En el panel derecho de la Fig. 7c se observan distintos pre- y post-ecos alrededor de los transitorios, especialmente prominentes en el extremo espectral superior de la region de frecuencia replicada.
La tarea principal del modulo de TTS consiste en restringir estos componentes de senal no deseados en estrecha proximidad alrededor de un transitorio y de ese modo ocultarlos en la region temporal gobernada por el efecto de enmascaramiento temporal de la percepcion humana. Por lo tanto, los coeficientes de prediccion necesarios de TTS se calculan y aplican utilizando “prediccion directa” en el dominio de la CMDCT.
En una forma de realizacion que combina TTS e IGF en un codec, es importante alinear determinados parametros de TTS y parametros de IGF de manera que un recuadro de IGF se filtre completamente por un filtro de TTS (filtro de aplanamiento o modelado) o no. Por lo tanto, todas las frecuencias TTSstart[..] o TTSstop[..] no estaran comprendidas dentro de un recuadro de IGF, sino mas bien estaran alineadas con las frecuencias fiGF respectivas. La Fig. 7d muestra un ejemplo de areas operativas de TTS e IGF para un conjunto de tres filtros de TTS.
La frecuencia de fin del modelado de recuadro temporal (TTS) se ajusta a la frecuencia de fin de la herramienta de relleno inteligente de espacios (IGF), que es mayor que fiGFstart. Si el modelado de recuadro temporal (TTS) utiliza mas de un filtro tiene que asegurarse que la frecuencia de cruce entre dos filtros de TTS tiene que coincidir con la frecuencia dividida del relleno inteligente de espacios (IGF). De lo contrario, un sub-filtro de TTS se excedera del lfmite fiGFstart lo que producira artefactos no deseados como, por ejemplo, sobremodelado.
En la variante de implementacion representada en la Fig. 7a y en la Fig. 7b, se debe tener especial cuidado de que en ese decodificador, las energfas de IGF esten ajustadas correctamente. Esto ocurre especialmente si, en el curso del procesamiento de TTS e IGF, diferentes filtros de TTS que tienen diferentes ganancias de prediccion se aplican a la region de origen (como un filtro de aplanamiento) y a la region espectral de destino (como un filtro de modelado que no es la contrapartida exacta de dicho filtro de aplanamiento) de un recuadro del IGF. En este caso, la relacion de la ganancia de prediccion de los dos filtros de TTS aplicados ya no es igual a uno y, por lo tanto, debe aplicarse un ajuste de energfa por esta relacion.
En la variante de implementacion alternativa, el orden de procesamiento posterior de IGF y TTS se invierte. En el decodificador, esto significa que el ajuste de energfa por el procesamiento posterior de IGF se calcula despues del filtrado de TTS y, de este modo, es el paso de procesamiento final antes de la transformada de smtesis. Por lo tanto, independientemente de las diferentes ganancias de filtro de TTS aplicadas a un recuadro durante la codificacion, la energfa final se ajusta siempre correctamente por el procesamiento de IGF.
5
10
15
20
25
30
35
40
45
50
55
60
En el lado del decodificador se aplican los coeficientes de filtro de TTS en todo el espectro completo nuevamente, es decir el espectro central extendido por el espectro regenerado. La aplicacion de modelado de recuadro temporal (TTS) es necesaria para formar la envolvente temporal del espectro regenerado para adaptarse a la envolvente de la senal original nuevamente. Por lo tanto, los pre-ecos ilustrados se reducen. Adicionalmente, todavfa modela temporalmente el ruido de cuantificacion en la senal por debajo fiGFstart como es habitual en el modelado de ruido temporal (TNS) de la tecnica anterior.
En los codificadores de la tecnica anterior, el emparchado espectral de una senal de audio (por ejemplo, la Replicacion de Ancho de Banda Espectral (SBR)) altera la correlacion espectral en los lfmites de emparchado y, por lo tanto, afecta la envolvente temporal de la senal de audio introduciendo dispersion. Por lo tanto, otra ventaja de la aplicacion del relleno de recuadros del relleno inteligente de espacios (IGF) en la senal residual es que, despues de la aplicacion del filtro de modelado de recuadro temporal (TTS), los lfmites del recuadro se correlacionan perfectamente, lo que da como resultado una reproduccion temporal mas fiel de la senal.
El resultado de la senal procesada correspondiente se muestra en la Fig. 7e. En comparacion, la version sin filtrar (Fig. 7c, panel derecho) la senal filtrada de TTS muestra una buena reduccion de pre- y post-ecos no deseados (Fig. 7e, panel derecho).
Asimismo, de acuerdo con la descripcion, la Fig. 7a ilustra un codificador que concuerda con el decodificador de la Fig. 7b o el decodificador de la Fig. 6a. Basicamente, un aparato para codificar una senal de audio comprende un convertidor de espectro de tiempo tal como 702 para la conversion de una senal de audio en una representacion espectral. La representacion espectral puede ser una representacion espectral de valor real o, como se ilustra en el bloque 702, una representacion espectral de valor complejo. Ademas, se proporciona un filtro de prediccion tal como 704 para realizar una prediccion sobre la frecuencia para generar valores residuales espectrales, en donde el filtro de prediccion 704 se define por la informacion del filtro de prediccion obtenida de la senal de audio y enviada a un multiplexor de corriente de bits 710, como se ilustra en 714 en la Fig. 7a. Asimismo, se proporciona un codificador de audio tal como el codificador de audio activado psicoacusticamente 704. El codificador de audio esta configurado para codificar un primer conjunto de primeras porciones espectrales de los valores residuales espectrales para obtener un primer conjunto codificado de primeros valores espectrales. Adicionalmente, un codificador parametrico tal como el que se ilustra en 706 en la Fig. 7a se proporciona para codificar un segundo conjunto de segundas porciones espectrales. Preferentemente, el primer conjunto de primeras porciones espectrales se codifica con resolucion espectral superior en comparacion con el segundo conjunto de segundas porciones espectrales.
Por ultimo, tal como se ilustra en la Fig. 7a, se proporciona una interfaz de salida para emitir la senal codificada que comprende el segundo conjunto parametricamente codificado de segundas porciones espectrales, el primer conjunto codificado de primeras porciones espectrales y la informacion del filtro ilustrada como “informacion lateral de modelado de recuadro temporal (TTS)” en 714 en la Fig. 7a.
Preferentemente, el filtro de prediccion 704 comprende un calculador de informacion de filtro configurado para utilizar los valores espectrales de la representacion espectral para calcular la informacion de filtro. Asimismo, el filtro de prediccion esta configurado para calcular los valores residuales espectrales utilizando los mismos valores espectrales de la representacion espectral utilizada para calcular la informacion de filtro.
Preferentemente, el filtro de TTS 704 esta configurado de la misma manera conocida para los codificadores de audio de la tecnica anterior que aplican la herramienta de modelado de ruido temporal (TNS) de acuerdo con la norma de codificacion avanzada de audio (AAC).
Posteriormente, una aplicacion adicional que utiliza la decodificacion de dos canales se analiza en el contexto de las Figs. 8a a 8e. Ademas, se hace referencia a la descripcion de los elementos correspondientes en el contexto de las Figs. 2a, 2b (codificacion conjunta de canales 228 y decodificacion conjunta de canales 204).
La Fig. 8a ilustra un decodificador de audio para generar una senal decodificada de dos canales. El decodificador de audio comprende cuatro decodificadores de audio 802 para decodificar una senal codificada de dos canales para obtener un primer conjunto de primeras porciones espectrales y adicionalmente un decodificador parametrico 804 para proporcionar datos parametricos para un segundo conjunto de segundas porciones espectrales y, adicionalmente, una identificacion de dos canales que identifica, ya sea una primera o una segunda representacion diferente de dos canales para las segundas porciones espectrales. Adicionalmente, se proporciona un regenerador de frecuencia 806 para regenerar una segunda porcion espectral en funcion de una primera porcion espectral del primer conjunto de primeras porciones espectrales y datos parametricos para la segunda porcion y la identificacion de dos canales para la segunda porcion. La Fig. 8b ilustra diferentes combinaciones para las representaciones de dos canales en el rango de origen y en el rango de destino. El rango de origen puede estar en la primera representacion de dos canales y el rango de destino tambien puede estar en la primera representacion de dos canales. Como alternativa, el rango de origen puede estar en la primera representacion de dos canales y el rango de destino puede estar en la segunda representacion de dos canales. Ademas, el rango de origen puede estar en la
5
10
15
20
25
30
35
40
45
50
55
60
segunda representacion de dos canales y el rango de destino puede estar en la primera representacion de dos canales como se indica en la tercera columna de la Fig. 8b. Por ultimo, tanto el rango de origen como el rango de destino pueden estar en la segunda representacion de dos canales. En una forma de realizacion, la primera representacion de dos canales es una representacion de dos canales por separado, en donde los dos canales de la senal de dos canales estan representados individualmente. Entonces, la segunda representacion de dos canales es una representacion conjunta en donde los dos canales de la representacion de dos canales estan representados en forma conjunta, es decir, cuando un procesamiento posterior o la transformada de representacion son necesarios para recalcular una representacion de dos canales por separado que es necesaria para la salida a los altavoces correspondientes.
En una implementacion, la primera representacion de dos canales puede ser una representacion izquierda/derecha (L/R) y la segunda representacion de dos canales es una representacion conjunta de estereo. Sin embargo, otras representaciones de dos canales ademas de izquierda/derecha o M/S o la prediccion estereo se pueden aplicar y utilizar para la presente invencion.
La Fig. 8c ilustra un diagrama de flujo para las operaciones realizadas por el decodificador de audio de la Fig. 8a. En un paso 812, el decodificador de audio 802 realiza una decodificacion del rango de origen. El rango de origen puede comprender, con respecto a la Fig. 3a, bandas de factor de escala SCB1 a SCB3. Asimismo, puede haber una identificacion de dos canales para cada banda de factor de escala y la banda de factor de escala 1 puede estar, por ejemplo, en la primera representacion (tal como L/R) y la tercera banda de factor de escala puede estar en la segunda representacion de dos canales tal como M/S o prediccion de mezcla descendente/residual. Por lo tanto, el paso 812 puede resultar en diferentes representaciones para diferentes bandas. Entonces, en el paso 814, el regenerador de frecuencia 806 esta configurado para seleccionar un rango de origen para una regeneracion de frecuencia. En el paso 816, el regenerador de frecuencia 806 comprueba entonces la representacion del rango de origen y en el bloque 818, el regenerador de frecuencia 806 compara la representacion de dos canales del rango de origen con la representacion de dos canales del rango de destino. Si ambas representaciones son identicas, el regenerador de frecuencia 806 proporciona una frecuencia de regeneracion por separado para cada canal de la senal de dos canales. Cuando, sin embargo, ambas representaciones detectadas en el bloque 818 no son identicas, entonces se toma el flujo de la senal 824 y el bloque 822 calcula la otra representacion de dos canales del rango de origen y utiliza esta otra representacion calculada de dos canales para la regeneracion del rango de destino. Por lo tanto, el decodificador de la Fig. 8a hace que sea posible regenerar un rango de destino que se indica que tiene la segunda identificacion de dos canales utilizando un rango de origen que esta en la primera representacion de dos canales. Naturalmente, la presente invencion permite regenerar, ademas, un rango de destino utilizando un rango de origen que tiene la misma identificacion de dos canales. Y, adicionalmente, la presente invencion permite regenerar un rango de destino que tiene una identificacion de dos canales que indica una representacion conjunta de dos canales y a continuacion transformar esta representacion en una representacion de canales por separado, necesaria para el almacenamiento o la transmision a los altavoces correspondientes para la senal de dos canales.
Se hace hincapie en que los dos canales de la representacion de dos canales pueden ser dos canales estereo, tales como el canal izquierdo y el canal derecho. Sin embargo, la senal tambien puede ser una senal multicanal que tiene, por ejemplo, cinco canales y un canal de altavoz de graves o que tiene incluso mas canales. Entonces, un procesamiento de dos canales por pares descrito en el contexto de la Fig. 8a a 8e se puede realizar cuando los pares pueden ser, por ejemplo, un canal izquierdo y un canal derecho, canal envolvente izquierdo y un canal envolvente derecho y un canal central y un canal LFE (altavoz de graves). Cualquier otra formacion de pares se puede utilizar con el fin de representar, por ejemplo, seis canales de entrada por tres procedimientos de procesamiento de dos canales.
La Fig. 8d ilustra un diagrama de bloques de un decodificador de la invencion correspondiente a la Fig. 8a. Un rango de origen o un decodificador central 830 pueden corresponder al decodificador de audio 802. Los otros bloques 832, 834, 836, 838, 840, 842 y 846 pueden ser partes del regenerador de frecuencia 806 de la Fig. 8a. En particular, el bloque 832 es un transformador de representacion para transformar representaciones del rango de origen en bandas individuales de manera que, en la salida del bloque 832 esta presente un conjunto completo del rango de origen en la primera representacion por un lado y en la segunda representacion de dos canales por otro lado. Estas dos representaciones completas del rango de origen se pueden almacenar en el almacenamiento 834 para ambas representaciones del rango de origen.
Entonces, el bloque 836 aplica una generacion de recuadros de frecuencia utilizando, como entrada, una ID del rango de origen y utilizando, ademas, una ID de dos canales como entrada para el rango de destino. Basandose en la ID de dos canales para el rango de destino, el generador de recuadros de frecuencia accede al almacenamiento 834 y recibe la representacion de dos canales del rango de origen que concuerda con la ID de dos canales para el rango de destino introducido en el generador de recuadros de frecuencia en 835. Por lo tanto, cuando la ID de dos canales para el rango de destino indica el procesamiento conjunto de estereo, entonces el generador de recuadros de frecuencia 836 accede al almacenamiento 834 con el fin de obtener la representacion conjunta de estereo del rango de origen indicado por la ID del rango de origen 833.
5
10
15
20
25
30
35
40
45
50
55
60
El generador de recuadros de frecuencia 836 realiza esta operacion para cada rango de destino y la salida del generador de recuadros de frecuencia es tal que cada canal de la representacion de canales identificada por la identificacion de dos canales esta presente. A continuacion un regulador de envolventes 838 realiza un ajuste de la envolvente. El ajuste de envolvente se realiza en el dominio de dos canales identificado por la identificacion de dos canales. Para este fin se requieren parametros de ajuste de la envolvente y estos parametros se transmiten desde el codificador al decodificador en la misma representacion de dos canales descrita. Cuando la identificacion de dos canales en el rango de destino para procesar por el regulador de envolventes tiene una identificacion de dos canales que indica una representacion de dos canales diferentes de los datos de la envolvente para este rango de destino, a continuacion un transformador de parametros 840 transforma los parametros de la envolvente en la representacion de dos canales requerida. Cuando, por ejemplo, la identificacion de dos canales para una banda indica la codificacion conjunta de estereo y cuando los parametros para este rango de destino se han transmitido como parametros de la envolvente L/R, entonces el transformador de parametros calcula los parametros conjuntos de la envolvente estereo a partir de los parametros de la envolvente L/R descrita de manera que la representacion parametrica correcta se utiliza para el ajuste de la envolvente espectral de un rango de destino.
En otra forma de realizacion preferida, los parametros de la envolvente ya se transmiten como parametros conjuntos de estereo cuando se utiliza el estereo conjunto en una banda de destino.
Cuando se supone que la entrada en el regulador de la envolvente 838 es un conjunto de rangos de destino que tienen diferentes representaciones de dos canales, entonces la salida del regulador de la envolvente 838 tambien es un conjunto de rangos de destino en diferentes representaciones de dos canales. Cuando un rango de destino tiene una representacion conjunta tal como M/S, entonces este rango de destino se procesa por un transformador de representaciones 842 para calcular la representacion por separado necesaria para un almacenamiento o la transmision a los altavoces. Sin embargo, cuando un rango de destino ya tiene una representacion por separado se toma el flujo de la senal 844 y se evita el transformador de representaciones 842. En la salida del bloque 842 se obtiene una representacion espectral de dos canales que es una representacion de dos canales por separado que a continuacion se puede procesar adicionalmente como lo indica el bloque 846, en donde este procesamiento adicional puede ser, por ejemplo, una conversion de frecuencia/tiempo o cualquier otro procesamiento requerido.
Preferentemente, las segundas porciones espectrales corresponden a las bandas de frecuencia, y la identificacion de dos canales se proporciona como una matriz de etiquetas correspondientes a la tabla de la Fig. 8b, en donde existe una etiqueta para cada banda de frecuencia. Entonces, el decodificador parametrico esta configurado para comprobar si la etiqueta se ha fijado o no y para controlar el regenerador de frecuencia 106 de acuerdo con una etiqueta para utilizar, ya sea una primera representacion o una segunda representacion de la primera porcion espectral.
En una forma de realizacion, solo el rango de reconstruccion que se inicia con la frecuencia de inicio del relleno inteligente de espacios (IGF) 309 de la Fig. 3a tiene identificaciones de dos canales para diferentes bandas de reconstruccion. En otra forma de realizacion, esto tambien se aplica para el rango de frecuencia por debajo de la frecuencia de inicio de IGF 309.
En una forma de realizacion adicional, la identificacion de la banda de origen y la identificacion de la banda de destino se pueden determinar de forma adaptativa por un analisis de similitud. Sin embargo, el procesamiento de dos canales de la invencion tambien se puede aplicar cuando hay una asociacion fija de un rango de origen a un rango de destino. Un rango de origen se puede utilizar para recrear, con respecto a la frecuencia, un rango de destino mas amplio, ya sea por una operacion de relleno de recuadros de frecuencia de armonicos o una operacion de relleno de recuadros de frecuencia de copiado utilizando dos o mas operaciones de relleno de recuadros de frecuencia similares al procesamiento para multiples parches conocidos a partir del procesamiento de codificacion avanzada de audio (AAC) de alta eficiencia.
La Fig. 8e ilustra un codificador de audio para codificar una senal de audio de dos canales. El codificador comprende un convertidor de espectro de tiempo 860 para convertir la senal de audio de dos canales en una representacion espectral. Asimismo, un analizador espectral 866 para convertir la senal de audio de canal de audio de dos canales en una representacion espectral. Ademas se proporciona un analizador espectral 866 para realizar un analisis con el fin de determinar las porciones espectrales que se codificaran con una alta resolucion, es decir para descubrir el primer conjunto de primeras porciones espectrales y para descubrir adicionalmente el segundo conjunto de segundas porciones espectrales.
Adicionalmente se proporciona un analizador de dos canales 864 para analizar el segundo conjunto de segundas porciones espectrales para determinar una identificacion de dos canales que identifica una primera representacion de dos canales o una segunda representacion de dos canales.
Dependiendo del resultado del analizador de dos canales, una banda en la segunda representacion espectral se parametriza utilizando la primera representacion de dos canales o la segunda representacion de dos canales, y esto
5
10
15
20
25
30
35
40
45
50
55
60
se realiza mediante un codificador de parametros 868. El rango de frecuencia central, es decir la banda de frecuencia por debajo de la frecuencia de inicio del relleno inteligente de espacios (IGF) 309 de la Fig. 3a se codifica por un codificador central 870. El resultado de los bloques 868 y 870 se introduce en una interfaz de salida 872. Como se indico anteriormente, el analizador de dos canales proporciona una identificacion de dos canales para cada banda, ya sea por encima de la frecuencia de inicio de IGF o para toda el rango de frecuencia, y esta identificacion de dos canales tambien se envfa a la interfaz de salida 872 de manera que estos datos tambien estan incluidos en una senal codificada 873 emitida por la interfaz de salida 872.
Asimismo se prefiere que el codificador de audio comprenda un transformador por bandas 862. Basandose en la decision del analizador de dos canales 862, la senal de salida del convertidor de espectro de tiempo 862 se transforma en una representacion indicada por el analizador de dos canales y, en particular, por la ID de dos canales 835. Por lo tanto, una salida del transformador por bandas 862 es un conjunto de bandas de frecuencia en donde cada banda de frecuencia puede estar en la primera representacion de dos canales o en la segunda representacion diferente de dos canales. Cuando se aplica la presente invencion en banda completa, es decir cuando ambos rangos, el rango de origen y el rango de reconstruccion, se procesan por el transformador por bandas, el analizador espectral 860 puede analizar esta representacion. Como alternativa, sin embargo, el analizador espectral 860 tambien puede analizar la salida de la senal por el convertidor de espectro de tiempo indicado por la lmea de control 861. Por lo tanto, el analizador espectral 860 puede aplicar el analisis de tonalidad preferido en la salida del transformador por bandas 862 o la salida del convertidor de espectro de tiempo 860 antes de haberse procesado por el transformador por bandas 862. Asimismo, el analizador espectral puede aplicar la identificacion del mejor rango de origen de adaptacion para un cierto rango de destino, ya sea en el resultado del transformador por bandas 862 o en el resultado del convertidor de espectro de tiempo 860.
Posteriormente se hace referencia a las Figs. 9a a 9d para ilustrar un calculo preferido de los valores de informacion de energfa ya analizados en el contexto de la Fig. 3a y en la Fig. 3b.
Los codificadores de audio modernos del estado de la tecnica aplican diversas tecnicas para reducir al mmimo la cantidad de datos que representan una senal de audio determinada. Los codificadores de audio como, por ejemplo, la codificacion unificada de voz y audio (USAC) [1] aplican una transformacion de tiempo a frecuencia como la transformada de coseno discreta modificada (MDCT) para obtener una representacion espectral de una senal de audio determinada. Estos coeficientes de la MDCT se cuantifican aprovechando los aspectos psicoacusticos del sistema auditivo humano. Si se reduce la tasa de bits disponible, la cuantificacion se vuelve mas basta introduciendo un gran numero de valores espectrales reducidos a cero que generan artefactos audibles en el lado del decodificador. Para mejorar la calidad de percepcion, los decodificadores del estado de la tecnica llenan estas partes espectrales reducidas a cero con ruido aleatorio. El metodo de relleno inteligente de espacios (IGF) recolecta recuadros de la senal no cero restante para llenar esos espacios en el espectro. Es crucial para la calidad perceptual de la senal de audio decodificada que se conserve la envolvente espectral y la distribucion de energfa de los coeficientes espectrales. El metodo de ajuste de energfa presentado en la presente invencion utiliza la informacion lateral transmitida para reconstruir la envolvente espectral de la MDCT de la senal de audio.
Dentro de la replicacion de ancho de banda espectral (eSBR) [15] la senal de audio se submuestrea al menos por un factor de dos y la parte de alta frecuencia del espectro se reduce completamente a cero [1, 17]. Esta parte eliminada se sustituye por tecnicas parametricas, eSBR, en el lado del decodificador. La eSBR implica el uso de una transformada adicional, la transformacion de filtros espejo en cuadratura (QMF) que se utiliza para sustituir la parte de alta frecuencia vacfa y para volver a muestrear la senal de audio [17]. Esto agrega complejidad computacional y consumo de memoria a un codificador de audio.
El codificador de USAC [15] ofrece la posibilidad de llenar huecos espectrales (lmeas espectrales reducidas a cero) con ruido aleatorio pero presenta los siguientes inconvenientes: el ruido aleatorio no puede conservar la estructura precisa temporal de una senal transitoria y no se puede conservar la estructura armonica de una senal tonal.
El area en donde opera la eSBR en el lado del decodificador fue completamente eliminada por el codificador [1]. Por lo tanto, la eSBR tiende a eliminar lmeas tonales en la region de alta frecuencia o distorsionar las estructuras armonicas de la senal original. Como la resolucion de frecuencia de filtros espejo en cuadratura (QMF) de la replicacion de ancho de banda espectral (eSBR) es muy baja y la reinsercion de componentes sinusoidales solo es posible en la resolucion gruesa del banco de filtros subyacente, la regeneracion de componentes tonales en la eSBR en el rango de frecuencia replicado tiene muy poca precision.
La eSBR utiliza tecnicas para ajustar las energfas de las areas emparchadas, el ajuste de la envolvente espectral [1]. Esta tecnica utiliza los valores de energfa transmitidos en una cuadncula de tiempo de frecuencia de QMF para remodelar la envolvente espectral. Este estado de la tecnica no se ocupa de espectros parcialmente eliminados y debido a la alta resolucion temporal tiende a necesitar una cantidad relativamente grande de bits para transmitir valores de energfa apropiados o para aplicar una cuantificacion basta a los valores de energfa.
El metodo de IGF no necesita una transformacion adicional, ya que utiliza la transformacion de la MDCT de la
5
10
15
20
25
30
35
40
45
50
55
60
tecnica anterior que se calcula como se describe en [15].
El metodo de ajuste de ene^a presentado en la presente invencion utiliza la informacion lateral generada por el codificador para reconstruir la envolvente espectral de la senal de audio. Esta informacion lateral se genera por el codificador como se indica a continuacion:
a) Aplicar una transformada de coseno discreta modificada (MDCT) dividida en ventanas a la senal de audio de entrada [16, seccion 4.6], opcionalmente calcular una transformada sinusoidal discreta modificada (MDST) dividida en ventanas, o estimar una MDST dividida en ventanas a partir de la MDCT calculada.
b) Aplicar modelado de ruido temporal (TNS)/modelado de recuadro temporal (TTS) en los coeficientes de la MDCT [15, seccion 7.8]
c) Calcular la energfa media para cada banda de factor de escala de la MDCT por encima de la frecuencia de inicio de relleno inteligente de espacios (IGF) (fiGFstart) hasta la frecuencia de fin de IGF(fiGFstop)
d) Cuantificar los valores medios de energfa fiGFstart y fiGFstop son parametros dados por el usuario.
Los valores calculados en el paso c) y d) estan codificados sin perdidas y se transmiten como informacion lateral con la corriente de bits al decodificador.
El decodificador recibe los valores transmitidos y los utiliza para ajustar la envolvente espectral.
a) Descuantificar los valores transmitidos de la MDCT
b) Aplicar el relleno de ruido de la codificacion unificada de voz y audio (USAC) de la tecnica anterior si esta indicado
c) Aplicar el relleno de recuadros del relleno inteligente de espacios (IGF)
d) Descuantificar los valores de energfa transmitidos
e) Ajustar la envolvente espectral por banda de factor de escala
f) Aplicar TNS/TTS si esta indicado
Siendo A = la transformada MDCT, la representacion espectral de valor real de una serial de audio dividida en ventanas de longitud de ventana 2N. Esta transformacion se describe en [16]. El codificador aplica opcionalmente
A
TNSen X
a
Y
En [16, 4.6.2] se describe una particion de n en bandas de factor de escala. Las bandas de factor de escala son un conjunto de un conjunto de indices y se indican en este texto con scb.
Los lfmites de cada scbk con k = 0,1,2, ...max_sfb estan definidos por una matriz swb_offset (16, 4.6.2), en donde swb_offset[k] y swb_offset[k + 1]-1 definen el primer y el ultimo mdice para la lmea de coeficiente espectral mas baja y mas alta contenida en scbk. La banda de factor de escala se indica de la siguiente manera:
offset[k+1]-1}
Si la herramienta de IGF se utiliza por el codificador, el usuario define una frecuencia de inicio de IGF y una frecuencia de fin de IGF. Estos dos valores se asignan al mdice de banda de factor de escala de ajuste optimo igfStartSfb e igfStopSfb. Ambos se envfan en la corriente de bits al decodificador.
[16] describe una transformacion de bloque largo y de bloque corto. Para los bloques largos solo se transmite un conjunto de coeficientes espectrales junto con un conjunto de factores de escala al decodificador. Para los bloques cortos se calculan ocho ventanas cortas con ocho conjuntos diferentes de coeficientes espectrales. Para guardar la tasa de bits, los factores de escala de dichas ocho ventanas de bloques cortos se agrupan por el codificador.
En el caso del relleno inteligente de espacios (IGF), el metodo presentado en esta invencion utiliza bandas de factor de escala de la tecnica anterior para agrupar valores espectrales que son transmitidos al decodificador:
{swb_offset[k],1+ swb_offset[k],2+ swb_offset[k],..., swb_
imagen1
5
10
15
20
25
30
35
40
imagen2
Se supone que el codificador decide agrupar los conjuntos de factor de escala num_window_group.
Se indica con w este agrupamiento-particion del conjunto {0,1,2, ..,7} que son los indices de las ocho ventanas cortas. wi indica el l-esimo subconjunto de w, donde l indica el mdice del grupo de ventana, 0 < l < num_window_group.
Para el calculo de bloques cortos, el usuario definio que la frecuencia de inicio/fin de IGF se asigna a bandas de factor de escala apropiadas. Sin embargo, por razones de simplicidad tambien se indica para bloques cortos k =
igfStartSfb, 1 + igfStartSfb, 2 + igfStartSfb, igfEndSfb.
El calculo de la energia de IGF utiliza la informacion de agrupamiento para agrupar los valores ■
imagen3
Para cuantificar, se calcula
ekJ = nlNT(4log2
Todos los valores t~k i se transmiten al decodificador.
Las formulas de codificacion mencionadas anteriormente operan utilizando solo coeficientes de la MDCT de valor
A
real x. Para obtener una distribucion de energia mas estable en el rango de IGF, es decir para reducir las
fluctuaciones de amplitud temporal, se puede utilizar un metodo alternativo para calcular los valores
Siendo xr
la transformada MDCT, la representacion espectral de valor real de una serial de audio dividida
dN
en ventanas de longitud de ventana 2N, y Ai
X, E
la representacion espectral de la transformada MDST de
valor real de la misma porcion de la serial de audio. La representacion espectral de la transformada sinusoidal discreta modificada (MDST) xi podria calcularse o estimarse exactamente a partir de xr- = (xr, Xj) E C
indica la representacion espectral compleja de la serial de audio dividida en ventanas, que tiene r como su
A‘
Y.
parte real y i como su parte imaginaria. El codificador aplica opcionalmente modelado de ruido temporal (TNS)
A a
en xr y xi.
Ahora la energia de la serial en el rango de IGF se puede medir con
lak IscbJ Z
|scbk | 1
l 6 scblf
Las energfas de valor real y complejo de la banda de reconstruccion, es decir el recuadro que se debe utilizar en el lado del decodificador en la reconstruccion del rango de IGF scbk, se calcula con:
imagen4
donde trk es un conjunto de indices - el rango de recuadro de origen asociado, en funcion de scbk. En las dos
25
5
10
15
20
25
30
35
40
45
formulas anteriores, en lugar del conjunto de indices scbk se podria utilizar el conjunto sc^k (definido mas adelante en este texto) para crear trk para lograr valores mas precisos Et y Er.
Calcular
Si Etk > 0, de lo contrario fk = 0. Con:
imagen5
imagen6
ahora se calcula una version mas estable de Ek, ya que un calculo de Ek con los valores de MDCT solo resulta afectado por el hecho de que los valores de MDCT no obedecen el teorema de Parseval y, por lo tanto, no reflejan la
informacion de energia completa de los valores espectrales. se calcula como se indico anteriormente.
Como se indico anteriormente, para los bloques cortes se supone que el codificador decide agrupar los conjuntos de factor de escala num_window_group. Como anteriormente, wi indica el l-esimo subconjunto de w, donde l indica el rndice del grupo de ventana, 0 < l < num_window_group.
Una vez mas podria aplicarse la version alternativa descrita anteriormente para calcular una version mas estable de El. i p- “ (x x-1 P (Tn x P
k’1. Con las definiciones de ^ i Ar c qUe es la transformada de coseno discreta modificada
O r I»N
(MDCT) y Ai c 114 que es la serial de audio dividida en ventanas de longitud 2N de la transformada sinusoidal discreta modificada (MDST), calcular
imagen7
Calcular de manera analoga
EtW ~ fw,|Z fscbk| Z e,J2' ErW ' |w,| Z !scbk| Z
1 e W] i € tr^
|w,| Z-. |scbk| lew|
imagen8
que se utiliza para ajustar ‘“■Kl1 calculado anteriormente:
Ek,l - Vfk,! Erk,l
--r-i se calcula como se indico anteriormente.
El procedimiento que no solo utiliza la energfa de la banda de reconstruccion, ya sea derivada de la banda de reconstruccion compleja o de los valores de la MDCT, sino que tambien utiliza una informacion de energfa del rango de origen proporciona una reconstruccion de energfa mejorada.
Espedficamente, el calculador de parametros 1006 esta configurado para calcular la informacion de energfa para la banda de reconstruccion utilizando informacion sobre la energfa de la banda de reconstruccion y utilizando, ademas, la informacion sobre una energfa de un rango de origen para utilizarse para la reconstruccion de la banda de reconstruccion.
Asimismo, el calculador de parametros 1006 esta configurado para calcular una informacion de energfa (E0k) en la banda de reconstruccion de un espectro complejo de la serial original, para calcular una informacion de energfa adicional (Erk) en un rango de origen de una parte de valor real del espectro complejo de la senal original para utilizarse para reconstruir la banda de reconstruccion, y donde el calculador de parametros esta configurado para calcular la informacion de energfa para la banda de reconstruccion utilizando la informacion de energfa (E0k) y la
5
10
15
20
25
30
35
40
45
50
55
informacion de ene^a adicional (Erk).
Ademas, el calculador de parametros 1006 esta configurado para determinar una primera informacion de energfa (Eok) en una banda de factor de escala que debe reconstruirse de un espectro complejo de la senal original, para determinar una segunda informacion de energfa (Etk) en un rango de origen del espectro complejo de la senal original para utilizarse para reconstruir la banda de factor de escala que debe reconstruirse, para determinar una tercera informacion de energfa (Erk) en un rango de origen de una parte de valor real del espectro complejo de la senal original para utilizarse para reconstruir la banda de factor de escala que debe reconstruirse, para determinar una informacion de ponderacion basandose en una relacion entre al menos dos de la primera informacion de energfa, la segunda informacion de energfa, y la tercera informacion de energfa, y para ponderar una de la primera informacion de energfa y la tercera informacion de energfa utilizando la informacion de ponderacion para obtener una informacion de energfa ponderada y para utilizar la informacion de energfa ponderada como la informacion de energfa para la banda de reconstruccion.
A continuacion se presentan ejemplos para los calculos si bien muchos otros ejemplos pueden quedar a criterio de los expertos en la tecnica en vista del principio general anterior:
A)
f_k = E_ok/E_tk;
E_k = sqrt( f_k * E_rk );
B)
f_k = E_tk/E_ok;
E_k = sqrt((1/f_k) * E_rk);
C)
f_k = E_rk/E_tk;
E_k = sqrt(f_k * E_ok)
D)
f_k = E_tk/E_rk;
E_k = sqrt((1/f_k) * E_ok)
Todos estos ejemplos confirman que aunque solo se procesan valores reales de la MDCT en el lado del decodificador, el calculo real es - debido al solapamiento y la adicion - del procedimiento de cancelacion de solapamiento de dominio temporal realizado implfcitamente utilizando numeros complejos. Sin embargo, en particular, la determinacion 918 de la informacion de energfa de recuadro de las porciones espectrales adicionales 922, 923 de la banda de reconstruccion 920, para valores de frecuencia diferentes de la primera porcion espectral 921 que tiene frecuencias en la banda de reconstruccion 920, se basa en valores reales de la MDCT. Por lo tanto, la informacion de energfa transmitida al decodificador sera generalmente menor que la informacion de energfa Eok sobre la banda de reconstruccion del espectro complejo de la senal original. Por ejemplo, para el caso C anterior, esto significa que el factor f_k (informacion de ponderacion) sera menor que 1.
En el lado del decodificador, si la herramienta de relleno inteligente de espacios (IGF) se senala como ACTIVADA,
A
los valores transmitidos se obtienen a partir de la corriente de bits y se descuantificaran con
imagen9
para todos k = \fgStartSfb, 1 + igfStartSfb, 2 + igfStartSfb, ..., igfEndSfb.
Un decodificador descuantifica los valores transmitidos de la MDCT a x ^ y calcula la energia de conservacion restante:
5
10
15
20
25
30
35
40
imagen10
Indicamos que Op SCbk A Xj 0} ^ste C0njun^0 contjene todos los indices de la banda de factor de
escala scbk que se han cuantificado a cero por el codificador.
El metodo de sub-banda de relleno inteligente de espacios (IGF) (no descrito en la presente invencion) se utiliza para llenar espacios espectrales que resultan de una cuantificacion basta de los valores espectrales de la MDCT en el lado del codificador utilizando valores no cero de la MDCT transmitida. x contendra adicionalmente los valores que reemplazan a todos los valores anteriores reducidos a cero. La energfa del recuadro se calcula por:
imagen11
donde k esta en el rango definido anteriormente.
La energfa faltante en la banda de reconstruccion se calcula por:
mEk := |scbk\Ek2 - sEk
Y el factor de ganancia para el ajuste se obtiene por:
f I------
9 '■=
tEk
if (mEk > 0 A tEk > 0) O de lo contrario
Con:
g' ~ minte, 10)
El ajuste de la envolvente espectral que utiliza el factor de ganancia es:
Xi
g*i
para todos los ' “ sc&k y k esta en el rango definido anteriormente.
Esto remodela la envolvente espectral de x a la forma de la envolvente espectral original x.
En principio, con la secuencia de ventanas cortas, todos los calculos definidos anteriormente permanecen igual, pero
[l" L--1
se tiene en cuenta el agrupamiento de bandas de factor de escala. Se indica como los valores de energia agrupados y descuantificados, obtenidos de la corriente de bits. Calcular
imagen12
El mdice j describe el mdice de ventanas de la secuencia de bloques cortos. Calcular
mEkJ := \scbk\Ek/ - sEkit
5
10
15
20
25
30
35
40
45
50
Con
imagen13
imagen14
Aplicar
V.-'-
9 Xu
. _ SCbkrl.
paratodoslos
Para las aplicaciones de tasas bajas de bits es posible un agrupamiento por pares de los valores cksin perder demasiada precision. Este metodo se aplica solo con bloques largos:
imagen15
donde k = igfStartSfb, 2 + igfStartSfb, 4 + igfStartSfb, igfEndSfb. De nuevo, despues de la descuantificacion, todos los valores se transmiten al decodificador.
La Fig. 9a ilustra un aparato para decodificar una senal de audio codificada que comprende una representacion codificada de un primer conjunto de primeras porciones espectrales y una representacion codificada de datos parametricos que indica las energfas espectrales para un segundo conjunto de segundas porciones espectrales. El primer conjunto de primeras porciones espectrales se indica en 901a en la Fig. 9a, y la representacion codificada de los datos parametricos se indica en 901b en la Fig. 9a. Un decodificador de audio 900 se proporciona para decodificar la representacion codificada 901a del primer conjunto de primeras porciones espectrales para obtener un primer conjunto decodificado de primeras porciones espectrales 904 y para decodificar la representacion codificada de los datos parametricos para obtener datos parametricos decodificados 902 para el segundo conjunto de segundas porciones espectrales que indican las energfas individuales para las bandas de reconstruccion, en donde las segundas porciones espectrales estan ubicadas en las bandas de reconstruccion. Ademas, se proporciona un regenerador de frecuencia 906 para reconstruir valores espectrales de una banda de reconstruccion que comprende una segunda porcion espectral. El regenerador de frecuencia 906 utiliza una primera porcion espectral del primer conjunto de primeras porciones espectrales y una informacion de energfa individual para la banda de reconstruccion, donde la banda de reconstruccion comprende una primera porcion espectral y la segunda porcion espectral. El regenerador de frecuencia 906 comprende un calculador 912 para determinar una informacion de energfa de conservacion que comprende una energfa acumulada de la primera porcion espectral que tiene frecuencias en la banda de la reconstruccion. Asimismo, el regenerador de frecuencia 906 comprende un calculador 918 para determinar una informacion de energfa de recuadro de otras porciones espectrales de la banda de reconstruccion y para valores de frecuencia que son diferentes de la primera porcion espectral, en donde estos valores de frecuencia tienen frecuencias en la banda de reconstruccion, en donde las otras porciones espectrales deben generarse por la regeneracion de frecuencia utilizando una primera porcion espectral diferente de la primera porcion espectral en la banda de reconstruccion.
El regenerador de frecuencia 906 comprende ademas un calculador 914 para una energfa faltante en la banda de reconstruccion, y el calculador 914 funciona utilizando la energfa individual para la banda de reconstruccion y la energfa de conservacion generada por el bloque 912. Ademas, el regenerador 906 de frecuencia comprende un regulador de la envolvente espectral 916 para el ajuste de las porciones espectrales adicionales en la banda de reconstruccion basandose en la informacion de energfa faltante y la informacion de energfa de recuadros generada por el bloque 918.
Con referencia a la Fig. 9c, se ilustra una cierta banda de reconstruccion 920. La banda de reconstruccion comprende una primera porcion espectral en la banda de reconstruccion tal como la primera porcion espectral 306 en la Fig. 3a ilustrada esquematicamente en 921. Asimismo, el resto de los valores espectrales en la banda de reconstruccion 920 se debe generar utilizando una region de origen, por ejemplo, de la banda de factor de escala 1, 2, 3 por debajo de la frecuencia de inicio del relleno inteligente de espacios 309 de la Fig. 3a. El regenerador de frecuencia 906 esta configurado para generar valores espectrales en bruto para las segundas porciones espectrales
5
10
15
20
25
30
35
40
45
50
55
60
922 y 923. A continuacion se calcula un factor de ganancia g como se ilustra en la Fig. 9c con el fin de ajustar finalmente los valores espectrales en bruto en las bandas de frecuencia 922, 923 con el fin de obtener las segundas porciones espectrales reconstruidas y ajustadas en la banda de reconstruccion 920, que ahora tienen la misma resolucion espectral, es decir, la misma distancia de lmea que la primera porcion espectral 921. Es importante entender que la primera porcion espectral en la banda de reconstruccion ilustrada en 921 en la Fig. 9c esta decodificada por el decodificador de audio 900 y no se ve influenciada por el ajuste de la envolvente realizado por el bloque 916 de la Fig. 9b. En cambio, la primera porcion espectral en la banda de reconstruccion indicada en 921 se deja como esta, ya que esta primera porcion espectral se emite por el decodificador de ancho de banda completa o de audio de tasa completa 900 a traves de la lmea 904.
A continuacion se analizara un ejemplo determinado con numeros reales. La energfa de conservacion restante calculada por el bloque 912, por ejemplo, es de cinco unidades de energfa y esta energfa es la energfa de las cuatro lmeas espectrales indicadas a modo de ejemplo en la primera porcion espectral 921.
Asimismo, el valor de la energfa E3 para la banda de reconstruccion que corresponde a la banda de factor de escala 6 de la Fig. 3b o la Fig. 3a es igual a 10 unidades. Es importante destacar que el valor de la energfa no solo comprende la energfa de las porciones espectrales 922, 923, sino tambien la energfa total de la banda de reconstruccion 920 calculada en el lado del codificador, es decir, antes de realizar el analisis espectral, utilizando, por ejemplo, el enmascaramiento de la tonalidad. Por lo tanto, las diez unidades de energfa abarcan las primeras y las segundas porciones espectrales en la banda de reconstruccion. Entonces, se supone que la energfa de los datos del rango de origen para los bloques 922, 923 o de los datos en bruto del rango de destino para el bloque 922, 923 es igual a ocho unidades de energfa. Por lo tanto, se calcula una energfa faltante de cinco unidades.
Se calcula un factor de ganancia de 0,79 basandose en la energfa faltante dividida por la energfa de recuadro tEk. Entonces, las lmeas espectrales en bruto para las segundas porciones espectrales 922, 923 se multiplican por el factor de ganancia calculado. De este modo, solo se ajustan los valores espectrales para las segundas porciones espectrales 922, 923 y las lmeas espectrales para la primera porcion espectral 921 no se ven influenciadas por este ajuste de la envolvente. Despues de la multiplicacion de los valores espectrales en bruto para las segundas porciones espectrales 922, 923 se ha calculado una banda de reconstruccion completa que consta de las primeras porciones espectrales en la banda de reconstruccion, y que consta de lmeas espectrales en las segundas porciones espectrales 922, 923 en la banda de reconstruccion 920.
Preferentemente, el rango de origen para generar los datos espectrales en bruto en las bandas 922, 923 esta, con respecto a la frecuencia, por debajo de la frecuencia de inicio del relleno inteligente de espacios (IGF) 309 y la banda de reconstruccion 920 esta por encima de la frecuencia de inicio de IGF 309.
Ademas, se prefiere que los lfmites de la banda de reconstruccion coincidan con los lfmites de la banda de factor de escala. Por lo tanto, una banda de reconstruccion tiene, en una forma de realizacion, el tamano de las bandas de factor de escala respectivas del decodificador de audio central o se dimensiona de manera que, cuando se aplica la formacion de pares de energfa, un valor de energfa para una banda de reconstruccion proporcione la energfa de dos o un numero entero superior de bandas de factor de escala. Por lo tanto, cuando se supone que la acumulacion de energfa se realiza para la banda de factor de escala 4, la banda de factor de escala 5 y la banda de factor de escala, entonces el lfmite de frecuencia inferior de la banda de reconstruccion 920 es igual al lfmite inferior de la banda de factor de escala 4 y el lfmite de energfa superior de la banda de reconstruccion 920 coincide con el lfmite superior de la banda de factor de escala 6.
A continuacion se describe la Fig. 9d con el fin de mostrar las funcionalidades adicionales del decodificador de la Fig. 9a. El decodificador de audio 900 recibe los valores espectrales descuantificados correspondientes a las primeras porciones espectrales del primer conjunto de porciones espectrales y, adicionalmente, los factores de escala para las bandas de factor de escala, tal como se ilustra en la Fig. 3b se proporcionan a un bloque de ajuste de escala inverso 940. El bloque de ajuste de escala inverso 940 proporciona todos los primeros conjuntos de primeras porciones espectrales por debajo de la frecuencia de inicio de IGF 309 de la Fig. 3a y, adicionalmente, las primeras porciones espectrales por encima de la frecuencia de inicio de IGF, es decir, las primeras porciones espectrales 304, 305, 306, 307 de la Fig. 3a que estan todas ubicadas en una banda de reconstruccion ilustrada en
941 en la Fig. 9d. Por otra parte, las primeras porciones espectrales en la banda de origen para el relleno de recuadros de frecuencia en la banda de la reconstruccion se proporcionan al regulador/calculador de la envolvente
942 y este bloque recibe ademas la informacion de energfa para la banda de reconstruccion proporcionada como informacion lateral parametrica de la senal de audio codificada ilustrada en 943 en la Fig. 9d. A continuacion, el regulador/calculador de la envolvente 942 proporciona las funcionalidades de la Fig. 9b y 9c y por ultimo emite los valores espectrales ajustados para las segundas porciones espectrales en la banda de reconstruccion. Estos valores espectrales ajustados 922, 923 para las segundas porciones espectrales en la banda de reconstruccion y las primeras porciones espectrales 921 en la banda de reconstruccion indicada en la lmea 941 en la Fig. 9d representan conjuntamente la representacion espectral completa de la banda de reconstruccion.
5
10
15
20
25
30
35
40
45
50
55
60
Posteriormente se hace referencia a las Figs. 10a a 10b para explicar las formas de realizacion preferidas de un codificador de audio que codifica una senal de audio para proporcionar o generar una senal de audio codificada. El codificador comprende un convertidor de tiempo/espectro 1002 que alimenta un analizador espectral 1004, y el analizador espectral 1004 esta conectado a un calculador de parametros 1006 por un lado y a un codificador de audio 1008 por otro lado. El codificador de audio 1008 proporciona la representacion codificada de un primer conjunto de primeras porciones espectrales y no abarca el segundo conjunto de segundas porciones espectrales. Por otra parte, el calculador de parametros 1006 proporciona informacion de la energfa para una banda de reconstruccion que abarca las primeras y las segundas porciones espectrales. Asimismo, el codificador de audio 1008 esta configurado para generar una primera representacion codificada del primer conjunto de primeras porciones espectrales que tiene la primera resolucion espectral, en donde el codificador de audio 1008 proporciona factores de ajuste de escala para todas las bandas de la representacion espectral generada por el bloque 1002. Adicionalmente, tal como se ilustra en la Fig. 3b, el codificador proporciona informacion de la energfa al menos para las bandas de reconstruccion ubicadas, con respecto a la frecuencia, por encima de la frecuencia de inicio de IGF 309 como se ilustra en la Fig. 3a. Por lo tanto, para que las bandas de reconstruccion coincidan preferentemente con las bandas de factor de escala o con grupos de bandas de factor de escala, se proporcionan dos valores, es decir, el factor de ajuste de escala correspondiente del codificador de audio 1008 y, adicionalmente, la informacion de la energfa emitida por el calculador de parametros 1006.
Preferentemente, el codificador de audio tiene bandas de factor de escala con diferentes anchos de banda de frecuencia, es decir, con un numero diferente de valores espectrales. Por lo tanto, el calculador parametrico comprende un normalizador 1012 para normalizar las energfas para el ancho de banda diferente con respecto al ancho de banda de la banda de reconstruccion espedfica. Para este fin, el normalizador 1012 recibe, como entradas, una energfa en la banda y un numero de valores espectrales en la banda y el normalizador 1012 a continuacion emite una energfa normalizada por banda de reconstruccion/banda de factor de escala.
Ademas, el calculador parametrico 1006a de la Fig. 10a comprende un calculador de valor de la energfa que recibe informacion de control del codificador de audio o central 1008 como se ilustra en la lmea 1007 en la Fig. 10a. Esta informacion de control puede comprender informacion sobre los bloques largos/cortos utilizados por el codificador de audio y/o informacion de agrupamiento. Por consiguiente, mientras que la informacion sobre los bloques largos/cortos y la informacion de agrupamiento sobre ventanas cortas se refieren a un agrupamiento “temporal”, la informacion de agrupamiento puede referirse ademas a un agrupamiento espectral, es decir, el agrupamiento de dos bandas de factor de escala en una sola banda de reconstruccion. Por lo tanto, el calculador del valor de energfa 1014 emite un unico valor de energfa para cada banda agrupada que abarca una primera y una segunda porcion espectral cuando solo se han agrupado las porciones espectrales.
La Fig. 10d ilustra una forma de realizacion adicional para la implementacion del agrupamiento espectral. Para este fin, el bloque 1016 esta configurado para calcular los valores de la energfa para dos bandas adyacentes. A continuacion, en el bloque 1018 se comparan los valores de la energfa para las bandas adyacentes y, cuando los valores de la energfa no son tan diferentes o menos diferentes que lo definido, por ejemplo, por un umbral, entonces se genera un unico valor (normalizado) para ambas bandas como se indica en el bloque 1020. Como se ilustra en la lmea 1019, el bloque 1018 se puede omitir. Asimismo, la generacion de un valor unico para dos o mas bandas que se lleva a cabo en el bloque 1020 puede controlarse por un control de tasa de bits del codificador 1024. Por lo tanto, cuando la tasa de bits debe reducirse, el control codificado de tasa de bits 1024 controla al bloque 1020 para generar un unico valor normalizado para dos o mas bandas, incluso cuando la comparacion en el bloque 1018 no habna sido permitida para agrupar los valores de informacion de la energfa.
En caso de que el codificador de audio realice el agrupamiento de dos o mas ventanas cortas, este agrupamiento se aplica tambien para la informacion de la energfa. Cuando el codificador central lleva a cabo un agrupamiento de dos o mas bloques cortos, entonces, para estos dos o mas bloques, se calcula y se transmite solamente un unico conjunto de factores de ajuste de escala. En el lado del decodificador, el decodificador de audio a continuacion aplica el mismo conjunto de factores de ajuste de escala para ambas ventanas agrupadas.
En cuanto al calculo de la informacion de la energfa, los valores espectrales en la banda de la reconstruccion se acumulan sobre dos o mas ventanas cortas. En otras palabras, esto significa que los valores espectrales en una determinada banda de reconstruccion para un bloque corto y para el bloque corto posterior se acumulan y solo se transmite un valor unico de informacion de la energfa para esta banda de reconstruccion que abarca dos bloques cortos. A continuacion, en el lado del decodificador, el ajuste de la envolvente que se describe en la Fig. 9a a 9d no se lleva a cabo individualmente para cada bloque corto, pero se lleva a cabo conjuntamente para el conjunto de ventanas cortas agrupadas.
A continuacion se aplica nuevamente la normalizacion correspondiente de manera que, aunque se haya realizado cualquier agrupamiento en la frecuencia o agrupamiento temporal, la normalizacion permite facilmente que, para el calculo de la informacion del valor de energfa en el lado del decodificador, solo debe conocerse el valor de la informacion de energfa por un lado y la cantidad de lmeas espectrales en la banda de reconstruccion o en el
5
10
15
20
25
30
35
40
45
50
55
60
conjunto de bandas de reconstruccion agrupadas.
En los esquemas de extension de ancho de banda (BWE) del estado de la tecnica, la reconstruccion de la region espectral de alta frecuencia (HF) por encima de una denominada frecuencia de cruce determinada se basa a menudo en el emparchado espectral. En general, la region de alta frecuencia (HF) consta de multiples parches adyacentes y cada una de estos parches se obtiene de regiones de paso de banda (BP) del espectro de baja frecuencia (LF) por debajo de la frecuencia de cruce determinada. Dentro de una representacion de banco de filtros de la senal, dichos sistemas copian un conjunto de coeficientes de sub-bandas adyacentes del espectro de baja frecuencia (LF) en la region de destino. Los lfmites de los conjuntos seleccionados suelen depender del sistema y no dependen de la senal. Para algunos contenidos de la senal, esta seleccion de emparchado estatica puede provocar un timbre desagradable y la coloracion de la senal reconstruida.
Otros enfoques transfieren la senal de baja frecuencia (LF) a la alta frecuencia (HF) a traves de una modulacion de banda lateral unica adaptativa de la senal (SSB). Dichos enfoques son de alta complejidad computacional en comparacion con [1] ya que operan a alta velocidad de muestreo en muestras de dominio temporal. Ademas, el emparchado puede volverse inestable, especialmente para senales no tonales (por ejemplo, de voz no vocalizada) y, por lo tanto, el emparchado adaptativo del estado de la tecnica puede introducir alteraciones en la senal.
El enfoque de la invencion se denomina Relleno Inteligente de Espacios (IGF) y, en su configuracion preferida, se aplica en un sistema de extension de ancho de banda (BWE) basandose en una transformada de frecuencia temporal como, por ejemplo, la Transformada de Coseno Discreta Modificada (MDCT). Sin embargo, las ensenanzas de la invencion son de aplicacion general, por ejemplo, de manera analoga dentro de un sistema basado en el Banco de Filtros Espejo en Cuadratura (QMF).
Una ventaja de la configuracion de IGF basado en la MDCT es la integracion perfecta en los codificadores de audio basados en la MDCT, por ejemplo la Codificacion Avanzada de Audio (AAC) de MPEG. Compartiendo la misma transformada para la codificacion de audio de forma de onda y para BWE reduce significativamente la complejidad computacional general para el codec de audio.
Por otra parte, la invencion proporciona una solucion para los problemas inherentes de estabilidad que se encuentran en los esquemas de emparchado adaptativo del estado de la tecnica.
El sistema propuesto se basa en la observacion de que para algunas senales, una seleccion de emparchado sin grna puede generar cambios de timbre y coloraciones en la senal. Si una senal que es tonal en la region espectral de origen (SSR) pero es similar a ruido en la region espectral de destino (STR), el emparchado de la STR similar a ruido por la SSR tonal puede generar un timbre antinatural. El timbre de la senal tambien puede cambiar ya que la estructura tonal de la senal podna desalinearse o incluso destruirse por el proceso de emparchado.
El sistema de IGF propuesto realiza una seleccion inteligente de recuadros utilizando la correlacion cruzada como medida de similitud entre una SSR en particular y una STR espedfica. La correlacion cruzada de dos senales proporciona una medida de similitud de esas senales y tambien el retardo de correlacion maxima y su signo. Por lo tanto, el enfoque de una seleccion de recuadros basada en la correlacion tambien se puede utilizar para ajustar con precision el desplazamiento espectral del espectro copiado para que este tan cerca como sea posible de la estructura espectral original.
La contribucion fundamental del sistema propuesto es la eleccion de una medida de similitud adecuada, y tambien tecnicas para estabilizar el proceso de seleccion de recuadros. La tecnica propuesta proporciona un equilibrio optimo entre la adaptacion de la senal instantanea y, al mismo tiempo, la estabilidad temporal. La provision de estabilidad temporal es especialmente importante para las senales que tienen poca similitud de SSR y STR y que, por lo tanto, exhiben valores bajos de correlacion cruzada o cuando se emplean medidas de similitud que son ambiguas. En dichos casos, la estabilizacion impide el comportamiento pseudo-aleatorio de la seleccion adaptativa de recuadros.
Por ejemplo, una clase de senales que a menudo plantea problemas para la extension de ancho de banda del estado de la tecnica se caracteriza por una concentracion distinta de la energfa en regiones espectrales arbitrarias, tal como se muestra en la Fig. 12a (a la izquierda). Aunque hay metodos disponibles para ajustar la envolvente espectral y la tonalidad del espectro reconstruido en la region de destino, para algunas senales, estos metodos no son capaces de conservar bien el timbre como se muestra en la Fig. 12a (a la derecha). En el ejemplo ilustrado en la Fig. 12a, la magnitud del espectro en la region de destino de la senal original por encima de una asf denominada frecuencia de cruce fxover (Figura 12a, a la izquierda) disminuye casi linealmente. Por el contrario, en el espectro reconstruido (Fig. 12a, a la derecha) hay un conjunto distinto de pendientes y picos que se percibe como una artefacto de coloracion del timbre.
Un paso importante del nuevo enfoque consiste en definir un conjunto de recuadros entre los que puede tener lugar la eleccion basada en la similitud posterior. En primer lugar, los lfmites de los recuadros, tanto de la region de origen
5
10
15
20
25
30
35
40
45
50
55
60
como de la region de destino, tienen que estar definidos unos con otros. Por lo tanto, la region de destino entre la frecuencia de inicio de IGF del codificador central fiGFstart y una frecuencia mas alta disponible fiGFstop se divide en un numero entero arbitrario nTar de recuadros, cada uno de los cuales tiene un tamano individual predefinido. Entonces, para cada recuadro de destino tar[/dx_tar], se genera un conjunto de recuadros de origen de igual tamano src[/dx_src]. Por lo anterior se determina el grado basico de libertad del sistema de IGF. El numero total de recuadros de origen nSrc esta determinado por el ancho de banda de la region de origen,
bwsrc = (fiGFstart ~ flGFmin)
en donde fiGFm/n es la frecuencia mas baja disponible para la seleccion de recuadros de manera que un numero entero nSrc de recuadros de origen se adapta en bwscr. El numero mmimo de recuadros de origen es 0.
Para aumentar aun mas el grado de libertad para la seleccion y el ajuste, se puede definir que los recuadros de origen se superponen entre sf por un factor de solapamiento entre 0 y 1, en donde 0 significa ningun solapamiento y 1 significa el 100 % de solapamiento. El caso del 10o % de solapamiento implica que solo uno o ningun recuadro de origen esta disponible.
La Fig. 12b muestra un ejemplo de los lfmites de recuadros de un conjunto de recuadros. En este caso, todos los recuadros de destino estan correlacionados con cada uno de los recuadros de origen. En este ejemplo, los recuadros de origen se solapan en un 50 %.
Para un recuadro de destino, la correlacion cruzada se calcula con varios recuadros de origen en retardos de hasta xcorr_maxLag intervalos. Para un recuadro de destino determinado idx_tar y un recuadro de origen idx_src, xcorr_val[/dx_tar][/dx_src] proporciona el valor maximo de la correlacion cruzada entre los recuadros, mientras que xcorr_lag[/dx_tar][/dx_src] proporciona el retardo en el que este maximo ocurre y xcorr_s/gn[/dx_tar][/dx_src] proporciona el signo de la correlacion cruzada en xcorr_lag[/dx_tar][/dx_src].
El parametro xcorr_lag se utiliza para controlar la proximidad de la coincidencia entre el recuadro de origen y el recuadro de destino. Este parametro da lugar a una reduccion de artefactos y ayuda a conservar mejor el timbre y el color de la senal.
En algunos casos puede ocurrir que el tamano de un recuadro de destino espedfico sea mayor que el tamano de los recuadros de origen disponibles. En este caso, el recuadro de origen disponible se repite tan a menudo como sea necesario para llenar completamente el recuadro de destino espedfico. Todavfa es posible realizar la correlacion cruzada entre el recuadro grande de destino y el recuadro de origen mas pequeno con el fin de obtener la mejor posicion del recuadro de origen en el recuadro de destino en terminos del retardo de la correlacion cruzada xcorr_lag y el signo xcorr_sign.
La correlacion cruzada de los recuadros espectrales en bruto y la senal original pueden no ser la medida de similitud mas adecuada aplicada a los espectros de audio con una estructura fuerte de formantes. El blanqueo de un espectro quita la informacion de la envolvente en bruto y, por lo tanto, enfatiza la estructura precisa espectral que es de interes principal para la evaluacion de la similitud de recuadros. El blanqueo tambien ayuda en un modelado facil de la envolvente de la region espectral de destino (STR) en el decodificador para las regiones procesadas por IGF. Por lo tanto, opcionalmente, el recuadro y la senal de origen se blanquean antes de calcular la correlacion cruzada.
En otras configuraciones, solo se blanquea el recuadro utilizando un procedimiento predefinido. Una etiqueta de “blanqueo” transmitida indica al decodificador que se aplicara el mismo proceso de blanqueo predefinido al recuadro de frecuencia dentro del relleno inteligente de espacios (IGF).
Para blanquear la senal, primero se calcula una estimacion de la envolvente espectral. A continuacion, el espectro de la MDCT se divide por la envolvente espectral. La estimacion de la envolvente espectral se puede estimar en el espectro de la MDCT, las energfas del espectro de la MDCT, las estimaciones del espectro de energfa complejo basado en la MDCT o las estimaciones del espectro de energfa. La senal en la que se estima la envolvente se llamara senal de base de aqrn en adelante.
Las envolventes calculadas sobre estimaciones de espectro de energfa complejo basado en la MDCT o el espectro de energfa como senal de base tienen la ventaja de no tener fluctuacion temporal en los componentes tonales.
Si la senal de base esta en un dominio de energfa, el espectro de la MDCT tiene que dividirse por la rafz cuadrada de la envolvente para blanquear la senal correctamente.
Existen diferentes metodos para calcular la envolvente:
5
10
15
20
25
30
35
40
45
50
55
60
• transformando la senal de base con una transformada de coseno discreta (DCT), reteniendo solo los coeficientes mas bajos de la DCT (fijando la mas alta en cero) y calculando a continuacion una DCT inversa
• calculando una envolvente espectral de un conjunto de Coeficientes de Prediccion Lineal (LPC, por sus siglas en ingles) calculado sobre el cuadro de audio de dominio temporal
• filtrando la senal de base con un filtro de paso bajo
Preferentemente, se elige el ultimo enfoque. Para aplicaciones que requieren baja complejidad computacional se puede realizar una cierta simplificacion para el blanqueo de un espectro de la MDCT: En primer lugar, la envolvente se calcula por medio de una media movil. Esto solo necesita dos ciclos de procesador por intervalo de la MDCT. Entonces, con el fin de evitar el calculo de la division y la rafz cuadrada, la envolvente espectral se aproxima por 2", donde " es el logaritmo de numero entero de la envolvente. En este dominio, la operacion de rafz cuadrada se convierte simplemente en una operacion de desplazamiento y, ademas, la division por la envolvente se puede realizar por otra operacion de desplazamiento.
Despues de calcular la correlacion de cada recuadro de origen con cada recuadro de destino, para todos los recuadros de destino "Tar se selecciona el recuadro de origen con la correlacion mas alta para que lo sustituya. Para coincidir mejor con la estructura espectral original, el retardo de la correlacion se utiliza para modular el espectro replicado por un numero entero de intervalos de la transformada. En caso de retardos impares, el recuadro se modula adicionalmente a traves de la multiplicacion por una secuencia temporal alternativa de -1/1 para compensar la representacion de frecuencia inversa de cualquier otra banda dentro de la Transformada de Coseno Discreta Modificada (MDCT).
La Figura 12c muestra un ejemplo de una correlacion entre un recuadro de origen y un recuadro de destino. En este ejemplo, el retardo de la correlacion es 5, por lo que el recuadro de origen tiene que modularse por 5 intervalos hacia los intervalos de frecuencia mas altos en la etapa de copiado del algoritmo de extension de ancho de banda (BWE). Adicionalmente, el signo del recuadro tiene que invertirse ya que el valor maximo de correlacion es negativo y una modulacion adicional como se describio anteriormente representa el retardo impar.
Por lo tanto, la cantidad total de informacion lateral para transmitir desde el codificador al decodificador podna constar de los siguientes datos:
• tileNum["Tar]: mdice del recuadro de origen seleccionado por recuadro de destino
• tileSign["Tar]: signo del recuadro de destino
• tileMod["Tar]: retardo de la correlacion por recuadro de destino
El recorte y la estabilizacion de recuadros constituyen un paso importante en el relleno inteligente de espacios (IGF). Su necesidad y ventajas se explican con un ejemplo, en el supuesto de una senal de audio tonal estacionaria como, por ejemplo, una nota de altura de tono estable. La logica determina que se introducen menos artefactos si, para una region de destino determinada, siempre se seleccionan los recuadros de origen de la misma region de origen a traves de los cuadros. A pesar de que se supone que la senal es estacionaria, esta condicion no se aplicana bien en cada cuadro ya que la medida de similitud (por ejemplo, correlacion) de otra region de origen similar igual podna dominar el resultado de la similitud (por ejemplo, correlacion cruzada). Esto hace que tileNum["Tar] entre cuadros adyacentes dude entre dos o tres opciones muy similares. Este puede ser el origen de un artefacto similar a ruido musical molesto.
Con el fin de eliminar este tipo de artefactos, el conjunto de recuadros de origen se recortara de manera que los elementos restantes del conjunto de origen sean maximamente disfmiles. Esto se logra a traves de un conjunto de recuadros de origen
S = {Si,S2,...Sn}
de la siguiente manera. Para cualquier recuadro de origen si, lo correlacionamos con todos los otros recuadros de origen, encontrando la mejor correlacion entre si y sj y almacenandola en una matriz Sx. En este punto, Sx[i][j] contiene el valor maximo absoluto de correlacion cruzada entre si y sj. La adicion de la matriz Sx a lo largo de las columnas, proporciona la suma de las correlaciones cruzadas de un recuadro de origen si con todos los otros recuadros de origen T.
T[i] = Sx[i][1] + Sx[i][2]...+ Sx[i][n]
En este punto, T representa una buena medida de similitud entre un recuadro de origen y otros recuadros de origen. Si, para cualquier recuadro de origen i,
T > umbral
5
10
15
20
25
30
35
40
45
50
55
60
el recuadro de origen i puede retirarse del conjunto de fuentes potenciales, ya que esta muy correlacionado con otras fuentes. El recuadro que tiene la correlacion mas baja del conjunto de recuadros que cumple la condicion en la ecuacion 1 se elige como un recuadro representativo para este subconjunto. De este modo, nos aseguramos de que los recuadros de origen sean maximamente disfmiles entre sr
El metodo de recorte de recuadros implica tambien una memoria del conjunto de recuadros recortados utilizados en el cuadro anterior. Los recuadros que estuvieron activos en el cuadro anterior se retienen en el siguiente cuadro si existen tambien candidatos alternativos para el recorte.
Dejar que los recuadros s3, s4 t s5 esten activos a partir de los recuadros {si, s2..., ss} en el cuadro k, a continuacion en el cuadro k+1, incluso si los recuadros si, s3 y s2 compiten por ser recortados donde s3 esta correlacionado maximamente con los otros, s3 se retiene ya que fue un recuadro de origen util en el cuadro anterior y, por lo tanto, su retencion en el conjunto de recuadros de origen es beneficioso para reforzar la continuidad temporal en la seleccion de recuadros. Este metodo se aplica preferentemente si la correlacion cruzada entre el origen i y el destino j, representada como Tx[i][j] es alta.
Un metodo adicional para la estabilizacion de recuadros consiste en retener el orden de los recuadros del cuadro k-1 anterior si ninguno de los recuadros de origen en el cuadro k actual se correlaciona bien con los recuadros de destino. Esto puede suceder si la correlacion cruzada entre el origen i y el destino j, representada como Tx[i][j] es muy baja para todos los i, j
Por ejemplo, si
Tx[i][j] < 0,6
entonces se utiliza un umbral provisional, entonces
tileNum[nTar]k = tileNum[nTar]k-i
para todos los nTar de este cuadro k.
Las dos tecnicas anteriores reducen en gran medida los artefactos que se producen a partir del cambio rapido de numeros de recuadros fijos a traves de los cuadros. Otra ventaja adicional de este recorte y estabilizacion de recuadros es que no se necesita enviar informacion extra al decodificador y tampoco se necesita un cambio de arquitectura del decodificador. Esta propuesta de recorte de recuadros resulta una manera elegante de reducir el ruido musical potencial en forma de artefactos o ruido excesivo en las regiones espectrales de los recuadros.
La Fig. 11a ilustra un decodificador de audio para decodificar una senal de audio codificada. El primer decodificador de audio comprende un decodificador de audio (central) 1102 para generar una primera representacion decodificada de un primer conjunto de primeras porciones espectrales, donde la representacion decodificada tiene una primera resolucion espectral.
Asimismo, el decodificador de audio comprende un decodificador parametrico 1104 para generar una segunda representacion decodificada de un segundo conjunto de segundas porciones espectrales que tiene una segunda resolucion espectral que es mas baja que la primera resolucion espectral. Ademas se proporciona un regenerador de frecuencia 1106 que recibe, como una primera entrada 1101, primeras porciones espectrales decodificadas y como una segunda entrada en 1103 la informacion parametrica que incluye, para cada recuadro de frecuencia de destino o banda de reconstruccion de destino, una informacion de rango de origen. El regenerador de frecuencia 1106 a continuacion aplica la regeneracion de frecuencia utilizando valores espectrales del rango de origen identificado por la informacion de adaptacion con el fin de generar los datos espectrales para el rango de destino. A continuacion, las primeras porciones espectrales 1101 y la salida del regenerador de frecuencia 1107 se introducen ambas en un convertidor de espectro-tiempo 1108 para generar finalmente la senal de audio decodificada.
Preferentemente, el decodificador de audio 1102 es un decodificador de audio de dominio espectral, aunque el decodificador de audio tambien se puede implementar como cualquier otro decodificador de audio tal como, por ejemplo, un decodificador de audio de dominio temporal o parametrico.
Como se indica en la Fig. 11 b, el regenerador de frecuencia 1106 puede comprender las funcionalidades del bloque 1120 que ilustra un modulador de recuadros - selector del rango de origen para retardos impares, un filtro blanqueado 1122, cuando se proporciona una etiqueta de blanqueo 1123 y, adicionalmente, una envolvente espectral con funcionalidades de ajuste implementadas como se ilustra en el bloque 1128 utilizando datos espectrales en bruto generados por cualquiera de los bloques 1120 o 1122 o la cooperacion de ambos bloques. De todos modos, el regenerador de frecuencia 1106 puede comprender un conmutador 1124 reactivo a una etiqueta de blanqueo recibida 1123. Cuando se fija la etiqueta de blanqueo, la salida del selector de rango de origen/modulador
de recuadros para retardos impares se introduce en el filtro de blanqueo 1122. Sin embargo, la etiqueta de blanqueo 1123 no se fija para una cierta banda de reconstruccion, por lo que entonces se activa una lmea de desvfo 1126 de manera que la salida del bloque 1120 se proporciona al bloque de ajuste de la envolvente espectral 1128 sin ningun blanqueo.
Puede haber mas de un nivel de blanqueo (1123) senalizado en la corriente de bits y estos niveles pueden senalizarse por recuadro. En caso de que haya tres niveles senalizados por recuadro, los niveles se codificaran de la siguiente manera:
bit = readBit(l); if(bit == 1) {
for(tile_index = 0..nT)
/*los mismos niveles que el ultimo cuadro*/
whitening_level[tile_index] = whitening_level_prev_frame[tile_index]; } else {
/‘primer recuadro:*/
tile_index = 0; bit = readBit(l); if(bit == 1) {
whitening_level[tile_index] = HID_WHITENING;
} else {
bit = readBit(l); if(bit == 1) {
whitening_level[tile_index] = STRONG_WHITENING j } else {
whitening_level[tile_index] = offj /‘sin blanqueo*/
}
>
/‘recuadros restantes:*/
bit = neadBit(l); if(bit == 1) {
/‘los niveles de aplanamiento para los recuadros restantes son iguales que para el primero.*/
/‘No tienen que leerse otros intervalos*/
for(tile_index = l,.nT)
whitening_level[tile_index] = whitening_level[0];
> else {
/‘bits leidos para los recuadros restantes como para el primer recuadro*/
5
10
15
20
25
30
35
for(tile_index = l..nT) { bit = readBit(l); if(bit == 1) {
whitening_level[tile_index] = MID_WHITENING;
} else {
bit = readBit(l); if(bit == 1) {
whitening_level[tile_index] = STRONG_WHITENING;
> else {
whitening_level[tile_index] = OFF; /*sin blanqueo*/
>
}
}
}
}
MID_WHITENING y STRONG_WHITENING se refieren a distintos filtros de blanqueo (1122) que pueden diferir en la forma en que se calcula la envolvente (como se describio anteriormente).
El regenerador de frecuencia del lado del decodificador puede controlarse por una ID de rango de origen 1121 cuando se aplica solo un esquema de seleccion de recuadros espectrales en bruto. Sin embargo, cuando se aplica un esquema de seleccion de recuadros espectrales de sincronizacion precisa, entonces se proporciona ademas un retardo de rango de origen 1119. Asimismo, siempre que el calculo de la correlacion proporcione un resultado negativo, entonces, adicionalmente se puede aplicar tambien un signo de la correlacion al bloque 1120 de manera que cada una de las lmeas espectrales de datos de pagina se multiplican por “-1” para representar el signo negativo.
Por lo tanto, la presente invencion tal como se describe en la Fig. 11a, 11b garantiza la obtencion de una calidad optima de audio debido al hecho de que el mejor rango de origen coincidente para un destino determinado o rango de destino se calcula en el lado del codificador y se aplica en el lado del decodificador.
La Fig. 11c es un codificador de audio determinado para codificar una senal de audio que comprende un convertidor de tiempo-espectro 1130, un analizador espectral conectado posteriormente 1132 y, adicionalmente, un calculador de parametros 1134 y un codificador central 1136. El codificador central 1136 emite rangos de origen codificados y el calculador de parametros 1134 emite informacion de adaptacion para rangos de destino.
Los rangos de origen codificados se transmiten a un decodificador junto con informacion de adaptacion para los rangos de destino de manera que el decodificador ilustrado en la Fig. 11a se encuentra en la posicion para realizar una regeneracion de frecuencia.
El calculador de parametros 1134 esta configurado para calcular similitudes entre primeras porciones espectrales y segundas porciones espectrales y para determinar, basandose en las similitudes calculadas para una segunda porcion espectral, una primera porcion espectral coincidente que se adapte a la segunda porcion espectral. Preferentemente, los resultados de adaptacion para diferentes rangos de origen y rangos de destino, como se ilustra en las Figs. 12a, 12b para determinar un par de adaptacion seleccionado comprenden la segunda porcion espectral, y el calculador de parametros esta configurado para proporcionar esta informacion de adaptacion que identifica el par de adaptacion en una senal de audio codificada. Preferentemente, el calculador de parametros 1134 de la presente invencion esta configurado para utilizar regiones de destino predefinidas en el segundo conjunto de segundas porciones espectrales o regiones de origen predefinidas en el primer conjunto de primeras porciones espectrales como se ilustra, por ejemplo, en la Fig. 12b. Preferentemente, las regiones de destino predefinidas no se solapan o las regiones de origen predefinidas se solapan. Cuando las regiones de origen predefinidas son un subconjunto del primer conjunto de primeras porciones espectrales por debajo de una frecuencia de inicio de relleno de espacios 309 de la Fig. 3a, y preferentemente, la region de destino predefinida que abarca una region espectral inferior coincide, con su lfmite de frecuencia inferior, con la frecuencia de inicio de relleno de espacios de manera
37
5
10
15
20
25
30
35
40
45
50
55
60
que cualquier rango de destino se encuentra por encima de la frecuencia de inicio de relleno de espacios y los rangos de origen se encuentran por debajo de la frecuencia de inicio de relleno de espacios.
Como se explico anteriormente, una granularidad precisa se obtiene comparando una region de destino con una region de origen sin ningun retardo en la region de origen y la misma region de origen, pero con un cierto retardo. Estos retardos se aplican en el calculador de correlacion cruzada 1140 de la Fig. 11d y la seleccion de pares de adaptacion se realiza finalmente por el selector de recuadros 1144.
Ademas, se prefiere realizar un blanqueo de rangos de origen y/o rangos de destino como se ilustra en el bloque 1142. A continuacion, este bloque 1142 proporciona una etiqueta de blanqueo a la corriente de bits que se utiliza para controlar el conmutador del lado del decodificador 1123 de la Fig. 11b. Asimismo, si el calculador de correlacion cruzada 1140 proporciona un resultado negativo, entonces este resultado negativo tambien se senala a un decodificador. Por lo tanto, en una forma de realizacion preferida, el selector de recuadros emite una ID de rango de origen para un rango de destino, un retardo, un signo y el bloque 1142 proporciona ademas una etiqueta de blanqueo.
Asimismo, el calculador de parametros 1134 esta configurado para realizar un recorte de recuadros de origen 1146 reduciendo el numero de rangos de origen potenciales por lo que un emparchado de origen se retira de un conjunto de recuadros de origen potenciales basandose en un umbral de similitud. Por lo tanto, cuando dos recuadros de origen son mas similares o iguales a un umbral de similitud, entonces uno de estos dos recuadros de origen se retira del conjunto de fuentes potenciales y el recuadro de origen eliminado ya no se utiliza para el procesamiento posterior y, espedficamente, no puede seleccionarse por el selector de recuadros 1144 o no se utiliza para el calculo de la correlacion cruzada entre diferentes rangos de origen y rangos de destino como se realizo en el bloque 1140.
Se han descrito diferentes implementaciones con respecto a diferentes figuras. Las Figs. 1a-5c se refieren a un esquema de codificador/decodificador de ancho de banda completo o de tasa completa. Las Figs. 6a-7e se refieren a un esquema de codificador/decodificador con procesamiento de modelado de ruido temporal (TNS) o modelo de recuadro temporal (TTS). Las Figs. 8a-8e se refieren a un esquema de codificador/decodificador con procesamiento espedfico de dos canales. Las Figs. 9a-10d se refieren a un calculo y aplicacion espedficos de informacion de energfa, y las Figs. 11a-12c se refieren a un modo espedfico de seleccion de recuadros.
Todos estos aspectos diferentes pueden ser de uso inventivo y son independientes entre sf pero, adicionalmente, tambien se pueden aplicar juntos como se ilustra basicamente en la Fig. 2a y 2b. Sin embargo, el procesamiento espedfico de dos canales se puede aplicar tambien a un esquema de codificador/descodificador ilustrado en la Fig. 13a y 13b, y esto mismo se aplica al procesamiento de TNS/TTS, al calculo de informacion de energfa de la envolvente y la aplicacion en la banda de reconstruccion o la identificacion del rango de origen de adaptacion y la aplicacion correspondiente en el lado del decodificador. Por otro lado, el aspecto de tasa completa se puede aplicar con o sin procesamiento de TNS/TTS, con o sin procesamiento de dos canales, con o sin una identificacion del rango de origen de adaptacion o con otros tipos de calculos de energfa para la representacion de la envolvente espectral. Por lo tanto, es evidente que las caractensticas de uno de estos aspectos individuales se pueden aplicar tambien en otros aspectos.
Aunque algunos aspectos se han descrito en el contexto de un aparato para codificar o decodificar, es evidente que estos aspectos tambien representan una descripcion del metodo correspondiente, donde un bloque o dispositivo corresponde a un paso del metodo o a una caractenstica de un paso del metodo. Analogamente, los aspectos descritos en el contexto de un paso del metodo tambien representan una descripcion de un bloque o elemento o caractenstica correspondiente de un aparato respectivo. Algunos o todos los pasos del metodo se pueden realizar por (o con) un aparato de hardware tal como, por ejemplo, un microprocesador, una computadora programable o un circuito electronico. En algunas formas de realizacion, alguno o mas de la mayona de los pasos importantes del metodo se pueden realizar por dicho aparato.
En funcion de determinados requisitos de implementacion, las formas de realizacion de la invencion se pueden implementar en hardware o en software. La implementacion se puede realizar utilizando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo un disco flexible, un Disco Duro (HDD), un DVD, un Blu-Ray, un CD, una memoria ROM, una memoria PROm, y una memoria EPROM, una memoria EEPROM o una memoria FLASH, que tienen senales de control de lectura electronica almacenadas en los mismos, que cooperan (o son capaces de cooperar) con un sistema informatico programable de forma tal que se realice el metodo respectivo. Por lo tanto, el medio de almacenamiento digital puede ser legible por computadora.
Algunas formas de realizacion de acuerdo con la invencion comprenden un portador de datos que tiene senales de control de lectura electronica, las cuales son capaces de cooperar con un sistema de computadora programable, de tal manera que uno de los metodos descritos en el presente documento se realice.
En general, las formas de realizacion de la presente invencion se pueden implementar como un producto de
5
10
15
20
25
30
35
40
45
50
55
60
programa informatico con un codigo de programa, cuyo codigo de programa es operativo para realizar uno de los metodos cuando el producto de programa mformatico se ejecuta en una computadora. El codigo del programa se puede almacenar, por ejemplo, en un portador legible por computadora.
Otras formas de realizacion comprenden los programas informaticos para realizar uno de los metodos descritos en la presente, almacenados en un portador legible por computadora.
En otras palabras, una forma de realizacion del metodo de la invencion es, por lo tanto, un programa informatico que tiene un codigo de programa para realizar uno de los metodos descritos en el presente documento, cuando el programa informatico se ejecuta en una computadora.
Por lo tanto, otra forma de realizacion del metodo de la invencion es un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, grabado en el mismo, el programa informatico para realizar uno de los metodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado son generalmente tangibles y/o no transitorios.
Por lo tanto, una forma de realizacion adicional de la invencion es una corriente de datos o una secuencia de senales que representan el programa informatico para realizar uno de los metodos descritos en el presente documento. La corriente de datos o la secuencia de senales, por ejemplo, pueden estar configuradas para transferirse a traves de una conexion de comunicacion de datos, por ejemplo, a traves de Internet.
Una forma de realizacion adicional comprende un medio de procesamiento, por ejemplo, una computadora o un dispositivo logico programable configurado o adaptado para realizar uno de los metodos descritos en la presente invencion.
Otra forma de realizacion comprende una computadora que tiene el programa informatico instalado en la misma para realizar uno de los metodos descritos en el presente documento.
Otra forma de realizacion de acuerdo con la invencion comprende un aparato o un sistema configurado para transferir (por ejemplo, electronica u opticamente) un programa informatico para realizar uno de los metodos descritos en el presente documento a un receptor. El receptor puede ser, por ejemplo, una computadora, un dispositivo movil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa informatico al receptor.
En algunas formas de realizacion, un dispositivo logico programable (por ejemplo, un campo de matrices de puertas programables) se puede utilizar para realizar algunas o todas las funcionalidades de los metodos descritos en la presente invencion. En algunas formas de realizacion, un campo de matrices de puertas programables puede cooperar con un microprocesador para realizar uno de los metodos descritos en el presente documento. En general, los metodos se realizaran, preferentemente, por cualquier aparato de hardware.
Las formas de realizacion anteriormente descritas son simplemente ilustrativas de los principios de la presente invencion. Se entiende que las modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento seran evidentes para otros expertos en la materia. Es la intencion, por lo tanto, de que la invencion este limitada solamente por el alcance de las reivindicaciones a continuacion de la patente y no por los detalles espedficos presentados a modo de descripcion y explicacion de las formas de realizacion de la presente.
Lista de Referencias
[1] Dietz, L. Liljeryd, K. Kjorling y O. Kunz, “Spectral Band Replication, a novel approach in audio coding”, in 112th aEs Convention, Munich, mayo de 2002.
[2] Ferreira, D. Sinha, “Accurate Spectral Replacement”, Audio Engineering Society Convention, Barcelona, Espana 2005.
[3] D. Sinha, A. Ferreiral y E. Harinarayanan, “A Novel Integrated Audio Bandwidth Extension Toolkit (ABET)”, Audio Engineering Society Convention, Paris, Francia 2006.
[4] R. Annadana, E. Harinarayanan, A. Ferreira y D. Sinha, “New Results in Low Bit Rate Speech Coding and Bandwidth Extension”, Audio Engineering Society Convention, San Francisco, Estados Unidos 2006.
[5] T. Zernicki, M. Bartkowiak, “Audio bandwidth extension by frequency scaling of sinusoidal partials”, Audio Engineering Society Convention, San Francisco, Estados Unidos 2008.
[6] J. Herre, D. Schulz, Extending the MPEG-4 AAC Codec by Perceptual Noise Substitution, 104th AES Convention, Amsterdam, 1998, preimpresion 4720.
5
10
15
20
25
30
35
[7] M. Neuendorf, M. Multrus, N. Rettelbach, et al., MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of all Content Types, 132nd AES Convention, Budapest, Hungna, abril de 2012.
[8] McAulay, Robert J., Quatieri, Thomas F. “Speech Analysis/Synthesis Based on a Sinusoidal Representation”. IEEE Transactions on Acoustics, Speech, And Signal Processing, Vol 34(4), agosto de 1986.
[9] Smith, J.O., Serra, X. “PARSHL: An analysis/synthesis program for non-harmonic sounds based on a sinusoidal representation”, Proceedings of the International Computer Music Conference, 1987.
[10] Purnhagen, H.; Meine, Nikolaus, “HILN-the MPEG-4 parametric audio coding tools”, Circuits and Systems, 2000. Proceedings. ISCAS 2000 Ginebra. The 2000 IEEE International Symposium on, vol.3, n. °, pags. 201, 204 vol.3, 2000
[11] International Standard ISO/IEC 13818-3, Generic Coding of Moving Pictures and Associated Audio: Audio”, Ginebra, 1998.
[12] M. Bosi, K. Brandenburg, S. Quackenbush, L. Fielder, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Oikawa: “MPEG-2 Advanced Audio Coding”, 101st AES Convention, Los Angeles 1996
[13] J. Herre, “Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction”, 17th AES International Conference on High Quality Audio Coding, Agosto de 1999
[14] J. Herre, “Temporal Noise Shaping, Quantization and Coding methods in Perceptual Audio Coding: A Tutorial introduction”, 17th AES International Conference on High Quality Audio Coding, Agosto de 1999
[15] International Standard ISO/IEC 23001-3: 2010, Unified speech and audio coding Audio, Ginebra, 2010.
[16] International Standard ISO/IEC 14496-3: 2005, Information technology - Coding of audio-visual objects - Part 3: Audio, Ginebra, 2005.
[17] P. Ekstrand, “Bandwidth Extension of Audio Signals by Spectral Band Replication”, in Proceedings of 1st IEEE Benelux Workshop on MPCA, Leuven, noviembre de 2002
[18] F. Nagel, S. Disch, S. Wilde, A continuous modulated single sideband bandwidth extension, ICASSP International Conference on Acoustics, Speech and Signal Processing, Dallas, Texas (Estados Unidos), abril de 2010.

Claims (19)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    REIVINDICACIONES
    1. Aparato para decodificar una senal de audio codificada, que comprende:
    un decodificador de audio de dominio espectral (602) para generar una primera representacion decodificada de un primer conjunto de primeras porciones espectrales que son valores residuales de prediccion espectral; un regenerador de frecuencia (604) para generar una segunda porcion espectral reconstruida utilizando una primera porcion espectral del primer conjunto de primeras porciones espectrales, en el que la segunda porcion espectral reconstruida y el primer conjunto de primeras porciones espectrales comprenden valores residuales de prediccion espectral; y
    un filtro de prediccion inversa (606, 616, 622) para realizar una prediccion inversa sobre la frecuencia utilizando los valores residuales de prediccion espectral para el primer conjunto de primeras porciones espectrales y la segunda porcion espectral reconstruida utilizando la informacion del filtro de prediccion (607) incluida en la senal de audio codificada.
  2. 2. El aparato de la reivindicacion 1,
    que comprende ademas un modelador de la envolvente espectral (614) para modelar una envolvente espectral de una senal de entrada o una senal de salida del filtro de prediccion inversa (606).
  3. 3. Aparato de la reivindicacion 2,
    en el que la senal de audio codificada comprende informacion de la envolvente espectral para la segunda porcion espectral, teniendo la informacion de la envolvente espectral una segunda resolucion espectral, siendo la segunda resolucion espectral mas baja que una primera resolucion espectral asociada con la primera representacion decodificada,
    en el que el modelador de la envolvente espectral (624) esta configurado para aplicar una operacion de modelado de la envolvente espectral en la salida del filtro de prediccion inversa (622), en el que la informacion del filtro (607) se ha determinado utilizando una senal de audio antes del filtrado de prediccion, o
    en el que el modelador de la envolvente espectral (614) esta configurado para aplicar una operacion de modelado de la envolvente espectral en la entrada del filtro de prediccion inversa (616), cuando la informacion del filtro de prediccion (607) se ha determinado utilizando una senal de audio despues de un filtrado de prediccion en un codificador.
  4. 4. Aparato de una de las reivindicaciones anteriores,
    que comprende ademas un convertidor de tiempo de frecuencia (212) para convertir una salida del filtro de prediccion inversa (210) o una salida modelada con la envolvente del filtro de prediccion inversa (210) en una representacion de tiempo.
  5. 5. Aparato de acuerdo con una de las reivindicaciones anteriores,
    en el que el filtro de prediccion inversa (606) es un filtro complejo definido por la informacion del filtro de prediccion (607).
  6. 6. Aparato de acuerdo con una de las reivindicaciones anteriores,
    en el que el decodificador de audio en el dominio espectral (602) esta configurado para generar la primera representacion decodificada de manera que la primera representacion decodificada tiene una frecuencia de Nyquist igual a una tasa de muestreo de una senal de dominio temporal generada por la conversion de tiempo-frecuencia de una salida del filtro de prediccion inversa (606).
  7. 7. Aparato de una de las reivindicaciones anteriores,
    en el que el decodificador de audio en el dominio espectral (602) esta configurado de modo que una frecuencia maxima representada por un valor espectral para la frecuencia maxima en la primera representacion decodificada es igual a una frecuencia maxima incluida en una representacion de tiempo generada por la conversion de frecuencia- tiempo de una salida del filtro de prediccion (606), en el que el valor espectral para la frecuencia maxima en la primera representacion es cero o diferente de cero.
  8. 8. Aparato de una de las reivindicaciones anteriores,
    en el que la primera representacion decodificada del primer conjunto de primeras porciones espectrales comprende valores espectrales reales,
    en el que el aparato comprende ademas un estimador (724) para estimar valores imaginarios para el primer conjunto de primeras porciones espectrales a partir del primer conjunto de valor real de primeras porciones espectrales, y en el que el filtro de prediccion inversa (728) es un filtro complejo de prediccion inversa definido por la informacion del filtro de prediccion de valor complejo (714), y en el que el aparato comprende ademas un convertidor de frecuencia- tiempo (730) configurado para realizar una conversion de un espectro de valor complejo en una senal de audio de dominio temporal.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
  9. 9. Aparato de una de las reivindicaciones anteriores,
    en el que el filtro de prediccion inversa (606, 728) esta configurado para aplicar una pluralidad de subfiltros, en el que un lfmite de frecuencia de cada subfiltro coincide con un lfmite de frecuencia de una banda de reconstruccion que coincide con un recuadro de frecuencia.
  10. 10. Aparato para codificar una senal de audio, que comprende:
    un convertidor de tiempo-espectro (100, 702) para convertir una senal de audio (99) en una representacion espectral;
    un filtro de prediccion (704) para realizar una prediccion sobre la frecuencia en la representacion espectral para generar valores residuales espectrales, estando definido el filtro de prediccion por la informacion del filtro derivada de la senal de audio;
    un codificador de audio (708) para codificar un primer conjunto de primeras porciones espectrales de los valores residuales espectrales para obtener un primer conjunto codificado de primeros valores espectrales que tienen una primera resolucion espectral;
    un codificador parametrico (706) para codificar parametricamente un segundo conjunto de segundas porciones espectrales de los valores residuales espectrales o de valores de la representacion espectral con una segunda resolucion espectral que es mas baja que la primera resolucion espectral; y
    una interfaz de salida (710) para emitir una senal codificada que comprende el segundo conjunto codificado, el primer conjunto codificado y la informacion del filtro (714).
  11. 11. Aparato de la reivindicacion 10,
    en el que el convertidor de tiempo-espectro esta configurado para realizar una transformada de coseno discreta modificada, y en el que los valores residuales espectrales son valores residuales espectrales de la transformada de coseno discreta modificada.
  12. 12. Aparato de una de las reivindicaciones 10 y 11,
    en el que el filtro de prediccion (704) comprende un calculador de informacion del filtro, estando configurado el calculador de informacion del filtro para utilizar valores espectrales de una representacion espectral para calcular la informacion del filtro y en el que el filtro de prediccion esta configurado para calcular los valores residuales espectrales utilizando valores espectrales de la representacion espectral, en el que los valores espectrales para calcular la informacion del filtro y los valores espectrales introducidos en el filtro de prediccion se obtienen de la misma senal de audio.
  13. 13. Aparato de una las reivindicaciones 10 a 12,
    en el que el filtro de prediccion comprende un calculador de filtros para calcular la informacion del filtro utilizando valores espectrales de una frecuencia de inicio de modelado de ruido temporal, TNS a una frecuencia de fin de TNS, en el que la frecuencia de inicio de TNS es inferior a 4 kHz y la frecuencia de fin de TNS es superior a 9 kHz.
  14. 14. Aparato de la reivindicacion 13 que comprende ademas un analizador (102, 706) para determinar el primer conjunto de primeras porciones espectrales para codificarse por el codificador de audio (708), utilizando el analizador una frecuencia de relleno de espacios, en el que las porciones espectrales por debajo de la frecuencia de inicio de relleno de espacios son primeras porciones espectrales, y
    en el que la frecuencia de fin de TNS es mayor que la frecuencia de relleno de espacios.
  15. 15. Aparato de una de las reivindicaciones 10 a 14,
    en el que el convertidor de tiempo-frecuencia (702) esta configurado para proporcionar una representacion espectral compleja,
    en el que el filtro de prediccion esta configurado para realizar una prediccion sobre la frecuencia con la representacion espectral de valor complejo, y
    en el que la informacion del filtro (714) esta configurada para definir un filtro complejo de prediccion inversa.
  16. 16. Un metodo para decodificar una senal de audio codificada, que comprende:
    generar (602) una primera representacion decodificada de un primer conjunto de primeras porciones espectrales que son los valores residuales de prediccion espectral;
    regenerar (604) una segunda porcion espectral reconstruida utilizando una primera porcion espectral del primer conjunto de primeras porciones espectrales, en el que la segunda porcion espectral reconstruida y el primer conjunto de primeras porciones espectrales comprenden valores residuales de prediccion espectral; y realizar (606, 616, 622), mediante un filtro de prediccion inversa, una prediccion inversa sobre la frecuencia utilizando los valores residuales de prediccion espectral para el primer conjunto de primeras porciones espectrales y la segunda porcion espectral reconstruida utilizando la informacion del filtro de prediccion (607) incluida en la senal de audio codificada.
    que comprende ademas un modelador de la envolvente espectral (614) para modelar una envolvente espectral
    5
    10
    15
    20
    25
    30
    de una senal de entrada o una senal de salida del filtro de prediccion inversa (606).
  17. 17. Metodo de la reivindicacion 16,
    en el que la senal de audio codificada comprende informacion de la envolvente espectral para la segunda porcion espectral, teniendo la informacion de la envolvente espectral una segunda resolucion espectral, siendo la segunda resolucion espectral mas baja que una primera resolucion espectral asociada con la primera representacion decodificada,
    en el que la regeneracion (604) comprende un modelado de la envolvente espectral (624) que comprende aplicar una operacion de modelado de la envolvente espectral en una salida del paso de realizar (606, 616, 622) una prediccion inversa sobre la frecuencia, en el que la informacion del filtro (607) se ha determinado utilizando una senal de audio antes del filtrado de prediccion, o
    en el que la regeneracion (604) comprende un modelado de la envolvente espectral (624) que comprende aplicar una operacion de modelado de la envolvente espectral en una entrada del paso de realizar (606, 616, 622) una prediccion inversa sobre la frecuencia, cuando la informacion del filtro de prediccion (607) se ha determinado utilizando una senal de audio despues de un filtrado de prediccion en un codificador.
  18. 18. Metodo para codificar una senal de audio, que comprende:
    convertir (100, 702) una senal de audio (99) en una representacion espectral;
    realizar (704) una prediccion sobre la frecuencia en la representacion espectral para generar valores residuales espectrales, estando definido el filtro de prediccion por la informacion del filtro derivada de la senal de audio; codificar (708) un primer conjunto de primeras porciones espectrales de los valores residuales espectrales para obtener un primer conjunto codificado de primeros valores espectrales que tienen una primera resolucion espectral;
    codificar parametricamente (706) un segundo conjunto de segundas porciones espectrales de los valores residuales espectrales o de valores de la representacion espectral con una segunda resolucion espectral que es mas baja que la primera resolucion espectral; y
    emitir (710) una senal codificada que comprende el segundo conjunto codificado, el primer conjunto codificado y la informacion del filtro (714).
  19. 19. Programa informatico para realizar, cuando se ejecuta en una computadora o en un procesador, el metodo de la reivindicacion 16 o el metodo de la reivindicacion 18.
ES14738857.3T 2013-07-22 2014-07-15 Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal Active ES2599007T3 (es)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
EP13177353 2013-07-22
EP13177346 2013-07-22
EP13177350 2013-07-22
EP13177350 2013-07-22
EP13177348 2013-07-22
EP13177346 2013-07-22
EP13177353 2013-07-22
EP13177348 2013-07-22
EP13189358.8A EP2830061A1 (en) 2013-07-22 2013-10-18 Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
EP13189358 2013-10-18
PCT/EP2014/065123 WO2015010954A1 (en) 2013-07-22 2014-07-15 Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping

Publications (1)

Publication Number Publication Date
ES2599007T3 true ES2599007T3 (es) 2017-01-31

Family

ID=49385156

Family Applications (9)

Application Number Title Priority Date Filing Date
ES14741264.7T Active ES2638498T3 (es) 2013-07-22 2014-07-15 Aparato y procedimiento para decodificar una señal de audio codificada mediante un filtro de cruce en torno a una frecuencia de transición
ES14738854T Active ES2728329T3 (es) 2013-07-22 2014-07-15 Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES14738857.3T Active ES2599007T3 (es) 2013-07-22 2014-07-15 Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal
ES18180168T Active ES2827774T3 (es) 2013-07-22 2014-07-15 Codificador de audio y método relacionado usando procesamiento de dos canales dentro de un marco de referencia de relleno inteligente de espacios
ES14738853T Active ES2908624T3 (es) 2013-07-22 2014-07-15 Aparato y procedimiento para codificar y decodificar una señal de audio con relleno inteligente de espacios en el dominio espectral
ES19157850T Active ES2959641T3 (es) 2013-07-22 2014-07-15 Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES14739161.9T Active ES2667221T3 (es) 2013-07-22 2014-07-15 Aparato y método para decodificar y codificar una señal de audio utilizando selección de mosaicos espectrales adaptativos
ES14739811T Active ES2813940T3 (es) 2013-07-22 2014-07-15 Aparato, método y programa informático para decodificar una señal de audio codificada
ES14739160T Active ES2698023T3 (es) 2013-07-22 2014-07-15 Decodificador de audio y método relacionado que usan procesamiento de dos canales dentro de un marco de relleno inteligente de huecos

Family Applications Before (2)

Application Number Title Priority Date Filing Date
ES14741264.7T Active ES2638498T3 (es) 2013-07-22 2014-07-15 Aparato y procedimiento para decodificar una señal de audio codificada mediante un filtro de cruce en torno a una frecuencia de transición
ES14738854T Active ES2728329T3 (es) 2013-07-22 2014-07-15 Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción

Family Applications After (6)

Application Number Title Priority Date Filing Date
ES18180168T Active ES2827774T3 (es) 2013-07-22 2014-07-15 Codificador de audio y método relacionado usando procesamiento de dos canales dentro de un marco de referencia de relleno inteligente de espacios
ES14738853T Active ES2908624T3 (es) 2013-07-22 2014-07-15 Aparato y procedimiento para codificar y decodificar una señal de audio con relleno inteligente de espacios en el dominio espectral
ES19157850T Active ES2959641T3 (es) 2013-07-22 2014-07-15 Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES14739161.9T Active ES2667221T3 (es) 2013-07-22 2014-07-15 Aparato y método para decodificar y codificar una señal de audio utilizando selección de mosaicos espectrales adaptativos
ES14739811T Active ES2813940T3 (es) 2013-07-22 2014-07-15 Aparato, método y programa informático para decodificar una señal de audio codificada
ES14739160T Active ES2698023T3 (es) 2013-07-22 2014-07-15 Decodificador de audio y método relacionado que usan procesamiento de dos canales dentro de un marco de relleno inteligente de huecos

Country Status (20)

Country Link
US (24) US10332539B2 (es)
EP (20) EP2830065A1 (es)
JP (12) JP6389254B2 (es)
KR (7) KR101826723B1 (es)
CN (12) CN112466312B (es)
AU (7) AU2014295302B2 (es)
BR (12) BR122022010960B1 (es)
CA (8) CA2918701C (es)
ES (9) ES2638498T3 (es)
HK (1) HK1211378A1 (es)
MX (7) MX354657B (es)
MY (5) MY187943A (es)
PL (8) PL3506260T3 (es)
PT (7) PT3017448T (es)
RU (7) RU2651229C2 (es)
SG (7) SG11201502691QA (es)
TR (1) TR201816157T4 (es)
TW (7) TWI555008B (es)
WO (7) WO2015010947A1 (es)
ZA (5) ZA201502262B (es)

Families Citing this family (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2610293C2 (ru) * 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
KR101790641B1 (ko) * 2013-08-28 2017-10-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 하이브리드 파형-코딩 및 파라미터-코딩된 스피치 인핸스
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
US9741349B2 (en) 2014-03-14 2017-08-22 Telefonaktiebolaget L M Ericsson (Publ) Audio coding method and apparatus
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2016091893A1 (en) 2014-12-09 2016-06-16 Dolby International Ab Mdct-domain error concealment
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI856342B (zh) * 2015-03-13 2024-09-21 瑞典商杜比國際公司 音訊處理單元、用於將經編碼的音訊位元流解碼之方法以及非暫態電腦可讀媒體
GB201504403D0 (en) 2015-03-16 2015-04-29 Microsoft Technology Licensing Llc Adapting encoded bandwidth
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
EP3405949B1 (en) * 2016-01-22 2020-01-08 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for estimating an inter-channel time difference
CN117542365A (zh) * 2016-01-22 2024-02-09 弗劳恩霍夫应用研究促进协会 用于具有全局ild和改进的中/侧决策的mdct m/s立体声的装置和方法
EP3208800A1 (en) 2016-02-17 2017-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for stereo filing in multichannel coding
DE102016104665A1 (de) 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10741196B2 (en) 2016-03-24 2020-08-11 Harman International Industries, Incorporated Signal quality-based enhancement and compensation of compressed audio signals
US10141005B2 (en) 2016-06-10 2018-11-27 Apple Inc. Noise detection and removal systems, and related methods
EP3475944B1 (en) 2016-06-22 2020-07-15 Dolby International AB Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
US10812550B1 (en) * 2016-08-03 2020-10-20 Amazon Technologies, Inc. Bitrate allocation for a multichannel media stream
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
EP3306609A1 (en) * 2016-10-04 2018-04-11 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for determining a pitch information
US10362423B2 (en) * 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10090892B1 (en) * 2017-03-20 2018-10-02 Intel Corporation Apparatus and a method for data detecting using a low bit analog-to-digital converter
US10354669B2 (en) 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3382700A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3382704A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a predetermined characteristic related to a spectral enhancement processing of an audio signal
RU2727794C1 (ru) 2017-05-18 2020-07-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Управляющее сетевое устройство
US11550665B2 (en) 2017-06-02 2023-01-10 Apple Inc. Techniques for preserving clone relationships between files
US11545164B2 (en) * 2017-06-19 2023-01-03 Rtx A/S Audio signal encoding and decoding
JP7257975B2 (ja) 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
JP6904209B2 (ja) * 2017-07-28 2021-07-14 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
BR112020008216A2 (pt) * 2017-10-27 2020-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. aparelho e seu método para gerar um sinal de áudio intensificado, sistema para processar um sinal de áudio
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
TWI702594B (zh) 2018-01-26 2020-08-21 瑞典商都比國際公司 用於音訊信號之高頻重建技術之回溯相容整合
DE112018006786B4 (de) * 2018-02-09 2021-12-23 Mitsubishi Electric Corporation Audiosignal-Verarbeitungsvorrichtung und Audiosignal-Verarbeitungsverfahren
US10950251B2 (en) * 2018-03-05 2021-03-16 Dts, Inc. Coding of harmonic signals in transform-based audio codecs
EP3576088A1 (en) * 2018-05-30 2019-12-04 Fraunhofer Gesellschaft zur Förderung der Angewand Audio similarity evaluator, audio encoder, methods and computer program
AU2019298307A1 (en) 2018-07-04 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal audio coding using signal whitening as preprocessing
CN109088617B (zh) * 2018-09-20 2021-06-04 电子科技大学 比率可变数字重采样滤波器
US10847172B2 (en) * 2018-12-17 2020-11-24 Microsoft Technology Licensing, Llc Phase quantization in a speech encoder
US10957331B2 (en) 2018-12-17 2021-03-23 Microsoft Technology Licensing, Llc Phase reconstruction in a speech decoder
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
CN113348507B (zh) * 2019-01-13 2025-02-21 华为技术有限公司 高分辨率音频编解码
JP7262593B2 (ja) * 2019-01-13 2023-04-21 華為技術有限公司 ハイレゾリューションオーディオ符号化
KR102470429B1 (ko) * 2019-03-14 2022-11-23 붐클라우드 360 인코포레이티드 우선순위에 의한 공간 인식 다중 대역 압축 시스템
CN110265043B (zh) * 2019-06-03 2021-06-01 同响科技股份有限公司 自适应有损或无损的音频压缩和解压缩演算方法
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
MX2022001162A (es) 2019-07-30 2022-02-22 Dolby Laboratories Licensing Corp Coordinacion de dispositivos de audio.
DE102020210917B4 (de) 2019-08-30 2023-10-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein Verbesserter M/S-Stereo-Codierer und -Decodierer
TWI702780B (zh) * 2019-12-03 2020-08-21 財團法人工業技術研究院 提升共模瞬變抗擾度的隔離器及訊號產生方法
CN111862953B (zh) * 2019-12-05 2023-08-22 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
US11158297B2 (en) * 2020-01-13 2021-10-26 International Business Machines Corporation Timbre creation system
CN113192517B (zh) * 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
US20230085013A1 (en) * 2020-01-28 2023-03-16 Hewlett-Packard Development Company, L.P. Multi-channel decomposition and harmonic synthesis
CN111199743B (zh) * 2020-02-28 2023-08-18 Oppo广东移动通信有限公司 音频编码格式确定方法、装置、存储介质及电子设备
CN111429925B (zh) * 2020-04-10 2023-04-07 北京百瑞互联技术有限公司 一种降低音频编码速率的方法及系统
CN113593586B (zh) * 2020-04-15 2025-01-10 华为技术有限公司 音频信号编码方法、解码方法、编码设备以及解码设备
CN111371459B (zh) * 2020-04-26 2023-04-18 宁夏隆基宁光仪表股份有限公司 一种适用于智能电表的多操作高频替换式数据压缩方法
CN113782040B (zh) * 2020-05-22 2024-07-30 华为技术有限公司 基于心理声学的音频编码方法及装置
CN113808596B (zh) 2020-05-30 2025-01-03 华为技术有限公司 一种音频编码方法和音频编码装置
CN113808597B (zh) * 2020-05-30 2024-10-29 华为技术有限公司 一种音频编码方法和音频编码装置
EP4193357A1 (en) * 2020-08-28 2023-06-14 Google LLC Maintaining invariance of sensory dissonance and sound localization cues in audio codecs
CN113113033B (zh) * 2021-04-29 2025-03-07 腾讯音乐娱乐科技(深圳)有限公司 一种音频处理方法、设备及可读存储介质
CN113365189B (zh) * 2021-06-04 2022-08-05 上海傅硅电子科技有限公司 多声道无缝切换方法
CN115472171B (zh) * 2021-06-11 2024-11-22 华为技术有限公司 编解码方法、装置、设备、存储介质及计算机程序
CN113593604B (zh) * 2021-07-22 2024-07-19 腾讯音乐娱乐科技(深圳)有限公司 检测音频质量方法、装置及存储介质
TWI794002B (zh) * 2022-01-28 2023-02-21 緯創資通股份有限公司 多媒體系統以及多媒體操作方法
CN114582361B (zh) * 2022-04-29 2022-07-08 北京百瑞互联技术有限公司 基于生成对抗网络的高解析度音频编解码方法及系统
EP4500524A1 (en) * 2022-05-17 2025-02-05 Google LLC Asymmetric and adaptive strength for windowing at encoding and decoding time for audio compression
WO2024085551A1 (ko) * 2022-10-16 2024-04-25 삼성전자주식회사 패킷 손실 은닉을 위한 전자 장치 및 방법

Family Cites Families (266)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62234435A (ja) * 1986-04-04 1987-10-14 Kokusai Denshin Denwa Co Ltd <Kdd> 符号化音声の復号化方式
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
JP3465697B2 (ja) * 1993-05-31 2003-11-10 ソニー株式会社 信号記録媒体
CA2140779C (en) 1993-05-31 2005-09-20 Kyoya Tsutsui Method, apparatus and recording medium for coding of separated tone and noise characteristics spectral components of an acoustic signal
TW272341B (es) * 1993-07-16 1996-03-11 Sony Co Ltd
GB2281680B (en) * 1993-08-27 1998-08-26 Motorola Inc A voice activity detector for an echo suppressor and an echo suppressor
BE1007617A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met gebruik van verschillende codeerprincipes.
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
JPH07336231A (ja) * 1994-06-13 1995-12-22 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
EP0732687B2 (en) * 1995-03-13 2005-10-12 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
EP0820624A1 (en) 1995-04-10 1998-01-28 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
JP3747492B2 (ja) 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
JPH10124088A (ja) * 1996-10-24 1998-05-15 Sony Corp 音声帯域幅拡張装置及び方法
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6253172B1 (en) * 1997-10-16 2001-06-26 Texas Instruments Incorporated Spectral transformation of acoustic signals
US5913191A (en) 1997-10-17 1999-06-15 Dolby Laboratories Licensing Corporation Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
US6029126A (en) * 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6253165B1 (en) * 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
US6453289B1 (en) 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6061555A (en) 1998-10-21 2000-05-09 Parkervision, Inc. Method and system for ensuring reception of a communications signal
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
JP3762579B2 (ja) 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
KR100675309B1 (ko) * 1999-11-16 2007-01-29 코닌클리케 필립스 일렉트로닉스 엔.브이. 광대역 오디오 송신 시스템, 송신기, 수신기, 코딩 디바이스, 디코딩 디바이스와, 송신 시스템에서 사용하기 위한 코딩 방법 및 디코딩 방법
US7742927B2 (en) 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
AU2001284910B2 (en) * 2000-08-16 2007-03-22 Dolby Laboratories Licensing Corporation Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
US20020128839A1 (en) 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
WO2002058053A1 (en) 2001-01-22 2002-07-25 Kanars Data Corporation Encoding method and decoding method for digital voice data
JP2002268693A (ja) 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
MXPA03002115A (es) * 2001-07-13 2003-08-26 Matsushita Electric Ind Co Ltd DISPOSITIVO DE DECODIFICACION Y CODIFICACION DE SEnAL DE AUDIO.
EP1446797B1 (en) * 2001-10-25 2007-05-23 Koninklijke Philips Electronics N.V. Method of transmission of wideband audio signals on a transmission channel with reduced bandwidth
JP3923783B2 (ja) * 2001-11-02 2007-06-06 松下電器産業株式会社 符号化装置及び復号化装置
JP4308229B2 (ja) 2001-11-14 2009-08-05 パナソニック株式会社 符号化装置および復号化装置
EP1423847B1 (en) 2001-11-29 2005-02-02 Coding Technologies AB Reconstruction of high frequency components
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7206740B2 (en) * 2002-01-04 2007-04-17 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
DE60323331D1 (de) 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
RU2316154C2 (ru) * 2002-04-10 2008-01-27 Конинклейке Филипс Электроникс Н.В. Кодирование стереофонических сигналов
US20030220800A1 (en) * 2002-05-21 2003-11-27 Budnikov Dmitry N. Coding multichannel audio signals
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
EP1516514A1 (en) * 2002-06-12 2005-03-23 Equtech APS Method of digital equalisation of a sound from loudspeakers in rooms and use of the method
KR100462615B1 (ko) * 2002-07-11 2004-12-20 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
DE20321883U1 (de) 2002-09-04 2012-01-20 Microsoft Corp. Computervorrichtung und -system zum Entropiedecodieren quantisierter Transformationskoeffizienten eines Blockes
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
KR100501930B1 (ko) * 2002-11-29 2005-07-18 삼성전자주식회사 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
US7318027B2 (en) 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
RU2244386C2 (ru) 2003-03-28 2005-01-10 Корпорация "Самсунг Электроникс" Способ восстановления высокочастотной составляющей аудиосигнала и устройство для его реализации
US8311809B2 (en) 2003-04-17 2012-11-13 Koninklijke Philips Electronics N.V. Converting decoded sub-band signal into a stereo signal
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
CN1839426A (zh) * 2003-09-17 2006-09-27 北京阜国数字技术有限公司 多分辨率矢量量化的音频编解码方法及装置
DE10345996A1 (de) * 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
ES2282899T3 (es) 2003-10-30 2007-10-16 Koninklijke Philips Electronics N.V. Codificacion o descodificacion de señales de audio.
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE102004007184B3 (de) 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
DE102004007200B3 (de) 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
DE602005014288D1 (de) 2004-03-01 2009-06-10 Dolby Lab Licensing Corp Mehrkanalige Audiodekodierung
US7739119B2 (en) 2004-03-02 2010-06-15 Ittiam Systems (P) Ltd. Technique for implementing Huffman decoding
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
CN1677492A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
CN1677493A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
WO2005096274A1 (fr) * 2004-04-01 2005-10-13 Beijing Media Works Co., Ltd Dispositif et procede de codage/decodage audio ameliores
CN1677491A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
JP4938648B2 (ja) * 2004-04-05 2012-05-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マルチチャンネル・エンコーダ
US7668711B2 (en) 2004-04-23 2010-02-23 Panasonic Corporation Coding equipment
CN1947174B (zh) * 2004-04-27 2012-03-14 松下电器产业株式会社 可扩展编码装置、可扩展解码装置、可扩展编码方法以及可扩展解码方法
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
ATE394774T1 (de) * 2004-05-19 2008-05-15 Matsushita Electric Ind Co Ltd Kodierungs-, dekodierungsvorrichtung und methode dafür
US7649988B2 (en) 2004-06-15 2010-01-19 Acoustic Technologies, Inc. Comfort noise generator using modified Doblinger noise estimate
JP2006003580A (ja) * 2004-06-17 2006-01-05 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号符号化方法
CA2572805C (en) * 2004-07-02 2013-08-13 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
US7465389B2 (en) 2004-07-09 2008-12-16 Exxonmobil Research And Engineering Company Production of extra-heavy lube oils from Fischer-Tropsch wax
US6963405B1 (en) 2004-07-19 2005-11-08 Itt Manufacturing Enterprises, Inc. Laser counter-measure using fourier transform imaging spectrometers
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
TWI498882B (zh) 2004-08-25 2015-09-01 Dolby Lab Licensing Corp 音訊解碼器
RU2404506C2 (ru) 2004-11-05 2010-11-20 Панасоник Корпорэйшн Устройство масштабируемого декодирования и устройство масштабируемого кодирования
EP2752843A1 (en) 2004-11-05 2014-07-09 Panasonic Corporation Encoder, decoder, encoding method, and decoding method
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
JP4903053B2 (ja) * 2004-12-10 2012-03-21 パナソニック株式会社 広帯域符号化装置、広帯域lsp予測装置、帯域スケーラブル符号化装置及び広帯域符号化方法
KR100707174B1 (ko) * 2004-12-31 2007-04-13 삼성전자주식회사 광대역 음성 부호화 및 복호화 시스템에서 고대역 음성부호화 및 복호화 장치와 그 방법
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
SG163556A1 (en) 2005-04-01 2010-08-30 Qualcomm Inc Systems, methods, and apparatus for wideband speech coding
UA91853C2 (ru) * 2005-04-01 2010-09-10 Квелкомм Инкорпорейтед Способ и устройство для векторного квантования спектрального представления огибающей
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US7983922B2 (en) 2005-04-15 2011-07-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
PT1875463T (pt) 2005-04-22 2019-01-24 Qualcomm Inc Sistemas, métodos e aparelho para nivelamento de fator de ganho
US7698143B2 (en) 2005-05-17 2010-04-13 Mitsubishi Electric Research Laboratories, Inc. Constructing broad-band acoustic signals from lower-band acoustic signals
JP2006323037A (ja) * 2005-05-18 2006-11-30 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置
JP5118022B2 (ja) 2005-05-26 2013-01-16 エルジー エレクトロニクス インコーポレイティド オーディオ信号の符号化/復号化方法及び符号化/復号化装置
WO2006134992A1 (ja) * 2005-06-17 2006-12-21 Matsushita Electric Industrial Co., Ltd. ポストフィルタ、復号化装置及びポストフィルタ処理方法
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
JP2009500656A (ja) 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
US7411528B2 (en) * 2005-07-11 2008-08-12 Lg Electronics Co., Ltd. Apparatus and method of processing an audio signal
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
JP4640020B2 (ja) 2005-07-29 2011-03-02 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
CN100539437C (zh) 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
WO2007055462A1 (en) 2005-08-30 2007-05-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7974713B2 (en) 2005-10-12 2011-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Temporal and spatial shaping of multi-channel audio signals
US20080255859A1 (en) * 2005-10-20 2008-10-16 Lg Electronics, Inc. Method for Encoding and Decoding Multi-Channel Audio Signal and Apparatus Thereof
US8620644B2 (en) 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
KR20070046752A (ko) * 2005-10-31 2007-05-03 엘지전자 주식회사 신호 처리 방법 및 장치
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
KR100717058B1 (ko) * 2005-11-28 2007-05-14 삼성전자주식회사 고주파 성분 복원 방법 및 그 장치
US8255207B2 (en) 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
HUE066862T2 (hu) * 2006-01-27 2024-09-28 Dolby Int Ab Hatékony szûrés komplex modulált szûrõbankkal
EP1852848A1 (en) * 2006-05-05 2007-11-07 Deutsche Thomson-Brandt GmbH Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
CN101512899B (zh) * 2006-07-04 2012-12-26 杜比国际公司 滤波器压缩器以及用于产生压缩子带滤波器冲激响应的方法
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8135047B2 (en) 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
DE602006013359D1 (de) 2006-09-13 2010-05-12 Ericsson Telefon Ab L M Ender und empfänger
CN102892070B (zh) * 2006-10-16 2016-02-24 杜比国际公司 多声道下混对象编码的增强编码和参数表示
JP4936569B2 (ja) 2006-10-25 2012-05-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ副帯値を生成する装置及び方法、並びに、時間領域オーディオサンプルを生成する装置及び方法
US20080243518A1 (en) * 2006-11-16 2008-10-02 Alexey Oraevsky System And Method For Compressing And Reconstructing Audio Files
JP5231243B2 (ja) * 2006-11-28 2013-07-10 パナソニック株式会社 符号化装置及び符号化方法
JP5238512B2 (ja) 2006-12-13 2013-07-17 パナソニック株式会社 オーディオ信号符号化方法及び復号化方法
US8200351B2 (en) 2007-01-05 2012-06-12 STMicroelectronics Asia PTE., Ltd. Low power downmix energy equalization in parametric stereo encoders
MX2009007412A (es) 2007-01-10 2009-07-17 Koninkl Philips Electronics Nv Decodificador de audio.
JP2010519602A (ja) 2007-02-26 2010-06-03 クゥアルコム・インコーポレイテッド 信号分離のためのシステム、方法、および装置
US20080208575A1 (en) * 2007-02-27 2008-08-28 Nokia Corporation Split-band encoding and decoding of an audio signal
JP5294713B2 (ja) 2007-03-02 2013-09-18 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR101355376B1 (ko) 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
CN101067931B (zh) * 2007-05-10 2011-04-20 芯晟(北京)科技有限公司 一种高效可配置的频域参数立体声及多声道编解码方法与系统
ES2358786T3 (es) * 2007-06-08 2011-05-13 Dolby Laboratories Licensing Corporation Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial.
CN101325059B (zh) * 2007-06-15 2011-12-21 华为技术有限公司 语音编解码收发方法及装置
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
EP2571024B1 (en) * 2007-08-27 2014-10-22 Telefonaktiebolaget L M Ericsson AB (Publ) Adaptive transition frequency between noise fill and bandwidth extension
JP5255638B2 (ja) * 2007-08-27 2013-08-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) ノイズ補充の方法及び装置
DE102007048973B4 (de) * 2007-10-12 2010-11-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Multikanalsignals mit einer Sprachsignalverarbeitung
US8527265B2 (en) 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US9177569B2 (en) * 2007-10-30 2015-11-03 Samsung Electronics Co., Ltd. Apparatus, medium and method to encode and decode high frequency signal
KR101373004B1 (ko) * 2007-10-30 2014-03-26 삼성전자주식회사 고주파수 신호 부호화 및 복호화 장치 및 방법
EP2207166B1 (en) * 2007-11-02 2013-06-19 Huawei Technologies Co., Ltd. An audio decoding method and device
KR101586317B1 (ko) 2007-11-21 2016-01-18 엘지전자 주식회사 신호 처리 방법 및 장치
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
AU2008344134B2 (en) 2007-12-31 2011-08-25 Lg Electronics Inc. A method and an apparatus for processing an audio signal
DE602008005250D1 (de) * 2008-01-04 2011-04-14 Dolby Sweden Ab Audiokodierer und -dekodierer
US20090180531A1 (en) 2008-01-07 2009-07-16 Radlive Ltd. codec with plc capabilities
KR101413967B1 (ko) 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
EP2248263B1 (en) 2008-01-31 2012-12-26 Agency for Science, Technology And Research Method and device of bitrate distribution/truncation for scalable audio coding
US8391498B2 (en) 2008-02-14 2013-03-05 Dolby Laboratories Licensing Corporation Stereophonic widening
AU2009221444B2 (en) * 2008-03-04 2012-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Mixing of input data streams and generation of an output data stream therefrom
WO2009109050A1 (en) * 2008-03-05 2009-09-11 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
EP3296992B1 (en) 2008-03-20 2021-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for modifying a parameterized representation
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
EP2301017B1 (en) * 2008-05-09 2016-12-21 Nokia Technologies Oy Audio apparatus
US20090319263A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN103077722B (zh) 2008-07-11 2015-07-22 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
MX2011000367A (es) 2008-07-11 2011-03-02 Fraunhofer Ges Forschung Un aparato y un metodo para calcular una cantidad de envolventes espectrales.
PL2346030T3 (pl) 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
ES2683077T3 (es) * 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
ES2422412T3 (es) 2008-07-11 2013-09-11 Fraunhofer Ges Forschung Codificador de audio, procedimiento para la codificación de audio y programa de ordenador
CN102089813B (zh) * 2008-07-11 2013-11-20 弗劳恩霍夫应用研究促进协会 音频编码器和音频解码器
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ATE522901T1 (de) 2008-07-11 2011-09-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zur berechnung von bandbreitenerweiterungsdaten mit hilfe eines spektralneigungs-steuerungsrahmens
RU2491658C2 (ru) * 2008-07-11 2013-08-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Синтезатор аудиосигнала и кодирующее устройство аудиосигнала
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
WO2010028292A1 (en) 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8463603B2 (en) 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
WO2010031049A1 (en) 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
JP5295372B2 (ja) * 2008-09-17 2013-09-18 フランス・テレコム デジタルオーディオ信号におけるプリエコーの減衰
EP2224433B1 (en) * 2008-09-25 2020-05-27 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
US9947340B2 (en) * 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
ES2976382T3 (es) 2008-12-15 2024-07-31 Fraunhofer Ges Zur Foerderungder Angewandten Forschung E V Decodificador de extensión de ancho de banda
JP5423684B2 (ja) * 2008-12-19 2014-02-19 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
BR122019023704B1 (pt) 2009-01-16 2020-05-05 Dolby Int Ab sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP5214058B2 (ja) * 2009-03-17 2013-06-19 ドルビー インターナショナル アーベー 適応的に選択可能な左/右又はミッド/サイド・ステレオ符号化及びパラメトリック・ステレオ符号化の組み合わせに基づいた高度ステレオ符号化
EP2239732A1 (en) 2009-04-09 2010-10-13 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for generating a synthesis audio signal and for encoding an audio signal
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
EP2249333B1 (en) * 2009-05-06 2014-08-27 Nuance Communications, Inc. Method and apparatus for estimating a fundamental frequency of a speech signal
CN101556799B (zh) 2009-05-14 2013-08-28 华为技术有限公司 一种音频解码方法和音频解码器
TWI556227B (zh) 2009-05-27 2016-11-01 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
EP2273493B1 (en) 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
MY167512A (en) 2009-07-07 2018-09-04 Xtralis Technologies Ltd Chamber condition
US8793617B2 (en) * 2009-07-30 2014-07-29 Microsoft Corporation Integrating transport modes into a communication stream
US9031834B2 (en) 2009-09-04 2015-05-12 Nuance Communications, Inc. Speech enhancement techniques on the power spectrum
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
AU2010305383B2 (en) * 2009-10-08 2013-10-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping
KR101137652B1 (ko) 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
EP4358082A1 (en) 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
EP2491555B1 (en) 2009-10-20 2014-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-mode audio codec
EP3998606B8 (en) * 2009-10-21 2022-12-07 Dolby International AB Oversampling in a combined transposer filter bank
US8484020B2 (en) * 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
US8856011B2 (en) 2009-11-19 2014-10-07 Telefonaktiebolaget L M Ericsson (Publ) Excitation signal bandwidth extension
CN102081927B (zh) 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
SI2510515T1 (sl) 2009-12-07 2014-06-30 Dolby Laboratories Licensing Corporation Dekodiranje večkanalnih avdio kodiranih bitnih prenosov s pomočjo adaptivne hibridne transformacije
KR101764926B1 (ko) 2009-12-10 2017-08-03 삼성전자주식회사 음향 통신을 위한 장치 및 방법
CN102667920B (zh) * 2009-12-16 2014-03-12 杜比国际公司 Sbr比特流参数缩混
EP2357649B1 (en) 2010-01-21 2012-12-19 Electronics and Telecommunications Research Institute Method and apparatus for decoding audio signal
CN102194457B (zh) * 2010-03-02 2013-02-27 中兴通讯股份有限公司 音频编解码方法、系统及噪声水平估计方法
JP5523589B2 (ja) 2010-03-09 2014-06-18 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法
EP2369861B1 (en) 2010-03-25 2016-07-27 Nxp B.V. Multi-channel audio signal processing
RU2683175C2 (ru) * 2010-04-09 2019-03-26 Долби Интернешнл Аб Стереофоническое кодирование на основе mdct с комплексным предсказанием
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
PL3779979T3 (pl) 2010-04-13 2024-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób dekodowania audio do przetwarzania sygnałów audio stereo z wykorzystaniem zmiennego kierunku predykcji
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
TR201904117T4 (tr) 2010-04-16 2019-05-21 Fraunhofer Ges Forschung Kılavuzlu bant genişliği uzantısı ve gözü kapalı bant genişliği uzantısı kullanılarak bir geniş bantlı sinyal üretilmesine yönelik aparat, yöntem ve bilgisayar programı.
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
PL2581905T3 (pl) 2010-06-09 2016-06-30 Panasonic Ip Corp America Sposób rozszerzania pasma częstotliwości, urządzenie do rozszerzania pasma częstotliwości, program, układ scalony oraz urządzenie dekodujące audio
US9047875B2 (en) * 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US9236063B2 (en) * 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
US8489403B1 (en) 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
KR101624019B1 (ko) * 2011-02-14 2016-06-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 코덱에서 잡음 생성
JP6185457B2 (ja) 2011-04-28 2017-08-23 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
US9311923B2 (en) 2011-05-19 2016-04-12 Dolby Laboratories Licensing Corporation Adaptive audio processing based on forensic detection of media processing history
WO2012158333A1 (en) * 2011-05-19 2012-11-22 Dolby Laboratories Licensing Corporation Forensic detection of parametric audio coding schemes
KR102078865B1 (ko) 2011-06-30 2020-02-19 삼성전자주식회사 대역폭 확장신호 생성장치 및 방법
DE102011106033A1 (de) * 2011-06-30 2013-01-03 Zte Corporation Verfahren und System zur Audiocodierung und -decodierung und Verfahren zur Schätzung des Rauschpegels
US20130006644A1 (en) 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
JP5942358B2 (ja) 2011-08-24 2016-06-29 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP6037156B2 (ja) * 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
KR20130022549A (ko) 2011-08-25 2013-03-07 삼성전자주식회사 마이크 노이즈 제거 방법 및 이를 지원하는 휴대 단말기
CN103718240B (zh) 2011-09-09 2017-02-15 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
IN2014CN01270A (es) 2011-09-29 2015-06-19 Dolby Int Ab
PL3624119T3 (pl) * 2011-10-28 2022-06-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Urządzenie kodujące i sposób kodowania
ES2592522T3 (es) * 2011-11-02 2016-11-30 Telefonaktiebolaget L M Ericsson (Publ) Codificación de audio basada en representación de coeficientes auto-regresivos
CN103959375B (zh) * 2011-11-30 2016-11-09 杜比国际公司 增强的从音频编解码器的色度提取
JP5817499B2 (ja) 2011-12-15 2015-11-18 富士通株式会社 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム
CN103165136A (zh) 2011-12-15 2013-06-19 杜比实验室特许公司 音频处理方法及音频处理设备
US9390721B2 (en) 2012-01-20 2016-07-12 Panasonic Intellectual Property Corporation Of America Speech decoding device and speech decoding method
KR101398189B1 (ko) 2012-03-27 2014-05-22 광주과학기술원 음성수신장치 및 음성수신방법
KR102123770B1 (ko) * 2012-03-29 2020-06-16 텔레폰악티에볼라겟엘엠에릭슨(펍) 하모닉 오디오 신호의 변환 인코딩/디코딩
RU2610293C2 (ru) * 2012-03-29 2017-02-08 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
CN102750955B (zh) * 2012-07-20 2014-06-18 中国科学院自动化研究所 基于残差信号频谱重构的声码器
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
WO2014046526A1 (ko) 2012-09-24 2014-03-27 삼성전자 주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
PL3067890T3 (pl) 2013-01-29 2018-06-29 Fraunhofer Ges Forschung Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor

Also Published As

Publication number Publication date
US10347274B2 (en) 2019-07-09
KR101681253B1 (ko) 2016-12-01
US20210065723A1 (en) 2021-03-04
BR112016001072B1 (pt) 2022-07-12
US20150287417A1 (en) 2015-10-08
JP2016529546A (ja) 2016-09-23
AU2014295296B2 (en) 2017-10-19
US10593345B2 (en) 2020-03-17
PT3025337T (pt) 2022-02-23
CN111179963A (zh) 2020-05-19
US10311892B2 (en) 2019-06-04
BR112016000852A2 (pt) 2017-08-22
PL3025343T3 (pl) 2018-10-31
MX356161B (es) 2018-05-16
PT2883227T (pt) 2016-11-18
CN111554310A (zh) 2020-08-18
KR101822032B1 (ko) 2018-03-08
AU2014295295B2 (en) 2017-10-19
AU2014295298A1 (en) 2016-03-10
JP6705787B2 (ja) 2020-06-03
JP6144773B2 (ja) 2017-06-07
US20180268842A1 (en) 2018-09-20
PL3025340T3 (pl) 2019-09-30
EP3407350A1 (en) 2018-11-28
EP3723091A1 (en) 2020-10-14
MX2016000857A (es) 2016-05-05
PL3025328T3 (pl) 2019-02-28
BR112016001072A2 (es) 2017-08-22
PL3506260T3 (pl) 2024-02-19
SG11201502691QA (en) 2015-05-28
AU2014295297B2 (en) 2017-05-25
ES2698023T3 (es) 2019-01-30
EP3017448A1 (en) 2016-05-11
US11735192B2 (en) 2023-08-22
KR101807836B1 (ko) 2018-01-18
PT3407350T (pt) 2020-10-27
US20210217426A1 (en) 2021-07-15
EP3975180A1 (en) 2022-03-30
ES2813940T3 (es) 2021-03-25
RU2635890C2 (ru) 2017-11-16
RU2651229C2 (ru) 2018-04-18
KR20160046804A (ko) 2016-04-29
BR112016001125B1 (pt) 2022-01-04
ES2908624T3 (es) 2022-05-03
EP2883227B1 (en) 2016-08-17
MX2016000935A (es) 2016-07-05
US20160140979A1 (en) 2016-05-19
US20160210974A1 (en) 2016-07-21
WO2015010953A1 (en) 2015-01-29
KR20160042890A (ko) 2016-04-20
CA2918810C (en) 2020-04-28
CN105453176B (zh) 2019-08-23
US20180144760A1 (en) 2018-05-24
MX353999B (es) 2018-02-07
CA2918701A1 (en) 2015-01-29
BR112016001398B1 (pt) 2021-12-28
MX2015004022A (es) 2015-07-06
BR122022010958B1 (pt) 2024-01-30
CA2918835C (en) 2018-06-26
EP3025337A1 (en) 2016-06-01
TW201523589A (zh) 2015-06-16
MY182831A (en) 2021-02-05
RU2016105610A (ru) 2017-08-25
US20160140980A1 (en) 2016-05-19
CA2918807C (en) 2019-05-07
ZA201601011B (en) 2017-05-31
US20180102134A1 (en) 2018-04-12
EP3742444A1 (en) 2020-11-25
TW201514974A (zh) 2015-04-16
ZA201601111B (en) 2017-08-30
AU2014295301A1 (en) 2016-03-10
PT3025328T (pt) 2018-11-27
JP2016527556A (ja) 2016-09-08
CN110660410A (zh) 2020-01-07
SG11201600496XA (en) 2016-02-26
US20160133265A1 (en) 2016-05-12
JP6306702B2 (ja) 2018-04-04
MX354002B (es) 2018-02-07
EP3025337B1 (en) 2021-12-08
RU2646316C2 (ru) 2018-03-02
CA2918810A1 (en) 2015-01-29
CN112466312B (zh) 2025-02-21
EP4246512A3 (en) 2023-12-13
TW201523590A (zh) 2015-06-16
US10147430B2 (en) 2018-12-04
CN105518776B (zh) 2019-06-14
RU2015112591A (ru) 2016-10-27
CA2918807A1 (en) 2015-01-29
JP6389254B2 (ja) 2018-09-12
BR122022011238B1 (pt) 2023-12-19
CA2918524C (en) 2018-05-22
MX355448B (es) 2018-04-18
EP3025344A1 (en) 2016-06-01
MY175978A (en) 2020-07-19
US10276183B2 (en) 2019-04-30
RU2016105619A (ru) 2017-08-23
CN111179963B (zh) 2024-11-22
EP3025343A1 (en) 2016-06-01
CA2918804C (en) 2018-06-12
PL2883227T3 (pl) 2017-03-31
MX2016000924A (es) 2016-05-05
PL3025337T3 (pl) 2022-04-11
MX2016000940A (es) 2016-04-25
US10573334B2 (en) 2020-02-25
BR112016000740A2 (pt) 2017-08-22
CN110310659B (zh) 2023-10-24
US12142284B2 (en) 2024-11-12
JP2020060792A (ja) 2020-04-16
JP6568566B2 (ja) 2019-08-28
CN110660410B (zh) 2023-10-24
US20160140981A1 (en) 2016-05-19
CN104769671A (zh) 2015-07-08
BR112016001398A2 (pt) 2017-08-22
JP2016525713A (ja) 2016-08-25
RU2643641C2 (ru) 2018-02-02
US20190251986A1 (en) 2019-08-15
TW201513098A (zh) 2015-04-01
TWI541797B (zh) 2016-07-11
BR112016000852B1 (pt) 2021-12-28
JP7092809B2 (ja) 2022-06-28
US20190074019A1 (en) 2019-03-07
JP6400702B2 (ja) 2018-10-03
AU2014295296A1 (en) 2016-03-10
JP7483792B2 (ja) 2024-05-15
JP6321797B2 (ja) 2018-05-09
KR20160030193A (ko) 2016-03-16
CN105518777B (zh) 2020-01-31
CN112466312A (zh) 2021-03-09
BR112015007533B1 (pt) 2022-09-27
CA2918524A1 (en) 2015-01-29
US10515652B2 (en) 2019-12-24
AU2014295300A1 (en) 2016-03-10
RU2016105473A (ru) 2017-08-23
TW201517024A (zh) 2015-05-01
BR112016000740B1 (pt) 2022-12-27
BR112015007533A2 (es) 2017-08-22
RU2016105618A (ru) 2017-08-28
TW201517019A (zh) 2015-05-01
US20200082841A1 (en) 2020-03-12
MX2016000943A (es) 2016-07-05
US11289104B2 (en) 2022-03-29
EP3506260C0 (en) 2023-08-16
US11769512B2 (en) 2023-09-26
EP3025343B1 (en) 2018-02-14
PT3025343T (pt) 2018-05-18
CN105580075A (zh) 2016-05-11
ZA201601010B (en) 2017-11-29
EP2883227A1 (en) 2015-06-17
EP3723091B1 (en) 2024-09-11
WO2015010947A1 (en) 2015-01-29
EP2830059A1 (en) 2015-01-28
SG11201600494UA (en) 2016-02-26
PT3025340T (pt) 2019-06-27
CN105580075B (zh) 2020-02-07
EP3025328A1 (en) 2016-06-01
PL3407350T3 (pl) 2020-12-28
BR112016000947A2 (es) 2017-08-22
SG11201600401RA (en) 2016-02-26
WO2015010952A1 (en) 2015-01-29
ZA201601046B (en) 2017-05-31
KR20160041940A (ko) 2016-04-18
MY180759A (en) 2020-12-08
JP2022123060A (ja) 2022-08-23
WO2015010954A1 (en) 2015-01-29
TWI555009B (zh) 2016-10-21
US20220270619A1 (en) 2022-08-25
CA2918835A1 (en) 2015-01-29
AU2014295300B2 (en) 2017-05-25
CN110310659A (zh) 2019-10-08
US20230352032A1 (en) 2023-11-02
KR101774795B1 (ko) 2017-09-05
EP3025340B1 (en) 2019-03-27
AU2014295297A1 (en) 2016-03-10
EP3506260A1 (en) 2019-07-03
TWI545558B (zh) 2016-08-11
ES2638498T3 (es) 2017-10-23
RU2649940C2 (ru) 2018-04-05
AU2014295301B2 (en) 2017-05-25
EP2830056A1 (en) 2015-01-28
US20160140973A1 (en) 2016-05-19
KR101826723B1 (ko) 2018-03-22
ES2959641T3 (es) 2024-02-27
WO2015010949A1 (en) 2015-01-29
KR20160034975A (ko) 2016-03-30
JP6186082B2 (ja) 2017-08-23
ES2728329T3 (es) 2019-10-23
JP2016530556A (ja) 2016-09-29
PT3017448T (pt) 2020-10-08
JP2018013796A (ja) 2018-01-25
US20190198029A1 (en) 2019-06-27
EP2830063A1 (en) 2015-01-28
CN105518776A (zh) 2016-04-20
ES2827774T3 (es) 2021-05-24
JP6310074B2 (ja) 2018-04-11
WO2015010950A1 (en) 2015-01-29
CN105453175B (zh) 2020-11-03
RU2640634C2 (ru) 2018-01-10
WO2015010952A9 (en) 2017-10-26
US11996106B2 (en) 2024-05-28
KR20160024924A (ko) 2016-03-07
MY187943A (en) 2021-10-30
TW201517023A (zh) 2015-05-01
US10134404B2 (en) 2018-11-20
RU2607263C2 (ru) 2017-01-10
BR122022010960B1 (pt) 2023-04-04
EP3506260B1 (en) 2023-08-16
US20220139407A1 (en) 2022-05-05
ES2667221T3 (es) 2018-05-10
EP3723091C0 (en) 2024-09-11
PL3017448T3 (pl) 2020-12-28
US10332539B2 (en) 2019-06-25
KR101764723B1 (ko) 2017-08-14
TWI555008B (zh) 2016-10-21
BR112016000947B1 (pt) 2022-06-21
CA2973841C (en) 2019-08-20
JP2018077487A (ja) 2018-05-17
AU2014295295A1 (en) 2016-03-10
US20170154631A1 (en) 2017-06-01
ZA201502262B (en) 2016-09-28
JP2018041100A (ja) 2018-03-15
CN105453176A (zh) 2016-03-30
CN105453175A (zh) 2016-03-30
CN111554310B (zh) 2023-10-20
CA2918804A1 (en) 2015-01-29
EP3025340A1 (en) 2016-06-01
EP3407350B1 (en) 2020-07-29
CA2973841A1 (en) 2015-01-29
US20190371355A1 (en) 2019-12-05
US11769513B2 (en) 2023-09-26
US20190043522A1 (en) 2019-02-07
RU2016105759A (ru) 2017-08-25
US10847167B2 (en) 2020-11-24
CN104769671B (zh) 2017-09-26
US11922956B2 (en) 2024-03-05
EP2830065A1 (en) 2015-01-28
AU2014295302A1 (en) 2015-04-02
EP3025344B1 (en) 2017-06-21
EP2830064A1 (en) 2015-01-28
WO2015010948A1 (en) 2015-01-29
EP2830054A1 (en) 2015-01-28
EP2830061A1 (en) 2015-01-28
EP4246512A2 (en) 2023-09-20
US10002621B2 (en) 2018-06-19
JP2016529545A (ja) 2016-09-23
MX2016000854A (es) 2016-06-23
US11222643B2 (en) 2022-01-11
KR20150060752A (ko) 2015-06-03
EP3025328B1 (en) 2018-08-01
US20210295853A1 (en) 2021-09-23
CA2886505C (en) 2017-10-31
MX362036B (es) 2019-01-04
CN105556603B (zh) 2019-08-27
KR101809592B1 (ko) 2018-01-18
TR201816157T4 (tr) 2018-11-21
US10332531B2 (en) 2019-06-25
RU2016105613A (ru) 2017-08-28
SG11201600464WA (en) 2016-02-26
CA2886505A1 (en) 2015-01-29
TWI545560B (zh) 2016-08-11
TWI549121B (zh) 2016-09-11
SG11201600422SA (en) 2016-02-26
US11257505B2 (en) 2022-02-22
CN105518777A (zh) 2016-04-20
JP2015535620A (ja) 2015-12-14
MY184847A (en) 2021-04-27
AU2014295298B2 (en) 2017-05-25
BR122022011231B1 (pt) 2024-01-30
MX340575B (es) 2016-07-13
MX354657B (es) 2018-03-14
AU2014295302B2 (en) 2016-06-30
HK1211378A1 (en) 2016-05-20
SG11201600506VA (en) 2016-02-26
US10984805B2 (en) 2021-04-20
EP3017448B1 (en) 2020-07-08
CN105556603A (zh) 2016-05-04
BR112016001125A2 (es) 2017-08-22
JP2016527557A (ja) 2016-09-08
US11250862B2 (en) 2022-02-15
US20220157325A1 (en) 2022-05-19
TWI545561B (zh) 2016-08-11
BR122022010965B1 (pt) 2023-04-04
CA2918701C (en) 2020-04-14
US11049506B2 (en) 2021-06-29
JP6691093B2 (ja) 2020-04-28

Similar Documents

Publication Publication Date Title
ES2599007T3 (es) Aparato y método para codificar y decodificar una señal de audio codificada utilizando modelado de ruido/parche temporal