[go: up one dir, main page]

ES2501840T3 - Procedimiento y disposición para el procesamiento de señales de audio - Google Patents

Procedimiento y disposición para el procesamiento de señales de audio Download PDF

Info

Publication number
ES2501840T3
ES2501840T3 ES11780883.2T ES11780883T ES2501840T3 ES 2501840 T3 ES2501840 T3 ES 2501840T3 ES 11780883 T ES11780883 T ES 11780883T ES 2501840 T3 ES2501840 T3 ES 2501840T3
Authority
ES
Spain
Prior art keywords
vector
post
filter
mdct
time segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES11780883.2T
Other languages
English (en)
Inventor
Volodya Grancharov
Sigurdur Sverrisson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2501840T3 publication Critical patent/ES2501840T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Procedimiento en un decodificador, en el que el procedimiento comprende: - obtener(402) un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio, - derivar (404) un vector d^ (k) procesado aplicando de un post-filtro directamente al vector d(k), cuyo post-filtro está configurado para tener una función de transferencia H(k), que es una versión comprimida de la envolvente del vector d(k), en la que k varía de 1 al número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y - derivar (406) una forma de onda de la señal aplicando una transformada MDCT inversa al vector d^ (k) procesado.

Description

5
10
15
20
25
30
35
40
45
E11780883
10-09-2014
DESCRIPCIÓN
Procedimiento y disposición para el procesamiento de señales de audio
Campo técnico
La invención se refiere al procesamiento de señales de audio, en particular a un procedimiento y una disposición para mejorar la calidad perceptual mediante un post-filtrado.
Antecedentes
La codificación de audio a tasas de bits bajas o moderadas se usa ampliamente para reducir la carga de la red. Sin embargo, la reducción de la tasa de bits conduce inevitablemente a una disminución de la calidad debida a una mayor cantidad de ruido de cuantificación. Una manera de minimizar el impacto perceptual del ruido de cuantificación es usando un post-filtro. Un post-filtro funciona en el decodificador y afecta a los parámetros de la señal reconstruida o, directamente, a la forma de onda de la señal. El uso de un post-filtro tiene por objeto atenuar los valles del espectro, donde el ruido de cuantificación es más audible y conseguir, de esta manera, una calidad perceptual mejorada.
Ambos post-filtros de tono y formantes se usan para mejorar la calidad en los códecs de voz denominados ACELP (Predicción lineal excitada por código algebraico, Algebraic Code Excited Linear Prediction). Estos filtros funcionan en el dominio del tiempo y, típicamente, se basan en el modelo de voz usado en el códec ACELP [1]. Sin embargo, esta familia de post-filtros no es adecuada para su uso con códecs de audio con transformación, tales como por ejemplo, G.719 [2].
Otro ejemplo de post-procesador de voz para mejora una señal de voz dividida en una pluralidad de bandas en el dominio de la frecuencia se describe en la referencia [3].
De esta manera, hay una necesidad de mejorar la calidad perceptual de las señales de audio que han sido sometidas a una codificación de audio con transformación.
Sumario
Sería deseable conseguir una calidad perceptual de audio mejorada de las señales de audio que han sido sometidas a una codificación de audio con transformación. Un objeto de la invención es mejorar la calidad perceptual de una señal de audio que ha sido sometida a una codificación de audio con transformación. Además, un objeto de la invención es proporcionar un procedimiento y una disposición para el post-filtrado de una señal de audio que ha sido sometida a una codificación de audio con transformación. Estos objetos pueden ser conseguidos mediante un procedimiento y un aparato según las reivindicaciones independientes adjuntas. Las realizaciones se exponen en las reivindicaciones dependientes.
Según un primer aspecto, se proporciona un procedimiento en un decodificador según se reivindica en la reivindicación 1. El procedimiento implica obtener un vector d, que comprende coeficientes cuantificados de
dominio MDCT de un segmento de tiempo de una señal de audio. Además, se deriva un vector dˆ procesado aplicando un post-filtro directamente al vector d. El post-filtro está configurado para tener una función de transferencia H que es una versión comprimida de la envolvente del vector d. Además, se deriva una forma de
onda de la señal aplicando una transformada MDCT inversa al vector dˆ procesado.
Según un segundo aspecto, se proporciona un decodificador según se reivindica en la reivindicación 8. El decodificador comprende una unidad funcional adaptada para obtener un vector d, que comprende los coeficientes cuantificados en el dominio MDCT de un segmento de tiempo de una señal de audio. El decodificador comprende
además una unidad funcional, adaptada para derivar un vector dˆ procesado mediante la aplicación de un postfiltro directamente al vector d. El post-filtro está configurado para tener una función de transferencia H que es una versión comprimida de la envolvente del vector d. El decodificador comprende además una unidad funcional
adaptada para derivar una forma de onda de la señal aplicando una transformada MDCT inversa al vector dˆ procesado.
El procedimiento y la disposición indicados anteriormente, que implican un post-filtro MDCT, pueden ser usados para mejorar la calidad de los sistemas de codificación de audio con tasas de bits moderada y baja. Cuando el post-filtro es usado en un códec MDCT, la complejidad adicional es muy baja, ya que el post-filtro opera directamente sobre el vector MDCT.
El procedimiento y la disposición indicados anteriormente pueden ser implementados en diferentes realizaciones.
5
10
15
20
25
30
35
40
45
E11780883
10-09-2014
En algunas realizaciones, el denominador de la función de transferencia H está configurado para comprender un máximo del vector |d|, que puede ser una estimación obtenida realizando un seguimiento recursivo de máximo sobre el vector |d|. En algunas realizaciones, la función de transferencia H está configurada para comprender un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT. Por ejemplo, el componente de énfasis podría depender de la frecuencia o podría ser constante. Además, la energía
del vector dˆ procesado puede ser normalizada a la energía del vector d.
En algunas realizaciones, el vector dˆ procesado es derivado sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz. Además, la función de transferencia H podría ser limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre, por ejemplo, voz sorda, ruido de fondo y música.
Las realizaciones anteriores se han descrito principalmente en términos de un procedimiento. Sin embargo, la descripción anterior pretende abarcar también realizaciones del decodificador, adaptadas para permitir la realización de las características descritas anteriormente. Las diferentes características de las realizaciones ejemplares anteriores pueden combinarse de diferentes maneras según las necesidades, los requisitos o las preferencias.
Breve descripción de los dibujos
La invención se describirá ahora más detalladamente por medio de realizaciones ejemplares y con referencia a los dibujos adjuntos, en los que:
La Figura 1 muestra un diagrama de un factor a(k) de énfasis ejemplar, que disminuye (para limitar el efecto del post-filtro) conforme aumenta la frecuencia, según una realización ejemplar.
La Figura 2 muestra un diagrama que ilustra el efecto del post-filtro sobre un espectro de la señal, donde la línea de puntos delgada representa el espectro de la señal antes del post-filtro, y la línea continua representa el espectro de la señal después del post-filtro, según una realización ejemplificar.
La Figura 3 muestra el resultado de un ensayo de escucha MUSHRA que compara un códec de audio MDCT con y sin post-filtro, según una realización ejemplar.
La Figura 4 es un diagrama de flujo que ilustra las acciones de un procedimiento realizado en un decodificador, según una realización ejemplar.
Las Figuras 5-7 son diagramas de bloques que ilustran una disposición respectiva en un decodificador y una entidad de gestión de audio, según realizaciones ejemplares.
Descripción detallada
En breve, se proporciona un decodificador que comprende un post-filtro, cuyo post-filtro está diseñado para trabajar con códecs con transformadas de tipo MDCT (Modified Discrete Cosine Transform, Transformada Discreta de Coseno Modificada), tales como por ejemplo, G.719 [2]. El post-filtro sugerido opera directamente en el dominio MDCT, y no requiere una transformación adicional de la señal de audio al dominio DFT o al dominio del tiempo, lo que mantiene la complejidad computacional baja. La mejora de la calidad debida al post-filtro se confirma en los ensayos de escucha.
El concepto de codificación mediante transformación es convertir, o transformar, una señal de audio a ser codificada al dominio de la frecuencia y, a continuación, cuantificar los coeficientes de frecuencia, que son almacenados o suministrados, a continuación, a un decodificador. El decodificador usa los coeficientes de frecuencia (cuantificados) recibidos para reconstruir la forma de onda de la señal de audio, aplicando la transformada de frecuencia inversa. La motivación detrás de este esquema de codificación es que los coeficientes en el dominio de la frecuencia pueden ser cuantificados de manera más eficiente que los coeficientes en el dominio del tiempo.
En un codificador de transformada de tipo MDCT, una forma de onda x(n) de un bloque de la señal es transformada a un vector d*(k). La longitud "L" de dicho vector corresponde a segmentos de voz de 20-40 ms. La transformada MDCT puede definirse como:
E11780883
10-09-2014
imagen1
5 Los coeficientes MDCT son cuantificados, formando de esta manera un vector d(k) = Q(d*(k)) de coeficientes MDCT cuantificados, que deben ser decodificados por un decodificador MDCT.
El post-filtro puede ser aplicado directamente al vector d(k) recibido en el decodificador, y derivar de esta manera el vector dˆ post-filtrado como
10
imagen2
La función de transferencia o función de filtro, H(k), es una versión comprimida de la envolvente del espectro MDCT:
imagen3
El parámetro a(k) puede ser configurado para controlar la "agresividad" o "cantidad de énfasis" del post-filtro sobre el espectro MDCT. La Figura 1 muestra un diagrama de un ejemplo de cómo a(k) puede ser configurado como un vector dependiente de la frecuencia. Sin embargo, a(k) también podría ser constante a lo largo del espectro. El efecto del post-filtro sobre el espectro de la señal se ilustra en la Figura 2. Tal como puede verse en la Figura 2, los valles del espectro son más profundos después del post-filtrado.
Preferentemente, la energía de la salida del post-filtro puede ser normalizada a la energía de la entrada del postfiltro:
imagen4
Aquí, std(d) es la desviación estándar del vector d, que comprende los coeficientes MDCT cuantificados, antes de
la operación de post-filtrado; y std( dˆ ) es la desviación estándar del vector dˆ procesado, es decir, del vector d después de la operación de post-filtrado.
30 Además, el ruido de cuantificación audible debido a la codificación es más audible en la voz sonora, por ejemplo, en comparación con la música. De esta manera, por ejemplo, el uso del post-filtro sugerido es más eficaz para reducir el ruido de cuantificación audible en las señales de voz, en lugar de en las señales de música. De esta manera, cuando sea adecuado, el post-filtro podría ser desactivado, o suprimido, en tramas o segmentos de trama para los cuales se considera que el post-filtro es menos eficaz. Por ejemplo, el post-filtro podría ser desactivado, o
35 suprimido, en tramas o segmentos de trama para los cuales se determina que consisten principalmente en voz sorda, ruido de fondo y/o la música. El post-filtro podría ser usado en combinación, por ejemplo, con un discriminador de voz-música, y/o un módulo de estimación de ruido de fondo, para determinar el contenido de una trama. Sin embargo, cabe señalar que el post-filtro no causa ninguna degradación, por ejemplo, en segmentos sordos.
40 El efecto percibido del uso del post-filtro ha sido ensayado en un ensayo denominado MUSHRA, cuyo resultado se ilustra en la Figura 3. "MUSHRA" hace referencia a “MUltiple Stimuli with Hidden Reference and Anchor” (múltiples estímulos con referencia oculta y base), y es una metodología para la evaluación subjetiva de la calidad de audio, usada típicamente para evaluar la calidad percibida de la salida desde los algoritmos de compresión de audio con pérdidas. Cuantos más puntos MUSHURA recibe una señal, mejor será la calidad de audio percibida. En la Figura
45 1, la primera barra (#1) representa una señal MDCT decodificada e la que no se usó ningún post-filtro en el
5
10
15
20
25
30
35
40
45
50
E11780883
10-09-2014
procedimiento de decodificación. La segunda barra (#2) representa una señal MDCT decodificada, en la que se usó el post-filtro sugerido en el procedimiento de decodificación. La tercera barra (#3) representa una señal de voz original, que no ha sido sometida a codificación y, de esta manera, recibe la máxima cantidad de puntos/puntuación. Tal como puede verse en la Figura 3, el uso del post-filtro proporciona un aumento considerable de la calidad de audio percibida.
Procedimiento ejemplar Figura 4
Ahora, se describirá una realización ejemplar del procedimiento de decodificación de una señal de audio con codificación MDCT, con referencia a la Figura 4. El procedimiento podría ser realizado en una entidad de gestión de audio, tal como por ejemplo un nodo en un sistema de teleconferencia y/o un nodo o terminal en un sistema de comunicación inalámbrica o por cable, un nodo implicado en una radiodifusión de audio, o una entidad o dispositivo usado en la producción de música.
Un vector d, que comprende los coeficientes MDCT cuantificados de un segmento de tiempo de una señal de audio, es obtenido en una acción 402. Se supone que el vector de coeficientes es producido por un codificador MDCT, y se supone que es recibido desde otro nodo o entidad, o, es recuperado, por ejemplo, desde una memoria.
Un vector dˆ procesado es derivado en una acción 406, aplicando directamente un post-filtro al vector d, cuyo post-filtro está configurado para tener una función de transferencia H, que es una versión comprimida de la envolvente del vector d. Además, se deriva una forma de onda de la señal reconstruida en una acción 408
aplicando una transformada MDCT inversa al vector dˆ procesado
El denominador de la función de transferencia H puede estar configurado para comprender un máximo del vector
d. Dicho máximo podría ser el coeficiente más grande (valor absoluto) de |d| o, por ejemplo, una estimación obtenida mediante un seguimiento recursivo de máximo sobre el vector |d|.
La función de transferencia H puede estar configurada además para comprender un componente de énfasis, configurado para controlar la agresividad o la cantidad de énfasis del post-filtro, sobre el espectro MDCT. Este componente se denota "a" en la Figura 1 y la Ecuación 1. El componente "a" podría ser, por ejemplo un vector dependiente de la frecuencia, o una constante.
La energía de la salida del post-filtro, es decir, el vector dˆ procesado, puede ser normalizada a la energía de la entrada del post-filtro, es decir, a la energía del vector d. Además, podría determinarse el contenido del segmento
de señal de audio, y el post-filtro podría ser aplicado según dicho contenido. Por ejemplo, el vector dˆ procesado podría ser derivado, por ejemplo, sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz. Además, la función de transferencia H del post-filtro podría ser limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente, por ejemplo, voz sorda, ruido de fondo o música. Estas acciones condicionales se ilustran como las acciones 404 y 410 en la Figura 4. El contenido del segmento de señal de audio puede ser determinado en base al vector d, o podría ser determinado en el codificador, en base a la forma de onda de la señal de audio y, a continuación, la información relacionada con el contenido podría ser señalizada, de una manera adecuada, desde el codificador al decodificador.
Disposiciones ejemplares, Figuras 5 y 6
A continuación, se describirá un decodificador 501 ejemplar, adaptado para permitir la realización del procedimiento descrito anteriormente relacionado con la decodificación de una señal, con referencia a la Figura 5.
El decodificador 501 comprende una unidad 502 de obtención, que está adaptada para obtener un vector d, que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio. El vector d podría ser recibido, por ejemplo, desde otro nodo, o podría ser recuperado, por ejemplo, de una memoria.
El decodificador comprende además una unidad 504 de filtro, que está adaptada para derivar un vector dˆ procesado, aplicando un post-filtro directamente al vector d obtenido. El post-filtro debería estar configurado para tener una función de transferencia H, que es una versión comprimida de la envolvente del vector d obtenido. Además, el decodificador comprende una unidad 506 configurada para derivar una forma de onda de la señal, es decir, una estimación o reconstrucción de la forma de onda de la señal comprendida en el segmento de tiempo de
la señal de audio, aplicando una transformada MDCT inversa al vector dˆ procesado.
La disposición 500 es adecuada para su uso en un decodificador, y podría ser implementada, por ejemplo por uno
o más de entre: un procesador o un microprocesador y un software adecuado, un dispositivo lógico programable (Programmable Logic Device, PLD) u otro componente o componentes electrónicos.
5
10
15
20
25
30
35
40
45
50
E11780883
10-09-2014
El decodificador puede comprender además otras unidades 508 funcionales regulares, tales como una o más unidades de almacenamiento.
La Figura 6 ilustra un decodificador 601 similar al 501, ilustrado en la Figura 5. El decodificador 601 se ilustra como situado o comprendido en una entidad 602 de gestión de audio en un sistema de comunicación. La entidad de gestión de audio podría ser, por ejemplo un nodo o terminal en un sistema de comunicación inalámbrica o por cable, un nodo o terminal en un sistema de teleconferencia y/o un nodo implicado en la radiodifusión de audio. La entidad 602 de gestión de audio y el decodificador 601 se ilustran adicionalmente de manera que se comunican con otras entidades a través de una unidad 603 de comunicación, que puede considerarse que comprende medios convencionales para la comunicación inalámbrica y/o por cable. La disposición 600 y las unidades 604-610 corresponden a la disposición 500 y las unidades 502-508 en la Figura 5. La entidad 602 de gestión de audio podría comprender además unidades 614 funcionales regulares adicionales y una o más unidades 612 de almacenamiento.
Disposición ejemplar, Figura 7
La Figura 7 ilustra una implementación de un decodificador o disposición 700 adecuado para su uso en una entidad de gestión de audio, donde un programa 710 de ordenador está contenido en un producto 708 de programa de ordenador, conectado a un procesador 706. El producto 708 de programa de ordenador comprende unos medios legibles por ordenador en los que se almacena el programa 710 de ordenador. El programa 710 de ordenador puede estar configurado como un código de programa de ordenador estructurado en módulos de programa de ordenador. Por lo tanto, en la realización ejemplar descrita, los medios de código en el programa 710 de ordenador comprenden un módulo 710a de obtención para obtener un vector d que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio. El programa de ordenador
comprende además un módulo 710b de filtro para derivar un vector dˆ procesado. El programa 710 de ordenador comprende además un módulo 710c de conversión para derivar una estimación del segmento de tiempo de la señal de audio. El programa de ordenador puede comprender módulos adicionales, por ejemplo, 710a-d para proporcionar otra funcionalidad de decodificador.
Los módulos 710a-d podrían realizar esencialmente las acciones del flujo ilustrado en la Figura 4, para emular el decodificador ilustrado en la Figura 5. En otras palabras, cuando los diferentes módulos 710a-d se ejecutan en la unidad 706 de procesamiento, corresponden a la funcionalidad respectiva de las unidades 502-508 de la Figura 5. Por ejemplo, el producto de programa de ordenador puede ser una memoria flash, una memoria RAM (Random-Access Memory, memoria de acceso aleatorio), una memoria ROM (Read-Only Memory, memoria de solo lectura)
o una memoria EEPROM (Electrically Erasable Programmable ROM, ROM programable y borrable eléctricamente) y, en realizaciones alternativas, los módulos 710a-d de programa de ordenador podrían ser distribuidos en diferentes productos de programa de ordenador en la forma de memorias dentro del decodificador 601 y/o la entidad 602 de gestión de audio. Las unidades 702 y 704 conectadas al procesador representan unidades de comunicación, por ejemplo, entrada y salida. La unidad 702 y la unidad 704 pueden disponerse como una entidad integrada.
Aunque los medios de código en la realización descrita anteriormente en conjunción con la Figura 7 se implementan como módulos de programa de ordenador que, cuando se ejecutan en la unidad de procesamiento, hacen que el decodificador y/o la entidad de gestión de audio realicen las acciones descritas anteriormente en conjunción con las figuras indicadas anteriormente, al menos uno de los medios de código puede ser implementado, en realizaciones alternativas, al menos en parte, como circuitos de hardware.
Cabe señalar que la elección de las unidades o módulos interactivos, así como la denominación de las unidades sólo tienen propósitos ejemplares, y los nodos de red adecuados para ejecutar cualquiera de los procedimientos descritos anteriormente pueden estar configurados en una pluralidad de maneras alternativas con el fin de poder ejecutar las acciones de procesamiento sugeridas.
Cabe señalar también que las unidades o los módulos descritos en esta descripción deben ser considerados como entidades lógicas y no necesariamente como entidades físicas separadas.
Abreviaturas
ACELP - Algebraic Code Excited Linear Prediction, Predicción lineal excitada por código algebráico
MDCT - Modified Discrete Cosine Transform, Transformada discreta de coseno modificada
DFT - Discrete Fourier Transform, Transformada discreta de Fourier
MUSHRA - MUltiple Stimuli with Hidden Reference and Anchor, Múltiples estímulos con referencia oculta y base
E11780883
10-09-2014
Referencias
[1] J.-H. Chen y A. Gersho, "Adaptive postfiltering for quality enhancement of coded speech" IEEE Trans. Speech, Audio Processing, vol. 3, pp. 59-71, 1995
[2] ITU-T Rec. G.719, "Low-complexity full-band audio coding for high-quality conversational applications," 2008
[3] Documento de patente US 2007/219785 A1 (GAO YANG).

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    E11780883
    10-09-2014
    REIVINDICACIONES
    1. Procedimiento en un decodificador, en el que el procedimiento comprende:
     obtener(402) un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio,
     derivar (404) un vector dˆ (k) procesado aplicando de un post-filtro directamente al vector d(k), cuyo post-filtro está configurado para tener una función de transferencia H(k),
    imagen1
    que es una versión comprimida de la envolvente del vector d(k), en la que k varía de 1 al número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y
     derivar (406) una forma de onda de la señal aplicando una transformada MDCT inversa al vector dˆ (k) procesado.
  2. 2.
    Procedimiento según la reivindicación 1, en el que el valor máximo en el denominador de la función de transferencia H(k) es el coeficiente de |d| que tiene la magnitud más grande.
  3. 3.
    Procedimiento según la reivindicación 1, en el que el valor máximo en el denominador de la función de transferencia H(k) es una estimación del máximo del vector |d|, obtenido mediante seguimiento recursivo de máximo sobre el vector |d|.
  4. 4.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el componente a(k) de énfasis depende de la frecuencia.
  5. 5.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la energía del vector dˆ (k) procesado es normalizado a la energía del vector d.
  6. 6.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el vector dˆ (k) procesado es derivado sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz.
  7. 7.
    Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la función de transferencia H(k) es limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre:
  8. 8.
    Decodificador que comprende:
    
    voz sorda,
    
    ruido de fondo,
    
    música.
     una unidad (502) de obtención, adaptada para obtener un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio,
     una unidad (504) de filtro, adaptada para derivar un vector dˆ (k) procesado aplicando un post-filtro directamente al vector d(k) obtenido, cuyo post-filtro está configurado para tener una función de transferencia H(k)
    imagen2
    8
    E11780883
    10-09-2014
    que es una versión comprimida de la envolvente del vector d(k) obtenido, donde k está comprendido entre 1 y el número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y
     una unidad (506) de conversión configurada para derivar una forma de onda de la señal aplicando una 5 transformada MDCT inversa al vector dˆ (k) procesado.
  9. 9.
    Decodificador según la reivindicación 8, en el que la función de transferencia H está configurada para comprender el coeficiente de |d| que tiene la magnitud más grande.
  10. 10.
    Decodificador según la reivindicación 8 o 9, en el que la función de transferencia H(k) está configurada para
    comprender una estimación de un máximo del vector |d| en el denominador, cuya estimación se obtiene mediante 10 un seguimiento recursivo de máximo sobre el vector |d|.
  11. 11.
    Decodificador según cualquiera de las reivindicaciones 8-10, en el que el componente a(k) de énfasis depende de la frecuencia.
  12. 12.
    Decodificador según cualquiera de las reivindicaciones 8-11, adaptado además para normalizar la energía del vector dˆ (k) procesado a la energía del vector d(k).
    15 13. Decodificador según cualquiera de las reivindicaciones 8-12, adaptado además para derivar dˆ (k) sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz.
  13. 14. Decodificador según cualquiera de las reivindicaciones 8 a 13, adaptado además para limitar o suprimir la función de transferencia H(k) cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre:
    20  voz sorda,
     ruido de fondo,
     música
  14. 15. Entidad (601) de gestión de audio que comprende un decodificador según cualquiera de las reivindicaciones 8
  15. 14.
    25
    9
ES11780883.2T 2010-05-11 2011-04-28 Procedimiento y disposición para el procesamiento de señales de audio Active ES2501840T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US333498P 2001-11-28
US33349810P 2010-05-11 2010-05-11
PCT/SE2011/050518 WO2011142709A2 (en) 2010-05-11 2011-04-28 Method and arrangement for processing of audio signals

Publications (1)

Publication Number Publication Date
ES2501840T3 true ES2501840T3 (es) 2014-10-02

Family

ID=44914876

Family Applications (1)

Application Number Title Priority Date Filing Date
ES11780883.2T Active ES2501840T3 (es) 2010-05-11 2011-04-28 Procedimiento y disposición para el procesamiento de señales de audio

Country Status (5)

Country Link
US (1) US9858939B2 (es)
EP (1) EP2569767B1 (es)
CN (1) CN102893330B (es)
ES (1) ES2501840T3 (es)
WO (1) WO2011142709A2 (es)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio
EP3079152B1 (en) 2010-07-02 2018-06-06 Dolby International AB Audio decoding with selective post filtering
US8738385B2 (en) * 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
EP2887350B1 (en) * 2013-12-19 2016-10-05 Dolby Laboratories Licensing Corporation Adaptive quantization noise filtering of decoded audio data
EP2980798A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP3763063B1 (en) * 2018-03-08 2021-12-15 Telefonaktiebolaget Lm Ericsson (Publ) Method and apparatus for handling antenna signals for transmission between a base unit and a remote unit of a base station system

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
ES2247741T3 (es) * 1998-01-22 2006-03-01 Deutsche Telekom Ag Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio.
US20040002856A1 (en) * 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP2004302257A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 長期ポストフィルタ
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US7526428B2 (en) * 2003-10-06 2009-04-28 Harris Corporation System and method for noise cancellation with noise ramp tracking
US20060116874A1 (en) * 2003-10-24 2006-06-01 Jonas Samuelsson Noise-dependent postfiltering
EP1744139B1 (en) * 2004-05-14 2015-11-11 Panasonic Intellectual Property Corporation of America Decoding apparatus and method thereof
US7707034B2 (en) * 2005-05-31 2010-04-27 Microsoft Corporation Audio codec post-filter
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
US8032359B2 (en) * 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
KR100922897B1 (ko) * 2007-12-11 2009-10-20 한국전자통신연구원 Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법
US20110125507A1 (en) * 2008-07-18 2011-05-26 Dolby Laboratories Licensing Corporation Method and System for Frequency Domain Postfiltering of Encoded Audio Data in a Decoder
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
WO2010028297A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Selective bandwidth extension
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
ES2501840T3 (es) * 2010-05-11 2014-10-02 Telefonaktiebolaget Lm Ericsson (Publ) Procedimiento y disposición para el procesamiento de señales de audio

Also Published As

Publication number Publication date
CN102893330B (zh) 2015-04-15
WO2011142709A2 (en) 2011-11-17
EP2569767A2 (en) 2013-03-20
EP2569767A4 (en) 2013-10-02
US9858939B2 (en) 2018-01-02
CN102893330A (zh) 2013-01-23
EP2569767B1 (en) 2014-06-11
US20110282656A1 (en) 2011-11-17
WO2011142709A3 (en) 2011-12-29

Similar Documents

Publication Publication Date Title
ES2501840T3 (es) Procedimiento y disposición para el procesamiento de señales de audio
ES2351935T3 (es) Procedimiento y aparato para la cuantificación vectorial de una representación de envolvente espectral.
ES2858423T3 (es) Método y dispositivo para el llenado de huecos espectrales
US10734003B2 (en) Noise signal processing method, noise signal generation method, encoder, decoder, and encoding and decoding system
CN104021796B (zh) 语音增强处理方法和装置
TWI748339B (zh) 用於包括全訊框丟失隱匿及部分訊框丟失隱匿的lc3隱匿之解碼器及解碼方法
ES2561603T3 (es) Extensión del ancho de banda de una señal de audio armónica
US9449605B2 (en) Inactive sound signal parameter estimation method and comfort noise generation method and system
ES2396173T3 (es) Método y sistema para post-filtrado en el dominio frecuencia de datos de audio codificados en un decodificador
JP6545748B2 (ja) 低または中ビットレートに対する知覚品質に基づくオーディオ分類
US9546924B2 (en) Transform audio codec and methods for encoding and decoding a time segment of an audio signal
CN104299614B (zh) 解码方法和解码装置
JP6181773B2 (ja) Celp状コーダのためのサイド情報を用いないノイズ充填
KR102383195B1 (ko) 디코더에서의 노이즈 감쇠
CN110047500A (zh) 音频编码器、音频译码器及其方法
KR101941619B1 (ko) 음성/오디오 비트스트림 디코딩 방법 및 장치
Giacobello Sparsity in linear predictive coding of speech
KR20240068229A (ko) 심층 신경망 기반 오디오 부복호화기를 위한 오디오 신호 처리 장치 및 방법
CA2955757C (en) Apparatus and method for comfort noise generation mode selection
Deepak et al. Trajectory and surface modeling of LSF for low rate speech coding
JP2013057792A (ja) 音声符号化装置及び音声符号化方法
CN115428069A (zh) 低音后置滤波器的低成本适配
KR20120032443A (ko) 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치