ES2501840T3 - Procedimiento y disposición para el procesamiento de señales de audio - Google Patents
Procedimiento y disposición para el procesamiento de señales de audio Download PDFInfo
- Publication number
- ES2501840T3 ES2501840T3 ES11780883.2T ES11780883T ES2501840T3 ES 2501840 T3 ES2501840 T3 ES 2501840T3 ES 11780883 T ES11780883 T ES 11780883T ES 2501840 T3 ES2501840 T3 ES 2501840T3
- Authority
- ES
- Spain
- Prior art keywords
- vector
- post
- filter
- mdct
- time segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012545 processing Methods 0.000 title description 7
- 238000012546 transfer Methods 0.000 claims abstract description 20
- 238000001228 spectrum Methods 0.000 claims abstract description 14
- 206010011878 Deafness Diseases 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 claims 1
- 238000004590 computer program Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000009471 action Effects 0.000 description 9
- 230000015654 memory Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 5
- 238000013139 quantization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procedimiento en un decodificador, en el que el procedimiento comprende: - obtener(402) un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio, - derivar (404) un vector d^ (k) procesado aplicando de un post-filtro directamente al vector d(k), cuyo post-filtro está configurado para tener una función de transferencia H(k), que es una versión comprimida de la envolvente del vector d(k), en la que k varía de 1 al número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y - derivar (406) una forma de onda de la señal aplicando una transformada MDCT inversa al vector d^ (k) procesado.
Description
5
10
15
20
25
30
35
40
45
E11780883
10-09-2014
DESCRIPCIÓN
Procedimiento y disposición para el procesamiento de señales de audio
Campo técnico
La invención se refiere al procesamiento de señales de audio, en particular a un procedimiento y una disposición para mejorar la calidad perceptual mediante un post-filtrado.
Antecedentes
La codificación de audio a tasas de bits bajas o moderadas se usa ampliamente para reducir la carga de la red. Sin embargo, la reducción de la tasa de bits conduce inevitablemente a una disminución de la calidad debida a una mayor cantidad de ruido de cuantificación. Una manera de minimizar el impacto perceptual del ruido de cuantificación es usando un post-filtro. Un post-filtro funciona en el decodificador y afecta a los parámetros de la señal reconstruida o, directamente, a la forma de onda de la señal. El uso de un post-filtro tiene por objeto atenuar los valles del espectro, donde el ruido de cuantificación es más audible y conseguir, de esta manera, una calidad perceptual mejorada.
Ambos post-filtros de tono y formantes se usan para mejorar la calidad en los códecs de voz denominados ACELP (Predicción lineal excitada por código algebraico, Algebraic Code Excited Linear Prediction). Estos filtros funcionan en el dominio del tiempo y, típicamente, se basan en el modelo de voz usado en el códec ACELP [1]. Sin embargo, esta familia de post-filtros no es adecuada para su uso con códecs de audio con transformación, tales como por ejemplo, G.719 [2].
Otro ejemplo de post-procesador de voz para mejora una señal de voz dividida en una pluralidad de bandas en el dominio de la frecuencia se describe en la referencia [3].
De esta manera, hay una necesidad de mejorar la calidad perceptual de las señales de audio que han sido sometidas a una codificación de audio con transformación.
Sumario
Sería deseable conseguir una calidad perceptual de audio mejorada de las señales de audio que han sido sometidas a una codificación de audio con transformación. Un objeto de la invención es mejorar la calidad perceptual de una señal de audio que ha sido sometida a una codificación de audio con transformación. Además, un objeto de la invención es proporcionar un procedimiento y una disposición para el post-filtrado de una señal de audio que ha sido sometida a una codificación de audio con transformación. Estos objetos pueden ser conseguidos mediante un procedimiento y un aparato según las reivindicaciones independientes adjuntas. Las realizaciones se exponen en las reivindicaciones dependientes.
Según un primer aspecto, se proporciona un procedimiento en un decodificador según se reivindica en la reivindicación 1. El procedimiento implica obtener un vector d, que comprende coeficientes cuantificados de
dominio MDCT de un segmento de tiempo de una señal de audio. Además, se deriva un vector dˆ procesado aplicando un post-filtro directamente al vector d. El post-filtro está configurado para tener una función de transferencia H que es una versión comprimida de la envolvente del vector d. Además, se deriva una forma de
onda de la señal aplicando una transformada MDCT inversa al vector dˆ procesado.
Según un segundo aspecto, se proporciona un decodificador según se reivindica en la reivindicación 8. El decodificador comprende una unidad funcional adaptada para obtener un vector d, que comprende los coeficientes cuantificados en el dominio MDCT de un segmento de tiempo de una señal de audio. El decodificador comprende
además una unidad funcional, adaptada para derivar un vector dˆ procesado mediante la aplicación de un postfiltro directamente al vector d. El post-filtro está configurado para tener una función de transferencia H que es una versión comprimida de la envolvente del vector d. El decodificador comprende además una unidad funcional
adaptada para derivar una forma de onda de la señal aplicando una transformada MDCT inversa al vector dˆ procesado.
El procedimiento y la disposición indicados anteriormente, que implican un post-filtro MDCT, pueden ser usados para mejorar la calidad de los sistemas de codificación de audio con tasas de bits moderada y baja. Cuando el post-filtro es usado en un códec MDCT, la complejidad adicional es muy baja, ya que el post-filtro opera directamente sobre el vector MDCT.
El procedimiento y la disposición indicados anteriormente pueden ser implementados en diferentes realizaciones.
5
10
15
20
25
30
35
40
45
E11780883
10-09-2014
En algunas realizaciones, el denominador de la función de transferencia H está configurado para comprender un máximo del vector |d|, que puede ser una estimación obtenida realizando un seguimiento recursivo de máximo sobre el vector |d|. En algunas realizaciones, la función de transferencia H está configurada para comprender un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT. Por ejemplo, el componente de énfasis podría depender de la frecuencia o podría ser constante. Además, la energía
del vector dˆ procesado puede ser normalizada a la energía del vector d.
En algunas realizaciones, el vector dˆ procesado es derivado sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz. Además, la función de transferencia H podría ser limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre, por ejemplo, voz sorda, ruido de fondo y música.
Las realizaciones anteriores se han descrito principalmente en términos de un procedimiento. Sin embargo, la descripción anterior pretende abarcar también realizaciones del decodificador, adaptadas para permitir la realización de las características descritas anteriormente. Las diferentes características de las realizaciones ejemplares anteriores pueden combinarse de diferentes maneras según las necesidades, los requisitos o las preferencias.
Breve descripción de los dibujos
La invención se describirá ahora más detalladamente por medio de realizaciones ejemplares y con referencia a los dibujos adjuntos, en los que:
La Figura 1 muestra un diagrama de un factor a(k) de énfasis ejemplar, que disminuye (para limitar el efecto del post-filtro) conforme aumenta la frecuencia, según una realización ejemplar.
La Figura 2 muestra un diagrama que ilustra el efecto del post-filtro sobre un espectro de la señal, donde la línea de puntos delgada representa el espectro de la señal antes del post-filtro, y la línea continua representa el espectro de la señal después del post-filtro, según una realización ejemplificar.
La Figura 3 muestra el resultado de un ensayo de escucha MUSHRA que compara un códec de audio MDCT con y sin post-filtro, según una realización ejemplar.
La Figura 4 es un diagrama de flujo que ilustra las acciones de un procedimiento realizado en un decodificador, según una realización ejemplar.
Las Figuras 5-7 son diagramas de bloques que ilustran una disposición respectiva en un decodificador y una entidad de gestión de audio, según realizaciones ejemplares.
Descripción detallada
En breve, se proporciona un decodificador que comprende un post-filtro, cuyo post-filtro está diseñado para trabajar con códecs con transformadas de tipo MDCT (Modified Discrete Cosine Transform, Transformada Discreta de Coseno Modificada), tales como por ejemplo, G.719 [2]. El post-filtro sugerido opera directamente en el dominio MDCT, y no requiere una transformación adicional de la señal de audio al dominio DFT o al dominio del tiempo, lo que mantiene la complejidad computacional baja. La mejora de la calidad debida al post-filtro se confirma en los ensayos de escucha.
El concepto de codificación mediante transformación es convertir, o transformar, una señal de audio a ser codificada al dominio de la frecuencia y, a continuación, cuantificar los coeficientes de frecuencia, que son almacenados o suministrados, a continuación, a un decodificador. El decodificador usa los coeficientes de frecuencia (cuantificados) recibidos para reconstruir la forma de onda de la señal de audio, aplicando la transformada de frecuencia inversa. La motivación detrás de este esquema de codificación es que los coeficientes en el dominio de la frecuencia pueden ser cuantificados de manera más eficiente que los coeficientes en el dominio del tiempo.
En un codificador de transformada de tipo MDCT, una forma de onda x(n) de un bloque de la señal es transformada a un vector d*(k). La longitud "L" de dicho vector corresponde a segmentos de voz de 20-40 ms. La transformada MDCT puede definirse como:
E11780883
10-09-2014
5 Los coeficientes MDCT son cuantificados, formando de esta manera un vector d(k) = Q(d*(k)) de coeficientes MDCT cuantificados, que deben ser decodificados por un decodificador MDCT.
El post-filtro puede ser aplicado directamente al vector d(k) recibido en el decodificador, y derivar de esta manera el vector dˆ post-filtrado como
10
La función de transferencia o función de filtro, H(k), es una versión comprimida de la envolvente del espectro MDCT:
El parámetro a(k) puede ser configurado para controlar la "agresividad" o "cantidad de énfasis" del post-filtro sobre el espectro MDCT. La Figura 1 muestra un diagrama de un ejemplo de cómo a(k) puede ser configurado como un vector dependiente de la frecuencia. Sin embargo, a(k) también podría ser constante a lo largo del espectro. El efecto del post-filtro sobre el espectro de la señal se ilustra en la Figura 2. Tal como puede verse en la Figura 2, los valles del espectro son más profundos después del post-filtrado.
Preferentemente, la energía de la salida del post-filtro puede ser normalizada a la energía de la entrada del postfiltro:
Aquí, std(d) es la desviación estándar del vector d, que comprende los coeficientes MDCT cuantificados, antes de
la operación de post-filtrado; y std( dˆ ) es la desviación estándar del vector dˆ procesado, es decir, del vector d después de la operación de post-filtrado.
30 Además, el ruido de cuantificación audible debido a la codificación es más audible en la voz sonora, por ejemplo, en comparación con la música. De esta manera, por ejemplo, el uso del post-filtro sugerido es más eficaz para reducir el ruido de cuantificación audible en las señales de voz, en lugar de en las señales de música. De esta manera, cuando sea adecuado, el post-filtro podría ser desactivado, o suprimido, en tramas o segmentos de trama para los cuales se considera que el post-filtro es menos eficaz. Por ejemplo, el post-filtro podría ser desactivado, o
35 suprimido, en tramas o segmentos de trama para los cuales se determina que consisten principalmente en voz sorda, ruido de fondo y/o la música. El post-filtro podría ser usado en combinación, por ejemplo, con un discriminador de voz-música, y/o un módulo de estimación de ruido de fondo, para determinar el contenido de una trama. Sin embargo, cabe señalar que el post-filtro no causa ninguna degradación, por ejemplo, en segmentos sordos.
40 El efecto percibido del uso del post-filtro ha sido ensayado en un ensayo denominado MUSHRA, cuyo resultado se ilustra en la Figura 3. "MUSHRA" hace referencia a “MUltiple Stimuli with Hidden Reference and Anchor” (múltiples estímulos con referencia oculta y base), y es una metodología para la evaluación subjetiva de la calidad de audio, usada típicamente para evaluar la calidad percibida de la salida desde los algoritmos de compresión de audio con pérdidas. Cuantos más puntos MUSHURA recibe una señal, mejor será la calidad de audio percibida. En la Figura
45 1, la primera barra (#1) representa una señal MDCT decodificada e la que no se usó ningún post-filtro en el
5
10
15
20
25
30
35
40
45
50
E11780883
10-09-2014
procedimiento de decodificación. La segunda barra (#2) representa una señal MDCT decodificada, en la que se usó el post-filtro sugerido en el procedimiento de decodificación. La tercera barra (#3) representa una señal de voz original, que no ha sido sometida a codificación y, de esta manera, recibe la máxima cantidad de puntos/puntuación. Tal como puede verse en la Figura 3, el uso del post-filtro proporciona un aumento considerable de la calidad de audio percibida.
Procedimiento ejemplar Figura 4
Ahora, se describirá una realización ejemplar del procedimiento de decodificación de una señal de audio con codificación MDCT, con referencia a la Figura 4. El procedimiento podría ser realizado en una entidad de gestión de audio, tal como por ejemplo un nodo en un sistema de teleconferencia y/o un nodo o terminal en un sistema de comunicación inalámbrica o por cable, un nodo implicado en una radiodifusión de audio, o una entidad o dispositivo usado en la producción de música.
Un vector d, que comprende los coeficientes MDCT cuantificados de un segmento de tiempo de una señal de audio, es obtenido en una acción 402. Se supone que el vector de coeficientes es producido por un codificador MDCT, y se supone que es recibido desde otro nodo o entidad, o, es recuperado, por ejemplo, desde una memoria.
Un vector dˆ procesado es derivado en una acción 406, aplicando directamente un post-filtro al vector d, cuyo post-filtro está configurado para tener una función de transferencia H, que es una versión comprimida de la envolvente del vector d. Además, se deriva una forma de onda de la señal reconstruida en una acción 408
aplicando una transformada MDCT inversa al vector dˆ procesado
El denominador de la función de transferencia H puede estar configurado para comprender un máximo del vector
d. Dicho máximo podría ser el coeficiente más grande (valor absoluto) de |d| o, por ejemplo, una estimación obtenida mediante un seguimiento recursivo de máximo sobre el vector |d|.
La función de transferencia H puede estar configurada además para comprender un componente de énfasis, configurado para controlar la agresividad o la cantidad de énfasis del post-filtro, sobre el espectro MDCT. Este componente se denota "a" en la Figura 1 y la Ecuación 1. El componente "a" podría ser, por ejemplo un vector dependiente de la frecuencia, o una constante.
La energía de la salida del post-filtro, es decir, el vector dˆ procesado, puede ser normalizada a la energía de la entrada del post-filtro, es decir, a la energía del vector d. Además, podría determinarse el contenido del segmento
de señal de audio, y el post-filtro podría ser aplicado según dicho contenido. Por ejemplo, el vector dˆ procesado podría ser derivado, por ejemplo, sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz. Además, la función de transferencia H del post-filtro podría ser limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente, por ejemplo, voz sorda, ruido de fondo o música. Estas acciones condicionales se ilustran como las acciones 404 y 410 en la Figura 4. El contenido del segmento de señal de audio puede ser determinado en base al vector d, o podría ser determinado en el codificador, en base a la forma de onda de la señal de audio y, a continuación, la información relacionada con el contenido podría ser señalizada, de una manera adecuada, desde el codificador al decodificador.
Disposiciones ejemplares, Figuras 5 y 6
A continuación, se describirá un decodificador 501 ejemplar, adaptado para permitir la realización del procedimiento descrito anteriormente relacionado con la decodificación de una señal, con referencia a la Figura 5.
El decodificador 501 comprende una unidad 502 de obtención, que está adaptada para obtener un vector d, que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio. El vector d podría ser recibido, por ejemplo, desde otro nodo, o podría ser recuperado, por ejemplo, de una memoria.
El decodificador comprende además una unidad 504 de filtro, que está adaptada para derivar un vector dˆ procesado, aplicando un post-filtro directamente al vector d obtenido. El post-filtro debería estar configurado para tener una función de transferencia H, que es una versión comprimida de la envolvente del vector d obtenido. Además, el decodificador comprende una unidad 506 configurada para derivar una forma de onda de la señal, es decir, una estimación o reconstrucción de la forma de onda de la señal comprendida en el segmento de tiempo de
la señal de audio, aplicando una transformada MDCT inversa al vector dˆ procesado.
La disposición 500 es adecuada para su uso en un decodificador, y podría ser implementada, por ejemplo por uno
o más de entre: un procesador o un microprocesador y un software adecuado, un dispositivo lógico programable (Programmable Logic Device, PLD) u otro componente o componentes electrónicos.
5
10
15
20
25
30
35
40
45
50
E11780883
10-09-2014
El decodificador puede comprender además otras unidades 508 funcionales regulares, tales como una o más unidades de almacenamiento.
La Figura 6 ilustra un decodificador 601 similar al 501, ilustrado en la Figura 5. El decodificador 601 se ilustra como situado o comprendido en una entidad 602 de gestión de audio en un sistema de comunicación. La entidad de gestión de audio podría ser, por ejemplo un nodo o terminal en un sistema de comunicación inalámbrica o por cable, un nodo o terminal en un sistema de teleconferencia y/o un nodo implicado en la radiodifusión de audio. La entidad 602 de gestión de audio y el decodificador 601 se ilustran adicionalmente de manera que se comunican con otras entidades a través de una unidad 603 de comunicación, que puede considerarse que comprende medios convencionales para la comunicación inalámbrica y/o por cable. La disposición 600 y las unidades 604-610 corresponden a la disposición 500 y las unidades 502-508 en la Figura 5. La entidad 602 de gestión de audio podría comprender además unidades 614 funcionales regulares adicionales y una o más unidades 612 de almacenamiento.
Disposición ejemplar, Figura 7
La Figura 7 ilustra una implementación de un decodificador o disposición 700 adecuado para su uso en una entidad de gestión de audio, donde un programa 710 de ordenador está contenido en un producto 708 de programa de ordenador, conectado a un procesador 706. El producto 708 de programa de ordenador comprende unos medios legibles por ordenador en los que se almacena el programa 710 de ordenador. El programa 710 de ordenador puede estar configurado como un código de programa de ordenador estructurado en módulos de programa de ordenador. Por lo tanto, en la realización ejemplar descrita, los medios de código en el programa 710 de ordenador comprenden un módulo 710a de obtención para obtener un vector d que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio. El programa de ordenador
comprende además un módulo 710b de filtro para derivar un vector dˆ procesado. El programa 710 de ordenador comprende además un módulo 710c de conversión para derivar una estimación del segmento de tiempo de la señal de audio. El programa de ordenador puede comprender módulos adicionales, por ejemplo, 710a-d para proporcionar otra funcionalidad de decodificador.
Los módulos 710a-d podrían realizar esencialmente las acciones del flujo ilustrado en la Figura 4, para emular el decodificador ilustrado en la Figura 5. En otras palabras, cuando los diferentes módulos 710a-d se ejecutan en la unidad 706 de procesamiento, corresponden a la funcionalidad respectiva de las unidades 502-508 de la Figura 5. Por ejemplo, el producto de programa de ordenador puede ser una memoria flash, una memoria RAM (Random-Access Memory, memoria de acceso aleatorio), una memoria ROM (Read-Only Memory, memoria de solo lectura)
o una memoria EEPROM (Electrically Erasable Programmable ROM, ROM programable y borrable eléctricamente) y, en realizaciones alternativas, los módulos 710a-d de programa de ordenador podrían ser distribuidos en diferentes productos de programa de ordenador en la forma de memorias dentro del decodificador 601 y/o la entidad 602 de gestión de audio. Las unidades 702 y 704 conectadas al procesador representan unidades de comunicación, por ejemplo, entrada y salida. La unidad 702 y la unidad 704 pueden disponerse como una entidad integrada.
Aunque los medios de código en la realización descrita anteriormente en conjunción con la Figura 7 se implementan como módulos de programa de ordenador que, cuando se ejecutan en la unidad de procesamiento, hacen que el decodificador y/o la entidad de gestión de audio realicen las acciones descritas anteriormente en conjunción con las figuras indicadas anteriormente, al menos uno de los medios de código puede ser implementado, en realizaciones alternativas, al menos en parte, como circuitos de hardware.
Cabe señalar que la elección de las unidades o módulos interactivos, así como la denominación de las unidades sólo tienen propósitos ejemplares, y los nodos de red adecuados para ejecutar cualquiera de los procedimientos descritos anteriormente pueden estar configurados en una pluralidad de maneras alternativas con el fin de poder ejecutar las acciones de procesamiento sugeridas.
Cabe señalar también que las unidades o los módulos descritos en esta descripción deben ser considerados como entidades lógicas y no necesariamente como entidades físicas separadas.
Abreviaturas
ACELP - Algebraic Code Excited Linear Prediction, Predicción lineal excitada por código algebráico
MDCT - Modified Discrete Cosine Transform, Transformada discreta de coseno modificada
DFT - Discrete Fourier Transform, Transformada discreta de Fourier
MUSHRA - MUltiple Stimuli with Hidden Reference and Anchor, Múltiples estímulos con referencia oculta y base
E11780883
10-09-2014
Referencias
[1] J.-H. Chen y A. Gersho, "Adaptive postfiltering for quality enhancement of coded speech" IEEE Trans. Speech, Audio Processing, vol. 3, pp. 59-71, 1995
[2] ITU-T Rec. G.719, "Low-complexity full-band audio coding for high-quality conversational applications," 2008
[3] Documento de patente US 2007/219785 A1 (GAO YANG).
Claims (15)
- 510152025303540E1178088310-09-2014REIVINDICACIONES1. Procedimiento en un decodificador, en el que el procedimiento comprende: obtener(402) un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio, derivar (404) un vector dˆ (k) procesado aplicando de un post-filtro directamente al vector d(k), cuyo post-filtro está configurado para tener una función de transferencia H(k),
imagen1 que es una versión comprimida de la envolvente del vector d(k), en la que k varía de 1 al número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y derivar (406) una forma de onda de la señal aplicando una transformada MDCT inversa al vector dˆ (k) procesado. -
- 2.
- Procedimiento según la reivindicación 1, en el que el valor máximo en el denominador de la función de transferencia H(k) es el coeficiente de |d| que tiene la magnitud más grande.
-
- 3.
- Procedimiento según la reivindicación 1, en el que el valor máximo en el denominador de la función de transferencia H(k) es una estimación del máximo del vector |d|, obtenido mediante seguimiento recursivo de máximo sobre el vector |d|.
-
- 4.
- Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el componente a(k) de énfasis depende de la frecuencia.
-
- 5.
- Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la energía del vector dˆ (k) procesado es normalizado a la energía del vector d.
-
- 6.
- Procedimiento según cualquiera de las reivindicaciones anteriores, en el que el vector dˆ (k) procesado es derivado sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz.
-
- 7.
- Procedimiento según cualquiera de las reivindicaciones anteriores, en el que la función de transferencia H(k) es limitada o suprimida cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre:
-
- 8.
- Decodificador que comprende:
-
- voz sorda,
-
- ruido de fondo,
-
- música.
una unidad (502) de obtención, adaptada para obtener un vector d(k), que comprende coeficientes de dominio MDCT cuantificados de un segmento de tiempo de una señal de audio, una unidad (504) de filtro, adaptada para derivar un vector dˆ (k) procesado aplicando un post-filtro directamente al vector d(k) obtenido, cuyo post-filtro está configurado para tener una función de transferencia H(k)imagen2 8E1178088310-09-2014que es una versión comprimida de la envolvente del vector d(k) obtenido, donde k está comprendido entre 1 y el número de coeficientes de dominio MDCT del segmento de tiempo; y a(k) es un componente de énfasis, configurado para controlar la agresividad del post-filtro sobre el espectro MDCT; y una unidad (506) de conversión configurada para derivar una forma de onda de la señal aplicando una 5 transformada MDCT inversa al vector dˆ (k) procesado. -
- 9.
- Decodificador según la reivindicación 8, en el que la función de transferencia H está configurada para comprender el coeficiente de |d| que tiene la magnitud más grande.
-
- 10.
- Decodificador según la reivindicación 8 o 9, en el que la función de transferencia H(k) está configurada para
comprender una estimación de un máximo del vector |d| en el denominador, cuya estimación se obtiene mediante 10 un seguimiento recursivo de máximo sobre el vector |d|. -
- 11.
- Decodificador según cualquiera de las reivindicaciones 8-10, en el que el componente a(k) de énfasis depende de la frecuencia.
-
- 12.
- Decodificador según cualquiera de las reivindicaciones 8-11, adaptado además para normalizar la energía del vector dˆ (k) procesado a la energía del vector d(k).
15 13. Decodificador según cualquiera de las reivindicaciones 8-12, adaptado además para derivar dˆ (k) sólo cuando se determina que el segmento de tiempo de la señal de audio comprende voz. - 14. Decodificador según cualquiera de las reivindicaciones 8 a 13, adaptado además para limitar o suprimir la función de transferencia H(k) cuando se determina que el segmento de tiempo de la señal de audio consiste principalmente en uno o más de entre:20 voz sorda, ruido de fondo, música
- 15. Entidad (601) de gestión de audio que comprende un decodificador según cualquiera de las reivindicaciones 8
- 14.259
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US333498P | 2001-11-28 | ||
US33349810P | 2010-05-11 | 2010-05-11 | |
PCT/SE2011/050518 WO2011142709A2 (en) | 2010-05-11 | 2011-04-28 | Method and arrangement for processing of audio signals |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2501840T3 true ES2501840T3 (es) | 2014-10-02 |
Family
ID=44914876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES11780883.2T Active ES2501840T3 (es) | 2010-05-11 | 2011-04-28 | Procedimiento y disposición para el procesamiento de señales de audio |
Country Status (5)
Country | Link |
---|---|
US (1) | US9858939B2 (es) |
EP (1) | EP2569767B1 (es) |
CN (1) | CN102893330B (es) |
ES (1) | ES2501840T3 (es) |
WO (1) | WO2011142709A2 (es) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2501840T3 (es) * | 2010-05-11 | 2014-10-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Procedimiento y disposición para el procesamiento de señales de audio |
EP3079152B1 (en) | 2010-07-02 | 2018-06-06 | Dolby International AB | Audio decoding with selective post filtering |
US8738385B2 (en) * | 2010-10-20 | 2014-05-27 | Broadcom Corporation | Pitch-based pre-filtering and post-filtering for compression of audio signals |
EP2887350B1 (en) * | 2013-12-19 | 2016-10-05 | Dolby Laboratories Licensing Corporation | Adaptive quantization noise filtering of decoded audio data |
EP2980798A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
EP3763063B1 (en) * | 2018-03-08 | 2021-12-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for handling antenna signals for transmission between a base unit and a remote unit of a base station system |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5574825A (en) * | 1994-03-14 | 1996-11-12 | Lucent Technologies Inc. | Linear prediction coefficient generation during frame erasure or packet loss |
FI980132A (fi) * | 1998-01-21 | 1999-07-22 | Nokia Mobile Phones Ltd | Adaptoituva jälkisuodatin |
ES2247741T3 (es) * | 1998-01-22 | 2006-03-01 | Deutsche Telekom Ag | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
JP2004302257A (ja) * | 2003-03-31 | 2004-10-28 | Matsushita Electric Ind Co Ltd | 長期ポストフィルタ |
WO2004090870A1 (ja) * | 2003-04-04 | 2004-10-21 | Kabushiki Kaisha Toshiba | 広帯域音声を符号化または復号化するための方法及び装置 |
US7353169B1 (en) * | 2003-06-24 | 2008-04-01 | Creative Technology Ltd. | Transient detection and modification in audio signals |
US7526428B2 (en) * | 2003-10-06 | 2009-04-28 | Harris Corporation | System and method for noise cancellation with noise ramp tracking |
US20060116874A1 (en) * | 2003-10-24 | 2006-06-01 | Jonas Samuelsson | Noise-dependent postfiltering |
EP1744139B1 (en) * | 2004-05-14 | 2015-11-11 | Panasonic Intellectual Property Corporation of America | Decoding apparatus and method thereof |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US8032359B2 (en) * | 2007-02-14 | 2011-10-04 | Mindspeed Technologies, Inc. | Embedded silence and background noise compression |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
KR100922897B1 (ko) * | 2007-12-11 | 2009-10-20 | 한국전자통신연구원 | Mdct 영역에서 음질 향상을 위한 후처리 필터장치 및필터방법 |
US20110125507A1 (en) * | 2008-07-18 | 2011-05-26 | Dolby Laboratories Licensing Corporation | Method and System for Frequency Domain Postfiltering of Encoded Audio Data in a Decoder |
US9037474B2 (en) * | 2008-09-06 | 2015-05-19 | Huawei Technologies Co., Ltd. | Method for classifying audio signal into fast signal or slow signal |
US8463603B2 (en) * | 2008-09-06 | 2013-06-11 | Huawei Technologies Co., Ltd. | Spectral envelope coding of energy attack signal |
WO2010028297A1 (en) * | 2008-09-06 | 2010-03-11 | GH Innovation, Inc. | Selective bandwidth extension |
US8577673B2 (en) * | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
US8391212B2 (en) * | 2009-05-05 | 2013-03-05 | Huawei Technologies Co., Ltd. | System and method for frequency domain audio post-processing based on perceptual masking |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
ES2501840T3 (es) * | 2010-05-11 | 2014-10-02 | Telefonaktiebolaget Lm Ericsson (Publ) | Procedimiento y disposición para el procesamiento de señales de audio |
-
2011
- 2011-04-28 ES ES11780883.2T patent/ES2501840T3/es active Active
- 2011-04-28 CN CN201180023340.0A patent/CN102893330B/zh active Active
- 2011-04-28 EP EP11780883.2A patent/EP2569767B1/en active Active
- 2011-04-28 WO PCT/SE2011/050518 patent/WO2011142709A2/en active Application Filing
- 2011-05-10 US US13/104,565 patent/US9858939B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN102893330B (zh) | 2015-04-15 |
WO2011142709A2 (en) | 2011-11-17 |
EP2569767A2 (en) | 2013-03-20 |
EP2569767A4 (en) | 2013-10-02 |
US9858939B2 (en) | 2018-01-02 |
CN102893330A (zh) | 2013-01-23 |
EP2569767B1 (en) | 2014-06-11 |
US20110282656A1 (en) | 2011-11-17 |
WO2011142709A3 (en) | 2011-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2501840T3 (es) | Procedimiento y disposición para el procesamiento de señales de audio | |
ES2351935T3 (es) | Procedimiento y aparato para la cuantificación vectorial de una representación de envolvente espectral. | |
ES2858423T3 (es) | Método y dispositivo para el llenado de huecos espectrales | |
US10734003B2 (en) | Noise signal processing method, noise signal generation method, encoder, decoder, and encoding and decoding system | |
CN104021796B (zh) | 语音增强处理方法和装置 | |
TWI748339B (zh) | 用於包括全訊框丟失隱匿及部分訊框丟失隱匿的lc3隱匿之解碼器及解碼方法 | |
ES2561603T3 (es) | Extensión del ancho de banda de una señal de audio armónica | |
US9449605B2 (en) | Inactive sound signal parameter estimation method and comfort noise generation method and system | |
ES2396173T3 (es) | Método y sistema para post-filtrado en el dominio frecuencia de datos de audio codificados en un decodificador | |
JP6545748B2 (ja) | 低または中ビットレートに対する知覚品質に基づくオーディオ分類 | |
US9546924B2 (en) | Transform audio codec and methods for encoding and decoding a time segment of an audio signal | |
CN104299614B (zh) | 解码方法和解码装置 | |
JP6181773B2 (ja) | Celp状コーダのためのサイド情報を用いないノイズ充填 | |
KR102383195B1 (ko) | 디코더에서의 노이즈 감쇠 | |
CN110047500A (zh) | 音频编码器、音频译码器及其方法 | |
KR101941619B1 (ko) | 음성/오디오 비트스트림 디코딩 방법 및 장치 | |
Giacobello | Sparsity in linear predictive coding of speech | |
KR20240068229A (ko) | 심층 신경망 기반 오디오 부복호화기를 위한 오디오 신호 처리 장치 및 방법 | |
CA2955757C (en) | Apparatus and method for comfort noise generation mode selection | |
Deepak et al. | Trajectory and surface modeling of LSF for low rate speech coding | |
JP2013057792A (ja) | 音声符号化装置及び音声符号化方法 | |
CN115428069A (zh) | 低音后置滤波器的低成本适配 | |
KR20120032443A (ko) | 쉐이핑 함수를 이용한 오디오 신호 디코딩 방법 및 장치 |