ES2616434T3

ES2616434T3 - Aparato y método para seleccionar uno de un primer algoritmo de codificación de audio y un segundo algoritmo de codificación de audio

Info

Publication number: ES2616434T3
Application number: ES14702505.0T
Authority: ES
Inventors: Emmanuel Ravelli; Stefan DÖHLA; Guillaume Fuchs; Eleni FOTOPOULOU; Christian Helmrich
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2013-01-29
Filing date: 2014-01-28
Publication date: 2017-06-13
Anticipated expiration: 2034-01-28
Also published as: SG11201505947XA; US10622000B2; CA2899013C; MX347410B; CN110517700A; PL2951820T3; US20230079574A1; AU2014211583B2; JP6148810B2; US20150332698A1; CN105229736A; RU2015136467A; CN105229736B; AU2014211583A1; KR101701081B1; CA2899013A1; US20200227059A1; PT2951820T; WO2014118136A1; TW201434037A

Abstract

Aparato (10) para seleccionar uno de un primer algoritmo de codificación que tiene una primera característica, y un segundo algoritmo de codificación que tiene una segunda característica para codificar una porción de una señal de audio (40) para obtener una versión codificada de la porción de la señal de audio (40), que comprende: un primer estimador (12) para estimar una primera medida de calidad para la porción de la señal de audio, estando asociada la primera medida de calidad con el primer algoritmo de codificación, sin codificar y decodificar realmente la porción de la señal de audio usando el primer algoritmo de codificación; un segundo estimador (14) para estimar una segunda medida de calidad para la porción de la señal de audio, estando asociada la segunda medida de calidad con el segundo algoritmo de codificación, sin codificar y decodificar realmente la porción de la señal de audio usando el segundo algoritmo de codificación; y un controlador (16) para seleccionar el primer algoritmo de codificación o el segundo algoritmo de codificación basándose en una comparación entre la primera medida de calidad y la segunda medida de calidad, en el que la primera y segunda medidas de calidad son relaciones de señal a ruido, SNR, o SNR segmentarias de la porción correspondiente de una versión ponderada de la señal de audio.

Description

5

10

15

20

25

30

35

40

45

50

55

60

Aparato y metodo para seleccionar uno de un primer algoritmo de codificacion de audio y un segundo algoritmo de

codificacion de audio

DESCRIPCION

La presente invencion se refiere a codificacion de audio y, en particular, a codificacion de audio conmutada, donde, para diferentes porciones de una senal de audio, la senal codificada se genera usando diferentes algoritmos de codificacion.

Son conocidos los codificadores de audio conmutados que determinan diferentes algoritmos de codificacion para diferentes porciones de la senal de audio. En general, los codificadores de audio conmutados proporcionan conmutacion entre dos modos diferentes, es decir, algoritmos, tales como ACELP (Prediccion Lineal por Excitacion de Codigo Algebraico (Algebraic Code Excited Linear Prediction)) y TCX (Excitacion de Codificacion por Transformada) Transform Coded Excitation)).

El modo LPD de MPEG USAC (Codificacion Unificada de Audio y del Habla MPEG) (MPEG Unified Speech Audio Coding) esta basado en los dos modos diferentes ACELP y TCX. ACELP proporciona mejor calidad para senales similares al habla y similares a transitorios. TCX proporciona mejor calidad para senales similares a musica y similares a ruido. El codificador decide cual modo usar en una base trama a trama. La decision tomada por el codificador es cntica para la calidad del codec. Una sola decision incorrecta puede producir un fuerte artefacto, particularmente a bajas tasas de bits.

El enfoque mas directo para decidir cual modo usar, es una seleccion de modo de bucle cerrado, es decir, realizar una codificacion/decodificacion completa de ambos modos, a continuacion calcular un criterio de seleccion (por ejemplo, SNR (Relacion de Senal a Ruido) segmentaria) para ambos modos basandose en la senal de audio y las senales de audio codificadas/decodificadas, y finalmente elegir un modo basandose en los criterios de seleccion. Este enfoque generalmente produce una decision estable y robusta. Sin embargo, tambien requiere una significativa cantidad de complejidad, porque hay que ejecutar ambos modos en cada trama.

Para reducir la complejidad, un enfoque alternativo es la seleccion de modo de bucle abierto. La seleccion de bucle abierto consiste en no realizar una codificacion/decodificacion completa de ambos modos sino, en cambio, elegir un modo usando un criterio de seleccion calculado con baja complejidad. A continuacion se reduce la complejidad del peor caso mediante la complejidad del modo menos complejo (normalmente TCX), menos la complejidad necesaria para calcular el criterio de seleccion. El ahorro en complejidad normalmente es significativo, lo cual hace que este tipo de enfoque sea atractivo cuando se restringe la complejidad de peor caso de codec.

La norma AMR-WB+ (definida en la Norma Internacional 3GPP TS 26.290 V6.1.0 2004-12) incluye una seleccion de modo de bucle abierto, usada para decidir entre todas las combinaciones de ACELP/TCX20/TCX40/TCX80 en una trama de 80 ms. Se describe en la Seccion 5.2.4 de 3GPP TS 26.290. Tambien se describe en el artfculo de la conferencia “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al.” y en los documentos US 7.747.430 B2 y US 7.739.120 B2 volviendo al autor de este artfculo de conferencia.

El documento US7.747.430 B2 desvela una seleccion de modo de bucle abierto basada en un analisis de parametros de prediccion de lago plazo. El documento US 7.739.120 B2 desvela una seleccion de modo de bucle abierto basada en caractensticas de senal que indican el tipo de contenido de audio en respectivas secciones de una senal de audio, en el que, si no es viable una seleccion de este tipo, la seleccion se basa adicionalmente en una evaluacion estadfstica llevada a cabo para secciones respectivamente vecinas.

La seleccion de modo de bucle abierto de AMR-WB+ puede describirse en dos etapas principales. En la primera etapa principal, se calculan varios rasgos en la senal de audio, tal como la desviacion tfpica de los niveles de energfa, relacion de energfa de baja frecuencia/alta frecuencia, energfa total, distancia ISP (par espectral de inmitancia), retardos de tono y ganancias, inclinacion espectral. A continuacion se usan estos rasgos para elegir entre ACELP y TCX, usando un simple clasificador basado en umbral. Si se selecciona TCX en la primera etapa principal, entonces la segunda etapa principal decide entre las posibles combinaciones de TCX20/TCX40/TCX80 de una manera de bucle cerrado.

El documento WO 2012/110448 A1 desvela un enfoque para decidir entre dos algoritmos de codificacion que tienen diferentes caractensticas basandose en un resultado de deteccion de transitorios y un resultado de calidad de una senal de audio. Ademas, se desvela aplicar una histeresis, en la que la histeresis se basa en las selecciones hechas en el pasado, es decir, para porciones anteriores de la senal de audio.

En el artfculo de la conferencia “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al.”, se compara la seleccion de modo de bucle cerrado y de bucle abierto de AMR-WB+. Pruebas de audicion subjetiva

5

10

15

20

25

30

35

40

45

50

55

60

indican que la seleccion de modo de bucle abierto rinde significativamente peor que la seleccion de modo de bucle cerrado. Pero tambien se muestra que la seleccion de modo de bucle abierto reduce en 40 % la complejidad del peor caso.

Es el objeto de la invencion proporcionar un enfoque mejorado que permita la seleccion entre un primer algoritmo de codificacion y un segundo algoritmo de codificacion con buen rendimiento y complejidad reducida.

Este objeto se alcanza mediante un aparato de acuerdo con la reivindicacion 1, un metodo de acuerdo con la reivindicacion 13 y un programa de computadora de acuerdo con la reivindicacion 23.

Las realizaciones de la invencion estan basadas en el reconocimiento que una seleccion de bucle abierto con rendimiento mejorado puede implementarse estimando una medida de calidad para cada uno del primer y segundo algoritmos de codificacion y seleccionar uno de los algoritmos de codificacion basandose en una comparacion entre la primera y segunda medidas de calidad. Las medidas de calidad se estiman, es decir, la senal de audio no se codifica y decodifica realmente para obtener las medidas de calidad. Por lo tanto, las medidas de calidad pueden obtenerse con complejidad reducida. Entonces se puede realizar la seleccion de modo usando las medidas de calidad estimadas comparables con una seleccion de modo de bucle cerrado.

En realizaciones preferidas de la invencion, se implementa una seleccion de modo de bucle abierto donde primero se estiman la SNR segmentaria de ACELP y TCX con baja complejidad. Y entonces se realiza la seleccion de modo usando estos valores de SNR segmentaria estimados, como en una seleccion de modo de bucle cerrado.

Las realizaciones de la invencion no emplean un enfoque clasico de rasgos + clasificador como se hace en la seleccion de modo de bucle abierto de AMR-WB+. Sino que en cambio, las realizaciones de la invencion intentan estimar una medida de calidad de cada modo y seleccionar el modo que da la mejor calidad.

Ahora se describiran en mayor detalle realizaciones de la presente invencion con referencia a los dibujos adjuntos, en los cuales:

La Figura 1

muestra una vista esquematica de una realizacion de un aparato para seleccionar uno de un primer algoritmo de codificacion y un segundo algoritmo de codificacion;

La Figura 2

muestra una vista esquematica de una realizacion de un aparato para codificar una senal de audio;

La Figura 3

La Figura 4a y la Figura 4b

son posibles representaciones de SNR y SNR segmentaria.

En la siguiente descripcion, a los elementos/etapas similares en los diferentes dibujos, se les hace referencia mediante los mismos signos de referencia. Se ha de indicar que en los dibujos, se han omitido algunos rasgos, tales como conexiones de senal y similares, que no son necesarios para la comprension de la invencion.

La Figura 1 muestra un aparato 10 para seleccionar uno de un primer algoritmo de codificacion, tal como un algoritmo TCX, y un segundo algoritmo de codificacion, tal como un algoritmo ACELP, tal como el codificador para codificar una porcion de una senal de audio. El aparato 10 comprende un primer estimador 12 para estimar una primera medida de calidad para la porcion de senal. La primera medida de calidad esta asociada con el primer algoritmo de codificacion. En otras palabras, el primer estimador 12 estima una primera medida de calidad que tendna la porcion de la senal de audio si se codificara y decodificara usando el primer algoritmo de decodificacion, sin codificar y decodificar realmente la porcion de la senal de audio usando el primer algoritmo de codificacion. El aparato 10 comprende un segundo estimador 14 para estimar una segunda medida de calidad para la porcion de senal. La segunda medida de calidad esta asociada con el segundo algoritmo de codificacion. En otras palabras, el segundo estimador 14 estima la segunda medida de calidad que tendna la porcion de la senal de audio si se codificara y decodificara usando el segundo algoritmo de decodificacion, sin codificar y decodificar realmente la porcion de la senal de audio usando el segundo algoritmo de codificacion. Asimismo, el aparato 10 comprende un controlador 16 para seleccionar el primer algoritmo de codificacion o el segundo algoritmo de codificacion basandose en una comparacion entre la primera medida de calidad y la segunda medida de calidad. El controlador puede comprender una salida 18 que indica el algoritmo de codificacion seleccionado.

En una realizacion, la primera caractenstica asociada con el primer algoritmo de codificacion es mas adecuada para senales similares a musica y similares a ruido, y la segunda caractenstica de codificacion asociada con el segundo algoritmo de codificacion es mas adecuada para senales similares al habla y similares a transitorios. En realizaciones de la invencion, el primer algoritmo de codificacion es un algoritmo de codificacion de audio, tal como un algoritmo de codificacion de transformada, por ejemplo, un algoritmo de codificacion de MDCT (transformada de

5

10

15

20

25

30

35

40

45

50

55

60

coseno discreta modificada (modified discrete cosine transform)), tal como un algoritmo de codificacion de TCX (excitacion de codificacion por transformada). Otros algoritmos de codificacion por transformada pueden basarse en una transformada FFT o cualquier otra transformacion o banco de filtros. En las realizaciones de la invencion, el segundo algoritmo de codificacion es un algoritmo de codificacion del habla, tal como un algoritmo de codificacion CELP (prediccion lineal por excitacion de codigo (code excited linear prediction)), tal como un algoritmo de codificacion ACELP (prediccion lineal por excitacion de codigo algebraico (algebraic code excited linear prediction)).

En las realizaciones la medida de calidad representa una medida de calidad perceptual. Se puede calcular un unico valor que es una estimacion de la calidad subjetiva del primer algoritmo de codificacion y un unico valor que es una estimacion de la calidad subjetiva del segundo algoritmo de codificacion. El algoritmo de codificacion que da la mejor calidad subjetiva estimada puede elegirse simplemente basandose en la comparacion de estos dos valores. Esto es diferente de lo que se hace en la AMR-WB+ convencional donde se calcula muchos rasgos que representan diferentes caractensticas de la senal y, a continuacion, se aplica un clasificador para decidir cual algoritmo elegir.

En algunas realizaciones, se estima la respectiva medida de calidad basandose en una porcion de la senal de audio ponderada, es decir, una version ponderada de la senal de audio. En las realizaciones, la senal de audio ponderada puede definirse como una senal de audio filtrada por una funcion de ponderacion, donde la funcion de ponderacion es un filtro LPC ponderado A(z/g) con A(z) un filtro LPC y g una ponderacion entre 0 y 1 tal como 0,68. Resulto que de esta manera se pueden obtener buenas medidas de calidad perceptual. Observese que el filtro LPC A(z) y el filtro LPC ponderado A(z/g) se determinan en una etapa de pre-procesamiento y que tambien se usan en ambos algoritmos de codificacion. En otras realizaciones, la funcion de ponderacion puede ser un filtro lineal, un filtro FIR o un filtro de prediccion lineal.

En las realizaciones, la medida de calidad es la SNR (relacion de senal a ruido) segmentaria en el dominio de la senal ponderada. Resulto que la SNR segmentaria en el dominio de la senal ponderada representa una buena medida de la calidad perceptual y, por lo tanto, se puede usar como la medida de calidad de una manera beneficiosa. Esta tambien es la medida de calidad usada en ambos algoritmos de codificacion, ACELP y TCX para estimar los parametros de codificacion.

Otra medida de calidad puede ser la SNR en el dominio de la senal ponderada. Otras medidas de calidad pueden ser la SNR segmentaria, la SNR de la correspondiente porcion de la senal de audio en el dominio de la senal no ponderada, es decir, no filtrada por los coeficientes de la LPC (ponderados). Otras medidas de calidad pueden ser la distorsion cepstral o la relacion de ruido a mascara (NMR).

En general, la SNR compara las senales de audio original y procesada (tales como senales del habla) muestra a muestra. Su objetivo es medir la distorsion de los codificadores de forma de onda que reproducen la forma de onda de entrada. Se puede calcular la SNR como se muestra en la Figura 5a, donde x(i) e y(i) son las muestras original y procesada indexadas mediante i y N es el numero total de muestras. La SNR segmentaria, en lugar de funcionar sobre la senal completa, calcula el promedio de los valores de SNR de segmentos cortos, tales como de 1 a 10 ms, tal como 5 ms. Se puede calcular la SNR como se muestra en la Figura 5b, donde N y M son la longitud del segmento y el numero de segmentos, respectivamente.

En algunas realizaciones de la invencion, la porcion de la senal de audio representa una trama de una senal de audio que se obtiene generando en ventanas la senal de audio y se realiza la seleccion de un algoritmo de codificacion apropiado para una pluralidad de tramas sucesivas obtenidas generando en ventanas una senal de audio. En la siguiente memoria descriptiva, en relacion con la senal de audio, los terminos “porcion” y “trama” se usan de manera intercambiable. En las realizaciones, cada trama se divide en subtramas y se estima la SNR segmentaria para cada trama calculando la SNR para cada subtrama, y se convierte en dB y se calcula el promedio de las SNR de la subtrama en dB.

Por tanto, en las realizaciones, no es la SNR (segmentaria) entre la senal de audio de entrada y la senal de audio decodificada la que se estima, sino que se estima la SNR (segmentaria) entre la senal de audio de entrada ponderada y la senal de audio decodificada ponderada. En lo que se refiere a esta SNR (segmentaria), se puede hacer referencia al capttulo 5.2.3 de la norma AMR-WB+ (Norma Internacional 3GPP TS 26.290 V6.1.0 2004-12).

En las realizaciones de la invencion, la respectiva medida de calidad se estima basandose en la energfa de una porcion de la senal de audio ponderada y basandose en una distorsion estimada introducida cuando se codifica la porcion de senal mediante el respectivo algoritmo, en el que el primer y segundo estimadores se configuran para determinar las distorsiones estimadas dependientes de la energfa de una senal de audio ponderada.

En las realizaciones de la invencion, se determina una distorsion de cuantificador estimada introducida por un cuantificador usado en el primer algoritmo de codificacion cuando se cuantifica la porcion de la senal de audio, y se determina la primera medida de calidad basandose en la energfa de la porcion de la senal de audio ponderada y la distorsion de cuantificador estimada. En tales realizaciones, se puede estimar una ganancia global para la porcion

5

10

15

20

25

30

35

40

45

50

55

60

de la senal de audio de manera que la porcion de la senal de audio producina una tasa de bits dada objetivo cuando se codifique con un cuantificador y un codificador de entropfa usado en el primer algoritmo de codificacion, en el que la distorsion de cuantificador estimada se determina basandose en la ganancia global estimada. En tales realizaciones, la distorsion de cuantificador estimada puede determinarse basandose en una potencia de la ganancia estimada. Cuando el cuantificador usado en el primer algoritmo de codificacion es un cuantificador escalar uniforme, el primer estimador puede configurarse para determinar la distorsion de cuantificador estimada usando la formula D = G*G/12, en la que D es la distorsion de cuantificador estimada y G es la ganancia global estimada. En caso de que el primer algoritmo de codificacion use otro cuantificador, la distorsion del cuantificador puede determinarse a partir de la ganancia global de una manera diferente.

Los inventores reconocieron que se puede estimar una medida de calidad, tal como una SNR segmentaria, que se obtendna cuando se codifica y decodifica la porcion de la senal de audio usando el primer algoritmo de codificacion, tal como el algoritmo TCX, de una manera apropiada, usando los rasgos anteriores en cualquier combinacion de los mismos.

En las realizaciones de la invencion, la primera medida de calidad es una SNR segmentaria y la SNR segmentaria se estima calculando una SNR estimada asociada con cada una de una pluralidad de subporciones de la porcion de la senal de audio, basandose en una energfa de la correspondiente subporcion de la senal de audio ponderada y la distorsion de cuantificador estimada y calculando un promedio de las SNR asociadas con las subporciones de la porcion de la senal de audio ponderada para obtener la SNR segmentaria estimada para la porcion de la senal de audio ponderada.

En las realizaciones de la invencion, se determina una distorsion de libro de codigos adaptativos introducida por un libro de codigos adaptativos usado en el segundo algoritmo de codificacion cuando se usa el libro de codigos adaptativos para codificar la porcion de la senal de audio, y se estima la segunda medida de calidad basandose en una energfa de la porcion de la senal de audio ponderada y la distorsion de libro de codigos adaptativos estimada.

En tales realizaciones, para cada una de una pluralidad de subporciones de la porcion de la senal de audio, se puede aproximar el libro de codigos adaptativos basandose en una version de la subporcion de la senal de audio ponderada desplazada al pasado por un retardo de paso determinado en una etapa de pre-procesamiento, se puede estimar una ganancia de libro de codigos adaptativos de manera que se minimice un error entre la subporcion de la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado, y se puede determinar una distorsion de libro de codigos adaptativos estimada basandose en la energfa de un error entre la subporcion de la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado cambiado de escala mediante la ganancia de libro de codigos adaptativos.

En las realizaciones de la invencion, se puede reducir la distorsion de libro de codigos adaptativos estimada para cada subporcion de la porcion de la senal de audio en un factor constante para tener en cuenta una reduccion de la distorsion que se logra mediante un libro de codigos innovador en el segundo algoritmo de codificacion.

En las realizaciones de la invencion, la segunda medida de calidad es una SNR segmentaria y la SNR segmentaria se estima calculando una SNR estimada asociada con cada subporcion, basandose en la energfa de la correspondiente subporcion de la senal de audio ponderada y la distorsion de libro de codigos adaptativos estimada y calculando un promedio de las SNR asociadas con las subporciones para obtener la SNR segmentaria estimada.

En las realizaciones de la invencion, se aproxima el libro de codigos adaptativos basandose en una version de la porcion de la senal de audio ponderada desplazada al pasado por un retardo de paso determinado en una etapa de pre-procesamiento, se estima una ganancia de libro de codigos adaptativos de manera que se minimiza un error entre la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado, y se determina la distorsion de libro de codigos adaptativos estimada basandose en la energfa entre la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado cambiado de escala mediante la ganancia de libro de codigos adaptativos. Por tanto, se puede determinar la distorsion de libro de codigos adaptativos estimada con baja complejidad.

Los inventores reconocieron que se puede estimar la medida de calidad, tal como una SNR segmentaria, que se obtendna cuando se codifica y decodifica la porcion de la senal de audio usando el segundo algoritmo de codificacion, tal como un algoritmo ACELP, de una manera apropiada, usando los rasgos anteriores en cualquier combinacion de los mismos.

En las realizaciones de la invencion, se usa un mecanismo de histeresis para comparar las medidas de calidad estimadas. Esto se puede hacer mas estable la decision de cual algoritmo se ha de usar. El mecanismo de histeresis puede depender de las medidas de calidad estimadas (tal como la diferencia entre ellas) y otros parametros, tal como estadfsticas acerca de decisiones previas, el numero de tramas temporalmente estacionarias, transitorios en las tramas. En lo que concierne a tales mecanismos de histeresis, se puede hacer referencia al documento WO

5

10

15

20

25

30

35

40

45

50

55

60

2012/110448 A1, por ejemplo.

En las realizaciones de la invencion, un codificador para codificar una senal de audio comprende el aparato 10, una etapa para realizar el primer algoritmo de codificacion y una etapa para realizar el segundo algoritmo de codificacion, en el que el codificador esta configurado para codificar la porcion de la senal de audio usando el primer algoritmo de codificacion o el segundo algoritmo de codificacion dependiendo de la seleccion por el controlador 16. En las realizaciones de la invencion, un sistema para codificar y decodificar comprende el codificador y un decodificador configurado para recibir la version codificada de la porcion de la senal de audio y una indicacion del algoritmo usado para codificar la porcion de la senal de audio y para decodificar la version codificada de la porcion de senal de audio usando el algoritmo indicado.

Antes de describir una realizacion del primer estimador 12 y el segundo estimador 14 en detalle con referencia a la Figura 3, se describe una realizacion de un codificador 20 con referencia a la Figura 2.

El codificador 20 comprende el primer estimador 12, el segundo estimador 14, el controlador 16, una unidad de pre- procesamiento 22, un conmutador 24, una primera etapa de codificador 26 configurada para realizar un algoritmo TCX, una segunda etapa de codificador 28 configurada para realizar un algoritmo ACELP y una interfaz de salida 30. La unidad de pre-procesamiento 22 puede ser parte de un codificador USAC comun y puede estar configurada para emitir los coeficientes LPC, los coeficientes LPC ponderados, la senal de audio ponderada y un conjunto de retardos de paso. Se ha de indicar que todos estos parametros se usan para ambos algoritmos de codificacion, es decir, el algoritmo TCX y el algoritmo ACELP. Por tanto, tales parametros no tienen que calcularse adicionalmente para decision de modo de bucle abierto. La ventaja de usar parametros ya calculados para la decision de modo de bucle abierto, es ahorro de complejidad.

Se proporciona una senal de audio de entrada 40 en una lmea de entrada. La senal de audio de entrada 40 se aplica al primer estimador 12, la unidad de pre-procesamiento 22 y a ambas etapas de codificador 26, 28. La unidad de pre-procesamiento 22 procesa la senal de audio de entrada de una manera convencional para derivar los coeficientes LPC y los coeficientes LPC ponderados 42 y para filtrar la senal de audio 40 con los coeficientes LPC ponderados 42 para obtener la senal de audio ponderada 44. La unidad de pre-procesamiento 22 emite los coeficientes LPC ponderados 42, la senal de audio ponderada 44 y un conjunto de retardos de paso 48. Como entienden los expertos en la materia, los coeficientes LPC ponderados 42 y la senal de audio ponderada 44 pueden segmentarse en tramas o subtramas. Se puede obtener la segmentacion generando en ventanas la senal de audio de una manera apropiada.

En las realizaciones de la invencion, se pueden usar coeficientes LPC cuantificados o coeficientes LPC ponderados cuantificados. Por tanto, se debe entender que la expresion “coeficientes LPC” se pretende que abarque “coeficientes LPC cuantificados” tambien, la expresion “coeficientes LPC ponderados” se pretende que abarque “coeficientes LPC ponderados cuantificados” tambien. Con relacion a esto, es conveniente indicar que el algoritmo TCX de USAC usa los coeficientes LPC ponderados cuantificados para formar el espectro MCDT.

El primer estimador 12 recibe la senal de audio 40, los coeficientes LPC ponderados 42 y la senal de audio ponderada 44, estima la primera medida de calidad 46 basandose en los mismos y emite la primera medida de calidad al controlador 16. El segundo estimador 16 recibe la senal de audio ponderada 44 y el conjunto de retardos de paso 48, estima la segunda medida de calidad 50 basandose en los mismos y emite la segunda medida de calidad 50 al controlador 16. Como es conocido para los expertos en la materia, los coeficientes LPC ponderados 42, la senal de audio ponderada 44 y el conjunto de retardos de paso 48 ya estan calculados en un modulo previo (esto es, la unidad de pre-procesamiento 22) y por lo tanto, estan disponibles sin coste.

El controlador toma una decision para seleccionar el algoritmo TCX o el algoritmo ACELP basandose en una comparacion de las medidas de calidad recibidas. Como se ha indicado anteriormente, el controlador puede usar un mecanismo de histeresis para decidir cual algoritmo usar. La seleccion de la primera etapa de codificador 26 o la segunda etapa de codificador 28 se muestra esquematicamente en la Figura 2 por medio del conmutador 24 que esta controlado por una senal de control 52 emitida por el controlador 16. La senal de control 52 indica si se ha de usar la primera etapa de codificador 26 o la segunda etapa de codificador 28. Basandose en la senal de control 52, las senales requeridas esquematicamente indicadas mediante la flecha 54 en la Figura 2 y que incluyen al menos los coeficientes LPC, los coeficientes LPC ponderados, la senal de audio, la senal de audio ponderada, el conjunto de retardos de paso, se aplican, o bien a la primera etapa de codificador 26 o bien a la segunda etapa de codificador 28. La etapa de codificador seleccionada aplica el algoritmo de codificacion asociado y emite la representacion codificada 56 o 58 a la interfaz de salida 30. La interfaz de salida 30 puede estar configurada para emitir una senal de audio codificada que puede comprender entre otros datos, la representacion codificada 56 o 58, los coeficientes LPC o los coeficientes LPC ponderados, parametros para el algoritmo de codificacion seleccionado e informacion acerca del algoritmo de codificacion seleccionado.

Ahora se describen con referencia a la Figura 3, realizaciones espedficas para estimar la primera y segunda

5

10

15

20

25

30

35

40

45

50

55

60

medidas de calidad, en las que la primera y segunda medidas de calidad son SNR segmentarias en el dominio de la senal ponderada. La Figura 3 muestra el primer estimador 12 y el segundo estimador 14 y las funcionalidades de los mismos en forma de diagramas de flujo que muestran la respectiva estimacion etapa a etapa.

Estimacion de la SNR segmentaria de TCX

El primer estimador (TCX) recibe la senal de audio 40 (senal de entrada), los coeficientes LPC ponderados 42 y la senal de audio ponderada 44 como entradas.

En la etapa 100, la senal de audio 40 se genera en ventanas. La generacion en ventanas puede tener lugar con una ventana senoidal de baja superposicion de 10 ms. Cuando la trama pasada es ACELP, el tamano de bloque puede incrementarse en 5 ms, el lado izquierdo de la ventana puede ser rectangular y la respuesta de impulso cero en ventanas del filtro de smtesis ACELP puede eliminarse de la senal de entrada en ventanas. Esto es similar a lo que se hace en el algoritmo TCX. Una trama de la senal de audio 40, que representa una porcion de la senal de audio, se emite desde la etapa 100.

En la etapa 102, la senal de audio en ventanas, es decir, la trama resultante, se transforma con una MDCT (transformada de coseno discreta modificada). En la etapa 104 se realiza conformacion de espectro conformando el espectro de MDCT con los coeficientes LPC ponderados.

En la etapa 106 se estima una ganancia global G de manera que el espectro ponderado cuantificado con la ganancia G producina un objetivo dado R, cuando se codifica con un codificador de entropfa, por ejemplo, un codificador aritmetico. Se usa la expresion “ganancia global” ya que se determina una ganancia para todo la trama.

Ahora se explica un ejemplo de una implementacion de la estimacion de ganancia global. Se ha de indicar que esta estimacion de ganancia global es apropiada para realizaciones en las que el algoritmo de codificacion TCX usa un cuantificador escalar con un codificador aritmetico. Se supone un cuantificador escalar de este tipo con un codificador aritmetico en la norma MPEG USAC.

Inicializacion

En primer lugar se inicializan las variables usadas para la estimacion de ganancia mediante:

1. Establecer en[i] = 9,0 + 10,0*log10(c[4*i+0] + c[4*i+1] + c[4*i+2] + c[4*i+3]), donde 0<=i<L/4, c[] es el vector de coeficientes a cuantificar, y L es la longitud de c[].

2. Establecer fac = 128, desplazamiento = fac y objetivo = cualquier valor (por ejemplo 1000)

Iteracion

A continuacion, el siguiente bloque de operaciones se realiza NITER veces (por ejemplo, en ese punto, NITER = 10).

1. fac = fac/2

2. desplazamiento = desplazamiento - fac

3. ener = 0

4. para todo i donde 0<=i<L/4 hacer lo siguiente:

si en[i]-desplazamiento > 3,0, entonces ener = ener + en[i]-desplazamiento

5. si ener > objetivo, entonces desplazamiento = desplazamiento + fac

El resultado de la iteracion es el valor de desplazamiento. Despues de la iteracion, se estima la ganancia global segun G = 10A(desplazamiento/20).

La manera espedfica en la que se estima la ganancia global puede variar dependiendo del cuantificador y del codificador de entropfa usados. En la norma MPEG USAC se supone un cuantificador escalar con un codificador aritmetico. Otros enfoques TCX pueden usar un cuantificador diferente y los expertos en la materia entienden como estimar la ganancia global para tales cuantificadores diferentes. Por ejemplo, la norma AMR-WB+ supone que se usa un cuantificador de red RE8. Para un cuantificador de este tipo, la estimacion de la ganancia global podna estimarse como se describe en el capttulo 5.3.5.7 en la pagina 34 de 3GPP TS 26.290 V6.1.0 2004-12, en la que se supone una tasa de bits objetivo fija.

Despues de haber estimado la ganancia global en la etapa 106, tiene lugar la estimacion de distorsion en la etapa 108. Para ser mas espedfico, la distorsion de cuantificador se aproxima basandose en la ganancia global estimada. En el presente documento realizacion se supone que se usa un cuantificador escalar uniforme. Por tanto, se

5

10

15

20

25

30

35

40

45

50

55

60

determina la distorsion de cuantificador con la formula sencilla D=G*G/12, en la cual D representa la distorsion del cuantificador determinada y G representa la ganancia global estimada. Esto corresponde a la aproximacion de alta tasa de una distorsion de cuantificador escalar uniforme.

Basandose en la distorsion de cuantificador determinada, en la etapa 110 se realiza el calculo de la SNR segmentaria. Se calcula la SNR en cada subtrama como la relacion de la energfa de senal de audio ponderada y la distorsion D que se supone constante en las subtramas. Por ejemplo se divide la trama en cuatro subtramas consecutivas (vease la Figura 4). La SNR segmentaria a continuacion es el promedio de las SNR de las cuatro subtramas y puede indicarse en dB.

Este enfoque permite la estimacion de la primera SNR segmentaria que se obtendna cuando se codifica y decodifica realmente la trama objeto usando el algoritmo TCX, sin embargo, sin tener que realmente codificar y decodificar la senal de audio y, por lo tanto, con una complejidad fuertemente reducida y reducido tiempo de calculo.

Estimacion de la SNR segmentaria de ACELP

El segundo estimador 14 recibe la senal de audio ponderada 44 y el conjunto de retardos de paso 48 que ya esta calculado en la unidad de pre-procesamiento 22.

Como se muestra en la etapa 112, en cada subtrama, se aproxima el libro de codigos adaptativos simplemente usando la senal de audio ponderada y el retardo de paso T. El libro de codigos adaptativos se aproxima mediante

xw(n-T), n = 0......N

en la que xw es la senal de audio ponderada, T es el retardo de paso de la correspondiente subtrama y N es la longitud de la subtrama. Por consiguiente, el libro de codigos adaptativos se aproxima usando una version de la subtrama desplazada al pasado por T. Por tanto, en las realizaciones de la invencion, el libro de codigos adaptativos se aproxima de una manera muy sencilla.

En la etapa 114 se determina una ganancia de libro de codigos adaptativos para cada subtrama. Para ser mas espedficos, en cada subtrama, se estima la ganancia de libro de codigos G de manera que minimice el error entre la senal de audio ponderada y el libro de codigos adaptativos aproximado. Esto se puede hacer simplemente comparando las diferencias entre ambas senales para cada muestra y hallando una ganancia de manera que la suma de estas diferencias sea minima.

En la etapa 116 se determina la distorsion de libro de codigos adaptativos para cada subtrama. En cada subtrama, la distorsion D introducida por el libro de codigos adaptativos es simplemente la energfa del error entre la senal de audio ponderada y el libro de codigos adaptativos aproximado puesto a escala por la ganancia G.

Las distorsiones determinadas en la etapa 116 pueden ajustarse en una etapa opcional 118 para tener en cuenta el libro de codigos innovador. La distorsion del libro de codigos innovador usada en los algoritmos ACELP puede estimarse simplemente como un valor constante. En la realizacion de la invencion descrita, simplemente se supone que el libro de codigos innovador reduce la distorsion D en un factor constante. Por tanto, las distorsiones obtenidas en la etapa 116 para cada subtrama pueden multiplicarse en la etapa 118 por un factor constante, tal como un factor constante del orden de 0 a 1, tal como 0,055.

En la etapa 120 tiene lugar el calculo de la SNR segmentaria. En cada subtrama, se calcula la SNR como la relacion de la energfa de senal de audio ponderada y la distorsion D. La SNR segmentaria entonces es la media de la SNR de las cuatro subtramas y puede indicarse en dB.

Este enfoque permite la estimacion de la segunda SNR que se obtendna cuando se codifica y decodifica realmente la trama del caso usando el algoritmo ACELP, sin embargo, sin tener que realmente codificar y decodificar la senal de audio y, por lo tanto, con una complejidad fuertemente reducida y reducido tiempo de calculo.

El primer y segundo estimadores 12 y 14 emiten las SNR segmentarias estimadas 46, 50 al controlador 16 y el controlador 16 toma una decision de cual algoritmo ha de usarse para la porcion asociada de la salida de audio basandose en las SNR segmentarias estimadas 46, 50. El controlador puede usar opcionalmente un mecanismo de histeresis para hacer que la decision sea mas estable. Por ejemplo, se puede usar el mismo mecanismo de histeresis que en la decision de bucle cerrado con parametros de ajuste levemente diferentes. Un mecanismo de histeresis de este tipo puede calcular un valor “dsnr” que puede depender de las SNR segmentarias estimadas (tal como la diferencia entre ellas) y otros parametros, tal como estadfsticas acerca de decisiones previas, el numero de tramas temporalmente estaticas y componentes transitorios en las tramas.

Sin un mecanismo de histeresis, el controlador puede seleccionar el algoritmo de codificacion que tiene la SNR estimada mas alta, es decir, se selecciona ACELP si la segunda SNR estimada es menos alta que la primera SNR

5

10

15

20

25

30

35

40

45

50

55

60

estimada y se selecciona TCX si la primera SNR estimada es mas alta que la segunda SNR estimada. Con un mecanismo de histeresis, el controlador puede seleccionar el algoritmo de codificacion de acuerdo con la siguiente regla de decision, en la que acelp_snr es la segunda SNR estimada y tcx_snr es la primera SNR estimada:

si acelp_snr+dsnr>tcx_snr entonces seleccionar ACELP, en otro caso seleccionar TCX.

Por consiguiente, las realizaciones de la invencion permiten estimar SNR segmentarias y seleccion de un algoritmo de codificacion apropiado de una manera sencilla y precisa.

En las realizaciones anteriores, las SNR segmentarias se estiman calculando un promedio de SNR estimadas para respectivas subtramas. En realizaciones alternativas, la SNR de una trama entera podna estimarse sin dividir la trama en subtramas.

Las realizaciones de la invencion permiten una fuerte reduccion en el tiempo de calculo cuando se compara con una seleccion de bucle cerrado ya que se omite un numero de etapas requeridas en la seleccion de bucle cerrado.

Por consiguiente, se puede ahorrar un gran numero de etapas y el tiempo de calculo asociado con ellas mediante el enfoque inventivo mientras que aun se permite la seleccion de un algoritmo de codificacion apropiado con buen rendimiento.

A pesar de que se han descrito algunos aspectos en el contexto de un aparato, es evidente que estos aspectos tambien representan una descripcion del metodo correspondiente, donde un bloque o dispositivo corresponde a una etapa de metodo o a un rasgo de una etapa de metodo. Analogamente, aspectos descritos en el contexto de una etapa de metodo tambien representan una descripcion de un correspondiente bloque o elemento o rasgo de un aparato correspondiente.

Las realizaciones de los aparatos descritos aqu y los rasgos de los mismos pueden implementarse mediante una computadora, uno o mas procesadores, uno o mas microprocesadores, campos de matrices de puertas programables (FPGA), circuitos integrados espedficos de la aplicacion (ASIC) y similares o combinaciones de los mismos, que estan configurados o programados para proporcionar las funcionalidades descritas.

Algunas o todas las etapas del metodo pueden ejecutarse por (o usando) un aparato de hardware, como por ejemplo, un microprocesador, una computadora programable o un circuito electronico. En algunas realizaciones, alguna o mas de las etapas del metodo mas importantes pueden ejecutarse mediante un aparato de este tipo.

Dependiendo de ciertos requerimientos de implementacion, las realizaciones de la invencion pueden implementarse en hardware o en software. La implementacion puede realizarse usando un medio de almacenamiento no transitorio tal como un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, un Blu-Ray, una ROM, una PROM y EPROM, una EEPROM o una memoria FLASH, teniendo senales de control legibles electronicamente almacenadas en las mismas, que cooperan (o son capaces de cooperar) con un sistema de computadora programable de manera que se realice el respectivo metodo. Por lo tanto, el medio de almacenamiento digital puede ser legible por computadora.

Algunas realizaciones de acuerdo con la invencion comprenden un portador de datos que tiene senales de control legibles electronicamente, que son capaces de cooperar con un sistema de computadora programable, de manera que se realice uno de los metodos descrito en el presente documento.

En general, las realizaciones de la presente invencion pueden implementarse como un producto de programa de computador con un codigo de programa, siendo codigo de programa operativo para realizar uno de los metodos cuando el producto de programa de computadora se ejecuta en una computadora. El codigo de programa puede almacenarse, por ejemplo, en un portador legible por una maquina.

Otras realizaciones comprenden el programa de computadora para realizar uno de los metodos descritos en el presente documento, almacenado en un portador legible por una maquina.

En otras palabras, una realizacion del metodo inventivo es, por lo tanto, un programa de computadora que tiene un codigo de programa para realizar uno de los metodos descritos en el presente documento, cuando el programa de computadora se ejecuta en una computadora.

Una realizacion adicional del metodo inventivo es, por lo tanto, un portador de datos (o un medio de almacenamiento digital, o un medio legible por computadora) que comprende, grabado en el mismo, el programa de computadora para realizar uno de los metodos descritos en el presente documento. El portador de datos, el medio de almacenamiento digital o el medio grabado tfpicamente son tangibles y/o no transitorios.

Una realizacion adicional del metodo de la invencion es, por lo tanto, un flujo de datos o una secuencia de senales

5

10

15

20

25

que representan el programa de computadora para realizar uno de los metodos descritos en el presente documento. El flujo de datos o la secuencia de senales pueden configurarse, por ejemplo, para transferirse mediante una conexion de comunicacion de datos, por ejemplo, mediante Internet.

Una realizacion adicional comprende un medio de procesamiento, por ejemplo, una computadora, o un dispositivo de logica programable, configurado para o programado para, realizar uno de los metodos descritos en el presente documento.

Una realizacion adicional comprende una computadora que tiene instalado en la misma el programa de computadora para realizar uno de los metodos descritos en el presente documento.

Una realizacion adicional de acuerdo con la invencion comprende un aparato o un sistema configurado para transferir (por ejemplo, electronica u opticamente) un programa de computadora para realizar uno de los metodos descritos en este punto, a un receptor. El receptor puede ser, por ejemplo, una computadora, un dispositivo movil, un dispositivo de memoria o similar. El aparato o sistema puede comprender, por ejemplo, un servidor de archivos para transferir el programa de computadora al receptor.

En algunas realizaciones puede usarse un dispositivo de logica programable (por ejemplo, un campo de matrices de puertas programables) para realizar algunas o todas las funcionalidades de los metodos descritos en el presente documento. En algunas realizaciones, el campo de matrices de puertas programables puede cooperar con un microprocesador para realizar uno de los metodos descritos en el presente documento. En general, los metodos preferentemente se realizan mediante algun aparato de hardware.

Las realizaciones anteriormente descritas son meramente ilustrativas para los principios de la presente invencion. Se entiende que las modificaciones y variaciones de las disposiciones y de los detalles descritos en el presente documento seran evidentes para los expertos en la materia. Por lo tanto, es la intencion que la invencion este limitado solo por el alcance de las siguientes reivindicaciones de patente y no por los detalles espedficos presentados a modo de descripcion y explicacion de las realizaciones en el presente documento.

Claims

5

10

15

20

25

30

35

40

45

50

55

60

REIVINDICACIONES

1. Aparato (10) para seleccionar uno de un primer algoritmo de codificacion que tiene una primera caractenstica, y un segundo algoritmo de codificacion que tiene una segunda caractenstica para codificar una porcion de una senal de audio (40) para obtener una version codificada de la porcion de la senal de audio (40), que comprende:

un primer estimador (12) para estimar una primera medida de calidad para la porcion de la senal de audio, estando asociada la primera medida de calidad con el primer algoritmo de codificacion, sin codificar y decodificar realmente la porcion de la senal de audio usando el primer algoritmo de codificacion;

un segundo estimador (14) para estimar una segunda medida de calidad para la porcion de la senal de audio, estando asociada la segunda medida de calidad con el segundo algoritmo de codificacion, sin codificar y decodificar realmente la porcion de la senal de audio usando el segundo algoritmo de codificacion; y un controlador (16) para seleccionar el primer algoritmo de codificacion o el segundo algoritmo de codificacion basandose en una comparacion entre la primera medida de calidad y la segunda medida de calidad, en el que la primera y segunda medidas de calidad son relaciones de senal a ruido, SNR, o SNR segmentarias de la porcion correspondiente de una version ponderada de la senal de audio.
2. Aparato (10) de acuerdo con la reivindicacion 1, en el que el primer algoritmo de codificacion es un algoritmo de codificacion por transformada, un algoritmo de codificacion basado en transformada de coseno discreta modificada, MDCT, o un algoritmo de codificacion de excitacion de codificacion por transformada, TCX, y en el que el segundo algoritmo de codificacion es un algoritmo de codificacion de prediccion lineal por excitacion de codigo, CELP, o un algoritmo de codificacion de prediccion lineal por excitacion de codigo algebraico, ACELP.
3. Aparato (10) de acuerdo con una de las reivindicaciones 1 o 2, en el que el primer estimador (12) esta configurado para determinar una distorsion de cuantificador estimada que introducina un cuantificador usado en el primer algoritmo de codificacion cuando se cuantifica la porcion de la senal de audio y para estimar la primera medida de calidad basandose en una energfa de una porcion de una version ponderada de la senal de audio y la distorsion de cuantificador estimada.
4. Aparato (10) de acuerdo con la reivindicacion 3, en el que el primer estimador (12) esta configurado para estimar una ganancia global para la porcion de la senal de audio de manera que la porcion de la senal de audio producina una tasa de bits objetivo dada cuando se codifica con un cuantificador y un codificador de entropfa usado en el primer algoritmo de codificacion, en el que el primer estimador (12) ademas esta configurado para determinar la distorsion de cuantificador estimada basandose en una potencia de la ganancia global estimada, en el que el cuantificador usado en el primer algoritmo de codificacion es un cuantificador escalar uniforme y en el que el primer estimador (12) esta configurado para determinar la distorsion de cuantificador estimada usando la formula D = G*G/12, en la que D es la distorsion de cuantificador estimada y G es la ganancia global estimada.
5. Aparato (10) de acuerdo con una de las reivindicaciones 3 o 4, en el que la primera medida de calidad es una SNR segmentaria de una porcion de la senal de audio ponderada y en el que el primer estimador (12) esta configurado para estimar la SNR segmentaria calculando una SNR estimada asociada con cada una de una pluralidad de subporciones de la porcion de la senal de audio ponderada, basandose en una energfa de las correspondientes subporciones de la senal de audio ponderada y la distorsion de cuantificador estimada y calculando un promedio de las SNR asociadas con las subporciones de la porcion de la senal de audio ponderada para obtener la SNR segmentaria estimada para la porcion de la senal de audio ponderada.
6. Aparato (10) de acuerdo con una de las reivindicaciones 1 a 5, en el que el segundo estimador (14) esta configurado para determinar una distorsion de libro de codigos adaptativos estimada que introducina un libro de codigos adaptativos usado en el segundo algoritmo de codificacion cuando se usa un libro de codigos adaptativos para codificar la porcion de la senal de audio, y en el que el segundo estimador (14) esta configurado para estimar la segunda medida de calidad basandose en una energfa de una porcion de una version ponderada de la senal de audio y la distorsion de libro de codigos adaptativos estimada, en el que, para cada una de una pluralidad de subporciones de la porcion de la senal de audio, el segundo estimador (14) esta configurado para aproximar el libro de codigos adaptativos basandose en una version de la subporcion de la senal de audio ponderada desplazada al pasado por un retardo de paso determinado en una etapa de pre-procesamiento, para estimar una ganancia de libro de codigos adaptativos de manera que se minimice un error entre la subporcion de la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado, y para determinar la distorsion de libro de codigos adaptativos estimada basandose en la energfa de un error entre la subporcion de la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado cambiado de escala mediante la ganancia de libro de codigos adaptativos.
7. Aparato (10) de acuerdo con la reivindicacion 6, en el que el segundo estimador (14) ademas esta configurado para reducir la distorsion de libro de codigos adaptativos estimada determinada para la subporcion de la porcion de la senal de audio, en un factor constante.

5

10

15

20

25

30

35

40

45

50

55

60
8. Aparato (10) de acuerdo con la reivindicacion 6 o 7, en el que la segunda medida de calidad es una SNR segmentaria de la porcion de la senal de audio ponderada, y en el que el segundo estimador (14) esta configurado para estimar la SNR segmentaria calculando una SNR estimada asociada con cada subporcion basandose en la energfa de la correspondiente subporcion de la senal de audio ponderada, y la distorsion de libro de codigos adaptativos estimada y calculando un promedio de las SNR asociadas con las subporciones para obtener la SNR segmentaria estimada para la porcion de la senal de audio ponderada.
9. Aparato (10) de acuerdo con la reivindicacion 6, en el que el segundo estimador (14) esta configurado para aproximar el libro de codigos adaptativos basandose en una version de la porcion de la senal de audio ponderada desplazada al pasado por un retardo de paso determinado en una etapa de pre-procesamiento, para estimar una ganancia de libro de codigos adaptativos de manera que se minimice un error entre la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado, y para determinar la distorsion de libro de codigos adaptativos estimada basandose en la energfa de un error entre la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado cambiado de escala mediante la ganancia de libro de codigos adaptativos.
10. Aparato (10) de acuerdo con una de las reivindicaciones 1 a 9, en el que el controlador (16) esta configurado para utilizar una histeresis para comparar las medidas de calidad estimadas.
11. Aparato (20) para codificar una porcion de una senal de audio, que comprende el aparato (10) de acuerdo con una de las reivindicaciones 1 a 10, una primera etapa de codificador (26) para realizar el primer algoritmo de codificacion y una segunda etapa de codificador (28) para realizar el segundo algoritmo de codificacion, en el que el aparato para codificar (20) esta configurado para codificar la porcion de la senal de audio usando el primer algoritmo de codificacion o el segundo algoritmo de codificacion dependiendo de la seleccion por el controlador (16).
12. Sistema para codificar y decodificar que comprende un aparato (20) para codificar de acuerdo con la reivindicacion 11 y un decodificador configurado para recibir la version codificada de la porcion de la senal de audio y una indicacion del algoritmo usado para codificar la porcion de la senal de audio y para decodificar la version codificada de la porcion de senal de audio usando el algoritmo indicado.
13. Metodo para seleccionar uno de un primer algoritmo de codificacion que tiene una primera caractenstica, y un segundo algoritmo de codificacion que tiene una segunda caractenstica para codificar una porcion de una senal de audio para obtener una version codificada de la porcion de la senal de audio, que comprende:

estimar una primera medida de calidad para la porcion de la senal de audio, estando asociada la primera medida de calidad con el primer algoritmo de codificacion, sin codificar y decodificar realmente la porcion de la senal de audio usando el primer algoritmo de codificacion;

estimar una segunda medida de calidad para la porcion de la senal de audio, estando asociada la segunda medida de calidad con el segundo algoritmo de codificacion, sin codificar y decodificar realmente la porcion de la senal de audio usando el segundo algoritmo de codificacion; y

seleccionar el primer algoritmo de codificacion o el segundo algoritmo de codificacion basandose en una comparacion entre la primera medida de calidad y la segunda medida de calidad,

en el que la primera y segunda medidas de calidad son relaciones de senal a ruido, SNR, o SNR segmentarias de la porcion correspondiente de una version ponderada de la senal de audio.
14. Metodo de acuerdo con la reivindicacion 13, en el que el primer algoritmo de codificacion es un algoritmo de codificacion por transformada, un algoritmo de codificacion basado en transformada de coseno discreta modificada, MDCT, o un algoritmo de codificacion de excitacion de codificacion por transformada, TCX, y en el que el segundo algoritmo de codificacion es un algoritmo de codificacion de prediccion lineal por excitacion de codigo, CELP, o un algoritmo de codificacion de prediccion lineal por excitacion de codigo algebraico, ACELP.
15. Metodo de acuerdo con una de las reivindicaciones 13 o 14, que comprende determinar (108) una distorsion de cuantificador estimada que introducina un cuantificador usado en el primer algoritmo de codificacion cuando se cuantifica la porcion de la senal de audio y determinar la medida de calidad basandose en una energfa de una porcion de una version ponderada de la senal de audio y la distorsion de cuantificador estimada.
16. Metodo de acuerdo con la reivindicacion 15, que comprende estimar (106) una ganancia global para la porcion de la senal de audio de manera que la porcion de la senal de audio producina una tasa de bits objetivo dada cuando se codifica con un cuantificador y un codificador de entropfa usando en el primer algoritmo de codificacion, y determinar (108) la distorsion de cuantificador estimada basandose en una potencia de la ganancia global estimada, en el que el cuantificador es un cuantificador escalar uniforme, en el que la distorsion de cuantificador estimada se determina usando la formula D = G*G/12, en la que D es la distorsion de cuantificador estimada y G es la ganancia global estimada.

5

10

15

20

25

30

35

40

45
17. Metodo de acuerdo con una de las reivindicaciones 15 o 16, en el que la primera medida de calidad es una SNR segmentaria de la version filtrada por codificacion de prediccion lineal, LPC, de una porcion de la senal de audio ponderada, y que comprende estimar la primera SNR segmentaria calculando una SNR estimada asociada con cada una de una pluralidad de subporciones de la porcion de la senal de audio ponderada, basandose en una energfa de las correspondientes subporciones de la senal de audio ponderada y la distorsion de cuantificador estimada y calculando un promedio de las SNR asociadas con las subporciones de la porcion de la senal de audio ponderada para obtener la SNR segmentaria estimada para la porcion de la senal de audio ponderada.
18. Metodo de acuerdo con una de las reivindicaciones 13 a 17, que comprende determinar una distorsion de libro de codigos adaptativos estimada (116) que introducina un libro de codigos adaptativos usado en el segundo algoritmo de codificacion cuando se usa el libro de codigos adaptativos para codificar la porcion de la senal de audio, y estimar la segunda medida de calidad basandose en una energfa de una porcion de una version ponderada de la senal de audio y la distorsion de libro de codigos adaptativos estimada, y

que comprende para cada una de una pluralidad de subporciones de la porcion de la senal de audio, aproximar (112) el libro de codigos adaptativos basandose en una version de la subporcion de la senal de audio ponderada desplazada al pasado por un retardo de paso determinado en una etapa de pre-procesamiento, estimar (114) una ganancia de libro de codigos adaptativos de manera que se minimice un error entre la subporcion de la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado, y determinar (116) la distorsion de libro de codigos adaptativos estimada basandose en la energfa de un error entre la subporcion de la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado cambiado de escala mediante la ganancia de libro de codigos adaptativos.
19. Metodo de acuerdo con la reivindicacion 18, que comprende reducir (118) la distorsion de libro de codigos adaptativos estimada determinada para la subporcion de la porcion de la senal de audio, en un factor constante.
20. Metodo de acuerdo con la reivindicacion 18 o 19, en el que la segunda medida de calidad es una SNR segmentaria de la porcion de la senal de audio ponderada, y que comprende estimar la SNR segmentaria calculando una SNR estimada asociada con cada subporcion basandose en la energfa de la correspondiente subporcion de la senal de audio ponderada, y la distorsion de libro de codigos adaptativos estimada y calculando un promedio de las SNR asociadas con las subporciones para obtener la SNR segmentaria estimada para la porcion de la senal de audio ponderada.
21. Metodo de acuerdo con la reivindicacion 18, que comprende aproximar el libro de codigos adaptativos basandose en una version de la porcion de la senal de audio ponderada desplazada al pasado por un retardo de paso determinado en una etapa de pre-procesamiento, estimar una ganancia de libro de codigos adaptativos de manera que se minimice un error entre la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado, y determinar la distorsion de libro de codigos adaptativos estimada basandose en la energfa de un error entre la porcion de la senal de audio ponderada y el libro de codigos adaptativos aproximado cambiado de escala mediante la ganancia de libro de codigos adaptativos.
22. Metodo de acuerdo con una de las reivindicaciones 13 a 21, que comprende utilizar histeresis para comparar las medidas de calidad estimadas.
24. Programa de computadora que tiene un codigo de programa para realizar, cuando se ejecuta en una computadora, el metodo de una de las reivindicaciones 13 a 22.