ES2338117T3

ES2338117T3 - Codificacion de audio con diferentes longitudes de trama de codificacion.

Info

Publication number: ES2338117T3
Application number: ES04733394T
Authority: ES
Inventors: Jari Makinen
Original assignee: Nokia Inc
Current assignee: Nokia Inc
Priority date: 2004-05-17
Filing date: 2004-05-17
Publication date: 2010-05-04
Anticipated expiration: 2024-05-17
Also published as: JP2007538282A; AU2004319556A1; BRPI0418838A; US20050267742A1; WO2005112003A1; MXPA06012617A; TW200609902A; CN1954364A; US7860709B2; EP1747554A1; CN1954364B; ATE457512T1; EP1747554B1; CA2566368A1; DE602004025517D1

Abstract

Procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho procedimiento: - determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio; - limitar dichas opciones de longitudes de trama de codificación posibles para dicha al menos una sección mediante dicho al menos un parámetro de control; y - en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas.

Description

Codificación de audio con diferentes longitudes de trama de codificación.

Campo de la invención

La invención se refiere a un procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación. La invención también se refiere a un módulo correspondiente, a un dispositivo electrónico correspondiente, a un sistema correspondiente y a un producto de programa de software correspondiente.

Antecedentes de la invención

Se conoce la codificación de señales de audio para permitir una transmisión y/o un almacenamiento eficaz de señales de audio.

Una señal de audio puede ser una señal de voz u otro tipo de señal de audio, tal como música, y para diferentes tipos de señales de audio pueden ser apropiados diferentes modelos de codificación.

Una técnica utilizada ampliamente para la codificación de señales de voz es la codificación de predicción lineal excitada por código algebraico (ACELP). La ACELP modela el sistema de producción de voz humana y es muy adecuada para codificar la periodicidad de una señal de voz. Como resultado, puede conseguirse una gran calidad de voz con velocidades binarias muy bajas. La banda ancha adaptable a múltiples velocidades (AMR-WB), por ejemplo, es un códec de voz basado en la tecnología ACELP. La AMR-WB está descrita, por ejemplo, en la especificación técnica 3GPP TS 26.190: "Speech Codec speech processing functions; AMR Wideband speech codec; Transcoding functions", V5.1.0 (2001-12). Sin embargo, los códecs de voz basados en el sistema de producción de voz humana no funcionan normalmente de manera óptima para otros tipos de señales de audio, tales como música.

Una técnica utilizada ampliamente para la codificación de señales de audio distintas a la voz es la codificación por transformada (TCX). La superioridad de la codificación por transformada para señales de audio se basa en un enmascaramiento perceptivo y en una codificación en el dominio de frecuencia. La calidad de la señal de audio resultante puede mejorarse adicionalmente seleccionando una longitud de trama de codificación adecuada para la codificación por transformada. Pero aunque las técnicas de codificación por transformada dan como resultado una alta calidad para señales de audio distintas a la voz, su rendimiento no es bueno para señales de voz periódicas. Por lo tanto, la calidad de la voz codificada por transformada es normalmente bastante baja, especialmente con longitudes de trama TCX largas.

El códec AMR-WB extendido (AMR-WB+) codifica una señal de audio estéreo como una señal mono de una alta velocidad binaria y proporciona una cierta cantidad de información conexa para una extensión estéreo. El códec AMR-WB+ utiliza tanto codificación ACELP como modelos TCX para codificar la señal mono principal en una banda de frecuencia de 0 Hz a 6400 Hz. Para el modelo TCX se utiliza una longitud de trama de codificación de 20 ms, de 40 ms o de 80 ms.

Puesto que un modelo ACELP puede degradar la calidad de audio y la codificación por transformada no tiene normalmente un funcionamiento óptimo para la voz, especialmente cuando se utilizan largas tramas de codificación, debe seleccionarse el mejor modelo de codificación respectivo. La selección del modelo de codificación que vaya a utilizarse finalmente puede llevarse a cabo de varias maneras.

En sistemas que requieren técnicas poco complejas, tales como los servicios multimedia móviles (MMS), normalmente se utilizan algoritmos de clasificación de música/voz para seleccionar el modelo de codificación óptimo. Estos algoritmos clasifican toda la señal fuente como música o como voz basándose en un análisis de la energía y de la frecuencia de la señal de audio.

Si una señal de audio consiste solamente en voz o solamente en música, será satisfactorio utilizar el mismo modelo de codificación para toda la señal en base a tal clasificación de música/voz. Sin embargo, en muchos otros casos, la señal de audio que va a codificarse es un tipo mixto de señal de audio. Por ejemplo, la voz puede estar presente al mismo tiempo que la música y/o alternarse con música en la señal de audio.

En estos casos, una clasificación de todas las señales fuente en la categoría de música o en la categoría de voz es un enfoque muy limitado. La conmutación entre los modelos de codificación durante la codificación de la señal de audio solo puede maximizar entonces la calidad de audio global. Es decir, el modelo ACELP también se utiliza en parte para codificar una señal fuente clasificada como una señal de audio en lugar de voz, mientras que el modelo TCX también se utiliza en parte para una señal fuente clasificada como una señal de voz.

El códec AMR-WB extendido (AMR-WB+) también está diseñado para codificar tales tipos mixtos de señales de audio con modelos de codificación mixtos trama a trama.

La selección de los modelos de codificación en AMR-WB+ puede llevarse a cabo de varias maneras.

En el enfoque más complejo, la señal se codifica en primer lugar con todas las posibles combinaciones de modelos ACELP y TCX. A continuación, la señal se sintetiza de nuevo para cada combinación. Después se selecciona la mejor excitación en base a la calidad de las señales de voz sintetizadas. La calidad de la voz sintetizada generada mediante una combinación específica puede medirse, por ejemplo, determinando su relación de señal a ruido (SNR). Este tipo de enfoque de análisis por síntesis proporciona buenos resultados. Sin embargo, en algunas aplicaciones no es factible debido a su gran complejidad. La complejidad se debe en gran parte a la codificación ACELP, que es la parte más compleja de un codificador.

En sistemas como MMS, por ejemplo, el enfoque de análisis por síntesis en bucle cerrado es demasiado complejo de realizar. Por lo tanto, en un codificador MMS se utiliza un procedimiento en bucle abierto poco complejo para determinar si se selecciona un modelo de codificación ACELP o un modelo TCX para codificar una trama particular.

La AMR-WB+ ofrece dos enfoques diferentes de bucle abierto poco complejos para seleccionar el modelo de codificación respectivo para cada trama. Ambos enfoques de bucle abierto evalúan las características de señal fuente y los parámetros de codificación para seleccionar un modelo de codificación respectivo.

En el primer enfoque de bucle abierto, una señal de audio se divide en primer lugar dentro de cada trama en varias bandas de frecuencia y se analiza la relación entre la energía en las bandas de frecuencia inferiores y la energía en las bandas de frecuencia superiores, así como las variaciones de nivel de energía en esas bandas. Después, el contenido de audio en cada trama de la señal de audio se clasifica como un contenido de música o como un contenido de voz en base a las dos mediciones realizadas o a las diferentes combinaciones de estas mediciones utilizando diferentes ventanas de análisis y valores umbral de decisión.

En el segundo enfoque de bucle abierto, que también se denomina como refinamiento de clasificación de modelo, la selección del modelo de codificación se basa en una evaluación de la periodicidad y en las propiedades estacionarias del contenido de audio en una trama respectiva de la señal de audio. La periodicidad y las propiedades estacionarias se evalúan más específicamente determinando parámetros de correlación, de predicción a largo plazo (LTP) y mediciones de la distancia espectral.

Si las propiedades de señal se analizan con un enfoque de bucle abierto para seleccionar ACELP o TCX, y se selecciona TCX para la codificación, todavía es necesario definir si se utilizará una la longitud de trama TCX de 20 ms, de 40 ms o de 80 ms. Sin embargo, es muy difícil seleccionar la longitud de trama óptima para TCX en base a las características de señal en un enfoque de bucle abierto.

Por lo tanto, es posible seleccionar solamente las longitudes de trama TCX en el enfoque de análisis por síntesis mencionado anteriormente. Sin embargo, en sistemas que requieren técnicas poco complejas, el enfoque de análisis por síntesis es demasiado complejo, incluso si solo se utiliza para la selección de las longitudes de trama TCX.

El documento US 2004/0088160 AI se refiere a la codificación de audio digital utilizando un modelo psicoacústico avanzado. Una unidad de conmutación de ventana determina el tipo de ventana que se utilizará en una unidad CMDCT y en una unidad FFT basándose en la característica de una señal de audio de entrada e introduce la información del tipo de ventana determinada en la unidad CMDCT y en la unidad FFT. El tipo de ventana se divide en una ventana corta y en una venta larga. La unidad CMDCT lleva a cabo CMDCT aplicando la venta larga o la ventana corta a los datos de salida del banco de filtros basándose en la información de tipo de ventana introducida desde la unidad de conmutación de ventana.

Resumen de la invención

Un objeto de la invención es permitir una selección eficaz y sencilla de una longitud de trama de codificación que vaya a utilizarse para codificar una sección de una señal de audio.

Se propone un procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de la señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación. El procedimiento propuesto comprende determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de la señal de audio. El procedimiento propuesto comprende además limitar las opciones de longitudes de trama de codificación posibles para la al menos una sección mediante el al menos un parámetro de control. El procedimiento propuesto comprende además seleccionar una longitud de trama de codificación para la sección a partir de las opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de la limitación.

Además, se propone un componente para soportar una codificación de una señal de audio en el que al menos una sección de la señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación. El componente comprende una parte de selección de parámetro adaptada para determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de la señal de audio. El componente comprende además una parte de selección de longitud de trama adaptada para limitar las opciones de longitudes de trama de codificación posibles para al menos una sección de la señal de audio mediante al menos un parámetro de control proporcionado por la parte de selección de parámetro. La parte de selección de longitud de trama está adaptada además para seleccionar una longitud de trama de codificación para la sección a partir de las opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de la limitación. Este componente puede ser, por ejemplo, un codificador o una parte de un codificador.

Además, se propone un dispositivo electrónico que comprende un componente de este tipo.

Además, se propone un sistema de codificación de audio que comprende un componente de este tipo y, además, un descodificador para descodificar señales de audio que se han codificado con longitudes de trama de codificación variables.

Finalmente, se propone un producto de programa de software en el que está almacenado un código de software para soportar una codificación de una señal de audio. Al menos una sección de la señal de audio va a codificarse con un modelo de codificación, lo que permite la utilización de diferentes longitudes de trama de codificación. Cuando se ejecuta en un componente de procesamiento de un codificador, el código de software realiza las etapas del procedimiento propuesto.

La invención parte de la consideración de que aunque la determinación final de una longitud de trama de codificación para una sección específica de una señal de audio no puede determinarse normalmente en base a características de señal, tales características de señal permiten una preselección de longitudes de trama de codificación adecuadas. Por lo tanto, se propone que se determine al menos un parámetro de control en base a las características de señal para una sección respectiva de una señal de audio y que este al menos un parámetro de control se utilice para limitar las opciones disponibles de longitud de trama de codificación.

Una ventaja de la invención es que reduce el número de opciones de longitud de trama de codificación con un enfoque que tiene una baja complejidad. Por otro lado, la reducción de las opciones de longitud de trama de codificación reduce la complejidad de la selección final de la longitud de trama de codificación que va a utilizarse.

En una realización de la invención, la selección final de la longitud de trama de codificación se realiza con un enfoque de análisis por síntesis. Es decir, en caso de que haya más de una opción de longitudes de trama de codificación posibles después de la limitación propuesta, cada una de las longitudes de trama de codificación por transformada restantes se utiliza para codificar la al menos una sección. Después, las señales codificadas resultantes se descodifican de nuevo con la longitud de trama de codificación por transformada usada respectivamente. En este momento puede seleccionarse la longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en la al menos una sección.

Debido a la limitación anterior, el número de ciclos de análisis por síntesis requeridos puede reducirse significativamente en comparación con el enfoque de bucle completamente cerrado mencionado anteriormente. Como resultado, también se reduce la complejidad global de un codificador en el que se implementa la invención.

La señal de audio mejor descodificada puede determinarse de varias formas. Por ejemplo, puede determinarse comparando una SNR resultante con cada una de las longitudes de trama de codificación restantes. La SNR puede determinarse fácilmente y proporciona una indicación fiable de la calidad de señal.

En caso de que puedan utilizarse varios modelos de codificación para codificar la señal de audio, por ejemplo un modelo TCX y un modelo de codificación ACELP, también debe determinarse qué modelo de codificación va a utilizarse para qué sección de la señal de audio. Esto puede conseguirse de una manera poco compleja en base a las características de señal de audio para una sección respectiva, tal y como se ha mencionado anteriormente. El número y/o la posición de las secciones para las que va a utilizarse el otro modelo de codificación en lugar del modelo que permite la utilización de diferentes longitudes de trama de codificación pueden utilizarse también como parámetros de control para limitar las opciones de longitud de trama de codificación.

Por ejemplo, la longitud de trama de codificación no puede superar el tamaño de la sección o secciones entre dos secciones para las que se seleccionó el otro modelo de codificación.

En una realización adicional de la invención, la longitud de trama de codificación solo se selecciona dentro de una supersección respectiva que comprende un número de secciones predeterminado. En este caso, las opciones de longitud de trama de codificación para una sección particular también pueden limitarse conociendo los límites de la supersección a la que pertenece la sección.

Una supersección de este tipo puede ser, por ejemplo, una supertrama que comprenda como secciones cuatro tramas de señal de audio, presentando cada trama de señal de audio una longitud de 20 ms. En caso de que el modelo de codificación sea un modelo TCX, puede permitir longitudes de trama de codificación de 20 ms, de 40 ms y de 80 ms. Si en este caso, por ejemplo, se ha seleccionado un modelo de codificación ACELP para la segunda trama de señal de audio de una supertrama, se sabe que la tercera trama de señal de audio puede codificarse a lo sumo con una longitud de codificación de 20 ms o, junto con la cuarta trama de señal de audio, de 40 ms.

\newpage

En otra realización ventajosa de la invención, un indicador que indica si va a utilizarse una longitud de trama de codificación más corta o más larga, proporciona un parámetro de control adicional. Una indicación de que va a utilizarse una longitud de trama de codificación más corta excluye entonces al menos la opción de longitud de trama de codificación más larga, mientras que una indicación de que va a utilizarse una longitud de trama de codificación más larga excluye al menos la opción de longitud de trama de codificación más corta.

\vskip1.000000\baselineskip

Breve descripción de las figuras

Otros objetos y características de la presente invención resultarán evidentes a partir de la siguiente descripción detallada considerada junto con los dibujos adjuntos.

La fig. 1 es un diagrama esquemático de un sistema de codificación de audio según una realización de la invención;

la fig. 2 es un diagrama de flujo que ilustra una realización del procedimiento según la invención implementado en el sistema de la fig. 1;

la fig. 3 es una primera tabla que ilustra una limitación de combinaciones de modo en base a parámetros de control según la invención; y

la fig. 4 es una segunda tabla que ilustra una limitación de combinaciones de modo en base a parámetros de control según la invención.

\vskip1.000000\baselineskip

Descripción detallada de la invención

La figura 1 es un diagrama esquemático de un sistema de codificación de audio según una realización de la invención que permite una selección de la longitud de trama de codificación de un modelo de codificación por transformada.

El sistema comprende un primer dispositivo 1 que incluye un codificador 10 AMR-WB+ y un segundo dispositivo 2 que incluye un descodificador 20 AMR-WB+. El primer dispositivo 1 puede ser, por ejemplo, un servidor MMS, mientras que el segundo dispositivo 2 puede ser, por ejemplo, un teléfono móvil.

El primer dispositivo 1 comprende una primera parte 12 de evaluación para una primera selección de un modelo de codificación en un enfoque de bucle abierto. El primer dispositivo 1 comprende además una segunda parte 13 de evaluación para refinar la primera selección en un enfoque de bucle abierto adicional y para determinar en paralelo un indicador de trama corta como un parámetro de control. La primera parte 12 de evaluación y la segunda parte 13 de evaluación forman conjuntamente una parte de selección de parámetro. El primer dispositivo 1 comprende además una parte 14 de selección de longitud de trama TCX para limitar las opciones de longitud de trama de codificación en caso de que se seleccione un modelo TCX y para seleccionar entre las opciones restantes la mejor opción en un enfoque de bucle cerrado. El primer dispositivo 1 comprende además una parte 15 de codificación. La parte 15 de codificación puede aplicar un modelo de codificación ACELP, un modelo TCX20 que utiliza una longitud de trama TCX de 20 ms, un modelo TCX40 que utiliza una longitud de trama TCX de 40 ms o un modelo TCX80 que utiliza una longitud de trama TCX de 80 ms para tramas de audio recibidas.

La primera parte 12 de evaluación está conectada a la segunda parte 13 de evaluación y a la parte 15 de codificación. La segunda parte 13 de evaluación está conectada además a la parte 14 de selección de longitud de trama TCX y a la parte 15 de codificación. La parte 14 de selección de longitud de trama TCX también está conectada a la parte 15 de codificación.

Debe entenderse que las partes 12 a 15 presentadas están diseñadas para codificar una señal de audio mono, la cual puede haberse generado a partir de una señal de audio estéreo. Puede generarse información estéreo adicional en partes de extensión estéreo adicionales no mostradas. Además, debe observarse que el codificador 10 comprende partes adicionales no mostradas. Además, debe entenderse que las partes 12 a 15 presentadas no tienen que ser partes independientes, sino que también pueden entrelazarse entre sí o con otras partes.

Las partes 12, 13, 14 y 15 pueden realizarse en particular mediante un software SW que se ejecuta en un componente 11 de procesamiento del codificador 10, indicado mediante líneas de puntos.

A continuación se describirá en mayor detalle el procesamiento del codificador 10 con referencia al diagrama de flujo de la figura 2.

El procesamiento se lleva a cabo para una supertrama respectiva. Cada supertrama tiene una longitud de 80 ms y comprende cuatro tramas de señal de audio consecutivas.

El codificador 10 recibe una señal de audio que se ha proporcionado al primer dispositivo 1. La señal de audio se convierte en una señal de audio mono y un filtro de predicción lineal (LP) calcula una codificación de predicción lineal (LPC) en cada trama para modelar la envolvente espectral.

La primera parte 12 de evaluación para cada trama de la supertrama en un primer análisis de bucle abierto procesa la excitación LPC resultante proporcionada por el filtro LP. Este análisis determina, basándose en características de señal fuente, si puede asumirse que el contenido de la trama respectiva es voz u otro contenido de audio, como música. El análisis puede basarse, por ejemplo, en una evaluación de la energía en diferentes bandas de frecuencia, tal y como se ha mencionado anteriormente. Para cada trama que supuestamente comprende voz se selecciona un modelo de codificación ACELP, mientras que para cada trama que supuestamente comprende otro contenido de audio se selecciona un modelo TCX. En este momento no se produce una separación entre modelos TCX que utilicen diferentes longitudes de trama de codificación. Para aquellas tramas para las que las características analizadas no indiquen claramente un contenido de voz u otro contenido de audio, se selecciona un modo indeterminado.

La primera parte 12 de evaluación informa a la parte 15 de codificación acerca de todas las tramas para las que se ha seleccionado hasta ahora el modelo ACELP.

La segunda parte 13 de evaluación realiza después un segundo análisis de bucle abierto trama por trama para una separación adicional en tramas ACELP y TCX basándose en características de señal. En paralelo, la segunda parte 13 de evaluación determina una bandera NoMtcx de indicación de trama corta como un parámetro de control. Si la bandera NoMtcx está fijada, se inhabilita la utilización de TCX80.

El procesamiento en la segunda parte 13 de evaluación se lleva a cabo para una trama respectiva si una bandera VAD de indicación de actividad de voz está fijada para la trama y si la primera parte 12 de evaluación no ha seleccionado el modelo de codificación ACELP para esta trama.

Si la salida del primer análisis de bucle abierto del primer componente 12 de evaluación ha sido el modo indeterminado, en primer lugar se calcula una distancia espectral y se reúne una variedad de características de señales disponibles.

La distancia espectral SD_{n} de la trama actual n se calcula a partir de parámetros de par espectral de inmitancia (ISP) según la siguiente ecuación:

\vskip1.000000\baselineskip

1

\vskip1.000000\baselineskip

en el que ISP_{n} es el vector de coeficientes ISP de trama n y donde ISP_{n}(i) es el i-ésimo elemento de este vector. En cualquier caso, los parámetros ISP están disponibles ya que los coeficientes LP se transforman en el dominio ISP para fines de cuantificación y de interpolación.

El parámetro Lag_{n} contiene dos valores de retraso de bucle abierto de la trama actual n. El retraso es el retardo de filtro a largo plazo. Normalmente es el periodo de tono verdadero, o su múltiplo o submúltiplo. Un análisis de tono de bucle abierto se realiza dos veces por trama, es decir, cada 10 ms, para obtener dos estimaciones del retraso de tono en cada trama. Esto se realiza con el fin de simplificar el análisis de tono y para delimitar la búsqueda de tono de bucle cerrado a un pequeño número de retrasos en torno a los retrasos estimados de bucle abierto.

Además, LagDif_{buf} es una memoria intermedia que contiene los valores de retraso de bucle abierto de las diez tramas anteriores de 20 ms.

El parámetro Gain_{n} contiene dos valores de ganancia LTP de la trama actual n.

El parámetro NormCorr_{n} contiene dos valores de correlación normalizados de la trama actual n.

El parámetro MaxEnergy_{buf} es el valor máximo de una memoria intermedia que contiene valores de energía. La memoria intermedia de energía contiene los valores de energía de la trama actual n y de las cinco tramas anteriores, presentando cada una una longitud de 20 ms.

\newpage

A continuación se seleccionan los modos de codificación y el parámetro de control NoMtcx se fija según el siguiente algoritmo de bucle abierto:

\vskip1.000000\baselineskip

2

\vskip1.000000\baselineskip

Por lo tanto, varias características de señal y sus combinaciones se comparan con varios valores umbral predeterminados para determinar si una trama de modo indeterminado contiene contenido de voz u otro contenido de audio y para asignar el modelo de codificación apropiado. De manera similar, la bandera NoMtcx de indicación de trama corta se fija dependiendo de algunas de estas características de señal y sus combinaciones.

En cambio, si la salida del primer análisis de bucle abierto del primer componente 12 de evaluación ha sido el modo TCX, se determina si la bandera VAD se ha fijado a cero para al menos una trama de la supertrama anterior. Si este es el caso, la bandera NoMtcx de indicación de trama corta se fija igualmente a "1".

Si el modo de codificación para la trama actual se ha fijado por el momento al modo TCX o todavía está fijado en el modo indeterminado, se verifica además la decisión de modo. Para ello, en primer lugar se crea un vector mag de envolvente espectral por transformada discreta de Fourier (DFT) a partir de los coeficientes de filtro LP de la trama actual. La verificación del modelo de codificación se realiza entonces según el siguiente algoritmo:

4

5

La suma final DFTSum es la suma de los primeros 40 elementos del vector mag, excluyendo el primer elemento mag(0) del vector mag.

La segunda parte 13 de evaluación informa a la parte 15 de codificación acerca de todas las tramas para las que el modelo ACELP se ha seleccionado adicionalmente.

En la parte 14 de selección de longitud de trama TCX, en primer lugar se evalúan los parámetros de control para limitar el número de opciones de longitud de trama TCX.

Un parámetro de control es el número de modos ACELP seleccionados en la supertrama. En caso de que se haya seleccionado el modelo de codificación ACELP para cuatro tramas de la supertrama, no queda ninguna trama para la que tenga que determinarse una longitud de trama TCX. En caso de que se haya seleccionado el modelo de codificación ACELP para tres tramas de la supertrama, la longitud de trama TCX se fija a 20 ms.

Limitaciones adicionales se llevan a cabo en base a la tabla de la figura 3 o de la figura 4. Las figuras 3 y 4 ilustran una tabla respectiva de cinco columnas que asocian longitudes de trama TCX seleccionables a varias combinaciones de modos de codificación seleccionados.

Ambas tablas muestran en una primera columna siete combinaciones posibles de modos de codificación seleccionados para las cuatro tramas de una supertrama. En cada una de las combinaciones se han seleccionado a lo sumo dos modos ACELP. Las combinaciones son (0,1,1,1), (1,0,1,1), (1,1,0,1), (1,1,1,0), (1,1,0,0), (0,0,1,1) y (1,1,1,1), la última apareciendo dos veces. En esta representación de las combinaciones seleccionadas, un "0" representa un modo ACELP y un "1" un modo TCX.

La cuarta columna respectiva presenta el parámetro de control Aind, que indica para cada combinación de la primera columna el número de modos ACELP seleccionados. Puede observarse que solo hay combinaciones de modo asociadas a valores Aind de "0", "1" y "2", ya que en caso de valores de "3" ó "4", la parte 14 de selección de longitud de trama TCX puede seleccionar inmediatamente la longitud de trama TCX sin un procesamiento adicional.

La quinta columna respectiva presenta la bandera NoMtcx de indicación de trama corta. Este parámetro solo se evalúa por la parte 14 de selección de longitud de trama TCX en caso de que el parámetro de control Aind tenga un valor de "0", es decir, en caso de que el modo ACELP no se haya seleccionado para ninguna trama de la supertrama.

La segunda y la tercera columna respectiva muestran para cada combinación las longitudes de trama TCX que pueden seleccionarse para las tramas de modo TCX en vista de las limitaciones de los parámetros de control. Para cada combinación de la primera columna deben comprobarse como mucho dos longitudes de trama TCX. En estas combinaciones de longitudes de trama TCX, un "0" representa una trama de codificación ACELP de 20 ms, un "1" una trama TCX de 20 ms, una secuencia de dos "2" una trama TCX de 40 ms y una secuencia de cuatro "3" una trama TCX de 80 ms.

Para la primera combinación de modos (0,1,1,1), por ejemplo, se permite la combinación de longitudes de trama de codificación (0,1,1,1) y (0,1,2,2). Es decir, o bien la segunda, la tercera y la cuarta trama se codifican con una trama TCX de 20 ms, o bien solamente la segunda trama se codifica con una trama TCX de 20 ms, mientras que la tercera y la cuarta trama se codifican con una trama TCX de 40 ms.

De manera similar, para la segunda combinación de modos (1,0,1,1), se permite la combinación de longitudes de trama de codificación (1,0,1,1) y (1,0,2,2). Para la tercera combinación de modos (1,1,0,1) se permite la combinación de longitudes de trama de codificación (1,1,0,1) y (2,2,0,1). Para la cuarta combinación de modos (1,1,1,0) se permite la combinación de longitudes de trama de codificación (1,1,1,0) y (2,2,1,0). Para la quinta combinación de modos (1,1,0,0) se permite la combinación de longitudes de trama de codificación (1,1,0,0) y (2,2,0,0). Para la sexta combinación de modos (0,0,1,1) se permite la combinación de longitudes de trama de codificación (0,0,1,1) y (0,0,2,2).

Para la séptima combinación de modos (1,1,1,1), la bandera NoMtcx de indicación de trama corta indica si probar longitudes de trama TCX más largas o más cortas. La bandera NoMtcx está fijada para la supertrama en caso de que la segunda parte 13 de evaluación para al menos una de las tramas de la supertrama la haya fijado. Si la bandera NoMtcx está fijada para la supertrama solo se permiten longitudes de trama cortas.

En la tabla de la figura 3 esto significa que la parte 14 de selección de longitud de trama TCX selecciona inmediatamente una longitud de trama TCX de 20 ms para toda la supertrama. Es decir, la única combinación permitida de longitudes de trama TCX es (1,1,1,1). En la tabla de la figura 4, una bandera NoMtcx fijada significa que se permite la combinación de longitudes de trama TCX (1,1,1,1) y además la combinación de longitudes de trama TCX (2,2,2,2), esta última representando dos tramas TCX de 40 ms.

Si la bandera NoMtcx de indicación de trama corta no está fijada, solamente se permiten longitudes de trama TCX largas. En las tablas de la figura 3 y de la figura 4, esto significa que se permite la combinación de longitudes de trama TCX (2,2,2,2) y (3,3,3,3), esta última representando una única trama TCX de 80 ms.

La música nítida requiere generalmente tramas TCX más largas para una codificación óptima y, obviamente, la voz se codifica mejor mediante ACELP. Especialmente al principio de la música y/o de la voz, cuando la energía es baja o un indicador VAD de activad de voz estaba fijado a cero en tramas anteriores, las tramas TCX más largas utilizadas para codificar la voz degradan la calidad de la voz. Por otro lado, tramas TCX cortas de 20 ms son relativamente buenas para la música y determinados segmentos de voz. Con algunas características de señal es difícil determinar si un contenido de trama es música o voz. Por lo tanto, una trama TCX corta es una buena alternativa al modelo de codificación óptima en un caso de este tipo ya que es adecuada para ambos tipos de contenido. Por lo tanto, un indicador de trama corta es muy adecuado como un parámetro de control.

Combinaciones adicionales de longitudes de trama de codificación para las combinaciones de modos presentadas no son permitidas por la estructura de codificador, en la que no está permitido un modelo TCX40 para las tramas de señal de audio medianas.

De manera similar, combinaciones adicionales de modos con Aind < 3 no representadas en las figuras 3 y 4 solo permiten una única combinación de longitudes de trama de codificación, ya sea por sí solas o debido a la estructura de codificador. Es decir, una combinación de modos (1,0,0,1) solo permite una combinación de longitudes de trama de codificación de (1,0,0,1) y una combinación de modos (0,1,1,0) solo permite una combinación de longitudes de trama de codificación de (0,1,1,0).

Puesto que los parámetros de control Aind y NoMtcx limitan las combinaciones de modo con respecto a las longitudes de trama TCX, debe comprobarse una longitud de dos tramas a lo sumo para cada supertrama.

En caso de que haya dos combinaciones de longitud de trama TCX posibles, se utiliza un tipo de algoritmo SNR en la parte 14 de selección de longitud de trama TCX para obtener el modelo o los modelos TCX óptimo(s) para la supertrama.

Para evaluar las longitudes de trama TCX seleccionables, las tramas de la supertrama para las que se ha seleccionado el modo TCX se codifican utilizando una codificación por transformada con ambas combinaciones de longitud de trama TCX permitidas. La TCX se basa, a modo de ejemplo, en una transformada rápida de Fourier (FFT). Las señales codificadas se descodifican de nuevo y los resultados para ambas longitudes de trama TCX se comparan después en base a una SNR segmentaria.

La SNR segmentaria es la SNR de una subtrama de una trama TCX. La subtrama tiene una longitud de N que corresponde a una subtrama de 5 ms de la señal de audio original.

La SNR segmentaria de la subtrama i, segSNR_{i,} se determina para cada subtrama de una trama TCX según la siguiente ecuación:

6

En esta ecuación, x_{w}(n) es la amplitud de la señal de audio original digitalizada en la posición n de la subtrama, mientras que \hat{x}_{w}(n) es la amplitud de la señal de audio codificada y descodificada en la posición n de la subtrama.

Por lo tanto, la SNR segmentaria media de todas las subtramas de una trama TCX se determina según la siguiente ecuación:

7

donde N_{SF} es el número de subtramas de la trama TCX. Puesto que una trama TCX puede tener una longitud de 20 ms, de 40 ms o de 80 ms, N_{SF} puede ser 4, 8 o 16.

Después, la parte 14 de selección de longitud de trama TCX determina cuál de las longitudes de trama TCX permitidas para un determinado número de tramas de señal de audio da como resultado una mejor SRN media. Por ejemplo, en caso de que dos tramas de señal de audio puedan codificarse cada una con un modelo TCX20 o conjuntamente con un modelo TCX40, la SNR media de la trama TCX40 se compara con la suma de las SNR medias de ambas tramas TCX20. Se selecciona la longitud de trama TCX que dé como resultado una SNR media superior y se notifica a la parte 15 de codificación.

La parte 15 de codificación codifica todas las tramas de la señal de audio con el modelo de codificación seleccionado respectivamente indicado por la primera parte 12 de evaluación, la segunda parte 13 de evaluación o la parte 14 de selección de longitud de trama TCX. La TCX se basa, a modo de ejemplo, en una FFT utilizando la longitud de trama de codificación seleccionada, y la codificación ACELP utiliza, a modo de ejemplo, una LTP y parámetros de libro de códigos fijo para una excitación LPC.

Después, la parte 15 de codificación proporciona las tramas codificadas para una transmisión al segundo dispositivo 2. En el segundo dispositivo 2, el descodificador 20 descodifica todas las tramas recibidas con el modelo de codificación ACELP o con uno de los modelos TCX. Las tramas descodificadas se proporcionan, por ejemplo, para su presentación a un usuario del segundo dispositivo 2.

La sección de longitud de trama TCX presentada se basa por tanto en un enfoque de bucle semicerrado, en el que el tipo básico del modelo de codificación y los parámetros de control se seleccionan en un procedimiento de bucle abierto, mientras que la longitud de trama TCX se selecciona entonces a partir de un número limitado de opciones con un enfoque de bucle cerrado. Mientras que en un análisis de bucle totalmente cerrado el análisis por síntesis siempre se realiza cuatro veces por supertrama, en el enfoque presentado de bucle semicerrado un análisis por síntesis debe realizarse como mucho dos veces por supertrama.

Debe observarse que la realización descrita constituye solamente una realización de una variedad de posibles realizaciones de la invención. El alcance de la invención está definido por las reivindicaciones adjuntas.

Claims

1. Procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho procedimiento:

-: determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio;

-: limitar dichas opciones de longitudes de trama de codificación posibles para dicha al menos una sección mediante dicho al menos un parámetro de control; y

-: en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas.

2. Procedimiento según la reivindicación 1, que comprende además determinar el dicho al menos un parámetro de control en base a al menos uno de los siguientes parámetros:

-: un indicador de una distancia espectral entre la trama actual y una trama anterior;

-: el número de tramas de una supertrama seleccionada que va a codificarse con otro modelo de codificación, comprendiendo cada supertrama un número de tramas predeterminado.

3. Procedimiento según la reivindicación 1 ó 2, que comprende además:

-: en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación restantes;

-: descodificar dichas secciones codificadas con la longitud de trama de codificación utilizada respectivamente; y

-: seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor codificada en dicha al menos una sección.

4. Procedimiento según la reivindicación 3, en el que una longitud de trama de codificación que dé como resultado la sección mejor descodificada se determina comparando una relación de señal a ruido resultante para cada una de dichas longitudes de trama de codificación.

5. Procedimiento según la reivindicación 4, en el que para dicha relación de señal a ruido de una señal de audio obtenida con una longitud de trama de codificación particular, en primer lugar se determina por separado una relación de señal a ruido segmentaria para una pluralidad de subtramas en una trama de codificación respectiva, y en el que posteriormente se calcula la media de dichas relaciones de señal a ruido segmentarias de dichas subtramas de una trama de codificación para toda la trama de codificación para obtener dicha relación de señal a ruido para dicha al menos una sección.

6. Procedimiento según al menos una de las reivindicaciones anteriores, que comprende además una etapa para determinar para cada sección de dicha señal de audio, en base a características de señal de audio para una sección respectiva, si va a utilizarse dicho modelo de codificación u otro modelo de codificación, en el que dicho al menos un parámetro de control comprende una indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación.

7. Procedimiento según la reivindicación 6, en el que dicho modelo de codificación es un modelo de codificación por transformada y en el que dicho otro modelo de codificación es un modelo de codificación de predicción lineal excitada por código algebraico.

8. Procedimiento según la reivindicación 6 ó 7, en el que cada sección de dicha señal de audio tiene una longitud predeterminada y en el que dicha indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación se proporciona para una supersección respectiva que comprende un número predeterminado de dichas secciones.

9. Procedimiento según al menos una de las reivindicaciones anteriores, en el que cada sección de dicha señal de audio tiene una longitud predeterminada, en el que un número predeterminado de secciones consecutivas, respectivamente, forman una supersección respectiva, y en el que dichas opciones de longitud de trama de codificación para una sección particular están limitadas por los límites de la supersección a la que pertenece dicha sección.

10. Procedimiento según la reivindicación 7, en el que cada sección de dicha señal de audio tiene una longitud de 20 ms, en el que cuatro secciones consecutivas, respectivamente, forman una supersección, en el que dicho modelo de codificación por transformada permite la utilización de longitudes de trama de codificación de 20 ms, 40 ms y 80 ms, y en el que dichas opciones de longitud de trama de codificación para una sección está limitadas por los límites de la supersección a la que pertenece dicha sección.

11. Procedimiento según al menos una de las reivindicaciones anteriores, en el que dicho al menos un parámetro de control comprende un indicador que indica si va a utilizarse una longitud de trama de codificación más corta o más larga, donde una indicación de que va a utilizarse una longitud de trama de codificación más corta excluye al menos la opción de longitud de trama de codificación más larga y una indicación de que va a utilizarse una longitud de trama de codificación más larga excluye al menos la opción de longitud de trama de codificación más corta.

12. Componente (10, 11) para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho componente:

-: una parte (12, 13) de selección de parámetro adaptada para determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio; y

-: una parte (14) de selección de longitud de trama adaptada para limitar opciones de longitudes de trama de codificación posibles para al menos una sección mediante al menos un parámetro de control proporcionado por dicha parte (12, 13) de selección de parámetro y adaptada para seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación.

13. Componente (10, 11) según la reivindicación 12, en el que dicha parte (12, 13) de selección de parámetro está adaptada para determinar dicho al menos un parámetro de control en base a al menos uno de los siguientes parámetros:

-: un indicador de trama corta, que se determina al menos en base a la distancia espectral; y

-: el número de tramas de predicción lineal excitada por código algebraico de una supertrama, comprendiendo cada supertrama un número de tramas predeterminado.

14. Componente (10, 11) según la reivindicación 12 ó 13, en el que dicha parte (14) de selección de longitud de trama está adaptada además para codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación restantes, en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, para descodificar de nuevo dichas secciones codificadas con la trama de codificación utilizada respectivamente y para seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en dicha al menos una sección.

15. Componente (10, 11) según la reivindicación 14, en el que dicha parte (14) de selección de longitud de trama está adaptada para determinar una longitud de trama de codificación que dé como resultado la sección mejor descodificada comparando una relación de señal a ruido resultante para cada una de dichas longitudes de trama de codificación.

16. Componente (10, 11) según la reivindicación 15, en el que para determinar dicha relación de señal a ruido de una señal de audio obtenida con una longitud de trama de codificación particular, dicha parte (14) de selección de longitud de trama está adaptada para determinar en primer lugar una relación de señal a ruido segmentaria por separado para una pluralidad de subtramas en una trama de codificación respectiva, y para obtener la media de dichas relaciones de señal a ruido segmentarias de dichas subtramas de una trama de codificación para toda la trama de codificación para obtener dicha relación de señal a ruido para dicha al menos una sección.

17. Componente (10, 11) según al menos una de las reivindicaciones 12 a 16, en el que dicha parte (12, 13) de selección de parámetro está adaptada además para determinar al menos para algunas secciones de una señal de audio, en base a características de señal de audio para una sección respectiva de dicha señal de audio, si va a utilizarse dicho modelo de codificación u otro modelo de codificación y para proporcionar como uno de dicho al menos un parámetro de control una indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación.

18. Componente (10, 11) según la reivindicación 17, en el que dicho modelo de codificación es un modelo de codificación por transformada y en el que dicho otro modelo de codificación es un modelo de codificación de predicción lineal excitada por código algebraico.

19. Componente (10, 11) según la reivindicación 17 o 18, en el que cada sección de dicha señal de audio tiene una longitud predeterminada y en el que dicha parte (12, 13) de selección de parámetro está adaptada para proporcionar una indicación de las secciones para las que se ha seleccionado dicho otro modelo de codificación para una supersección respectiva que comprende un número predeterminado de dichas secciones.

\newpage

20. Componente (10, 11) según una de las reivindicaciones 12 a 19, en el que cada sección de dicha señal de audio tiene una longitud predeterminada, en el que un número predeterminado de secciones consecutivas, respectivamente, forman una supersección respectiva, y en el que dicha parte (14) de selección de longitud de trama está adaptada para limitar las opciones de longitud de trama de codificación para una sesión particular basándose en los límites de la supersección a la que pertenece dicha sección.

21. Componente (10, 11) según la reivindicación 20, en el que cada sección de dicha señal de audio tiene una longitud de 20 ms, en el que cuatro secciones consecutivas, respectivamente, forman una supersección, en el que dicho modelo de codificación por transformada permite la utilización de longitudes de trama de codificación de 20 ms, 40 ms y 80 ms, y en el que dicha parte (14) de selección de longitud de trama está adaptada para limitar las opciones de longitud de trama de codificación para una sección basándose en los límites de la supersección a la que pertenece dicha sección.

22. Componente (10, 11) según una de las reivindicaciones 12 a 21, en el que dicha parte (12, 13) de selección de parámetro está adaptada para proporcionar como uno de dicho al menos un parámetro de control un indicador que indica si va a utilizarse una longitud de trama de codificación más corta o más larga, donde una indicación de que va a utilizarse una longitud de trama de codificación más corta excluye al menos la opción de longitud de trama de codificación más larga y una indicación de que va a utilizarse una longitud de trama de codificación más larga excluye al menos la opción de longitud de trama de codificación más corta.

23. Dispositivo (1) electrónico que comprende un componente (10, 11) según una de las reivindicaciones 12 a 21.

24. Dispositivo (1) electrónico según la reivindicación 23, que comprende además medios para transmitir tramas codificadas.

25. Sistema (1, 2) de codificación de audio que comprende un componente (10, 11) según al menos una de las reivindicaciones 12 a 18 y un descodificador (20) para descodificar señales de audio que se han codificado con longitudes de trama de codificación variables.

26. Sistema (1, 2) de codificación de audio según la reivindicación 25, que comprende además determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio.

27. Sistema (1, 2) de codificación de audio según la reivindicación 25, que comprende además limitar dichas opciones de longitudes de trama de codificación posibles mediante dicho al menos un parámetro de control.

28. Sistema (1, 2) de codificación de audio según al menos una de las reivindicaciones 26 y 27, que comprende además

-: en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación por transformada restantes;

-: descodificar dichas secciones codificadas con la longitud de trama de codificación por transformada utilizada respectivamente; y

-: seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en dicha al menos una sección.

29. Un código de software para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, realizando dicho código de software el procedimiento según una de las reivindicaciones 1 a 11 cuando se ejecuta en un componente (11) de procesamiento de un codificador (10).

30. Un producto de programa de software en el que está almacenado un código de software según la reivindicación 29.