ES2338117T3 - Codificacion de audio con diferentes longitudes de trama de codificacion. - Google Patents
Codificacion de audio con diferentes longitudes de trama de codificacion. Download PDFInfo
- Publication number
- ES2338117T3 ES2338117T3 ES04733394T ES04733394T ES2338117T3 ES 2338117 T3 ES2338117 T3 ES 2338117T3 ES 04733394 T ES04733394 T ES 04733394T ES 04733394 T ES04733394 T ES 04733394T ES 2338117 T3 ES2338117 T3 ES 2338117T3
- Authority
- ES
- Spain
- Prior art keywords
- coding
- frame
- section
- encoding
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 82
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000013459 approach Methods 0.000 description 21
- 238000011156 evaluation Methods 0.000 description 21
- 238000004458 analytical method Methods 0.000 description 19
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- DMYHGDXADUDKCQ-UHFFFAOYSA-N fenazaquin Chemical compound C1=CC(C(C)(C)C)=CC=C1CCOC1=NC=NC2=CC=CC=C12 DMYHGDXADUDKCQ-UHFFFAOYSA-N 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procedimiento para soportar una codificación de una señal de audio, en el que al menos una sección de dicha señal de audio va a codificarse con un modelo de codificación que permite la utilización de diferentes longitudes de trama de codificación, comprendiendo dicho procedimiento: - determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio; - limitar dichas opciones de longitudes de trama de codificación posibles para dicha al menos una sección mediante dicho al menos un parámetro de control; y - en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas.
Description
Codificación de audio con diferentes longitudes
de trama de codificación.
La invención se refiere a un procedimiento para
soportar una codificación de una señal de audio, en el que al menos
una sección de dicha señal de audio va a codificarse con un modelo
de codificación que permite la utilización de diferentes longitudes
de trama de codificación. La invención también se refiere a un
módulo correspondiente, a un dispositivo electrónico
correspondiente, a un sistema correspondiente y a un producto de
programa de software correspondiente.
Se conoce la codificación de señales de audio
para permitir una transmisión y/o un almacenamiento eficaz de
señales de audio.
Una señal de audio puede ser una señal de voz u
otro tipo de señal de audio, tal como música, y para diferentes
tipos de señales de audio pueden ser apropiados diferentes modelos
de codificación.
Una técnica utilizada ampliamente para la
codificación de señales de voz es la codificación de predicción
lineal excitada por código algebraico (ACELP). La ACELP modela el
sistema de producción de voz humana y es muy adecuada para
codificar la periodicidad de una señal de voz. Como resultado, puede
conseguirse una gran calidad de voz con velocidades binarias muy
bajas. La banda ancha adaptable a múltiples velocidades
(AMR-WB), por ejemplo, es un códec de voz basado en
la tecnología ACELP. La AMR-WB está descrita, por
ejemplo, en la especificación técnica 3GPP TS 26.190: "Speech
Codec speech processing functions; AMR Wideband speech codec;
Transcoding functions", V5.1.0 (2001-12). Sin
embargo, los códecs de voz basados en el sistema de producción de
voz humana no funcionan normalmente de manera óptima para otros
tipos de señales de audio, tales como música.
Una técnica utilizada ampliamente para la
codificación de señales de audio distintas a la voz es la
codificación por transformada (TCX). La superioridad de la
codificación por transformada para señales de audio se basa en un
enmascaramiento perceptivo y en una codificación en el dominio de
frecuencia. La calidad de la señal de audio resultante puede
mejorarse adicionalmente seleccionando una longitud de trama de
codificación adecuada para la codificación por transformada. Pero
aunque las técnicas de codificación por transformada dan como
resultado una alta calidad para señales de audio distintas a la voz,
su rendimiento no es bueno para señales de voz periódicas. Por lo
tanto, la calidad de la voz codificada por transformada es
normalmente bastante baja, especialmente con longitudes de trama
TCX largas.
El códec AMR-WB extendido
(AMR-WB+) codifica una señal de audio estéreo como
una señal mono de una alta velocidad binaria y proporciona una
cierta cantidad de información conexa para una extensión estéreo. El
códec AMR-WB+ utiliza tanto codificación ACELP como
modelos TCX para codificar la señal mono principal en una banda de
frecuencia de 0 Hz a 6400 Hz. Para el modelo TCX se utiliza una
longitud de trama de codificación de 20 ms, de 40 ms o de 80
ms.
Puesto que un modelo ACELP puede degradar la
calidad de audio y la codificación por transformada no tiene
normalmente un funcionamiento óptimo para la voz, especialmente
cuando se utilizan largas tramas de codificación, debe
seleccionarse el mejor modelo de codificación respectivo. La
selección del modelo de codificación que vaya a utilizarse
finalmente puede llevarse a cabo de varias maneras.
En sistemas que requieren técnicas poco
complejas, tales como los servicios multimedia móviles (MMS),
normalmente se utilizan algoritmos de clasificación de música/voz
para seleccionar el modelo de codificación óptimo. Estos algoritmos
clasifican toda la señal fuente como música o como voz basándose en
un análisis de la energía y de la frecuencia de la señal de
audio.
Si una señal de audio consiste solamente en voz
o solamente en música, será satisfactorio utilizar el mismo modelo
de codificación para toda la señal en base a tal clasificación de
música/voz. Sin embargo, en muchos otros casos, la señal de audio
que va a codificarse es un tipo mixto de señal de audio. Por
ejemplo, la voz puede estar presente al mismo tiempo que la música
y/o alternarse con música en la señal de audio.
En estos casos, una clasificación de todas las
señales fuente en la categoría de música o en la categoría de voz
es un enfoque muy limitado. La conmutación entre los modelos de
codificación durante la codificación de la señal de audio solo
puede maximizar entonces la calidad de audio global. Es decir, el
modelo ACELP también se utiliza en parte para codificar una señal
fuente clasificada como una señal de audio en lugar de voz, mientras
que el modelo TCX también se utiliza en parte para una señal fuente
clasificada como una señal de voz.
El códec AMR-WB extendido
(AMR-WB+) también está diseñado para codificar tales
tipos mixtos de señales de audio con modelos de codificación mixtos
trama a trama.
La selección de los modelos de codificación en
AMR-WB+ puede llevarse a cabo de varias maneras.
En el enfoque más complejo, la señal se codifica
en primer lugar con todas las posibles combinaciones de modelos
ACELP y TCX. A continuación, la señal se sintetiza de nuevo para
cada combinación. Después se selecciona la mejor excitación en base
a la calidad de las señales de voz sintetizadas. La calidad de la
voz sintetizada generada mediante una combinación específica puede
medirse, por ejemplo, determinando su relación de señal a ruido
(SNR). Este tipo de enfoque de análisis por síntesis proporciona
buenos resultados. Sin embargo, en algunas aplicaciones no es
factible debido a su gran complejidad. La complejidad se debe en
gran parte a la codificación ACELP, que es la parte más compleja de
un codificador.
En sistemas como MMS, por ejemplo, el enfoque de
análisis por síntesis en bucle cerrado es demasiado complejo de
realizar. Por lo tanto, en un codificador MMS se utiliza un
procedimiento en bucle abierto poco complejo para determinar si se
selecciona un modelo de codificación ACELP o un modelo TCX para
codificar una trama particular.
La AMR-WB+ ofrece dos enfoques
diferentes de bucle abierto poco complejos para seleccionar el
modelo de codificación respectivo para cada trama. Ambos enfoques
de bucle abierto evalúan las características de señal fuente y los
parámetros de codificación para seleccionar un modelo de
codificación respectivo.
En el primer enfoque de bucle abierto, una señal
de audio se divide en primer lugar dentro de cada trama en varias
bandas de frecuencia y se analiza la relación entre la energía en
las bandas de frecuencia inferiores y la energía en las bandas de
frecuencia superiores, así como las variaciones de nivel de energía
en esas bandas. Después, el contenido de audio en cada trama de la
señal de audio se clasifica como un contenido de música o como un
contenido de voz en base a las dos mediciones realizadas o a las
diferentes combinaciones de estas mediciones utilizando diferentes
ventanas de análisis y valores umbral de decisión.
En el segundo enfoque de bucle abierto, que
también se denomina como refinamiento de clasificación de modelo,
la selección del modelo de codificación se basa en una evaluación de
la periodicidad y en las propiedades estacionarias del contenido de
audio en una trama respectiva de la señal de audio. La periodicidad
y las propiedades estacionarias se evalúan más específicamente
determinando parámetros de correlación, de predicción a largo plazo
(LTP) y mediciones de la distancia espectral.
Si las propiedades de señal se analizan con un
enfoque de bucle abierto para seleccionar ACELP o TCX, y se
selecciona TCX para la codificación, todavía es necesario definir si
se utilizará una la longitud de trama TCX de 20 ms, de 40 ms o de
80 ms. Sin embargo, es muy difícil seleccionar la longitud de trama
óptima para TCX en base a las características de señal en un
enfoque de bucle abierto.
Por lo tanto, es posible seleccionar solamente
las longitudes de trama TCX en el enfoque de análisis por síntesis
mencionado anteriormente. Sin embargo, en sistemas que requieren
técnicas poco complejas, el enfoque de análisis por síntesis es
demasiado complejo, incluso si solo se utiliza para la selección de
las longitudes de trama TCX.
El documento US 2004/0088160 AI se refiere a la
codificación de audio digital utilizando un modelo psicoacústico
avanzado. Una unidad de conmutación de ventana determina el tipo de
ventana que se utilizará en una unidad CMDCT y en una unidad FFT
basándose en la característica de una señal de audio de entrada e
introduce la información del tipo de ventana determinada en la
unidad CMDCT y en la unidad FFT. El tipo de ventana se divide en una
ventana corta y en una venta larga. La unidad CMDCT lleva a cabo
CMDCT aplicando la venta larga o la ventana corta a los datos de
salida del banco de filtros basándose en la información de tipo de
ventana introducida desde la unidad de conmutación de ventana.
Un objeto de la invención es permitir una
selección eficaz y sencilla de una longitud de trama de codificación
que vaya a utilizarse para codificar una sección de una señal de
audio.
Se propone un procedimiento para soportar una
codificación de una señal de audio, en el que al menos una sección
de la señal de audio va a codificarse con un modelo de codificación
que permite la utilización de diferentes longitudes de trama de
codificación. El procedimiento propuesto comprende determinar al
menos un parámetro de control en base a, al menos parcialmente,
características de señal de la señal de audio. El procedimiento
propuesto comprende además limitar las opciones de longitudes de
trama de codificación posibles para la al menos una sección
mediante el al menos un parámetro de control. El procedimiento
propuesto comprende además seleccionar una longitud de trama de
codificación para la sección a partir de las opciones limitadas en
caso de que haya más de una opción de longitudes de trama de
codificación posibles después de la limitación.
Además, se propone un componente para soportar
una codificación de una señal de audio en el que al menos una
sección de la señal de audio va a codificarse con un modelo de
codificación que permite la utilización de diferentes longitudes de
trama de codificación. El componente comprende una parte de
selección de parámetro adaptada para determinar al menos un
parámetro de control en base a, al menos parcialmente,
características de señal de la señal de audio. El componente
comprende además una parte de selección de longitud de trama
adaptada para limitar las opciones de longitudes de trama de
codificación posibles para al menos una sección de la señal de
audio mediante al menos un parámetro de control proporcionado por la
parte de selección de parámetro. La parte de selección de longitud
de trama está adaptada además para seleccionar una longitud de
trama de codificación para la sección a partir de las opciones
limitadas en caso de que haya más de una opción de longitudes de
trama de codificación posibles después de la limitación. Este
componente puede ser, por ejemplo, un codificador o una parte de un
codificador.
Además, se propone un dispositivo electrónico
que comprende un componente de este tipo.
Además, se propone un sistema de codificación de
audio que comprende un componente de este tipo y, además, un
descodificador para descodificar señales de audio que se han
codificado con longitudes de trama de codificación variables.
Finalmente, se propone un producto de programa
de software en el que está almacenado un código de software para
soportar una codificación de una señal de audio. Al menos una
sección de la señal de audio va a codificarse con un modelo de
codificación, lo que permite la utilización de diferentes longitudes
de trama de codificación. Cuando se ejecuta en un componente de
procesamiento de un codificador, el código de software realiza las
etapas del procedimiento propuesto.
La invención parte de la consideración de que
aunque la determinación final de una longitud de trama de
codificación para una sección específica de una señal de audio no
puede determinarse normalmente en base a características de señal,
tales características de señal permiten una preselección de
longitudes de trama de codificación adecuadas. Por lo tanto, se
propone que se determine al menos un parámetro de control en base a
las características de señal para una sección respectiva de una
señal de audio y que este al menos un parámetro de control se
utilice para limitar las opciones disponibles de longitud de trama
de codificación.
Una ventaja de la invención es que reduce el
número de opciones de longitud de trama de codificación con un
enfoque que tiene una baja complejidad. Por otro lado, la reducción
de las opciones de longitud de trama de codificación reduce la
complejidad de la selección final de la longitud de trama de
codificación que va a utilizarse.
En una realización de la invención, la selección
final de la longitud de trama de codificación se realiza con un
enfoque de análisis por síntesis. Es decir, en caso de que haya más
de una opción de longitudes de trama de codificación posibles
después de la limitación propuesta, cada una de las longitudes de
trama de codificación por transformada restantes se utiliza para
codificar la al menos una sección. Después, las señales codificadas
resultantes se descodifican de nuevo con la longitud de trama de
codificación por transformada usada respectivamente. En este
momento puede seleccionarse la longitud de trama de codificación que
dé como resultado la señal de audio mejor descodificada en la al
menos una sección.
Debido a la limitación anterior, el número de
ciclos de análisis por síntesis requeridos puede reducirse
significativamente en comparación con el enfoque de bucle
completamente cerrado mencionado anteriormente. Como resultado,
también se reduce la complejidad global de un codificador en el que
se implementa la invención.
La señal de audio mejor descodificada puede
determinarse de varias formas. Por ejemplo, puede determinarse
comparando una SNR resultante con cada una de las longitudes de
trama de codificación restantes. La SNR puede determinarse
fácilmente y proporciona una indicación fiable de la calidad de
señal.
En caso de que puedan utilizarse varios modelos
de codificación para codificar la señal de audio, por ejemplo un
modelo TCX y un modelo de codificación ACELP, también debe
determinarse qué modelo de codificación va a utilizarse para qué
sección de la señal de audio. Esto puede conseguirse de una manera
poco compleja en base a las características de señal de audio para
una sección respectiva, tal y como se ha mencionado anteriormente.
El número y/o la posición de las secciones para las que va a
utilizarse el otro modelo de codificación en lugar del modelo que
permite la utilización de diferentes longitudes de trama de
codificación pueden utilizarse también como parámetros de control
para limitar las opciones de longitud de trama de codificación.
Por ejemplo, la longitud de trama de
codificación no puede superar el tamaño de la sección o secciones
entre dos secciones para las que se seleccionó el otro modelo de
codificación.
En una realización adicional de la invención, la
longitud de trama de codificación solo se selecciona dentro de una
supersección respectiva que comprende un número de secciones
predeterminado. En este caso, las opciones de longitud de trama de
codificación para una sección particular también pueden limitarse
conociendo los límites de la supersección a la que pertenece la
sección.
Una supersección de este tipo puede ser, por
ejemplo, una supertrama que comprenda como secciones cuatro tramas
de señal de audio, presentando cada trama de señal de audio una
longitud de 20 ms. En caso de que el modelo de codificación sea un
modelo TCX, puede permitir longitudes de trama de codificación de 20
ms, de 40 ms y de 80 ms. Si en este caso, por ejemplo, se ha
seleccionado un modelo de codificación ACELP para la segunda trama
de señal de audio de una supertrama, se sabe que la tercera trama de
señal de audio puede codificarse a lo sumo con una longitud de
codificación de 20 ms o, junto con la cuarta trama de señal de
audio, de 40 ms.
\newpage
En otra realización ventajosa de la invención,
un indicador que indica si va a utilizarse una longitud de trama de
codificación más corta o más larga, proporciona un parámetro de
control adicional. Una indicación de que va a utilizarse una
longitud de trama de codificación más corta excluye entonces al
menos la opción de longitud de trama de codificación más larga,
mientras que una indicación de que va a utilizarse una longitud de
trama de codificación más larga excluye al menos la opción de
longitud de trama de codificación más corta.
\vskip1.000000\baselineskip
Otros objetos y características de la presente
invención resultarán evidentes a partir de la siguiente descripción
detallada considerada junto con los dibujos adjuntos.
La fig. 1 es un diagrama esquemático de un
sistema de codificación de audio según una realización de la
invención;
la fig. 2 es un diagrama de flujo que ilustra
una realización del procedimiento según la invención implementado
en el sistema de la fig. 1;
la fig. 3 es una primera tabla que ilustra una
limitación de combinaciones de modo en base a parámetros de control
según la invención; y
la fig. 4 es una segunda tabla que ilustra una
limitación de combinaciones de modo en base a parámetros de control
según la invención.
\vskip1.000000\baselineskip
La figura 1 es un diagrama esquemático de un
sistema de codificación de audio según una realización de la
invención que permite una selección de la longitud de trama de
codificación de un modelo de codificación por transformada.
El sistema comprende un primer dispositivo 1 que
incluye un codificador 10 AMR-WB+ y un segundo
dispositivo 2 que incluye un descodificador 20
AMR-WB+. El primer dispositivo 1 puede ser, por
ejemplo, un servidor MMS, mientras que el segundo dispositivo 2
puede ser, por ejemplo, un teléfono móvil.
El primer dispositivo 1 comprende una primera
parte 12 de evaluación para una primera selección de un modelo de
codificación en un enfoque de bucle abierto. El primer dispositivo 1
comprende además una segunda parte 13 de evaluación para refinar la
primera selección en un enfoque de bucle abierto adicional y para
determinar en paralelo un indicador de trama corta como un
parámetro de control. La primera parte 12 de evaluación y la
segunda parte 13 de evaluación forman conjuntamente una parte de
selección de parámetro. El primer dispositivo 1 comprende además
una parte 14 de selección de longitud de trama TCX para limitar las
opciones de longitud de trama de codificación en caso de que se
seleccione un modelo TCX y para seleccionar entre las opciones
restantes la mejor opción en un enfoque de bucle cerrado. El primer
dispositivo 1 comprende además una parte 15 de codificación. La
parte 15 de codificación puede aplicar un modelo de codificación
ACELP, un modelo TCX20 que utiliza una longitud de trama TCX de 20
ms, un modelo TCX40 que utiliza una longitud de trama TCX de 40 ms
o un modelo TCX80 que utiliza una longitud de trama TCX de 80 ms
para tramas de audio recibidas.
La primera parte 12 de evaluación está conectada
a la segunda parte 13 de evaluación y a la parte 15 de codificación.
La segunda parte 13 de evaluación está conectada además a la parte
14 de selección de longitud de trama TCX y a la parte 15 de
codificación. La parte 14 de selección de longitud de trama TCX
también está conectada a la parte 15 de codificación.
Debe entenderse que las partes 12 a 15
presentadas están diseñadas para codificar una señal de audio mono,
la cual puede haberse generado a partir de una señal de audio
estéreo. Puede generarse información estéreo adicional en partes de
extensión estéreo adicionales no mostradas. Además, debe observarse
que el codificador 10 comprende partes adicionales no mostradas.
Además, debe entenderse que las partes 12 a 15 presentadas no
tienen que ser partes independientes, sino que también pueden
entrelazarse entre sí o con otras partes.
Las partes 12, 13, 14 y 15 pueden realizarse en
particular mediante un software SW que se ejecuta en un componente
11 de procesamiento del codificador 10, indicado mediante líneas de
puntos.
A continuación se describirá en mayor detalle el
procesamiento del codificador 10 con referencia al diagrama de
flujo de la figura 2.
El procesamiento se lleva a cabo para una
supertrama respectiva. Cada supertrama tiene una longitud de 80 ms
y comprende cuatro tramas de señal de audio consecutivas.
El codificador 10 recibe una señal de audio que
se ha proporcionado al primer dispositivo 1. La señal de audio se
convierte en una señal de audio mono y un filtro de predicción
lineal (LP) calcula una codificación de predicción lineal (LPC) en
cada trama para modelar la envolvente espectral.
La primera parte 12 de evaluación para cada
trama de la supertrama en un primer análisis de bucle abierto
procesa la excitación LPC resultante proporcionada por el filtro LP.
Este análisis determina, basándose en características de señal
fuente, si puede asumirse que el contenido de la trama respectiva es
voz u otro contenido de audio, como música. El análisis puede
basarse, por ejemplo, en una evaluación de la energía en diferentes
bandas de frecuencia, tal y como se ha mencionado anteriormente.
Para cada trama que supuestamente comprende voz se selecciona un
modelo de codificación ACELP, mientras que para cada trama que
supuestamente comprende otro contenido de audio se selecciona un
modelo TCX. En este momento no se produce una separación entre
modelos TCX que utilicen diferentes longitudes de trama de
codificación. Para aquellas tramas para las que las características
analizadas no indiquen claramente un contenido de voz u otro
contenido de audio, se selecciona un modo indeterminado.
La primera parte 12 de evaluación informa a la
parte 15 de codificación acerca de todas las tramas para las que se
ha seleccionado hasta ahora el modelo ACELP.
La segunda parte 13 de evaluación realiza
después un segundo análisis de bucle abierto trama por trama para
una separación adicional en tramas ACELP y TCX basándose en
características de señal. En paralelo, la segunda parte 13 de
evaluación determina una bandera NoMtcx de indicación de trama corta
como un parámetro de control. Si la bandera NoMtcx está fijada, se
inhabilita la utilización de TCX80.
El procesamiento en la segunda parte 13 de
evaluación se lleva a cabo para una trama respectiva si una bandera
VAD de indicación de actividad de voz está fijada para la trama y si
la primera parte 12 de evaluación no ha seleccionado el modelo de
codificación ACELP para esta trama.
Si la salida del primer análisis de bucle
abierto del primer componente 12 de evaluación ha sido el modo
indeterminado, en primer lugar se calcula una distancia espectral y
se reúne una variedad de características de señales disponibles.
La distancia espectral SD_{n} de la
trama actual n se calcula a partir de parámetros de par espectral de
inmitancia (ISP) según la siguiente ecuación:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
en el que ISP_{n} es el
vector de coeficientes ISP de trama n y donde
ISP_{n}(i) es el i-ésimo elemento de este vector.
En cualquier caso, los parámetros ISP están disponibles ya que los
coeficientes LP se transforman en el dominio ISP para fines de
cuantificación y de
interpolación.
El parámetro Lag_{n} contiene dos
valores de retraso de bucle abierto de la trama actual n. El retraso
es el retardo de filtro a largo plazo. Normalmente es el periodo de
tono verdadero, o su múltiplo o submúltiplo. Un análisis de tono de
bucle abierto se realiza dos veces por trama, es decir, cada 10 ms,
para obtener dos estimaciones del retraso de tono en cada trama.
Esto se realiza con el fin de simplificar el análisis de tono y
para delimitar la búsqueda de tono de bucle cerrado a un pequeño
número de retrasos en torno a los retrasos estimados de bucle
abierto.
Además, LagDif_{buf} es una memoria
intermedia que contiene los valores de retraso de bucle abierto de
las diez tramas anteriores de 20 ms.
El parámetro Gain_{n} contiene dos
valores de ganancia LTP de la trama actual n.
El parámetro NormCorr_{n} contiene dos
valores de correlación normalizados de la trama actual n.
El parámetro MaxEnergy_{buf} es el
valor máximo de una memoria intermedia que contiene valores de
energía. La memoria intermedia de energía contiene los valores de
energía de la trama actual n y de las cinco tramas anteriores,
presentando cada una una longitud de 20 ms.
\newpage
A continuación se seleccionan los modos de
codificación y el parámetro de control NoMtcx se fija según
el siguiente algoritmo de bucle abierto:
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
Por lo tanto, varias características de señal y
sus combinaciones se comparan con varios valores umbral
predeterminados para determinar si una trama de modo indeterminado
contiene contenido de voz u otro contenido de audio y para asignar
el modelo de codificación apropiado. De manera similar, la bandera
NoMtcx de indicación de trama corta se fija dependiendo de algunas
de estas características de señal y sus combinaciones.
En cambio, si la salida del primer análisis de
bucle abierto del primer componente 12 de evaluación ha sido el
modo TCX, se determina si la bandera VAD se ha fijado a cero para al
menos una trama de la supertrama anterior. Si este es el caso, la
bandera NoMtcx de indicación de trama corta se fija igualmente a
"1".
Si el modo de codificación para la trama actual
se ha fijado por el momento al modo TCX o todavía está fijado en el
modo indeterminado, se verifica además la decisión de modo. Para
ello, en primer lugar se crea un vector mag de envolvente
espectral por transformada discreta de Fourier (DFT) a partir de los
coeficientes de filtro LP de la trama actual. La verificación del
modelo de codificación se realiza entonces según el siguiente
algoritmo:
La suma final DFTSum es la suma de los
primeros 40 elementos del vector mag, excluyendo el primer
elemento mag(0) del vector mag.
La segunda parte 13 de evaluación informa a la
parte 15 de codificación acerca de todas las tramas para las que el
modelo ACELP se ha seleccionado adicionalmente.
En la parte 14 de selección de longitud de trama
TCX, en primer lugar se evalúan los parámetros de control para
limitar el número de opciones de longitud de trama TCX.
Un parámetro de control es el número de modos
ACELP seleccionados en la supertrama. En caso de que se haya
seleccionado el modelo de codificación ACELP para cuatro tramas de
la supertrama, no queda ninguna trama para la que tenga que
determinarse una longitud de trama TCX. En caso de que se haya
seleccionado el modelo de codificación ACELP para tres tramas de la
supertrama, la longitud de trama TCX se fija a 20 ms.
Limitaciones adicionales se llevan a cabo en
base a la tabla de la figura 3 o de la figura 4. Las figuras 3 y 4
ilustran una tabla respectiva de cinco columnas que asocian
longitudes de trama TCX seleccionables a varias combinaciones de
modos de codificación seleccionados.
Ambas tablas muestran en una primera columna
siete combinaciones posibles de modos de codificación seleccionados
para las cuatro tramas de una supertrama. En cada una de las
combinaciones se han seleccionado a lo sumo dos modos ACELP. Las
combinaciones son (0,1,1,1), (1,0,1,1), (1,1,0,1), (1,1,1,0),
(1,1,0,0), (0,0,1,1) y (1,1,1,1), la última apareciendo dos veces.
En esta representación de las combinaciones seleccionadas, un
"0" representa un modo ACELP y un "1" un modo TCX.
La cuarta columna respectiva presenta el
parámetro de control Aind, que indica para cada combinación de la
primera columna el número de modos ACELP seleccionados. Puede
observarse que solo hay combinaciones de modo asociadas a valores
Aind de "0", "1" y "2", ya que en caso de valores de
"3" ó "4", la parte 14 de selección de longitud de trama
TCX puede seleccionar inmediatamente la longitud de trama TCX sin un
procesamiento adicional.
La quinta columna respectiva presenta la bandera
NoMtcx de indicación de trama corta. Este parámetro solo se evalúa
por la parte 14 de selección de longitud de trama TCX en caso de que
el parámetro de control Aind tenga un valor de "0", es decir,
en caso de que el modo ACELP no se haya seleccionado para ninguna
trama de la supertrama.
La segunda y la tercera columna respectiva
muestran para cada combinación las longitudes de trama TCX que
pueden seleccionarse para las tramas de modo TCX en vista de las
limitaciones de los parámetros de control. Para cada combinación de
la primera columna deben comprobarse como mucho dos longitudes de
trama TCX. En estas combinaciones de longitudes de trama TCX, un
"0" representa una trama de codificación ACELP de 20 ms, un
"1" una trama TCX de 20 ms, una secuencia de dos "2" una
trama TCX de 40 ms y una secuencia de cuatro "3" una trama TCX
de 80 ms.
Para la primera combinación de modos (0,1,1,1),
por ejemplo, se permite la combinación de longitudes de trama de
codificación (0,1,1,1) y (0,1,2,2). Es decir, o bien la segunda, la
tercera y la cuarta trama se codifican con una trama TCX de 20 ms,
o bien solamente la segunda trama se codifica con una trama TCX de
20 ms, mientras que la tercera y la cuarta trama se codifican con
una trama TCX de 40 ms.
De manera similar, para la segunda combinación
de modos (1,0,1,1), se permite la combinación de longitudes de
trama de codificación (1,0,1,1) y (1,0,2,2). Para la tercera
combinación de modos (1,1,0,1) se permite la combinación de
longitudes de trama de codificación (1,1,0,1) y (2,2,0,1). Para la
cuarta combinación de modos (1,1,1,0) se permite la combinación de
longitudes de trama de codificación (1,1,1,0) y (2,2,1,0). Para la
quinta combinación de modos (1,1,0,0) se permite la combinación de
longitudes de trama de codificación (1,1,0,0) y (2,2,0,0). Para la
sexta combinación de modos (0,0,1,1) se permite la combinación de
longitudes de trama de codificación (0,0,1,1) y (0,0,2,2).
Para la séptima combinación de modos (1,1,1,1),
la bandera NoMtcx de indicación de trama corta indica si probar
longitudes de trama TCX más largas o más cortas. La bandera NoMtcx
está fijada para la supertrama en caso de que la segunda parte 13
de evaluación para al menos una de las tramas de la supertrama la
haya fijado. Si la bandera NoMtcx está fijada para la supertrama
solo se permiten longitudes de trama cortas.
En la tabla de la figura 3 esto significa que la
parte 14 de selección de longitud de trama TCX selecciona
inmediatamente una longitud de trama TCX de 20 ms para toda la
supertrama. Es decir, la única combinación permitida de longitudes
de trama TCX es (1,1,1,1). En la tabla de la figura 4, una bandera
NoMtcx fijada significa que se permite la combinación de longitudes
de trama TCX (1,1,1,1) y además la combinación de longitudes de
trama TCX (2,2,2,2), esta última representando dos tramas TCX de 40
ms.
Si la bandera NoMtcx de indicación de trama
corta no está fijada, solamente se permiten longitudes de trama TCX
largas. En las tablas de la figura 3 y de la figura 4, esto
significa que se permite la combinación de longitudes de trama TCX
(2,2,2,2) y (3,3,3,3), esta última representando una única trama TCX
de 80 ms.
La música nítida requiere generalmente tramas
TCX más largas para una codificación óptima y, obviamente, la voz
se codifica mejor mediante ACELP. Especialmente al principio de la
música y/o de la voz, cuando la energía es baja o un indicador VAD
de activad de voz estaba fijado a cero en tramas anteriores, las
tramas TCX más largas utilizadas para codificar la voz degradan la
calidad de la voz. Por otro lado, tramas TCX cortas de 20 ms son
relativamente buenas para la música y determinados segmentos de voz.
Con algunas características de señal es difícil determinar si un
contenido de trama es música o voz. Por lo tanto, una trama TCX
corta es una buena alternativa al modelo de codificación óptima en
un caso de este tipo ya que es adecuada para ambos tipos de
contenido. Por lo tanto, un indicador de trama corta es muy adecuado
como un parámetro de control.
Combinaciones adicionales de longitudes de trama
de codificación para las combinaciones de modos presentadas no son
permitidas por la estructura de codificador, en la que no está
permitido un modelo TCX40 para las tramas de señal de audio
medianas.
De manera similar, combinaciones adicionales de
modos con Aind < 3 no representadas en las figuras 3 y 4 solo
permiten una única combinación de longitudes de trama de
codificación, ya sea por sí solas o debido a la estructura de
codificador. Es decir, una combinación de modos (1,0,0,1) solo
permite una combinación de longitudes de trama de codificación de
(1,0,0,1) y una combinación de modos (0,1,1,0) solo permite una
combinación de longitudes de trama de codificación de (0,1,1,0).
Puesto que los parámetros de control Aind y
NoMtcx limitan las combinaciones de modo con respecto a las
longitudes de trama TCX, debe comprobarse una longitud de dos
tramas a lo sumo para cada supertrama.
En caso de que haya dos combinaciones de
longitud de trama TCX posibles, se utiliza un tipo de algoritmo SNR
en la parte 14 de selección de longitud de trama TCX para obtener el
modelo o los modelos TCX óptimo(s) para la supertrama.
Para evaluar las longitudes de trama TCX
seleccionables, las tramas de la supertrama para las que se ha
seleccionado el modo TCX se codifican utilizando una codificación
por transformada con ambas combinaciones de longitud de trama TCX
permitidas. La TCX se basa, a modo de ejemplo, en una transformada
rápida de Fourier (FFT). Las señales codificadas se descodifican de
nuevo y los resultados para ambas longitudes de trama TCX se
comparan después en base a una SNR segmentaria.
La SNR segmentaria es la SNR de una subtrama de
una trama TCX. La subtrama tiene una longitud de N que corresponde
a una subtrama de 5 ms de la señal de audio original.
La SNR segmentaria de la subtrama i,
segSNR_{i,} se determina para cada subtrama de una trama
TCX según la siguiente ecuación:
En esta ecuación, x_{w}(n) es la
amplitud de la señal de audio original digitalizada en la posición n
de la subtrama, mientras que \hat{x}_{w}(n) es la
amplitud de la señal de audio codificada y descodificada en la
posición n de la subtrama.
Por lo tanto, la SNR segmentaria media de todas
las subtramas de una trama TCX se determina según la siguiente
ecuación:
donde N_{SF} es el número
de subtramas de la trama TCX. Puesto que una trama TCX puede tener
una longitud de 20 ms, de 40 ms o de 80 ms, N_{SF} puede
ser 4, 8 o
16.
Después, la parte 14 de selección de longitud de
trama TCX determina cuál de las longitudes de trama TCX permitidas
para un determinado número de tramas de señal de audio da como
resultado una mejor SRN media. Por ejemplo, en caso de que dos
tramas de señal de audio puedan codificarse cada una con un modelo
TCX20 o conjuntamente con un modelo TCX40, la SNR media de la trama
TCX40 se compara con la suma de las SNR medias de ambas tramas
TCX20. Se selecciona la longitud de trama TCX que dé como resultado
una SNR media superior y se notifica a la parte 15 de
codificación.
La parte 15 de codificación codifica todas las
tramas de la señal de audio con el modelo de codificación
seleccionado respectivamente indicado por la primera parte 12 de
evaluación, la segunda parte 13 de evaluación o la parte 14 de
selección de longitud de trama TCX. La TCX se basa, a modo de
ejemplo, en una FFT utilizando la longitud de trama de codificación
seleccionada, y la codificación ACELP utiliza, a modo de ejemplo,
una LTP y parámetros de libro de códigos fijo para una excitación
LPC.
Después, la parte 15 de codificación proporciona
las tramas codificadas para una transmisión al segundo dispositivo
2. En el segundo dispositivo 2, el descodificador 20 descodifica
todas las tramas recibidas con el modelo de codificación ACELP o
con uno de los modelos TCX. Las tramas descodificadas se
proporcionan, por ejemplo, para su presentación a un usuario del
segundo dispositivo 2.
La sección de longitud de trama TCX presentada
se basa por tanto en un enfoque de bucle semicerrado, en el que el
tipo básico del modelo de codificación y los parámetros de control
se seleccionan en un procedimiento de bucle abierto, mientras que
la longitud de trama TCX se selecciona entonces a partir de un
número limitado de opciones con un enfoque de bucle cerrado.
Mientras que en un análisis de bucle totalmente cerrado el análisis
por síntesis siempre se realiza cuatro veces por supertrama, en el
enfoque presentado de bucle semicerrado un análisis por síntesis
debe realizarse como mucho dos veces por supertrama.
Debe observarse que la realización descrita
constituye solamente una realización de una variedad de posibles
realizaciones de la invención. El alcance de la invención está
definido por las reivindicaciones adjuntas.
Claims (30)
1. Procedimiento para soportar una codificación
de una señal de audio, en el que al menos una sección de dicha
señal de audio va a codificarse con un modelo de codificación que
permite la utilización de diferentes longitudes de trama de
codificación, comprendiendo dicho procedimiento:
- -
- determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio;
- -
- limitar dichas opciones de longitudes de trama de codificación posibles para dicha al menos una sección mediante dicho al menos un parámetro de control; y
- -
- en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas.
2. Procedimiento según la reivindicación 1, que
comprende además determinar el dicho al menos un parámetro de
control en base a al menos uno de los siguientes parámetros:
- -
- un indicador de una distancia espectral entre la trama actual y una trama anterior;
- -
- el número de tramas de una supertrama seleccionada que va a codificarse con otro modelo de codificación, comprendiendo cada supertrama un número de tramas predeterminado.
3. Procedimiento según la reivindicación 1 ó 2,
que comprende además:
- -
- en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación restantes;
- -
- descodificar dichas secciones codificadas con la longitud de trama de codificación utilizada respectivamente; y
- -
- seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor codificada en dicha al menos una sección.
4. Procedimiento según la reivindicación 3, en
el que una longitud de trama de codificación que dé como resultado
la sección mejor descodificada se determina comparando una relación
de señal a ruido resultante para cada una de dichas longitudes de
trama de codificación.
5. Procedimiento según la reivindicación 4, en
el que para dicha relación de señal a ruido de una señal de audio
obtenida con una longitud de trama de codificación particular, en
primer lugar se determina por separado una relación de señal a
ruido segmentaria para una pluralidad de subtramas en una trama de
codificación respectiva, y en el que posteriormente se calcula la
media de dichas relaciones de señal a ruido segmentarias de dichas
subtramas de una trama de codificación para toda la trama de
codificación para obtener dicha relación de señal a ruido para
dicha al menos una sección.
6. Procedimiento según al menos una de las
reivindicaciones anteriores, que comprende además una etapa para
determinar para cada sección de dicha señal de audio, en base a
características de señal de audio para una sección respectiva, si
va a utilizarse dicho modelo de codificación u otro modelo de
codificación, en el que dicho al menos un parámetro de control
comprende una indicación de las secciones para las que se ha
seleccionado dicho otro modelo de codificación.
7. Procedimiento según la reivindicación 6, en
el que dicho modelo de codificación es un modelo de codificación
por transformada y en el que dicho otro modelo de codificación es un
modelo de codificación de predicción lineal excitada por código
algebraico.
8. Procedimiento según la reivindicación 6 ó 7,
en el que cada sección de dicha señal de audio tiene una longitud
predeterminada y en el que dicha indicación de las secciones para
las que se ha seleccionado dicho otro modelo de codificación se
proporciona para una supersección respectiva que comprende un número
predeterminado de dichas secciones.
9. Procedimiento según al menos una de las
reivindicaciones anteriores, en el que cada sección de dicha señal
de audio tiene una longitud predeterminada, en el que un número
predeterminado de secciones consecutivas, respectivamente, forman
una supersección respectiva, y en el que dichas opciones de longitud
de trama de codificación para una sección particular están
limitadas por los límites de la supersección a la que pertenece
dicha sección.
10. Procedimiento según la reivindicación 7, en
el que cada sección de dicha señal de audio tiene una longitud de
20 ms, en el que cuatro secciones consecutivas, respectivamente,
forman una supersección, en el que dicho modelo de codificación por
transformada permite la utilización de longitudes de trama de
codificación de 20 ms, 40 ms y 80 ms, y en el que dichas opciones
de longitud de trama de codificación para una sección está
limitadas por los límites de la supersección a la que pertenece
dicha sección.
11. Procedimiento según al menos una de las
reivindicaciones anteriores, en el que dicho al menos un parámetro
de control comprende un indicador que indica si va a utilizarse una
longitud de trama de codificación más corta o más larga, donde una
indicación de que va a utilizarse una longitud de trama de
codificación más corta excluye al menos la opción de longitud de
trama de codificación más larga y una indicación de que va a
utilizarse una longitud de trama de codificación más larga excluye
al menos la opción de longitud de trama de codificación más
corta.
12. Componente (10, 11) para soportar una
codificación de una señal de audio, en el que al menos una sección
de dicha señal de audio va a codificarse con un modelo de
codificación que permite la utilización de diferentes longitudes de
trama de codificación, comprendiendo dicho componente:
- -
- una parte (12, 13) de selección de parámetro adaptada para determinar al menos un parámetro de control en base a, al menos parcialmente, características de señal de dicha señal de audio; y
- -
- una parte (14) de selección de longitud de trama adaptada para limitar opciones de longitudes de trama de codificación posibles para al menos una sección mediante al menos un parámetro de control proporcionado por dicha parte (12, 13) de selección de parámetro y adaptada para seleccionar una longitud de trama de codificación para dicha sección a partir de dichas opciones limitadas en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación.
13. Componente (10, 11) según la reivindicación
12, en el que dicha parte (12, 13) de selección de parámetro está
adaptada para determinar dicho al menos un parámetro de control en
base a al menos uno de los siguientes parámetros:
- -
- un indicador de trama corta, que se determina al menos en base a la distancia espectral; y
- -
- el número de tramas de predicción lineal excitada por código algebraico de una supertrama, comprendiendo cada supertrama un número de tramas predeterminado.
14. Componente (10, 11) según la reivindicación
12 ó 13, en el que dicha parte (14) de selección de longitud de
trama está adaptada además para codificar dicha al menos una sección
con cada una de dichas longitudes de trama de codificación
restantes, en caso de que haya más de una opción de longitudes de
trama de codificación posibles después de dicha limitación, para
descodificar de nuevo dichas secciones codificadas con la trama de
codificación utilizada respectivamente y para seleccionar para dicha
al menos una sección una longitud de trama de codificación que dé
como resultado la señal de audio mejor descodificada en dicha al
menos una sección.
15. Componente (10, 11) según la reivindicación
14, en el que dicha parte (14) de selección de longitud de trama
está adaptada para determinar una longitud de trama de codificación
que dé como resultado la sección mejor descodificada comparando una
relación de señal a ruido resultante para cada una de dichas
longitudes de trama de codificación.
16. Componente (10, 11) según la reivindicación
15, en el que para determinar dicha relación de señal a ruido de
una señal de audio obtenida con una longitud de trama de
codificación particular, dicha parte (14) de selección de longitud
de trama está adaptada para determinar en primer lugar una relación
de señal a ruido segmentaria por separado para una pluralidad de
subtramas en una trama de codificación respectiva, y para obtener la
media de dichas relaciones de señal a ruido segmentarias de dichas
subtramas de una trama de codificación para toda la trama de
codificación para obtener dicha relación de señal a ruido para dicha
al menos una sección.
17. Componente (10, 11) según al menos una de
las reivindicaciones 12 a 16, en el que dicha parte (12, 13) de
selección de parámetro está adaptada además para determinar al menos
para algunas secciones de una señal de audio, en base a
características de señal de audio para una sección respectiva de
dicha señal de audio, si va a utilizarse dicho modelo de
codificación u otro modelo de codificación y para proporcionar como
uno de dicho al menos un parámetro de control una indicación de las
secciones para las que se ha seleccionado dicho otro modelo de
codificación.
18. Componente (10, 11) según la reivindicación
17, en el que dicho modelo de codificación es un modelo de
codificación por transformada y en el que dicho otro modelo de
codificación es un modelo de codificación de predicción lineal
excitada por código algebraico.
19. Componente (10, 11) según la reivindicación
17 o 18, en el que cada sección de dicha señal de audio tiene una
longitud predeterminada y en el que dicha parte (12, 13) de
selección de parámetro está adaptada para proporcionar una
indicación de las secciones para las que se ha seleccionado dicho
otro modelo de codificación para una supersección respectiva que
comprende un número predeterminado de dichas secciones.
\newpage
20. Componente (10, 11) según una de las
reivindicaciones 12 a 19, en el que cada sección de dicha señal de
audio tiene una longitud predeterminada, en el que un número
predeterminado de secciones consecutivas, respectivamente, forman
una supersección respectiva, y en el que dicha parte (14) de
selección de longitud de trama está adaptada para limitar las
opciones de longitud de trama de codificación para una sesión
particular basándose en los límites de la supersección a la que
pertenece dicha sección.
21. Componente (10, 11) según la reivindicación
20, en el que cada sección de dicha señal de audio tiene una
longitud de 20 ms, en el que cuatro secciones consecutivas,
respectivamente, forman una supersección, en el que dicho modelo de
codificación por transformada permite la utilización de longitudes
de trama de codificación de 20 ms, 40 ms y 80 ms, y en el que dicha
parte (14) de selección de longitud de trama está adaptada para
limitar las opciones de longitud de trama de codificación para una
sección basándose en los límites de la supersección a la que
pertenece dicha sección.
22. Componente (10, 11) según una de las
reivindicaciones 12 a 21, en el que dicha parte (12, 13) de
selección de parámetro está adaptada para proporcionar como uno de
dicho al menos un parámetro de control un indicador que indica si
va a utilizarse una longitud de trama de codificación más corta o
más larga, donde una indicación de que va a utilizarse una longitud
de trama de codificación más corta excluye al menos la opción de
longitud de trama de codificación más larga y una indicación de que
va a utilizarse una longitud de trama de codificación más larga
excluye al menos la opción de longitud de trama de codificación más
corta.
23. Dispositivo (1) electrónico que comprende un
componente (10, 11) según una de las reivindicaciones 12 a 21.
24. Dispositivo (1) electrónico según la
reivindicación 23, que comprende además medios para transmitir
tramas codificadas.
25. Sistema (1, 2) de codificación de audio que
comprende un componente (10, 11) según al menos una de las
reivindicaciones 12 a 18 y un descodificador (20) para descodificar
señales de audio que se han codificado con longitudes de trama de
codificación variables.
26. Sistema (1, 2) de codificación de audio
según la reivindicación 25, que comprende además determinar al
menos un parámetro de control en base a, al menos parcialmente,
características de señal de dicha señal de audio.
27. Sistema (1, 2) de codificación de audio
según la reivindicación 25, que comprende además limitar dichas
opciones de longitudes de trama de codificación posibles mediante
dicho al menos un parámetro de control.
28. Sistema (1, 2) de codificación de audio
según al menos una de las reivindicaciones 26 y 27, que comprende
además
- -
- en caso de que haya más de una opción de longitudes de trama de codificación posibles después de dicha limitación, codificar dicha al menos una sección con cada una de dichas longitudes de trama de codificación por transformada restantes;
- -
- descodificar dichas secciones codificadas con la longitud de trama de codificación por transformada utilizada respectivamente; y
- -
- seleccionar para dicha al menos una sección una longitud de trama de codificación que dé como resultado la señal de audio mejor descodificada en dicha al menos una sección.
29. Un código de software para soportar una
codificación de una señal de audio, en el que al menos una sección
de dicha señal de audio va a codificarse con un modelo de
codificación que permite la utilización de diferentes longitudes de
trama de codificación, realizando dicho código de software el
procedimiento según una de las reivindicaciones 1 a 11 cuando se
ejecuta en un componente (11) de procesamiento de un codificador
(10).
30. Un producto de programa de software en el
que está almacenado un código de software según la reivindicación
29.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2004/001585 WO2005112003A1 (en) | 2004-05-17 | 2004-05-17 | Audio encoding with different coding frame lengths |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2338117T3 true ES2338117T3 (es) | 2010-05-04 |
Family
ID=34957451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES04733394T Expired - Lifetime ES2338117T3 (es) | 2004-05-17 | 2004-05-17 | Codificacion de audio con diferentes longitudes de trama de codificacion. |
Country Status (13)
Country | Link |
---|---|
US (1) | US7860709B2 (es) |
EP (1) | EP1747554B1 (es) |
JP (1) | JP2007538282A (es) |
CN (1) | CN1954364B (es) |
AT (1) | ATE457512T1 (es) |
AU (1) | AU2004319556A1 (es) |
BR (1) | BRPI0418838A (es) |
CA (1) | CA2566368A1 (es) |
DE (1) | DE602004025517D1 (es) |
ES (1) | ES2338117T3 (es) |
MX (1) | MXPA06012617A (es) |
TW (1) | TW200609902A (es) |
WO (1) | WO2005112003A1 (es) |
Families Citing this family (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
US20110057818A1 (en) * | 2006-01-18 | 2011-03-10 | Lg Electronics, Inc. | Apparatus and Method for Encoding and Decoding Signal |
PL2112652T3 (pl) | 2006-07-07 | 2013-04-30 | Fraunhofer Ges Forschung | Urządzenie i sposób do łączenia wielu zakodowanych parametrycznie źródeł audio |
US7966175B2 (en) | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
EP2096631A4 (en) * | 2006-12-13 | 2012-07-25 | Panasonic Corp | TONE DECODING DEVICE AND POWER ADJUSTMENT METHOD |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US20090006081A1 (en) * | 2007-06-27 | 2009-01-01 | Samsung Electronics Co., Ltd. | Method, medium and apparatus for encoding and/or decoding signal |
WO2009038115A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 音声符号化装置、音声符号化方法及びプログラム |
WO2009038170A1 (ja) * | 2007-09-21 | 2009-03-26 | Nec Corporation | 音声処理装置、音声処理方法、プログラム及び音楽・メロディ配信システム |
CN101874266B (zh) * | 2007-10-15 | 2012-11-28 | Lg电子株式会社 | 用于处理信号的方法和装置 |
EP2218068A4 (en) * | 2007-11-21 | 2010-11-24 | Lg Electronics Inc | METHOD AND APPARATUS FOR SIGNAL PROCESSING |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MY181247A (en) * | 2008-07-11 | 2020-12-21 | Frauenhofer Ges Zur Forderung Der Angenwandten Forschung E V | Audio encoder and decoder for encoding and decoding audio samples |
KR20100007738A (ko) * | 2008-07-14 | 2010-01-22 | 한국전자통신연구원 | 음성/오디오 통합 신호의 부호화/복호화 장치 |
CN104104391B (zh) * | 2008-12-09 | 2017-04-26 | 日本电信电话株式会社 | 编码方法以及编码装置 |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
US8457975B2 (en) * | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
JP4977157B2 (ja) | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
PL2489041T3 (pl) * | 2009-10-15 | 2020-11-02 | Voiceage Corporation | Jednoczesne kształtowanie szumu w dziedzinie czasu i w dziedzinie częstotliwości dla przekształcenia tdac |
EP3079152B1 (en) | 2010-07-02 | 2018-06-06 | Dolby International AB | Audio decoding with selective post filtering |
MX337875B (es) * | 2010-12-17 | 2016-03-22 | Mitsubishi Electric Corp | Dispositivo de codificacion de imagen, dispositivo de decodificacion de imagen, metodo de codificacion de imagen y metodo de decodificacion de imagen. |
JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
JP5849106B2 (ja) | 2011-02-14 | 2016-01-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法 |
TWI480857B (zh) | 2011-02-14 | 2015-04-11 | Fraunhofer Ges Forschung | 在不活動階段期間利用雜訊合成之音訊編解碼器 |
ES2534972T3 (es) | 2011-02-14 | 2015-04-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral |
PL2676267T3 (pl) | 2011-02-14 | 2017-12-29 | Fraunhofergesellschaft Zur Förderung Der Angewandten Forschung E V | Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio |
AU2012217269B2 (en) | 2011-02-14 | 2015-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
MX2013009306A (es) | 2011-02-14 | 2013-09-26 | Fraunhofer Ges Forschung | Aparato y metodo para codificar y decodificar una señal de audio utilizando una porcion alineada anticipada. |
WO2012110448A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
MX2013010536A (es) | 2011-03-18 | 2014-03-21 | Koninkl Philips Nv | Posicionamiento de los elementos de cuadro en los cuadros de un flujo de bits que presenta contenido de audio. |
WO2013081663A1 (en) * | 2011-12-02 | 2013-06-06 | Intel Corporation | Methods, systems, and apparatuses to enable short frames |
EP3573060B1 (en) | 2011-12-21 | 2023-05-03 | Huawei Technologies Co., Ltd. | Very short pitch detection and coding |
US9111531B2 (en) * | 2012-01-13 | 2015-08-18 | Qualcomm Incorporated | Multiple coding mode signal classification |
CN103426441B (zh) | 2012-05-18 | 2016-03-02 | 华为技术有限公司 | 检测基音周期的正确性的方法和装置 |
ES2984875T3 (es) * | 2012-11-13 | 2024-10-31 | Samsung Electronics Co Ltd | Procedimiento y aparato para determinar un modo de codificación, procedimiento y aparato para codificar señales de audio, y procedimiento y aparato para decodificar señales de audio |
KR101766802B1 (ko) * | 2013-01-29 | 2017-08-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 코딩 모드 스위칭 보상을 위한 개념 |
CN105229736B (zh) | 2013-01-29 | 2019-07-19 | 弗劳恩霍夫应用研究促进协会 | 用于选择第一编码算法与第二编码算法中的一个的装置及方法 |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
EP2980794A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
CN105632503B (zh) * | 2014-10-28 | 2019-09-03 | 南宁富桂精密工业有限公司 | 信息隐藏方法及系统 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0428156B1 (en) * | 1989-11-14 | 1996-08-21 | Nec Corporation | Adaptive transform coding by selecting optimum block lengths according to variations between successive blocks |
CN1062963C (zh) * | 1990-04-12 | 2001-03-07 | 多尔拜实验特许公司 | 用于产生高质量声音信号的解码器和编码器 |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
US5285498A (en) * | 1992-03-02 | 1994-02-08 | At&T Bell Laboratories | Method and apparatus for coding audio signals based on perceptual model |
JPH06180948A (ja) * | 1992-12-11 | 1994-06-28 | Sony Corp | ディジタル信号処理装置又は方法、及び記録媒体 |
US5732389A (en) * | 1995-06-07 | 1998-03-24 | Lucent Technologies Inc. | Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures |
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
US5913191A (en) * | 1997-10-17 | 1999-06-15 | Dolby Laboratories Licensing Corporation | Frame-based audio coding with additional filterbank to suppress aliasing artifacts at frame boundaries |
ES2247741T3 (es) * | 1998-01-22 | 2006-03-01 | Deutsche Telekom Ag | Metodo para conmutacion controlada por señales entre esquemas de codificacion de audio. |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
US6449590B1 (en) * | 1998-08-24 | 2002-09-10 | Conexant Systems, Inc. | Speech encoder using warping in long term preprocessing |
JP2000134105A (ja) * | 1998-10-29 | 2000-05-12 | Matsushita Electric Ind Co Ltd | オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法 |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
EP1199711A1 (en) * | 2000-10-20 | 2002-04-24 | Telefonaktiebolaget Lm Ericsson | Encoding of audio signal using bandwidth expansion |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
KR100880480B1 (ko) * | 2002-02-21 | 2009-01-28 | 엘지전자 주식회사 | 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템 |
AU2002246280A1 (en) * | 2002-03-12 | 2003-09-22 | Nokia Corporation | Efficient improvements in scalable audio coding |
EP1383110A1 (fr) * | 2002-07-17 | 2004-01-21 | STMicroelectronics N.V. | Procédé et dispositif d'encodage de la parole à bande élargie, permettant en particulier une amélioration de la qualité des trames de parole voisée |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
US20050004793A1 (en) * | 2003-07-03 | 2005-01-06 | Pasi Ojala | Signal adaptation for higher band coding in a codec utilizing band split coding |
US7325023B2 (en) * | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
-
2004
- 2004-05-17 ES ES04733394T patent/ES2338117T3/es not_active Expired - Lifetime
- 2004-05-17 DE DE602004025517T patent/DE602004025517D1/de not_active Expired - Lifetime
- 2004-05-17 WO PCT/IB2004/001585 patent/WO2005112003A1/en active Application Filing
- 2004-05-17 BR BRPI0418838-1A patent/BRPI0418838A/pt not_active IP Right Cessation
- 2004-05-17 AT AT04733394T patent/ATE457512T1/de not_active IP Right Cessation
- 2004-05-17 CN CN200480043056.XA patent/CN1954364B/zh not_active Expired - Lifetime
- 2004-05-17 MX MXPA06012617A patent/MXPA06012617A/es not_active Application Discontinuation
- 2004-05-17 CA CA002566368A patent/CA2566368A1/en not_active Abandoned
- 2004-05-17 AU AU2004319556A patent/AU2004319556A1/en not_active Abandoned
- 2004-05-17 JP JP2007517467A patent/JP2007538282A/ja not_active Withdrawn
- 2004-05-17 EP EP04733394A patent/EP1747554B1/en not_active Expired - Lifetime
-
2005
- 2005-05-13 TW TW094115504A patent/TW200609902A/zh unknown
- 2005-05-13 US US11/129,662 patent/US7860709B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2007538282A (ja) | 2007-12-27 |
AU2004319556A1 (en) | 2005-11-24 |
BRPI0418838A (pt) | 2007-11-13 |
US20050267742A1 (en) | 2005-12-01 |
WO2005112003A1 (en) | 2005-11-24 |
MXPA06012617A (es) | 2006-12-15 |
TW200609902A (en) | 2006-03-16 |
CN1954364A (zh) | 2007-04-25 |
US7860709B2 (en) | 2010-12-28 |
EP1747554A1 (en) | 2007-01-31 |
CN1954364B (zh) | 2011-06-01 |
ATE457512T1 (de) | 2010-02-15 |
EP1747554B1 (en) | 2010-02-10 |
CA2566368A1 (en) | 2005-11-24 |
DE602004025517D1 (de) | 2010-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2338117T3 (es) | Codificacion de audio con diferentes longitudes de trama de codificacion. | |
ES2291877T3 (es) | Codificacion de audio con diferentes modelos de codificacion. | |
ES2960089T3 (es) | Procedimiento y aparato para la ocultación de errores de trama y procedimiento y aparato para la decodificación de audio | |
US9324333B2 (en) | Systems, methods, and apparatus for wideband encoding and decoding of inactive frames | |
US8532984B2 (en) | Systems, methods, and apparatus for wideband encoding and decoding of active frames | |
ES2760573T3 (es) | Decodificador de audio y método para proveer una información de audio decodificada usando un ocultamiento de error que modifica una señal de excitación de dominio de tiempo | |
ES2683077T3 (es) | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada | |
ES2380307T3 (es) | Esquema de codificación/decodificación de audio de tasa de transmisión de bits baja con preprocesamiento común. | |
TWI553628B (zh) | 訊框錯誤隱藏方法 | |
ES2592416T3 (es) | Esquema de codificación/decodificación de audio que tiene una derivación conmutable | |
ES2625895T3 (es) | Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal | |
US7739120B2 (en) | Selection of coding models for encoding an audio signal | |
US20110016077A1 (en) | Audio signal classifier | |
ES2687249T3 (es) | Decisión no sonora/sonora para el procesamiento de la voz | |
TW200912897A (en) | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding | |
CN104937662B (zh) | 用于线性预测译码中的自适应共振峰锐化的系统、方法、设备和计算机可读媒体 | |
KR20160044025A (ko) | 대역폭 확장 방법 및 장치 | |
ES2616434T3 (es) | Aparato y método para seleccionar uno de un primer algoritmo de codificación de audio y un segundo algoritmo de codificación de audio | |
RU2344493C2 (ru) | Кодирование звука с различными длительностями кадра кодирования | |
KR20070017379A (ko) | 오디오 신호를 부호화하기 위한 부호화 모델들의 선택 | |
ZA200609478B (en) | Audio encoding with different coding frame lengths | |
KR20070017380A (ko) | 서로 다른 코딩 프레임 길이의 오디오 인코딩 |