ES2213901T3 - Mejora de codificacion de la fuente utilizando la replica de la banda espectral. - Google Patents
Mejora de codificacion de la fuente utilizando la replica de la banda espectral.Info
- Publication number
- ES2213901T3 ES2213901T3 ES98921697T ES98921697T ES2213901T3 ES 2213901 T3 ES2213901 T3 ES 2213901T3 ES 98921697 T ES98921697 T ES 98921697T ES 98921697 T ES98921697 T ES 98921697T ES 2213901 T3 ES2213901 T3 ES 2213901T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- spectral
- band
- samples
- coefficients
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/66—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
- H04B1/667—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using a division in frequency subbands
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectrometry And Color Measurement (AREA)
- Pyridine Compounds (AREA)
- Luminescent Compositions (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Cosmetics (AREA)
Abstract
LA PRESENTE INVENCION SE REFIERE A UN NUEVO PROCEDIMIENTO DE MEJORA DE CODIFICACION DE LA FUENTE ASI COMO AL DISPOSITIVO CORRESPONDIENTE. SE PROCEDE, EN EL MARCO DE ESTA INVENCION, A UN ESTRECHAMIENTO DE LA ANCHURA DE BANDA (101) ANTES DE LA ENTRADA EN EL CODIFICADOR-DECODIFICADOR O EN ESTE ULTIMO (103) Y LUEGO A UNA REPRODUCCION DE LA BANDA ESPECTRAL (105) EN EL DECODIFICADOR (107). DICHAS OPERACIONES SE CONVIERTEN EN POSIBLES GRACIAS AL USO DE NUEVAS TECNICAS DE TRANSPOSICION COMBINADAS CON UNAS REGULACIONES DE LA ENVOLTURA ESPECTRAL. SE OFRECE UN FLUJO BINARIO QUE REDUCE A UNA CALIDAD PERCEPTIVA DETERMINADA O CALIDAD PERCEPTIVA MEJORADA CON UN FLUJO BINARIO DETERMINADOS. LA REALIZACION DE ESTA INVENCION CONSISTE, PREFERENTEMENTE, EN LA INTEGRACION A UN CODIGO MAQUINA O SOFTWARE. ESTA INVENCION PUEDE, SIN EMBARGO, UTILIZARSE COMO PROCESADOR SEPARADO ASOCIADO CON UN CODIGO. DA LUGAR A UNAS NOTABLES MEJORAS CASI INDEPENDIENTES DEL TIPO DE CODIGO Y DEL AVANCE TECNOLOGICO.
Description
Mejora de codificación de la fuente utilizando la
réplica de la banda espectral.
En los sistemas de codificación de fuentes, los
datos digitales son comprimidos antes de la transmisión o el
almacenamiento para reducir la velocidad de bits o la capacidad de
almacenamiento requeridas. La presente invención está relacionada
con un nuevo método y aparato para la mejora de los sistemas de
codificación de fuentes por medio de la Réplica de la Banda
Espectral (SBR). Se consigue una reducción sustancial de la
velocidad de bits mientras se mantiene la misma calidad perceptible
o, a la inversa, se consigue una mejora de la calidad perceptible a
una velocidad de bits dada. Esto se consigue por medio de la
reducción de la anchura de banda espectral en el lado del
codificador y la consiguiente réplica espectral de la banda en el
descodificador, por lo que la invención explota nuevos conceptos de
redundancia de la señal en el dominio espectral.
Las técnicas de codificación de fuentes de audio
pueden ser divididas en dos clases: codificación de audio natural y
codificación del habla. La codificación de audio natural se utiliza
comúnmente para música o señales arbitrarias a velocidades de bits
medias, y generalmente ofrece una amplia anchura de banda de audio.
Los codificadores de habla están básicamente limitados a la
reproducción del habla pero, por otra parte, pueden ser utilizados a
velocidades de bits muy bajas, aunque con anchura de banda de audio
baja. El habla de banda ancha ofrece una mejora subjetiva sustancial
de la calidad en comparación con el habla de banda estrecha. Al
aumentar la anchura de banda, no solamente se mejora la
inteligibilidad y la naturalidad del habla, sino que también se
facilita el reconocimiento del locutor. La codificación del habla de
banda ancha es por tanto un problema importante en sistemas
telefónicos de la próxima generación. Además, debido al tremendo
crecimiento del campo de multimedia, es una característica deseable
la transmisión de música y otras señales no de habla con una calidad
alta en comparación con los sistemas telefónicos.
Una señal lineal PCM de alta fidelidad es muy
ineficiente en términos de velocidad de bits en comparación con la
entropía perceptible. El estándar de CD dictamina una frecuencia de
muestreo de 44,1 kHz, una resolución de 16 bits por muestra y
estéreo. Esto es igual a una velocidad de bits de 1411 kbits/s. Para
reducir drásticamente la velocidad de bits, puede efectuarse una
codificación de fuentes utilizando codecs de audio perceptibles de
banda repartida. Estos codecs de audio natural explotan la
irrelevancia perceptible y la redundancia estadística en la señal.
Utilizando la mejor tecnología de codecs, se puede conseguir
aproximadamente el 90% de reducción en los datos para una señal
estándar de formato de CD con una degradación prácticamente
imperceptible. Es por tanto posible una calidad de sonido muy alta a
alrededor de 96 kbits/s, es decir, con un factor de compresión de
aproximadamente 15:1. Algunos codecs perceptibles ofrecen relaciones
de compresión aún más altas. Para conseguir esto, es común reducir
la velocidad de muestreo y por tanto la anchura de banda de audio.
También es común disminuir el número de niveles de cuantificación,
permitiendo ocasionalmente una distorsión de cuantificación audible,
y emplear la degradación del campo estéreo a través de la
codificación de intensidad. El uso excesivo de tales métodos da como
resultado una degradación perceptible molesta. La tecnología actual
de los codecs está cercana a la saturación y no se espera un
progreso adicional en la ganancia de la codificación. Con el fin de
mejorar aún más el rendimiento de la codificación, es necesario un
nuevo enfoque.
La voz humana y la mayoría de los instrumentos
musicales generan señales cuasi estacionarias que emergen desde los
sistemas oscilantes. De acuerdo con la teoría de Fourier, cualquier
señal periódica puede ser expresada como una suma de sinusoides con
frecuencias f, 2f, 3f, 4f, 5f, etc., donde f es la frecuencia
fundamental. Las frecuencias forman una serie armónica. Una
limitación de la anchura de banda de tal señal es equivalente a un
truncamiento de la serie armónica. Tal truncamiento altera el timbre
y color de tono percibidos de un instrumento musical o voz, y
conlleva una señal de audio que sonará "amortiguada" o
"apagada", y puede reducirse la inteligibilidad. Las altas
frecuencias son, por tanto, importantes para la impresión subjetiva
de la calidad del sonido.
Los métodos de la técnica anterior están
principalmente orientados a la mejora del rendimiento del codec y,
en particular, orientados a la Regeneración de Alta Frecuencia
(HFR), que es un problema en la codificación del habla. Tales
métodos emplean desplazamientos lineales de frecuencia en banda
ancha, no linealidades o distorsión por repliegue del espectro
(patente de Estados Unidos núm. 5.127.054) que generan productos de
intermodulación u otros componentes no armónicos de frecuencia que
originan una severa disonancia cuando se aplican a señales
musicales. Tales disonancias son denominadas en la literatura de la
codificación del habla como sonido "áspero" y "basto".
Otros métodos HFR de habla sintética generan armónicos sinusoidales
que están basados en la estimación del tono fundamental y están por
tanto limitados a sonidos de tono estacionarios (patente de Estados
Unidos núm. 4.771.465). Tales métodos de la técnica anterior, aunque
útiles para aplicaciones de habla de baja calidad, no funcionan en
señales de habla de alta calidad o musicales. Unos pocos métodos
intentan mejorar el rendimiento de los codecs de fuentes de audio de
alta calidad. Se usan señales de ruido sintético generadas en el
descodificador para sustituir señales similares al ruido en el habla
o en la música, previamente descartadas por el codificador
("Mejora de los codecs de audio por medio de la sustitución del
ruido", de D. Schultz, JAES, Vol. 44, núm. 7/8, 1996). Esto se
realiza dentro de una banda alta, transmitida por otra parte
normalmente, en una base de intermitencia cuando hay presentes
señales de ruido. Otro método vuelve a crear algunos armónicos
ausentes de la banda alta que se perdieron en el proceso de
codificación ("Codificador Espectral de Audio" de A.J.S.
Ferreira, AES Preprint 4201, Convención 100, mayo
11-14 de 1996, Copenhague) y depende nuevamente de
señales de tono y detección del tono. Ambos métodos funcionan en
base a un ciclo de trabajo bajo ofreciendo nuevamente una
codificación o ganancia del rendimiento comparativamente
limitadas.
La patente de Estados Unidos núm. 5.127.054
divulga una mejora en la calidad del habla para codificadores de voz
y sintetizadores. Un codificador genera una señal codificada que
contiene información espectral esencial consistente en muestras
diezmadas de las sub-bandas espectrales más
significativas. Estas muestras son interpoladas apropiadamente en
una pluralidad de filtros de reconstrucción. La salida de los
filtros es sumada y, por una parte, alimentada a un sumador final y,
por otra parte, introducida en un dispositivo no lineal para generar
una señal armónica que comprende una pluralidad de señales armónicas
generadas a partir de la información espectral esencial contenida en
las sub-bandas de habla seleccionadas. La señal
armónica es encaminada a una pluralidad de filtros de
sub-bandas que limitan la banda de la señal armónica
con las bandas de interés particulares. Las señales armónicas
filtradas son ajustadas en una etapa de ganancia opcional.
La patente de Estados Unidos núm. 4.667.340
divulga un sistema de mensajería de voz con codificación en banda
base congruente con el tono. Un codificador genera parámetros LPC
más una señal residual, que son transmitidos. Para ahorrar anchura
de banda, la señal residual es filtrada de manera que solamente una
fracción de su anchura de banda completa es transmitida desde el
codificador al descodificador. En el descodificador, la señal
residual transmitida es copiada o ampliada de alguna otra manera a
unas frecuencias más altas para proporcionar la señal de excitación
que es filtrada de acuerdo con parámetros LPC para proporcionar la
salida de habla reconstituida.
Es un objeto de la presente invención
proporcionar un concepto para una réplica mejorada de la banda
espectral.
Este objeto se consigue por medio de un método
para descodificar una señal codificada de acuerdo con la
reivindicación 1, o un aparato para descodificar una señal
codificada de acuerdo con la reivindicación 21.
La presente invención proporciona un nuevo método
y un aparato para mejoras sustanciales de los sistemas de
codificación de fuentes digitales y, más específicamente, para
mejorar los codecs de audio. El objetivo incluye una reducción de la
velocidad de bits o una calidad perceptible mejorada, o una
combinación de ambas cosas. La invención está basada en nuevos
métodos de explotación de redundancia armónica, ofreciendo la
posibilidad de descartar bandas de paso de una señal antes de la
transmisión o del almacenamiento. No se percibe una degradación
perceptible si el descodificador realiza una réplica espectral de
alta calidad de acuerdo con la invención. Los bits descartados
representan la ganancia de la codificación con una calidad
perceptible fija. Alternativamente, pueden asignarse más bits para
codificar la información de banda baja a una velocidad de bits fija,
consiguiendo así una calidad perceptible más alta.
La presente invención postula que una serie
armónica truncada puede ser ampliada basándose en la relación
directa entre componentes espectrales de banda baja y de banda alta.
Esta serie ampliada se asemeja al original en un sentido perceptible
si se siguen ciertas reglas: en primer lugar, las componentes
espectrales extrapoladas deben estar armónicamente relacionadas con
la serie armónica truncada, con el fin de evitar artefactos
relacionados con la disonancia. La presente invención utiliza la
transposición como un medio para el proceso de réplica espectral,
que asegura que se cumple este criterio. Sin embargo, no es
necesario que las componentes espectrales de banda baja formen una
serie armónica para un funcionamiento con éxito, ya que las nuevas
componentes de la réplica, armónicamente relacionadas con las de la
banda baja, no alterarán la naturaleza similar al ruido o
transitoria de la señal. Se define una transposición como una
transferencia de parciales desde una posición a otra en la escala
musical, al tiempo que se mantienen las relaciones de frecuencia de
las parciales. En segundo lugar, la envolvente espectral, es decir,
la distribución espectral aproximada, de la banda alta de la
réplica, debe parecerse razonablemente bastante a la señal original.
La presente invención ofrece dos modos de funcionamiento,
SBR-1 y SBR-2, que difieren en la
manera en que se ajusta la envolvente espectral.
El SBR-1, orientado a la mejora
de las aplicaciones de codecs de calidad intermedia, es un proceso
de un solo extremo que confía exclusivamente en la información
contenida en una señal de banda baja o de paso bajo recibida en el
descodificador. La envolvente espectral de esta señal está
determinada y es extrapolada, por ejemplo, utilizando polinomios
junto con un conjunto de reglas o con un libro de código. Esta
información es utilizada para ajustar continuamente e igualar la
réplica de banda ancha. El presente método SBR-1
ofrece la ventaja de un post-proceso, es decir, no
se necesitan modificaciones en el lado del codificador. Un emisor de
radiodifusión ganará en utilización del canal o será capaz de
ofrecer una calidad perceptible mejorada o una combinación de ambas.
Pueden utilizarse sin modificación la sintaxis y estándares
existentes para las cadenas de bits.
El SBR-2, orientado a la mejora
de las aplicaciones de codecs de alta calidad, es un proceso de dos
terminaciones, en el que, además de la señal de banda baja
transmitida de acuerdo con el SBR-1, se codifica y
se transmite la envolvente espectral de la banda alta. Como las
variaciones de la envolvente espectral tiene una velocidad muy
inferior a las componentes de la señal de banda alta, solamente se
necesita transmitir una cantidad limitada de información con el fin
de representar con éxito la envolvente espectral. El
SBR-2 puede ser utilizado para mejorar el
rendimiento de las tecnologías actuales de codecs sin modificaciones
o con modificaciones menores de la sintaxis y protocolos existentes,
y como una herramienta valiosa para el desarrollo futuro de
codecs.
Tanto SBR-1 como
SBR-2 pueden utilizarse para réplicas de bandas de
paso inferiores de la banda baja cuando tales bandas son cerradas
por el codificador como se estipula en el modelo psicoacústico en
condiciones de poca cantidad de bits. Esto da como resultado una
mejora de la calidad perceptible por la réplica espectral dentro de
la banda baja además de la réplica espectral fuera de la banda baja.
Además, SBR-1 y SBR-2 pueden
utilizarse también en codecs que empleen la escalación de la
velocidad de bits, donde la calidad perceptible de la señal en el
receptor varía dependiendo de las condiciones del canal de
transmisión. Esto implica normalmente unas variaciones molestas de
la anchura de banda de audio en el receptor. Bajo tales condiciones,
los métodos SBR pueden ser utilizados con éxito con el fin de
mantener una anchura de banda constantemente alta, mejorando de
nuevo la calidad perceptible.
La presente invención funciona en una base de
continuidad, efectuando réplicas de cualquier tipo de contenido de
la señal, es decir, ya sea de tono o no (similares al ruido y a
señales transitorias). Además, el presente método de réplica
espectral crea una réplica perceptiblemente precisa de las bandas
descartadas de las bandas de frecuencia disponibles en el
descodificador. Por tanto, el método SBR ofrece un nivel
sustancialmente más alto de ganancia de la codificación o de la
mejora de la calidad perceptible en comparación con métodos de la
técnica anterior. La invención puede ser combinada con tales métodos
de mejora de codecs de la técnica anterior; sin embargo, no es de
esperar una ganancia del rendimiento debida a tales
combinaciones.
El método SBR comprende los pasos siguientes:
- -
- codificación de una señal obtenida a partir de una señal original, donde las bandas de frecuencia de la señal son descartadas y el descarte se efectúa antes o durante la codificación, formando una primera señal,
- -
- durante o después de la codificación de la primera señal, trasponer las bandas de frecuencia de la primera señal, formado una segunda señal,
- -
- efectuar un ajuste de la envolvente espectral, y
- -
- combinar la señal descodificada y la segunda señal, formando una señal de salida.
Las bandas de paso de la segunda señal pueden ser
establecidas de manera que no se solapen o que se solapen
parcialmente con las bandas de paso de la primera señal, y pueden
ser establecidas en dependencia de las características temporales de
la señal original y/o de la primera señal, o de las condiciones del
canal de transmisión. El ajuste de la envolvente espectral se
efectúa basándose en una estimación de la envolvente espectral
original de la primera señal, o bien en la información de envolvente
transmitida de la señal original.
La presente invención incluye dos tipos básicos
de dispositivos de trasposición: los dispositivos de trasposición
multibanda y los dispositivos de trasposición por predicción de
búsqueda del modelo que varía con el tiempo, que tienen propiedades
diferentes. Una trasposición multibanda básica puede ser efectuada
de acuerdo con la presente invención por medio de lo siguiente:
- -
- filtrar la señal a trasponer por medio de un conjunto de N \geq 2 filtros de paso de banda con bandas de paso que comprenden las frecuencias (f_{1}, ... f_{N}) respectivamente, formando N señales de paso de banda,
- -
- hacer un desplazamiento en frecuencia de las señales de banda de paso a regiones que comprendan las frecuencias M(f_{1}, ... f_{N}), donde M \neq 1 es el factor de trasposición, y
- -
- combinar las señales de banda de paso desplazadas, formando una señal traspuesta.
Alternativamente, esta trasposición multibanda
básica puede ser efectuada de acuerdo con la invención por medio de
lo siguiente:
- -
- filtrar en paso de banda la señal a trasponer utilizando un banco de filtros de análisis o una transformada de tal naturaleza que se generen las señales con valor real o complejo de tipo de paso bajo,
- -
- se conecta un número arbitrario de canales k de dicho banco de filtros o transformada a los canales Mk, M \neq 1, en un banco de filtros de análisis o transformada, y
- -
- se forma la señal traspuesta utilizando el banco de filtros de síntesis o transformada.
Una trasposición multibanda mejorada de acuerdo
con la invención, incorpora ajustes de fase, reforzando el
rendimiento de la trasposición multibanda básica.
La trasposición por predicción de búsqueda del
modelo que varía con el tiempo de acuerdo con la presente invención
puede ser efectuada por lo siguiente:
- -
- efectuar una detección de transitorios en la primera señal,
- -
- determinar qué segmento de la primera señal ha de utilizarse cuando se duplican/descartan partes de la primera señal dependiendo del resultado de la detección de transitorios,
- -
- ajustar las propiedades del vector de estado y del libro de código dependiendo del resultado de la detección de transitorios, y
- -
- buscar puntos de sincronización en segmentos elegidos de la primera señal, basándose en el punto de sincronización encontrado en la búsqueda previa del punto de sincronización.
Los métodos SBR y los aparatos de acuerdo con la
presente invención ofrecen las siguientes características:
- 1.
- Los métodos y aparatos explotan nuevos conceptos de redundancia de la señal en el dominio espectral.
- 2.
- Los métodos y aparatos son aplicables en señales arbitrarias.
- 3.
- Cada conjunto armónico es creado y controlado individualmente.
- 4.
- Todos los armónicos de los que se hace una réplica son generados de tal manera que forman una continuación de la serie armónica existente.
- 5.
- El proceso de réplica espectral está basado en la trasposición y no crea artefactos o bien son imperceptibles.
- 6.
- La réplica espectral puede cubrir bandas múltiples más pequeñas y/o una amplia gama de frecuencias.
- 7.
- En el método SBR-1, el proceso se realiza solamente en el lado del descodificador, es decir, pueden utilizarse todos los estándares y protocolos sin modificación.
- 8.
- El método SBR-2 puede ser implantado de acuerdo con la mayoría de los estándares y protocolos sin modificaciones o con modificaciones mínimas.
- 9.
- El método SBR-2 ofrece al diseñador de codecs una nueva y potente herramienta de compresión.
- 10.
- La ganancia de la codificación es significativa.
La aplicación más atractiva está relacionada con
la mejora de los diversos tipos de codecs de velocidades de bits
bajas, tales como la Capa I/II/III de MPEG 1/2 (patente de Estados
Unidos núm. 5.040.217) el AC de MPEG 2/4, el Dolby
AC-2/3, el NTT TwinVQ (patente de Estados Unidos
núm. 5.684.920), el PAC de AT&T/Lucent, etc. La invención es
útil también en los codecs de habla de alta calidad, tales como el
CELP de banda ancha y el SB-ADPCM G.722, etc., para
mejorar la calidad percibida. Los codecs anteriores se usan
ampliamente en multimedia, en la industria telefónica, en Internet,
así como en aplicaciones profesionales. Los sistemas
T-DAB (Radiodifusión Terrestre de Audio Digital)
utilizan protocolos de baja velocidad de bits que ganan en la
utilización del canal utilizando el presente método, o mejoran la
calidad en FM y en AM DAB. El S-DAB por satélite
ganará considerablemente, debido a los excesivos costes del sistema
involucrados, utilizando el método presente para aumentar el número
de canales de programas en el múltiplex de DAB. Además, por primera
vez, se puede conseguir un flujo de audio en tiempo real de anchura
de banda completa por Internet, utilizando módems telefónicos de
baja velocidad de bits.
A continuación se describirá la presente
invención, a modo de ejemplos ilustrativos, con referencia a los
dibujos que se acompañan, en los cuales:
La figura 1 ilustra el SBR incorporado en un
sistema de codificación de acuerdo con la presente invención;
La figura 2 ilustra la réplica espectral de
armónicos superiores de acuerdo con la presente invención;
La figura 3 ilustra la réplica espectral de
armónicos dentro de la banda, de acuerdo con la presente
invención;
La figura 4 es un diagrama de bloques para una
implantación en el dominio del tiempo de un dispositivo de
trasposición de acuerdo con la presente invención;
La figura 5 es un diagrama de flujo que
representa un ciclo de funcionamiento del dispositivo de
trasposición por predicción de búsqueda del modelo, de acuerdo con
la presente invención;
La figura 6 es un diagrama de flujo que
representa la búsqueda para el punto de sincronización de acuerdo
con la presente invención;
La figura 7a-7b ilustra la
posición del libro de código durante transitorios, de acuerdo con la
presente invención;
La figura 8 es un diagrama de bloques para una
implantación de varios dispositivos de trasposición en el dominio
del tiempo, en conexión con un banco de filtros apropiado, para el
funcionamiento SBR de acuerdo con la presente invención;
Las figuras 9a-9c son diagramas
de bloques que representan un dispositivo para el análisis y
síntesis STFT configurados para la generación de armónicos de
segundo orden, de acuerdo con la presente invención;
Las figuras 10a-10b son diagramas
de bloques de una sub-banda con un desplazamiento
lineal de frecuencias en el dispositivo STFT de acuerdo con la
presente invención;
La figura 11 muestra una
sub-banda que utiliza un multiplicador de fase de
acuerdo con la presente invención;
La figura 12 ilustra cómo se generan armónicos de
tercer orden de acuerdo con la presente invención;
La figura 13 ilustra cómo se generan
simultáneamente armónicos de segundo y tercer orden de acuerdo con
la presente invención;
La figura 14 ilustra la generación de una
combinación sin solapamiento de varios órdenes de armónicos de
acuerdo con la presente invención;
La figura 15 ilustra la generación de una
combinación intercalada de varios órdenes de armónicos de acuerdo
con la presente invención;
La figura 16 ilustra la generación de
desplazamientos lineales de frecuencia de banda ancha;
La figura 17 ilustra cómo se generan
sub-armónicos de acuerdo con la presente
invención;
Las figuras 18a-18b son diagramas
de bloques de un codec de percepción;
La figura 19 muestra una estructura básica de un
banco de filtros diezmado de manera máxima;
La figura 20 ilustra la generación de armónicos
de segundo orden en un banco de filtros diezmado de manera máxima de
acuerdo con la presente invención;
La figura 21 es un diagrama de bloques para una
trasposición multibanda mejorada en un banco de filtros diezmado de
manera máxima funcionando sobre señales de
sub-banda, de acuerdo con la presente invención;
La figura 22 es un diagrama de flujo que
representa la trasposición multibanda mejorada en un banco de
filtros diezmado de manera máxima funcionando sobre señales de
sub-banda, de acuerdo con la presente invención;
La figura 23 ilustra muestras de
sub-banda y factores de escalación de un codec
típico;
La figura 24 ilustra muestras de
sub-banda e información de la envolvente para
SBR-2 de acuerdo con la presente invención;
La figura 25 ilustra transmisión oculta de
información de la envolvente para SBR-2 de acuerdo
con la presente invención;
La figura 26 ilustra codificación de redundancia
en SBR-2, de acuerdo con la presente invención;
La figura 27 ilustra una implantación de un codec
que utiliza el método SBR-1 de acuerdo con la
presente invención; y
La figura 28 ilustra una implantación de un codec
que utiliza el método SBR-2 de acuerdo con la
presente invención;
La figura 29 es un diagrama de bloques de un
generador de "pseudo-estéreo" de acuerdo con la
presente invención.
A lo largo de la explicación de los modos de
realización presentes, se pone el énfasis en las aplicaciones de
codificación de fuentes de audio naturales. Sin embargo, debe quedar
entendido que la presente invención es aplicable a una gama de
aplicaciones de codificación de audio distintas a la codificación y
descodificación de señales de audio.
La trasposición, como se define de acuerdo con la
presente invención, es el método ideal para la réplica espectral, y
tiene varias ventajas principales sobre la técnica anterior, tales
como: no requerir la detección de tono, se obtiene un rendimiento
igualmente alto para el material de programas de un solo tono y
polifónicos, y la trasposición funciona igual de bien en señales con
o sin tono. Al contrario que otros métodos, la trasposición de
acuerdo con la invención puede utilizarse en sistemas de
codificación de fuentes arbitrarias de audio para tipos arbitrarios
de señales.
En la trasposición exacta se define un factor M
de una señal discreta en el tiempo x(n) en forma de suma de
cosenos con amplitudes que varían en el tiempo, por la relación
(1)x(n) =
\sum\limits^{N - 1}_{i = 0}e_{i} \ (n) \ cos(2\pi f_{i} \ n \
/ \ f_{s} +
\alpha_{i})\rightarrow
(2)y(n) =
\sum\limits^{N - 1}_{i = 0}e_{i} \ (n) \ cos(2\pi hdf_{i} \ n
\ / \
f_{x}+\beta_{i})
donde N es el número de sinusoides, en adelante
denominadas parciales, f_{i}, e_{i}(n), \alpha_{i}
son las frecuencias de entrada individuales, las envolventes de
tiempo, y las constantes de fase, respectivamente, \beta_{i} son
las constantes arbitrarias de fase de salida, y f_{s} es la
frecuencia de muestreo, y 0 \leq Mf_{i} \leq
f_{i}/2.
En la figura 2, se muestra la generación de
armónicos de orden M-simo, donde M es un entero
\geq 2. El término armónicos de orden M-simo se
usa por simplicidad, aunque el proceso genera armónicos de orden
M-simo en todas las señales de una cierta región de
frecuencias, que en la mayoría de los casos son ellos mismos
armónicos de orden desconocido. La señal de entrada con la
representación X(f) en el dominio del tiempo, está limitada
en una banda en la gama de 0 a f_{max}, 201. El contenido de la
señal en la gama de f_{max}/M a Qf_{max}/M, donde Q es el factor
de expansión de anchura de banda deseado, 1 < Q \leq M, es
extraído por medio de un filtro de paso de banda, formando una señal
de banda de paso con un espectro X_{BP}(f), 203. La señal
de paso de banda es traspuesta en un factor M, formando una segunda
señal de paso de banda con un espectro X_{T}(f) que cubre
la gama f_{max} a Qf_{max}, 205. La envolvente espectral de esta
señal es ajustada por medio de un ecualizador controlado por
programa, formando una señal con espectro X_{E}(f), 207.
Esta señal es combinada después con una versión retardada de la
señal de entrada, con el fin de compensar el retardo impuesto por el
filtro de paso de banda y el dispositivo de trasposición, por lo que
se forma una señal de salida con espectro Y(f) que cubre la
gama 0 a Qf_{max}, 209. Alternativamente, el filtrado de paso de
banda puede ser efectuado después de la trasposición M, utilizando
frecuencias de corte f_{max} y Qf_{max}. Utilizando dispositivos
múltiples de trasposición es posible, naturalmente, la generación
simultánea de diferentes órdenes de armónicos. El esquema anterior
puede ser utilizado para "rellenar" bandas de detención dentro
de la señal de entrada, como se ilustra en la figura 3, donde la
señal de entrada tiene una banda de detención que se extiende desde
f_{0} a Qf_{0}, 301. Se extrae después una banda de paso
(f_{0}/M, Qf_{0}/M), 303, traspuesta por un factor M a (f_{0},
Qf_{0}), 305, ajustada en envolvente, 307 y combinada con la señal
de entrada retardada, formando una señal de salida con espectro
Y(f), 309.
Puede utilizarse una aproximación de una
trasposición exacta. De acuerdo con la presente invención, la
calidad de tales aproximaciones se determina utilizando la teoría de
la disonancia. Un criterio para la disonancia lo presenta Plomp
("Consonancia total y anchura de banda crítica", R. Plomp,
W.J.M. Levelt, JASA, vol. 38, 1965), y afirma que se consideran
disonantes dos parciales si la diferencia de frecuencias está dentro
de aproximadamente 5 a 50% de la anchura de banda de la banda
crítica en la cual se sitúan las parciales. Como referencia, la
anchura de banda crítica para una frecuencia dada puede ser
aproximada por
(3)cb(f) = 25 +
75\left(i + 1,4
\left(\frac{f}{1000}\right)^{2}\right)^{0,69}
donde f y cb están en hertzios. Además, Plomp
afirma que el sistema auditivo humano no puede discriminar dos
parciales si difieren en frecuencia aproximadamente en menos del
cinco por ciento de la anchura de banda crítica en la cual están
situadas. La trasposición exacta en la ecuación 2 está aproximada
por:
(4)y_{aprox} \ (n) =
\sum\limits^{N - 1}_{i = 0}e_{i} \ (n) \
cos(2\pi(Mf_{i}\pm\Delta f_{i})n \ / \ f_{s} +
\beta_{i})
donde \Deltaf_{i} es la desviación desde la
trasposición exacta. Si las parciales de entrada forman una serie
armónica, una hipótesis de la invención establece que las
desviaciones desde la serie armónica de las parciales traspuestas no
deben exceder del cinco por ciento de la anchura de banda crítica en
la que están situadas. Esto explicaría por qué los métodos de la
técnica anterior dan resultados insatisfactorios en cuanto
"aspereza" y "tosquedad", ya que los desplazamientos
lineales de frecuencia de banda ancha conllevan una desviación mucho
mayor que la aceptable. Cuando los métodos de la técnica anterior
generan más de una parcial para una sola parcial de entrada, las
parciales deben estar, no obstante, dentro del límite establecido
anteriormente para la desviación, como si debieran percibirse como
una sola parcial. Esto explica nuevamente los pobres resultados
obtenidos con los métodos de la técnica anterior que utilizan no
linealidades, etc., ya que generan parciales de intermodulación que
no están dentro del límite de la
desviación.
Cuando se utiliza el método anterior basado en la
trasposición de réplica espectral de acuerdo con la presente
invención, se consiguen las siguientes propiedades importantes:
- -
- Normalmente no tiene lugar ningún solapamiento entre los armónicos de la réplica y las parciales existentes.
- -
- Las parciales de la réplica están armónicamente relacionadas con las parciales de la señal de entrada y no provocarán ninguna disonancia o artefacto.
- -
- La envolvente espectral de los armónicos de la réplica forma una suave continuación de la envolvente espectral de la señal de entrada, que se ajusta perceptiblemente a la envolvente original.
Existen diversas maneras de diseñar los
dispositivos de trasposición requeridos. Las implantaciones típicas
en el dominio del tiempo amplían la señal en el tiempo duplicando
segmentos de la señal basados en el periodo del tono. Esta señal es
leída posteriormente a una velocidad diferente. Desafortunadamente,
tales métodos son estrictamente dependientes de la detección del
tono para poder empalmar con precisión en el tiempo los segmentos de
la señal. Además, la restricción de trabajar en segmentos de señal
basados en el periodo del tono, los hace sensibles a transitorios.
Como el periodo de tono detectado puede ser mucho más largo que el
transitorio real, es obvio el riesgo de duplicar el transitorio
completo en lugar de simplemente expandirlo en el tiempo. Otro tipo
de algoritmos para el dominio del tiempo obtiene la
compresión/expansión en el tiempo de señales de habla utilizando la
predicción de búsqueda del modelo de la señal de salida
("Predicción de búsqueda del modelo para el habla", de R.
Bogner, T.Li, Proc. ICASSP '89, vol. 1, mayo de 1989,
"Modificación de la escala de tiempos del habla basada en un
modelo no lineal de oscilador", de G. Kubin, W.B. Kleijn, IEEE,
1994). Esta es una forma de síntesis granular, donde la señal de
entrada es dividida en pequeñas partes, gránulos, utilizados para
sintetizar la señal de salida. Esta síntesis se hace usualmente
efectuando una correlación de segmentos de la señal con el fin de
determinar los mejores puntos de empalme. Esto significa que los
segmentos utilizados para formar la señal de salida no son
dependientes del periodo del tono, y por tanto no se requiere la
tarea nada trivial de la detección del tono. No obstante, permanecen
en estos métodos los problemas con las amplitudes de señal
rápidamente cambiantes, y la trasposición de alta calidad tiende a
elevar las demandas de grandes cálculos. Sin embargo, se presenta
ahora un cambiador de tono/dispositivo de trasposición mejorado en
el dominio del tiempo, donde el uso de la detección de transitorios
y de parámetros dinámicos del sistema genera una trasposición más
precisa para altos factores de trasposición, durante los sonidos
estacionarios (con tono o sin tono) y los sonidos transitorios, a un
coste de cálculo bajo.
Haciendo referencia a los dibujos, en los que las
referencias numéricas similares indican elementos similares, en la
figura 4 se muestran nueve módulos independientes: un detector 401
de transitorios, un ajustador 403 de posición de ventana, un
generador 405 de libro de código, un selector 407 de señal de
sincronización, una memoria 409 de posición de la sincronización, un
estimador 411 de diferencia mínima, una memoria 413 de segmentos de
salida, una unidad 415 de mezclado, y un dispositivo 417 de muestreo
hacia abajo. La señal de entrada es alimentada al generador 405 de
libro de código y al detector 401 de transitorios. Si se detecta un
transitorio, su posición es enviada al módulo 403 de posición de
ventana. Este módulo estipula el tamaño y la posición de la ventana,
que se multiplica con la señal de entrada cuando se crea el libro de
código. El generador 405 de libro de código recibe una posición de
sincronización desde el módulo 407 de selección de sincronización,
siempre que haya sido conectado a otro dispositivo de trasposición.
Si esta posición de sincronización está dentro del libro de código,
se utiliza y se produce un segmento de salida. En caso contrario, el
libro de código es enviado al estimador 411 de diferencia mínima que
devuelve una nueva posición de sincronización. En el módulo 415 de
mezcla se ajusta la ventana del nuevo segmento de salida junto con
el segmento de salida anterior en el módulo y, posteriormente, se le
hace un muestreo hacia abajo en el módulo 417.
Con el fin de aclarar la explicación, se
introduce una representación de espacios de estado. Aquí, los
vectores, o gránulos, representan las señales de entrada y salida.
La señal de entrada está representada por un vector de estado
x(n):
(5)x(n) =
[x(n), x(n - D), x(n - 2D), ..., x(n -
(N -
1)D)]
que se obtiene a partir de N muestras retardadas
de la señal de entrada, donde N es la dimensión del vector de estado
y D es el retardo entre las muestras de entrada utilizadas para
construir el vector. El establecimiento de un mapa granular obtiene
la muestra x(n) que sigue a cada vector de estado
x(n-1). Esto produce la ecuación 6, en la que
a(.) es el establecimiento del
mapa:
(6)x(n) =
a(x(n -
1)).
En el método presente, el establecimiento del
mapa granular se utiliza para determinar la salida siguiente basada
en la salida anterior, utilizando un libro de código de transición
de estados. El libro de código de longitud L es reconstruido
continuamente, conteniendo los vectores de estado y la muestra
siguiente que está detrás de cada vector de estado. Cada vector de
estado está separado de su vecino por K muestras; esto permite al
sistema ajustar la resolución de tiempos dependiendo de las
características de la señal actualmente procesada, donde cuando K es
igual a uno se representa la resolución más fina. El segmento de la
señal de entrada utilizado para construir el libro de código es
elegido basándose en la posición de un posible transitorio y en la
posición de la sincronización en el libro de código anterior.
Esto significa que el establecimiento de un mapa
a(.), teóricamente, es evaluado para todas las transiciones
incluidas en el libro de código:
Con este libro de código de transición, la nueva
salida y(n) es calculada buscando el vector de estado en el
libro de código que sea más parecido al vector de estado actual
y(n-1). Esta búsqueda del vecino más próximo
se hace calculando la diferencia mínima y produce la nueva muestra
de salida:
(8)y(n) =
a(y(n-1))
Sin embargo, el sistema no está limitado a
funcionar sobre una base de muestra a muestra, sino que funciona
preferiblemente en base a segmentos. El nuevo segmento de salida es
ajustado en ventana y sumado, mezclado, con el segmento de salida
anterior y, posteriormente, se le hace un muestreo hacia abajo. El
factor de trasposición de tono está determinado por la relación de
la longitud del segmento de entrada representado por el libro de
código y la longitud del segmento de salida leído desde el libro de
código.
Volviendo a los dibujos, en la figura 5 y en la
figura 6, se presentan diagramas de flujo, que muestran el ciclo de
funcionamiento del dispositivo de trasposición. En 501 se
representan los datos de entrada y en 503 se efectúa una detección
de transitorios en un segmento de la señal de entrada; la búsqueda
de transitorios se efectúa en una longitud del segmento igual a la
longitud del segmento de salida. Si se encuentra un transitorio,
505, la posición del transitorio se almacena, 507, y se ajustan,
509, los parámetros L (que representa la longitud del libro de
código), K (que representa la distancia en muestras entre cada
vector de estado), y D (que representa el retardo entre muestras en
cada vector de estado). La posición del transitorio es comparada con
la posición del segmento de salida anterior, 511, con el fin de
determinar si se ha procesado el transitorio. Si es así, 513, se
ajusta, 515, la posición del libro de código (ventana L), y los
parámetros K, L y D. Tras los ajustes necesarios de los parámetros,
basándose en el resultado de la detección de transitorios, tiene
lugar la búsqueda, 517, de una nueva sincronización o punto de
empalme. Este procedimiento está presentado en la figura 6. Primero
se calcula un nuevo punto de sincronización basándose en el
anterior, 601, de acuerdo con:
(9)Sync\_pos =
Sync\_pos\_old + S.M
-S,
donde Sync_pos y Sync_pos_old son las posiciones
de sincronización nueva y antigua, respectivamente, S es la longitud
del segmento de entrada que se está procesando, y M es el factor de
trasposición. Este punto de sincronización se utiliza para comparar
la precisión del nuevo punto de empalme con la precisión del antiguo
punto de empalme, 603. Si la coincidencia es tan buena o mejor que
la anterior, 605 se devuelve este nuevo punto de sincronización,
607, siempre que esté dentro del libro de código. Si no es así, se
busca un nuevo punto de sincronización en el bucle 609. Este se
realiza con una medida de similitud, en este caso con una función
611 de diferencia mínima; sin embargo, es posible también utilizar
la correlación en el dominio de tiempos o de frecuencias. Si la
posición conlleva una coincidencia mejor que la posición anterior
encontrada, 613, se almacena la posición de sincronización, 615.
Cuando se han intentado todas las posiciones, 617, el sistema
vuelve, 619, al diagrama de flujo de la figura 5. El nuevo punto de
sincronización obtenido es almacenado, 519, y se lee un nuevo
segmento en el libro de código, 521, comenzando en el punto de
sincronización dado. Este segmento es ajustado en ventana y añadido
al anterior, 523, se le hace un muestreo hacia abajo por el factor
de trasposición, 525, y se almacena en la memoria intermedia de
salida,
527.
527.
En la figura 7, se ilustra el comportamiento del
sistema bajo condiciones transitorias con relación a la posición del
libro de código. Antes del transitorio, el libro de código 1 que
representa el segmento 1 de entrada es situado "a la izquierda"
del segmento 1. El segmento 1 de correlación representa una parte de
la salida anterior y es utilizado para encontrar el punto 1 de
sincronización en el libro de código 1. Cuando se detecta el
transitorio y se procesa el punto del transitorio, el libro de
código se desplaza de acuerdo con la figura 7a y es estacionario
hasta que el segmento de entrada que se está procesando actualmente
está de nuevo "a la derecha" del libro de código. Esto hace
imposible duplicar el transitorio, ya que no se le permite buscar
los puntos de sincronización antes del transitorio.
La mayoría de los dispositivos de trasposición de
tono, o ampliadores de tiempo, basados en la predicción de búsqueda
del modelo, dan resultados satisfactorios para el material de habla
y de un solo tono. Sin embargo, su funcionamiento se deteriora
rápidamente para señales de alta complejidad, como la música, en
particular con factores de trasposición grandes. La presente
invención ofrece varias soluciones para un rendimiento mejorado,
produciendo por tanto excelentes resultados para cualquier tipo de
señal. Al contrario que otros diseños, el sistema es variable con el
tiempo y los parámetros del sistema están basados en las propiedades
de la señal de entrada y en los parámetros utilizados durante el
ciclo de funcionamiento anterior. El uso de un detector de
transitorios que controle no solamente el tamaño y la posición del
libro de código, sino también las propiedades de los vectores de
entrada incluidos, es un método muy robusto y eficiente desde el
punto de vista de cálculo para evitar la degradación audible durante
segmentos de señal que cambien rápidamente. Además, la alteración de
la longitud del segmento de señal que se está procesando, que
provocaría demandas de cálculo más altas, no es requerida. También,
la presente invención utiliza una búsqueda refinada del libro de
código, basada en los resultados de la búsqueda precedente. Esto
significa que, al contrario que una correlación ordinaria de dos
segmentos de la señal, como se hace usualmente en sistemas del
dominio de tiempos basados en la predicción de búsqueda del modelo,
se prueban primero las posiciones de sincronización más probables en
lugar de comprobar todas las posiciones consecutivamente. Este nuevo
método de reducción de la búsqueda del libro de código reduce
drásticamente la complejidad de cálculo del sistema. Además, cuando
se utilizan varios dispositivos de trasposición, la información de
la posición de sincronización puede ser compartida entre los
dispositivos de trasposición para una reducción adicional de la
complejidad de cálculo, como se muestra en la siguiente
realización.
Los dispositivos de trasposición en el dominio
del tiempo, como se ha explicado anteriormente, son utilizados para
implantar sistemas SBR-1 y SBR-2 de
acuerdo con el siguiente ejemplo ilustrativo, pero no limitativo. En
la figura 8, se utilizan tres módulos de expansión del tiempo con el
fin de generar armónicos de segundo, tercero y cuarto órdenes. Como
en este ejemplo, cada dispositivo de trasposición/expansión del
dominio de tiempos trabaja en una señal de banda ancha, es
beneficioso ajustar la envolvente espectral de la gama de
frecuencias de la fuente antes de la trasposición, considerando que
no habrá medios para hacerlo después de la trasposición, sin añadir
un sistema ecualizador independiente. Los ajustadores 801, 803 y 805
de envolvente espectral funcionan, cada uno de ellos, en varios
canales de bancos de filtros. La ganancia de cada canal en los
ajustadores de envolvente debe ser establecida de manera que la
suma, 813, 815, 817, a la salida, tras la trasposición, conduzca a
la envolvente espectral deseada. Los dispositivos 807, 809 y 811 de
trasposición están interconectados con el fin de compartir
información de posición de la sincronización. Esto está basado en el
hecho de que, bajo ciertas condiciones, tendrá lugar una alta
correlación entre las posiciones de sincronización encontradas en el
libro de código durante la correlación en las unidades de
trasposición independientes. Supóngase, como ejemplo y sin limitar
nuevamente el alcance de la invención, que el dispositivo de
trasposición de armónicos de cuarto orden funciona en base a un
periodo de tiempo mitad que el dispositivo de trasposición de
armónicos de segundo orden, pero al doble de su ciclo de trabajo.
Supóngase también que los libros de código utilizados para los dos
ampliadores son los mismos y que las posiciones de sincronización de
los dos ampliadores del dominio de tiempos están etiquetadas como
sync_pos4 y sync_pos2, respectivamente. Esto conduce a la relación
siguiente:
(10)sync_pos2 =
sync_pos4-n.4.S-sync_offset, para n
=
1,2,3,4,..
donde
(11)sync_offset =
sync_pos4-sync_pos2, para n =
0,
y S es la longitud del segmento de entrada
representado por el libro de código. Esto es válido siempre que
ninguno de los punteros de posición de la sincronización alcance el
final del libro de código. Durante el funcionamiento normal, n es
aumentado en uno para cada periodo de tiempo procesado por el
dispositivo de trasposición de armónicos de segundo orden, y cuando
se alcanza inevitablemente el final del libro de código, por
cualquiera de los punteros, el contador n es puesto en n=0, y como
sync_pos4 y sync_pos2 son calculados individualmente. Se obtienen
resultados similares para el dispositivo de trasposición de
armónicos de tercer orden cuando está conectado al dispositivo de
trasposición de armónicos de cuarto
orden.
El uso presentado anteriormente de varios
dispositivos de trasposición del dominio de tiempos interconectados,
para la creación de armónicos de orden superior, introduce una
sustancial reducción del cálculo. Además, el uso propuesto de
dispositivos de trasposición en el dominio de tiempos en conexión
con un banco de filtros apropiado, presenta la oportunidad de
ajustar la envolvente del espectro creado, al tiempo que mantiene la
simplicidad y el bajo coste de cálculo de un dispositivo de
trasposición del dominio de tiempos, ya que estos, más o menos,
pueden ser implantados utilizando aritmética de coma fija y
únicamente operaciones de adición/sustracción.
Otros ejemplos ilustrativos, pero no limitativos,
de la presente invención son:
- -
- la utilización de un dispositivo de trasposición dentro de cada sub-banda en un banco de filtros de sub-banda, reduciendo así la complejidad de la señal en cada uno de los dispositivos de trasposición.
- -
- la utilización de un dispositivo de trasposición del dominio de tiempos en combinación con un dispositivo de trasposición del dominio de frecuencias, permitiendo así al sistema utilizar distintos métodos para la trasposición, dependiendo de las características de la señal de entrada que se está procesando.
- -
- la utilización de un dispositivo de trasposición del dominio de tiempos en un codec de habla de banda ancha, operando por ejemplo sobre la señal residual obtenida tras la predicción lineal.
Debe reconocerse que el método descrito
anteriormente puede ser utilizado ventajosamente para la
modificación de la escala de tiempos solamente, omitiendo
simplemente la conversión de la velocidad de muestreo. Debe ser
entendido además que, aunque el método descrito está enfocado en la
trasposición de un tono a otro tono más alto, es decir, en la
expansión del tiempo, son aplicables los mismos principios cuando se
hace una trasposición a un tono inferior, es decir, en compresión
del tiempo, como es obvio para los expertos en la técnica.
A continuación se describirán diversas técnicas
de trasposición nuevas e innovadoras basadas en bancos de filtros.
La señal a la cual ha de hacerse la trasposición es dividida en una
serie de señales de paso de banda o de sub-bandas.
Las señales de sub-bandas son entonces traspuestas,
de manera exacta o aproximada, lo cual se consigue ventajosamente
por medio de una reconexión de sub-bandas de
análisis y síntesis, en adelante denominadas "parches". El
método se expone primero utilizando una Transformada de Fourier de
Tiempo Corto, STFT.
La STFT de N puntos de una señal discreta
x(n) está definida por
(12)X_{k}(n) =
\sum\limits^{\infty}_{p = \infty} x (p) h (n -
p)e^{-j\omega_{k}p},
donde k = 0, 1, ..., N-1 y
\omega_{k} = 2\pik/N y h(n) es una ventana. Si la
ventana satisface las condiciones
siguientes:
existe una trasformada inversa y viene dada
por
(14)x(n) =
\frac{1}{N}\sum\limits^{N - 1}_{k = 0} X_{k} (n)
e^{j\omega_{k}n}.
La transformada directa puede ser interpretada
como un analizador, véase la figura 9a, consistente en un banco de N
filtros de paso de banda con respuestas de impulsos de
h(n)exp(j\omega_{k}n), 901, seguido por un
banco de N multiplicadores con portadoras exp(-j\omega_{k}n),
903, que desplazan las señales de paso de banda hacia abajo a las
regiones alrededor de 0 Hz, formando las N señales de análisis
X_{k}(n). La ventana actúa como un prototipo de filtro de
paso bajo. Las X_{k}(n) tienen pequeñas anchuras de banda y
son muestreadas normalmente hacia abajo, 905. La ecuación 12
solamente necesita ser evaluada en n = rR, donde R es el factor de
diezmado y r es la nueva variable de tiempo. Las X_{k}(n)
pueden ser recuperadas a partir de las X_{k}(rR) mediante
un muestreo hacia arriba, véase la figura 9b, es decir, una
inserción de ceros, 907, seguida por un filtrado de paso bajo, 909.
La transformada inversa puede ser interpretada como un sintetizador
consistente en un banco de N multiplicadores con portadoras
(1/N)exp(j\omega_{k}n), 911, que desplazan las
señales X_{k}(n) a sus frecuencias originales, seguido por
las etapas 913, figura 9c, que añaden las contribuciones
y_{k}(n) de todos los canales. La STFT y la ISTFT pueden
ser reorganizadas con el fin de utilizar DFT e IDFT, que hacen
posible el uso de algoritmos FFT ["Implantación del Vocoder de
Fase utilizando la Transformada Rápida de Fourier" de M. R.
Portnoff, IEEE ASSP, vol. 24, núm. 3, 1976].
La figura 9c muestra un parche 915 para la
generación de segundos armónicos, M=2, con N=32. Por razones de
simplicidad, solamente se ilustran los canales 0 a 16. La frecuencia
central de paso de banda 16 es igual a la frecuencia de Nyqvist y
los canales 17 a 31 corresponden a frecuencias negativas. Los
bloques indicados como P917 y los bloques 919 de ganancia serán
descritos más adelante y deben ser por el momento considerados en
corto. La señal de entrada en este ejemplo está limitada en su banda
de manera que solamente los canales 0 a 7 contienen señales. Los
canales analizadores 8 a 16 están por tanto vacíos, y no es
necesario establecer un mapa entre ellos y el sintetizador. Los
canales analizadores 0 a 7 están conectados a los canales
sintetizadores 0 a 7, correspondiendo a un camino de retardo de la
señal de entrada. Los canales k de análisis, donde 4 \leq k \leq
7 están conectados también a los canales de síntesis Mk, M=2, que
desplazan las señales a regiones de frecuencia a dos veces las
frecuencias centrales de los filtros k de paso de banda. Por tanto,
las señales son desplazadas hacia arriba a sus gamas originales, así
como traspuestas una octava hacia arriba. Para explorar la
generación de armónicos en términos de respuestas a filtros de valor
real y de los moduladores, también deben considerarse las
frecuencias negativas, véase la rama inferior de la figura 10a. Por
tanto, debe ser evaluada la salida combinada del
re-establecimiento del mapa k \rightarrow Mk,
1001, y N-k \rightarrow N-Mk,
1003, donde 4 \leq k \leq 7.
Esto da como resultado
\newpage
y(n) =
\frac{2}{N}[x(n) \text{*} h(n) cos(\omega_{k}n)]cos((M
- 1)\omega_{k}n)
+
(15)-
\frac{2}{N}[x(n) \text{*} h(n) sen(\omega_{k}n)]sen((M
-
1)\omega_{k}n)
donde M=2. La ecuación 15 debe ser interpretada
como un filtrado paso de banda de la señal de entrada, seguido de un
desplazamiento lineal de frecuencia o modulación de Banda Lateral
Superior (USB), es decir, una modulación de banda lateral única
utilizando la banda lateral superior, véase la figura 10b, donde
1005 y 1007 forman un transformador Hilbert, 1009 y 1011 son
multiplicadores con portadoras coseno y seno y 1013 es una etapa de
diferencia que selecciona la banda lateral superior. Claramente, tal
método de paso de banda y banda lateral única multibanda puede ser
implantado explícitamente, es decir, sin el parche del banco de
filtros, en el dominio de tiempos o de frecuencias, permitiendo una
selección arbitraria de bandas de paso individuales y frecuencias de
oscilador.
De acuerdo con la ecuación 15, una sinusoide con
la frecuencia \omega_{i} dentro de la banda de paso del canal k
de análisis produce un armónico a una frecuencia
M\omega_{k}+(\omega_{i}-\omega_{k}). Por
tanto el método, denominado como trasposición de multibanda básica,
solamente genera armónicos exactos para las señales de entrada con
frecuencias \omega_{i}=\omega_{k}, donde
4 \leq k \leq 7. Sin embargo, si el número de filtros es suficientemente grande, la desviación desde la trasposición exacta es despreciable, véase la ecuación 4. Además, la trasposición se hace exacta para señales de tono cuasi-estacionarias de frecuencias arbitrarias insertando los bloques indicados como P917 (figura 9c), siempre que cada canal de análisis contenga como máximo una parcial. En este caso, X_{k}(rR) son exponenciales complejas con frecuencias iguales a las diferencias entre las frecuencias parciales \omega_{i} y las frecuencias centrales \omega_{k} de los filtros de análisis. Para obtener la trasposición exacta M, estas frecuencias deben ser incrementadas por un factor M, modificando la relación de frecuencias anterior a \omega_{i}\rightarrow M\omega_{k}+M(\omega_{i}-\omega_{k})= M\omega_{i}. Las frecuencias de X_{k}(rR) son iguales a las derivadas con respecto al tiempo de sus respectivos ángulos de fase no recubiertos y pueden ser estimadas utilizando diferencias de primer orden de sucesivos ángulos de fase. Las estimaciones de frecuencias son multiplicadas por M y los ángulos de fase de síntesis son calculados utilizando esas nuevas frecuencias. Sin embargo, se obtiene el mismo resultado, excepto una constante de fase, de una manera simplificada multiplicando los argumentos del análisis directamente por M, eliminando la necesidad de la estimación de frecuencias. Esto se describe en la figura 11, que representa los bloques 917. Por tanto, X_{k}(rR), donde 4 \leq k \leq 7 en este ejemplo, son convertidas de coordenadas rectangulares a polares, ilustrado por los bloques R \rightarrow P, 1101. Los argumentos son multiplicados por M=2, 1103, y las magnitudes quedan inalteradas. Estas señales con convertidas de nuevo a coordenadas rectangulares (P \rightarrow R), 1105, formando las señales Y_{Mk}(rR) y alimentadas a los canales sintetizadores de acuerdo con la figura 9c. Este método de trasposición de multibanda mejorado tiene por tanto dos etapas: El parche proporciona una trasposición aproximada, como en el método básico, y los multiplicadores de fase proporcionan correcciones finas de frecuencia. Los métodos de trasposición multibanda anteriores difieren de las técnicas tradicionales de desplazamiento de tono que utilizan la STFT, donde se utilizan osciladores de tabla de consulta para la síntesis o, cuando se utiliza ISTFT para la síntesis, la señal es estirada en el tiempo y diezmada, es decir, no se utiliza ningún parche.
4 \leq k \leq 7. Sin embargo, si el número de filtros es suficientemente grande, la desviación desde la trasposición exacta es despreciable, véase la ecuación 4. Además, la trasposición se hace exacta para señales de tono cuasi-estacionarias de frecuencias arbitrarias insertando los bloques indicados como P917 (figura 9c), siempre que cada canal de análisis contenga como máximo una parcial. En este caso, X_{k}(rR) son exponenciales complejas con frecuencias iguales a las diferencias entre las frecuencias parciales \omega_{i} y las frecuencias centrales \omega_{k} de los filtros de análisis. Para obtener la trasposición exacta M, estas frecuencias deben ser incrementadas por un factor M, modificando la relación de frecuencias anterior a \omega_{i}\rightarrow M\omega_{k}+M(\omega_{i}-\omega_{k})= M\omega_{i}. Las frecuencias de X_{k}(rR) son iguales a las derivadas con respecto al tiempo de sus respectivos ángulos de fase no recubiertos y pueden ser estimadas utilizando diferencias de primer orden de sucesivos ángulos de fase. Las estimaciones de frecuencias son multiplicadas por M y los ángulos de fase de síntesis son calculados utilizando esas nuevas frecuencias. Sin embargo, se obtiene el mismo resultado, excepto una constante de fase, de una manera simplificada multiplicando los argumentos del análisis directamente por M, eliminando la necesidad de la estimación de frecuencias. Esto se describe en la figura 11, que representa los bloques 917. Por tanto, X_{k}(rR), donde 4 \leq k \leq 7 en este ejemplo, son convertidas de coordenadas rectangulares a polares, ilustrado por los bloques R \rightarrow P, 1101. Los argumentos son multiplicados por M=2, 1103, y las magnitudes quedan inalteradas. Estas señales con convertidas de nuevo a coordenadas rectangulares (P \rightarrow R), 1105, formando las señales Y_{Mk}(rR) y alimentadas a los canales sintetizadores de acuerdo con la figura 9c. Este método de trasposición de multibanda mejorado tiene por tanto dos etapas: El parche proporciona una trasposición aproximada, como en el método básico, y los multiplicadores de fase proporcionan correcciones finas de frecuencia. Los métodos de trasposición multibanda anteriores difieren de las técnicas tradicionales de desplazamiento de tono que utilizan la STFT, donde se utilizan osciladores de tabla de consulta para la síntesis o, cuando se utiliza ISTFT para la síntesis, la señal es estirada en el tiempo y diezmada, es decir, no se utiliza ningún parche.
El parche de armónicos de la figura 9c se
modifica fácilmente para otros factores de trasposición distintos de
dos. La figura 12 muestra un parche 1203 para la generación de
armónicos de tercer orden, donde 1201 son los canales de análisis y
1205 son los canales de síntesis. Pueden crearse simultáneamente
órdenes de armónicos diferentes como se muestra en la figura 13,
donde se utilizan armónicos de segundo y tercer orden. La figura 14
ilustra una combinación sin solapamiento de armónicos de segundo,
tercero y cuarto órdenes. El número de armónicos más bajo posible se
utiliza en la frecuencia más alta posible. Por encima del límite
superior de la gama de destino del armónico M, se utiliza el
armónico M+1. La figura 15 muestra un método para establecer un mapa
de correspondencia entre todos los canales sintetizadores (N=64,
ilustrados los canales 0-32). Se establece un mapa
entre todos los canales de banda alta que tengan índices con número
no principal, de acuerdo con la relación siguiente entre el número
de canal fuente y destino: k_{dest} = M k_{fuente}, donde M es
el menor entero \geq 2 que satisface la condición de que
k_{fuente} caiga en la banda baja y k_{dest} en la banda alta.
Por tanto, ningún canal sintetizador recibe la señal desde más de un
canal de análisis. Puede establecerse un mapa entre los canales de
banda alta de número principal y k_{fuente} = 1, o entre los
canales de banda baja y k_{fuente} > 1, que produce buenas
aproximaciones de la relación anterior (solamente se ilustran las
conexiones de números no principales con M = 2, 3, 4, 5 en la figura
15).
También es posible combinar la información de
amplitud y fase de diferentes canales analizadores. Las señales de
amplitud |X_{k}(rR)| pueden ser conectadas de acuerdo con
la figura 16, mientras que las señales de fase
arg{X_{k}(rR)} son conectadas de acuerdo con el principio
de la figura 15. De esta manera seguirán estando traspuestas las
frecuencias de banda baja, por lo que se genera una repetición
periódica de la envolvente de la región fuente en lugar de la
envolvente estirada que resulta de una trasposición de acuerdo con
la ecuación 2. Pueden incorporarse unos medios de puerta u otros
medios con el fin de evitar la amplificación de los canales fuente
"vacíos". La figura 17 ilustra otra aplicación, la generación
de sub-armónicos para una señal filtrada en banda
alta y limitada en bajos, utilizando conexiones desde
sub-bandas superiores o inferiores. Cuando se
utilizan las trasposiciones anteriores, puede ser beneficioso
emplear conmutación adaptativa de parches basándose en las
características de la señal.
En la descripción anterior se ha supuesto que la
frecuencia más alta contenida en la señal de entrada era
significativamente más baja que la frecuencia de Nyqvist. Por tanto,
fue posible realizar una ampliación de la anchura de banda sin un
aumento de la velocidad de muestreo. Sin embargo, este no siempre es
el caso, por lo que puede ser necesario un muestreo precedente hacia
arriba. Cuando se utilizan métodos de bancos de filtros para la
trasposición, es posible integrar el muestreo hacia arriba en el
proceso.
La mayoría de los codecs de percepción emplean
bancos de filtros diezmados al máximo en el mapa de correspondencia
de tiempos a frecuencias ["Introducción a la codificación
perceptible", de K. Brandenburg, AES, Colección de Artículos
sobre la Reducción de la Velocidad de Bits de Audio Digital, 1996].
La figura 18a muestra la estructura básica de un sistema codificador
de percepción. El banco de filtros de análisis 1801 reparte la señal
de entrada en varias señales de sub-bandas. Las
muestras de sub-bandas son cuantificadas
individualmente, 1803, utilizando un número de bits reducido, donde
el número de niveles de cuantificación está determinado a partir de
un modelo de percepción 1807 que estima el umbral mínimo de
enmascaramiento. Las muestras de sub-bandas son
normalizadas, codificadas con métodos opcionales de codificación de
redundancia y combinadas con información anexa consistente en los
factores de normalización, información de asignación de bits y otros
datos específicos, 1805, del codec, para formar la cadena serie de
bits. La cadena de bits es almacenada o transmitida después. En el
descodificador, figura 18b, la cadena de bits codificada es
desmultiplexada, 1809, descodificada y las muestras de
sub-bandas son re-cuantificadas al
mismo número de bits, 1811. Un banco de filtros de síntesis combina
las muestras de sub-bandas con el fin de volver a
crear la señal original, 1813. Las realizaciones que utilizan
bancos de filtros diezmados al máximo reducirán drásticamente los
costes de cálculo. En las descripciones siguientes, se pone el foco
en bancos de filtros modulados en coseno. Sin embargo, debe
apreciarse que la invención puede ser llevada a cabo utilizando
otros tipos de bancos de filtros o trasformadas, incluyendo
interpretaciones de bancos de filtros de la transformada de pequeñas
ondas, otros bancos de filtros o transformadas de anchura de banda
desigual y bancos de filtros o transformadas multidimensionales.
En las descripciones ilustrativas, aunque no
limitativas, siguientes, se supone que un banco de filtros modulado
en coseno de L canales reparte la señal x(n) de entrada en L
señales de sub-banda. La estructura genérica de un
banco de filtros diezmado al máximo está ilustrada en la figura 19.
Los filtros de análisis están indicados como H_{k}(x),
1901, donde k = 0, 1, ..., L-1. Las señales de
sub-banda v_{k}(n) están diezmadas al
máximo, 1903, cada una de ellas de una frecuencia de muestreo de
f_{s}/L, donde f_{s} es la frecuencia de muestreo de
x(n). La sección de síntesis vuelve a componer las señales de
sub-banda tras la interpolación, 1905, y el
filtrado, 1907, para generar \hat{x}(n). Los filtros de
síntesis son indicados como F_{k}(z). Además, la presente
invención realiza una réplica espectral sobre \hat{x}(n),
entregando una señal reforzada y(n).
Al sintetizar las señales de
sub-banda con un banco de filtros de QL canales,
donde solamente son utilizados los L canales de banda baja y el
factor Q de expansión de anchura de banda es elegido de manera que
QL es un valor entero, se obtendrá como resultado una cadena de bits
de salida con una frecuencia de muestreo Qf_{s}. Por tanto, el
banco de filtros ampliado actuará como si fuera un banco de filtros
de L canales seguido de un dispositivo de muestreo hacia arriba.
Como, en este caso, los L(Q-1) filtros de
banda alta no son usados (alimentados con ceros), la anchura de
banda de audio no cambiará, (el banco de filtros reconstruirá
meramente una versión muestreada hacia arriba de
\hat{x}(n). Sin embargo, si las L señales de sub-banda son parcheadas a los filtros de banda alta, la anchura de banda de
\hat{x}(n) será incrementada por un factor Q, produciendo y(n). Esta es la versión del banco de filtros diezmado al máximo del dispositivo de trasposición básico de multibanda, de acuerdo con la invención. Utilizando este esquema, el proceso de muestreo hacia arriba es integrado en el filtrado de síntesis como se ha explicado anteriormente. Debe observarse que puede utilizarse cualquier tamaño del banco de filtros de síntesis, dando como resultado distintas velocidades de muestreo de la señal de salida, y por tanto distintos factores de expansión de anchura de banda. Se consigue realizar una réplica espectral sobre \hat{x}(n) de acuerdo con la presente invención del método de trasposición básica multibanda con un factor entero M de trasposición, mediante el parcheo de las señales de sub-banda, como
\hat{x}(n). Sin embargo, si las L señales de sub-banda son parcheadas a los filtros de banda alta, la anchura de banda de
\hat{x}(n) será incrementada por un factor Q, produciendo y(n). Esta es la versión del banco de filtros diezmado al máximo del dispositivo de trasposición básico de multibanda, de acuerdo con la invención. Utilizando este esquema, el proceso de muestreo hacia arriba es integrado en el filtrado de síntesis como se ha explicado anteriormente. Debe observarse que puede utilizarse cualquier tamaño del banco de filtros de síntesis, dando como resultado distintas velocidades de muestreo de la señal de salida, y por tanto distintos factores de expansión de anchura de banda. Se consigue realizar una réplica espectral sobre \hat{x}(n) de acuerdo con la presente invención del método de trasposición básica multibanda con un factor entero M de trasposición, mediante el parcheo de las señales de sub-banda, como
(16)\nu_{Mk}(n) =
e_{Mk}(n)(-1)^{(M-1)kn}\nu_{k}(n)
donde k \in [0, L-1] y es
elegido de manera que Mk \in [L, QL-1],
e_{Mk}(n) es la corrección de la envolvente y
(-1)^{(M-1)km} es un factor de
corrección para sub-bandas espectrales invertidas.
La inversión espectral se origina en el diezmado de las señales de
sub-banda, y las señales invertidas pueden ser
reinvertidas cambiando el signo en cada dos muestras de esos
canales. Haciendo referencia a la figura 20, considérese un banco de
filtros de síntesis de 16 canales parcheado, 2009, para un factor de
trasposición M = 2 con Q = 2. Los bloques 2001 y 2003 denotan los
filtros de análisis H_{k}(z) y los dispositivos de diezmado
de la figura 19, respectivamente. De forma similar, 2005 y 2007 son
los interpoladores y filtros de síntesis F_{k}(z). La
ecuación 16 simplifica entonces el parcheado de las cuatro señales
de sub-banda de frecuencia superior de los datos
recibidos en cada dos de los ocho canales superiores del banco de
filtros de síntesis. Debido a la inversión espectral, cada dos
señales parcheadas de sub-banda deben tener la
frecuencia invertida antes de la síntesis. Además, las magnitudes de
las señales parcheadas deben ser ajustadas, 2011, de acuerdo con los
principios de SBR-1 o
SBR-2.
Utilizando el método de trasposición multibanda
básica de acuerdo con la presente invención, los armónicos generados
no son, en general, múltiplos exactos de los fundamentales. Todas
las frecuencias, excepto la inferior, de cada
sub-banda difieren en cierta medida de una
trasposición exacta. Además, el espectro de la réplica contiene
ceros, ya que el intervalo objetivo cubre una gama de frecuencias
más amplia que el intervalo de la fuente. Más aún, las propiedades
de cancelación de alias del banco de filtros modulados en coseno se
desvanecen, ya que las señales de sub-banda están
separadas en frecuencia en el intervalo objetivo. Es decir, las
señales de sub-banda vecinas no se solapan en la
zona de banda alta. Sin embargo, los métodos de reducción del
repliegue del espectro, conocidos por los expertos en la técnica,
pueden ser utilizados para reducir este tipo de artefactos. Las
ventajas de este método de trasposición son la fácil implantación y
el muy bajo coste de cálculo.
Para conseguir una perfecta trasposición de
sinusoides, se presenta ahora una solución eficaz de un banco de
filtros diezmado al máximo del método de trasposición multibanda
mejorado. El sistema utiliza un banco de filtros adicional de
análisis modificado, mientras que el banco de filtros de síntesis es
modulado en coseno como lo describe Vaidyanathan ("Sistemas de
velocidades múltiples y bancos de filtros", de P. P.
Vaidyanathan, Prentice Hall, Englewood Cliffs, New Jersey, 1993,
ISBN 0-13-605718-7).
Los pasos de funcionamiento, utilizando el método de trasposición
multibanda mejorado de acuerdo con la presente invención, basado en
bancos de filtros diezmados al máximo, se muestran esquemáticamente
en la figura 21 y en el diagrama de flujo de la figura 22 y son como
siguen:
- 1.
- Las L señales de sub-banda recibidas son sintetizadas con un banco de filtros, 2101, 2201, 2203, de QL canales, donde los L(Q-1) canales superiores son alimentados con ceros, para formar la señal x_{1}(n), que es así sobremuestreada por el factor Q de expansión de anchura de banda.
- 2.
- x_{1}(n) es muestreada hacia abajo por un factor Q, para formar la señal x_{2}(n'), 2103, 2205, es decir, x_{2}(n') = x_{1}(Qn').
- 3.
- Se elige un valor entero K como tamaño del banco del filtro de análisis, restringido de manera que T=KM/Q sea un entero, donde T es el tamaño del banco de filtros de análisis modificado y M es el factor de trasposición, 2207, 2209, 2211. K debe ser elegido, preferiblemente grande, para señales estacionarias (de tono), y más pequeño para señales dinámicas (transitorios).
- 4.
- x_{2}(n') es filtrado a través de un banco de filtros de análisis modificado, 2107, 2213, de T canales, donde los T filtros de análisis son modulados exponencialmente, generando un conjunto de señales de sub-banda de valor complejo. Las señales de sub-banda son muestreadas hacia abajo por un factor T/M, dando las señales de sub-banda v_{k}^{(M)}(n''), k = 0, 1, ..., T-1. Por tanto, el banco de filtros será sobremuestreado en un factor M.
- 5.
- Las muestras v_{k}^{(M)}(n'') son convertidas a una representación polar (magnitud y ángulo de fase). Los ángulos de fase son multiplicados por un factor M, y las muestras son convertidas de nuevo a una representación rectangular de acuerdo con el esquema de la figura 11. Se toman las partes reales de las muestras de valor complejo, dando las señales s_{k}^{(M)}(n''), 2109, 2215. Tras esta operación las señales s_{k}^{(M)}(n'') son muestreadas de manera crítica.
- 6.
- Las ganancias de las señales s_{k}^{(M)}(n'') son ajustadas de acuerdo con los principios de SBR-1 o SBR-2, 2111, 2217.
- 7.
- Las señales de sub-banda s_{k}^{(M)}(n''), donde k \in [T/M, min(K,T)-1], son sintetizadas con un banco de filtros ordinario de K canales modulados en coseno, donde los canales 0 a T/M-1 son alimentados con ceros, 2105, 2221. Esto genera la señal x_{3}^{(M)}(n).
- 8.
- x_{3}^{(M)}(n) es finalmente sumada con x_{1}(n) para producir y(n), 2223, que es la señal de réplica espectral deseada.
Los pasos 3 a 6 pueden ser repetidos para
diferentes valores del factor M de trasposición, añadiendo así
múltiples armónicos a x_{1}(n). Este modo de funcionamiento
está ilustrado por las figuras de puntos de la figura 21, y en la
figura 22, haciendo iterativo el bucle en las cajas 2211 - 2219. En
este caso, K se elige de manera que haga a T un valor entero para
todas las elecciones de M (para un valor entero de M:s);
preferiblemente se selecciona K de manera que haga a K/Q un entero
positivo. Todas las señales de sub-banda
s_{k}^{(Mi)}(n''), donde i = 1,2,...,m y m es el número
de factores de trasposición , son sumadas de acuerdo con
(17)s_{k}(n'') =
\sum\limits^{m}_{i=1}s_{k}{}^{(M_{1})}(n'')
para cada k aplicable. En la primera iteración
del bucle de la figura 22, las señales s_{k}(n'') pueden
ser consideradas como muestras de sub-banda de ceros
solamente, donde k = 0, 1, ..., K-1. En cada bucle,
las nuevas muestras son sumadas, 2219, a s_{k}(n'')
como
(18)s_{k}(n'') =
s_{k}(n'')+s_{k}{}^{(M_{1})}(n'')
donde k = K/Q,
K/Q+1,...,min(K,T_{i})-1. Las señales
s_{k}(n'') de sub-banda son sintetizadas
una vez con un banco de filtros de K canales, de acuerdo con el paso
7.
El banco de filtros de análisis modificado del
paso 4, es obtenido a través de la teoría de los bancos de filtros
modulados en coseno, donde la transformada solapada modulada (MLT)
["Transformadas solapadas para una codificación eficiente de
trasformada/sub-banda", de H. S. Malvar, IEEE
Trans ASSP, vol 38, núm. 6 1990] es un caso especial. Las respuestas
de impulsos h_{k}(n) de los filtros en un banco de filtros
modulados en coseno de T canales pude escribirse como:
(19)h_{k}(n) =
Cp_{0}(n)cos\left[\frac{\pi}{2T}(2k+1)(n-\frac{N-1}{2})+\Phi_{k}\right],
donde k = 0, 1,...,T-1, N es la
longitud del prototipo de filtro de paso bajo p_{0}(n), C
es una constante y \Phi_{k} es un ángulo de fase que asegura la
cancelación de alias entre canales contiguos. Las restricciones en
\Phi_{k}
son
(20a-c)\Phi_{0}
= \pm\frac{\pi}{4}, \ \Phi_{T - 1} = \pm \frac{\pi}{4} \ \ y \ \
\Phi_{k} =
\Phi_{k-1}\pm\frac{\pi}{2}
que puede ser simplificada a la expresión en
forma
cerrada
(21)\Phi_{k} = \pm(-1)^{k} \
\frac{\pi}{4}
Con esta elección de \Phi_{k}, pueden
obtenerse sistemas de reconstrucción perfecta o sistemas de
reconstrucción aproximada (pseudo sistemas QMF) utilizando bancos de
filtros de síntesis con respuestas de impulsos como
(22)f_{k}(n) =
Cp_{0}(n)cos\left[\frac{\pi}{2T}(2k+1)(n-\frac{N-1}{2})-\Phi_{k}\right]
Considérense los filtros
(23)h'_{k}(n) =
Cp_{0}(n)sen \left[ \frac{\pi}{2T}(2k + 1)(n - \frac{N -
1}{2}) + \Phi_{k}
\right]
donde h'_{k}(n) son versiones moduladas
en seno del prototipo de filtro p_{0}(n). Los filtros
H'_{k}(z) y H_{k}(z) tienen idénticos soportes de
paso de banda, pero las respuestas de fase difieren. Las bandas de
paso de los filtros son realmente transformadas de Hilbert mutuas
(esto no es válido para frecuencias cercanas a \omega=0 y
\omega=\pi). Combinando la ecuación 19 y la ecuación 23, de
acuerdo
con
(24)h_{k}{}^{a}(n) =
h_{k}(n) + jh'_{k} (n) = Cp_{0} (n) exp \left[ \frac{j \pi}{2T}(2k +
1)(n - \frac{N-1}{2}) + j \Phi_{k}
\right]
se obtienen filtros que tienen la misma forma de
las respuestas de magnitud que H_{k}(z) para frecuencias
positivas pero son cero para frecuencias negativas. Utilizando un
banco de filtros con respuestas de impulsos como en la ecuación 24,
se obtiene un conjunto de señales de sub-banda que
pueden ser interpretadas como las señales analíticas (complejas)
correspondientes a las señales de sub-banda
obtenidas a partir de un banco de filtros con respuestas de impulsos
como en la ecuación 19. Las señales analíticas son adecuadas para la
manipulación, ya que las muestras de valor complejo pueden ser
escritas en forma polar, es decir, z(n)= r(n) + j
i(n) = |z(n)| exp{j arg(z(n))}. Sin
embargo, cuando se utiliza el banco de filtros complejo para la
trasposición, la restricción en \Phi_{k} ha de ser generalizada
para conservar la propiedad de cancelación de alias. La nueva
restricción en \Phi_{k}, para asegurar la cancelación de alias
en combinación con un banco de filtros de síntesis con respuestas de
impulsos como en la ecuación 22,
es
(25)\Phi_{k} = \pm(-1)^{k}
\frac{\pi}{4M}
que se simplifica en la ecuación 21 cuando M=1.
Con esta elección, las parciales traspuestas tendrán las mismas
fases relativas que tendrían cuando M=1 (sin
trasposición).
Combinando la ecuación 24 con la ecuación 25, se
obtiene como resultado
(26)h_{k}{}^{a}(n) = Cp_{0}
(n) exp \left\{j \pi \left[ \frac{(2k + 1)}{2T}(n- \frac{N - 1}{2})
\pm \frac{(
-1)^{k}}{4M}\right]\right\}
que son los filtros utilizados en el banco de
filtros modificado del paso 4, de acuerdo con la presente
invención.
Algunas aclaraciones concernientes al paso 5: al
hacer un muestreo hacia abajo de las señales de
sub-banda de valor complejo por un factor T/M, las
hace sobremuestreadas por M, que es un criterio esencial cuando se
multiplican posteriormente los ángulos de fase por el factor M de
trasposición. El sobremuestreo fuerza el número de muestras de
sub-banda por anchura de banda, tras la trasposición
a la gama objetivo, para que sea igual a la gama de la fuente. Las
anchuras de banda individuales de las señales de
sub-banda traspuestas son M veces mayores que los de
la gama de la fuente, debido al multiplicador de fase. Esto hace que
las señales de sub-banda estén críticamente
muestreadas tras el paso 5 y, además, no habrá ceros en el espectro
cuando se trasponen señales de tono.
Con el fin de evitar los cálculos
trigonométricos, es decir, teniendo que calcular las nuevas señales
de sub-banda como
s_{k}^{(M)}(n'') = real
\left\{\left|v_{k}^{(M)}(n'')\right|exp \left\{jM \ arctg \left(
\frac{imag\left\{v_{k}^{(M)}(n'')\right\}}{real\left\{v_{k}^{(M)}(n'')\right\}}\right)\right\}\right\}=
(27)=
\left|v_{k}^{(M)}(n'')\right|cos \left\{M \ arctg \left(
\frac{imag\left\{v_{k}^{(M)}(n'')\right\}}{real\left\{v_{k}^{(M)}
(n'')\right\}} \right)
\right\},
donde |v_{k}^{(M)}(n'')| es el valor
absoluto de v_{k}^{(M)}(n''), se utiliza la siguiente
relación
trigonométrica:
siendo
(29)\alpha=arctg\left(\frac{imag\left\{v_{k}^{(M)}(n'')\right\}}{real\left\{v_{k}^{(M)}(n'')\right\}}\right),
y observando
que
(30)cos(\alpha)=cos(arctg\left(\frac{imag\left\{v_{k}^{(M)}(n'')\right\}}{real\left\{v_{k}^{(M)}(n'')\right\}}\right))=\frac{real\left\{v_{k}^{(M)}(n'')\right\}}{\left|v_{k}^{(M)}(n'')\right|}
y
que
(31)sen(\alpha)=sen(arctg\left(\frac{imag\left\{v_{k}^{(M)}(n'')\right\}}{real\left\{v_{k}^{(M)}(n'')\right\}}\right))=\frac{imag\left\{v_{k}^{(M)}(n'')\right\}}{\left|v_{k}^{(M)}(n'')\right|}
los cálculos del paso 5 pueden conseguirse sin
cálculos trigonométricos, reduciendo la complejidad de
cálculo.
Cuando se utilizan trasposiciones en las que M es
par, pueden surgir obstáculos con el multiplicador de fase,
dependiendo de las características del prototipo de filtro de paso
bajo p_{0}(n). Todos los prototipos de filtro aplicables
tienen ceros en el círculo unitario del plano z. Un cero en el
círculo unitario impone un desplazamiento de 180º en la respuesta de
fase del filtro. Para M par, el multiplicador de fase traslada estos
desplazamientos a 360º, es decir, los desplazamientos de fase
desaparecen. Las parciales situadas en una frecuencia tal que
desaparecen los desplazamientos de fase dan lugar al repliegue del
espectro en la señal sintetizada. El escenario del caso peor es
aquel en que una parcial está situada en un punto de frecuencia
correspondiente a la parte superior del primer lóbulo lateral de un
filtro de análisis. Dependiendo del rechazo de este lóbulo en la
respuesta a la magnitud, el repliegue del espectro será más o menos
audible. Como ejemplo, el primer lóbulo lateral del prototipo de
filtro utilizado en el estándar de las capas 1 y 2 de ISO/MPEG es
rechazado en 96 dB, mientras que el rechazo es solamente de 23 dB
para el primer lóbulo lateral de la ventana de seno utilizada en el
esquema MDCT del estándar de la capa 3 de ISO/MPEG. Es claro que
este tipo de repliegue del espectro, utilizando la ventana del seno,
será audible. Se presentará una solución a este problema y es
denominada como enclavamiento de fase relativo.
Los filtros h_{\alpha}^{k}(n) tienen
todos ellos respuestas lineales. Los ángulos de fase \Phi_{k}
introducen diferencias de fase relativas entre canales contiguos, y
los ceros en el círculo unitario introducen desplazamientos de fase
de 180º en lugares de frecuencia que pueden diferir entre canales.
Al supervisar la diferencia de fase entre señales de
sub-banda vecinas, antes de que el multiplicador de
fase esté activado, es fácil detectar los canales que contienen
información de inversión de fase. Considerando señales de tono, la
diferencia de fase es aproximadamente \pi/2M, de acuerdo con la
ecuación 25, para señales no invertidas y, consecuentemente,
aproximadamente \pi/(1-1/2M) para señales en las
que cualquiera de las señales está invertida. La detección de
señales invertidas puede conseguirse simplemente calculando el
producto escalar de muestras en sub-bandas contiguas
como
(32)v_{k}^{(M)}(n'')ov_{k+1}^{(M)}=real\left\{v_{k}^{(M)}(n'')\right\}real\left\{v_{k+1}^{(M)}(n'')\right\}+imag\left\{v_{k}^{(M)}(n'')\right\}imag\left\{v_{k+1}^{(M)}(n'')\right\}
Si el producto de la ecuación 32 es negativo, la
diferencia de fase es mayor que 90º, y la condición de inversión de
fase está presente. Los ángulos de fase de las señales de
sub-banda de valor complejo son multiplicados por M,
de acuerdo con el esquema del paso 5 y, finalmente, se hacen
negativas las señales indicadas como invertidas. El método de
enclavamiento de relativo de fase fuerza así a las señales de
sub-banda desplazadas 180º a retener este
desplazamiento tras la multiplicación de fase y, por tanto, a
mantener las propiedades de cancelación de repliegue del
espectro.
La mayoría de los sonidos, como el habla y la
música, están caracterizados como productos de envolventes que
varían lentamente y de portadoras que varían rápidamente con
amplitud constante, como se describe por Stockham ["La aplicación
de la linealidad generalizada al control automático de ganancia"
de T. G. Stockham, Jr, IEEE Trans, sobre Audio y Electroacústica,
vol. AU-16, núm. 2, junio de 1968] y en la ecuación
1.
En los codificadores de audio de percepción de
banda repartida, la señal de audio es segmentada en tramas y
repartida en bandas de frecuencia múltiples, utilizando filtros de
sub-bandas o una transformada del dominio de tiempo
a frecuencia. En la mayoría de los tipos de codec, la señal es
separada posteriormente en dos componentes principales de la señal
para la transmisión o el almacenamiento, la representación de la
envolvente espectral y las muestras de sub-banda o
coeficientes normalizados. A través de la descripción siguiente, el
término "muestras de sub-banda" o
"coeficientes" hace referencia a valores de muestra obtenidos a
partir de filtros de sub-banda, así como a
coeficientes obtenidos de una transformada de tiempo a frecuencia.
El término "envolvente espectral" o "factores de
escalación" representan valores de las sub-bandas
sobre la base de un periodo de tiempo, tal como la magnitud media o
máxima en cada sub-banda, utilizada para la
normalización de muestras de sub-bandas. Sin
embargo, la envolvente espectral puede ser obtenida también
utilizando la predicción lineal LPC [Patente de Estado Unidos
5.684.920]. En un codec típico, las muestras de
sub-banda normalizadas requieren una codificación a
una alta velocidad de bits (utilizando aproximadamente el 90% de la
velocidad de bits disponible), en comparación con las envolventes
temporales de variación lenta y, por tanto, con las envolventes
espectrales, que pueden ser codificadas a una velocidad muy reducida
(utilizando aproximadamente el 10% de la velocidad de bits
disponible).
Una envolvente espectral precisa de la réplica de
la anchura de banda es importante si han de conservarse las
cualidades del timbre de la señal original. El timbre percibido de
un instrumento musical, o de la voz, está determinado principalmente
por la distribución espectral por debajo de una frecuencia f_{lim}
situada en las octavas más altas del oído. Los detalles espectrales
por encima de f_{lim} tienen por tanto menos importancia y,
consecuentemente, las estructuras finas de la banda alta obtenidas
por los métodos de trasposición anteriores no requieren ningún
ajuste, mientras que las estructuras aproximadas si lo hacen
generalmente. Con el fin de permitir tal ajuste, es útil filtrar la
representación espectral de la señal para separar la estructura
aproximada de la envolvente de la estructura fina.
En la realización de SBR-1 de
acuerdo con la presente invención, la envolvente espectral
aproximada de la banda alta es estimada a partir de la información
de banda baja disponible en el descodificador. Esta estimación es
efectuada mediante la supervisión continua de la envolvente de la
banda baja y el ajuste de la envolvente espectral de la banda alta
de acuerdo con reglas específicas. Un método nuevo para conseguir la
estimación de la envolvente utiliza las asíntotas en un espacio
logarítmico de frecuencia-magnitud, que es
equivalente a ajustar la curva con polinomios de orden variable en
el espacio lineal. Se estima el nivel y la pendiente de una parte
superior del espectro de la banda baja, y las estimaciones se
utilizan para definir el nivel y la pendiente de uno o varios
segmentos que representan la nueva envolvente de banda alta. Las
intersecciones asintóticas son fijas en frecuencia y actúan como
puntos de giro. Aunque no siempre es necesario, es beneficioso
estipular las restricciones para mantener los recorridos de la
envolvente de la banda alta dentro de límites realistas. Un enfoque
alternativo a la estimación de la envolvente espectral es utilizar
cuantificación de vectores, VQ, de un gran número de envolventes
espectrales representativas, y almacenarlas en una tabla de consulta
o libro de código. La cuantificación de vectores se realiza
instruyendo el número deseado de vectores de una gran cantidad de
datos de instrucción, en este caso envolventes espectrales de audio.
La instrucción se realiza normalmente con el Algoritmo de Lloyd
Generalizado ["Cuantificación de vectores y compresión de
señales", de A. Gersho, R. M. Gray, Kluwer Academic Publishers,
USA 1992, ISBN
0-7923-9181-0], y
produce vectores que cubre de manera óptima el contenido de los
datos de instrucción. Considerando un libro de código VQ,
consistente en A envolventes espectrales instruidas por B
envolventes (B>>A), las A envolventes representan las A
transiciones más probables desde la envolvente de banda baja a la
envolvente de banda alta, basándose en B observaciones de una amplia
variedad de sonidos. Esto es, teóricamente, las A reglas óptimas
para predecir las envolventes basándose en las B observaciones.
Cuando se estima una nueva envolvente espectral de banda alta, la
envolvente original de banda baja se utiliza para la búsqueda del
libro de código, y la parte de la banda alta del elemento más
coincidente del libro de código es aplicada para crear el nuevo
espectro de banda alta.
En la figura 23, las muestras de
sub-banda normalizadas están representadas por 2301,
y las envolventes espectrales están representadas por los factores
de escalación 2305. Para fines ilustrativos, la transmisión al
descodificador 2303 se muestra en forma paralela. En el método
SBR-2 de la figura 24, la información de envolvente
espectral se genera y transmite de acuerdo con la figura 23, por lo
que solamente se transmiten las muestras de
sub-banda de banda baja. Los factores de escalación
transmitidos abarcan así toda la gama de frecuencias, mientras que
las muestras de sub-banda solamente abarcan una gama
de frecuencias restringida, excluyendo la banda alta. En el
descodificador, las muestras, 2401, de sub-banda de
banda baja son traspuestas, 2403, y combinadas con la información
2405, de la envolvente espectral de banda alta recibida. De esta
manera, la envolvente espectral sintética de banda alta es idéntica
a la de la original, al tiempo que se mantiene una reducción
significativa en la velocidad de bits.
En algunos codecs, es posible transmitir los
factores de escalación para la envolvente espectral completa, al
tiempo que se omiten las muestras de sub-banda de
banda alta, como se ilustra en la figura 24. Otros estándares de
codecs estipulan que los factores de escalación y las muestras de
sub-banda cubran la misma gama de frecuencias, es
decir, los factores de escalación no pueden transmitirse si se
omiten las muestras de sub-banda. En tales casos,
hay varias soluciones; la información de envolvente espectral de
banda alta puede ser transmitida en tramas separadas, donde las
tramas tienen sus propias cabeceras y una protección opcional de
errores, seguidas de los datos. Los descodificadores normales, que
no aprovechan la presente invención, no reconocerán las cabeceras y
por tanto descartarán las tramas adicionales. En una segunda
solución, la información de la envolvente espectral de banda alta se
transmite como datos auxiliares dentro de la cadena de bits
codificada. Sin embargo, el campo de datos auxiliar disponible debe
ser suficientemente grande para contener la información de la
envolvente. En casos en que ninguna de las dos primeras soluciones
sea adaptable, puede aplicarse una tercera solución en la que la
información de envolvente espectral de banda alta está oculta como
muestras de sub-banda. Los factores de escalación de
sub-banda cubren una amplia gama dinámica, que
típicamente excede de 100 dB. Es posible, por tanto, fijar un número
arbitrario de factores de escalación de sub-banda,
2505 en la figura 25, en valores muy bajos y transmitir los factores
de escalación de banda alta "camuflados" como muestras de
sub-banda, 2501. Esta manera de transmitir los
factores de escalación de banda alta al descodificador 2503, asegura
la compatibilidad con la sintaxis de la cadena de bits. Por tanto,
pueden transmitirse datos arbitrarios de esta manera. Existe un
método relacionado en el que la información es codificada en la
cadena de muestras de sub-banda [Patente de Estados
Unidos 5.687.191]. Puede aplicarse una cuarta solución, figura 26,
cuando un sistema de codificación utiliza la codificación Huffman u
otra codificación de redundancia, 2603. Las muestras de
sub-banda para banda alta son entonces fijadas en
cero, 2601, o en un valor constante para conseguir una alta
redundancia.
Los artefactos relativos a los transitorios son
problemas comunes en los codecs de audio, y en la presente invención
tienen lugar artefactos similares. En general, el parcheo genera
"ceros" o entalladuras espectrales, correspondientes al dominio
del tiempo antes y después de los ecos, es decir, transitorios
espurios antes y después de transitorios "verdaderos". Aunque
los bloques P "rellenan los ceros" para señales de tono que
varían lentamente, los ecos anteriores y posteriores permanecen. El
método multibanda mejorado está orientado a funcionar sobre
sinusoides discretas, donde el número de sinusoides está restringido
a una por sub-banda. Los transitorios o el ruido en
una sub-banda puede ser considerado como un gran
número de sinusoides discretas dentro de esa
sub-banda. Esto genera distorsión por
intermodulación. Estos artefactos son considerados como fuentes
adicionales de ruido de cuantificación conectadas a los canales de
banda alta de la réplica durante intervalos transitorios. Los
métodos tradicionales para evitar los artefactos anteriores y
posteriores al eco en los codecs de audio de percepción, por ejemplo
la conmutación adaptativa de ventanas, pueden por tanto ser
utilizados para reforzar la calidad subjetiva del método de
multibanda mejorado. Utilizando la detección de transitorios
proporcionada por el codec o por un detector independiente y
reduciendo el número de canales bajo condiciones transitorias, el
"ruido de cuantificación" es forzado a no exceder del umbral de
enmascaramiento dependiente del tiempo. Se utiliza un número de
canales menor durante los pasajes de transitorios, mientras que se
utiliza un número mayor durante los pasajes de tono. Tal conmutación
de ventana adaptativa se utiliza comúnmente en los codecs con el fin
de equilibrar la resolución de frecuencia con respecto a la
resolución de tiempo. Pueden utilizarse distintos métodos en
aplicaciones en las que el tamaño del banco de filtros es fijo. Una
solución es dar forma al "ruido de cuantificación" en el tiempo
a través de la predicción lineal en el dominio espectral. La
trasposición se efectúa entonces en la señal residual, que es la
salida del filtro de predicción lineal. Posteriormente, se aplica un
filtro de predicción inversa simultáneamente a los canales
originales y de la réplica espectral. Otra solución emplea un
sistema de compresión-expansión ("compander"),
es decir, una compresión dinámica de la amplitud de la señal
transitoria, antes de la trasposición o codificación, y una
expansión complementaria tras la trasposición. También es posible
conmutar entre los métodos de trasposición de una manera dependiente
de la señal, por ejemplo, se utiliza un método de trasposición de un
banco de filtros de alta resolución para señales estacionarias, y se
emplea un método de predicción de búsqueda del modelo variable con
el tiempo para las señales transitorias.
Utilizando un procesador estándar de proceso o un
PC potente, es posible el funcionamiento en tiempo real de un codec
de SBR reforzado. El codec de SBR reforzado puede ser codificado en
hardware sobre un chip a la medida. También puede ser realizado en
diversas clases de sistemas para el almacenamiento o transmisión de
señales, analógicas o digitales, utilizando codecs arbitrarios,
figuras 27 y 28. El método SBR-1 puede ser integrado
en un descodificador o suministrado como hardware adicional o un
módulo de software post-proceso. El método
SBR-2 necesita una modificación adicional del
codificador. En la figura 27, la señal de entrada analógica es
alimentada al convertidor A/D 2701, formando una señal digital que
es alimentada a un codificador arbitrario 2703, donde se efectúa la
codificación de la fuente. La señal alimentada al sistema puede ser
de un tipo de paso bajo tal que las bandas espectrales dentro de la
gama audible ya hayan sido descartadas, o se descarten las bandas
espectrales en el codificador arbitrario. Las señales resultantes de
banda baja son alimentadas en el multiplexor 2705, formando una
cadena de bits en serie que es transmitida o almacenada, 2707. El
desmultiplexor 2709 restaura las señales y las alimenta a un
descodificador arbitrario, 2711. La información, 2715, de envolvente
espectral es estimada en el descodificador 2713 y alimentada en la
unidad SBR-1, 2713, que traspone la señal de banda
baja a una señal de banda alta y crea una señal de banda ancha
ajustada a la envolvente. Finalmente, la señal digital de banda
ancha es convertida, 2717, a una señal de salida analógica.
El método SBR-2 necesita una
modificación adicional del codificador. En la figura 28, la señal de
entrada analógica es alimentada al convertido A/D 2801, formando una
señal digital que es alimentada al codificador arbitrario 2803,
donde se efectúa la codificación de la fuente. La información de la
envolvente espectral es extraída en 2805. Las señales resultantes,
muestras de sub-banda de banda baja o coeficientes,
y la información de envolvente de banda ancha, son alimentadas al
multiplexor 2807, formando una cadena de bits en serie que es
transmitida o almacenada, 2809. El desmultiplexor 2811 restaura las
señales, las muestras de sub-banda de banda baja o
coeficientes, y la información de envolvente de banda ancha, y las
alimenta a un descodificador arbitrario 2815. La información 2813 de
envolvente espectral es alimentada desde del desmultiplexor 2811 a
la unidad SBR-2 2817 que traspone la señal de banda
baja a una señal de banda alta y crea una señal de banda ancha
ajustada a la envolvente. Finalmente, la señal digital de banda
ancha es convertida, 2819, en una señal de salida analógica.
Cuando solamente hay disponibles velocidades de
bits bajas, (Internet y módems telefónicos lentos), radiodifusión de
AM, etc.) la codificación en modo monofónico del material del
programa de audio es inevitable. Con el fin de mejorar la calidad
percibida y hacer más agradable al oído el programa, se obtiene un
simple generador "pseudo-estéreo", figura 29,
mediante la introducción de una línea de retardo derivada 2901. Esto
puede alimentar señales retardadas de 10 ms y 15 ms aproximadamente
a -6 dB 2903 para cada canal de salida además de la señal monofónica
original 2905. El generador pseudo-estéreo ofrece
una mejora perceptible valiosa con un coste de cálculo bajo.
Los modos de realización descritos anteriormente
son meramente ilustrativos de los principios de la presente
invención para la mejora de la codificación de una fuente de audio.
Debe entenderse que las modificaciones y variaciones de las
disposiciones y detalles aquí descritos serán evidentes para otros
expertos en la técnica. Se intenta, por tanto, limitarse solamente
por el alcance de las reivindicaciones de patente que siguen y no
por detalles específicos presentados a modo de descripción y
explicación de los modos de realización aquí contenidos.
Claims (17)
1. Un método para descodificar una señal
codificada, siendo obtenida la señal codificada a partir de una
señal original y representando solamente una parte de las bandas de
frecuencia incluidas en la señal original, que comprende:
proporcionar muestras de
sub-bandas para una pluralidad de
sub-bandas o una pluralidad de coeficientes
espectrales, representando las muestras de
sub-bandas o los coeficientes espectrales un
contenido de frecuencias de la señal codificada (201, 301);
extraer una señal (203, 303) de paso de banda,
teniendo la señal de paso de banda muestras de
sub-banda de un número predeterminado de
sub-bandas de análisis, o teniendo un número
predeterminado de coeficientes espectrales de análisis, siendo menor
el número predeterminado que un número total de
sub-bandas o coeficientes espectrales que
representan el contenido de frecuencias de la señal codificada (201,
301);
trasponer (205, 305) las muestras de
sub-bandas de las sub-bandas de
análisis o los coeficientes espectrales de análisis incluidos en la
señal de paso de banda (203, 303) a una banda de frecuencias de
reconstrucción (205, 305) que está incluida en la señal original y
que no está incluida en la señal codificada, teniendo la banda de
frecuencias de reconstrucción unas sub-bandas de
síntesis o coeficientes espectrales de síntesis, incluyendo el paso
de la trasposición la reconexión de las sub-bandas
de análisis con las sub-bandas de síntesis o la
reconexión de los coeficientes espectrales de análisis con los
coeficientes espectrales de síntesis;
en el que las muestras de
sub-bandas o coeficientes espectrales incluidos en
la señal (203, 303) de paso de banda son ajustadas en envolvente
espectral (207, 307) utilizando información de la envolvente
espectral obtenida a partir de la señal original o de la señal
codificada para obtener muestras de sub-bandas
traspuestas ajustadas en envolvente espectral, o bien coeficientes
espectrales traspuestos ajustados en envolvente espectral, antes o
después del paso de trasposición, controlando la información de la
envolvente espectral el ajuste en envolvente espectral, de manera
que se determina una envolvente espectral de la banda de frecuencias
de reconstrucción por medio de la información de envolvente
espectral; y
combinando las muestras de
sub-bandas y las muestras de
sub-banda traspuestas ajustadas, o los coeficientes
espectrales y los coeficientes espectrales traspuestos ajustados,
para obtener una señal de salida descodificada (209, 309), teniendo
la señal de salida descodificada un contenido de frecuencias que
incluye el contenido de frecuencias de la señal codificada y el
contenido de frecuencias de la banda de frecuencias de
reconstrucción.
2. Un método según la reivindicación 1, en el que
la(s) banda(s) de paso de las muestras de
sub-bandas traspuestas ajustadas o los coeficientes
espectrales traspuestos ajustados están fijados para no solapar o
solapar solamente parcialmente la(s) banda(s) de paso
de las muestras de sub-bandas o los coeficientes
espectrales que representan el contenido de frecuencias de la señal
codificada.
3. Un método según la reivindicación 1, que
comprende además el paso de estimar la información de la envolvente
espectral de la banda de frecuencias de reconstrucción utilizando la
señal codificada.
4. Un método según la reivindicación 1, en el que
la señal codificada incluye además información de la envolvente
espectral trasmitida en la banda de frecuencias de reconstrucción
que fue descartada cuando se codificó la señal original,
comprendiendo además el método el paso de extraer la información de
la envolvente transmitida de la(s) banda(s) de
frecuencias descartadas de la señal original.
5. Un método según la reivindicación 4, en el que
la información de la envolvente espectral es transmitida como
factores de escalación sin la transmisión de las correspondientes
muestras de sub-bandas en la señal codificada.
6. Un método según la reivindicación 4, en el que
la información de la envolvente espectral es transmitida como
factores de escalación y las correspondientes muestras de
sub-bandas son fijadas en cero o en un valor
constante en la señal codificada; por lo que se reduce la entropía
de las muestras de sub-bandas.
7. Un método según la reivindicación 1, en el que
la señal de salida descodificada es una señal de audio monofónica,
comprendiendo además el método el paso de: repartir la señal de
salida descodificada en dos señales, comprendida cada una de ellas
por dicha señal de salida y versiones retardadas de la misma, para
obtener una señal pseudo-estéreo.
8. Un método según la reivindicación 1,
en el que el paso de proporcionar incluye un paso
de filtrado de una señal a través de un conjunto de N \geq 2
filtros de paso de banda con bandas de paso que comprenden las
frecuencias [f_{1},...f_{N}] respectivamente, formando N señales
de paso de banda;
en el que el paso de trasposición incluye el paso
de desplazar las señales de paso de banda en frecuencia a regiones
que comprenden las frecuencias M[f_{1},...f_{N}], donde
M \neq 1 es el factor de trasposición.
9. Un método según la reivindicación 8, en el que
el paso de desplazar se obtiene a través de una modulación de la
banda lateral superior (USB).
10. Un método según la reivindicación 1,
en el que el paso de proporcionar incluye el paso
de filtrar en paso de banda una señal, utilizando un banco de
filtros de análisis o una transformada de tal naturaleza que se
generan señales de sub-banda de valor complejo del
tipo de paso bajo;
en el que el paso de trasposición incluye el paso
de parchear un número arbitrario de canales k de dicho banco de
filtros de análisis o transformada, a los canales Mk, M \neq 1, en
un banco de filtros de síntesis o transformada, donde M es un factor
de trasposición; y
en el que el banco de filtros de síntesis o
transformada se utilizan en el paso de combinación.
11. Un método según la reivindicación 10, en el
que el banco de filtros está diezmado al máximo y el paso de
parchear se efectúa de acuerdo con la relación siguiente
v_{Mk}(n) =
(-1)^{(M-1)kn}v_{k}(n),
donde
(-1)^{(M-1)kn} es un factor de
corrección, v_{k}(n) es la señal de
sub-banda del canal k, y v_{Mk}(n) es la
señal de sub-banda del canal Mk, por lo que se
obtiene una compensación de las señales de sub-banda
espectrales
invertidas.
12. Un método según la reivindicación 1, en el
que el paso de trasposición incluye los pasos de
parchear fases de las muestras de
sub-banda de las sub-bandas de
análisis o de los coeficientes de frecuencias de análisis desde los
canales k de un banco de filtros de análisis o transformada, como
fases de muestras de sub-banda asociadas con los
canales Mk de síntesis, donde M es un factor de trasposición y un
entero \neq 1, y donde k es un número de canal; y
parchear magnitudes de las muestras de
sub-bandas de las sub-bandas de
análisis o los coeficientes espectrales de análisis desde canales
consecutivos l de un banco de filtros de análisis o transformada,
como magnitudes de muestras de sub-banda o
coeficientes espectrales asociados con canales consecutivos de
síntesis l+S, donde S es un entero \neq 1 y donde l es un número
de canal.
13. Un método según la reivindicación 10 ó 12, en
el que, en el paso de trasposición, las fases de las muestras de
sub-bandas de los canales k son multiplicadas por
el factor M antes de utilizar dicho banco de filtros de síntesis o
transformada en el paso de combinación.
14. Un método según la reivindicación 12, donde M
= K^{\pm 1}, donde K es un entero > 1.
15. Un método según la reivindicación 10, en el
que el paso de parchear se utilizan múltiples valores del factor M
de trasposición.
16. Aparato para descodificar una señal
codificada, siendo obtenida la señal codificada a partir de una
señal original y representando solamente una parte de las bandas de
frecuencia incluidas en la señal original, comprendiendo:
medios para proporcionar muestras de
sub-bandas para una pluralidad de
sub-bandas o una pluralidad de coeficientes
espectrales, representando las muestras de
sub-bandas o los coeficientes espectrales un
contenido de frecuencias de la señal codificada (201, 301);
medios para extraer una señal (203, 303) de paso
de banda, teniendo la señal de paso de banda muestras de
sub-banda de un número predeterminado de
sub-bandas de análisis o teniendo un número
predeterminado de coeficientes espectrales de análisis, siendo menor
el número predeterminado que un número total de
sub-bandas o coeficientes espectrales que
representan el contenido de frecuencias de la señal codificada (201,
301);
medios para trasponer (205, 305) las muestras de
sub-banda de las sub-bandas de
análisis o coeficientes espectrales de análisis incluidos en la
señal (203, 303) de paso de banda a una banda (205, 305) de
frecuencias de reconstrucción que está incluida en la señal original
y que no está incluida en la señal codificada, teniendo la banda de
frecuencias de reconstrucción unas sub-bandas de
síntesis o coeficientes espectrales de síntesis, incluyendo el paso
de trasposición la reconexión de las sub-bandas de
análisis con sub-bandas de síntesis, o la reconexión
de coeficientes espectrales de análisis con coeficientes espectrales
de síntesis,
en el que las muestras de
sub-bandas o coeficientes espectrales incluidos en
la señal (203, 303) de paso de banda son ajustadas en envolvente
espectral (207, 307) utilizando información de envolvente espectral
obtenida a partir de la señal original o de la señal codificada,
para obtener muestras de sub-bandas traspuestas
ajustadas en envolvente espectral o coeficientes espectrales
traspuestos ajustados en envolvente espectral, antes o después de
ser procesados por los medios de trasposición, siendo controlado por
la información de envolvente espectral el ajuste de envolvente
espectral, de manera que una envolvente espectral de la banda de
frecuencias de reconstrucción está determinada por la información de
envolvente espectral; y
medios para combinar las muestras de
sub-bandas y las muestras de
sub-bandas traspuestas ajustadas, o los coeficientes
espectrales y los coeficientes espectrales traspuestos ajustados,
para obtener una señal (209, 309) de salida descodificada, teniendo
la señal de salida descodificada un contenido de frecuencias que
incluye el contenido de frecuencias de la señal codificada y el
contenido de frecuencias de la banda de frecuencias de
reconstrucción.
17. Un descodificador según la reivindicación 16,
en el que la señal de salida descodificada es una señal de audio
monofónica, comprendiendo además el descodificador:
un primer retardo y un primer atenuador para
formar una primera señal retardada a partir de la señal de salida
descodificada;
un segundo retardo distinto del primer retardo y
un segundo atenuador para formar una segunda señal retardada a
partir de la señal de salida descodificada;
un primer sumador para sumar dicha señal de
salida descodificada y dicha primera señal retardada, formando una
señal de salida del canal izquierdo; y
un segundo sumador para sumar dicha señal de
salida descodificada y dicha segunda señal retardada, formando una
señal de salida del canal derecho; por lo que se obtiene una señal
pseudo estereofónica.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9702213A SE9702213D0 (sv) | 1997-06-10 | 1997-06-10 | A method and a device for bit-rate reduction using synthetic bandwidth expansion |
SE9702213 | 1997-06-10 | ||
SE9704634A SE9704634D0 (sv) | 1997-12-12 | 1997-12-12 | Synthetic bandwidth expansion of audio signals |
SE9704634 | 1997-12-12 | ||
SE9800268 | 1998-01-30 | ||
SE9800268A SE512719C2 (sv) | 1997-06-10 | 1998-01-30 | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2213901T3 true ES2213901T3 (es) | 2004-09-01 |
Family
ID=27355877
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES98921697T Expired - Lifetime ES2213901T3 (es) | 1997-06-10 | 1998-06-09 | Mejora de codificacion de la fuente utilizando la replica de la banda espectral. |
ES03020094T Expired - Lifetime ES2247466T3 (es) | 1997-06-10 | 1998-06-09 | Mejora de codificacion de la fuente utilizando replicacion de la banda espectral. |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES03020094T Expired - Lifetime ES2247466T3 (es) | 1997-06-10 | 1998-06-09 | Mejora de codificacion de la fuente utilizando replicacion de la banda espectral. |
Country Status (14)
Country | Link |
---|---|
US (4) | US6680972B1 (es) |
EP (2) | EP0940015B1 (es) |
JP (2) | JP3871347B2 (es) |
CN (2) | CN1206816C (es) |
AT (2) | ATE257987T1 (es) |
AU (1) | AU7446598A (es) |
BR (1) | BR9805989B1 (es) |
DE (2) | DE69831435T2 (es) |
DK (2) | DK0940015T3 (es) |
ES (2) | ES2213901T3 (es) |
HK (2) | HK1030843A1 (es) |
PT (2) | PT1367566E (es) |
SE (1) | SE512719C2 (es) |
WO (1) | WO1998057436A2 (es) |
Families Citing this family (421)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE371298T1 (de) * | 1996-11-07 | 2007-09-15 | Koninkl Philips Electronics Nv | Übertragung eines bitstromsignals |
JP4193243B2 (ja) * | 1998-10-07 | 2008-12-10 | ソニー株式会社 | 音響信号符号化方法及び装置、音響信号復号化方法及び装置並びに記録媒体 |
SE9903552D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Efficient spectral envelope coding using dynamic scalefactor grouping and time/frequency switching |
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US7085377B1 (en) * | 1999-07-30 | 2006-08-01 | Lucent Technologies Inc. | Information delivery in a multi-stream digital broadcasting system |
US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US7061992B2 (en) * | 2000-01-18 | 2006-06-13 | National Researc Council Of Canada | Parallel correlator architecture |
FI119576B (fi) * | 2000-03-07 | 2008-12-31 | Nokia Corp | Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin |
WO2001069593A1 (en) * | 2000-03-15 | 2001-09-20 | Koninklijke Philips Electronics N.V. | Laguerre fonction for audio coding |
US7742927B2 (en) | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
FR2807897B1 (fr) * | 2000-04-18 | 2003-07-18 | France Telecom | Methode et dispositif d'enrichissement spectral |
US7330814B2 (en) * | 2000-05-22 | 2008-02-12 | Texas Instruments Incorporated | Wideband speech coding with modulated noise highband excitation system and method |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
US6718300B1 (en) * | 2000-06-02 | 2004-04-06 | Agere Systems Inc. | Method and apparatus for reducing aliasing in cascaded filter banks |
JP3538122B2 (ja) * | 2000-06-14 | 2004-06-14 | 株式会社ケンウッド | 周波数補間装置、周波数補間方法及び記録媒体 |
JP3576935B2 (ja) * | 2000-07-21 | 2004-10-13 | 株式会社ケンウッド | 周波数間引き装置、周波数間引き方法及び記録媒体 |
JP3576941B2 (ja) * | 2000-08-25 | 2004-10-13 | 株式会社ケンウッド | 周波数間引き装置、周波数間引き方法及び記録媒体 |
US20020049586A1 (en) * | 2000-09-11 | 2002-04-25 | Kousuke Nishio | Audio encoder, audio decoder, and broadcasting system |
SE0004163D0 (sv) * | 2000-11-14 | 2000-11-14 | Coding Technologies Sweden Ab | Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering |
SE0004187D0 (sv) * | 2000-11-15 | 2000-11-15 | Coding Technologies Sweden Ab | Enhancing the performance of coding systems that use high frequency reconstruction methods |
SE0004818D0 (sv) | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
US20020087315A1 (en) * | 2000-12-29 | 2002-07-04 | Lee Victor Wai Leung | Computer-implemented multi-scanning language method and system |
US6845170B2 (en) | 2001-01-11 | 2005-01-18 | Sony Corporation | Watermark resistant to resizing and rotation |
US20020128839A1 (en) * | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
ATE319162T1 (de) * | 2001-01-19 | 2006-03-15 | Koninkl Philips Electronics Nv | Breitband-signalübertragungssystem |
US7660424B2 (en) | 2001-02-07 | 2010-02-09 | Dolby Laboratories Licensing Corporation | Audio channel spatial translation |
FR2821501B1 (fr) * | 2001-02-23 | 2004-07-16 | France Telecom | Procede et dispositif de reconstruction spectrale d'un signal a spectre incomplet et systeme de codage/decodage associe |
FR2821476B1 (fr) * | 2001-02-23 | 2003-04-11 | France Telecom | Procede de reconstruction spectrale de signal audio a spectre incomplet et dispositif correspondant |
FR2821475B1 (fr) * | 2001-02-23 | 2003-05-09 | France Telecom | Procede et dispositif de reconstruction spectrale de signaux a plusieurs voies, notamment de signaux stereophoniques |
JP4008244B2 (ja) * | 2001-03-02 | 2007-11-14 | 松下電器産業株式会社 | 符号化装置および復号化装置 |
US7602936B2 (en) * | 2001-03-08 | 2009-10-13 | Sony Corporation | Method to make wavelet watermarks resistant to affine transformations |
US6865273B2 (en) * | 2002-06-05 | 2005-03-08 | Sony Corporation | Method and apparatus to detect watermark that are resistant to resizing, rotation and translation |
SE0101175D0 (sv) * | 2001-04-02 | 2001-04-02 | Coding Technologies Sweden Ab | Aliasing reduction using complex-exponential-modulated filterbanks |
AUPR433901A0 (en) | 2001-04-10 | 2001-05-17 | Lake Technology Limited | High frequency signal construction method |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
JP4106624B2 (ja) * | 2001-06-29 | 2008-06-25 | 株式会社ケンウッド | 信号の周波数成分を補間するための装置および方法 |
US8605911B2 (en) | 2001-07-10 | 2013-12-10 | Dolby International Ab | Efficient and scalable parametric stereo coding for low bitrate audio coding applications |
SE0202159D0 (sv) | 2001-07-10 | 2002-07-09 | Coding Technologies Sweden Ab | Efficientand scalable parametric stereo coding for low bitrate applications |
MXPA03002115A (es) | 2001-07-13 | 2003-08-26 | Matsushita Electric Ind Co Ltd | DISPOSITIVO DE DECODIFICACION Y CODIFICACION DE SEnAL DE AUDIO. |
JP2003108197A (ja) * | 2001-07-13 | 2003-04-11 | Matsushita Electric Ind Co Ltd | オーディオ信号復号化装置およびオーディオ信号符号化装置 |
WO2003019533A1 (fr) * | 2001-08-24 | 2003-03-06 | Kabushiki Kaisha Kenwood | Dispositif et procede d'interpolation adaptive de composantes de frequence d'un signal |
EP1446797B1 (en) * | 2001-10-25 | 2007-05-23 | Koninklijke Philips Electronics N.V. | Method of transmission of wideband audio signals on a transmission channel with reduced bandwidth |
WO2003038812A1 (en) * | 2001-11-02 | 2003-05-08 | Matsushita Electric Industrial Co., Ltd. | Audio encoding and decoding device |
DE10154932B4 (de) * | 2001-11-08 | 2008-01-03 | Grundig Multimedia B.V. | Verfahren zur Audiocodierung |
JP4308229B2 (ja) * | 2001-11-14 | 2009-08-05 | パナソニック株式会社 | 符号化装置および復号化装置 |
JP3926726B2 (ja) * | 2001-11-14 | 2007-06-06 | 松下電器産業株式会社 | 符号化装置および復号化装置 |
EP1701340B1 (en) | 2001-11-14 | 2012-08-29 | Panasonic Corporation | Decoding device, method and program |
US20030108108A1 (en) * | 2001-11-15 | 2003-06-12 | Takashi Katayama | Decoder, decoding method, and program distribution medium therefor |
WO2003042648A1 (fr) * | 2001-11-16 | 2003-05-22 | Matsushita Electric Industrial Co., Ltd. | Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal |
US7433489B2 (en) * | 2001-11-28 | 2008-10-07 | Sony Electronics Inc. | Method to ensure temporal synchronization and reduce complexity in the detection of temporal watermarks |
US7317811B2 (en) * | 2001-11-28 | 2008-01-08 | Sony Electronics Inc. | Method to decode temporal watermarks in compressed video |
EP1423847B1 (en) | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
JP4317355B2 (ja) * | 2001-11-30 | 2009-08-19 | パナソニック株式会社 | 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
DE60323331D1 (de) | 2002-01-30 | 2008-10-16 | Matsushita Electric Ind Co Ltd | Verfahren und vorrichtung zur audio-kodierung und -dekodierung |
JP3751001B2 (ja) * | 2002-03-06 | 2006-03-01 | 株式会社東芝 | オーディオ信号再生方法および再生装置 |
AU2002346344A1 (en) * | 2002-03-20 | 2003-09-29 | Igor Borisovich Dounaev | Methods and systems for digital data transmission |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
WO2003085644A1 (en) | 2002-04-11 | 2003-10-16 | Matsushita Electric Industrial Co., Ltd. | Encoding device and decoding device |
JP4296752B2 (ja) * | 2002-05-07 | 2009-07-15 | ソニー株式会社 | 符号化方法及び装置、復号方法及び装置、並びにプログラム |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7921445B2 (en) * | 2002-06-06 | 2011-04-05 | International Business Machines Corporation | Audio/video speedup system and method in a server-client streaming architecture |
TWI288915B (en) * | 2002-06-17 | 2007-10-21 | Dolby Lab Licensing Corp | Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components |
KR100462615B1 (ko) | 2002-07-11 | 2004-12-20 | 삼성전자주식회사 | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 |
US7379956B2 (en) * | 2002-07-14 | 2008-05-27 | Apple Inc. | Encoding and decoding data arrays |
US7376280B2 (en) * | 2002-07-14 | 2008-05-20 | Apple Inc | Video encoding and decoding |
JP4227772B2 (ja) * | 2002-07-19 | 2009-02-18 | 日本電気株式会社 | オーディオ復号装置と復号方法およびプログラム |
JP4313993B2 (ja) * | 2002-07-19 | 2009-08-12 | パナソニック株式会社 | オーディオ復号化装置およびオーディオ復号化方法 |
EP2019391B1 (en) * | 2002-07-19 | 2013-01-16 | NEC Corporation | Audio decoding apparatus and decoding method and program |
KR100723753B1 (ko) * | 2002-08-01 | 2007-05-30 | 마츠시타 덴끼 산교 가부시키가이샤 | 스펙트럼 대역 복사에 의한 오디오 디코딩 장치 및 오디오디코딩 방법 |
JP3861770B2 (ja) * | 2002-08-21 | 2006-12-20 | ソニー株式会社 | 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体 |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
JP3881943B2 (ja) * | 2002-09-06 | 2007-02-14 | 松下電器産業株式会社 | 音響符号化装置及び音響符号化方法 |
TW564375B (en) * | 2002-09-17 | 2003-12-01 | Ind Tech Res Inst | Amplitude phase shift information embedding and detecting method based on phase features |
AU2006235812B2 (en) * | 2002-09-18 | 2009-10-01 | Dolby International Ab | Method for reduction of aliasing introduced by spectral envelope adjustment in real-valued filterbanks |
SE0202770D0 (sv) * | 2002-09-18 | 2002-09-18 | Coding Technologies Sweden Ab | Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks |
ATE318405T1 (de) * | 2002-09-19 | 2006-03-15 | Matsushita Electric Ind Co Ltd | Audiodecodierungsvorrichtung und -verfahren |
US7191136B2 (en) * | 2002-10-01 | 2007-03-13 | Ibiquity Digital Corporation | Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband |
JP4041385B2 (ja) * | 2002-11-29 | 2008-01-30 | 株式会社ケンウッド | 信号補間装置、信号補間方法及びプログラム |
KR100501930B1 (ko) * | 2002-11-29 | 2005-07-18 | 삼성전자주식회사 | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 |
AU2002953284A0 (en) * | 2002-12-12 | 2003-01-02 | Lake Technology Limited | Digital multirate filtering |
KR100524065B1 (ko) * | 2002-12-23 | 2005-10-26 | 삼성전자주식회사 | 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치 |
US20040252772A1 (en) * | 2002-12-31 | 2004-12-16 | Markku Renfors | Filter bank based signal processing |
TWI220753B (en) * | 2003-01-20 | 2004-09-01 | Mediatek Inc | Method for determining quantization parameters |
US7318027B2 (en) | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
JP4380174B2 (ja) * | 2003-02-27 | 2009-12-09 | 沖電気工業株式会社 | 帯域補正装置 |
KR100917464B1 (ko) * | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
KR100923300B1 (ko) * | 2003-03-22 | 2009-10-23 | 삼성전자주식회사 | 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
KR100923301B1 (ko) * | 2003-03-22 | 2009-10-23 | 삼성전자주식회사 | 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
RU2244386C2 (ru) * | 2003-03-28 | 2005-01-10 | Корпорация "Самсунг Электроникс" | Способ восстановления высокочастотной составляющей аудиосигнала и устройство для его реализации |
US8311809B2 (en) * | 2003-04-17 | 2012-11-13 | Koninklijke Philips Electronics N.V. | Converting decoded sub-band signal into a stereo signal |
RU2005135648A (ru) * | 2003-04-17 | 2006-03-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Генерация аудиосигналов |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
JP2005010621A (ja) * | 2003-06-20 | 2005-01-13 | Matsushita Electric Ind Co Ltd | 音声帯域拡張装置及び帯域拡張方法 |
DE10328777A1 (de) | 2003-06-25 | 2005-01-27 | Coding Technologies Ab | Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals |
ES2354427T3 (es) * | 2003-06-30 | 2011-03-14 | Koninklijke Philips Electronics N.V. | Mejora de la calidad de audio decodificado mediante la adición de ruido. |
JP2005024756A (ja) * | 2003-06-30 | 2005-01-27 | Toshiba Corp | 復号処理回路および移動端末装置 |
FI118550B (fi) * | 2003-07-14 | 2007-12-14 | Nokia Corp | Parannettu eksitaatio ylemmän kaistan koodaukselle koodekissa, joka käyttää kaistojen jakoon perustuvia koodausmenetelmiä |
US7082573B2 (en) | 2003-07-30 | 2006-07-25 | America Online, Inc. | Method and system for managing digital assets |
US7724827B2 (en) * | 2003-09-07 | 2010-05-25 | Microsoft Corporation | Multi-layer run level encoding and decoding |
US7844992B2 (en) * | 2003-09-10 | 2010-11-30 | Thomson Licensing | Video on demand server system and method |
DE602004021266D1 (de) | 2003-09-16 | 2009-07-09 | Panasonic Corp | Kodier- und dekodierapparat |
US7844451B2 (en) * | 2003-09-16 | 2010-11-30 | Panasonic Corporation | Spectrum coding/decoding apparatus and method for reducing distortion of two band spectrums |
JP4679049B2 (ja) | 2003-09-30 | 2011-04-27 | パナソニック株式会社 | スケーラブル復号化装置 |
JP4767687B2 (ja) * | 2003-10-07 | 2011-09-07 | パナソニック株式会社 | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
WO2005040749A1 (ja) * | 2003-10-23 | 2005-05-06 | Matsushita Electric Industrial Co., Ltd. | スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法 |
ES2282899T3 (es) * | 2003-10-30 | 2007-10-16 | Koninklijke Philips Electronics N.V. | Codificacion o descodificacion de señales de audio. |
US7672838B1 (en) | 2003-12-01 | 2010-03-02 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals |
KR100587953B1 (ko) * | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US6980933B2 (en) * | 2004-01-27 | 2005-12-27 | Dolby Laboratories Licensing Corporation | Coding techniques using estimated spectral magnitude and phase derived from MDCT coefficients |
JP5230103B2 (ja) * | 2004-02-18 | 2013-07-10 | ニュアンス コミュニケーションズ,インコーポレイテッド | 自動音声認識器のためのトレーニングデータを生成する方法およびシステム |
US7668711B2 (en) | 2004-04-23 | 2010-02-23 | Panasonic Corporation | Coding equipment |
CN1947174B (zh) * | 2004-04-27 | 2012-03-14 | 松下电器产业株式会社 | 可扩展编码装置、可扩展解码装置、可扩展编码方法以及可扩展解码方法 |
US7239301B2 (en) | 2004-04-30 | 2007-07-03 | Hillcrest Laboratories, Inc. | 3D pointing devices and methods |
US8629836B2 (en) | 2004-04-30 | 2014-01-14 | Hillcrest Laboratories, Inc. | 3D pointing devices with orientation compensation and improved usability |
CN101656074B (zh) * | 2004-05-14 | 2013-01-23 | 松下电器产业株式会社 | 音频解码装置、音频解码方法以及通信终端和基站装置 |
EP1744139B1 (en) | 2004-05-14 | 2015-11-11 | Panasonic Intellectual Property Corporation of America | Decoding apparatus and method thereof |
ATE394774T1 (de) | 2004-05-19 | 2008-05-15 | Matsushita Electric Ind Co Ltd | Kodierungs-, dekodierungsvorrichtung und methode dafür |
CN1973321A (zh) | 2004-06-21 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 音频编码方法 |
GB2416285A (en) | 2004-07-14 | 2006-01-18 | British Broadcasting Corp | Transmission of a data signal in an audio signal |
KR100608062B1 (ko) * | 2004-08-04 | 2006-08-02 | 삼성전자주식회사 | 오디오 데이터의 고주파수 복원 방법 및 그 장치 |
US7921007B2 (en) | 2004-08-17 | 2011-04-05 | Koninklijke Philips Electronics N.V. | Scalable audio coding |
KR100640893B1 (ko) * | 2004-09-07 | 2006-11-02 | 엘지전자 주식회사 | 음성 인식용 베이스밴드 모뎀 및 이동통신용 단말기 |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
JP4809234B2 (ja) * | 2004-09-17 | 2011-11-09 | パナソニック株式会社 | オーディオ符号化装置、復号化装置、方法、及びプログラム |
US7620675B1 (en) * | 2004-09-23 | 2009-11-17 | Texas Instruments Incorporated | Image and audio transform methods |
JP4618634B2 (ja) * | 2004-10-07 | 2011-01-26 | Kddi株式会社 | 圧縮オーディオデータ処理方法 |
JP4815780B2 (ja) * | 2004-10-20 | 2011-11-16 | ヤマハ株式会社 | オーバーサンプリングシステム、デコードlsi、およびオーバーサンプリング方法 |
US7555081B2 (en) * | 2004-10-29 | 2009-06-30 | Harman International Industries, Incorporated | Log-sampled filter system |
SE0402652D0 (sv) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
BRPI0517234B1 (pt) * | 2004-11-02 | 2019-07-02 | Dolby International Ab | Decodificador para gerar um sinal de áudio, codificador para codificar um sinal de áudio, métodos para gerar e para codificar um sinal de áudio, receptor para receber um sinal de áudio, transmissor e sistema de transmissão para transmitir um sinal de áudio, métodos para receber, transmitir, e transmitir e receber um sinal de áudio, meio de armazenamento legível por computador, equipamento reprodutor de áudio, e, equipamento gravador de áudio |
EP2752843A1 (en) * | 2004-11-05 | 2014-07-09 | Panasonic Corporation | Encoder, decoder, encoding method, and decoding method |
US8137195B2 (en) | 2004-11-23 | 2012-03-20 | Hillcrest Laboratories, Inc. | Semantic gaming and application transformation |
KR100657916B1 (ko) * | 2004-12-01 | 2006-12-14 | 삼성전자주식회사 | 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법 |
US20060143013A1 (en) * | 2004-12-28 | 2006-06-29 | Broadcom Corporation | Method and system for playing audio at an accelerated rate using multiresolution analysis technique keeping pitch constant |
JP5224017B2 (ja) * | 2005-01-11 | 2013-07-03 | 日本電気株式会社 | オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム |
US20060187770A1 (en) * | 2005-02-23 | 2006-08-24 | Broadcom Corporation | Method and system for playing audio at a decelerated rate using multiresolution analysis technique keeping pitch constant |
DE602006021402D1 (de) * | 2005-02-24 | 2011-06-01 | Panasonic Corp | Datenwiedergabevorrichtung |
JP4761506B2 (ja) * | 2005-03-01 | 2011-08-31 | 国立大学法人北陸先端科学技術大学院大学 | 音声処理方法と装置及びプログラム並びに音声システム |
JP4645241B2 (ja) * | 2005-03-10 | 2011-03-09 | ヤマハ株式会社 | 音声処理装置およびプログラム |
KR100707186B1 (ko) * | 2005-03-24 | 2007-04-13 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체 |
SG163556A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for wideband speech coding |
KR100818268B1 (ko) * | 2005-04-14 | 2008-04-02 | 삼성전자주식회사 | 오디오 데이터 부호화 및 복호화 장치와 방법 |
US7627481B1 (en) | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
US8086451B2 (en) | 2005-04-20 | 2011-12-27 | Qnx Software Systems Co. | System for improving speech intelligibility through high frequency compression |
US8249861B2 (en) | 2005-04-20 | 2012-08-21 | Qnx Software Systems Limited | High frequency compression integration |
US7813931B2 (en) * | 2005-04-20 | 2010-10-12 | QNX Software Systems, Co. | System for improving speech quality and intelligibility with bandwidth compression/expansion |
PT1875463T (pt) | 2005-04-22 | 2019-01-24 | Qualcomm Inc | Sistemas, métodos e aparelho para nivelamento de fator de ganho |
DK1742509T3 (da) | 2005-07-08 | 2013-11-04 | Oticon As | Et system og en fremgangsmåde til eliminering af feedback og støj i et høreapparat |
DE102005032724B4 (de) * | 2005-07-13 | 2009-10-08 | Siemens Ag | Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen |
US7630882B2 (en) * | 2005-07-15 | 2009-12-08 | Microsoft Corporation | Frequency segmentation to obtain bands for efficient coding of digital media |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
KR100803205B1 (ko) * | 2005-07-15 | 2008-02-14 | 삼성전자주식회사 | 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
US20070030923A1 (en) * | 2005-08-02 | 2007-02-08 | Xiaoming Yu | High accuracy non data-aided frequency estimator for M-ary phase shift keying modulation |
US8599925B2 (en) * | 2005-08-12 | 2013-12-03 | Microsoft Corporation | Efficient coding and decoding of transform blocks |
JP4715385B2 (ja) * | 2005-08-19 | 2011-07-06 | 株式会社ケンウッド | 補間装置、オーディオ再生装置、補間方法および補間プログラム |
WO2007028407A1 (en) | 2005-09-06 | 2007-03-15 | Nero Ag | Method for signing a data package and signing apparatus |
JP4627548B2 (ja) * | 2005-09-08 | 2011-02-09 | パイオニア株式会社 | 帯域拡張装置、帯域拡張方法および帯域拡張プログラム |
RU2008112137A (ru) | 2005-09-30 | 2009-11-10 | Панасоник Корпорэйшн (Jp) | Устройство кодирования речи и способ кодирования речи |
US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
US20070118361A1 (en) * | 2005-10-07 | 2007-05-24 | Deepen Sinha | Window apparatus and method |
US8069035B2 (en) * | 2005-10-14 | 2011-11-29 | Panasonic Corporation | Scalable encoding apparatus, scalable decoding apparatus, and methods of them |
KR100739180B1 (ko) * | 2005-10-20 | 2007-07-13 | 엘지전자 주식회사 | 이동 통신 단말기의 멀티미디어 데이터를 송수신하는 장치및 그 방법 |
US8326638B2 (en) * | 2005-11-04 | 2012-12-04 | Nokia Corporation | Audio compression |
JP5034228B2 (ja) * | 2005-11-30 | 2012-09-26 | 株式会社Jvcケンウッド | 補間装置、音再生装置、補間方法および補間プログラム |
EP1959433B1 (en) * | 2005-11-30 | 2011-10-19 | Panasonic Corporation | Subband coding apparatus and method of coding subband |
US7489111B2 (en) | 2005-12-08 | 2009-02-10 | Robert W. Wise | Holstered cordless power tool |
US7536299B2 (en) * | 2005-12-19 | 2009-05-19 | Dolby Laboratories Licensing Corporation | Correlating and decorrelating transforms for multiple description coding systems |
TWI311856B (en) * | 2006-01-04 | 2009-07-01 | Quanta Comp Inc | Synthesis subband filtering method and apparatus |
US7831434B2 (en) * | 2006-01-20 | 2010-11-09 | Microsoft Corporation | Complex-transform channel coding with extended-band frequency coding |
KR100739786B1 (ko) * | 2006-01-20 | 2007-07-13 | 삼성전자주식회사 | 다중 채널 디지털 앰프 시스템 및 그 신호 처리 방법 |
US7953604B2 (en) * | 2006-01-20 | 2011-05-31 | Microsoft Corporation | Shape and scale parameters for extended-band frequency coding |
US8190425B2 (en) * | 2006-01-20 | 2012-05-29 | Microsoft Corporation | Complex cross-correlation parameters for multi-channel audio |
WO2007098258A1 (en) * | 2006-02-24 | 2007-08-30 | Neural Audio Corporation | Audio codec conditioning system and method |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
PL1999997T3 (pl) * | 2006-03-28 | 2011-09-30 | Fraunhofer Ges Forschung | Udoskonalony sposób kształtowania sygnału podczas rekonstrukcji wielokanałowego sygnału audio |
WO2007114291A1 (ja) * | 2006-03-31 | 2007-10-11 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置、音声復号化装置、およびこれらの方法 |
US8392176B2 (en) * | 2006-04-10 | 2013-03-05 | Qualcomm Incorporated | Processing of excitation in audio coding and decoding |
WO2007129728A1 (ja) * | 2006-05-10 | 2007-11-15 | Panasonic Corporation | 符号化装置及び符号化方法 |
JP2007310298A (ja) * | 2006-05-22 | 2007-11-29 | Oki Electric Ind Co Ltd | 帯域外信号生成装置及び周波数帯域拡張装置 |
US8010352B2 (en) | 2006-06-21 | 2011-08-30 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
US9159333B2 (en) | 2006-06-21 | 2015-10-13 | Samsung Electronics Co., Ltd. | Method and apparatus for adaptively encoding and decoding high frequency band |
KR101390188B1 (ko) * | 2006-06-21 | 2014-04-30 | 삼성전자주식회사 | 적응적 고주파수영역 부호화 및 복호화 방법 및 장치 |
JP2010513940A (ja) * | 2006-06-29 | 2010-04-30 | エヌエックスピー ビー ヴィ | ノイズ合成 |
CN101512899B (zh) * | 2006-07-04 | 2012-12-26 | 杜比国际公司 | 滤波器压缩器以及用于产生压缩子带滤波器冲激响应的方法 |
EP1881485A1 (en) | 2006-07-18 | 2008-01-23 | Deutsche Thomson-Brandt Gmbh | Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal |
WO2008022176A2 (en) * | 2006-08-15 | 2008-02-21 | Broadcom Corporation | Packet loss concealment for sub-band predictive coding based on extrapolation of full-band audio waveform |
JP2008066851A (ja) * | 2006-09-05 | 2008-03-21 | Sony Corp | 情報処理装置および情報処理方法、記録媒体、並びに、プログラム |
CN101140759B (zh) * | 2006-09-08 | 2010-05-12 | 华为技术有限公司 | 语音或音频信号的带宽扩展方法及系统 |
US8417532B2 (en) * | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8126721B2 (en) * | 2006-10-18 | 2012-02-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8041578B2 (en) * | 2006-10-18 | 2011-10-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
US8295507B2 (en) * | 2006-11-09 | 2012-10-23 | Sony Corporation | Frequency band extending apparatus, frequency band extending method, player apparatus, playing method, program and recording medium |
JP5141180B2 (ja) * | 2006-11-09 | 2013-02-13 | ソニー株式会社 | 周波数帯域拡大装置及び周波数帯域拡大方法、再生装置及び再生方法、並びに、プログラム及び記録媒体 |
JP5103880B2 (ja) * | 2006-11-24 | 2012-12-19 | 富士通株式会社 | 復号化装置および復号化方法 |
JP4967618B2 (ja) * | 2006-11-24 | 2012-07-04 | 富士通株式会社 | 復号化装置および復号化方法 |
EP1927981B1 (en) * | 2006-12-01 | 2013-02-20 | Nuance Communications, Inc. | Spectral refinement of audio signals |
WO2008084688A1 (ja) * | 2006-12-27 | 2008-07-17 | Panasonic Corporation | 符号化装置、復号装置及びこれらの方法 |
KR101379263B1 (ko) | 2007-01-12 | 2014-03-28 | 삼성전자주식회사 | 대역폭 확장 복호화 방법 및 장치 |
EP1947644B1 (en) * | 2007-01-18 | 2019-06-19 | Nuance Communications, Inc. | Method and apparatus for providing an acoustic signal with extended band-width |
CA2623823A1 (en) * | 2007-03-02 | 2008-09-02 | Sean C. Carroll | Non-orthogonal frequency-division multiplexed communication through a non-linear transmission medium |
GB0704622D0 (en) * | 2007-03-09 | 2007-04-18 | Skype Ltd | Speech coding system and method |
WO2008126382A1 (ja) * | 2007-03-30 | 2008-10-23 | Panasonic Corporation | 符号化装置および符号化方法 |
US7761290B2 (en) | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
JP5098492B2 (ja) * | 2007-07-30 | 2012-12-12 | ソニー株式会社 | 信号処理装置及び信号処理方法、並びにプログラム |
US20090198500A1 (en) * | 2007-08-24 | 2009-08-06 | Qualcomm Incorporated | Temporal masking in audio coding based on spectral dynamics in frequency sub-bands |
US8428957B2 (en) | 2007-08-24 | 2013-04-23 | Qualcomm Incorporated | Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands |
ATE535904T1 (de) * | 2007-08-27 | 2011-12-15 | Ericsson Telefon Ab L M | Verbesserte transformationskodierung von sprach- und audiosignalen |
WO2009055718A1 (en) * | 2007-10-24 | 2009-04-30 | Red Shift Company, Llc | Producing phonitos based on feature vectors |
US8396704B2 (en) * | 2007-10-24 | 2013-03-12 | Red Shift Company, Llc | Producing time uniform feature vectors |
JP5147851B2 (ja) * | 2007-10-26 | 2013-02-20 | 株式会社ディーアンドエムホールディングス | オーディオ信号補間装置及びオーディオ信号補間方法 |
US8249883B2 (en) | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
WO2009057327A1 (ja) | 2007-10-31 | 2009-05-07 | Panasonic Corporation | 符号化装置および復号装置 |
EP2207166B1 (en) * | 2007-11-02 | 2013-06-19 | Huawei Technologies Co., Ltd. | An audio decoding method and device |
US20100250260A1 (en) * | 2007-11-06 | 2010-09-30 | Lasse Laaksonen | Encoder |
EP2220646A1 (en) * | 2007-11-06 | 2010-08-25 | Nokia Corporation | Audio coding apparatus and method thereof |
BRPI0722269A2 (pt) * | 2007-11-06 | 2014-04-22 | Nokia Corp | Encodificador para encodificar um sinal de áudio, método para encodificar um sinal de áudio; decodificador para decodificar um sinal de áudio; método para decodificar um sinal de áudio; aparelho; dispositivo eletrônico; produto de programa de comoputador configurado para realizar um método para encodificar e para decodificar um sinal de áudio |
KR101586317B1 (ko) * | 2007-11-21 | 2016-01-18 | 엘지전자 주식회사 | 신호 처리 방법 및 장치 |
KR100970446B1 (ko) * | 2007-11-21 | 2010-07-16 | 한국전자통신연구원 | 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법 |
US8688441B2 (en) | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
AU2008339211B2 (en) * | 2007-12-18 | 2011-06-23 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
ES2629453T3 (es) | 2007-12-21 | 2017-08-09 | Iii Holdings 12, Llc | Codificador, descodificador y procedimiento de codificación |
US20100280833A1 (en) * | 2007-12-27 | 2010-11-04 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
KR101413968B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
DE102008015702B4 (de) | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090203395A1 (en) * | 2008-02-08 | 2009-08-13 | Sony Ericsson Mobile Communications Ab | Amplitude modulation radio transmission with extended bandwidth |
ES2738534T3 (es) | 2008-03-10 | 2020-01-23 | Fraunhofer Ges Forschung | Dispositivo y método para manipular una señal de audio que tiene un evento transitorio |
JP5326311B2 (ja) | 2008-03-19 | 2013-10-30 | 沖電気工業株式会社 | 音声帯域拡張装置、方法及びプログラム、並びに、音声通信装置 |
EP3296992B1 (en) * | 2008-03-20 | 2021-09-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for modifying a parameterized representation |
JP2009300707A (ja) * | 2008-06-13 | 2009-12-24 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US9378751B2 (en) * | 2008-06-19 | 2016-06-28 | Broadcom Corporation | Method and system for digital gain processing in a hardware audio CODEC for audio transmission |
US8909361B2 (en) * | 2008-06-19 | 2014-12-09 | Broadcom Corporation | Method and system for processing high quality audio in a hardware audio codec for audio transmission |
WO2009157280A1 (ja) * | 2008-06-26 | 2009-12-30 | 独立行政法人科学技術振興機構 | オーディオ信号圧縮装置、オーディオ信号圧縮方法、オーディオ信号復号装置及びオーディオ信号復号方法 |
US20140184509A1 (en) | 2013-01-02 | 2014-07-03 | Movea Sa | Hand held pointing device with roll compensation |
US8010313B2 (en) | 2008-06-27 | 2011-08-30 | Movea Sa | Hand held pointing device with roll compensation |
USRE47180E1 (en) | 2008-07-11 | 2018-12-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
CN102105931B (zh) * | 2008-07-11 | 2013-04-10 | 弗朗霍夫应用科学研究促进协会 | 用于生成带宽扩展信号的装置与方法 |
RU2491658C2 (ru) * | 2008-07-11 | 2013-08-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Синтезатор аудиосигнала и кодирующее устройство аудиосигнала |
US8880410B2 (en) | 2008-07-11 | 2014-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a bandwidth extended signal |
PL2346030T3 (pl) * | 2008-07-11 | 2015-03-31 | Fraunhofer Ges Forschung | Koder audio, sposób kodowania sygnału audio oraz program komputerowy |
MX2011000367A (es) * | 2008-07-11 | 2011-03-02 | Fraunhofer Ges Forschung | Un aparato y un metodo para calcular una cantidad de envolventes espectrales. |
KR101756834B1 (ko) * | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
US8463412B2 (en) | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US8326640B2 (en) * | 2008-08-26 | 2012-12-04 | Broadcom Corporation | Method and system for multi-band amplitude estimation and gain control in an audio CODEC |
JP2010079275A (ja) * | 2008-08-29 | 2010-04-08 | Sony Corp | 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム |
US8407046B2 (en) * | 2008-09-06 | 2013-03-26 | Huawei Technologies Co., Ltd. | Noise-feedback for spectral envelope quantization |
US8352279B2 (en) * | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
US8515747B2 (en) * | 2008-09-06 | 2013-08-20 | Huawei Technologies Co., Ltd. | Spectrum harmonic/noise sharpness control |
WO2010028292A1 (en) * | 2008-09-06 | 2010-03-11 | Huawei Technologies Co., Ltd. | Adaptive frequency prediction |
US8532998B2 (en) | 2008-09-06 | 2013-09-10 | Huawei Technologies Co., Ltd. | Selective bandwidth extension for encoding/decoding audio/speech signal |
WO2010031049A1 (en) * | 2008-09-15 | 2010-03-18 | GH Innovation, Inc. | Improving celp post-processing for music signals |
WO2010031003A1 (en) * | 2008-09-15 | 2010-03-18 | Huawei Technologies Co., Ltd. | Adding second enhancement layer to celp based core layer |
EP2224433B1 (en) * | 2008-09-25 | 2020-05-27 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
EP2184929B1 (en) | 2008-11-10 | 2013-04-03 | Oticon A/S | N band FM demodulation to aid cochlear hearing impaired persons |
US8548816B1 (en) * | 2008-12-01 | 2013-10-01 | Marvell International Ltd. | Efficient scalefactor estimation in advanced audio coding and MP3 encoder |
GB2466201B (en) | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
US9947340B2 (en) | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
ES2976382T3 (es) | 2008-12-15 | 2024-07-31 | Fraunhofer Ges Zur Foerderungder Angewandten Forschung E V | Decodificador de extensión de ancho de banda |
AU2013203159B2 (en) * | 2008-12-15 | 2015-09-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder and bandwidth extension decoder |
JP5423684B2 (ja) * | 2008-12-19 | 2014-02-19 | 富士通株式会社 | 音声帯域拡張装置及び音声帯域拡張方法 |
BR122019023704B1 (pt) | 2009-01-16 | 2020-05-05 | Dolby Int Ab | sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta |
US20100191534A1 (en) * | 2009-01-23 | 2010-07-29 | Qualcomm Incorporated | Method and apparatus for compression or decompression of digital signals |
DK2211339T3 (en) * | 2009-01-23 | 2017-08-28 | Oticon As | listening System |
ES2906255T3 (es) | 2009-01-28 | 2022-04-13 | Dolby Int Ab | Transposición armónica mejorada |
AU2013211560B2 (en) * | 2009-01-28 | 2016-04-28 | Dolby International Ab | Improved harmonic transposition |
RU2493618C2 (ru) * | 2009-01-28 | 2013-09-20 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование |
AU2015221516B2 (en) * | 2009-01-28 | 2017-08-10 | Dolby International Ab | Improved Harmonic Transposition |
EP2214165A3 (en) * | 2009-01-30 | 2010-09-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for manipulating an audio signal comprising a transient event |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
US8953818B2 (en) | 2009-02-06 | 2015-02-10 | Oticon A/S | Spectral band substitution to avoid howls and sub-oscillation |
TWI618350B (zh) * | 2009-02-18 | 2018-03-11 | 杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
TWI788752B (zh) * | 2009-02-18 | 2023-01-01 | 瑞典商杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
JP5214058B2 (ja) | 2009-03-17 | 2013-06-19 | ドルビー インターナショナル アーベー | 適応的に選択可能な左/右又はミッド/サイド・ステレオ符号化及びパラメトリック・ステレオ符号化の組み合わせに基づいた高度ステレオ符号化 |
JP5267257B2 (ja) * | 2009-03-23 | 2013-08-21 | 沖電気工業株式会社 | 音声ミキシング装置、方法及びプログラム、並びに、音声会議システム |
RU2452044C1 (ru) * | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
EP2239732A1 (en) | 2009-04-09 | 2010-10-13 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
JP4921611B2 (ja) * | 2009-04-03 | 2012-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
CN101521014B (zh) * | 2009-04-08 | 2011-09-14 | 武汉大学 | 音频带宽扩展编解码装置 |
AU2013207549B2 (en) * | 2009-04-09 | 2015-06-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
CO6440537A2 (es) | 2009-04-09 | 2012-05-15 | Fraunhofer Ges Forschung | Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio |
TWI556227B (zh) | 2009-05-27 | 2016-11-01 | 杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
AU2015264887B2 (en) * | 2009-05-27 | 2017-12-07 | Dolby International Ab | Efficient Combined Harmonic Transposition |
AU2013263712B2 (en) * | 2009-05-27 | 2015-11-12 | Dolby International Ab | Efficient Combined Harmonic Transposition |
US8971551B2 (en) | 2009-09-18 | 2015-03-03 | Dolby International Ab | Virtual bass synthesis using harmonic transposition |
US11657788B2 (en) | 2009-05-27 | 2023-05-23 | Dolby International Ab | Efficient combined harmonic transposition |
EP2273493B1 (en) * | 2009-06-29 | 2012-12-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Bandwidth extension encoding and decoding |
AU2014201331B2 (en) * | 2009-06-29 | 2015-10-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Bandwidth extension encoder, bandwidth extension decoder and phase vocoder |
JP5365380B2 (ja) * | 2009-07-07 | 2013-12-11 | ソニー株式会社 | 音響信号処理装置、その処理方法およびプログラム |
JP5031006B2 (ja) * | 2009-09-04 | 2012-09-19 | パナソニック株式会社 | スケーラブル復号化装置及びスケーラブル復号化方法 |
EP2306456A1 (en) * | 2009-09-04 | 2011-04-06 | Thomson Licensing | Method for decoding an audio signal that has a base layer and an enhancement layer |
KR101701759B1 (ko) | 2009-09-18 | 2017-02-03 | 돌비 인터네셔널 에이비 | 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체 |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
US9105300B2 (en) | 2009-10-19 | 2015-08-11 | Dolby International Ab | Metadata time marking information for indicating a section of an audio object |
WO2011047886A1 (en) * | 2009-10-21 | 2011-04-28 | Dolby International Ab | Apparatus and method for generating a high frequency audio signal using adaptive oversampling |
EP3998606B8 (en) * | 2009-10-21 | 2022-12-07 | Dolby International AB | Oversampling in a combined transposer filter bank |
JP5422664B2 (ja) * | 2009-10-21 | 2014-02-19 | パナソニック株式会社 | 音響信号処理装置、音響符号化装置および音響復号装置 |
US20110257978A1 (en) * | 2009-10-23 | 2011-10-20 | Brainlike, Inc. | Time Series Filtering, Data Reduction and Voice Recognition in Communication Device |
TWI484473B (zh) | 2009-10-30 | 2015-05-11 | Dolby Int Ab | 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統 |
US8856011B2 (en) | 2009-11-19 | 2014-10-07 | Telefonaktiebolaget L M Ericsson (Publ) | Excitation signal bandwidth extension |
WO2011062535A1 (en) * | 2009-11-19 | 2011-05-26 | Telefonaktiebolaget Lm Ericsson (Publ) | Methods and arrangements for loudness and sharpness compensation in audio codecs |
EP2502231B1 (en) | 2009-11-19 | 2014-06-04 | Telefonaktiebolaget L M Ericsson (PUBL) | Bandwidth extension of a low band audio signal |
CN102667920B (zh) * | 2009-12-16 | 2014-03-12 | 杜比国际公司 | Sbr比特流参数缩混 |
AU2015203065B2 (en) * | 2010-01-19 | 2017-05-11 | Dolby International Ab | Improved subband block based harmonic transposition |
AU2014200151B2 (en) * | 2010-01-19 | 2015-04-16 | Dolby International Ab | Improved subband block based harmonic transposition |
CN104318930B (zh) * | 2010-01-19 | 2017-09-01 | 杜比国际公司 | 子带处理单元以及生成合成子带信号的方法 |
KR101712101B1 (ko) * | 2010-01-28 | 2017-03-03 | 삼성전자 주식회사 | 신호 처리 방법 및 장치 |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
SG183966A1 (en) * | 2010-03-09 | 2012-10-30 | Fraunhofer Ges Forschung | Improved magnitude response and temporal alignment in phase vocoder based bandwidth extension for audio signals |
KR101412117B1 (ko) | 2010-03-09 | 2014-06-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 재생 속도 또는 피치를 변경할 때 오디오 신호에서 과도 사운드 이벤트를 처리하기 위한 장치 및 방법 |
JP5523589B2 (ja) | 2010-03-09 | 2014-06-18 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法 |
EP2375782B1 (en) * | 2010-04-09 | 2018-12-12 | Oticon A/S | Improvements in sound perception using frequency transposition by moving the envelope |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
TR201904117T4 (tr) | 2010-04-16 | 2019-05-21 | Fraunhofer Ges Forschung | Kılavuzlu bant genişliği uzantısı ve gözü kapalı bant genişliği uzantısı kullanılarak bir geniş bantlı sinyal üretilmesine yönelik aparat, yöntem ve bilgisayar programı. |
US8452826B2 (en) * | 2010-05-04 | 2013-05-28 | Raytheon Applied Signal Technology, Inc. | Digital frequency channelizer |
US8751225B2 (en) | 2010-05-12 | 2014-06-10 | Electronics And Telecommunications Research Institute | Apparatus and method for coding signal in a communication system |
US8600737B2 (en) * | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
PL2581905T3 (pl) | 2010-06-09 | 2016-06-30 | Panasonic Ip Corp America | Sposób rozszerzania pasma częstotliwości, urządzenie do rozszerzania pasma częstotliwości, program, układ scalony oraz urządzenie dekodujące audio |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
BR112012024360B1 (pt) | 2010-07-19 | 2020-11-03 | Dolby International Ab | sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
US8762158B2 (en) * | 2010-08-06 | 2014-06-24 | Samsung Electronics Co., Ltd. | Decoding method and decoding apparatus therefor |
CN103270553B (zh) | 2010-08-12 | 2015-08-12 | 弗兰霍菲尔运输应用研究公司 | 对正交镜像滤波器式音频编译码器的输出信号的重新取样 |
IL317702A (en) | 2010-09-16 | 2025-02-01 | Dolby Int Ab | Method and system for harmonic, block, subchannel, and enhanced transposition by rhetorical multiplication |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
US8868432B2 (en) * | 2010-10-15 | 2014-10-21 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
TWI412022B (zh) * | 2010-12-30 | 2013-10-11 | Univ Nat Cheng Kung | 遞迴式離散餘弦正、逆轉換之系統 |
JP5743137B2 (ja) | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
WO2012110416A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
TWI483245B (zh) * | 2011-02-14 | 2015-05-01 | Fraunhofer Ges Forschung | 利用重疊變換之資訊信號表示技術 |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
MX2013009344A (es) | 2011-02-14 | 2013-10-01 | Fraunhofer Ges Forschung | Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral. |
JP5914527B2 (ja) | 2011-02-14 | 2016-05-11 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法 |
BR112013020987B1 (pt) * | 2011-02-18 | 2021-01-19 | Ntt Docomo, Inc. | Decodificador de fala, codificador de fala, método de decodificação de fala, método decodificação de fala e memórias legíveis por computador. |
PT2697795E (pt) * | 2011-04-15 | 2015-09-25 | Ericsson Telefon Ab L M | Utilização conjunta adaptativa de taxas de ganho/forma |
WO2012144128A1 (ja) | 2011-04-20 | 2012-10-26 | パナソニック株式会社 | 音声音響符号化装置、音声音響復号装置、およびこれらの方法 |
EP2709103B1 (en) * | 2011-06-09 | 2015-10-07 | Panasonic Intellectual Property Corporation of America | Voice coding device, voice decoding device, voice coding method and voice decoding method |
US9070361B2 (en) * | 2011-06-10 | 2015-06-30 | Google Technology Holdings LLC | Method and apparatus for encoding a wideband speech signal utilizing downmixing of a highband component |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
DE102011106034A1 (de) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Verfahren und Vorrichtung zur Spektralbandreplikation und Verfahren und System zur Audiodecodierung |
EP2562751B1 (en) | 2011-08-22 | 2014-06-11 | Svox AG | Temporal interpolation of adjacent spectra |
JP5975243B2 (ja) | 2011-08-24 | 2016-08-23 | ソニー株式会社 | 符号化装置および方法、並びにプログラム |
JP6037156B2 (ja) | 2011-08-24 | 2016-11-30 | ソニー株式会社 | 符号化装置および方法、並びにプログラム |
JP5807453B2 (ja) * | 2011-08-30 | 2015-11-10 | 富士通株式会社 | 符号化方法、符号化装置および符号化プログラム |
US8781023B2 (en) | 2011-11-01 | 2014-07-15 | At&T Intellectual Property I, L.P. | Method and apparatus for improving transmission of data on a bandwidth expanded channel |
US8774308B2 (en) * | 2011-11-01 | 2014-07-08 | At&T Intellectual Property I, L.P. | Method and apparatus for improving transmission of data on a bandwidth mismatched channel |
USRE48258E1 (en) | 2011-11-11 | 2020-10-13 | Dolby International Ab | Upsampling using oversampled SBR |
JP5817499B2 (ja) | 2011-12-15 | 2015-11-18 | 富士通株式会社 | 復号装置、符号化装置、符号化復号システム、復号方法、符号化方法、復号プログラム、及び符号化プログラム |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
US9905236B2 (en) | 2012-03-23 | 2018-02-27 | Dolby Laboratories Licensing Corporation | Enabling sampling rate diversity in a voice communication system |
US8965290B2 (en) * | 2012-03-29 | 2015-02-24 | General Electric Company | Amplitude enhanced frequency modulation |
JP5997592B2 (ja) | 2012-04-27 | 2016-09-28 | 株式会社Nttドコモ | 音声復号装置 |
EP2682941A1 (de) * | 2012-07-02 | 2014-01-08 | Technische Universität Ilmenau | Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne |
JP6065452B2 (ja) * | 2012-08-14 | 2017-01-25 | 富士通株式会社 | データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム |
EP2704142B1 (en) | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
EP2709106A1 (en) | 2012-09-17 | 2014-03-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal |
US9129600B2 (en) * | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
PL3067890T3 (pl) | 2013-01-29 | 2018-06-29 | Fraunhofer Ges Forschung | Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma |
JP6146069B2 (ja) | 2013-03-18 | 2017-06-14 | 富士通株式会社 | データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム |
EP3382699B1 (en) * | 2013-04-05 | 2020-06-17 | Dolby International AB | Audio encoder and decoder for interleaved waveform coding |
JP6019266B2 (ja) * | 2013-04-05 | 2016-11-02 | ドルビー・インターナショナル・アーベー | ステレオ・オーディオ・エンコーダおよびデコーダ |
US8804971B1 (en) | 2013-04-30 | 2014-08-12 | Dolby International Ab | Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio |
RU2662921C2 (ru) | 2013-06-10 | 2018-07-31 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения |
KR101789085B1 (ko) * | 2013-06-10 | 2017-11-20 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 분포 양자화 및 코딩을 사용하는 오디오 신호 엔벨로프의 분할에 의한 오디오 신호 엔벨로프 인코딩, 처리 및 디코딩을 위한 장치 및 방법 |
DK2822263T3 (da) | 2013-07-05 | 2019-06-17 | Sennheiser Communications As | Kommunikationsanordning med ekkoundertrykkelse |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
EP2830055A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
WO2015041070A1 (ja) | 2013-09-19 | 2015-03-26 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
EP2871641A1 (en) * | 2013-11-12 | 2015-05-13 | Dialog Semiconductor B.V. | Enhancement of narrowband audio signals using a single sideband AM modulation |
US9858941B2 (en) | 2013-11-22 | 2018-01-02 | Qualcomm Incorporated | Selective phase compensation in high band coding of an audio signal |
KR102356012B1 (ko) | 2013-12-27 | 2022-01-27 | 소니그룹주식회사 | 복호화 장치 및 방법, 및 프로그램 |
CN103795420B (zh) * | 2014-02-10 | 2017-04-05 | 南京邮电大学 | 一种基于分段的sbr多属性数据压缩方法 |
EP4325488A3 (en) | 2014-02-28 | 2024-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoding device, encoding device, decoding method, encoding method, terminal device, and base station device |
JP6439296B2 (ja) * | 2014-03-24 | 2018-12-19 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
WO2015151451A1 (ja) | 2014-03-31 | 2015-10-08 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 符号化装置、復号装置、符号化方法、復号方法、およびプログラム |
EP2963649A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using horizontal phase correction |
ES2837107T3 (es) * | 2015-02-26 | 2021-06-29 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio para obtener una señal de audio procesada usando una envolvente en el dominio del tiempo objetivo |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
TWI693595B (zh) * | 2015-03-13 | 2020-05-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
TWI856342B (zh) | 2015-03-13 | 2024-09-21 | 瑞典商杜比國際公司 | 音訊處理單元、用於將經編碼的音訊位元流解碼之方法以及非暫態電腦可讀媒體 |
US10129659B2 (en) | 2015-05-08 | 2018-11-13 | Doly International AB | Dialog enhancement complemented with frequency transposition |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
US10861475B2 (en) * | 2015-11-10 | 2020-12-08 | Dolby International Ab | Signal-dependent companding system and method to reduce quantization noise |
EP3182411A1 (en) | 2015-12-14 | 2017-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an encoded audio signal |
KR101968456B1 (ko) | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
JP6763194B2 (ja) * | 2016-05-10 | 2020-09-30 | 株式会社Jvcケンウッド | 符号化装置、復号装置、通信システム |
EP3246923A1 (en) * | 2016-05-20 | 2017-11-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a multichannel audio signal |
JP6621709B2 (ja) * | 2016-05-26 | 2019-12-18 | アルパイン株式会社 | 音声処理装置、音声処理方法及びコンピュータプログラム |
CN107845385B (zh) | 2016-09-19 | 2021-07-13 | 南宁富桂精密工业有限公司 | 信息隐藏的编解码方法及系统 |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
NO343581B1 (no) * | 2017-03-01 | 2019-04-08 | Dolby Int Ab | Fremgangsmåte, anordning og program til spektralinnhyllingsjustering |
CN109215675B (zh) * | 2017-07-05 | 2021-08-03 | 苏州谦问万答吧教育科技有限公司 | 一种啸叫抑制的方法、装置及设备 |
US10714098B2 (en) * | 2017-12-21 | 2020-07-14 | Dolby Laboratories Licensing Corporation | Selective forward error correction for spatial audio codecs |
AU2019257701A1 (en) | 2018-04-25 | 2020-12-03 | Dolby International Ab | Integration of high frequency reconstruction techniques with reduced post-processing delay |
CN118782079A (zh) | 2018-04-25 | 2024-10-15 | 杜比国际公司 | 高频音频重建技术的集成 |
EP3671741A1 (en) * | 2018-12-21 | 2020-06-24 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio processor and method for generating a frequency-enhanced audio signal using pulse processing |
CN113113032B (zh) * | 2020-01-10 | 2024-08-09 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
US20230395081A1 (en) * | 2020-11-05 | 2023-12-07 | Nippon Telegraph And Telephone Corporation | Sound signal high frequency compensation method, sound signal post processing method, sound signal decode method, apparatus thereof, program, and storage medium |
JP7517458B2 (ja) | 2020-11-05 | 2024-07-17 | 日本電信電話株式会社 | 音信号高域補償方法、音信号後処理方法、音信号復号方法、これらの装置、プログラム、および記録媒体 |
CN114641068B (zh) * | 2020-12-15 | 2025-02-25 | 海能达通信股份有限公司 | 一种载波的分配方法及相关装置 |
CN113516987B (zh) * | 2021-07-16 | 2024-04-12 | 科大讯飞股份有限公司 | 一种说话人识别方法、装置、存储介质及设备 |
US12255671B2 (en) * | 2023-03-16 | 2025-03-18 | International Business Machines Corporation | Separable, intelligible, single channel voice communication |
CN117636902B (zh) * | 2023-07-31 | 2024-11-08 | 哈尔滨工程大学 | 用于极地冰下声源的背景噪声分离方法、装置及电子设备 |
DE102024101130B3 (de) | 2024-01-16 | 2025-03-20 | Cariad Se | Verfahren zum Abspielen von digitalen Audiodaten in einem Kraftfahrzeug sowie Kraftfahrzeug |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4150253A (en) | 1976-03-15 | 1979-04-17 | Inter-Technology Exchange Ltd. | Signal distortion circuit and method of use |
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
US4790016A (en) * | 1985-11-14 | 1988-12-06 | Gte Laboratories Incorporated | Adaptive method and apparatus for coding speech |
CA1220282A (en) * | 1985-04-03 | 1987-04-07 | Northern Telecom Limited | Transmission of wideband speech signals |
SE444750B (sv) | 1985-06-04 | 1986-04-28 | Lars Gustaf Liljeryd | Metod for att pa elektronisk veg astadkomma fortydligande av ljud- eller bildinformation jemte anordning for utforande av metoden |
US4776014A (en) * | 1986-09-02 | 1988-10-04 | General Electric Company | Method for pitch-aligned high-frequency regeneration in RELP vocoders |
US4771465A (en) | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US5127054A (en) * | 1988-04-29 | 1992-06-30 | Motorola, Inc. | Speech quality improvement for voice coders and synthesizers |
US5040217A (en) | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5436940A (en) * | 1992-06-11 | 1995-07-25 | Massachusetts Institute Of Technology | Quadrature mirror filter banks and method |
CA2106440C (en) * | 1992-11-30 | 1997-11-18 | Jelena Kovacevic | Method and apparatus for reducing correlated errors in subband coding systems with quantizers |
US5684920A (en) | 1994-03-17 | 1997-11-04 | Nippon Telegraph And Telephone | Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein |
US5717823A (en) * | 1994-04-14 | 1998-02-10 | Lucent Technologies Inc. | Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders |
US5687340A (en) * | 1995-05-16 | 1997-11-11 | Hewlett-Packard Company | Reduced area floating point processor control logic utilizing a decoder between a control unit and the FPU |
US5692050A (en) * | 1995-06-15 | 1997-11-25 | Binaura Corporation | Method and apparatus for spatially enhancing stereo and monophonic signals |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5687191A (en) | 1995-12-06 | 1997-11-11 | Solana Technology Development Corporation | Post-compression hidden data transport |
US5822370A (en) * | 1996-04-16 | 1998-10-13 | Aura Systems, Inc. | Compression/decompression for preservation of high fidelity speech quality at low bandwidth |
US6049766A (en) * | 1996-11-07 | 2000-04-11 | Creative Technology Ltd. | Time-domain time/pitch scaling of speech or audio signals with transient handling |
JP3017715B2 (ja) * | 1997-10-31 | 2000-03-13 | 松下電器産業株式会社 | 音声再生装置 |
EP0957579A1 (en) * | 1998-05-15 | 1999-11-17 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for sampling-rate conversion of audio signals |
JP3546755B2 (ja) * | 1999-05-06 | 2004-07-28 | ヤマハ株式会社 | リズム音源信号の時間軸圧伸方法及び装置 |
US6988066B2 (en) * | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
-
1998
- 1998-01-30 SE SE9800268A patent/SE512719C2/sv not_active IP Right Cessation
- 1998-06-09 EP EP98921697A patent/EP0940015B1/en not_active Expired - Lifetime
- 1998-06-09 AT AT98921697T patent/ATE257987T1/de active
- 1998-06-09 JP JP50196299A patent/JP3871347B2/ja not_active Expired - Lifetime
- 1998-06-09 WO PCT/IB1998/000893 patent/WO1998057436A2/en active IP Right Grant
- 1998-06-09 ES ES98921697T patent/ES2213901T3/es not_active Expired - Lifetime
- 1998-06-09 BR BRPI9805989-0A patent/BR9805989B1/pt not_active IP Right Cessation
- 1998-06-09 ES ES03020094T patent/ES2247466T3/es not_active Expired - Lifetime
- 1998-06-09 DE DE69831435T patent/DE69831435T2/de not_active Expired - Lifetime
- 1998-06-09 AU AU74465/98A patent/AU7446598A/en not_active Abandoned
- 1998-06-09 DK DK98921697T patent/DK0940015T3/da active
- 1998-06-09 PT PT03020094T patent/PT1367566E/pt unknown
- 1998-06-09 CN CNB988007924A patent/CN1206816C/zh not_active Expired - Lifetime
- 1998-06-09 US US09/230,799 patent/US6680972B1/en not_active Expired - Lifetime
- 1998-06-09 DK DK03020094T patent/DK1367566T3/da active
- 1998-06-09 DE DE69821089T patent/DE69821089T2/de not_active Expired - Lifetime
- 1998-06-09 AT AT03020094T patent/ATE303679T1/de active
- 1998-06-09 PT PT98921697T patent/PT940015E/pt unknown
- 1998-06-09 CN CNB2004101000787A patent/CN1308916C/zh not_active Expired - Lifetime
- 1998-06-09 EP EP03020094A patent/EP1367566B1/en not_active Expired - Lifetime
-
2001
- 2001-03-12 HK HK01101733A patent/HK1030843A1/xx not_active IP Right Cessation
-
2003
- 2003-10-08 US US10/680,224 patent/US6925116B2/en not_active Expired - Lifetime
- 2003-10-09 US US10/681,105 patent/US7328162B2/en not_active Expired - Lifetime
- 2003-10-10 US US10/682,030 patent/US7283955B2/en not_active Expired - Lifetime
-
2004
- 2004-01-27 HK HK04100528A patent/HK1057815A1/xx not_active IP Right Cessation
- 2004-12-08 JP JP2004355011A patent/JP4220461B2/ja not_active Expired - Lifetime
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2213901T3 (es) | Mejora de codificacion de la fuente utilizando la replica de la banda espectral. | |
ES2796493T3 (es) | Aparato y método para convertir una señal de audio en una representación parametrizada, aparato y método para modificar una representación parametrizada, aparato y método para sintetizar una representación parametrizada de una señal de audio | |
RU2491658C2 (ru) | Синтезатор аудиосигнала и кодирующее устройство аудиосигнала | |
JP4289815B2 (ja) | サブバンド領域における改良されたスペクトル移動/折返し | |
RU2607263C2 (ru) | Устройство и способ для кодирования и декодирования кодированного аудиосигнала с использованием временного формирования шума/наложений | |
ES2636443T3 (es) | Sistemas, procedimientos y aparatos para codificación de voz de banda ancha | |
EP1943643B1 (en) | Audio compression | |
KR101303776B1 (ko) | 효율적인 조합 고조파 변조 방법 | |
MX2012010416A (es) | Aparato y método para procesar una señal de audio usando alineación de borde de patching. | |
PL208846B1 (pl) | Sposób przetwarzania sygnału akustycznego w urządzeniu elektronicznym i sposób generowania odtworzonego sygnału akustycznego w urządzeniu elektronicznym | |
BR112014032265B1 (pt) | Dispositivo e método para mudanças de frequência livremente selecionáveis no domínio de sub-banda | |
RU2256293C2 (ru) | Усовершенствование исходного кодирования с использованием дублирования спектральной полосы | |
Levine | Critically sampled third octave filter banks | |
Ning | Analysis and coding of high quality audio signals | |
BRPI0906247B1 (pt) | Equipamento e método para converter um sinal de áudio em uma representação parametrizada, equipamento e método para modificar uma representação parametrizada, equipamento e método para sintetizar uma representação parametrizada de um sinal de áudio |