ES2377551T3 - Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica - Google Patents
Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica Download PDFInfo
- Publication number
- ES2377551T3 ES2377551T3 ES10712439T ES10712439T ES2377551T3 ES 2377551 T3 ES2377551 T3 ES 2377551T3 ES 10712439 T ES10712439 T ES 10712439T ES 10712439 T ES10712439 T ES 10712439T ES 2377551 T3 ES2377551 T3 ES 2377551T3
- Authority
- ES
- Spain
- Prior art keywords
- representation
- values
- patch
- spectral domain
- input signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 60
- 238000004590 computer program Methods 0.000 title claims description 15
- 230000003595 spectral effect Effects 0.000 claims abstract description 201
- 230000001052 transient effect Effects 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 31
- 230000015572 biosynthetic process Effects 0.000 claims description 17
- 238000003786 synthesis reaction Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 102000002508 Peptide Elongation Factors Human genes 0.000 claims description 4
- 108010068204 Peptide Elongation Factors Proteins 0.000 claims description 4
- 239000000945 filler Substances 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 claims description 2
- 230000010076 replication Effects 0.000 description 10
- 238000001228 spectrum Methods 0.000 description 9
- 230000017105 transposition Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000002441 reversible effect Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 230000003111 delayed effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 230000001174 ascending effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 239000004606 Fillers/Extenders Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101000591286 Homo sapiens Myocardin-related transcription factor A Proteins 0.000 description 1
- 102100034099 Myocardin-related transcription factor A Human genes 0.000 description 1
- 241001025261 Neoraja caerulea Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Complex Calculations (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Stored Programmes (AREA)
Abstract
Aparato (100; 386) para generar una representación (120; 426) de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada, comprendiendo el aparato: un vocoder (130; 406) de fase configurado para obtener valores (ßc ... ß2c, 408) de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada; y un copiador (140; 410, 416) de valores configurado para copiar un conjunto de valores (ßc ... ß2c, 408)de la representación de dominio espectral del primer parche, valores que se proporcionan por el vocoder de fase, para obtener un conjunto de valores (ßc ... ß2c, 408) de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; en el que el aparato está configurado para obtener la representación (120; 426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
Description
Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica.
Campo técnico
Realizaciones según la invención se refieren a un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. Otras realizaciones según la invención se refieren a un método para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. Realizaciones adicionales según la invención se refieren a un programa informático para realizar tal método.
Algunas realizaciones según la invención se refieren a métodos de parcheado novedosos dentro de la replicación de banda espectral.
Antecedentes de la invención
El almacenamiento o transmisión de señales de audio está sujeto a menudo a estrictas restricciones de tasa de transmisión de bits. Estas restricciones se superan habitualmente mediante una codificación de la señal. En el pasado, se forzaba a los codificadores a reducir drásticamente el ancho de banda del audio transmitido cuando sólo había disponible una tasa de transmisión de bits muy baja. Los códecs de audio modernos pueden preservar hoy en día el ancho de banda audible usando métodos de ampliación de ancho de banda (BWE). Tales métodos se describen, por ejemplo, en las referencias [1] a [12]. Estos algoritmos se basan en una representación paramétrica del contenido de alta frecuencia (HF), que se genera a partir de la parte de baja frecuencia (LF) con forma de onda codificada de la señal decodificada por medio de transposición a la región espectral de HF (“parcheado”) y la aplicación de un procesamiento posterior dirigido por parámetros.
En la técnica, métodos de ampliación de ancho de banda, tales como replicación de banda espectral (SBR), se usan como un método eficaz para generar señales de alta frecuencia en códecs basados en HFR (reconstrucción de alta frecuencia).
La replicación de banda espectral descrita en la referencia [1], que también se designa de manera abreviada como “SBR”, usa un banco de filtros de espejo en cuadratura (QMF) para generar la información de HF. Con la ayuda del denominado proceso de “parcheado”, se copian bandas QMF más bajas a una posición (frecuencia) más alta dando lugar a una replicación de la información de la parte de LF en la parte de HF. La parte de HF generada se adapta después a la parte de HF original con la ayuda de parámetros que adoptan (o ajustan) la envolvente espectral y la tonalidad (por ejemplo usando un formateado de envolvente).
En SBR estándar, el parcheado siempre se lleva a cabo mediante una operación de copia dentro del dominio de QMF. Se ha descubierto que esto a veces puede llevar a artefactos auditivos, particularmente si se copian sinusoides en la proximidad unos de otros en el borde de la parte de LF y la de HF generada. Por tanto, puede afirmarse que la SBR estándar tiene el problema de artefactos auditivos. Además, algunas implementaciones convencionales del concepto de ampliación de ancho de banda conllevan una complejidad comparativamente alta. Además, en algunas implementaciones de los conceptos de ampliación de ancho de banda de la invención, el espectro se vuelve muy disperso para parches altos (factores de alargamientos altos), lo que puede dar como resultado artefactos de audio (audibles) no deseados.
La referencia [14] da a conocer un método de ampliación de ancho de banda usando transposición de frecuencia del espectro de banda más bajo.
La referencia [15] da a conocer una ampliación de ancho de banda iterativa, en la que se obtienen parches espectrales y se usan para una posterior generación de parches.
En vista de los comentarios anteriores, es un objetivo de la presente invención crear un concepto para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, que conlleve un equilibrio mejorado entre complejidad y calidad de audio.
Sumario de la invención
El objetivo se consigue proporcionando un aparato según la reivindicación 1, un método según la reivindicación 14, un aparato según la reivindicación 15, un método según la reivindicación 16 y un programa informático según la reivindicación 17.
Realizaciones según la invención crean un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. El aparato comprende un vocoder de fase configurado para obtener valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada. El aparato también comprende un copiador de valores configurado para copiar un conjunto de valores de la representación de dominio espectral del primer parche, valores que se proporcionan por el vocoder de fase, para obtener un conjunto de valores de una representación de dominio espectral de un segundo parche. El segundo parche está asociado con frecuencias más altas que el primer parche. El aparato está configurado para obtener la representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
La idea clave de la presente invención es que se obtiene un equilibrio particularmente bueno entre complejidad computacional y calidad de audio de una señal de ancho de banda ampliado combinando un vocoder de fase con un copiador de valores, de manera que el primer parche de la señal de ancho de banda ampliado se obtiene por el vocoder de fase, y de manera que el segundo parche de la señal de ancho de banda ampliado se obtiene basándose en el primer parche usando el copiador de valores.
Por consiguiente, el contenido del primer parche es una versión armónicamente transpuesta del contenido de la parte de baja frecuencia (LF) de la señal de entrada (representada por la representación de señal de entrada), y el segundo parche es (o representa) una versión desplazada en frecuencia (no armónicamente) del contenido de la señal del primer parche. Por consiguiente, el segundo parche puede obtenerse con una complejidad computacional relativamente baja porque el copiado de los valores es más sencillo desde un punto de vista computacional que una operación de vocodificación de fase. Además, se evita que haya grandes huecos espectrales en el segundo parche, porque los valores espectrales del primer parche normalmente están suficientemente poblados (es decir comprenden valores distintos de cero), de manera que se reducen o evitan artefactos audibles, que se provocarían, en algunos casos, si el segundo parche estuviese sólo escasamente poblado.
En resumen, el concepto de la invención conlleva ventajas significativas frente a métodos de parcheado convencionales, porque la ampliación de ancho de banda armónica, usando el vocoder de fase, se aplica sólo para obtener valores de la representación de dominio espectral del primer parche, es decir para la parte más baja del espectro, mientras que se usa una ampliación de ancho de banda no armónica, que se basa en un copiado de valores de la representación de dominio espectral del primer parche para obtener valores de la representación de dominio espectral del primer parche, para frecuencias más altas. Por consiguiente, el rango más bajo (que también se designa como “primer parche”) de la parte de frecuencia de ampliación (que es una parte de frecuencia por encima de la frecuencia de cruce) se proporciona como una ampliación armónica del rango de frecuencia fundamental (es decir en el rango de frecuencia de la señal de entrada, que abarca frecuencias más bajas que las frecuencias de la parte de frecuencia de ampliación, por ejemplo frecuencias por debajo de la frecuencia de cruce), lo que conlleva una buena impresión de la señal de ancho de banda ampliado cuando se escucha. Además, se ha descubierto que la sencilla generación de los valores de la representación de dominio espectral del rango más alto de la parte de frecuencia de ampliación (que también se designa como “segundo parche”), que se realiza usando el copiador, no conlleva artefactos auditivos significativos porque la audición humana no es particularmente sensible a detalles espectrales del rango más alto de la parte de frecuencia de ampliación (segundo parche).
En resumen, el concepto de la invención conlleva una buena impresión de escucha con una complejidad computacional comparativamente pequeña.
En una realización preferida, el vocoder de fase está configurado para copiar un conjunto de valores de magnitud asociados con una pluralidad de subrangos de frecuencia dados de la representación espectral de entrada, para obtener un conjunto de valores de magnitud asociados con correspondientes subrangos de frecuencia del primer parche, en el que un par de un subrango de frecuencia dado de la representación espectral de entrada y un correspondiente subrango de frecuencia del primer parche abarca (o comprende) un par de una frecuencia fundamental y un armónico de la frecuencia fundamental (por ejemplo un primer armónico de la frecuencia fundamental). El vocoder de fase también está preferiblemente configurado para multiplicar valores de fase asociados con la pluralidad de subrangos de frecuencia dados de la representación espectral de entrada por un factor predeterminado (por ejemplo 2), para obtener valores de fase asociados con correspondientes subrangos de frecuencia del primer parche. Preferiblemente, el copiador de valores está configurado para copiar un conjunto de valores asociados con una pluralidad de subrangos de frecuencia dados del primer parche, para obtener un conjunto de valores asociados con correspondientes subrangos de frecuencia del segundo parche. El copiador de valores está preferiblemente configurado para dejar valores de fase sin cambiar en el copiado. Por consiguiente, el vocoder de fase realiza, al menos aproximadamente, una transposición armónica, mientras que el copiador de valores realiza un desplazamiento de frecuencia no armónico. Los subrangos de frecuencia pueden ser, por ejemplo, rangos de frecuencia asociados con coeficientes de una transformada rápida de Fourier (o cualquier transformada comparable). Alternativamente, los subrangos de frecuencia pueden ser rangos de frecuencia asociados con señales individuales de un banco de filtros de QMF. Normalmente, un ancho de los subrangos de frecuencia es comparativamente pequeño en comparación con la frecuencia central, de manera que los subrangos de frecuencia abarcan un intervalo de frecuencia que tiene una razón de frecuencia entre una frecuencia final y una frecuencia inicial, que es significativamente menor que 2:1. En otras palabras, incluso aunque los subrangos de frecuencia de la representación espectral de entrada (que pueden, por ejemplo, adoptar la forma de coeficientes de FFT, o la forma de señales de banco de filtros de QMF) y los subrangos de frecuencia del primer parche no necesiten ser exactamente armónicos unos con respecto a otros, normalmente es posible identificar una asociación entre un subrango de frecuencia (por ejemplo, que tiene un índice de frecuencia k) de la representación espectral de entrada y un correspondiente subrango de frecuencia (por ejemplo, que tiene un índice de frecuencia 2k) del primer parche, de manera que el subrango de frecuencia (2k) del primer parche representa, al menos aproximadamente, una frecuencia armónica del correspondiente subrango de frecuencia (k) de la representación espectral de entrada.
Por consiguiente, una transposición armónica se realiza por el vocoder de fase, teniendo en cuenta los valores de fase, que se procesan usando un ajuste a escala de fase. En cambio, el copiador de valores simplemente realiza (al menos aproximadamente), una operación de desplazamiento de frecuencia no armónica.
En una realización preferida, el copiador de valores está configurado para copiar los valores de manera que se obtiene un desplazamiento espectral común (o desplazamiento de frecuencia) de valores del primer parche a valores del segundo parche.
En una realización preferida, el vocoder de fase está configurado para obtener los valores de la representación de dominio espectral del primer parche de manera que los valores de la representación de dominio espectral del primer parche representan una versión convertida en sentido ascendente de manera armónica de un rango de frecuencia fundamental de la representación de señal de entrada (por ejemplo, un rango de frecuencia fundamental por debajo de una denominada frecuencia de cruce). El copiador de valores está preferiblemente configurado para obtener los valores de la representación de dominio espectral del segundo parche de manera que los valores de la representación de dominio espectral del segundo parche representan una versión desplazada en frecuencia del primer parche. Por consiguiente se obtienen las ventajas anteriormente descritas. En particular, la implementación es sencilla al tiempo que se obtiene una buena impresión auditiva.
En una realización preferida, el aparato está configurado para recibir datos de audio de entrada modulados por impulsos codificados (PCM), para muestrear en sentido descendente los datos de audio de entrada modulados por impulsos codificados con el fin de obtener datos de audio modulados por impulsos codificados muestreados en sentido descendente. Además, el aparato está configurado para dividir en ventanas los datos de audio modulados por impulsos codificados muestreados en sentido descendente, con el fin de obtener datos de entrada divididos en ventanas, y para convertir o transformar los datos de entrada divididos en ventanas en un dominio de frecuencia, con el fin de obtener la representación de señal de entrada. El aparato también está preferiblemente configurado para calcular valores de magnitud ak (también designados con ak) y valores de fase qk, que representan un intervalo de frecuencia k (en el que k es un índice de intervalo de frecuencia) de la representación de señal de entrada, y para copiar los valores de magnitud valores de magnitud ak, para obtener valores de magnitud copiados ask (también designados con ask) que representan un intervalo de frecuencia que tiene un índice de intervalo de frecuencia sk del primer parche, en el que s es un factor de alargamiento siendo s=2. Además, el aparato está preferiblemente configurado para copiar y ajustar a escala valores de fase qk asociados con un intervalo de frecuencia que tiene un índice de intervalo de frecuencia k de la representación de señal de entrada, para obtener valores de fase copiados y ajustados a escala qsk asociados con un intervalo de frecuencia que tiene un índice de frecuencia sk del primer parche. Además, el aparato está preferiblemente configurado para copiar valores 1k-is asociados con un intervalo de frecuencia k-is de la representación de dominio espectral del primer parche, para obtener valores 1k de la representación de dominio espectral del segundo parche. Además, el aparato está preferiblemente configurado para convertir la representación de la señal de ancho de banda ampliado (que comprende la representación de dominio espectral del primer parche y la representación de dominio espectral del segundo parche) en el dominio de tiempo, para obtener una representación de dominio de tiempo, y para aplicar una ventana de síntesis a la representación de dominio de tiempo. Usando el concepto anteriormente descrito, es posible obtener una señal de ancho de banda ampliado con una complejidad computacional moderada. La ampliación de ancho de banda se realiza en el dominio de frecuencia, pudiendo realizarse una transformada a un dominio espectral, por ejemplo, a un dominio FFT o un dominio de QMF.
En una realización preferida, el aparato comprende un convertidor del dominio de tiempo al dominio espectral (por ejemplo, un medio de transformada rápida de Fourier o un banco de filtros de QMF) configurado para proporcionar, como la representación de señal de entrada, valores de una representación de dominio espectral (por ejemplo, coeficientes de transformada rápida de Fourier o señales de subbanda de QMF) de una señal de audio de entrada, o de una versión previamente procesada (por ejemplo muestreada en sentido descendente y/o dividida en ventanas) de la señal de audio de entrada (por ejemplo una señal modulada por impulsos codificados proporcionada por un núcleo de decodificador de audio). El aparato preferiblemente comprende un convertidor del dominio espectral al dominio de tiempo (por ejemplo, un medio de transformada rápida de Fourier inversa o un medio de síntesis de QMF) configurado para proporcionar una representación de dominio de tiempo de la señal de ancho de banda ampliado usando valores de la representación de dominio espectral (por ejemplo coeficientes de FFT, o señales de subbanda de QMF) del primer parche y valores de la representación de dominio espectral (por ejemplo coeficientes de FFT, o señales de subbanda de QMF) del segundo parche. El convertidor del dominio espectral al dominio de tiempo está preferiblemente configurado de manera que un número de diferentes valores espectrales (por ejemplo intervalos de FFT o bandas de QMF) recibidos por el convertidor del dominio espectral al dominio de tiempo es mayor que un número de diferentes valores espectrales (por ejemplo un número de intervalos de frecuencia de FFT, o un número de bandas de QMF) proporcionado por el convertidor del dominio de tiempo al dominio espectral (por ejemplo medios de transformada rápida de Fourier o banco de filtros de QMF), de manera que el convertidor del dominio espectral al dominio de tiempo está configurado para procesar un mayor número de intervalos de frecuencia (por ejemplo intervalos de frecuencia de transformada rápida de Fourier o bandas de frecuencia de QMF) que el convertidor del dominio de tiempo al dominio de frecuencia. Por consiguiente, una ampliación de ancho de banda se consigue por el hecho de que el convertidor del dominio espectral al dominio de tiempo comprende un mayor número de intervalos de frecuencia que el convertidor del dominio de tiempo al dominio de frecuencia.
En una realización preferida, el aparato comprende un divisor en ventanas de análisis configurado para dividir en ventanas una señal de audio de entrada de dominio de tiempo, para obtener una versión dividida en ventanas de la señal de audio de entrada de dominio de tiempo, que constituye la base para obtener la representación de señal de entrada. Además, el aparato comprende un divisor en ventanas de síntesis configurado para dividir en ventanas una parte de una representación de dominio de tiempo de la señal de ancho de banda ampliado, para obtener una parte dividida en ventanas de la representación de dominio de tiempo de la señal de ancho de banda ampliado. Por consiguiente, se reducen o incluso se evitan artefactos en la señal de ancho de banda ampliado.
En una realización preferida, el aparato está configurado para procesar una pluralidad de partes desplazadas en el tiempo que se solapan temporalmente de la señal de audio de entrada de dominio de tiempo, para obtener una pluralidad de partes divididas en ventanas desplazadas en el tiempo que se solapan temporalmente de la representación de dominio de tiempo de la señal de ancho de banda ampliado. Un desfase de tiempo entre partes desplazadas en el tiempo temporalmente adyacentes de la señal de audio de entrada de dominio de tiempo es menor que o igual a una cuarta parte de una longitud de ventana de la ventana de análisis. Se ha descubierto que un solapamiento temporal comparativamente grande entre partes desplazadas en el tiempo adyacentes de la señal de audio de entrada de dominio de tiempo (y/o un solapamiento temporal comparativamente grande entre partes desplazadas en el tiempo temporalmente adyacentes de la representación de dominio de tiempo de la señal de ancho de banda ampliado) da como resultado una ampliación de ancho de banda que conlleva una buena impresión de escucha, porque no se tienen en cuenta estacionaridades de la señal debido al solapamiento temporal comparativamente grande.
En una realización preferida, el aparato comprende un proveedor de información de transitorios configurado para proporcionar una información que indica la presencia de un transitorio en la señal de entrada (representado por la representación de señal de entrada). El aparato también comprende una primera rama de procesamiento para proporcionar una representación de una parte de señal de ancho de banda ampliado basándose en una parte sin transitorio de la representación de señal de entrada y una segunda rama de procesamiento para proporcionar una representación de una parte de señal de ancho de banda ampliado basándose en una parte con transitorio de la representación de señal de entrada. La segunda rama de procesamiento está configurada para procesar una representación de dominio espectral de la señal de entrada que tiene una resolución espectral más alta que una representación de dominio espectral de la señal de entrada procesada por la primera rama de procesamiento. Por consiguiente, pueden tratarse partes de señal que comprenden un transitorio con resolución espectral más alta, lo que evita artefactos audibles en presencia de transitorios. Por otro lado, puede usarse una resolución espectral reducida para partes de señal sin transitorio (es decir, para partes de señal en las que el proveedor de información de transitorios no identifica un transitorio). Por tanto, se mantiene alta la eficiencia computacional, y la resolución espectral aumentada se usa sólo cuando conlleva ventajas (por ejemplo, porque da como resultado una mejor impresión de escucha en la proximidad de transitorios).
En una realización preferida, el aparato comprende un rellenador de ceros de dominio de tiempo configurado para rellenar con ceros una parte con transitorio de la señal de entrada, con el fin de obtener una parte con transitorio temporalmente ampliada de la señal de entrada. En este caso, la primera rama de procesamiento comprende un (primer) convertidor del dominio de tiempo al dominio de frecuencia configurado para proporcionar un primer número de valores de dominio espectral asociados con una parte sin transitorio de la señal de entrada, y la segunda rama de procesamiento comprende un (segundo) convertidor del dominio de tiempo al dominio de frecuencia configurado para proporcionar un segundo número de valores de dominio espectral asociados con la parte con transitorio temporalmente ampliada de la señal de entrada. El segundo número de valores de dominio espectral es mayor, al menos en un factor de 1,5, que el primer número de valores de dominio espectral. Por consiguiente, se obtiene un buen manejo de transitorios.
En una realización preferida, la segunda rama de procesamiento comprende un eliminador de ceros configurado para eliminar una pluralidad de valores cero de una parte de señal de ancho de banda ampliado obtenida basándose en la parte con transitorio temporalmente ampliada de la señal de entrada. Por consiguiente, se invierte la ampliación temporal de la señal de entrada, que se obtiene mediante el relleno con ceros.
En una realización preferida, el aparato comprende un muestreador en sentido descendente configurado para muestrear en sentido descendente una representación de dominio de tiempo de la señal de entrada. Mediante el muestreo en sentido descendente de la señal de entrada, puede mejorarse una eficiencia computacional si la señal de entrada no abarca el ancho de banda Nyquist completo de un flujo de entrada de muestras moduladas por impulsos codificados.
Otra realización según la invención crea un aparato en el que se invierte el orden de procesamiento del procesamiento por el copiador de valores y el vocoder de fase. 15. Un aparato de este tipo para generar una representación de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada comprende un copiador de valores configurado para copiar un conjunto de valores de la representación de señal de entrada, para obtener un conjunto de valores de una representación de dominio espectral de un primer parche, en el que el primer parche está asociado con frecuencias más altas que la representación de señal de entrada. El aparato también comprende un vocoder (130; 406) de fase configurado para obtener valores (12s … 13s) de una representación de dominio espectral de un segundo parche de la señal de ancho de banda ampliado basándose en los valores (14/3s … 12s) de la representación de dominio espectral del primer parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche. El aparato está configurado para obtener la representación (120; 426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
Este aparato puede obtener una señal de ancho de banda ampliado con complejidad computacional comparativamente baja al tiempo que todavía se consigue una buena impresión de escucha de la señal de ancho de banda ampliado. Realizando la vocodificación de fase tras la operación de copiado, el vocoder de fase puede hacerse funcionar con una razón de frecuencia comparativamente pequeña (razón entre frecuencia de salida del vocoder y frecuencia de entrada del vocoder), lo que da como resultado un buen llenado espectral y evita la presencia de grandes huecos espectrales. Además, se ha descubierto que la impresión de escucha usando este concepto es aún mejor que para un concepto que se basa meramente en operaciones de copiado, sin una acción de vocoder de fase, a pesar de que el primer parche (parche de frecuencia más baja) se obtiene usando la operación de copiado, y sólo el segundo parche (parche de frecuencia más alta) se obtiene usando la operación de vocodificación de fase. Además, la complejidad computacional es menor que en sistemas en los que todos los parches se generan usando vocoders de fase, y los huecos espectrales se reducen en comparación con tales conceptos.
Naturalmente, esta realización puede complementarse mediante cualquiera de las funcionalidades comentadas en el presente documento.
Otras realizaciones según la invención crean métodos para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. Dicho método se basa en las mismas ideas que el aparato anteriormente comentado.
Otra realización según la invención crea un programa informático para implementar el método.
Breve descripción de las figuras
La figura 1 muestra un diagrama de bloques esquemático de un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, según una realización de la invención;
la figura 2 muestra una representación esquemática del concepto de ampliación de ancho de banda, según la presente invención;
la figura 3 muestra un diagrama de bloques esquemático detallado de un decodificador de audio que comprende un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, según una realización de la invención;
la figura 4 muestra un diagrama de flujo de un método para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, según una realización de la invención;
la figura 5 muestra un diagrama de bloques esquemático de un decodificador de audio, según un primer ejemplo de comparación; y
la figura 6 muestra un diagrama de bloques esquemático de un decodificador de audio, según un segundo ejemplo de comparación.
Descripción detallada de las realizaciones
1. Aparato según la figura 1
La figura 1 muestra un diagrama de bloques esquemático de un aparato 100 para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada. El aparato 100 está configurado para recibir una representación 110 de señal de entrada y proporcionar, basándose en la misma, una señal 120 de ancho de banda ampliado. El aparato 100 comprende un vocoder de fase configurado para obtener valores de una representación 130 de dominio espectral de un primer parche de la señal 120 de ancho de banda ampliado basándose en la representación 110 de señal de entrada. Los valores de la representación de dominio espectral del primer parche se designan, por ejemplo, con 1s a 12s. El aparato 100 también comprende un copiador 140 de valores configurado para copiar un conjunto de valores de la representación 132 de dominio espectral del primer parche, que se proporcionan por el vocoder 130 de fase, para obtener un conjunto de valores de una representación 142 de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche. Los valores de la representación 142 de dominio espectral del segundo parche se designan, por ejemplo, con 12s a 13s. El aparato 100 está configurado para obtener la representación 120 de la señal de ancho de banda ampliado usando los valores 1s a 12s de la representación 132 de dominio espectral del primer parche y los valores 12s a 13s de la representación 142 de dominio espectral del segundo parche. Por ejemplo, la representación 120 de la señal de ancho de banda ampliado puede comprender los valores tanto de la representación 132 de dominio espectral del primer parche como de la representación 142 de dominio espectral del segundo parche. Además, la representación 120 de la señal de ancho de banda ampliado puede comprender, por ejemplo, valores de una representación de dominio espectral de la señal de entrada (representados, por ejemplo, por la representación 110 de señal de entrada). Sin embargo, la representación 120 de la señal de ancho de banda ampliado puede ser una representación de dominio de tiempo, que puede basarse en los valores de la representación 132 de dominio espectral del primer parche y los valores de la representación 142 de dominio espectral del segundo parche (y, opcionalmente, valores adicionales, por ejemplo valores de la representación 116 de dominio espectral de la señal de entrada, y/o valores de una representación de dominio espectral de parches adicionales).
A continuación se describirá en detalle la funcionalidad y el funcionamiento del aparato 100 haciendo referencia a la figura 2, que muestra una representación esquemática del concepto de la invención para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada.
Una primera representación 200 gráfica muestra una transposición armónica de la señal de entrada (representada por la representación 110 de señal de entrada), que se realiza por el vocoder 130 de fase. Como puede verse, la señal de entrada está representada, por ejemplo, mediante un conjunto de valores de magnitud ak. El índice k designa un intervalo espectral (por ejemplo, un intervalo que tiene el índice k de una transformada rápida de Fourier, o una banda de frecuencia que tiene el índice k de una conversión de QMF). La representación 110 de señal de entrada puede comprender, por ejemplo, valores de magnitud ak para k = 1 a k = s, donde s puede designar un denominado intervalo de frecuencia de cruce y describe un inicio de frecuencia de la ampliación de ancho de banda. Un rango de frecuencia fundamental se describe adicionalmente, por ejemplo, mediante valores de fase qk, donde k es un índice de intervalo de frecuencia, tal como se comentó anteriormente.
De manera similar, el primer parche se describe mediante un conjunto de valores de una representación de dominio espectral, por ejemplo, valores 1k estando k entre s y2s. Alternativamente, el primer parche puede estar representado por valores de magnitud ak y valores de fase qk, estando el índice de intervalo de frecuencia k entre s y 2s.
Tal como se ha mencionado, el vocoder 130 de fase está configurado para realizar una transposición armónica basándose en la representación 110 de señal de entrada para obtener valores de la representación 132 de dominio espectral del primer parche. Con este fin, el vocoder 130 de fase puede ajustar un valor de magnitud a2k de un intervalo de frecuencia que tiene el índice (de intervalo de frecuencia) 2k para que sea igual al valor de magnitud ak de un intervalo de frecuencia que tiene el índice (de intervalo de frecuencia) k. Además, el vocoder 130 de fase puede estar configurado para ajustar el valor de fase q2k de un intervalo de frecuencia que tiene el índice 2k a un valor que es igual a 2 veces el valor de fase qk asociado con el intervalo de frecuencia que tiene el índice k. En este caso, el intervalo de frecuencia que tiene el índice k puede ser un intervalo de frecuencia de la representación 110 de señal de entrada, y el intervalo de frecuencia que tiene el índice 2k puede ser un intervalo de frecuencia de la representación 132 de dominio espectral del primer parche. Además, un intervalo de frecuencia que tiene el índice 2k puede comprender una frecuencia, que es un primer armónico de una frecuencia incluida en el intervalo de frecuencia que tiene el índice k. Por consiguiente, pueden obtenerse valores de magnitud a2k y valores de fase q2k que son valores de la representación 132 de dominio espectral del primer parche, para 2k oscilando desde s a2s, de manera que a2k = aky q2k=2qk. Alternativamente, y de manera equivalente, los valores 12k, que son valores de la representación 132 de dominio espectral del primer parche, pueden obtenerse para 2k entre s y2s, de manera que 12k = 1akei2qk.
En resumen, suponiendo que los intervalos de frecuencia que tienen índices k (o de manera equivalente, 2k, etc.), que son, por ejemplo, intervalos de frecuencia de una representación de transformada rápida de Fourier o bandas de frecuencia de una representación de dominio de QMF, están separados linealmente en frecuencia (de manera que el índice de intervalo de frecuencia, por ejemplo k o 2k, es al menos aproximadamente proporcional a una frecuencia comprendida en el respectivo intervalo de frecuencia, por ejemplo, una frecuencia central de un k-ésimo intervalo de frecuencia de transformada rápida de Fourier o una frecuencia central de una k-ésima banda de QMF), se obtiene una transposición armónica por el vocoder 130 de fase.
Sin embargo, los valores de la representación 142 de dominio espectral del segundo parche se obtienen por el copiador 140 de valores, que realiza un copiado ascendente no armónico de valores de la representación 132 de dominio espectral del primer parche.
Haciendo referencia ahora a la representación 250 gráfica se comentará brevemente el copiado ascendente no armónico. Como puede verse, el primer parche está representado por valores 1s a 12s (o, de manera equivalente, por valores de magnitud as a a2s y valores de fase qs a q2s. Por consiguiente, los valores 12s a 13s (o, de manera equivalente, valores de magnitud a2s a a3s y valores de fase q2s a q3s) de la representación 142 de dominio espectral del segundo parche se obtienen mediante un copiado no armónico, que se realiza por el copiador 140 de valores. Por ejemplo, valores espectrales de valor complejo 12s a 13s de la representación 142 de dominio espectral del segundo parche pueden obtenerse basándose en correspondientes valores 1s a 12s de la representación 132 de dominio espectral del primer parche según 1k=1k-s para k entre 2s y3s. De manera equivalente, valores de magnitud a2s a a3s de la representación 142 de dominio espectral del segundo parche pueden obtenerse basándose en valores de magnitud de la representación 132 de dominio espectral del primer parche según ak=ak-s para k entre 2s y3s. En este caso, pueden obtenerse valores de fase q2s a q3s de la representación 142 de dominio espectral del segundo parche basándose en valores de fase qs a q2s de la representación 132 de dominio espectral del primer parche según qk= qk-s para k entre 2s y3s.
Por consiguiente, los valores de la representación 142 de dominio espectral del segundo parche representan una señal, que está desplazada en frecuencia de manera no armónica (es decir, linealmente) con respecto a una señal representada por los valores de la representación 132 de dominio espectral del primer parche.
Los valores 1s a 12s de la representación 132 de dominio espectral del primer parche y los valores 12s a 13s de la representación 142 de dominio espectral del segundo parche pueden usarse para obtener la representación 120 de la señal de ancho de banda ampliado. Dependiendo de los requisitos, la representación 120 de la señal de ancho de banda ampliado puede ser una representación de dominio espectral o una representación de dominio de tiempo. Si se desea obtener una representación de dominio de tiempo, puede usarse un convertidor del dominio de frecuencia al dominio de tiempo para derivar la representación de dominio de tiempo basándose en los valores 1s a 12s de la representación 132 de dominio espectral del primer parche y los valores 12s a 13s de la representación 142 de dominio espectral del segundo parche. Alternativamente (y de manera equivalente) los valores as a a2s, qs a q2s, a2s a a3s y q2s a q3s pueden usarse con el fin de derivar la representación 120 de la señal de ancho de banda ampliado (ya sea en el dominio espectral o en el dominio de tiempo).
Tal como se comentó anteriormente, el concepto descrito con respecto a las figuras 1 y 2 conlleva una buena impresión de escucha y una complejidad computacional comparativamente baja. La vocodificación de fase sólo se requiere una vez, incluso aunque se use una pluralidad de parches (por ejemplo, el primer parche y el segundo parche). Además, se evita que haya grandes huecos espectrales en el segundo parche, lo que ocurriría si se usara otro vocoder de fase para obtener el segundo parche. Por tanto, el concepto de la invención conlleva un equilibrio muy bueno entre complejidad computacional y una impresión de escucha alcanzable.
Además, debe observarse que pueden obtenerse parches adicionales basándose en los valores de la representación 132 de dominio espectral del primer parche en algunas realizaciones. Por ejemplo, en una ampliación opcional del concepto de la invención, pueden obtenerse valores de una representación de dominio espectral de un tercer parche basándose en los valores de la representación 132 de dominio espectral del primer parche usando otro copiador de valores, tal como se describirá en más detalle haciendo referencia a la figura 3.
Las realizaciones según las figuras 1 y 2 (y también las demás realizaciones) pueden modificarse de una amplia variedad de formas. Por ejemplo, puede obtenerse un primer parche usando un vocoder de fase, y pueden obtenerse parches segundo, tercero y cuarto mediante una operación de copiado ascendente de valores espectrales. Alternativamente, un primer y un segundo parche pueden obtenerse usando vocoders de fase, y un tercer y un cuarto parche pueden obtenerse usando un copiado ascendente de valores espectrales. Naturalmente, pueden aplicarse diferentes combinaciones de la operación de vocodificación de fase y la operación de copiado ascendente.
Alternativamente, sin embargo, puede obtenerse un primer parche usando una operación de copiado ascendente (copiador de valores) de valores espectrales a partir de la representación de señal de entrada, y puede obtenerse un segundo parche usando un vocoder de fase (basándose en los valores copiados del primer parche, obtenidos usando el copiador de valores).
2. Realización según la figura 3
A continuación, se describirá un decodificador 300 de audio haciendo referencia a la figura 3, mostrando la figura 3 un diagrama de bloques esquemático detallado de un decodificador 300 de audio de este tipo que comprende un aparato para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada.
El decodificador 300 de audio está configurado para recibir un flujo 310 de datos y para proporcionar, basándose en el mismo, una forma 312 de onda de audio. El decodificador 300 de audio comprende un decodificador 320 núcleo, que está configurado para proporcionar, por ejemplo, datos 322 modulados por impulsos codificados (“datos PCM”) basándose en el flujo 310 de datos. El decodificador 320 núcleo puede ser, por ejemplo, un decodificador de audio tal como se describe en la norma internacional ISO/IEC 14496-3: 2005(e), parte 3: audio, subparte 4: codificación general de audio (GA)-AAC, Twin VQ, BSAC. Por ejemplo, el decodificador 320 núcleo puede ser un denominado decodificador núcleo de codificación de audio avanzada (AAC), que se describe en dicha norma, y que los expertos en la técnica conocen ampliamente. Por tanto, los datos 322 de audio modulados por impulsos codificados pueden proporcionarse por el decodificador 220 núcleo basándose en el flujo 310 de datos. Por ejemplo, los datos 322 de audio modulados por impulsos codificados pueden comprender la longitud de trama de 1024 muestras.
El decodificador 300 de audio también comprende una ampliación 330 de ancho de banda (o ampliador de ancho de banda), que está configurada para recibir los datos 322 de audio modulados por impulsos codificados (por ejemplo, una longitud de trama de 1024 muestras) y para proporcionar, basándose en los mismos, la forma 312 de onda. La ampliación 330 de ancho de banda (o ampliador de ancho de banda) también recibe algunos datos 332 de control procedentes del flujo 310 de datos. La ampliación 330 de ancho de banda comprende una provisión 340 de datos de QMF parcheados (o proveedor de datos de QMF parcheados), que recibe los datos 322 de audio modulados por impulsos codificados y que proporciona, basándose en los mismos, datos 342 de QMF parcheados. La ampliación 330 de ancho de banda también comprende un formateo 344 de envolvente (o formateador de envolvente), que recibe los datos 342 de QMF parcheados y datos 346 de control de formateo de envolvente y proporciona, basándose en los mismos, datos 348 de QMF parcheados y con envolvente formateada. La ampliación 330 de ancho de banda también comprende una síntesis 350 de QMF (o sintetizador de QMF), que recibe los datos 348 de QMF parcheados y con envolvente formateada y proporciona, basándose en los mismos, la forma 312 de onda realizando una síntesis de QMF.
La provisión 340 de datos de QMF parcheados (que puede realizarse mediante un proveedor 340 de datos de QMF parcheados en una implementación de hardware) puede conmutar entre dos modos, concretamente un primer modo, en el que se realiza un parcheado de replicación de banda espectral (SBR), y un segundo modo en el que se realiza un parcheado de ampliación de ancho de banda armónica (HBE). Por ejemplo, los datos 322 de audio modulados por impulsos codificados pueden retardarse mediante un retardador 360, para obtener datos 362 de audio modulados por impulsos codificados retardados, y los datos 362 de audio modulados por impulsos codificados retardados pueden convertirse a un dominio de QMF usando un analizador 364 de QMF de 32 bandas. El resultado del analizador 364 de QMF de 32 bandas, por ejemplo, una representación 365 de dominio de QMF de 32 bandas (es decir dominio espectral) de los datos 362 de audio modulados por impulsos codificados retardados, puede proporcionarse a un parcheador 366 de SBR y a un parcheador 368 de ampliación de ancho de banda armónica.
El parcheador 366 de replicación de banda espectral puede realizar, por ejemplo, un parcheado de replicación de banda espectral, que se describe, por ejemplo, en la sección 4.6.18 “SBR tool” de la norma internacional ISO/IEC 144963:2005(e), parte 3, subparte 4. Por consiguiente, puede proporcionarse una representación 370 de dominio de QMF de 64 bandas mediante el parcheador 366 de replicación de banda espectral.
Alternativamente, o además, el parcheador 368 de ampliación de ancho de banda armónica puede proporcionar una representación 372 de dominio de QMF de 64 bandas, que es una representación de ancho de banda ampliado de los datos 322 de audio PCM. Un conmutador 374, que se controla en dependencia de los datos 332 de control de ampliación de ancho de banda extraídos del flujo 310 de datos, puede usarse para decidir si se aplica el parcheado 366 de replicación de banda espectral o parcheado 368 de ampliación de ancho de banda armónica con el fin de obtener los datos 342 de QMF parcheados (que puede ser igual a la representación 370 de dominio de QMF 64 bandas o igual a la representación 372 de dominio de QMF de 64 bandas dependiendo del estado del conmutador 374).
A continuación se describirá en más detalle el parcheado 368 de ampliación de ancho de banda (al menos parcialmente) armónica. El parcheado 368 de ampliación de ancho de banda armónica comprende una trayectoria de señal, en la que se convierten datos 322 de audio modulados por impulsos codificados, o una versión previamente procesada de los mismos, a un dominio espectral (por ejemplo, a un dominio de coeficiente de transformada rápida de Fourier o un dominio de QMF), en el que se realiza una ampliación de ancho de banda armónica en el dominio espectral, y en el que la representación de dominio espectral obtenida de la señal de ancho de banda ampliado, o una representación derivada de la misma, se usa para el parcheado de ampliación de ancho de banda armónica.
En la realización de la figura 3, los datos 322 de audio modulados por impulsos codificados se muestrean en sentido descendente en un muestreador 380 en sentido descendente, por ejemplo, en un factor de 2, para obtener datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente. Los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente se dividen a continuación en ventanas mediante un divisor 382 en ventanas, que puede comprender, por ejemplo, una longitud de ventana de 512 muestras. Debe observarse que la ventana está desplazada, por ejemplo, 64 muestras de los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente en etapas de procesamiento posteriores, de manera que se obtiene un solapamiento comparativamente grande de las partes 383 divididas en ventanas de los datos de audio modulados por impulsos codificados muestreados en sentido descendente.
El decodificador 300 de audio también comprende un detector 384 de transitorios, que está configurado para detectar un transitorio dentro de los datos 322 de audio modulados por impulsos codificados. El detector 384 de transitorios puede detectar la presencia de un transitorio ya sea basándose en los propios datos 322 de audio PCM, o basándose en una información secundaria, que está incluida en el flujo 310 de datos.
Las partes 383 divididas en ventanas de los datos 381 de audio PCM muestreados en sentido descendente pueden procesarse selectivamente usando una primera rama 386 de procesamiento o una segunda rama 388 de procesamiento. La primera rama 386 puede usarse para procesar una parte 383 sin transitorio dividida en ventanas de los datos de audio PCM muestreados en sentido descendente (para los que el detector 384 de transitorio niega la presencia de un transitorio), y puede usarse una segunda rama 388 para un procesamiento de una parte 383 con transitorio dividida en ventanas de los datos de audio PCM muestreados en sentido descendente (para los que el detector 384 de transitorios indica la presencia de un transitorio).
La primera rama 386 recibe una parte 383 sin transitorio dividida en ventanas y proporciona, basándose en la misma, una representación 387, 434 de ancho de banda ampliado de la parte 383 dividida en ventanas. De forma similar, la segunda rama 388 recibe una parte 383 con transitorio dividida en ventanas de los datos 381 de audio PCM muestreados en sentido descendente y proporciona, basándose en la misma, una representación 389 de ancho de banda ampliado de la parte 383 (con transitorio) dividida en ventanas. Tal como se comentó anteriormente, el detector 384 de transitorio decide si la parte 383 dividida en ventanas actual es una parte sin transitorio dividida en ventanas o una parte con transitorio dividida en ventanas, de manera que el procesamiento de la parte 383 dividida en ventanas actual se realiza usando o bien la primera rama 386 o bien la segunda rama 388. Por tanto, diferentes partes 383 divididas en ventanas pueden procesarse por diferentes ramas 386, habiendo un solapamiento temporal significativo entre las subsiguientes representaciones 387, 389 de ancho de banda ampliado de las subsiguientes partes 383 divididas en ventanas (porque hay un solapamiento temporal significativo de partes 383 divididas en ventanas temporalmente subsiguientes).
La ampliación 368 de ancho de banda armónica comprende además un solapador-y-sumador 390, que está configurado para solapar-y-sumar las diferentes representaciones 387, 389 de ancho de banda ampliado asociadas con diferentes partes 383 divididas en ventanas (temporalmente subsiguientes). Un incremento de solapamiento-y-suma puede ajustarse, por ejemplo, a 256 muestras. Por consiguiente, se obtiene una señal 392 solapada-y-sumada.
La ampliación 368 de ancho de banda armónica también comprende un analizador 394 de QMF de 64 bandas, que está configurado para recibir la señal 392 solapada-y-sumada y para proporcionar, basándose en el mismo, una señal 396 de dominio de QMF de 64 bandas. La señal 396 de dominio de QMF de 64 bandas puede representar, por ejemplo, un rango de frecuencia más amplio que la señal 365 de dominio de QMF de 32 bandas proporcionada por el analizador 364 de QMF de 32 bandas.
La ampliación 368 de ancho de banda armónica también comprende un combinador 398, que está configurado para recibir tanto la señal de dominio de QMF de 32 bandas proporcionada por el analizador 364 de QMF de 32 bandas como la señal 396 de dominio de QMF de 64 bandas y para combinar esas señales. Por ejemplo, las componentes de rango de baja frecuencia (o rango de frecuencia fundamental) de la señal 396 de dominio de QMF de 64 bandas pueden sustituirse por, o combinarse con, la señal 365 de dominio de QMF de 32 bandas proporcionada por el analizador 364 de QMF de 32 bandas, de manera que, por ejemplo, las 32 componentes de rango de frecuencia más baja (o rango de frecuencia fundamental) de la señal 372 de dominio de QMF de 64 bandas se determinan mediante la salida del analizador 364 de QMF de 32 bandas, y de manera que las 32 componentes de frecuencia más alta de la señal 372 de dominio de QMF de 64 bandas se determinan por las 32 componentes de rango de frecuencia más alta de la señal 396 de dominio de QMF de 64 bandas.
Naturalmente, el número de componentes de las señales de dominio de QMF puede variar, dependiendo de los requisitos específicos. Naturalmente, una posición de frecuencia de una transición entre un rango de frecuencia fundamental (también designado como rango de frecuencia más baja) y un rango de frecuencia de ancho de banda ampliado (también designado como rango de frecuencia más alta) puede depender de la frecuencia de cruce, o, de manera equivalente, el ancho de banda de la señal de audio representada por los datos 322 de audio modulados por impulsos codificados.
A continuación se describirán detalles relativos a la primera rama 386 de procesamiento. La primera rama 386 comprende un convertidor 400 del dominio de tiempo al dominio de frecuencia, que está implementado, por ejemplo, en forma de un medio de transformada rápida de Fourier configurado para proporcionar 512 coeficientes de transformada rápida de Fourier basándose en una parte 383 dividida en ventanas de 512 muestras de dominio de tiempo de los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente. Por consiguiente, los intervalos de frecuencia de transformada rápida de Fourier se designan con índices de intervalo de frecuencia enteros subsiguientes k en un rango entre 1 y N=512.
La primera rama 386 también comprende un proveedor 402 de valores de magnitud, que está configurado para proporcionar valores de magnitud ak de los coeficientes de transformada rápida de Fourier. Además, la primera rama 386 comprende un proveedor 404 de valores de fase configurado para proporcionar valores de fase qk de los coeficientes de transformada rápida de Fourier.
La primera rama 386 también comprende un vocoder 406 de fase, que puede recibir los valores de magnitud ak ylos valores de fase qk como una representación de señal de entrada, y que puede comprender la funcionalidad del vocoder 130 de fase comentado anteriormente. Por consiguiente, el vocoder 406 de fase puede emitir valores 12k, en un rango entre 1s y 12s, de una representación de dominio espectral de un primer parche. Los valores 12k se designan con 408, y pueden ser equivalentes a los valores de la representación 132 de dominio espectral de un primer parche. La primera rama 386 también comprende un copiador 410 de valores, que puede asumir la funcionalidad del copiador 140 de valores, y que puede recibir, como información de entrada, los valores 12k (por ejemplo, en un rango entre 11 y 121). Por consiguiente, el primer copiador 410 de valores puede proporcionar valores 1k en un rango entre 121 y 131, que se designan con 412 y que pueden ser equivalentes a los valores 121 a 131 de la representación 142 de dominio espectral del segundo parche. Además, la primera rama 386 puede comprender (opcionalmente) un segundo copiador 414 de valores, que está configurado para recibir los valores 11 y 121 (también designados con 408) proporcionados por el vocoder 406 de fase y para proporcionar, basándose en los mismos, valores espectrales 131 a 141 usando una operación de copia (que da como resultado, efectivamente, un desplazamiento de frecuencia no armónico del espectro descrito por los valores 11 a 121 (408)). Por consiguiente, el segundo copiador 414 de valores proporciona valores espectrales 131 a 141 de una representación de dominio espectral de un tercer parche, que también se designan como 416.
La primera rama 386 puede comprender un interpolador 420 opcional, que puede estar configurado para recibir los valores 412, 416 de las representaciones de dominio espectral del segundo parche y del tercer parche (y, opcionalmente, también los valores 408 de la representación de dominio espectral del primer parche) y para proporcionar valores 422 interpolados de la representación de dominio espectral del segundo y tercer parche (y, opcionalmente, también del primer parche).
La primera rama 386 puede comprender adicionalmente un rellenador 424 de ceros, que está configurado para recibir los valores 422 interpolados (o, alternativamente, los valores 412, 416 originales) de las representaciones de dominio espectral del segundo y tercer parche (y, opcionalmente también del primer parche) y para obtener, basándose en las mismas, una versión rellenada con ceros de valores de una representación de dominio espectral, que está rellenada con ceros con el fin de adaptarse a una dimensión de un convertidor 428 del dominio espectral al dominio de tiempo.
El convertidor 428 del dominio espectral al dominio de tiempo puede implementarse, por ejemplo, como un transformador rápido de Fourier inverso. Por ejemplo, el transformador 428 rápido de Fourier inverso puede estar configurado para recibir un conjunto de 2048 valores espectrales (opcionalmente interpolados y rellenados con cero), y para proporcionar, basándose en los mismos, una representación 430 de dominio de tiempo de la parte de señal de ancho de banda ampliado. La primera trayectoria 386 también comprende un divisor 432 en ventanas de síntesis, que está configurado para recibir la representación 430 de dominio de tiempo de la parte de señal de ancho de banda ampliado y para aplicar una división en ventanas de síntesis, con el fin de obtener una representación de dominio de tiempo dividida en ventanas de síntesis de la parte 430 de señal de ancho de banda ampliado.
El decodificador 300 de audio también comprende una segunda trayectoria 388 de procesamiento, que realiza un procesamiento muy similar en comparación con la primera trayectoria 386. Sin embargo, la segunda trayectoria 388 comprende un rellenador 438 de ceros de dominio de tiempo, que está configurado para recibir la parte 383 con transitorio dividida en ventanas de los datos 381 de audio modulados por impulsos codificados muestreados en sentido descendente y para derivar una versión 439 rellenada con ceros a partir de la parte 383 dividida en ventanas, de manera que un inicio de la parte 439 rellenada con ceros y un final de la parte 439 rellenada con ceros estén rellenados con ceros, y de manera que el transitorio esté dispuesto en una región central (entre las muestras de inicio rellenadas con ceros y las muestras de final rellenadas con ceros) de la parte 439 rellenada con ceros.
La segunda trayectoria 388 también comprende un transformador 440 del dominio de tiempo al dominio espectral, por ejemplo, un transformador rápido de Fourier o un QMF (banco de filtros de espejo en cuadratura). El transformador 440 del dominio de tiempo al dominio espectral normalmente comprende un mayor número de intervalos de frecuencia (por ejemplo, intervalos de frecuencia de transformada rápida de Fourier, o bandas de QMF) que el transformador 400 del dominio de tiempo al dominio espectral de la primera rama. Por ejemplo, el transformador 440 rápido de Fourier puede estar configurado para derivar 1024 coeficientes de transformada rápida de Fourier a partir de la parte 439 rellenada con ceros de 1024 muestras de dominio de tiempo.
La segunda rama 388 también comprende un determinador 442 de valores de magnitud y un determinador 444 de valores de fase, que pueden comprender la misma funcionalidad que los medios 402, 404 correspondientes de la primera rama 386, aunque con una dimensión N=1024 aumentada. De forma similar, la segunda rama 388 también comprende un vocoder 446 de fase, un primer copiador 450 de valores, un segundo copiador 454 de valores, un interpolador 460 opcional, y un rellenador 464 de ceros opcional, que pueden comprender las mismas funcionalidades que los medios correspondientes de la primera rama 386, aunque con dimensiones aumentadas. En particular, el índice 1 de la banda de cruce puede ser superior en la segunda rama 388 que en la primera rama 386, por ejemplo, en un factor de 2.
Por consiguiente, una representación de dominio espectral que comprende, por ejemplo, 4096 coeficientes de transformada rápida de Fourier puede proporcionarse a un transformador 468 rápido de Fourier inverso, que a su vez proporciona una señal 470 de dominio de tiempo que tiene 4096 muestras.
La segunda rama 388 también comprende un divisor 472 en ventanas de síntesis, que está configurado para proporcionar una versión dividida en ventanas de la representación 470 de dominio de tiempo de la parte de señal de ancho de banda ampliado.
La segunda rama 388 también comprende un eliminador de ceros configurado para proporcionar una representación 478 de dominio de tiempo acortada, dividida en ventanas, de la parte de señal de ancho de banda ampliado, representación 478 de dominio de tiempo acortada, dividida en ventanas que puede comprender, por ejemplo, 2048 muestras.
Por consiguiente, la representación 387 de dominio de tiempo se usa para partes sin transitorio (por ejemplo, tramas de audio) de los datos 322 de audio modulados por impulsos codificados, y la representación 478 de dominio de tiempo se usa para partes con transitorio de los datos 322 de audio modulados por impulsos codificados. Por consiguiente, las partes con transitorio se procesan con una resolución de dominio espectral más alta en la segunda rama 388 de procesamiento, mientras que las partes sin transitorio se procesan con una resolución espectral más baja en la primera rama 386 de procesamiento.
A continuación se resumirá brevemente el formateo 344 de envolvente. Además, se hace referencia a las respectivas observaciones realizadas en la sección de introducción, que también se aplican al concepto de la invención.
Los datos 342 de QMF parcheados, que se obtienen basándose en la señal 396 de dominio de QMF de 64 bandas, se procesan por el formateo 344 de envolvente, para obtener la representación 348 de señal, que se introduce en el sintetizador 350 de QMF. El formateo de envolvente puede adaptar, por ejemplo, las señales de banda de dominio de QMF de los datos 342 de QMF parcheados con el fin de realizar un llenado de ruido, con el fin de reconstruir armónicos que ausentes, y/o con el fin de obtener un filtrado inverso. Variaciones de llenado de ruido, inserción de armónicos ausentes y filtrado inverso pueden controlarse, por ejemplo, mediante una información 346 secundaria, que puede extraerse del flujo 310 de datos. Para más detalles se hace referencia, por ejemplo, a los comentarios de la herramienta de SBR en la sección 4.6.18 de la norma internacional ISC/IEC 14496-3:2005(e), parte 3, subparte 4. Sin embargo, también pueden aplicarse conceptos de formateo de envolvente diferentes según los requisitos.
3. Comentario y comparación de diferentes soluciones
A continuación se proporcionará un breve comentario y sumario de la solución de la invención.
Realizaciones según la presente invención, por ejemplo el aparato 100 según la figura 1 y el decodificador 300 de audio según la figura 3, son (o comprenden) nuevos algoritmos de parcheado dentro de la replicación de banda espectral (SBR). Puede usarse un parcheado de dominio espectral de diferentes maneras con el fin de tener en cuenta diferentes características de señal o restricciones dictadas por requisitos de software o hardware.
En SBR estándar, el parcheado siempre se lleva a cabo mediante una operación de copia dentro del dominio de QMF. Esto puede llevar a veces a artefactos auditivos, particularmente si se copian sinusoides en la proximidad unos de otros en el borde de la parte de LF y de HF generada. Por tanto, se ha introducido un nuevo algoritmo de parcheado que evita algunos problemas usando un vocoder de fase (véase, por ejemplo, la referencia [13]). Este algoritmo se ilustra en la figura 5 como un ejemplo de comparación.
La SBR estándar tiene el problema de los artefactos auditivos. El enfoque del vocoder de fase presentado en la referencia [13] tiene una complejidad, particularmente debido al alto número de transformadas rápidas de Fourier que tienen que calcularse. Adicionalmente, el espectro se vuelve muy disperso para parches altos (factores de alargamiento altos), lo que puede dar como resultado artefactos de audio no deseados.
Dos realizaciones evitan el elevado número de transformadas rápidas de Fourier moviendo la generación de diferentes parches del dominio de tiempo al dominio de frecuencia. En la figura 6 se da un ejemplo en el que la transformación al dominio de frecuencia se consigue con la ayuda de una transformada rápida de Fourier. En lugar de la transformación de Fourier pueden usarse, sin embargo, otras transformaciones de tiempo-frecuencia.
La figura 3 muestra una solución híbrida del algoritmo de la figura 6 para parcheado de SBR. Sólo se genera el primer parche mediante el algoritmo del vocoder de fase (por ejemplo, bloque 406 de la primera rama 386, y bloque 446 de la segunda rama 388) mientras que parches superiores (por ejemplo, el segundo parche y el tercer parche) se crean simplemente copiando el primer parche (por ejemplo, usando los copiadores 410, 414 de valores de la primera rama 386, y/o los copiadores 450, 454 de valores de la segunda rama 388). Esto da lugar a un espectro menos disperso.
A continuación se explicarán brevemente el algoritmo de comparación, que se implementa en el decodificador de audio mostrado en la figura 6, y el algoritmo de la invención, que se implementa en el decodificador de audio mostrado en la figura 3:
El algoritmo de comparación o de referencia, que se implementa en el decodificador de audio mostrado en la figura 6, comprende las siguientes etapas:
- 1.
- Muestreo en sentido descendente de la señal (si no se daña el criterio Nyquist)
- 2.
- La señal se divide en ventanas (se proponen ventanas “Hann” aunque pueden usarse otras formas de ventana) y se toman denominados granos (por ejemplo, partes 383 de señal divididas en ventanas) de longitudes N a partir de la señal. Las ventanas se desplazan sobre la señal con un tamaño de salto H. Se propone un solapamiento de N/H=8 veces.
- 3.
- Si el grano (por ejemplo, una parte 383 de señal dividida en ventanas) contiene un evento transitorio en los bordes, se rellena (por ejemplo, mediante el rellenador 438 de ceros) con ceros lo que lleva a un sobremuestreo en dominio de frecuencia.
- 4.
- Los granos se transforman al dominio de frecuencia (por ejemplo, usando los transformadores 400, 440 del dominio de tiempo al dominio espectral).
- 5.
- Los granos de dominio de frecuencia se rellenan (opcionalmente) hasta una longitud de salida deseada del algoritmo de parcheado.
- 6.
- Se calculan magnitud y fase (por ejemplo, usando los medios 402, 404, 442, 444).
- 7.
- El contenido n de intervalo de frecuencia se copia a una posición sn para el factor de alargamiento s. La fase se multiplica por el factor de alargamiento s. Esto se hace para todos los factores de alargamiento s (sólo para las regiones en el espectro que abarcan los parches deseados). (a) s·(s-1)/s:n:1 o (b) s/s:n:s; (b) da lugar a un espectro más denso que (a) ya que los parches se solapan. s indica la frecuencia más alta de la parte de LF, la denominada frecuencia de cruce. En términos generales, la fase se corrige para una nueva posición de muestra (por ejemplo, posición de frecuencia), lo que puede conseguirse usando el algoritmo comentado en el presente documento o cualquier algoritmo alternativo apropiado.
- 8.
- Los intervalos de dominio de frecuencia que no consiguen datos mediante el copiado pueden llenarse aplicando una función de interpolación (por ejemplo, usando los interpoladores 420, 460).
- 9.
- Los granos se transforman de vuelta al dominio de tiempo (por ejemplo, usando los transformadores 428, 468 rápidos de Fourier inversos).
- 10.
- Los granos de dominio de tiempo se multiplican por una ventana de síntesis (de nuevo se proponen ventanas Hann) (por ejemplo, usando los divisores 432, 472 en ventanas de síntesis).
- 11.
- Si se llevó a cabo un relleno con ceros en la etapa 3, los ceros se eliminan de nuevo (por ejemplo, usando el eliminador 476 de ceros).
- 12.
- Se crea una señal o trama de ancho de banda ampliado (por ejemplo, señal 392), respectivamente, usando solapamiento y suma (OLA) (por ejemplo, usando el solapamiento-y-suma 390).
Sin embargo, el orden de las etapas individuales también puede intercambiarse en algunas realizaciones alternativas, y algunas de las etapas pueden fusionarse en una única etapa en algunas realizaciones alternativas.
El algoritmo de la invención, que se implementa en el decodificador de audio mostrado en la figura 3, comprende las siguientes etapas:
- 1.
- Muestreo descendente de la señal (si no se daña el criterio Nyquist)
- 2.
- La señal se divide en ventanas (se proponen ventanas “Hann” aunque pueden usarse otras formas de ventana) y se toman denominados granos (por ejemplo, partes 383 de señal divididas en ventanas) de longitudes N de la señal. Las ventanas se desplazan sobre la señal con un tamaño de salto H. Se propone un solapamiento de N/H=8 veces.
- 3.
- Si el grano (por ejemplo, una parte 383 de señal dividida en ventanas) contiene un evento transitorio en los bordes, se rellena (por ejemplo, por el rellenador 438 de ceros) con ceros lo que lleva a un sobremuestreo en el dominio de frecuencia.
- 4.
- Los granos se transforman al dominio de frecuencia (por ejemplo, usando los transformadores 400, 440 del dominio de tiempo al dominio espectral).
- 5.
- Los granos de dominio de frecuencia se rellenan (opcionalmente) hasta una longitud de salida deseada del algoritmo de parcheado.
- 6.
- Se calculan magnitud y fase (por ejemplo, usando los medios 402, 404, 442, 444).
- 7.
- a) El contenido n de intervalo de frecuencia se copia a la posición 2n. La fase se multiplica por 2.
(a) s·(s-1)/s:n:s o(b) s/s:n:s (véase más arriba).
- 7.
- b) El contenido 2n de intervalo de frecuencia se copia a la posición sn para todos los factores de alargamiento s > 2 en los rangos 1:n:s.
- 8.
- Los intervalos de dominio de frecuencia que no consiguen datos mediante el copiado pueden llenarse aplicando una función de interpolación (por ejemplo, usando los interpoladores 420, 460).
- 9.
- Los granos se transforman de vuelta al dominio de tiempo (por ejemplo, usando los transformadores 428, 468 rápidos de Fourier inversos).
- 10.
- Los granos de dominio de tiempo se multiplican por una ventana de síntesis (de nuevo se proponen ventanas Hann) (por ejemplo usando los divisores 432, 472 en ventanas de síntesis).
- 11.
- Si se llevó a cabo un relleno con ceros en la etapa 3, los ceros se eliminan de nuevo (por ejemplo, usando el eliminador 476 de ceros).
- 12.
- La señal o trama de ancho de banda ampliado (por ejemplo, señal 392), respectivamente, se crea usando solapamiento y suma (OLA) (por ejemplo, usando el solapamiento-y-suma 390).
Sin embargo, el orden de las etapas individuales también puede intercambiarse en algunas realizaciones alternativas, y algunas de las etapas pueden fusionarse en una única etapa en algunas realizaciones alternativas.
Por tanto, todas las etapas son idénticas en el algoritmo de referencia (que se implementa en el decodificador de audio mostrado en la figura 6) y el algoritmo de la invención (que se implementa en el decodificador de audio mostrado en la figura 3), excepto por la etapa 7, que se ha sustituido por las siguientes etapas:
7. a) El contenido n de intervalo de frecuencia se copia a la posición 2n. La fase se multiplica por 2.
(a) s·(s-1)/s:n:s o (b) s/s:n:s (véase más arriba).
7. b) El contenido 2n de intervalo de frecuencia se copia a la posición sn para todos los factores de alargamiento s > 2 en los rangos 1:n:s.
En resumen, las realizaciones según las figuras 1, 2, 3 y 4 (y también el decodificador de audio mostrado en la figura 6) reducen en primer lugar la complejidad drásticamente en comparación con las soluciones convencionales mencionadas. En segundo lugar, permiten diferentes modificaciones de espectro diferentes respecto o bien el plano SBR o bien según se presenta en la figura 5 (véase, por ejemplo, la referencia [13]).
Por ejemplo, las señales de voz podrían beneficiarse del algoritmo, que se realiza en el aparato, decodificador de audio y método según las figuras 1, 2, 3 y 4, ya que la estructura de tren de impulsos, que es típica de las señales de voz, se mantiene mejor que con el enfoque presentado en la referencia [13].
Las aplicaciones más destacadas de realizaciones según la invención son decodificadores de audio, que suelen implementarse en dispositivos portátiles y por tanto funcionan con un suministro eléctrico mediante batería.
4. Método según la figura 4.
A continuación se describirá un método 400 para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada haciendo referencia a la figura 4, que muestra un diagrama de flujo de tal método. El método 400 comprende una etapa 410 de obtener valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada usando una vocodificación de fase. El método 400 también comprende una etapa 420 de copiar una conjunto de valores de la representación de dominio espectral del primer parche, valores que se obtienen usando la vocodificación de fase, para obtener un conjunto de valores de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche. El método 400 también comprende una etapa 430 de obtener una representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
El método 400 puede complementarse mediante cualquiera de los medios y funcionalidades comentados en el presente documento con respecto al aparato de la invención.
5. Alternativas de implementación
Aunque algunos aspectos se han descrito en el contexto de un aparato, está claro que estos aspectos también representan una descripción del correspondiente método, correspondiendo un bloque o dispositivo a una etapa de método o una característica de una etapa de método. De manera análoga, aspectos descritos en el contexto de una etapa de método también representan una descripción de un correspondiente bloque o elemento o característica de un correspondiente aparato. Algunas o todas las etapas de método pueden ejecutarse mediante (o usando) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, alguna o más de las etapas de método más importantes pueden ejecutarse mediante tal aparato.
Dependiendo de determinados requisitos de implementación, las realizaciones de la invención pueden implementarse en hardware o en software. La implementación puede realizarse usando un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un Blue-Ray, un CD, una ROM, una PROM, una EPROM, una EEPROM o una memoria FLASH, con señales de control legibles electrónicamente almacenadas en el mismo, que actúan conjuntamente (o pueden actuar conjuntamente) con un sistema informático programable de manera que se lleve a cabo el respectivo método. Por tanto, el medio de almacenamiento digital puede ser legible por ordenador.
Algunas realizaciones según la invención comprenden un soporte de datos que tiene señales de control legibles electrónicamente, que pueden actuar conjuntamente con un sistema informático programable, de manera que se lleve a cabo uno de los métodos descritos en el presente documento.
Generalmente, realizaciones de la presente invención pueden implementarse como un producto de programa informático con un código de programa, siendo el código de programa operativo para realizar uno de los métodos cuando el producto de programa informático se ejecuta en un ordenador. El código de programa puede almacenarse, por ejemplo, en un soporte legible por máquina.
Otras realizaciones comprenden el programa informático para llevar a cabo uno de los métodos descritos en el presente documento, almacenado en un soporte legible por máquina.
En otras palabras, una realización del método de la invención es, por tanto, un programa informático que tiene un código de programa para llevar a cabo uno de los métodos descritos en el presente documento, cuando el programa informático se ejecuta en un ordenador.
Una realización adicional de los métodos de la invención es, por tanto, un soporte de datos (o un medio de almacenamiento digital, o un medio legible por ordenador) que comprende, registrado en el mismo, el programa informático para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional del método de la invención es, por tanto, un flujo de datos o una secuencia de señales que representan el programa informático para llevar a cabo uno de los métodos descritos en el presente documento. El flujo de datos o la secuencia de señales pueden configurarse por ejemplo para transferirse a través de una conexión de comunicación de datos, por ejemplo, a través de Internet.
Una realización adicional comprende un medio de procesamiento, por ejemplo un ordenador, o un dispositivo lógico programable, configurado o adaptado para llevar a cabo uno de los métodos descritos en el presente documento.
Una realización adicional comprende un ordenador que tiene instalado en el mismo el programa informático para llevar a cabo uno de los métodos descritos en el presente documento.
En algunas realizaciones, un dispositivo lógico programable (por ejemplo una disposición de puertas programables en campo) puede usarse para llevar a cabo algunas o todas las funcionalidades de los métodos descritos en el presente documento. En algunas realizaciones, una disposición de puertas programables en campo puede actuar conjuntamente con un microprocesador con el fin de llevar a cabo uno de los métodos descritos en el presente documento. Generalmente, los métodos se llevan a cabo preferiblemente mediante cualquier aparato de hardware.
Las realizaciones descritas anteriormente son meramente ilustrativas de los principios de la presente invención. Se entiende que modificaciones y variaciones de las disposiciones y los detalles descritos en el presente documento resultarán evidentes para los expertos en la técnica. Se pretende, por tanto, limitarse únicamente al alcance de las siguientes reivindicaciones de patente y no a los detalles específicos presentados a modo de descripción y explicación de las realizaciones en el presente documento.
- 6.
- Ejemplo de comparación según la figura 5
A continuación se comentará brevemente un ejemplo de comparación haciendo referencia a la figura 5. La funcionalidad del ejemplo de comparación según la figura 5 es similar a la función del decodificador de audio según la figura 3, de manera que los medios y funcionalidades no se explicarán de nuevo. Sin embargo, el ejemplo de comparación según la figura 5 se basa en el uso de tres vocoders 590, 592, 594, ó 596, 597, 598 de fase por cada rama. Transformadores rápidos de Fourier inversos, divisores en ventanas de síntesis, solapadores-y-sumadores, individuales, están asociados a los vocoders de fase individuales, como puede verse en la figura 5. Además, en algunas de las subramas, se usa muestreo en sentido descendente individual (Vfactor) y retardo individual (z-muestras). Por consiguiente, el aparato 500 según la figura 5 no es tan eficiente desde el punto de vista computacional como el aparato 300 según la figura 3. No obstante, el aparato 500 conlleva significativas mejoras frente a algunos decodificadores de audio convencionales.
- 7.
- Ejemplo de comparación según la figura 6
La figura 6 muestra otro decodificador 600 de audio, según un ejemplo de comparación. El decodificador 600 de audio según la figura 6 es similar a los decodificadores 300, 500 de audio según las figuras 3 y 5. Sin embargo, el decodificador 600 de audio también se basa en el uso de una pluralidad de vocoders 690, 692, 694 ó 696, 697, 698 de fase individuales por cada rama, lo que hace que el aparato 600 sea más exigente desde el punto de vista computacional que el aparato 300, y lo que conlleva artefactos audibles en algunos casos. No obstante, el aparato 500 conlleva significativas mejoras frente a algunos decodificadores de audio convencionales.
- 8.
- Conclusión
En vista de los comentarios anteriores, puede verse que el aparato 100 según la figura 1, el decodificador 300 de audio según la figura 3 y el método 400 según la figura 4 conllevan diversas ventajas frente a los ejemplos de comparación, que se han comentado brevemente con referencia a las figuras 5 y 6.
El concepto de la invención es aplicable en una amplia variedad de aplicaciones y puede modificarse de un gran número de formas. En particular, los transformadores rápidos de Fourier pueden sustituirse por bancos de filtros de QMF, y los transformadores rápidos de Fourier inversos pueden sustituirse por sintetizadores de QMF.
Además, en algunas realizaciones algunas o todas las etapas de procesamiento pueden resumirse en una única etapa. Por ejemplo, una secuencia de procesamiento que comprende una síntesis de QMF y un posterior análisis de QMF puede simplificarse omitiendo las transformadas repetidas.
Bibliografía:
[1] M. Dietz, L. Liljeryd, K. Kjörling y O. Kunz, “Spectral Band Replication, a novel approach in audio coding”, en 112th AES Convention, Múnich, mayo de 2002.
[2] S. Meltzer, R.Böhm y F. Henn, “SBR enhanced audio codecs for digital broadcasting such as “Digital Radio Mondiale” (DRM)”, en 112th AES Convention, Múnich, mayo de 2002.
[3] T. Ziegler, A. Ehret, P. Ekstrand y M. Lutzky, “Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm”, en 112th AES Convention, Múnich, mayo de 2002.
[4] International Standard ISO/IEC 14496-3: 2001/FPDAM 1, “Bandwidth Extension”, ISO/IEC, 2002. Speech bandwidth extension method and apparatus Vasu Iyengar et al.
[5] E. Larsen, R. M. Aarts y M. Danessis. Efficient high-frequency bandwidth extension of music and speech. En AES 112th Convention, Múnich, Alemania, mayo de 2002.
[6] R. M. Aarts, E. Larsen y O. Ouweltjes. A unified approach to low-and high frequency bandwidth extension. En AES 115th Convention, Nueva York, EE.UU., octubre de 2003.
[7] K. Käyhkö. A Robust Wideband Enhancement for Narrowband Speech Signal. Research Report, Helsinki University of Technology, Laboratory of Acoustics and Audio Signal Processing, 2001.
[8] E. Larsen y R. M. Aarts. Audio Bandwidth Extension -Application to psychoacoustics, Signal Processing and Loudspeaker Design. John Wiley & Sons, Ltd, 2004.
[9] E. Larsen, R. M. Aarts y M. Danessis. Efficient high-frequency bandwidth extension of music and speech. En AES 112th Convention, Múnich, Alemania, mayo de 2002.
[10] J. Makhoul. Spectral Analysis of Speech by Linear Prediction. IEEE Transactions on Audio and Electroacoustics, AU-21 (3), junio de 1973.
[11] Solicitud de patente estadounidense 08/951.029, Ohmori, et al. Audio band width extending system and method.
[12] Patente estadounidense 6895375, Malah, D & Cox, R. V.: System for bandwidth extension of Narrowband speech.
[13] Frederik Nagel, Sascha Disch, “A harmonic bandwidth extension method for audio codecs”, ICASSP International Conference on Acoustics, Speech and Signal Processing, IEEE CNF, Taipei, Taiwán, abril de 2009.
[14] Solicitud de patente internacional WO 98/57436.
[15] Solicitud de patente estadounidense US 20071238415.
Claims (17)
- REIVINDICACIONES1. Aparato (100; 386) para generar una representación (120; 426) de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada, comprendiendo el aparato:un vocoder (130; 406) de fase configurado para obtener valores (1s … 12s, 408) de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada; yun copiador (140; 410, 416) de valores configurado para copiar un conjunto de valores (1s … 12s, 408) de la representación de dominio espectral del primer parche, valores que se proporcionan por el vocoder de fase, para obtener un conjunto de valores (1s … 13s, 408) de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche;en el que el aparato está configurado para obtener la representación (120; 426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
- 2. Aparato (100; 386) según la reivindicación 1, en el que el vocoder (130; 406) de fase está configurado para copiar un conjunto de valores de magnitud (as/2 … as) asociados con una pluralidad de subrangos de frecuencia dados de la representación (110; 383) de señal de entrada, para obtener un conjunto de valores de magnitud (as … a2s) asociados con correspondientes subrangos de frecuencia del primer parche,en el que un par de un subrango de frecuencia dado de la representación de señal de entrada y de un correspondiente subrango de frecuencia del primer parche abarcan un par de una frecuencia fundamental y un armónico de la frecuencia fundamental,en el que el vocoder (130; 406) de fase está configurado para multiplicar valores de fase (qs/2 … qs) asociados con la pluralidad de subrangos de frecuencia dados de la representación de señal de entrada por un factor predeterminado, para obtener un conjunto de valores de fase (qs … q2s) asociado con los correspondientes subrangos de frecuencia del primer parche, yen el que el copiador (140; 410) de valores está configurado para copiar un conjunto de valores (1s … 12s) asociados con una pluralidad de subrangos de frecuencia dados del primer parche, para obtener un conjunto de valores (12s … 13s) asociados con correspondientes subrangos de frecuencia del segundo parche, en el que el copiador de valores está configurado para dejar valores de fase sin cambiar en el copiado.
-
- 3.
- Aparato (100; 386) según la reivindicación 2, en el que el copiador (140; 410) de valores está configurado para copiar los valores de manera que se obtiene un desplazamiento espectral común entre valores (1s … 12s) del primer parche y correspondientes valores (12s … 13s) del segundo parche.
-
- 4.
- Aparato (100; 386) según una de las reivindicaciones 1 a 3, en el que el vocoder (130; 410) de fase está configurado para obtener los valores (1s … 12s) de la representación (132; 408) de dominio espectral del primer parche de manera que los valores de la representación de dominio espectral del primer parche representan una versión convertida en sentido ascendente de manera armónica de un rango de frecuencia fundamental de la representación (110; 383) de señal de entrada; y
en el que el copiador (140; 410) de valores está configurado para obtener los valores (12s … 13s) de la representación (142; 412) de dominio espectral del segundo parche de manera que los valores de la representación de dominio espectral del segundo parche representan una versión desplazada en frecuencia del contenido de audio del primer parche. -
- 5.
- Aparato (100; 380, 382, 386) según una de las reivindicaciones 1 a 4, en el que el aparato está configurado para recibir datos (322) de audio de entrada,
para muestrear en sentido descendente (380) los datos (322) de audio de entrada, con el fin de obtener datos (381) de audio muestreados en sentido descendente,para dividir en ventanas (382) los datos (381) de audio muestreados en sentido descendente, con el fin de obtener datos(383) de entrada divididos en ventanas,para convertir (400) o transformar los datos (383) de entrada divididos en ventanas en un dominio espectral, con el fin de obtener la representación (383) de señal de entrada en forma de una representación (401) de dominio espectral,para calcular (402, 404) valores de magnitud ak y valores de fase qk que representan un intervalo de frecuencia que tiene un índice k de la representación (383) de señal de entrada,para usar (130; 406) una pluralidad de valores de magnitud qk que representan intervalos de frecuencia que tienen índices de intervalo de frecuencia k de la representación (383) de señal de entrada, para obtener valores de magnitud a2k que representan intervalos de frecuencia que tienen índices de intervalo de frecuencia sk del primer parche, cuando s es un factor de alargamiento estando s entre 1,5 y 2,5, ypara copiar y ajustar a escala (130; 406) valores de fase qk asociados a intervalos de frecuencia que tienen índices de intervalo de frecuencia k de la representación (383) de señal de entrada, para obtener valores de fase copiados y ajustados a escala q2k=sqk asociados con intervalos de frecuencia que tienen índices de intervalo de frecuencia 2k del primer parche,para copiar (140; 410) valores 1k-i1 asociados con intervalos de frecuencia que tienen índices de intervalo de frecuencia k-is de la representación (132; 408) de dominio espectral del primer parche, para obtener valores 1k de la representación (142; 412) de dominio espectral del segundo parche,para convertir (428) la representación (426) de la señal de ancho de banda ampliado en el dominio de tiempo, para obtener una representación (430) de dominio de tiempo, ypara dividir (432) en ventanas de síntesis la representación de dominio de tiempo. - 6. Aparato (100; 386) según una de las reivindicaciones 1 a 5, en el que el aparato comprende un convertidor(400) del dominio de tiempo al dominio espectral configurado para proporcionar, como la representación (401) de señal de entrada, valores de una representación de dominio espectral de una señal (322) de audio de entrada, o de una versión (383) previamente procesada de la señal (322) de audio de entrada; yen el que el aparato comprende un convertidor (428) del dominio espectral al dominio de tiempo configurado para proporcionar una representación (430) de dominio de tiempo de la señal de ancho de banda ampliado usando valores (1s, 12s, 408) de la representación de dominio espectral del primer parche y valores 12s … 13s, 412) de la representación de dominio espectral del segundo parche;en el que el convertidor (428) del dominio espectral al dominio de tiempo está configurado de manera que un número (N=2048) de diferentes valores (426) espectrales recibidos por el convertidor (428) del dominio espectral al dominio de tiempo es mayor que un número (N=512) de diferentes valores (401) espectrales proporcionados por el convertidor(400) del dominio de tiempo al dominio espectral, de manera que el convertidor (428) del dominio espectral al dominio de tiempo está configurado para procesar un mayor número de intervalos de frecuencia que el convertidor (400) del dominio de tiempo al dominio espectral.
- 7. Aparato (100; 382, 386) según una de las reivindicaciones 1 a 6, en el que el aparato comprende un divisor(382) en ventanas de análisis configurado para dividir en ventanas una señal (322) de audio de entrada de dominio de tiempo, para obtener una versión (383) dividida en ventanas de la señal de audio de entrada de dominio de tiempo, que constituye la base para obtener la representación de señal de entrada en forma de una representación (401) de dominio espectral; yen el que el aparato comprende un divisor (432) en ventanas de síntesis configurado para dividir en ventanas una parte de una representación (430) de dominio de tiempo de la señal de ancho de banda ampliado, para obtener una parte(434) dividida en ventanas de la representación de dominio de tiempo de la señal de ancho de banda ampliado.
- 8. Aparato (100; 382, 386) según la reivindicación 7, en el que el aparato está configurado para procesar una pluralidad de partes desplazadas en el tiempo que se solapan temporalmente de la señal (322) de audio de entrada de dominio de tiempo, para obtener una pluralidad de partes (434) divididas en ventanas desplazadas en el tiempo que se solapan temporalmente de la representación de dominio de tiempo de la señal de ancho de banda ampliado,en el que un desfase de tiempo (Inc=64) entre partes desplazadas en el tiempo temporalmente adyacentes de la señal(322) de audio de entrada de dominio de tiempo es menor que o igual a una cuarta parte de una longitud (512) de ventana del divisor (382) en ventanas de análisis.
- 9. Aparato (100; 382,386) según una de las reivindicaciones 1 a 8, en el que el aparato comprende un proveedor(384) de información de transitorios configurado para proporcionar una información que indica la presencia de un transitorio en la señal (322) de entrada; yen el que el aparato comprende una primera rama (386) de procesamiento para proporcionar una representación (434) de una parte de señal de ancho de banda ampliado basándose en una parte sin transitorio de la representación (383) de señal de entrada y una segunda rama (388) de procesamiento para proporcionar una representación (478) de una parte de señal de ancho de banda ampliado basándose en una parte con transitorio de la representación (383) de señal de entrada;en el que la segunda rama (388) de procesamiento está configurada para procesar una representación (441) de dominio espectral de la señal de entrada con una resolución espectral más alta (N=1024) que una representación (401) de dominio espectral de la señal de entrada procesada por la primera rama (386) de procesamiento.
- 10. Aparato (100; 382, 386) según la reivindicación 9, en el que la segunda rama (388) de procesamiento comprende un rellenador (438) de ceros de dominio de tiempo configurado para rellenar con ceros una parte (383) que contiene transitorios de la señal de entrada, con el fin de obtener una parte (439) que contiene transitorios temporalmente ampliada de la señal de entrada; yen el que la primera rama (386) de procesamiento comprende un convertidor (400) del dominio de tiempo al dominio de frecuencia configurado para proporcionar un primer número (N=512) de valores (401) de dominio espectral asociados con la parte (383) sin transitorio de la señal de entrada; yen el que la segunda rama (388) de procesamiento comprende un convertidor (440) del dominio de tiempo al dominio de frecuencia configurado para proporcionar un segundo número (N=1024) de valores (441) de dominio espectral asociados con la parte (439) que contiene transitorios temporalmente ampliada de la señal de entrada,en el que el segundo número (N=1024) de valores de dominio espectral es mayor, al menos en un factor de 1,5, que el primer número(N=512) de valores de dominio espectral.
-
- 11.
- Aparato (100; 382, 386) según la reivindicación 10, en el que la segunda rama de procesamiento comprende un eliminador (476) de ceros configurado para eliminar una pluralidad de valores cero de una parte (474) de señal de ancho de banda ampliado obtenida basándose en la parte (439) que contiene transitorios temporalmente ampliada de la señal de entrada.
-
- 12.
- Aparato (100; 380, 382, 386) según una de las reivindicaciones 1 a 11, en el que el aparato comprende un muestreador (380) en sentido descendente configurado para muestrear en sentido descendente una representación
(322) de dominio de tiempo de la señal de entrada. -
- 13.
- Decodificador (300) de audio que comprende un aparato (100; 386) según una de las reivindicaciones 1 a 12.
-
- 14.
- Método (400) para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, comprendiendo el método:
obtener (410), usando una vocodificación de fase, valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada; ycopiar (420) un conjunto de valores de la representación de dominio espectral del primer parche, valores que se proporcionan por la vocodificación de fase, para obtener un conjunto de valores de una representación de dominio espectral de un segundo parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; yobtener (430) la representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche. - 15. Aparato (100; 386) para generar una representación (120; 426) de una señal de ancho de banda ampliado basándose en una representación (110; 383) de señal de entrada, comprendiendo el aparato:un copiador de valores configurado para copiar un conjunto de valores (11… 1s) de la representación de señal de entrada, para obtener un conjunto de valores (1s … 12s) de una representación de dominio espectral de un primer parche, en el que el primer parche está asociado con frecuencias más altas que la representación de señal de entrada; yun vocoder (130; 406) de fase configurado para obtener valores (12s … 13s) de una representación de dominio espectral de un segundo parche de la señal de ancho de banda ampliado basándose en los valores (14/3s … 12s) de la representación de dominio espectral del primer parche, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; yen el que el aparato está configurado para obtener la representación (120;426) de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
- 16. Método (400) para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada, comprendiendo el método:copiar valores de la representación de señal de entrada, para obtener valores de una representación de dominio espectral de un primer parche de la señal de ancho de banda ampliado basándose en la representación de señal de entrada, en el que el primer parche está asociado con frecuencias más altas que la representación de señal de entrada; yobtener, usando una vocodificación de fase, un conjunto de valores de la representación de dominio espectral del segundo parche basándose en un conjunto de valores de la representación de dominio espectral del primer parche, valores de la representación de dominio espectral del primer parche que se obtienen mediante el copiado, en el que el segundo parche está asociado con frecuencias más altas que el primer parche; yobtener (430) la representación de la señal de ancho de banda ampliado usando los valores de la representación de dominio espectral del primer parche y los valores de la representación de dominio espectral del segundo parche.
- 17. Programa informático para realizar el método según la reivindicación 14 o la reivindicación 16, cuando el programa informático se ejecuta en un ordenador.
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16612509P | 2009-04-02 | 2009-04-02 | |
US166125P | 2009-04-02 | ||
US16806809P | 2009-04-09 | 2009-04-09 | |
US168068P | 2009-04-09 | ||
EP09181008 | 2009-12-30 | ||
EP09181008A EP2239732A1 (en) | 2009-04-09 | 2009-12-30 | Apparatus and method for generating a synthesis audio signal and for encoding an audio signal |
PCT/EP2010/054422 WO2010112587A1 (en) | 2009-04-02 | 2010-04-01 | Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2377551T3 true ES2377551T3 (es) | 2012-03-28 |
Family
ID=42123165
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES10712439T Active ES2377551T3 (es) | 2009-04-02 | 2010-04-01 | Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica |
ES10712944T Active ES2396686T3 (es) | 2009-04-09 | 2010-04-01 | Aparato y procedimiento para generar una señal de audio de síntesis y para codificar una sañal de audio |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES10712944T Active ES2396686T3 (es) | 2009-04-09 | 2010-04-01 | Aparato y procedimiento para generar una señal de audio de síntesis y para codificar una sañal de audio |
Country Status (21)
Country | Link |
---|---|
US (2) | US9697838B2 (es) |
EP (3) | EP2239732A1 (es) |
JP (2) | JP5165106B2 (es) |
KR (2) | KR101207120B1 (es) |
CN (2) | CN102177545B (es) |
AR (3) | AR076199A1 (es) |
AT (1) | ATE534119T1 (es) |
AU (2) | AU2010233858B9 (es) |
BR (1) | BRPI1003636B1 (es) |
CA (2) | CA2721629C (es) |
CO (1) | CO6311123A2 (es) |
EG (1) | EG26400A (es) |
ES (2) | ES2377551T3 (es) |
HK (1) | HK1159842A1 (es) |
MX (2) | MX2011002419A (es) |
MY (2) | MY151346A (es) |
PL (2) | PL2351025T3 (es) |
RU (1) | RU2501097C2 (es) |
SG (1) | SG174113A1 (es) |
TW (2) | TWI492222B (es) |
WO (2) | WO2010115845A1 (es) |
Families Citing this family (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ATE526662T1 (de) * | 2009-03-26 | 2011-10-15 | Fraunhofer Ges Forschung | Vorrichtung und verfahren zur änderung eines audiosignals |
RU2452044C1 (ru) * | 2009-04-02 | 2012-05-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот |
JP5754899B2 (ja) | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
AU2015203065B2 (en) * | 2010-01-19 | 2017-05-11 | Dolby International Ab | Improved subband block based harmonic transposition |
CN104318930B (zh) | 2010-01-19 | 2017-09-01 | 杜比国际公司 | 子带处理单元以及生成合成子带信号的方法 |
EP2362375A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Apparatus and method for modifying an audio signal using harmonic locking |
JP5609737B2 (ja) | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
JP5850216B2 (ja) | 2010-04-13 | 2016-02-03 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
TR201904117T4 (tr) * | 2010-04-16 | 2019-05-21 | Fraunhofer Ges Forschung | Kılavuzlu bant genişliği uzantısı ve gözü kapalı bant genişliği uzantısı kullanılarak bir geniş bantlı sinyal üretilmesine yönelik aparat, yöntem ve bilgisayar programı. |
PL2581905T3 (pl) | 2010-06-09 | 2016-06-30 | Panasonic Ip Corp America | Sposób rozszerzania pasma częstotliwości, urządzenie do rozszerzania pasma częstotliwości, program, układ scalony oraz urządzenie dekodujące audio |
US12002476B2 (en) | 2010-07-19 | 2024-06-04 | Dolby International Ab | Processing of audio signals during high frequency reconstruction |
BR112012024360B1 (pt) * | 2010-07-19 | 2020-11-03 | Dolby International Ab | sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento |
JP6075743B2 (ja) | 2010-08-03 | 2017-02-08 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
JP5707842B2 (ja) | 2010-10-15 | 2015-04-30 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
BR112013020987B1 (pt) * | 2011-02-18 | 2021-01-19 | Ntt Docomo, Inc. | Decodificador de fala, codificador de fala, método de decodificação de fala, método decodificação de fala e memórias legíveis por computador. |
US20130006644A1 (en) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Method and device for spectral band replication, and method and system for audio decoding |
KR102078865B1 (ko) * | 2011-06-30 | 2020-02-19 | 삼성전자주식회사 | 대역폭 확장신호 생성장치 및 방법 |
DE102011106034A1 (de) * | 2011-06-30 | 2013-01-03 | Zte Corporation | Verfahren und Vorrichtung zur Spektralbandreplikation und Verfahren und System zur Audiodecodierung |
CN103035248B (zh) * | 2011-10-08 | 2015-01-21 | 华为技术有限公司 | 音频信号编码方法和装置 |
USRE48258E1 (en) | 2011-11-11 | 2020-10-13 | Dolby International Ab | Upsampling using oversampled SBR |
BR122021018240B1 (pt) * | 2012-02-23 | 2022-08-30 | Dolby International Ab | Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado |
EP2682941A1 (de) | 2012-07-02 | 2014-01-08 | Technische Universität Ilmenau | Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne |
EP2704142B1 (en) * | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
EP2709106A1 (en) | 2012-09-17 | 2014-03-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal |
US9258428B2 (en) | 2012-12-18 | 2016-02-09 | Cisco Technology, Inc. | Audio bandwidth extension for conferencing |
PL3067890T3 (pl) | 2013-01-29 | 2018-06-29 | Fraunhofer Ges Forschung | Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma |
CN103971693B (zh) * | 2013-01-29 | 2017-02-22 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
SG10201608613QA (en) * | 2013-01-29 | 2016-12-29 | Fraunhofer Ges Forschung | Decoder For Generating A Frequency Enhanced Audio Signal, Method Of Decoding, Encoder For Generating An Encoded Signal And Method Of Encoding Using Compact Selection Side Information |
EP3382699B1 (en) | 2013-04-05 | 2020-06-17 | Dolby International AB | Audio encoder and decoder for interleaved waveform coding |
JP6305694B2 (ja) * | 2013-05-31 | 2018-04-04 | クラリオン株式会社 | 信号処理装置及び信号処理方法 |
CN104217727B (zh) * | 2013-05-31 | 2017-07-21 | 华为技术有限公司 | 信号解码方法及设备 |
EP2830065A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
WO2015041070A1 (ja) | 2013-09-19 | 2015-03-26 | ソニー株式会社 | 符号化装置および方法、復号化装置および方法、並びにプログラム |
CN105706166B (zh) * | 2013-10-31 | 2020-07-14 | 弗劳恩霍夫应用研究促进协会 | 对比特流进行解码的音频解码器设备和方法 |
EP2881943A1 (en) * | 2013-12-09 | 2015-06-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal with low computational resources |
KR102356012B1 (ko) | 2013-12-27 | 2022-01-27 | 소니그룹주식회사 | 복호화 장치 및 방법, 및 프로그램 |
KR102244612B1 (ko) * | 2014-04-21 | 2021-04-26 | 삼성전자주식회사 | 무선 통신 시스템에서 음성 데이터를 송신 및 수신하기 위한 장치 및 방법 |
EP2963649A1 (en) * | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using horizontal phase correction |
KR102306537B1 (ko) | 2014-12-04 | 2021-09-29 | 삼성전자주식회사 | 소리 신호를 처리하는 방법 및 디바이스. |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
WO2016149085A2 (en) * | 2015-03-13 | 2016-09-22 | Psyx Research, Inc. | System and method for dynamic recovery of audio data and compressed audio enhancement |
TWI856342B (zh) | 2015-03-13 | 2024-09-21 | 瑞典商杜比國際公司 | 音訊處理單元、用於將經編碼的音訊位元流解碼之方法以及非暫態電腦可讀媒體 |
JP6611042B2 (ja) * | 2015-12-02 | 2019-11-27 | パナソニックIpマネジメント株式会社 | 音声信号復号装置及び音声信号復号方法 |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
CN109036457B (zh) | 2018-09-10 | 2021-10-08 | 广州酷狗计算机科技有限公司 | 恢复音频信号的方法和装置 |
TWI742486B (zh) * | 2019-12-16 | 2021-10-11 | 宏正自動科技股份有限公司 | 輔助歌唱系統、輔助歌唱方法及其非暫態電腦可讀取記錄媒體 |
GB202203733D0 (en) * | 2022-03-17 | 2022-05-04 | Samsung Electronics Co Ltd | Patched multi-condition training for robust speech recognition |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5127054A (en) | 1988-04-29 | 1992-06-30 | Motorola, Inc. | Speech quality improvement for voice coders and synthesizers |
US5455888A (en) | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
JPH10124088A (ja) | 1996-10-24 | 1998-05-15 | Sony Corp | 音声帯域幅拡張装置及び方法 |
SE9700772D0 (sv) | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6549884B1 (en) | 1999-09-21 | 2003-04-15 | Creative Technology Ltd. | Phase-vocoder pitch-shifting |
US7742927B2 (en) | 2000-04-18 | 2010-06-22 | France Telecom | Spectral enhancing method and device |
US6584438B1 (en) * | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
SE0001926D0 (sv) | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
US20020016698A1 (en) * | 2000-06-26 | 2002-02-07 | Toshimichi Tokuda | Device and method for audio frequency range expansion |
JP2002082685A (ja) | 2000-06-26 | 2002-03-22 | Matsushita Electric Ind Co Ltd | 音声帯域拡張装置及び音声帯域拡張方法 |
SE0004818D0 (sv) * | 2000-12-22 | 2000-12-22 | Coding Technologies Sweden Ab | Enhancing source coding systems by adaptive transposition |
US20020128839A1 (en) | 2001-01-12 | 2002-09-12 | Ulf Lindgren | Speech bandwidth extension |
MXPA03002115A (es) | 2001-07-13 | 2003-08-26 | Matsushita Electric Ind Co Ltd | DISPOSITIVO DE DECODIFICACION Y CODIFICACION DE SEnAL DE AUDIO. |
JP2003108197A (ja) * | 2001-07-13 | 2003-04-11 | Matsushita Electric Ind Co Ltd | オーディオ信号復号化装置およびオーディオ信号符号化装置 |
US6895375B2 (en) | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
US6988066B2 (en) | 2001-10-04 | 2006-01-17 | At&T Corp. | Method of bandwidth extension for narrow-band speech |
EP1701340B1 (en) | 2001-11-14 | 2012-08-29 | Panasonic Corporation | Decoding device, method and program |
JP3926726B2 (ja) * | 2001-11-14 | 2007-06-06 | 松下電器産業株式会社 | 符号化装置および復号化装置 |
EP1423847B1 (en) | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
US20030187663A1 (en) * | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
TWI288915B (en) | 2002-06-17 | 2007-10-21 | Dolby Lab Licensing Corp | Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components |
US20040138876A1 (en) | 2003-01-10 | 2004-07-15 | Nokia Corporation | Method and apparatus for artificial bandwidth expansion in speech processing |
KR100917464B1 (ko) | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
FI119533B (fi) | 2004-04-15 | 2008-12-15 | Nokia Corp | Audiosignaalien koodaus |
EP2752843A1 (en) | 2004-11-05 | 2014-07-09 | Panasonic Corporation | Encoder, decoder, encoding method, and decoding method |
JP2006243041A (ja) | 2005-02-28 | 2006-09-14 | Yutaka Yamamoto | 高域補間装置及び再生装置 |
US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
KR20070115637A (ko) | 2006-06-03 | 2007-12-06 | 삼성전자주식회사 | 대역폭 확장 부호화 및 복호화 방법 및 장치 |
US8417532B2 (en) | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
EP1970900A1 (en) | 2007-03-14 | 2008-09-17 | Harman Becker Automotive Systems GmbH | Method and apparatus for providing a codebook for bandwidth extension of an acoustic signal |
CN101276587B (zh) * | 2007-03-27 | 2012-02-01 | 北京天籁传音数字技术有限公司 | 声音编码装置及其方法和声音解码装置及其方法 |
JP5255638B2 (ja) * | 2007-08-27 | 2013-08-07 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | ノイズ補充の方法及び装置 |
CN101393743A (zh) * | 2007-09-19 | 2009-03-25 | 中兴通讯股份有限公司 | 一种可配置参数的立体声编码装置及其编码方法 |
JP5098569B2 (ja) | 2007-10-25 | 2012-12-12 | ヤマハ株式会社 | 帯域拡張再生装置 |
EP2220646A1 (en) | 2007-11-06 | 2010-08-25 | Nokia Corporation | Audio coding apparatus and method thereof |
BRPI0722269A2 (pt) | 2007-11-06 | 2014-04-22 | Nokia Corp | Encodificador para encodificar um sinal de áudio, método para encodificar um sinal de áudio; decodificador para decodificar um sinal de áudio; método para decodificar um sinal de áudio; aparelho; dispositivo eletrônico; produto de programa de comoputador configurado para realizar um método para encodificar e para decodificar um sinal de áudio |
AU2008339211B2 (en) | 2007-12-18 | 2011-06-23 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
RU2491658C2 (ru) | 2008-07-11 | 2013-08-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Синтезатор аудиосигнала и кодирующее устройство аудиосигнала |
EP2224433B1 (en) | 2008-09-25 | 2020-05-27 | Lg Electronics Inc. | An apparatus for processing an audio signal and method thereof |
BR122019023704B1 (pt) | 2009-01-16 | 2020-05-05 | Dolby Int Ab | sistema para gerar um componente de frequência alta de um sinal de áudio e método para realizar reconstrução de frequência alta de um componente de frequência alta |
DK2211339T3 (en) | 2009-01-23 | 2017-08-28 | Oticon As | listening System |
WO2011035813A1 (en) | 2009-09-25 | 2011-03-31 | Nokia Corporation | Audio coding |
CN102667920B (zh) * | 2009-12-16 | 2014-03-12 | 杜比国际公司 | Sbr比特流参数缩混 |
-
2009
- 2009-12-30 EP EP09181008A patent/EP2239732A1/en not_active Withdrawn
-
2010
- 2010-03-29 TW TW099109379A patent/TWI492222B/zh active
- 2010-04-01 MX MX2011002419A patent/MX2011002419A/es active IP Right Grant
- 2010-04-01 KR KR1020107025594A patent/KR101207120B1/ko active IP Right Grant
- 2010-04-01 AU AU2010233858A patent/AU2010233858B9/en active Active
- 2010-04-01 RU RU2011109670/08A patent/RU2501097C2/ru active
- 2010-04-01 JP JP2011507945A patent/JP5165106B2/ja active Active
- 2010-04-01 PL PL10712944T patent/PL2351025T3/pl unknown
- 2010-04-01 CN CN2010800028666A patent/CN102177545B/zh active Active
- 2010-04-01 BR BRPI1003636-9A patent/BRPI1003636B1/pt active IP Right Grant
- 2010-04-01 CN CN2010800015312A patent/CN102027537B/zh active Active
- 2010-04-01 AU AU2010230129A patent/AU2010230129B2/en active Active
- 2010-04-01 ES ES10712439T patent/ES2377551T3/es active Active
- 2010-04-01 AT AT10712439T patent/ATE534119T1/de active
- 2010-04-01 PL PL10712439T patent/PL2269189T3/pl unknown
- 2010-04-01 WO PCT/EP2010/054434 patent/WO2010115845A1/en active Application Filing
- 2010-04-01 WO PCT/EP2010/054422 patent/WO2010112587A1/en active Application Filing
- 2010-04-01 CA CA2721629A patent/CA2721629C/en active Active
- 2010-04-01 CA CA2734973A patent/CA2734973C/en active Active
- 2010-04-01 SG SG2011035433A patent/SG174113A1/en unknown
- 2010-04-01 US US12/992,051 patent/US9697838B2/en active Active
- 2010-04-01 MY MYPI2010005335 patent/MY151346A/en unknown
- 2010-04-01 EP EP10712439A patent/EP2269189B1/en active Active
- 2010-04-01 KR KR1020117010755A patent/KR101248321B1/ko active IP Right Grant
- 2010-04-01 TW TW099110102A patent/TWI416507B/zh active
- 2010-04-01 EP EP10712944A patent/EP2351025B1/en active Active
- 2010-04-01 MY MYPI2011002195A patent/MY153798A/en unknown
- 2010-04-01 JP JP2011529585A patent/JP5227459B2/ja active Active
- 2010-04-01 MX MX2010012343A patent/MX2010012343A/es active IP Right Grant
- 2010-04-01 ES ES10712944T patent/ES2396686T3/es active Active
- 2010-04-05 AR ARP100101129A patent/AR076199A1/es active IP Right Grant
- 2010-04-08 AR ARP100101184A patent/AR076237A1/es active IP Right Grant
- 2010-10-22 CO CO10131388A patent/CO6311123A2/es active IP Right Grant
- 2010-11-10 EG EG2010111906A patent/EG26400A/en active
-
2012
- 2012-01-10 HK HK12100251.0A patent/HK1159842A1/xx unknown
- 2012-11-28 US US13/687,678 patent/US9076433B2/en active Active
-
2014
- 2014-09-02 AR ARP140103280A patent/AR097531A2/es active IP Right Grant
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2377551T3 (es) | Aparato, método y programa informático para generar una representación de una señal de ancho de banda ampliado basándose en una representación de señal de entrada usando una combinación de una ampliación de ancho de banda armónica y una ampliación de ancho de banda no armónica | |
ES2593072T3 (es) | Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada y programa de ordenador correspondiente | |
TWI444991B (zh) | 用以利用補丁邊界對齊處理音訊信號之裝置與方法 | |
US12159636B2 (en) | Apparatus, method and computer program for generating a representation of a bandwidth-extended signal on the basis of an input signal representation using a combination of a harmonic bandwidth-extension and a non-harmonic bandwidth-extension | |
BRPI1010165B1 (pt) | codificador de extensão de largura de banda, decodificador de extensão de largura de banda e codificador de voz de fase | |
BR112012009249B1 (pt) | Aparelho e método para gerar um sinal de áudio de alta frequência usando sobreamostragem conformável | |
ES2965741T3 (es) | Aparato para codificar o decodificar una señal multicanal codificada mediante una señal de relleno generada por un filtro de banda ancha | |
AU2014201331B2 (en) | Bandwidth extension encoder, bandwidth extension decoder and phase vocoder | |
BR122021012290B1 (pt) | Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica | |
BRPI1001239B1 (pt) | Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica | |
BR122021012137B1 (pt) | Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica | |
BR122021012115B1 (pt) | Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica | |
BR122021012125B1 (pt) | Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica | |
BR122021012145B1 (pt) | Equipamento, mídia não transitória e método para a geração de uma representação de um sinal de banda larga estendida com base em uma representação do sinal de entrada usando uma combinação de uma extensão de largura de banda harmônica e uma extensão de largura de banda não harmônica | |
BR122021019078B1 (pt) | Aparelho e método para processar um sinal de áudio de entrada usando bancos de filtro em cascata |