ES2681429T3 - Generación de ruido en códecs de audio - Google Patents
Generación de ruido en códecs de audio Download PDFInfo
- Publication number
- ES2681429T3 ES2681429T3 ES12703807.3T ES12703807T ES2681429T3 ES 2681429 T3 ES2681429 T3 ES 2681429T3 ES 12703807 T ES12703807 T ES 12703807T ES 2681429 T3 ES2681429 T3 ES 2681429T3
- Authority
- ES
- Spain
- Prior art keywords
- background noise
- audio signal
- parametric
- spectral
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
- G10L19/107—Sparse pulse excitation, e.g. by using algebraic codebook
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/13—Residual excited linear prediction [RELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K15/00—Acoustics not otherwise provided for
- G10K15/02—Synthesis of acoustic waves
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Image Generation (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Optical Communication System (AREA)
Abstract
Codificador de audio que comprende un estimador de ruido de fondo (12) configurado para determinar una estimación de ruido de fondo paramétrica en base a una representación de descomposición espectral de una señal de audio de entrada, de modo que la estimación de ruido de fondo paramétrica describe espectralmente una envolvente espectral de un ruido de fondo de la señal de audio de entrada; un codificador (14) para codificar la señal de audio de entrada en una secuencia de datos durante la fase activa; y un detector (16) configurado para detectar la entrada de una fase inactiva a continuación de la fase activa basado en la señal de entrada, en el que el codificador de audio está configurado para codificar en la secuencia de datos la estimación de ruido de fondo paramétrica en la fase inactiva, en el que el codificador está configurado para, en la codificación de la señal de audio de entrada, codificar predictivamente la señal de audio de entrada a coeficientes de predicción lineales y una señal de excitación, y codificar por transformada una descomposición espectral de la señal de excitación y codificar los coeficientes de predicción lineal a la secuencia de datos, en el que el estimador de ruido de fondo está configurado para usar la descomposición espectral de la señal de excitación como la representación de descomposición espectral de la señal de audio de entrada en la determinación de la estimación de ruido de fondo paramétrico.
Description
DESCRIPCIÓN
Generación de ruido en códecs de audio
5 [0001] La presente invención se refiere a un códec de audio que soporta síntesis de ruido durante fases
inactivas. En la técnica se conoce la posibilidad de reducir el ancho de banda de transmisión aprovechando los períodos inactivos de voz u otras fuentes de ruido. Tales esquemas utilizan generalmente alguna forma de detección para distinguir entre fases inactivas (o silencio) y activas (no silencio). Durante fases inactivas, se logra una menor frecuencia de bits parando la transmisión de secuencia de datos ordinarios codificando precisamente la señal 10 grabada, y enviando en cambio sólo actualizaciones de descripción de inserción de silencio (SID). Las actualizaciones de SID pueden ser transmitidas a intervalos regulares o cuando se detectan cambios en las características del ruido de fondo. Entonces se pueden usar los cuadros de SID en el lado de decodificación para generar un ruido de fondo con características similares al ruido de fondo durante las fases activas de modo que el freno de la transmisión de la secuencia de datos ordinaria que codifica la señal grabada no conduce a una transición 15 desagradable desde la fase activa a la fase inactiva en el lado del receptor. LEE I D ET AL: "A voice activity detection algorithm for communication systems with dynamically varying background acoustic noise" (Un algoritmo de detección de actividad de voz para sistemas de comunicación con ruido acústico de fondo que varía de forma dinámica), 48TH IEEE VEHICULAR TECHNOLOGY CONFERENCE (48a CONFERENCIA DE TECNOLOGÍA VEHICULAR IEEE), 1998, y el documento WO 02/101722 A1 se refieren a la estimación de ruido de fondo para 20 codificadores y decodificadores de voz. Sin embargo, todavía hay una necesidad de reducir más el ritmo de transmisión. Un creciente número de consumidores de cantidad de bits transmitidos (bitrate), tal como un creciente número de teléfonos móviles, y un creciente número de aplicaciones que hacen uso más o menos intensivo en cuanto a cantidad de bits transmitidos, requieren una permanente reducción de la cantidad de bits transmitidos consumidos. Por otro lado, el ruido sintetizado debe emular estrechamente el ruido real de modo que la síntesis sea 25 transparente para los usuarios.
[0002] Por consiguiente, es conveniente proporcionar un esquema de códec de audio que soporta generación de ruido durante fases inactivas, el cual permite reducir la cantidad de bits transmitidos de transmisión y/o ayuda a aumentar la calidad de generación de ruido alcanzable.
30
[0003] Un objetivo de la presente invención es proporcionar un códec de audio que soporta generación de ruido sintético durante fases inactivas lo cual permite una generación de ruido más realista con moderado factor que rebaja el rendimiento en términos de, por ejemplo, cantidad de bits transmitidos y/ complejidad computacional. El objetivo se alcanza mediante la materia del caso de otra parte de las reivindicaciones independientes de la presente
35 solicitud. En particular, es una idea básica que subyace a la presente invención que el dominio espectral se puede usar de forma muy eficaz para parametrizar el ruido de fondo produciendo de ese modo una síntesis de ruido de fondo que es más realista y de este modo conduce a una más transparente conmutación de fase activa a inactiva. Asimismo, se ha descubierto que parametrizar el ruido de fondo en el dominio espectral permite separar ruido de la señal útil y, por consiguiente, parametrizar el ruido de fondo en el dominio espectral tiene una ventaja cuando se 40 combina con la actualización continua mencionada antes de la estimación de ruido de fondo paramétrica durante las fases activas ya que se puede lograr una mejor separación entre ruido y señal útil en el dominio espectral de modo que no es necesaria transición adicional desde un dominio a otro cuando se combinan ambos aspectos ventajosos de la presente solicitud. Según realizaciones específicas, se puede ahorrar una valiosa cantidad de bits transmitidos manteniendo la calidad de generación de ruido dentro de las fases inactivas, actualizando continuamente la 45 estimación de ruido de fondo paramétrica durante una fase activa de modo que la generación de ruido puede ser
iniciada inmediatamente después de la entrada de una fase inactiva que sigue a la fase activa. Por ejemplo, la
actualización continua puede ser realizada en el lado de decodificación, y no hay necesidad de proporcionar de forma preliminar el lado de decodificación, con una representación codificada del ruido de fondo durante una fase de calentamiento inmediatamente a continuación de la detección de la fase inactiva cuya provisión consumiría una
50 valiosa cantidad de bits transmitidos, ya que el lado de decodificación tiene la estimación de ruido de fondo
paramétrica continuamente actualizada durante la fase activa y, de este modo, está preparada en todo momento para entrar inmediatamente en la fase inactiva con una generación de ruido apropiada. De manera similar se puede evitar una fase de calentamiento de este tipo si la estimación de ruido de fondo paramétrica se hace en el lado de codificación. En lugar de continuar de forma preliminar con el suministro al lado de decodificación de una 55 representación convencionalmente codificada del ruido de fondo al detectar la entrada de la fase inactiva para aprender el ruido de fondo e informar consiguientemente al lado de decodificación después de la fase de aprendizaje, el codificador puede proporcionar al decodificador la estimación de ruido de fondo paramétrica necesaria inmediatamente al detectar la entrada de la fase inactiva recurriendo a la estimación de ruido de fondo paramétrica continuamente actualizada durante la fase activa parada, evitando de ese modo la prosecución
adicional preliminar que consume cantidad de bits transmitidos de la muy trabajosa codificación del ruido de fondo.
[0004] Otros detalles ventajosos de realizaciones de la presente invención son el tema de las reivindicaciones dependientes. Las realizaciones preferidas de la presente solicitud se describen a continuación con respecto a las
5 figuras entre las que:
la Figura 1 muestra un diagrama de bloques que muestra un codificador de audio según una realización;
la Figura 2 muestra una implementación posible del motor de codificación 14;
la Figura 3 muestra un diagrama de bloques de un decodificador de audio según una realización;
10 la Figura 4 muestra una posible implementación del motor de decodificación de la Figura 3 según una realización; la Figura 5 muestra un diagrama de bloques de un codificador de audio según otra descripción más detallada de la realización;
la Figura 6 muestra un diagrama de bloques de un decodificador que podría ser usado en conexión con el codificador de la Figura 5 según una realización;
15 la Figura 7 muestra un diagrama de bloques de un decodificador de audio según otra descripción más detallada de la realización;
la Figura 8 muestra un diagrama de bloques de una parte de extensión de ancho de banda espectral de un codificador de audio según una realización;
la Figura 9 muestra una implementación del codificador de extensión de ancho de banda espectral CNG de la Figura 20 8 según una realización;
la Figura 10 muestra un diagrama de bloques de un decodificador de audio según una realización que usa extensión de ancho de banda espectral;
la Figura 11 muestra un diagrama de bloques de una posible descripción más detallada de una realización de un decodificador de audio que usa replicación de ancho espectral;
25 la Figura 12 muestra un diagrama de bloques de un codificador de audio según otra realización que usa extensión de ancho de banda espectral; y
la Figura 13 muestra un diagrama de bloque de otra realización de un decodificador de audio.
[0005] La Figura 1 muestra un codificador de audio según una realización de la presente invención. El 30 codificador de audio de la Figura 1 comprende un estimador de ruido de fondo 12, un motor de codificación 14, un
detector 16, una entrada de señal de audio 18 y una salida de secuencia de datos 20. El proveedor 12, el motor de codificación 14 y el detector 16 tienen una entrada conectada a la entrada de señal de audio 18, respectivamente. Las salidas del estimador 12 y del motor de codificación 14 están respectivamente conectadas a la salida de secuencia de datos 20 a través de un conmutador 22. El conmutador 22, el estimador 12 y el motor de codificación 35 14 tienen una entrada de control conectada a una salida del detector 16, respectivamente.
[0006] El codificador 14 codifica la señal de audio de entrada en la secuencia de datos 30 durante una fase activa 24 y el detector 16 está configurado para detectar una entrada 34 de una fase inactiva 28 que sigue a la fase activa 24 en base a la señal de entrada. La porción de la secuencia de datos 30 entregada por el motor de
40 codificación 14 se indica con 44.
[0007] El estimador de ruido de fondo 12 está configurado para determinar una estimación de ruido de fondo paramétrica en base a una representación de descomposición espectral de una señal de audio de entrada de modo que la estimación de ruido de fondo paramétrica describe espectralmente una envolvente espectral de un ruido de
45 fondo de la señal de audio de entrada. La determinación puede comenzar después de la entrada de la fase inactiva 38, es decir, inmediatamente a continuación del instante de tiempo 34 en el cual el decodificador 16 detecta la inactividad. En ese caso, la porción normal 44 de la secuencia de datos 30 se extendería levemente dentro de la fase inactiva, es decir, duraría otro breve período suficiente para que el estimador de ruido de fondo 12 aprenda/estime el ruido de fondo de la señal de entrada la cual entonces sería asumida como solamente compuesta 50 por ruido de fondo.
[0008] Sin embargo, las realizaciones descritas más abajo toman otro camino. Según realizaciones alternativas descritas adicionalmente más abajo, la determinación puede ser realizada continuamente durante las fases activas para actualizar la estimación para uso inmediato después de entrar en la fase inactiva.
55
[0009] En cualquier caso, el codificador de audio 10 está configurado para codificar en la secuencia de datos 30 la estimación de ruido de fondo paramétrica durante la fase inactiva 28 tal como mediante el uso de los cuadros SID 32 y 38.
[0010] De este modo, aunque muchas de las realizaciones explicadas a continuación se refieren a casos donde la estimación de ruido es realizada de forma continua durante las fases activas de forma que sea capaz de comenzar inmediatamente la síntesis de ruido, este no es necesariamente el caso y la implementación podría ser diferente de eso. En general se entenderá que todos los detalles presentados en estas realizaciones ventajosas
5 también explican o revelan realizaciones donde la respectiva estimación de ruido se hace al detectar la estimación de ruido, por ejemplo.
[0011] De este modo, el estimador de ruido de fondo 12 puede estar configurado para actualizar continuamente la estimación de ruido de fondo paramétrica durante la fase inactiva 24 basado en la señal de audio
10 de entrada que accede al codificador de audio 10 en la entrada 18. A pesar de que la Figura 1 sugiere que el estimador de ruido de fondo 12 puede establecer la actualización continua de la estimación de ruido de fondo paramétrica basado en la señal de audio como entrada en la entrada 18, no necesariamente es este el caso. Alternativamente o adicionalmente, el estimador de ruido de fondo 12 puede obtener una versión de la señal de audio del motor de codificación 14 como se ilustra mediante la línea de trazos 26. En ese caso, el estimador de ruido 15 de fondo 12, alternativamente o adicionalmente, sería conectado a la entrada 18 indirectamente vía la línea de conexión 26 y el motor de codificación 14, respectivamente. En particular, existen diferentes posibilidades para que el estimador de ruido de fondo 12 actualice continuamente la estimación de ruido de fondo y a continuación se describen algunas de esas posibilidades.
20 [0012] El motor de codificación 14 está configurado para codificar la señal de audio de entrada que llega a la
entrada 18 en una secuencia de datos durante la fase activa 24. La fase activa abarcará todo tiempo en que una información útil está contenida dentro de la señal de audio como voz u otro sonido útil de una fuente de ruido. Por otro lado, los sonidos con una característica casi invariable en el tiempo tales como un espectro con invariancia temporal como el causado por ejemplo por lluvia o tráfico en el fondo de un locutor, será clasificado como ruido de 25 fondo y siempre que esté presente meramente este ruido de fondo, el respectivo período de tiempo será clasificado como una fase inactiva 28. El detector 16 es responsable de detectar la entrada de una fase inactiva 28 a continuación de la fase activa 24 basado en la señal de audio de entrada en la entrada 18. En otras palabras, el detector 16 distingue entre dos fases, a saber la fase activa y la fase inactiva en donde el detector 16 decide en cuanto a qué fase está presente actualmente. El detector 16 informa al motor de codificación 14 acerca de la fase 30 actualmente presente y como ya se ha mencionado, el motor de codificación 14 realiza la codificación de la señal de audio de entrada en la secuencia de datos durante las fases activas 24. El detector 16 controla el conmutador 22 por consiguiente de modo que la secuencia de datos entregada por el motor de codificación 14 sea entregada en la salida 20. Durante las fases inactivas, el motor de codificación 14 puede dejar de codificar la señal de audio de entrada. Por lo menos, la secuencia de datos entregada en la salida 20 ya no es alimentada por ninguna secuencia 35 de datos posiblemente entregada por el motor de codificación 14. Además de eso, el motor de codificación 14 puede realizar solo un mínimo procesamiento para dar soporte al estimador 12 con algunas actualizaciones de estado variables. Esta acción reducirá mucho la potencia computacional. Por ejemplo, se pone el conmutador 22 de tal forma que la salida del estimador 12 esté conectada a la salida 20 en lugar de a la salida del motor de codificación. De esta manera se reduce una valiosa cantidad de bits transmitidos para transmitir la serie de bits en el tiempo 40 entregado en la salida 20. En el caso de que el estimador de ruido de fondo 12 esté configurado para actualizar continuamente la estimación de ruido de fondo paramétrica durante la fase activa 24 basado en la señal de audio de entrada 18 como ya se ha mencionado arriba, el estimador 12 puede insertar en la secuencia de datos 30 entregada en la salida 20, la estimación de ruido de fondo paramétrica como está actualizada continuamente durante la fase activa 24, inmediatamente a continuación de la transición desde la fase activa 24 a la fase inactiva 28, es decir, 45 inmediatamente después de la entrada en la fase inactiva 28. Por ejemplo, el estimador de ruido de fondo 12 puede insertar un cuadro descriptor de inserción de silencio 32 en la secuencia de datos 30 inmediatamente siguiente a la finalización de la fase activa 24 e inmediatamente siguiente al instante de tiempo 34 en el cual el detector 16 detectó la entrada de la fase inactiva 28. En otras palabras, no hay espacio de tiempo entre la detección de la entrada de la fase inactiva 28 en los detectores y la inserción del SID 32 necesaria debido a la actualización continua del 50 estimador de ruido de fondo de la estimación de ruido de fondo paramétrica durante la fase activa 24.
[0013] De este modo, resumiendo la descripción anterior, el codificador de audio 10 de a Figura 1 según una
opción preferida de implementación de la realización de la Figura 1, el mismo puede operar como sigue. Imagine, con fines de ilustración, que actualmente está presente una fase activa 24. En este caso, el motor de codificación 14 55 codifica actualmente la señal de audio de entrada en la entrada 18, formando la secuencia de datos 20. El conmutador 22 conecta la salida del motor de codificación 14 a la salida 20. El motor de codificación 14 puede usar codificación paramétrica y/codificación por transformada para codificar la señal de audio de entrada 18 formando la secuencia de datos. En particular, el motor de codificación 14 puede codificar la señal de audio de entrada en unidades de cuadros con cada cuadro que codifica uno de los intervalos de tiempo consecutivos — que se
superponen parcialmente entre sí — de la señal de audio de entrada. El motor de codificación 14 puede tener adicionalmente la capacidad de conmutar entre diferentes modos de codificación entre cuadros consecutivos de la secuencia de datos. Por ejemplo, algunos cuadros pueden ser codificados mediante el uso de codificación predictiva tal como codificación CELp, y algunos otros cuadros pueden ser codificados mediante el uso de codificación por 5 transformada tal como codificación TCX o AAC. Se hace referencia, por ejemplo, a USAC y sus modos de codificación según se describen en ISO/IEC CD 23003—3 con fecha del 24 de septiembre de 2010.
[0014] El estimador de ruido de fondo 12 actualiza continuamente la estimación de ruido de fondo paramétrica durante la fase activa 24. Por consiguiente, el estimador de ruido de fondo 12 puede estar configurado
10 para distinguir entre un componente de ruido y un componente de señal útil dentro de la señal de audio de entrada para determinar la estimación de ruido de fondo paramétrica meramente del componente de ruido. El estimador de ruido de fondo 12 realiza esta actualización en un dominio espectral tal como un dominio espectral también utilizado para la codificación por transformada dentro del motor de codificación 14. Asimismo, el estimador de ruido de fondo 12 puede realizar la actualización basado en una excitación o señal residual obtenida como un resultado intermedio 15 dentro del motor de codificación 14, por ejemplo, al codificar por transformada una versión filtrada con base en LPC de la señal de audio según entra en lugar de la señal de audio conforme entra por la entrada 18 o como codificada con pérdida de datos (lossy) formando la secuencia de datos. Al hacer esto, una gran cantidad del componente útil de señal dentro de la señal de audio ya habría sido quitado de modo que la detección del componente de ruido es más fácil para el estimador de ruido de fondo 12. Como el dominio espectral, se puede usar un dominio de la 20 transformada lapped tal como un dominio de MDCT (Modified Discrete Cosine Transform), o un dominio de banco de filtros tal como un dominio de banco de filtros de valor complejo tal como un dominio QMF (Quadratura Mirror Filters). Durante la fase activa 24, el detector 16 también está funcionando continuamente para detectar una entrada de la fase inactiva 28. El detector 16 puede ser puesto en práctica como un detector de actividad de voz/sonido (VAD/SAD) o algún otro mecanismo que decida si hay un componente de señal útil presente actualmente dentro de 25 la señal de audio o no. Un criterio de base para el detector 16 para decidir si continúa o no una fase activa 24, podría ser verificar si una potencia filtrada por pasa bajos de la señal de audio queda por debajo de un cierto umbral, suponiendo que se accede a una fase inactiva tan pronto como se excede el umbral. Independientemente de la forma exacta en que el detector 16 realiza la detección de la entrada de la fase inactiva 28 a continuación de la fase activa 24, el detector 16 informa inmediatamente a las otras entidades 12, 14 y 22, de la entrada de la fase inactiva 30 28. En el caso de actualización continua del estimador de ruido de fondo de la estimación de ruido de fondo paramétrica durante la fase activa 24, se puede impedir inmediatamente que la secuencia de datos 30 entregada en la salida 20 siga siendo alimentada desde el motor de codificación 14. En cambio, el estimador de ruido de fondo 12 insertaría, inmediatamente después de ser informado de la entrada de la fase inactiva 28, la información sobre la última actualización de la estimación de ruido de fondo paramétrica en la secuencia de datos 30, en la forma del 35 cuadro SID 32. Es decir, el cuadro SID 32 podría seguir inmediatamente al último cuadro del motor de codificación que codifica el cuadro de la señal de audio concerniente al intervalo de tiempo dentro del cual el detector 16 detectó la entrada de fase inactiva.
[0015] Normalmente, el ruido de fondo no cambia con mucha frecuencia. En la mayoría de los casos, el ruido 40 de fondo tiende a ser algo invariante en el tiempo. Por consiguiente, después de que el estimador de ruido de fondo
12 insertó el cuadro de SID 32 inmediatamente después que el detector 16 que detecta el comienzo de la fase inactiva 28, toda transmisión de secuencia de datos puede ser interrumpida de modo que en esta fase de interrupción 34, la secuencia de datos 30 no consume cantidad de bits transmitidos o meramente un mínimo de cantidad de bits transmitidos requerida para algún propósito de transmisión. Para mantener una mínima cantidad de 45 bits transmitidos, el estimador de ruido de fondo 12 puede repetir de forma intermitente la salida de SID 32. Sin
embargo, a pesar de la tendencia del ruido de fondo a no cambiar con el tiempo, de todos modos puede ocurrir que
el ruido de fondo cambie. Por ejemplo, imagine un usuario de teléfono móvil saliendo del automóvil de modo que el ruido de fondo cambia del ruido de motor al ruido del tráfico fuera del automóvil durante la llamada del usuario. Para rastrear tales cambios del ruido de fondo, el estimador de ruido de fondo 12 puede ser configurado para escrutar 50 continuamente el ruido de fondo durante la fase inactiva 28. Siempre que el estimador de ruido de fondo 12 determina que la estimación de ruido de fondo paramétrica cambia en una magnitud que excede algún umbral, el estimador de fondo 12 puede insertar una versión actualizada de la estimación de ruido de fondo paramétrica dentro de la secuencia de datos 20 vía otro SID 38, después de lo cual puede seguir otra fase de interrupción 40, por ejemplo, empieza otra fase activa 42 según lo detectado por el detector 16, y así sucesivamente. Naturalmente, los
55 cuadros de SID que revelan la estimación de ruido de fondo paramétrica actualizada actualmente pueden,
adicionalmente o alternativamente, ser intercalados dentro de las fases inactivas de una manera intermedia dependiente de los cambios en la estimación de ruido de fondo paramétrica. Obviamente, la secuencia de datos 44 entregada por el motor de codificación 14 e indicada en la Figura 1 mediante el uso de sombreado, consume más cantidad de bits transmitidos de transmisión que los fragmentos de secuencia de datos 32 y 38 que se van a
transmitir durante las fases inactivas 28 y por consiguiente los ahorros de cantidad de bits transmitidos son considerables. Asimismo, en el caso en que el estimador de ruido de fondo 12 puede empezar inmediatamente con proceder a alimentar adicionalmente la secuencia de datos 30 mediante la actualización de estimación continua opcional anterior, no es necesario continuar de forma preliminar transmitiendo la secuencia de datos 44 del motor de 5 codificación 14 más allá del punto de tiempo de detección de fase inactiva 34, reduciendo de ese modo todavía más la cantidad de bits transmitidos consumidos en total. Como se explicará en más detalle a continuación con relación a realizaciones más específicas, el motor de codificación 14 puede ser configurado para, al codificar la señal de audio de entrada, codificar predictivamente la señal de audio de entrada en coeficientes de predicción lineal y una señal de excitación con codificación por transformada de la señal de excitación y codificación de los coeficientes de 10 predicción lineal en la secuencia de datos 30 y 44, respectivamente. En la Figura 2 se muestra una posible implementación. Según la Figura 2, el motor de codificación 14 comprende un transformador 50, un corrector (shaper) de ruido del dominio de la frecuencia 52 y un cuantificador 54 los cuales están conectados en serie en el orden en que se mencionan entre una entrada de señal de audio 56 y una salida de secuencia de datos 58 del motor de codificación 14. Además, el motor de codificación 14 de la Figura 2 comprende un módulo de análisis de 15 predicción lineal 60 el cual está configurado para determinar coeficientes de predicción lineal a partir de la señal de audio 56 mediante respectivo ventaneo de análisis de porciones de la señal de audio y aplicando una autocorrelación a las porciones ventaneadas, o determinar una autocorrelación sobre la base de las transformadas en el dominio de la transformada de la señal de audio de entrada como salida mediante el transformador 50 mediante el uso de su espectro de potencia y aplicando una DFT inversa a ello de modo que se determine la 20 autocorrelación, con la realización de forma subsiguiente de la estimación LPC en base a la autocorrelación tal como mediante el uso de un algoritmo de (Wiener—) Levinson—Durbin. En base a los coeficientes de predicción lineal determinados por el módulo de análisis de predicción lineal 60, la secuencia de datos entregada en la salida 58 es alimentada con respectiva información sobre los LPCs, y el corrector de ruido del dominio de la frecuencia es controlado de modo que corrija espectralmente el espectrograma de la señal de audio en concordancia con una 25 función transferencia correspondiente a la función transferencia de un filtro de análisis de predicción lineal determinado por los coeficientes de predicción lineal entregados por el módulo 60. Se puede realizar una cuantificación de los LPCs para transmitirlos en la secuencia de datos, en el dominio LSP/LSF usando interpolación de modo que se reduzca la tasa de trasmisión en comparación con la tasa de análisis en el analizador 60. Además, la conversión de LPC a ponderación espectral realizada en el FDNS puede involucrar la aplicación de una ODFT 30 sobre los LPCs y la aplicación de los valores de ponderación resultantes a los espectros del transformador como divisor.
[0016] El cuantificador 54 cuantifica entonces los coeficientes de transformación del espectrograma espectralmente formado (aplanado). Por ejemplo, el transformador 50 usa una transformada lapped tal como una
35 MDCT para transferir la señal de audio desde el dominio del tiempo al dominio espectral, obteniendo de ese modo transformadas consecutivas correspondientes a porciones ventaneadas que se superponen de la señal de audio, las cuales después son formadas espectralmente mediante el corrector de ruido del dominio de la frecuencia 52 ponderando estas transformadas según la función de transferencia del filtro de análisis de LP. El espectrograma corregido puede ser interpretado como una señal de excitación y como tal se ilustra mediante la flecha de trazos 62, 40 el estimador de ruido de fondo 12 puede estar configurado para actualizar la estimación de ruido paramétrica mediante el uso de esta señal de excitación. Alternativamente, como está indicado mediante la flecha de trazos 62, el estimador de ruido de fondo 12 puede usar la representación de transformada lapped como salida mediante el transformador 50 como base para la actualización directamente, es decir, sin la corrección de ruido del dominio de la frecuencia mediante el corrector de ruido 52.
45
[0017] Más detalles relacionados con posibles implementaciones de los elementos mostrados en las Figuras 1 a 2 se pueden establecer a partir de las realizaciones subsiguientemente más detalladas y cabe destacar que todos estos detalles son individualmente transferibles a los elementos de las Figuras 1 y 2.
50 [0018] Sin embargo, antes de describir estas realizaciones más detalladamente, se hace referencia a la
Figura 3, la cual muestra que, adicionalmente o alternativamente, la actualización de estimación de ruido de fondo paramétrica se puede hacer del lado del decodificador. El decodificador de audio 80 de la Figura 3 está configurado para decodificar una secuencia de datos que entra en la entrada 82 del decodificador 80 de modo que reconstruya a partir de ella una señal de audio que va a ser entregada en una salida 84 del decodificador 80. La secuencia de 55 datos comprende al menos una fase activa 86 seguida por una fase inactiva 88. Internamente, el decodificador de audio 80 comprende un estimador de ruido de fondo 90, un motor de decodificación 92, un generador aleatorio paramétrico 94 y un generador de ruido de fondo 96. El motor de decodificación 92 está conectado entre la entrada 82 y la salida 84 y, de manera similar, la conexión en serie del proveedor 90, el generador de ruido de fondo 96 y el generador aleatorio paramétrico 94 están conectados entre la entrada 82 y la salida 84. El decodificador 92 está
configurado para reconstruir la señal de audio a partir de la secuencia de datos durante la fase activa, de modo que la señal de audio 98 como se entrega en la salida 84 comprende ruido y sonido útil en una calidad apropiada. El estimador de ruido de fondo 90 está configurado para determinar una estimación de ruido de fondo paramétrica en base a una representación de descomposición espectral de la señal de audio de entrada obtenida de la secuencia 5 de datos de modo que la estimación de ruido de fondo paramétrica describe espectralmente la envolvente espectral del ruido de fondo de la señal de audio de entrada. El generador aleatorio paramétrico 94 y el generador de ruido de fondo 96 están configurados para reconstruir la señal de audio durante la fase inactiva controlando el generador aleatorio paramétrico durante la fase inactiva con la estimación de ruido de fondo paramétrica.
10 [0019] Sin embargo, como está indicado mediante líneas de trazos en la Figura 3, pero no según la invención
reivindicada, el decodificador de audio 80 puede no contener el estimador 90. En cambio, la secuencia de datos puede tener, como se indica arriba, codificada en sí, una estimación de ruido de fondo paramétrica la cual describe espectralmente la envolvente espectral del ruido de fondo. En ese caso, el decodificador 92 puede estar configurado para reconstruir la señal de audio a partir de la secuencia de datos durante la fase activa, mientras que el generador
15 aleatorio paramétrico 94 y el generador de ruido de fondo 96 cooperan para que el generador 96 sintetice la señal de audio durante la fase inactiva controlando el generador aleatorio paramétrico 94 durante la fase inactiva 88 dependiendo de la estimación de ruido de fondo paramétrica.
[0020] Sin embargo, si el estimador 90 está presente, el decodificador 80 de la Figura 3 podría ser informado
20 sobre la entrada 106 de la fase inactiva 106 por medio de la secuencia de datos 88 tal como mediante el uso de una
bandera de inicio de inactividad. Entonces, el decodificador 92 podría proceder a continuar decodificando una porción alimentada adicional de forma preliminar 102 y el estimador de ruido de fondo podría aprender/estimar el ruido de fondo dentro de ese tiempo preliminar que sigue al instante de tiempo 106. Sin embargo, en concordancia con las realizaciones de arriba de las Figuras 1 y 2, es posible que el estimador de ruido de fondo 90 esté
25 configurado para actualizar continuamente la estimación de ruido de fondo paramétrica a partir de la secuencia de datos durante la fase activa.
[0021] El estimador de ruido de fondo 90 puede no estar conectado a la entrada 82 directamente sino vía el motor de decodificación 92 como se ilustra mediante la línea de trazos 100 de modo que se obtenga a partir del
30 motor de decodificación 92 alguna versión reconstruida de la señal de audio. En principio, el estimador de ruido de fondo 90 puede estar configurado para funcionar de modo muy similar al estimador de ruido de fondo 12, además del hecho de que el estimador de ruido de fondo 90 solo tiene acceso a la versión reconstruible de la señal de audio, es decir, que incluye la pérdida causada por cuantificación en el lado de codificación.
35 [0022] El generador aleatorio paramétrico 94 puede comprender uno o más generadores o pseudogeneradores de números aleatorios, la secuencia de valores entregada por el cual puede conformarse a una distribución estadística que puede ser fijada de forma paramétrica vía el generador de ruido de fondo 96.
[0023] El generador de ruido de fondo 96 está configurado para sintetizar la señal de audio 98 durante la fase
40 inactiva 88 controlando el generador aleatorio paramétrico 94 durante la fase inactiva 88 dependiendo de la
estimación de ruido de fondo paramétrica según se obtuvo del estimador de ruido de fondo 90. A pesar de que ambas entidades, 96 y 94, se muestran conectadas en serie, la conexión en serie no debe ser interpretada como limitación. Los generadores 96 y 94 podrían estar interconectados. De hecho, el generador 94 podría ser interpretado como siendo parte del generador 96.
45
[0024] Así, según una implementación ventajosa de la Figura 3, el modo de funcionamiento del decodificador de audio 80 de la Figura 3 puede ser del siguiente modo. Durante una fase activa 86, la entrada 82 está provista continuamente con una porción de secuencia de datos 102 la cual ha de ser procesada por el motor de decodificación 92 durante la fase activa 86. La secuencia de datos 104 que entra en la entrada 82 frena entonces la
50 transmisión de la porción de secuencia de datos 102 dedicada para el motor de decodificación 92 en algún instante de tiempo 106. Eso es, no hay otro cuadro de la porción de secuencia de datos en ese instante de tiempo 106 para decodificación por el motor 92. La señalización de la entrada de la fase inactiva 88 puede ser la perturbación de la transmisión de la porción de secuencia de datos 102, o bien puede ser señalizada mediante alguna información 108 dispuesta inmediatamente en el inicio de la fase inactiva 88.
55
[0025] En cualquier caso, la entrada de la fase inactiva 88 ocurre muy repentinamente, pero esto no es un problema ya que el estimador de ruido de fondo 90 tiene actualizada continuamente la estimación de ruido de fondo paramétrica durante la fase activa 86 sobre la base de la porción de secuencia de datos 102. Debido a esto, el estimador de ruido de fondo 90 puede proporcionar al generador de ruido de fondo 96 la versión más nueva de la
estimación de ruido de fondo paramétrica tan pronto como empieza en 106, la fase inactiva 88. Por consiguiente, a partir del instante 106 en adelante, el motor de decodificación 92 deja de entregar reconstrucción de señal de audio ya que el motor de decodificación 92 ya no es alimentado con una porción de secuencia de datos 102, pero el generador aleatorio paramétrico 94 es controlado por el generador de ruido de fondo 96 según una estimación de 5 ruido de fondo paramétrica tal que puede entregar una emulación del ruido de fondo en la salida 84 inmediatamente a continuación del instante de tiempo 106 de modo que siga sin interrupción la señal de audio reconstruida según lo entregado por el motor de decodificación 92 hasta el instante de tiempo 106. Se puede usar desvanecimiento cruzado para transitar desde el último cuadro reconstruido de la fase activa según lo entregado por el motor 92 al ruido de fondo según está determinado por la versión recientemente actualizada de la estimación de ruido de fondo 10 paramétrica.
[0026] Como el estimador de ruido de fondo 90 está configurado para actualizar continuamente la estimación de ruido de fondo paramétrica a partir de la secuencia de datos 104 durante la fase activa 86, el mismo puede ser configurado para distinguir entre un componente de ruido y un componente de señal útil dentro de la versión de la
15 señal de audio según lo reconstruido a partir de la secuencia de datos 104 en la fase activa 86 y para determinar la estimación de ruido de fondo paramétrica meramente a partir del componente de ruido en lugar del componente de señal útil. La manera en que el estimador de ruido de fondo 90 realiza esta distinción/separación corresponde a la manera delineada arriba con respecto al estimador de ruido de fondo 12. Por ejemplo, se puede usar la excitación o señal residual interna reconstruida a partir de la secuencia de datos 104 dentro del motor de decodificación 92.
20
[0027] Similar a la Figura 2, la Figura 4 muestra una posible implementación para el motor de decodificación 92. Según la Figura 4, el motor de decodificación 92 comprende una entrada 110 para recibir la porción de secuencia de datos 102 y una salida 112 para entregar la señal reconstruida dentro de la fase activa 86. Conectados en serie entre ellos, el motor de decodificación 92 comprende un descuantificador 114, un corrector de ruido del
25 dominio de la frecuencia 116 y un transformador inverso 118, los cuales están conectados entre la entrada 110 y la salida 112 en el orden en que se mencionan. La porción de secuencia de datos 102 que llega a la entrada 110 comprende una versión codificada de transformada de la señal de excitación, es decir, niveles de coeficientes de transformada que la representan, los cuales son alimentados a la entrada del descuantificador 114, así como también información sobre coeficientes de predicción lineal, cuya información es alimentada al corrector de ruido del 30 dominio de la frecuencia 116. El descuantificador 114 descuantifica la representación espectral de la señal de excitación y la remite al corrector de ruido del dominio de la frecuencia 116 el cual, a su vez, forma espectralmente el espectrograma de la señal de excitación (junto con el ruido de cuantificación plano) según una función transferencia que corresponde a un filtro de síntesis de predicción lineal, formando de ese modo ruido de cuantificación. En principio, el FDNS 116 de la Figura 4 actúa similar al FDNS de la Figura 2: Se extraen los LPCs de la secuencia de 35 datos y a continuación son sometidos a conversión de LPC a peso espectral, por ejemplo, aplicando una ODFT sobre los LPCs extraídos, aplicando a continuación las ponderaciones espectrales resultantes a los espectros descuantificados entrantes desde el descuantificador 114 como multiplicadores. El transformador 118 transfiere entonces la reconstrucción de señal de audio así obtenida desde el dominio espectral al dominio del tiempo y entre la señal de audio reconstruida así obtenida en la salida 112. El transformador inverso 118 puede usar una 40 transformada lapped tal como una IMDCT. Como se ilustra mediante la flecha de trazos 120, el espectrograma de la señal de excitación puede ser usado por el estimador de ruido de fondo 90 para la actualización de ruido de fondo paramétrica. Alternativamente, el espectrograma de la señal de audio en sí mismo puede ser usado como se indica mediante la flecha de trazos 122. Con respecto a la Figura 2 y a la Figura 4, cabe destacar que estas realizaciones para una implementación de los motores de codificación/decodificación no han de ser interpretadas como 45 restrictivas. También son factibles realizaciones alternativas. Asimismo, los motores de codificación/decodificación pueden ser un tipo códec multimodo donde las partes de las Figuras 2 y 4 asumen meramente responsabilidad para codificar/decodificar cuadros que tienen un modo de codificación de cuadro específico asociado con el mismo, mientras que otros cuadros son sometidos a otras partes de los motores de codificación/decodificación no mostrados en las Figuras 2 y 4. Tal otro modo de codificación de cuadro podría ser también un modo de codificación predictivo 50 que usa codificación de predicción lineal por ejemplo, pero con codificación en el dominio del tiempo en lugar de usar codificación de transformada. La Figura 5 muestra una realización más detallada del codificador de la Figura 1. En particular, el estimador de ruido de fondo 12 se muestra en más detalle en la Figura 5 según una realización específica. En concordancia con la Figura 5, el estimador de ruido de fondo 12 comprende un transformador 140, un FDNS 142, un módulo de análisis de LP 144, un estimador de ruido 146, un estimador de parámetros 148, un 55 medidor de estacionareidad 150, y un cuantificador 152. Algunos de los componentes recién mencionados pueden estar total o parcialmente en el motor de codificación 14. Por ejemplo, el transformador 140 y el transformador 50 de la Figura 2 pueden ser iguales, los módulos de análisis de LP 60 y 144 pueden ser iguales, los FDNSs 52 y 142 pueden ser iguales y/o los cuantificadores 54 y 152 pueden ser implementados en un módulo.
[0028] La Figura 5 muestra también un empaquetador de serie de bits en el tiempo (bitstream packager) 154
el cual asume una responsabilidad pasiva para la operación del conmutador 22 en la Figura 1. En particular, el VAD como el detector 16 del codificador de la Figura 5 es llamado de forma ejemplar, simplemente decide qué camino se debe tomar, ya sea el camino de la codificación de audio 14 o el camino del estimador de ruido de fondo 12. Para 5 ser más preciso, el motor de codificación 14 y el estimador de ruido de fondo 12 están conectados ambos en paralelo entre la entrada 18 y el empaquetador 154, en el que dentro del estimador de ruido de fondo 12, el transformador 140, el FDNS 142, el modulo de análisis de LP 144, el estimador de ruido 146, el estimador de parámetros 148, y el cuantificador 152, están conectados en serie entre la entrada 18 y el empaquetador 154 (en el orden en que se mencionan), mientras que el módulo de análisis de LP 144 está conectado entre la entrada 18 y 10 una entrada de LPC del módulo FDNS 142 y una entrada adicional del cuantificador 153, respectivamente, y un medidor de estacionareidad 150 está conectado adicionalmente entre el módulo de análisis de LP 144 y una entrada de control del cuantificador 152. El empaquetador de serie de bits en el tiempo 154 realiza simplemente el empaquetado si recibe una entrada procedente de cualquiera de las entidades conectadas a sus entradas.
15 [0029] En el caso de transmitir cuadros cero, es decir, durante la fase de interrupción de la fase inactiva, el
detector 16 informa al estimador de ruido de fondo 12, en particular al cuantificador 152, que pare de procesar y que no envie nada al empaquetador de serie de bits en el tiempo 154.
[0030] Según la Figura 5, el detector 16 puede funcionar en el dominio del tiempo y/o de la 20 transformada/espectral de modo que detecte fases activas/inactivas.
[0031] El modo de funcionamiento del codificador de la Figura 5 es el siguiente. Como se irá aclarando, el codificador de la Figura 5 puede mejorar la calidad de ruido de comodidad tal como ruido estacionario en general, tal como ruido de automóvil, ruido de charla con muchos participantes, algunos instrumentos musicales y, en particular,
25 aquellos que tienen muchos armónicos tales como gotas de lluvia.
[0032] En particular, el codificador de la Figura 5 es para controlar un generador aleatorio en el lado de decodificación de modo que excite coeficientes de transformada de tal forma que sea emulado el ruido detectado del lado de codificación. Por consiguiente, antes de discutir la funcionalidad del codificador de la Figura 5
30 adicionalmente, se hace una breve referencia a la Figura 6 que muestra una posible realización para un decodificador el cual podría emular el ruido de comodidad en el lado de decodificación según instrucción del codificador de la Figura 5. Más en general, la Figura 6 muestra una posible implementación de un decodificador que se ajusta al codificador de la Figura 1.
35 [0033] En particular, el decodificador de la Figura 6 comprende un motor de decodificación 160 con el fin de decodificar la porción de secuencia de datos 44 durante las fases activas y una parte generadora de ruido de comodidad 162 para generar el ruido de comodidad en base a la información 32 y 38 proporcionada en la secuencia de datos concerniente a las fases inactivas 28. La parte generadora de ruido de comodidad 162 comprende un generador aleatorio paramétrico 164, un FDNS 166 y un transformador (o sintetizador) inverso 168. Los módulos 40 164 y 168 están conectados en serie entre sí de modo que en la salida del sintetizador 168 resulta el ruido de comodidad, el cual llena el espacio entre la señal de audio reconstruida como es entregada por el motor de decodificación 160 durante las fases inactivas 28, como se ha tratado con respecto a la Figura 1. Los procesadores FDNS 166 y transformador inverso 168 pueden ser parte del motor de decodificación 160. En particular, pueden ser iguales al FDNS 116 y 118 de la Figura 4, por ejemplo. El modo de funcionamiento y la funcionalidad de los módulos 45 individuales de las Figuras 5 y 6 quedarán más claros a partir de la siguiente discusión.
[0034] En particular, el transformador 140 descompone espectralmente la señal de entrada en un
espectrograma tal como mediante el uso de una transformada lapped. Un estimador de ruido 146 está configurado para determinar parámetros de ruido a partir de ello. De forma concurrente, el detector de actividad de voz o sonido 50 16 evalúa los rasgos establecidos a partir de la señal de entrada de modo que se detecte si tiene lugar una transición desde una fase activa a una fase inactiva o viceversa. Estos rasgos usados por el detector 16 pueden ser en forma de detector de componente transitorio/arranque, medición de tonalidad, y medición residual de LPC. El detector de componente transitorio/arranque puede ser usado para detectar ataque (aumento repentino de energía) o el comienzo de voz activa en una ambiente limpio o señal limpia de ruido; la medición de tonalidad puede ser 55 usada para distinguir ruido de fondo útil tal como una sirena, teléfono sonando y música; residual LPC puede ser usado para obtener una indicación de la presencia de voz en la señal. Basado en estos rasgos, el detector 16 puede dar aproximadamente una información sobre si el cuadro actual puede ser clasificado, por ejemplo, como voz, silencio, música o ruido.
[0035] Mientras el estimador de ruido 146 puede ser responsable de distinguir el ruido de dentro del espectrograma del componente de señal útil allí dentro, tal como se propuso [R. Martin, Estimación de Densidad Espectral de Potencia de Ruido Basada en Alisamiento Óptimo y Estadística de Mínimos (Noise Power Spectral Density Estimation Based on Optimal Smoothing and Minimum Statistics), 2001], el estimador de parámetros 148
5 puede ser responsable de analizar estadísticamente los componentes de ruido y determinar parámetros para cada componente espectral, por ejemplo, basado en el componente de ruido.
[0036] El estimador de ruido 146 puede estar configurado, por ejemplo, para buscar mínimos locales en el espectrograma y el estimador de parámetros 148 puede estar configurado para determinar la estadística de ruido en
10 estas porciones suponiendo que los mínimos del espectrograma son principalmente un atributo de ruido de fondo más que sonido de primer plano.
[0037] Como una nota intermedia se pone énfasis en que también es posible realizar la estimación mediante el estimador de ruido sin el FDNS 142 ya que los mínimos sí ocurren en el espectro no corregido. La mayor parte de
15 la descripción de la Figuras 5 quedaría igual. El cuantificador de parámetros 152 puede ser configurado a su vez para parametrizar los parámetros estimados por el estimador de parámetros 148. Por ejemplo, los parámetros pueden describir una amplitud media y un momento de primer orden, u orden más alto, de una distribución de valores espectrales de dentro del espectrograma de la señal de entrada en cuanto al componente de ruido se refiere. Para ahorrar cantidad de bits transmitidos, los parámetros pueden ser remitidos a la secuencia de datos para 20 inserción dentro de la misma dentro de cuadros SID en una resolución espectral más baja que la resolución espectral proporcionada por el transformador 140.
[0038] El medidor de estacionareidad 150 puede estar configurado para establecer una medida de estacionareidad para la señal de ruido. El estimador de parámetros 148 puede usar a su vez la medida de
25 estacionareidad de modo que se decida si una actualización de parámetro debe ser iniciada o no enviando otro cuadro SID tal como el cuadro 38 de la Figura 1 o para influenciar la manera en que se estiman los parámetros.
[0039] El módulo 152 cuantifica los parámetros calculados por el estimador de parámetros 148 y el análisis de LP 144 y envía las señales al lado de decodificación. En particular, antes de cuantificar, los componentes
30 espectrales pueden ser agrupados en grupos. Tal agrupamiento puede ser seleccionado según aspectos psicoacústicos tal como conformando la escala de Bark o similar. El detector 16 informa al cuantificador 152 si se necesita hacer la cuantificación o no. En el caso de no ser necesaria la cuantificación, deben seguir cuadros cero. Cuando se transfiere la descripción a un escenario concreto de conmutación desde una fase activa a una fase inactiva, entonces los módulos de la Figura 5 actúan del siguiente modo.
35
[0040] Durante una fase activa, el motor de codificación 14 sigue codificando la señal de audio vía el empaquetador en series de bits en el tiempo. La codificación puede realizarse a modo de cuadros. Cada cuadro de la secuencia de datos puede representar una porción/intervalo de tiempo de la señal de audio. El codificador de audio 14 puede estar configurado para codificar todos los cuadros que usan codificación LPC. El codificador de
40 audio 14 puede estar configurado para codificar algunos cuadros como se describe con respecto a la Figura 2, llamado modo de codificación de cuadro TCX, por ejemplo. Los restantes pueden ser codificados mediante el uso de codificación de predicción lineal código—excitado (code-excited linear prediction) (CELP) tal como modo de codificación ACELP (algebraic-code-excited linear prediction), por ejemplo. Esto es, la porción 44 de la secuencia de datos puede comprender una actualización continua de coeficientes de LPC mediante el uso de alguna tasa de 45 transmisión de LPC que puede ser igual o mayor que la tasa de cuadro.
[0041] En paralelo, el estimador de ruido 146 inspecciona los espectros aplanados LPC (filtrado por análisis de LPC) de modo que se identifiquen los mínimos kmin de dentro del espectrograma TCX representado por la secuencia de estos espectros. Por supuesto, estos mínimos pueden variar con el tiempo t, es decir kmin(t). En todo
50 caso, los mínimos pueden formar trazas en la salida del espectrograma mediante FDNS 142 y de este modo, para cada espectro consecutivo i en el instante ti, el mínimo puede ser asociable con los mínimos en espectro anterior y siguiente, respectivamente.
[0042] El estimador de parámetros establece entonces parámetros de estimación de ruido de fondo a partir 55 de eso tal como, por ejemplo, una tendencia central (valor medio, mediana o similar) m y/o dispersión (desviación
estándar, varianza o similar) d para diferentes componentes o bandas espectrales. La derivación puede involucrar análisis estadístico de los coeficientes espectrales consecutivos de los espectros del espectrograma en los mínimos, produciendo de ese modo m y d para cada mínimo en kmin. La interpolación a lo largo de la dimensión espectral entre los mínimos de espectro anteriormente mencionados puede realizarse de modo que se obtenga m y d para
otros componentes o bandas espectrales predeterminados. La resolución espectral para la derivación y/o interpolación de la tendencia central (promedio medio) y la derivación de la dispersión (desviación estándar, varianza o similar) puede diferir.
5 [0043] Los parámetros que se acaban de mencionar son actualizados continuamente para cada salida de
espectro por el FDNS 142, por ejemplo.
[0044] Tan pronto como el detector 16 detecta la entrada de una fase inactiva, el detector 16 puede informar al motor 14 por consiguiente para que no sean remitidos más cuadros activos al empaquetador 154. Sin embargo, el
10 cuantificador 152 entrega los parámetros de ruido estadísticos que se acaban de mencionar en un primer cuadro SID dentro de la fase inactiva, en cambio. El primer cuadro SID puede comprender o no, una actualización de los LPCs. Si hay una actualización de LPC presente, la misma puede ser conducida dentro de la secuencia de datos en el cuadro SID 32 en el formato usado en la porción 44, es decir, durante la fase activa, tal como mediante el uso de cuantificación en el dominio LSF/LSP, o de forma diferente, tal como mediante el uso de ponderaciones espectrales 15 correspondientes al análisis de LPC o a la función transferencia del filtro de síntesis de LPC tal como los que hubieran sido aplicados por el FDNS 142 dentro del marco de trabajo del motor de codificación 14 al proceder con una fase activa.
[0045] Durante la fase inactiva, el estimador de ruido 146, el estimador de parámetros 148 y el medidor de 20 estacionareidad 150 siguen cooperando de modo que se mantenga actualizado el lado de decodificación sobre
cambios en el ruido de fondo. En particular, el medidor 150 verifica la ponderación espectral definida por los LPCs, de modo que se identifiquen cambios y se informe al estimador 148 sobre cuándo un cuadro SID debe ser enviado al decodificador. Por ejemplo, el medidor 150 podría activar el estimador por consiguiente siempre que la medida anteriormente mencionada de estacionareidad indique un grado de fluctuación en los LPCs que exceda una cierta 25 magnitud. Adicionalmente o alternativamente, el estimador podría ser disparado para enviar los parámetros actualizados regularmente. Entre estos cuadros de actualización SID 40 no se enviaría nada en las secuencias de datos, es decir, "cuadros cero".
[0046] En el lado del decodificador, durante la fase activa, el motor de decodificación 160 asume la 30 responsabilidad de reconstrucción de la señal de audio. Tan pronto como empieza la fase inactiva, el generador
aleatorio de parámetros adaptivos 164 usa los parámetros del generador aleatorio descuantificados enviados durante la fase inactiva dentro de la secuencia de datos desde el cuantificador de parámetros 150, para generar componentes espectrales aleatorios, formando de ese modo un espectrograma aleatorio el cual es formado espectralmente dentro del procesador de energía espectral 166 con el sintetizador 168 realizando entonces una 35 retransformación desde el dominio espectral al dominio del tiempo. Para la formación espectral dentro del FDNS 166, se pueden usar, ya sea los coeficientes LPC más recientes procedentes de los cuadros activos más recientes, o bien la ponderación espectral que va a ser aplicada por el FDNS 166 puede ser derivada de allí mediante extrapolación, o bien el cuadro SID 32 en sí mismo puede conducir la información. Mediante esta medida, en el inicio de la fase inactiva, el FDNS 166 continúa ponderando espectralmente el espectro entrante según una función de 40 trasferencia de un filtro de síntesis de LPC, con el LPS que define el filtro de síntesis de LPC que se deriva de la porción de datos activos 44 o del cuadro SID 32. Sin embargo, con el inicio de la fase inactiva, el espectro que va a ser corregido por el FDNS 166 es el espectro generado aleatoriamente en lugar de una transformación codificada como en caso del modo de codificación de cuadro TCX. Asimismo, la corrección espectral aplicada en 166 es actualizada meramente de forma discontinua mediante el uso de los cuadros SID 38. Se podría realizar una 45 interpolación o un debilitamiento para conmutar gradualmente desde una definición de corrección espectral a la siguiente durante las fases de interrupción 36.
[0047] Como se muestra en la Figura 6, el generador aleatorio paramétrico adaptivo 164 adicionalmente puede, opcionalmente, usar los coeficientes de transformada descuantificados como están contenidos dentro de las
50 porciones más recientes de la última fase activa en la secuencia de datos, a saber, dentro de la porción de secuencia de datos 44 inmediatamente antes de la entrada de la fase inactiva. Por ejemplo, el significado puede ser entonces que se realiza una transición suave desde el espectrograma dentro de la fase activa al espectrograma aleatorio dentro de la fase inactiva.
55 [0048] Con referencia brevemente de nuevo a las Figuras 1 y 3, se deduce de las realizaciones de las
Figuras 5 y 6 (y la Figura 7 explicada subsiguientemente) que la estimación de ruido de fondo paramétrica como es generada dentro del codificador y/o decodificador, puede comprender información estadística sobre una distribución de valores espectrales temporalmente consecutivos para distintas porciones espectrales tal como bandas de Bark o diferentes componentes espectrales. Para cada porción espectral de ese tipo, por ejemplo, la información estadística
puede contener una medida de dispersión. La medida de dispersión, por consiguiente, sería definida en la información espectral de una manera resuelta espectralmente, a saber, muestreada en/para las porciones espectrales. La resolución espectral, es decir, el número de medidas para dispersión y tendencia central extendidos a lo largo del eje espectral, pueden diferir entre, por ejemplo, medida de dispersión y la opcionalmente presente 5 media o medida de tendencia central. La información estadística está contenida dentro de los cuadros SID. Se puede referir a un espectro corregido tal como el espectro filtrado de análisis LPC (es decir, LPC aplanado) tal como un espectro de MDCt corregido el cual permite síntesis sintetizando un espectro aleatorio según el espectro estadístico y des-corrigiendo el mismo según una función transferencia del filtro de síntesis de LPC. En ese caso, la información de corrección espectral puede estar presente dentro de los cuadros SID, a pesar de que puede no 10 utilizarse en el primer cuadro SID 32, por ejemplo. Sin embargo, como se mostrará más adelante, esta información estadística, alternativamente, puede referirse a un espectro no corregido. Asimismo, en lugar de usar una representación del espectro de valores reales tal como una MDCT, se puede usar un espectro de banco de filtros de valores complejos tal como espectro QMF de la señal de audio. Por ejemplo, se puede usar el espectro QMF de la señal de audio de forma no corregida y puede describirse de forma estadística mediante la información estadística 15 en cuyo caso no hay corrección espectral más que la contenida dentro de la información estadística en sí misma.
[0049] De forma similar a la relación entre la realización de la Figura 3 con respecto a la realización de la Figura 1, la Figura 7 muestra una posible implementación del decodificador de la Figura 3. Como se muestra mediante el uso de los mismos signos de referencia que en la Figura 5, el decodificador de la Figura 7 puede
20 comprender un estimador de ruido 146, un estimador de parámetros 148 y un medidor de estacionareidad 150, los cuales funcionan de manera similar a los mismos elementos que están en la Figura 5, con el estimador de ruido 146 de la Figura 7 que sin embargo, opera sobre el espectrograma transmitido y descuantificado tal como 120 o 122 en la Figura 4. El estimador de parámetros 146 opera entonces como el discutido en la Figura 5. Lo mismo aplica con respecto al medidor de estacionareidad 148, el cual opera sobre la energía y los valores espectrales o datos de LPC 25 revelando el desarrollo temporal del espectro del filtro de análisis de LPC (o del filtro de síntesis de LPC) según es transmitido y descuantificado vía/desde la secuencia de datos durante la fase activa. Mientras los elementos 146, 148 y 150 actúan como el estimador de ruido de fondo 90 de la Figura 3, el decodificador de la Figura 7 comprende también un generador aleatorio paramétrico adaptivo 164 y un FDNS 166 así como también un transformador inverso 168 y ellos están conectados en serie entre sí como en la Figura 6, de modo que se entregue el ruido de 30 comodidad en la salida del sintetizador 168. Los módulos 164, 166, y 168 actúan como el generador de ruido de fondo 96 de la Figura 3 con el módulo 164 que asume la responsabilidad de la funcionalidad del generador aleatorio paramétrico 94.
[0050] El generador aleatorio paramétrico adaptivo 94 o 164 genera componentes espectrales generados 35 aleatoriamente del espectrograma según los parámetros determinados por el estimador de parámetros 148 el cual a
su vez es accionado mediante el uso de la medida de estacionareidad entregada por el medidor de estacionareidad 150. El procesador 166 corrige entonces espectralmente el espectrograma generado de este modo con el transformador inverso 168, realizando a continuación la transición desde el dominio espectral al dominio del tiempo. Cabe destacar que cuando durante la fase inactiva 88 el decodificador está recibiendo la información 108, el 40 estimador de ruido de fondo 90 está realizando una actualización de las estimaciones de ruido seguida por algún medio de interpolación. Por lo demás, si se reciben cuadros cero, simplemente hace el procesamiento tal como interpolación y/o desvanecimiento.
[0051] Sintetizando las Figuras 5 a 7, estas realizaciones muestran que es técnicamente posible aplicar un 45 generador aleatorio controlado 164 para excitar los coeficientes TCX, lo cuales pueden ser valores reales tal como
en MDCT o valores complejos como en FFT. También podría ser ventajoso aplicar el generador aleatorio 164 sobre grupos de coeficientes usualmente conseguidos a través de bancos de filtros.
[0052] El generador aleatorio 164 es controlado preferiblemente de tal forma que el mismo modele el tipo de 50 ruido lo más fielmente posible. Esto se podría llevar a cabo si el ruido blando es conocido de antemano. Algunas
aplicaciones pueden permitirlo. En muchas aplicaciones realistas donde un sujeto puede encontrar diferentes tipos de ruido, se requiere un procedimiento adaptivo como se muestra en las Figuras 5 a 7. Por consiguiente, se usa un generador aleatorio de parámetros adaptivo 164, el cual podría ser definido brevemente como g = f (x), donde x = (x1, x2, ...) es un conjunto de parámetros de generador aleatorio proporcionado por los estimadores de parámetros 55 146 y 150, respectivamente.
[0053] Para hacer el generador aleatorio de parámetros adaptivo, el estimador de parámetros de generador aleatorio 146 controla adecuadamente el generador aleatorio. Se puede incluir compensación de deslizamiento para compensar los casos donde se considera que los datos son estadísticamente insuficientes. Esto se hace para
generar un modelo estadísticamente apareado del ruido basado en los cuadros pasados y siempre actualizará los parámetros estimados. Un ejemplo se da cuando se supone que el generador aleatorio 164 genera un ruido Gaussiano. En este caso, por ejemplo, solo se pueden necesitar los parámetros media y varianza y se puede calcular un deslizamiento y aplicarlo a esos parámetros. Un procedimiento más avanzado puede manejar cualquier 5 tipo de ruido o distribución y los parámetros no son necesariamente los momentos de una distribución.
[0054] Para el ruido no estacionario, se necesita tener una medida de estacionareidad y entonces se puede usar un generador aleatorio paramétrico menos adaptivo. La medida de estacionareidad determinada por el medidor 148 puede ser derivada de la forma espectral de la señal de entrada mediante el uso de diversos procedimientos
10 como por ejemplo, la medida de distancia de Itakura, la medida de distancia de Kullback—Leibler, etc.
[0055] Para manejar la naturaleza discontinua de actualizaciones de ruido enviadas a través de cuadros SID tal como se ilustra mediante 38 en la Figura 1, usualmente se envía información adicional tal como la energía y la forma espectral del ruido. Esta información es útil para generar el ruido en el decodificador teniendo una transición
15 suave incluso durante un período de discontinuidad dentro de la fase inactiva. Finalmente, se pueden aplicar diversas técnicas de alisamiento o filtrado para ayudar a mejorar la calidad del emulador de ruido de comodidad.
[0056] Como ya se ha señalado arriba, las Figuras 5 y 6 por un lado, y la Figura 7 por otro, pertenecen a diferentes escenarios. En un escenario que corresponde a las Figuras 5 y 6, la estimación de ruido de fondo
20 paramétrica se hace en el codificador basado en la señal de entrada procesada y después los parámetros son transmitidos al decodificador. La Figura 7 corresponde al otro escenario donde el decodificador puede ocuparse de la estimación de ruido de fondo paramétrica basado en los cuadros pasados recibidos dentro de la fase activa. El uso de un detector de actividad de voz/señal o estimador de ruido puede ser beneficioso para ayudar a extraer componentes de ruido incluso durante voz activa, por ejemplo.
25
[0057] Entre los escenarios mostrados en las Figuras 5 a 7, el escenario de la Figura 7 puede ser preferido ya que este escenario resulta en que se transmite una menor cantidad de bits transmitidos. El escenario de las Figuras 5 y 6 sin embargo, tiene la ventaja de tener a disposición más precisa estimación de ruido.
30 [0058] Todas las realizaciones anteriores podrían ser combinadas con técnicas de extensión de ancho de
banda tal como replicación de banda espectral (sBr), a pesar de que en general se puede usar extensión de ancho de banda.
[0059] Para ilustrar esto, véase la Figura 8. La Figura 8 muestra módulos mediante los cuales los 35 codificadores de las Figuras 1 y 5 podrían ser extendidos para realizar codificación paramétrica en relación con una
porción de más alta frecuencia de la señal de entrada. En particular, según la Figura 8, una señal de audio de entrada del dominio del tiempo es descompuesta espectralmente mediante un banco de filtros de análisis 200 tal como un banco de filtros de análisis QMF como se muestra en la Figura 8. Las realizaciones anteriores de las Figuras 1 y 5 solo serían aplicadas entonces a una porción de frecuencia más baja de la descomposición espectral 40 generada por el banco de filtros 200. Para llevar información sobre la porción de frecuencia más alta al lado del decodificador, también se usa codificación paramétrica. Con este fin, un codificador de replicación de banda espectral regular 202 está configurado para parametrizar la porción de frecuencia más alta durante fases activas y alimentar información sobre ello en la forma de información de replicación de banda espectral dentro de la secuencia de datos al lado de decodificación. Un conmutador 204 puede ser proporcionado entre la salida del banco de filtros 45 QMF 200 y la entrada del codificador de replicación de banda espectral 202 para conectar la salida del banco de filtros 200 con una entrada de un codificador de replicación de banda espectral 206 conectado en paralelo con el codificador 202 de modo que asuma la responsabilidad de la extensión de ancho de banda durante fases inactivas. Esto es, el conmutador 204 puede ser controlado como el conmutador 22 de la Figura 1. Como se describirá con más detalle a continuación, el módulo de codificador de replicación de banda espectral 206 puede estar configurado 50 para funcionar de manera similar al codificador de replicación de banda espectral 202: ambos pueden estar configurados para parametrizar la envolvente espectral de la señal de audio de entrada dentro de la porción de frecuencia más alta, es decir, la porción de frecuencia más alta restante no sometida a codificación central por el motor de codificación, por ejemplo. Sin embargo, el módulo de codificador de replicación de banda espectral 206 puede usar una mínima resolución de tiempo/frecuencia a la cual la envolvente espectral es parametrizada y 55 conducida dentro de la secuencia de datos, mientras el codificador de replicación de banda espectral 202 puede estar configurado para adaptar la resolución de tiempo/frecuencia a la señal de audio de entrada dependiendo de las ocurrencias de transitorios dentro de la señal de audio.
[0060] La Figura 9 muestra una implementación posible del módulo de codificación de extensión de ancho de
banda 206. Un fijador de rejilla de tiempo/frecuencia 208, un calculador de energía 210 y un codificador de energía 212 están conectados en serie entre sí entre una entrada y una salida del módulo de codificación 206. El fijador de rejilla de tiempo/frecuencia 208 puede estar configurado para fijar la resolución de tiempo/frecuencia en la cual se determina la envolvente de la porción de frecuencia más alta. Por ejemplo, una mínima resolución de 5 tiempo/frecuencia permitida es usada continuamente por el módulo de codificación 206. El calculador de energía 210 puede determinar entonces la energía de la porción de frecuencia más alta del espectrograma entregado por el banco de filtros 2'00 dentro de la porción de frecuencia más alta en baldosas de tiempo/frecuencia correspondientes a la resolución de tiempo/frecuencia, y el codificador de energía 212 puede usar codificación de entropía, por ejemplo, para insertar las energías calculadas por el calculador 210 en la secuencia de datos 40 (véase la Figura 1) 10 durante las fases inactivas tal como dentro de cuadros SID, tal como el cuadro SID 38.
[0061] Cabe destacar que la información de extensión de ancho de banda generada según las realizaciones de las Figuras 8 y 9 también puede ser usada en conexión con usar un decodificador según cualquiera de las realizaciones descritas arriba, tal como las Figuras 3, 4 y 7.
15
[0062] De este modo, las Figuras 8 y 9 aclaran que la generación de ruido de comodidad como se explicó con respecto a las Figuras 1 a 7, también puede ser usada en conexión con replicación de banda espectral. Por ejemplo, los codificadores y decodificadores de audio descritos arriba pueden operar en diferentes modos de operación, entre los cuales algunos comprenden replicación de banda espectral y algunos no. Los modos de
20 operación de banda súper ancha por ejemplo, podrían involucrar replicación de banda espectral. En cualquier caso, las realizaciones de arriba de las Figuras 1 a 7 que muestran ejemplos para generar ruido de comodidad pueden ser combinadas con técnicas de extensión de ancho de banda de la manera descrita con respecto a las Figuras 8 y 9. El módulo de codificación de replicación de banda espectral 206 que es responsable de la extensión de ancho de banda durante las fases inactivas puede estar configurado para operar sobre una muy baja resolución de tiempo y 25 frecuencia. Comparado con el procesamiento de replicación de banda espectral regular, el codificador 206 puede operar en una resolución de frecuencia diferente lo cual acarrea una tabla de banda de frecuencia adicional con resolución de muy baja frecuencia junto con filtros de alisamiento IIR en el decodificador para toda banda de factor de escala de generación de ruido de comodidad que interpola los factores de escala de energía aplicados en el ajustador de envolvente durante las fases inactivas. Como se acaba de mencionar, la rejilla de tiempo/frecuencia 30 puede estar configurada para corresponder a una resolución temporal lo más baja posible.
[0063] Esto es, la codificación de extensión de ancho de banda puede ser realizada de modo diferente en QMF o dominio espectral dependiendo del silencio o fase activa que esté presente. En la fase activa, es decir, durante cuadros activos, se lleva a cabo codificación SBR regular por medio del codificador 202, dando por resultado
35 una secuencia de datos SBR normal que acompaña a las secuencias de datos 44 y 102, respectivamente. En las fases inactivas o durante cuadros clasificados como cuadros SID, solo se puede extraer información acerca de la envolvente espectral, representada como factores de escala de energía, mediante la aplicación de una rejilla de tiempo/frecuencia que exhibe una muy baja resolución de frecuencia y, por ejemplo, la resolución de tiempo más baja posible. Los factores de escala resultantes podrían ser codificados eficientemente mediante el codificador 212 y 40 escritos a la secuencia de datos. En cuadros cero o durante fases de interrupción 36, no se puede escribir información lateral a la secuencia de datos mediante el módulo de codificación de replicación de banda espectral 206 y por lo tanto no se puede llevar a cabo ningún cálculo de energía mediante el calculador 210.
[0064] De conformidad con la Figura 8, la Figura 10 muestra una posible extensión de las realizaciones de 45 decodificador de las Figuras 3 y 7 a técnicas de codificación de extensión de ancho de banda. Para ser más
precisos, la Figura 10 muestra una posible realización de un decodificador de audio según la presente solicitud. Un decodificador por núcleo 92 está conectado en paralelo con un generador de ruido de comodidad, estando indicado el generador de ruido de comodidad con el signo de referencia 220 y comprendiendo, por ejemplo, el módulo de generación de ruido 162 o los módulos 90, 94 y 96 de la Figura 3. Un conmutador 222 se muestra como que 50 distribuye los cuadros dentro de la secuencia de datos 104 y 30 respectivamente, sobre el decodificador por núcleo 92 o el generador de ruido de comodidad 220 dependiendo del tipo de cuadro, a saber, si el cuadro concierne o pertenece a una fase activa, o concierne o pertenece a una fase inactiva tal como cuadros SID o cuadros cero que conciernen a fases de interrupción. Las salidas del decodificador por núcleo 92 y del generador de ruido de comodidad 220 se conectan a una entrada de un decodificador de extensión de ancho de banda 224, la salida del 55 cual revela la señal de audio reconstruida.
[0065] La Figura 11 muestra una realización más detallada de una posible implementación de un decodificador de extensión de ancho de banda 224.
[0066] Como se muestra en la Figura 11, el decodificador de extensión de ancho de banda 224 según la realización de la Figura 11, comprende un entrada 226 para recibir la reconstrucción del dominio del tiempo de la porción de baja frecuencia de la señal de audio completa que va a ser reconstruida. Es la entrada 226 que conecta el decodificador de extensión de ancho de banda 224 con las salidas del decodificador por núcleo 92 y el generador
5 de ruido de comodidad 220 de modo que la entrada del dominio del tiempo en la entrada 226 pueda ser la porción de baja frecuencia reconstruida de una señal de audio que comprende tanto ruido como componente útil, o bien el ruido de comodidad generado para puentear el tiempo entre fases activas.
[0067] Como de conformidad con la realización de la Figura 11, el decodificador de extensión de ancho de 10 banda 224 está construido para realizar una replicación de ancho de banda espectral, el decodificador se llama
decodificador SBR en lo sucesivo. Con respecto a las Figuras 8 a 10, sin embargo, se enfatiza que estas realizaciones no están restringidas a replicación de ancho de banda espectral. Más bien, también se puede usar una manera alternativa, más general, de extensión de ancho de banda, en relación con estas realizaciones.
15 [0068] Además, el decodificador SBR 224 de la Figura 11 comprende una salida del dominio del tiempo 228
para entregar la señal de audio reconstruida, es decir, o bien en fases activas o bien en fases inactivas. Entre la entrada 226 y la salida 228 del decodificador SBR 224, están, conectados en serie en el orden en que se mencionan, un descomponedor espectral 230 el cual puede ser, como se muestra en la Figura 11, un banco de filtros de análisis tal como un banco de filtros de análisis QMF, un generador de HF 232, un ajustador de envolvente 20 234, y un convertidor del dominio espectral al tiempo 236 el cual puede estar, como se muestra en la Figura 11, realizado como un banco de filtros de síntesis tal como un banco de filtros de síntesis QMF.
[0069] Los módulos 230 a 236 funcionan del siguiente modo. El descomponedor espectral 230 descompone espectralmente la señal de entrada del dominio del tiempo de modo que se obtenga una porción de baja frecuencia
25 reconstruida. El generador de HF 232 genera una porción de réplica de alta frecuencia basado en porción de baja frecuencia reconstruida y el ajustador de envolvente 234 forma o corrige espectralmente la réplica de alta frecuencia mediante el uso de una representación de una envolvente espectral de la porción de alta frecuencia como es llevada por medio de la secuencia de datos SBR y proporcionada por módulos todavía no discutidos pero mostrados en la Figura 11 arriba del ajustador de envolvente 234. Así, el ajustador de envolvente 234 ajusta la envolvente de la 30 porción de réplica de alta frecuencia según la representación de rejilla de tiempo/frecuencia de la envolvente de alta frecuencia transmitida, y remite la porción de alta frecuencia así obtenida al convertidor del dominio espectral a temporal 236 para una conversión del espectro de frecuencia completo, es decir, porción de alta frecuencia formada espectralmente junto con la porción de baja frecuencia reconstruida, a la señal del dominio del tiempo reconstruida en la salida 228.
35
[0070] Como ya se ha mencionado más arriba con respecto a las Figuras 8 a 10, la envolvente espectral de porción de alta frecuencia puede ser llevada dentro de la secuencia de datos en la forma de factores de escala de energía y el decodificador SBR 224 comprende una entrada 238 para recibir esta información sobre la envolvente espectral de porciones de alta frecuencia. Como se muestra en la Figura 11, en el caso de fases activas, es decir,
40 cuadros activos presentes en la secuencia de datos durante fases activas, las entradas 238 pueden estar conectadas directamente a la entrada de envolvente espectral del ajustador de envolvente 234 vía un respectivo conmutador 240. Sin embargo, el decodificador SBR 224 comprende adicionalmente un combinador de factor de escala 242, un almacenamiento de datos de factor de escala 244, una unidad filtradora de interpolación 246, tal como una unidad filtradora IIR, y un ajustador de ganancia 248. Los módulos 242, 244, 246 y 248 están conectados 45 en serie entre sí entre 238 y la entrada de envolvente espectral del ajustador de envolvente 234 con el conmutador 240 que está conectado entre el ajustador de ganancia 248 y el ajustador de envolvente 234 y un conmutador adicional 250 que está conectado entre el almacenamiento de datos de factor de escala 244 y la unidad filtradora 246. El conmutador 250 está configurado para conectar este almacenamiento de datos de factor de escala 244 con la entrada de la unidad filtradora 246, o bien un restaurador de datos de factor de escala 252. En el caso de cuadros 50 SID durante fases inactivas — y opcionalmente en casos de cuadros activos para los cuales es aceptable una representación no detallada de la envolvente espectral de porción de alta frecuencia — los conmutadores 250 y 240 conectan la secuencia de los módulos 242 a 248 entre la entrada 238 y el ajustador de envolvente 234. El combinador de factor de escala 242 adapta la resolución de frecuencia en la cual ha sido transmitida la envolvente espectral de porciones de alta frecuencia vía la secuencia de datos a la resolución, la cual espera recibir el ajustador 55 de envolvente 234 y un almacenamiento de datos de factor de escala 244 almacena la envolvente espectral hasta una siguiente actualización. La unidad filtradora 246 filtra la envolvente espectral en dimensión temporal y/o espectral y el ajustador de ganancia 248 adapta la ganancia de la envolvente espectral de la porción de alta frecuencia. Con ese fin, el ajustador de ganancia puede combinar los datos de envolvente según fueron obtenidos por la unidad 246 con la envolvente real como se puede derivar de la salida del banco de filtros QMF. El restaurador
de datos de factor de escala 252 reproduce los datos de factor de escala que representan la envolvente espectral dentro de fases de interrupción o cuadros cero según lo almacenado por el almacenamiento de factor de escala 244.
[0071] Así, en el lado del decodificador, se puede llevar a cabo el siguiente procesamiento. En los cuadros
5 activos o durante fases activas, se puede aplicar procesamiento de replicación de banda espectral regular. Durante estos períodos, los factores de escala procedentes de la secuencia de datos, los cuales típicamente están disponibles para un mayor número de bandas de factor de escala comparado con procesamiento de generación de ruido de comodidad, son convertidos a la resolución de frecuencia de generación de ruido de comodidad por el combinador de factor de escala 242. El combinador de factor de escala combina los factores de escala para la 10 resolución de frecuencia más alta para resultar en un número de factores de escala conforme con CNG aprovechando bordes de banda de frecuencia comunes de las diferentes tablas de banda de frecuencia. Los valores de factor de escala resultantes en la salida de la unidad combinadora de factor de escala 242 son almacenados para la reutilización en cuadros cero y la posterior reproducción por el recuperador 252 y son usados subsiguientemente para actualizar la unidad filtradora 246 para el modo de operación CNG. En los cuadros SID se aplica un lector de 15 secuencia de datos SBR modificado el cual extrae la información de factor de escala de la secuencia de datos. La configuración restante del procesamiento SBR es inicializada con valores predefinidos, se inicializa la rejilla de tiempo/frecuencia a la misma resolución de tiempo/frecuencia usada en el codificador. Los factores de escala extraídos son alimentados a la unidad filtradora 246 donde, por ejemplo, un filtro de alisamiento IIR interpola la progresión de la energía para una banda de factor de escala de baja resolución a lo largo del tiempo. En caso de 20 cuadros cero, no hay carga útil para leer desde la serie de bits en el tiempo y la configuración SBR que incluye la rejilla de tiempo/frecuencia es la misma que la usada en los cuadros SID. En cuadros cero, los filtros de alisamiento de la unidad filtradora 246 son alimentados con un valor de factor de escala entregado desde la unidad combinadora de factores de escala 242 que han sido almacenados en el último cuadro que contiene información de factores de escala válida. En el caso de que el cuadro actual sea clasificado como un cuadro inactivo o cuadro SID, el ruido de 25 comodidad es generado en el dominio TCX y se vuelve a transformar al dominio del tiempo. Subsiguientemente, la señal del dominio del tiempo que contiene el ruido de comodidad es alimentada al banco de filtros de análisis QMF 230 del módulo SBR 224. En el dominio de QMF, la extensión de ancho de banda del ruido de comodidad se realiza por medio de transposición de copy-up dentro del generador de HF 232 y finalmente la envolvente espectral de la parte de alta frecuencia creada artificialmente, es ajustada mediante aplicación de información de factores de escala 30 de energía en el ajustador de envolvente 234. Estos factores de escala de energía se obtienen mediante la salida de la unidad filtradora 246 y son puestos en escala mediante la unidad de ajuste de ganancia 248 antes de la aplicación en el ajustador de envolvente 234. En esta unidad de ajuste de ganancia 248 se calcula un valor de ganancia para ajustar los factores de escala y se aplica para compensar grandes diferencias de energía en el borde entre la porción de baja frecuencia y el contenido de alta frecuencia de la señal. Las realizaciones descritas arriba se usan 35 en común en las realizaciones de las Figuras 12 y 13. La Figura 12 muestra una realización de un codificador de audio según una realización de la presente solicitud, y la Figura 13 muestra una realización de un decodificador de audio. Los detalles revelados con respecto a estas figuras se aplican igual a los elementos mencionados anteriormente de forma individual.
40 [0072] El codificador de audio de la Figura 12 comprende un banco de filtros de análisis QMF 200 para
descomponer espectralmente una señal de audio de entrada. Un detector 270 y un estimador de ruido 262 están conectados a una salida del banco de filtros de análisis QMF 200. El estimador de ruido 262 asume la responsabilidad de la funcionalidad del estimador de ruido de fondo 12. Durante las fases activas, los espectros QMF procedentes del banco de filtros de análisis QMF son procesados por una conexión en paralelo de un 45 estimador de parámetros de replicación de banda espectral 260 seguido por algún codificador SBR 264 por un lado, y una concatenación de un banco de filtros de síntesis QMF 272 seguido por un codificador por núcleo 14 por el otro lado. Ambos caminos paralelos se conectan a una respectiva salida del empaquetador de serie de bits en el tiempo 266. En el caso de cuadros SID salientes, el codificador de cuadro SID 274 recibe los datos desde el estimador de ruido 262 y entrega los cuadros SID al empaquetador de serie de bits en el tiempo 266.
50
[0073] Los datos de extensión de ancho de banda espectral entregados por el estimador 260 describen la envolvente espectral de la porción de alta frecuencia del espectrograma o espectro entregado por el banco de filtros de análisis qMf 200, los cuales son codificados a continuación, tal como mediante codificación por entropía, por el codificador SBR 264. El multiplexador de secuencia de datos 266 inserta los datos de extensión de ancho de banda
55 espectral de fases activas en la secuencia de datos entregada en una salida 268 del multiplexador 266.
[0074] El detector 270 detecta si actualmente está activa una fase activa o inactiva. En base a esta detección, un cuadro activo, un cuadro SID o un cuadro cero, este cuadro inactivo, se ha de entregar actualmente. En otras palabras, el módulo 270 decide si una fase activa o una fase inactiva está activa y si la fase inactiva está activa, si se
ha de entregar o no un cuadro SID. Las decisiones están indicadas en la Figura 12 mediante el uso de I para cuadros cero, A para cuadros activos, y S para cuadros SID. Los cuadros que corresponden a intervalos de tiempo de la señal de entrada donde la fase activa está presente, también son remitidos a la concatenación del banco de filtros de síntesis QMF 272 y al codificador por núcleo 14. El banco de filtros de síntesis QMF 272 tiene una 5 resolución de menor frecuencia u opera a un menor número de subbandas QMF cuando se compara con el banco de filtros de análisis QMF 200 de modo que se logre por medio del cociente de número de subbandas una reducción de la tasa de muestreo para transferir las porciones de cuadro activas de la señal de entrada al dominio del tiempo de nuevo. En particular, el banco de filtros de síntesis QMF 272 es aplicado a las porciones de menor frecuencia o subbandas de menor frecuencia del espectrograma de banco de filtros de análisis QMF dentro de los cuadros 10 activos. El codificador por núcleo 14 recibe así una versión de tasa de muestreo reducida de la señal de entrada, la cual convierte así meramente una porción de menor frecuencia de la señal de entrada original introducida en el banco de filtros de análisis QMF 200. La porción de frecuencia más alta restante es codificada paramétricamente por los módulos 260 y 264.
15 [0075] Los cuadros SID (o, para ser más precisos, la información que va a ser llevada por los mismos) son
remitidos al codificador SID 274 el cual asume la responsabilidad de las funcionalidades del módulo 152 de la Figura 5, por ejemplo. La única diferencia: el módulo 262 opera sobre el espectro de la señal de entrada directamente — sin corrección por LPC. Asimismo, como se usa el filtrado de análisis QMF, la operación del módulo 262 es independiente del modo de cuadro elegido por el codificador por núcleo o la opción de extensión de ancho de banda 20 espectral que se aplique o no. Las funcionalidades del módulo 148 y 150 de la Figura 5 pueden ser implementadas dentro del módulo 274.
[0076] El multiplexador 266 multiplexa la respectiva información codificada formando la secuencia de datos en la salida 268.
25
[0077] El decodificador de audio de la Figura 13 puede operar sobre una secuencia de datos como la entregada por el codificador de la Figura 12. Esto es, un módulo 280 está configurado para recibir la secuencia de datos y para clasificar los cuadros dentro de la secuencia de datos en cuadros activos, cuadros SID y cuadros cero. es decir, una carencia de cuadro en la secuencia de datos, por ejemplo. Los cuadros activos son remitidos a una
30 concatenación de un decodificador por núcleo 92, un banco de filtros de análisis QMF 282 y un módulo de extensión de ancho de banda espectral 284. Opcionalmente, un estimador de ruido 286 está conectado a la salida del banco de filtros de análisis QMF. El estimador de ruido 286 puede operar de forma similar, y puede asumir la responsabilidad de las funcionalidades del estimador de ruido de fondo 90 de la Figura 3, por ejemplo, con la excepción de que el estimador de ruido opera sobre el espectro no corregido en lugar de sobre los espectros de 35 excitación. La concatenación de módulos 92, 282 y 284 se conecta a una entrada del banco de filtros de síntesis QMF 288. Los cuadros SID son remitidos a un decodificador de cuadros SID 290 el cual asume la responsabilidad de la funcionalidad del generador de ruido de fondo 96 de la Figura 3, por ejemplo. Un actualizador de parámetros de generación de ruido de comodidad 292 es alimentado por la información procedente del decodificador 290 y el estimador de ruido 286 con este actualizador 292 que gobierna el generador aleatorio 294 el cual asume la 40 responsabilidad de la funcionalidad de los generadores aleatorios paramétricos de la Figura 3. Como faltan cuadros inactivos o cero, no tienen que ser remitidos a ningún lado, pero ellos accionan otro ciclo de generación aleatoria del generador aleatorio 294. La salida del generador aleatorio 294 está conectada al banco de filtros de síntesis QMF 288, la salida del cual revela la señal de audio reconstruida en silencio y fases activas en el dominio del tiempo.
45 [0078] Así, durante las fases activas, el decodificador por núcleo 92 reconstruye la porción de baja frecuencia
de la señal de audio incluyendo tanto ruido como componentes de señal útiles. El banco de filtros de análisis QMF 282 descompone espectralmente la señal reconstruida y el módulo de extensión de ancho de banda espectral 284 usa la información de extensión de ancho de banda espectral dentro de la secuencia de datos y cuadros activos, respectivamente, para agregar la porción de alta frecuencia. El estimador de ruido 286, si está presente, realiza la 50 estimación de ruido basado en una porción de espectro según lo reconstruido por el decodificador por núcleo, es decir, la porción de baja frecuencia. En las fases inactivas, los cuadros SID llevan información que describe paramétricamente la estimación de ruido de fondo derivada por la estimación de ruido 262 en el lado del codificador. El actualizador de parámetros 292 puede usar principalmente la información del codificador para actualizar su estimación de ruido de fondo paramétrica, mediante el uso de la información proporcionada por el estimador de ruido 55 286 principalmente como una posición de soporte de información para caso de pérdida de transmisión concerniente a cuadros SID. El banco de filtros de síntesis QMF 288 convierte la señal espectralmente descompuesta como salida mediante el módulo de replicación de banda espectral 284 en fases activas y el espectro de señal generada de ruido de comodidad en el dominio del tiempo. Así, las Figuras 12 y 13 ponen en claro que se puede usar un marco de trabajo de banco de filtros QMF como una base para generación de ruido de comodidad basado en QMF. El marco
de trabajo QMF proporciona una manera conveniente para re-muestrear la tasa de muestreo de la señal de entrada a la tasa de muestreo del codificador por núcleo en el codificador o para sobre-muestrear la señal de salida del codificador por núcleo del decodificador por núcleo 92 en el lado del decodificador mediante el uso del banco de filtros de síntesis QMF 288. Al mismo tiempo, el marco de trabajo QMF también puede ser usado en combinación 5 con extensión de ancho de banda para extraer y procesar los componentes de alta frecuencia de la señal los cuales son postergados por los módulos de codificador por núcleo y decodificador por núcleo 14 y 92. Por consiguiente, el banco de filtros QMF puede ofrecer un marco de trabajo común para diversas herramientas de procesamiento de señal. Según las realizaciones de las Figuras 12 y 13, la generación de ruido de comodidad se incluye con éxito dentro de este marco de trabajo.
10
[0079] En particular, según las realizaciones de las Figuras 12 y 13, se puede ver que es posible generar ruido de comodidad en el lado del decodificador después del análisis QMF, pero antes de la síntesis QMF aplicando un generador aleatorio 294 para excitar las partes real e imaginaria de cada coeficiente QMF del banco de filtros de síntesis QMF 288, por ejemplo. La amplitud de las secuencias aleatorias, por ejemplo, son computadas
15 individualmente en cada banda QMF tal que el espectro del ruido de comodidad generado se parezca al espectro de la señal de ruido de fondo de entrada real. Esto se puede lograr en cada banda QMF mediante el uso de un estimador de ruido después del análisis QMF en el lado de codificación. Estos parámetros pueden ser transmitidos entonces a través de los cuadros SID para actualizar la amplitud de las secuencias aleatorias aplicada en cada banda QMF en el lado del decodificador.
20
[0080] Idealmente, cabe destacar que la estimación de ruido 262 aplicada en el lado del codificador debe poder operar tanto durante períodos inactivos (es decir, solo ruido) como activos (que típicamente contienen voz ruidos) de modo que los parámetros de ruido de comodidad puedan ser actualizados inmediatamente al final de cada período activo. Además, la estimación de ruido podría ser usada también del lado del decodificador. Como se
25 descartan los cuadros de solo ruido en un sistema de codificación/decodificación basado en DTX, la estimación de ruido en el lado del decodificador puede, favorablemente, operar sobre contenidos de voz ruidosos. La ventaja de realizar la estimación de ruido en el lado de decodificador, además de en el lado del codificador, es que la forma espectral del ruido de comodidad puede ser actualizada incluso cuando la transmisión de paquete desde el codificador al decodificador falla para el(los) primer(os) cuadro(s) SID siguientes a un período de actividad.
30
[0081] La estimación de ruido debe poder seguir, precisa y rápidamente, variaciones del contenido espectral del ruido de fondo e idealmente lo debe poder realizar durante ambos, cuadros, activo e inactivo, como se ha expresado más arriba. Una manera de lograr estos objetivos es rastrear los mínimos tomados en cada banda por el espectro de potencia mediante el uso de una venta deslizante de longitud finita, como se propone en [R. Martin,
35 Estimación de Densidad Espectral de Potencia de Ruido Basada en Alisamiento Óptimo y Estadística de Mínimos (Noise Power Spectral Density Estimation Based on Optimal Smoothing and Mínimum Statistics), 2001]. La idea detrás de esto es que la potencia de un espectro de voz ruidosa frecuentemente decae a la potencia del ruido de fondo, por ejemplo, entre palabras o sílabas. Rastrear el mínimo del espectro de potencia, por lo tanto, proporciona una estimación del piso de ruido en cada banda, incluso durante actividad de voz. Sin embargo, estos pisos de ruido
40 son subestimados en general. Asimismo, ellos no permiten capturar rápidas fluctuaciones de las potencias espectrales, especialmente repentinos incrementos de energía.
45
50
[0082] De todos modos, el piso de ruido computado como se describe más arriba en cada banda proporciona
información lateral muy útil para aplicar una segunda etapa de estimación de ruido. De hecho, podemos esperar que la potencia de un espectro ruidoso esté cerca del piso de ruido estimado durante inactividad, mientras que la potencia espectral estará muy por encima del piso de ruido durante la actividad. Los pisos de ruido computados separadamente en cada banda pueden ser usados entonces como detectores de actividad aproximada para cada banda. En base a este conocimiento, se puede estimar fácilmente la potencia de ruido de fondo como una versión recursivamente alisada del espectro de potencia del siguiente modo:
a¡f2(mr k) = /?(m, k) ■ <jN2(m — 1, k) (l — ^(ra, fe)} ■ ax2(m, k) ,
donde
ñu 2(_m,k)
denota la densidad espectral de potencia de la señal de entrada en el cuadro m y banda
f refiere la estimación de potencia de ruido, y r y J es un factor de olvido (necesariamente entre 0 y 1) 55 que controla la magnitud del alisamiento para cada banda y cada cuadro separadamente. Mediante el uso de la información de piso de ruido para reflejar el estado de actividad, debe tomar un pequeño valor durante períodos inactivos (es decir, cuando el espectro de potencia está cerca del piso de ruido), mientras se debe elegir un valor
alto para aplicar más alisamiento (idealmente manteniendo A v J constante) durante cuadros activos. Para lograr esto se puede tomar una decisión débil calculando los factores de olvido del siguiente modo:
= 1
5
2
donde Gnf es la potencia de piso de ruido y “ es un parámetro de control. Un valor más alto para a da como resultado factores de olvido más grandes y de este modo más alisamiento global.
[0083] Así, se ha descrito un concepto de Generación de Ruido de Comodidad (CNG) donde se produce
10 ruido artificial en el lado del decodificador en un dominio de transformada. Las realizaciones de arriba pueden ser aplicadas en combinación virtualmente con cualquier tipo de herramienta de análisis espectro-temporal (es decir, una transformación o un banco de filtros) que descompone una señal del dominio del tiempo en múltiples bandas espectrales. De nuevo, cabe destacar que el uso del dominio espectral solo proporciona una estimación más precisa del ruido de fondo y logra ventajas sin usar la posibilidad de arriba de actualizar continuamente la estimación durante 15 las fases activas.
[0084] Aunque se han descrito algunos aspectos en el contexto de un aparato, está claro que estos aspectos también representan una descripción del procedimiento correspondiente, donde un bloque o dispositivo corresponde a una etapa de procedimiento o a un rasgo de una etapa de procedimiento. Análogamente, los aspectos descritos en
20 el contexto de una etapa de procedimiento también representan una descripción de un correspondiente bloque o componente o rasgo de un correspondiente aparato. Algunas o todas las etapas de procedimiento pueden ser ejecutadas por (o mediante el uso de) un aparato de hardware, como por ejemplo, un microprocesador, un ordenador programable o un circuito electrónico. En algunas realizaciones, alguna o más de las etapas de procedimiento más importantes pueden ser ejecutadas mediante un aparato tal. Dependiendo de ciertos requisitos
25 de implementación, las realizaciones de la invención pueden ser implementadas en hardware o en software. La implementación puede ser realizada mediante el uso de un medio de almacenamiento digital, por ejemplo, un disco flexible, un DVD, un CD, un Blu-Ray, una memoria de sólo lectura, una PROM, una EEPROM o una memoria FLASH, teniendo señales de control legibles electrónicamente almacenadas en las mismas, las cuales cooperan (o son capaces de cooperar) con un sistema de ordenador programable tal que se ejecute el respectivo procedimiento.
30 Por lo tanto, el medio de almacenamiento digital puede ser legible por ordenador.
[0085] Las realizaciones que se han descrito más arriba son meramente ilustrativas para los principios de la presente invención. Se entiende que las modificaciones y variaciones de las disposiciones y de los detalles descritos en esta invención serán evidentes para los expertos en la materia. Por lo tanto, es la intención que la invención esté
35 limitada solo por el alcance de las siguientes reivindicaciones de patente y no por los detalles específicos presentados a modo de descripción y la explicación de las realizaciones en esta invención.
Claims (13)
- REIVINDICACIONES1. Codificador de audio que comprende5 un estimador de ruido de fondo (12) configurado para determinar una estimación de ruido de fondo paramétrica en base a una representación de descomposición espectral de una señal de audio de entrada, de modo que la estimación de ruido de fondo paramétrica describe espectralmente una envolvente espectral de un ruido de fondo de la señal de audio de entrada;10 un codificador (14) para codificar la señal de audio de entrada en una secuencia de datos durante la fase activa; yun detector (16) configurado para detectar la entrada de una fase inactiva a continuación de la fase activa basado en la señal de entrada,15 en el que el codificador de audio está configurado para codificar en la secuencia de datos la estimación de ruido de fondo paramétrica en la fase inactiva,en el que el codificador está configurado para, en la codificación de la señal de audio de entrada, codificar predictivamente la señal de audio de entrada a coeficientes de predicción lineales y una señal de excitación, y 20 codificar por transformada una descomposición espectral de la señal de excitación y codificar los coeficientes de predicción lineal a la secuencia de datos, en el que el estimador de ruido de fondo está configurado para usar la descomposición espectral de la señal de excitación como la representación de descomposición espectral de la señal de audio de entrada en la determinación de la estimación de ruido de fondo paramétrico.25 2. Codificador de audio según la reivindicación 1, en el que el estimador de ruido de fondo estáconfigurado para realizar la determinación de la estimación de ruido de fondo paramétrica en la fase activa con distinción entre un componente de ruido y un componente de señal útil dentro de la representación de descomposición espectral de la señal de audio de entrada, y para determinar la estimación de ruido de fondo paramétrica meramente a partir del componente de ruido.30
- 3. Codificador de audio según la reivindicación 1 o 2, en el que el estimador de ruido de fondo puede está configurado para identificar los mínimos locales en la representación espectral de la señal de excitación para estimar la envolvente espectral de un ruido de fondo de la señal de audio de entrada mediante el uso de interpolación entre los mínimos locales identificados como puntos de soporte.35
- 4. Codificador de audio según una cualquiera de las reivindicaciones anteriores, en el que el codificador está configurado para, al codificar la señal de audio de entrada, usar codificación predictiva y/o por transformación para codificar una porción de frecuencia más baja de la representación de descomposición espectral de la señal de audio de entrada, y para usar codificación paramétrica para codificar una envolvente espectral de una porción de40 frecuencia más alta de la representación de descomposición espectral de la señal de audio de entrada.
- 5. Codificador de audio según una cualquiera de las reivindicaciones anteriores, en el que el codificador está configurado para, al codificar la señal de audio de entrada, usar codificación predictiva y/o por transformación para codificar una porción de frecuencia más baja de la representación de descomposición espectral de la señal de45 audio de entrada, y para elegir entre usar codificación paramétrica para codificar una envolvente espectral de una porción de más alta frecuencia de la representación de descomposición espectral de la señal de audio de entrada o dejar sin codificar la porción de frecuencia más alta de la señal de audio de entrada.
- 6. Codificador de audio según la reivindicación 4 o 5, en el que el codificador está configurado para 50 interrumpir la codificación predictiva y/o por transformación y la codificación paramétrica en fases inactivas o parainterrumpir la codificación predictiva y/o por transformación y realizar la codificación paramétrica de la envolvente espectral de la porción de frecuencia más alta de la representación de descomposición espectral de la señal de audio de entrada en una resolución de tiempo/frecuencia más baja comparada con el uso de codificación paramétrica en la fase activa.55
- 7. Codificador de audio según la reivindicación 4, 5 o 6, en el que el codificador usa un banco de filtros para descomponer espectralmente la señal de audio de entrada en un conjunto de subbandas que forman la porción de frecuencia más baja, y un conjunto de subbandas que forman la porción de frecuencia más alta.
- 8. Codificador de audio según cualquiera de las reivindicaciones anteriores, en el que el estimador de ruido está configurado para continuar actualizando continuamente la estimación de ruido de fondo durante la fase inactiva, en la que el codificador de audio está configurado para codificar intermitentemente actualizaciones de la estimación de ruido de fondo paramétrica como se actualiza continuamente durante la fase inactiva.5
- 9. Codificador de audio según la reivindicación 8, en el que el codificador de audio está configurado para codificar intermitentemente las actualizaciones de la estimación de ruido de fondo paramétrica en un intervalo de tiempo fijo o variable.10 10. Decodificador de audio para decodificar una secuencia de datos de modo que se reconstruya a partirde ello una señal de audio, comprendiendo al menos la secuencia de datos una fase activa seguida por una fase inactiva, comprendiendo el decodificador de audioun estimador de ruido de fondo (90) configurado para determinar una estimación de ruido de fondo paramétrica en 15 base a una representación de descomposición espectral de la señal de audio de entrada obtenida de la secuencia de datos de modo que la estimación de ruido de fondo paramétrica describe espectralmente una envolvente espectral un ruido de fondo de la señal de audio de entrada;un decodificador (92) configurado para reconstruir la señal de audio a partir de la secuencia de datos durante la fase activa;20 un generador aleatorio paramétrico (94); yun generador de ruido de fondo (96) configurado para reconstruir la señal de audio durante la fase inactiva mediante el control del generador aleatorio paramétrico durante la fase inactiva con la estimación de ruido de fondo paramétrica,25 en el que el decodificador está configurado para, en la reconstrucción de la señal de audio a partir de la secuencia de datos, aplicar configuración a una descomposición espectral de una transformada de señal de excitación codificada en la secuencia de datos según los coeficientes de predicción lineal codificados también en los datos, en el que el estimador de ruido de fondo está configurado para utilizar la descomposición espectral de la señal de excitación como la representación de descomposición espectral de la señal de audio de entrada en la determinación 30 de la estimación de ruido de fondo paramétrico.
- 11. Decodificador de audio según la reivindicación 10, en el que el estimador de ruido de fondo está configurado para llevar a cabo la determinación de la estimación de ruido de fondo paramétrica en la fase activa y con distinción entre un componente de ruido y un componente de señal útil dentro de la representación de35 descomposición espectral de la señal de audio de entrada y para determinar la estimación de ruido de fondo paramétrica meramente a partir del componente de ruido.
- 12. Decodificador de audio según la reivindicación 10 u 11, en el que el decodificador está configurado para identificar mínimos locales en la representación espectral de la señal de excitación y para estimar la envolvente40 espectral del ruido de fondo de la señal de audio de entrada mediante el uso de interpolación entre los mínimos locales identificados en la representación espectral de la señal de excitación como puntos de soporte.
- 13. Procedimiento de codificación de audio que comprende45 determinación de una estimación de ruido de fondo paramétrica en base a una representación de descomposición espectral de una señal de audio de entrada de modo que la estimación de ruido de fondo paramétrica describe espectralmente una envolvente espectral de un ruido de fondo de la señal de audio de entrada; codificación de la señal de audio de entrada en una secuencia de datos durante la fase activa; y detección de la entrada de una fase inactiva a continuación de la fase activa basado a la señal de entrada, y 50 codificación en la secuencia de datos de la estimación de ruido de fondo paramétrica en la fase inactiva, en el quela codificación de la señal de audio de entrada comprende la codificación predictivamente de la señal de audio de entrada en coeficientes de predicción lineales y una señal de excitación y codificación por transformada de una descomposición espectral de la señal de excitación y codificación de los coeficientes de predicción lineales en la 55 secuencia de datos, en el que la determinación de una estimación de ruido de fondo paramétrica comprende el uso de la descomposición espectral de la señal de excitación como la representación de descomposición espectral de la señal de audio de entrada en la determinación de la estimación de ruido de fondo paramétrica.
- 14. Procedimiento para la decodificación de una secuencia de datos de modo que se reconstruya a partirde ello una señal de audio, comprendiendo la secuencia de datos al menos una fase activa seguida por una fase inactiva, comprendiendo el procedimientodeterminación de una estimación de ruido de fondo paramétrica en base a una representación de descomposición 5 espectral de la señal de audio de entrada obtenida de la secuencia de datos de modo que la estimación de ruido de fondo paramétrica describe espectralmente una envolvente espectral un ruido de fondo de la señal de audio de entrada;reconstrucción de la señal de audio a partir de la secuencia de datos durante la fase activa;reconstrucción de la señal de audio durante la fase inactiva mediante el control de un generador aleatorio 10 paramétrico durante la fase inactiva con la estimación de ruido de fondo paramétrica,en el que la reconstrucción de la señal de audio a partir de la corriente de datos comprende la aplicación de la configuración de una descomposición espectral de una transformada de señal de excitación codificada en la secuencia de datos según coeficientes de predicción lineal codificados también en los datos, en el que la descomposición espectral de la señal de excitación se utiliza como la representación de descomposición espectral 15 de la señal de audio de entrada en la determinación de la estimación de ruido de fondo paramétrica.
- 15. Programa informático que tiene un código de programa para llevar a cabo, cuando se ejecuta en unequipo, un procedimiento según cualquiera de las reivindicaciones 13 a 14.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161442632P | 2011-02-14 | 2011-02-14 | |
US201161442632P | 2011-02-14 | ||
PCT/EP2012/052464 WO2012110482A2 (en) | 2011-02-14 | 2012-02-14 | Noise generation in audio codecs |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2681429T3 true ES2681429T3 (es) | 2018-09-13 |
Family
ID=71943600
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES12703807.3T Active ES2681429T3 (es) | 2011-02-14 | 2012-02-14 | Generación de ruido en códecs de audio |
Country Status (17)
Country | Link |
---|---|
US (1) | US8825496B2 (es) |
EP (2) | EP3373296B1 (es) |
JP (3) | JP5934259B2 (es) |
KR (1) | KR101624019B1 (es) |
CN (1) | CN103477386B (es) |
AR (2) | AR085895A1 (es) |
AU (1) | AU2012217162B2 (es) |
BR (1) | BR112013020239B1 (es) |
CA (2) | CA2968699C (es) |
ES (1) | ES2681429T3 (es) |
MX (1) | MX2013009305A (es) |
MY (1) | MY167776A (es) |
RU (1) | RU2585999C2 (es) |
SG (1) | SG192745A1 (es) |
TW (1) | TWI480856B (es) |
WO (1) | WO2012110482A2 (es) |
ZA (1) | ZA201306874B (es) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
JP5914527B2 (ja) | 2011-02-14 | 2016-05-11 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法 |
MX2013009344A (es) | 2011-02-14 | 2013-10-01 | Fraunhofer Ges Forschung | Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral. |
TWI483245B (zh) | 2011-02-14 | 2015-05-01 | Fraunhofer Ges Forschung | 利用重疊變換之資訊信號表示技術 |
CA2827000C (en) | 2011-02-14 | 2016-04-05 | Jeremie Lecomte | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
WO2012110416A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
USRE48258E1 (en) * | 2011-11-11 | 2020-10-13 | Dolby International Ab | Upsampling using oversampled SBR |
CN103295578B (zh) * | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
PL2869299T3 (pl) * | 2012-08-29 | 2021-12-13 | Nippon Telegraph And Telephone Corporation | Sposób dekodowania, urządzenie dekodujące, program i nośnik pamięci dla niego |
AU2013345949B2 (en) * | 2012-11-15 | 2017-05-04 | Ntt Docomo, Inc. | Audio coding device, audio coding method, audio coding program, audio decoding device, audio decoding method, and audio decoding program |
ES2688021T3 (es) | 2012-12-21 | 2018-10-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Adición de ruido de confort para modelar ruido de fondo a bajas tasas de bits |
ES2588156T3 (es) * | 2012-12-21 | 2016-10-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Generación de ruido de confort con alta resolución espectro-temporal en transmisión discontinua de señales de audio |
CN103971693B (zh) | 2013-01-29 | 2017-02-22 | 华为技术有限公司 | 高频带信号的预测方法、编/解码设备 |
RU2660605C2 (ru) * | 2013-01-29 | 2018-07-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Концепция заполнения шумом |
CN105225668B (zh) * | 2013-05-30 | 2017-05-10 | 华为技术有限公司 | 信号编码方法及设备 |
WO2014192604A1 (ja) * | 2013-05-31 | 2014-12-04 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
EP2830065A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
EP2830051A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
CN104978970B (zh) * | 2014-04-08 | 2019-02-12 | 华为技术有限公司 | 一种噪声信号的处理和生成方法、编解码器和编解码系统 |
US10715833B2 (en) * | 2014-05-28 | 2020-07-14 | Apple Inc. | Adaptive syntax grouping and compression in video data using a default value and an exception value |
CN105336336B (zh) | 2014-06-12 | 2016-12-28 | 华为技术有限公司 | 一种音频信号的时域包络处理方法及装置、编码器 |
EP2980801A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals |
EP2980790A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for comfort noise generation mode selection |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
CN106971741B (zh) * | 2016-01-14 | 2020-12-01 | 芋头科技(杭州)有限公司 | 实时将语音进行分离的语音降噪的方法及系统 |
JP7011449B2 (ja) | 2017-11-21 | 2022-01-26 | ソニーセミコンダクタソリューションズ株式会社 | 画素回路、表示装置および電子機器 |
US10650834B2 (en) * | 2018-01-10 | 2020-05-12 | Savitech Corp. | Audio processing method and non-transitory computer readable medium |
US10847172B2 (en) * | 2018-12-17 | 2020-11-24 | Microsoft Technology Licensing, Llc | Phase quantization in a speech encoder |
US10957331B2 (en) | 2018-12-17 | 2021-03-23 | Microsoft Technology Licensing, Llc | Phase reconstruction in a speech decoder |
CN114935698B (zh) * | 2022-04-07 | 2025-03-18 | 苏州恩巨网络有限公司 | 背景噪声的识别方法、装置、电子设备和存储介质 |
CN118673567B (zh) * | 2024-08-12 | 2025-01-03 | 山西智绘沧穹科技有限公司 | 基于智能移动终端的地理信息监测系统 |
Family Cites Families (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5657422A (en) * | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
US5960389A (en) * | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
JPH10326100A (ja) * | 1997-05-26 | 1998-12-08 | Kokusai Electric Co Ltd | 音声録音方法及び音声再生方法及び音声録音再生装置 |
JP3223966B2 (ja) * | 1997-07-25 | 2001-10-29 | 日本電気株式会社 | 音声符号化/復号化装置 |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US7124079B1 (en) * | 1998-11-23 | 2006-10-17 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech coding with comfort noise variability feature for increased fidelity |
AU5032000A (en) * | 1999-06-07 | 2000-12-28 | Ericsson Inc. | Methods and apparatus for generating comfort noise using parametric noise model statistics |
JP2002118517A (ja) | 2000-07-31 | 2002-04-19 | Sony Corp | 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法 |
US7901873B2 (en) * | 2001-04-23 | 2011-03-08 | Tcp Innovations Limited | Methods for the diagnosis and treatment of bone disorders |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
US20030120484A1 (en) * | 2001-06-12 | 2003-06-26 | David Wong | Method and system for generating colored comfort noise in the absence of silence insertion description packets |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
FI118834B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Audiosignaalien luokittelu |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
WO2005096274A1 (fr) | 2004-04-01 | 2005-10-13 | Beijing Media Works Co., Ltd | Dispositif et procede de codage/decodage audio ameliores |
GB0408856D0 (en) | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
US7649988B2 (en) * | 2004-06-15 | 2010-01-19 | Acoustic Technologies, Inc. | Comfort noise generator using modified Doblinger noise estimate |
US8160274B2 (en) | 2006-02-07 | 2012-04-17 | Bongiovi Acoustics Llc. | System and method for digital signal processing |
BRPI0607247B1 (pt) * | 2005-01-31 | 2019-10-29 | Skype | método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado |
EP1845520A4 (en) * | 2005-02-02 | 2011-08-10 | Fujitsu Ltd | SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING DEVICE |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
SG163556A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for wideband speech coding |
RU2296377C2 (ru) * | 2005-06-14 | 2007-03-27 | Михаил Николаевич Гусев | Способ анализа и синтеза речи |
US7610197B2 (en) * | 2005-08-31 | 2009-10-27 | Motorola, Inc. | Method and apparatus for comfort noise generation in speech communication systems |
RU2312405C2 (ru) * | 2005-09-13 | 2007-12-10 | Михаил Николаевич Гусев | Способ осуществления машинной оценки качества звуковых сигналов |
US7720677B2 (en) | 2005-11-03 | 2010-05-18 | Coding Technologies Ab | Time warped modified transform coding of audio signals |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US8032369B2 (en) | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
FR2897733A1 (fr) | 2006-02-20 | 2007-08-24 | France Telecom | Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant |
JP4810335B2 (ja) | 2006-07-06 | 2011-11-09 | 株式会社東芝 | 広帯域オーディオ信号符号化装置および広帯域オーディオ信号復号装置 |
US7933770B2 (en) * | 2006-07-14 | 2011-04-26 | Siemens Audiologische Technik Gmbh | Method and device for coding audio data based on vector quantisation |
MY148913A (en) | 2006-12-12 | 2013-06-14 | Fraunhofer Ges Forschung | Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream |
FR2911426A1 (fr) * | 2007-01-15 | 2008-07-18 | France Telecom | Modification d'un signal de parole |
US8185381B2 (en) | 2007-07-19 | 2012-05-22 | Qualcomm Incorporated | Unified filter bank for performing signal conversions |
US8392202B2 (en) | 2007-08-27 | 2013-03-05 | Telefonaktiebolaget L M Ericsson (Publ) | Low-complexity spectral analysis/synthesis using selectable time resolution |
JP4886715B2 (ja) * | 2007-08-28 | 2012-02-29 | 日本電信電話株式会社 | 定常率算出装置、雑音レベル推定装置、雑音抑圧装置、それらの方法、プログラム及び記録媒体 |
US8000487B2 (en) * | 2008-03-06 | 2011-08-16 | Starkey Laboratories, Inc. | Frequency translation by high-frequency spectral envelope warping in hearing assistance devices |
EP2107556A1 (en) | 2008-04-04 | 2009-10-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transform coding using pitch correction |
MY152252A (en) | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
JP2010079275A (ja) * | 2008-08-29 | 2010-04-08 | Sony Corp | 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム |
US8352279B2 (en) * | 2008-09-06 | 2013-01-08 | Huawei Technologies Co., Ltd. | Efficient temporal envelope coding approach by prediction between low band signal and high band signal |
BRPI0914056B1 (pt) | 2008-10-08 | 2019-07-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificação/decodificação de áudio comutado multi-resolução |
EP2446539B1 (en) | 2009-06-23 | 2018-04-11 | Voiceage Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
EP2491555B1 (en) | 2009-10-20 | 2014-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-mode audio codec |
-
2012
- 2012-02-14 KR KR1020137024347A patent/KR101624019B1/ko active Active
- 2012-02-14 BR BR112013020239-4A patent/BR112013020239B1/pt active IP Right Grant
- 2012-02-14 CA CA2968699A patent/CA2968699C/en active Active
- 2012-02-14 CN CN201280018251.1A patent/CN103477386B/zh active Active
- 2012-02-14 ES ES12703807.3T patent/ES2681429T3/es active Active
- 2012-02-14 WO PCT/EP2012/052464 patent/WO2012110482A2/en active Application Filing
- 2012-02-14 EP EP18169093.4A patent/EP3373296B1/en active Active
- 2012-02-14 JP JP2013553904A patent/JP5934259B2/ja active Active
- 2012-02-14 CA CA2827305A patent/CA2827305C/en active Active
- 2012-02-14 RU RU2013142079/08A patent/RU2585999C2/ru active
- 2012-02-14 AR ARP120100480A patent/AR085895A1/es active IP Right Grant
- 2012-02-14 TW TW101104680A patent/TWI480856B/zh active
- 2012-02-14 MY MYPI2013002983A patent/MY167776A/en unknown
- 2012-02-14 SG SG2013061353A patent/SG192745A1/en unknown
- 2012-02-14 AU AU2012217162A patent/AU2012217162B2/en active Active
- 2012-02-14 MX MX2013009305A patent/MX2013009305A/es active IP Right Grant
- 2012-02-14 EP EP12703807.3A patent/EP2676262B1/en active Active
-
2013
- 2013-08-14 US US13/966,551 patent/US8825496B2/en active Active
- 2013-09-12 ZA ZA2013/06874A patent/ZA201306874B/en unknown
-
2015
- 2015-09-18 JP JP2015184693A patent/JP6185029B2/ja active Active
- 2015-11-19 AR ARP150103773A patent/AR102715A2/es active IP Right Grant
-
2017
- 2017-07-26 JP JP2017144156A patent/JP6643285B2/ja active Active
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2681429T3 (es) | Generación de ruido en códecs de audio | |
ES2535609T3 (es) | Codificador de audio con estimación de ruido de fondo durante fases activas | |
BR112013020592B1 (pt) | Codec de áudio utilizando síntese de ruído durante fases inativas | |
ES2588483T3 (es) | Decodificador de audio que comprende un estimador de ruido de fondo | |
AU2012217161B9 (en) | Audio codec using noise synthesis during inactive phases |