ES2533626T3

ES2533626T3 - Métodos y adaptaciones en una red de telecomunicaciones

Info

Publication number: ES2533626T3
Application number: ES12183033.5T
Authority: ES
Inventors: Volodya Grancharov
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-03-02
Filing date: 2007-11-01
Publication date: 2015-04-13
Anticipated expiration: 2027-11-01
Also published as: EP2115742B1; PL2535894T3; US20140249808A1; US9076453B2; WO2008107027A1; CN101622668A; JP5291004B2; US8731917B2; EP2535894B1; EP2535894A1; JP2010520503A; CN101622668B; EP2115742A1; DK2535894T3; US20100145692A1; MX2009008055A; US20130132075A1; ES2394515T3

Abstract

Un método para controlar un post filtro para mejorar la calidad percibida de habla reconstruida en un descodificador de habla, el método que comprende los pasos de: - medir (401) la estacionariedad de una señal de habla determinando una distancia espectral entre tramas adyacentes de la señal de habla reconstruida en el descodificador, - determinar (402) un coeficiente a un parámetro de control de atenuación de post filtro en base a la estacionariedad medida, y - transmitir (403) el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de atenuación de post filtro para obtener una señal de habla mejorada, en la que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales lineales.

Description

5

10

15

20

25

30

35

40

45

50

55

E12183033

23-03-2015

DESCRIPCIÓN

Métodos y adaptaciones en una red de telecomunicaciones

Campo técnico

La presente invención se refiere a algoritmos post filtro, usados en codificación de habla y audio. En particular la presente invención se refiere a métodos y adaptaciones para proporcionar un post filtro mejorado.

Antecedentes

En una red de comunicación que transmite habla o audio, el habla original 100 o audio se codifica por un codificador 101 en el transmisor y un flujo de bits codificados 102 se transmite al receptor como se ilustra por la figura 3. En un receptor, el flujo de bits codificado 102 se descodifica por un descodificador 103 que reconstruye la señal de habla y audio original en una señal de habla (o audio) reconstruida 104. La codificación de habla y audio introduce ruido de cuantificación que deteriora la calidad del habla reconstruida. Por lo tanto se introducen los algoritmos post filtro 105. Los algoritmos post filtro de última tecnología 105 forman el ruido de cuantificación de manera que llega a ser menos audible. De esta manera los post filtros existentes mejoran la calidad percibida de la señal de habla reconstruida por el descodificador de manera que se proporciona una señal de habla mejorada 106. Una visión general de las técnicas post filtro se puede encontrar en J.H. Chen y A. Gersho, “Post filtrado adaptativo para mejora de calidad de habla codificada”, IEEE Trans. Proceso de Audio de Habla, vol. 3, páginas 58-71, 1985.

Todos los post filtros existentes explotan el concepto de enmascaramiento de señal. Es un fenómeno importante en un sistema auditivo humano. Ello significa que un sonido es inaudible en presencia de un sonido más fuerte. En general el umbral de enmascaramiento tiene un pico en la frecuencia del tono, y disminuye monotónicamente en ambos lados del pico. Esto significa que las componentes del ruido cerca de la frecuencia del tono (formantes de habla) se permite que tengan intensidades más altas que otras componentes de ruido que están más lejos (valles de espectro). Eso es porque los post filtros existentes se adaptan en una forma de trama a los formantes y/o estructuras de tono en el habla, en forma de coeficientes auto regresivos (AR) y/o periodo de tono.

Los post filtros más populares son el post filtro de formante (corto plazo) y el post filtro de tono (largo plazo). Un post filtro de formante reduce el efecto del ruido de cuantificación enfatizando las frecuencias de formantes y desenfatizando los valles espectrales. Esto se ilustra en la figura 1, en la que la línea continua muestra una envolvente auto regresiva de una señal antes del post filtrado y la línea discontinua muestra una envolvente auto regresiva de una señal después del post filtrado. El post filtrado de tono enfatiza las componentes de frecuencia en picos armónicos de tono, lo cual se ilustra en la figura 2. La línea continua de la figura 2 muestra el espectro de una señal antes del post filtrado mientras que la línea discontinua muestra el espectro de una señal después del post filtrado. Los gráficos de las figuras 1 y 2 conciernen a bloques de 30 ms de una señal de banda estrecha. Se debería señalar también que los gráficos de las figuras 1 y 2 no representan los parámetros de post filtro reales, sino sólo el concepto de post filtrado.

Los formantes y/o el tono indica(n) cómo se distribuye la energía en una trama que implica que las partes de la señal que se enmascaran (que son menos audibles o completamente audibles) están indicadas. Por lo tanto, la adaptación de parámetro de post filtro existente explota el concepto de enmascaramiento de señal, y por lo tanto se adapta a las estructuras de habla como frecuencias de formantes y picos armónicos de tono. Estos son todos rasgos en la trama (tal como el periodo de tono que da picos armónicos de tono y coeficientes auto regresivos que determinan los formantes), calculados bajo la suposición de que el habla es estacionaria para la trama actual (por ejemplo, habla de 20 ms).

Además de enmascarar la señal, un fenómeno psicoacústico importante es que si la dinámica de la señal es alta, entonces la distorsión es menos objetable. Ello significa que el ruido se enmascara auditivamente mediante cambios rápidos en la señal de habla. Este concepto de enmascarar de manera auditiva el ruido mediante cambios rápidos en la señal de habla está ya en uso para codificación de habla en H. Knagenhjelm y W.B. Kleijn, “La dinámica espectral es más importante que la distorsión espectral”, ICASSP, vol. 1, páginas 732-735, 1995 y para mejora en T. Quateri y R.Dunn, “Mejora de habla en base al cambio espectral auditivo”, ICASSP, vol. 1, páginas 257-260, 2002. En la adaptación de H. Knagenhjelm y W.B. Kleijn a la dinámica espectral se usa en la cuantificación de frecuencias espectrales en línea (LSF). En la adaptación de T. Quateri y R.Dunn a la dinámica espectral se usa en un pre-procesador para atenuación de ruido de fondo.

Otra técnica relacionada en el campo técnico se revela en la WO 98/39768, que se refiere a un post filtro de base sinusoidal. El post filtro puede calcular alguna medida que implica una dinámica de señal para suavizar la función de transferencia del filtro, en que el propósito de la suavización es evitar que un nuevo estado de filtro se desvíe demasiado del estado del filtro previo.

Resumen

No obstante, las soluciones de post filtro existente no tienen en consideración el hecho de que se debería realizar menos supresión cuando el contenido de la información de habla es alto, y se debería realizar más supresión

5

10

15

20

25

30

35

40

45

50

E12183033

23-03-2015

cuando la señal está en un modo de estado estable.

De esta manera un objeto con la presente invención es mejorar la calidad percibida del habla reconstruida.

Este objeto se logra por la presente invención por medio del parámetro de control de post filtro mejorado, en el que un coeficiente determinado en base a la estacionariedad de señal se aplica a un parámetro de control de post filtro convencional para lograr el parámetro de control de post filtro mejorado.

De acuerdo con un primer aspecto de la presente invención se proporciona un método para controlar un post filtro como se define en la reivindicación 1. El método mejora la calidad percibida de habla reconstruida en un descodificador de habla y comprende los pasos de medir la estacionariedad de una señal de habla reconstruida en un decodificador, determinando un coeficiente a un parámetro de control de post filtro basado en la estacionariedad medida, y transmitiendo el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de post filtro para obtener una señal de habla mejorada.

De acuerdo con un segundo aspecto de la presente invención se proporciona un método de post filtrado para mejorar la calidad percibida del habla reconstruida en un descodificador de habla como se define en la reivindicación

5. El método comprende los pasos de recibir un coeficiente determinado al post filtro, y procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de post filtro para obtener una señal de habla mejorada, en el que el coeficiente se determina en base a una estacionariedad medida de la señal de habla reconstruida en el descodificador.

De acuerdo con un tercer aspecto de la presente invención se proporciona un control de post filtro a estar asociado con un post filtro para mejorar la calidad percibida del habla reconstruida en un descodificador de habla como se define en la reivindicación 9. El control de post filtro comprende medios para medir la estacionariedad de una señal de habla reconstruida en un descodificador, medios para determinar un coeficiente a un parámetro de control de post filtro en base a la estacionariedad medida, y medios para transmitir el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de post filtro para obtener una señal de habla mejorada.

De acuerdo con un cuarto aspecto de la presente invención se proporciona una adaptación que comprende un control de post filtro y un post filtro para mejorar la calidad percibida del habla reconstruida en un descodificador de habla como se define en la reivindicación 13. El post filtro comprende medios para recibir un coeficiente determinado al post filtro, y un procesador para procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de post filtro para obtener una señal de habla mejorada, en el que el coeficiente se determina en base a una estacionariedad medida de la señal de habla reconstruida en un descodificador.

Una ventaja con la presente invención es que la adaptación de los parámetros de post filtro a la dinámica espectral ofrece un esquema simple es compatible con los post filtros existentes.

Breve descripción de los dibujos

La Fig. 1 ilustra el efecto de un post filtro de formante en la señal reconstruida de acuerdo con la técnica anterior.

La Fig. 2 ilustra el efecto de un post filtro de tono en la señal reconstruida de acuerdo con la técnica anterior.

La Fig. 3 ilustra esquemáticamente un codificador-descodificador con un post filtro de acuerdo con la técnica anterior.

La Fig. 4 ilustra esquemáticamente un codificador-descodificador de acuerdo con la figura 1 con el control de post filtro de una realización de la presente invención.

La Fig. 5 ilustra esquemáticamente un control de post filtro el post filtro de acuerdo con una realización de la presente invención.

Las Fig. 6a y 6b son diagramas de flujo de los métodos de acuerdo con la presente invención.

Descripción detallada

El concepto básico de la presente invención es modificar un post filtro existente de manera que se adapta a una dinámica espectral de una señal de habla descodificada. (Se debería señalar, que incluso si el término habla se usa aquí dentro, la especificación también se refiere a cualquier señal de audio.) La dinámica espectral implica una medida de la estacionariedad de la señal, definida como la distancia Euclidiana entre las densidades espectrales de dos segmentos de habla colindantes. Si la distancia Euclidiana entre dos segmentos de habla es alta, entonces la atenuación debería ser reducida comparado con una situación cuando la distancia Euclidiana es baja.

El post filtro modificado de acuerdo con la presente invención hace posible suprimir más ruido cuando la dinámica es baja y suprimir menos si la dinámica es alta, por ejemplo durante las transiciones de formante y los inicios vocales.

5

10

15

20

25

30

35

40

45

E12183033

23-03-2015

Esto cuenta para el hecho de que el nivel medio de ruido de cuantificación no puede cambiar rápidamente en el tiempo, sino en algunas partes de la señal el ruido será más audible que en otras partes.

Se debería señalar que el control de post filtro no sustituye la adaptación de post filtro convencional que está motivada por el fenómeno de enmascaramiento de señal pero es una adaptación complementaria que explota propiedades adicionales del sistema de audición humano, mejorando de esta manera la calidad de las soluciones de post filtro convencionales.

De esta manera, un control de post filtro que adapta el post filtro a la dinámica espectral de la señal descodificada se introduce de acuerdo con la presente invención. Una realización de la presente invención se ilustra en la figura 4. La figura 4 muestra un descodificador 201 y un post filtro 202. Un flujo de bits codificados 203 se introduce al descodificador 201 y el descodificador 201 descodifica el flujo de bits codificado 203 y reconstruye la señal de habla

204. El control de post filtro 206 mide la estacionariedad de la señal y determina un coeficiente 208 (indicado K más adelante) a ser transmitido al post filtro 202. El post filtro 202 procesa la señal de habla reconstruida usando los parámetros de post filtro convencionales que se modifican por el coeficiente 208 del control de post filtro 206 de manera que el post filtro se adapta a la dinámica espectral de la señal descodificada.

A continuación, se revela una implementación del control de post filtro de acuerdo con una realización. Esta implementación está basada en un post filtro de tono descrito en la US2005/0165603A1. Este post filtro también se describe en la C.S0052-A del 3GPP2: “Códec de Habla de Banda Ancha Multimodo de Tasa Variable (VMR-WB) Controlado por Fuente, Opciones de Servicio 62 o 63 para Sistemas de Espectro Ensanchado”, 2005 en la página 154 (ecuaciones 6.3.1-1 y 6.3.1-2). El post filtro de tono tiene la forma de

imagen1

ŝf salida de post filtro 205

ŝ entrada de post filtro 204

T periodo de tono

k es el índice de las muestras de habla en una trama

 parámetro de control de atenuación 208 (Este puede ser una función de la correlación de tono normalizada como en la C.S0052-A del 3GPP2: “Códec de Habla de Banda Ancha Multimodo de Tasa Variable (VMR-WB) Controlado por Fuente, Opciones de Servicio 62 o 63 para Sistemas de Espectro Ensanchado”, 2005.)

Todos los post filtros tienen al menos un parámetro de control  que se ajusta para obtener un habla mejorada. Se debería señalar que este parámetro de control no está limitado a  descrito en C.S0052-A del 3GPP2. Este ajuste de  se puede basar en pruebas de escucha. En el post filtro de tono descrito anteriormente, el valor del parámetro de control  depende de lo estable (grado de sonoridad vocal) que es el tono, dado que el tono existe en las tramas de voz.

Debido a razones de complejidad, en lugar de determinar la distancia espectral entre tramas adyacentes, se determina la distancia de las frecuencias espectrales de inmitancia (ISF) en esta implementación. La ISF es una representación de los coeficientes auto regresivos (también llamados coeficientes predictivos lineales).

Otra representación comúnmente usada es las Frecuencias Espectrales Lineales (LSF). La distancia entre las ISF o LSF de tramas colindantes es una aproximación de la dinámica espectral, dado que éstas son representaciones paramétricas de la envolvente espectral.

En la C.S0052-A del 3GPP2: “Códec de habla de banda ancha multimodo de tasa variable (VMR-WB) controlado por fuente, Opciones de servicio 62 y 63 para sistemas de espectro ensanchado”, 2005, en la página 151 la distancia ISF se calcula y convierte a un factor de estabilidad θ:

imagen2

El factor de estabilidad θ es sólo una normalización de la distancia ISF y por lo tanto se usa para determinar la dinámica espectral en realizaciones de la presente invención. Se debería señalar no obstante que también se pueden usar otras medidas tales como las LSF para determinar la dinámica espectral. La denotación “pasada” indica que es un vector ISF de la trama de habla previa. Usando este θ y la versión de paso bajo de θ, indicado θ_suave, se determinan dos parámetros y . θ_suave es importante ya que mide la estacionariedad de señal más allá de

12

5

10

15

20

25

30

35

E12183033

23-03-2015

la trama actual y la previa. Estos dos parámetros y se usan para determinar el coeficiente K para el parámetro

12

de control de atenuación. De acuerdo con esta realización el coeficiente se denota

imagen3

y el nuevo parámetro de control  estab_adapt = K .

El estab_adapt determinado a partir de la ecuación anterior sustituye el parámetro de control convencional. K se define como una combinación lineal de y . mide la distancia espectral entre la trama actual y la previa. mide lo

121 2

lejos que está la distancia a la distancia de paso bajo (θsuave) de las tramas pasadas. Es decir

imagen4

De esta manera, la presente invención se refiere a un control post filtro como se ilustra en la figura 5. El control post filtro 300 comprende medios para medir la estacionariedad 301 de una señal de habla reconstruida en un descodificador, medios para determinar 302 un coeficiente K a un parámetro de control de post filtro en base a la estacionariedad medida, y medios para transmitir 303 el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida usando el coeficiente determinado para obtener una señal de habla mejorada.

Además, el post filtro 304 de la presente invención comprende un procesador post filtro 305 y medios para recibir 306 el coeficiente determinado K al post filtro, y el procesador post filtro 305 comprende medios para procesar 307 la señal de habla reconstruida aplicando el coeficiente determinado K para obtener una señal de habla mejorada, en la que el coeficiente K se determina en base a una estacionariedad medida de la señal de habla reconstruida en un descodificador.

Además, la presente invención también se refiere a un método en un control de post filtro. El método se ilustra en el diagrama de flujo de la figura 4a y comprende los pasos de:

401.: Medir la estacionariedad de una señal de habla reconstruida en un descodificador.

402.: Determinar un coeficiente a un parámetro de control de post filtro en base a la estacionariedad medida.

403.: Transmitir el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de post filtro para obtener una señal de habla mejorada.

También se proporciona un método para el post filtro como se ilustra en el diagrama de flujo de la figura 4b. El método comprende los pasos de:

404.: Recibir un coeficiente determinado al post filtro.

405.: Procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de post filtro para obtener una señal de habla mejorada, en la que el coeficiente se determina en base a una estacionariedad medida de la señal de habla reconstruida en un descodificador.

La presente invención no está limitada a las realizaciones preferentes descritas anteriormente. Se pueden usar varias alternativas, modificaciones y equivalentes. Por lo tanto, las realizaciones anteriores no deberían ser tomadas como que limitan el alcance de la invención, el cual se define por las reivindicaciones adjuntas.

Claims

5

10

15

20

25

30

35

40

45

50

REIVINDICACIONES

1. Un método para controlar un post filtro para mejorar la calidad percibida de habla reconstruida en un descodificador de habla, el método que comprende los pasos de:

-medir (401) la estacionariedad de una señal de habla determinando una distancia espectral entre tramas adyacentes de la señal de habla reconstruida en el descodificador,

-determinar (402) un coeficiente a un parámetro de control de atenuación de post filtro en base a la estacionariedad medida, y

-transmitir (403) el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de atenuación de post filtro para obtener una señal de habla mejorada, en la que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales lineales.
2.

El método de acuerdo con la reivindicación 1, en el que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales de inmitancia.
3.

El método de acuerdo con cualquiera de las reivindicaciones 1-2, en el que el coeficiente determinado es una combinación lineal de un primer parámetro que es una medida de la distancia espectral entre la trama actual y la previa y un segundo parámetro que es una medida de lo lejos que está dicha distancia espectral a una distancia espectral de paso bajo, θsuave de las tramas pasadas.
4.

El método de acuerdo con la reivindicación 1, en el que el parámetro de control de atenuación de post filtro es una función de una correlación de tono normalizado.
5.

Un método de post filtrado para mejorar la calidad percibida de habla reconstruida en un descodificador de habla, el método que comprende los pasos de:

-recibir (404) un coeficiente determinado a un parámetro de control de atenuación de post filtro desde un control de post filtro, en el que el coeficiente se determina en base a una estacionariedad medida de una señal de habla, la estacionariedad que se mide determinando una distancia espectral entre tramas adyacentes de la señal de habla reconstruida en un descodificador, y

-procesar (405) la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de atenuación de post filtro para obtener una señal de habla mejorada, en la que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales lineales.
6.

El método de acuerdo con la reivindicación 5, en el que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales de inmitancia.
7.

El método de acuerdo con cualquiera de las reivindicaciones 5-6, en el que el coeficiente determinado es una combinación lineal de un primer parámetro que es una medida de la distancia espectral entre la trama actual y la previa y un segundo parámetro que es una medida de lo lejos que está dicha distancia espectral a una distancia espectral de paso bajo, θsuave de las tramas pasadas.
8.

El método de acuerdo con la reivindicación 5, en el que el parámetro de control de atenuación de post filtro es una función de una correlación de tono normalizado.
9.

Un control de post filtro (300) a ser asociado con un post filtro para mejorar la calidad percibida de habla reconstruida en un descodificador de habla, el control de post filtro comprende medios para medir la estacionariedad

(301) de una señal de habla determinando una distancia espectral entre tramas adyacentes de la señal de habla reconstruida en un descodificador, medios para determinar (302) un coeficiente a un parámetro de control de atenuación de post filtro en base a la estacionariedad medida, y medios para transmitir (303) el coeficiente determinado a un post filtro, de manera que el post filtro pueda procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de atenuación de post filtro para obtener una señal de habla mejorada, en la que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales lineales.
10.

El control de post filtro de acuerdo con la reivindicación 9, en el que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales de inmitancia.
11.

El control de post filtro de acuerdo con cualquiera de las reivindicaciones 9-10, en el que el coeficiente determinado es una combinación lineal de un primer parámetro que es una medida de la distancia espectral entre la trama actual y la previa y un segundo parámetro que es una medida de lo lejos que está dicha distancia espectral a una distancia espectral de paso bajo, θsuave de las tramas pasadas.
12.

El control de post filtro de acuerdo con la reivindicación 9, en el que el parámetro de control de atenuación de

6

post filtro es una función de una correlación de tono normalizado.
13. Una adaptación que comprende un post filtro (304) y un control de post filtro para mejorar la calidad percibida de habla reconstruida en un descodificador de habla, el post filtro comprende medios para recibir (306) un coeficiente determinado a un parámetro de control de atenuación de post filtro desde un control de post filtro, en el que el 5 coeficiente se determina en base a una estacionariedad medida de una señal de habla, la estacionariedad, que se mide determinando una distancia espectral entre tramas adyacentes de la señal de habla reconstruida en un descodificador, y un procesador (305) para procesar la señal de habla reconstruida aplicando el coeficiente determinado al parámetro de control de atenuación de post filtro para obtener una señal de habla mejorada, en la que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales

10 lineales.
14.

El post filtro de acuerdo con la reivindicación 13, en la que la distancia espectral entre tramas adyacentes se determina como una distancia de frecuencias espectrales de inmitancia.
15.

El post filtro de acuerdo con cualquiera de las reivindicaciones 13-14, en la que el coeficiente determinado es una combinación lineal de un primer parámetro que es una medida de la distancia espectral entre la trama actual y la

15 previa y un segundo parámetro que es una medida de lo lejos que está dicha distancia espectral a una distancia espectral de paso bajo, θsuave, de las tramas pasadas.
16. El post filtro de acuerdo con la reivindicación 13, en la que el parámetro de control de atenuación de post filtro es una función de una correlación de tono normalizado.

7