ES2343948T3 - Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. - Google Patents
Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. Download PDFInfo
- Publication number
- ES2343948T3 ES2343948T3 ES03005273T ES03005273T ES2343948T3 ES 2343948 T3 ES2343948 T3 ES 2343948T3 ES 03005273 T ES03005273 T ES 03005273T ES 03005273 T ES03005273 T ES 03005273T ES 2343948 T3 ES2343948 T3 ES 2343948T3
- Authority
- ES
- Spain
- Prior art keywords
- coding
- rate
- speech
- mode
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Un procedimiento para codificar una trama de habla, que comprende las etapas de: derivar una pluralidad de parámetros de trama; seleccionar (20) una primera modalidad de codificación, si un parámetro derivado de medición de autocorrelación normalizada (NACF) es superado por un primer valor de umbral, y si un parámetro contador de cruces por cero (ZC) supera un segundo valor de umbral; seleccionar (24) una segunda modalidad de codificación si la primera modalidad de codificación no es seleccionada, y si un parámetro derivado (ED) de medición diferencial de energía es superado por un tercer valor de umbral, en donde el parámetro derivado (ED) de medición diferencial de energía indica una diferencia en energía entre una trama actual y las tramas anteriores; seleccionar (28) una tercera modalidad de codificación si las modalidades de codificación primera y segunda no son seleccionadas y si un parámetro derivado de calidad de codificación (TMSNR) supera un cuarto nivel de umbral, y si un parámetro derivado de medición de diferencial de ganancia de predicción (PGD) es superado por un quinto nivel de umbral, y si el parámetro derivado de medición de autocorrelación normalizada (NACF) supera un sexto valor de umbral, en donde el parámetro derivado de calidad de codificación (TMSNR) indica el desempeño de un modelo de codificación; seleccionar una cuarta modalidad de codificación si las modalidades de codificación primera, segunda y tercera no se seleccionan; y codificar la trama de voz según la modalidad de codificación seleccionada.
Description
Procedimiento y aparato para realizar
vocodificación con tasa reducida y tasa variable.
La presente invención se refiere a las
comunicaciones. Más en particular, la presente invención se refiere
a un procedimiento y a un aparato, novedosos y mejorados, para
realizar la codificación por predicción lineal excitada por código
(CELP) con tasa, o velocidad, variable.
\vskip1.000000\baselineskip
La transmisión de voz mediante técnicas
digitales se ha extendido, particularmente en aplicaciones de larga
distancia y de radiotelefonía digital. Esto, a su vez, ha despertado
interés en determinar la menor cantidad de información que puede
enviarse por el canal que mantiene la calidad percibida del habla
reconstruida. Si el habla se transmite simplemente muestreando y
digitalizando, se requiere una tasa de transmisión de datos del
orden de 64 kilobits por segundo (kbps) para conseguir una calidad
del habla del teléfono analógico convencional. Sin embargo, a
través del uso de análisis del habla, seguido de la codificación, la
transmisión, y la resíntesis apropiadas en el receptor, puede
lograrse una reducción significativa en la tasa de transmisión de
datos.
Los dispositivos que emplean técnicas para
comprimir habla vocal extrayendo parámetros que se refieren a un
modelo de generación del habla humana normalmente se denominan
vocodificadores. Tales dispositivos están compuestos por un
codificador, que analiza el habla entrante para extraer los
parámetros pertinentes, y un descodificador, que resintetiza el
habla utilizando los parámetros que recibe por el canal de
transmisión. Con el fin de ser preciso, el modelo debe cambiar
continuamente. Así el habla se divide en bloques de tiempo, o tramas
de análisis, durante las cuales se calculan los parámetros. Los
parámetros entonces se actualizan para cada nueva trama.
De las diversas clases de codificadores del
habla la codificación por predicción lineal excitada por código
(CELP), la codificación estocástica o la codificación del habla
excitada por vector son de una clase. Un ejemplo de un algoritmo de
codificación de esta clase particular se describe en el artículo
"A 4.8kbps Code Excited Linear Predictive Coder" ["Un
Codificador Predictivo Lineal Excitado por Código de 4,8 kbps"]
de Thomas E. Tremain et al., Proceedings of the Mobile Satellite
Conference, 1988.
La función del vocodificador es comprimir la
señal del habla digitalizada en una señal de tasa de transmisión de
bits baja eliminando todas las redundancias naturales inherentes al
habla. El habla normalmente tiene redundancias a corto plazo
debidas principalmente a la operación de filtrado del tracto vocal,
y redundancias a largo plazo debidas a la excitación del tracto
vocal por las cuerdas vocales. En un codificador CELP, estas
operaciones se modelan mediante dos filtros, un filtro formante a
corto plazo y un filtro de altura tonal a largo plazo. Una vez
eliminadas estas redundancias, la señal residual resultante puede
modelarse como ruido blanco gaussiano, que también debe
codificarse. La base de esta técnica es calcular los parámetros de
un filtro, llamado el filtro LPC, que realiza predicción a corto
plazo de la onda del habla utilizando un modelo del tracto vocal
humano. Además, los efectos a largo plazo, relacionados con la
altura tonal del habla, se modelan calculando los parámetros de un
filtro de altura tonal, que esencialmente modela las cuerdas vocales
humanas. Finalmente, estos filtros deben excitarse, y esto se hace
determinando cuál, de un número de ondas de excitación aleatorias
en un libro de códigos (codebook), tiene como resultado la
aproximación más cercana al habla original cuando la onda excita
los dos filtros mencionados anteriormente. Así los parámetros
transmitidos se refieren a tres elementos (1) el filtro LPC, (2) el
filtro de altura tonal y (3) la excitación del libro de códigos.
Aunque el uso de técnicas de vocodificación
favorece el objetivo de intentar reducir la cantidad de información
enviada por el canal mientras se mantiene un habla reconstruida de
calidad, es necesario emplear otras técnicas para lograr reducción
adicional. Una técnica utilizada previamente para reducir la
cantidad de información enviada es la interrupción momentánea de la
actividad vocal. En esta técnica no se transmite ninguna información
durante las pausas del habla. Aunque esta técnica logra el
resultado deseado de reducción de datos, padece varias
deficiencias.
En muchos casos, la calidad del habla se reduce
debido al recorte de las partes iniciales de las palabras. Otro
problema de interrumpir momentáneamente el canal durante la
inactividad es que los usuarios del sistema perciben la falta de
ruido de fondo que normalmente acompaña al habla y juzgan la calidad
del canal como inferior a una llamada telefónica normal. Un
problema adicional de la interrupción momentánea de la actividad es
que ruidos repentinos ocasionales en el fondo pueden activar el
transmisor cuando no se produce habla, lo que tiene como resultado
ráfagas de ruido molestas en el receptor.
En un intento de mejorar la calidad del habla
sintetizada en sistemas de desconexión de actividad vocal, se añade
un murmullo de fondo sintetizado durante el proceso de
descodificación. Aunque se logra alguna mejora de la calidad al
añadir el murmullo de fondo, no mejora sustancialmente la calidad
global, ya que el murmullo de fondo no modela el ruido de fondo real
en el codificador.
Una técnica preferida para llevar a cabo la
compresión de datos, a fin de que tenga como resultado una reducción
de la información que se necesita enviar, es realizar
vocodificación con tasa variable. Debido a que el habla contiene
inherentemente periodos de silencio, es decir, pausas, la cantidad
de datos requeridos para representar estos periodos puede
reducirse. La vocodificación con tasa variable aprovecha de la
manera más eficaz este hecho reduciendo la tasa de transmisión de
datos para estos periodos de silencio. Una reducción en la tasa de
transmisión de datos, en contraposición a una detención completa en
la transmisión de datos, para periodos de silencio supera los
problemas asociados con la interrupción momentánea de la actividad
vocal mientras se facilita una reducción en la información
transmitida.
La patente estadounidense Nº US 5.414.796,
presentada el 14 de enero de 1993, titulada "Variable Rate
Vocoder" ["Vocodificador de Tasa Variable"] y
transferida al cesionario de la presente invención, detalla un
algoritmo de vocodificación de la clase de codificadores del habla
mencionada anteriormente, codificación por predicción lineal
excitada por código (CELP), codificación estocástica o
vocodificación excitada por vector. La técnica CELP por sí misma
proporciona una reducción significativa en la cantidad de datos
necesarios para representar el habla de una manera que, tras la
resíntesis, tenga como resultado habla de alta calidad. Tal como se
mencionó anteriormente, los parámetros del vocodificador se
actualizan para cada trama. El vocodificador detallado en la
solicitud de patente, en tramitación junto con la presente,
proporciona una tasa variable de transmisión de datos de salida
cambiando la frecuencia y la precisión de los parámetros del
modelo.
El algoritmo de vocodificación de la solicitud
de patente mencionada anteriormente difiere de manera sumamente
marcada de las técnicas de CELP anteriores, produciendo una tasa
variable de transmisión de datos de salida, basándose en la
actividad del habla. La estructura se define para que los parámetros
se actualicen con menos frecuencia, o con menos precisión, durante
las pausas en el habla. Esta técnica permite un descenso incluso
mayor en la cantidad de información que va a transmitirse. El
fenómeno que se aprovecha para reducir la tasa de transmisión de
datos es el factor de actividad vocal, que es el porcentaje medio de
tiempo que un orador dado está efectivamente hablando durante una
conversación. Para conversaciones telefónicas bidireccionales
típicas, la tasa de transmisión de datos media se reduce en un
factor de 2 o más. Durante las pausas en el habla, el vocodificador
sólo está codificando el ruido de fondo. En estos momentos, no es
necesario que se transmitan algunos de los parámetros relacionados
con el modelo del tracto vocal humano.
Tal como se mencionó anteriormente, un enfoque
anterior para limitar la cantidad de información transmitida
durante el silencio se llama interrupción momentánea de actividad
vocal, una técnica en la que no se transmite información durante
los momentos de silencio. En el lado de recepción, el periodo puede
llenarse con "murmullo de fondo" sintetizado. En
contraposición, un vocodificador con tasa variable está
transmitiendo datos continuamente que, en la realización ejemplar
de la solicitud en tramitación junto con la presente, están en tasas
que varían entre aproximadamente 8 kbps y 1 kbps. Un vocodificador
que proporciona una transmisión de datos continua elimina la
necesidad del "murmullo de fondo" sintetizado, proporcionando
la codificación del ruido de fondo una calidad más natural al habla
sintetizada. La invención de la solicitud de patente mencionada
anteriormente, por tanto, proporciona una mejora significativa en
la calidad del habla sintetizada respecto a la de la interrupción
momentánea de la actividad vocal, permitiendo una transición suave
entre habla y fondo.
El algoritmo de vocodificación de la solicitud
de patente mencionada anteriormente permite detectar pausas cortas
en el habla, y se lleva a cabo un descenso en el factor de actividad
vocal efectiva. Pueden tomarse decisiones de tasa trama a trama sin
ningún rezago, de modo que la tasa de transmisión de datos pueda
bajarse para pausas en el habla tan cortas como la duración de
trama, normalmente 20 ms. Por tanto pueden capturarse pausas tales
como aquellas entre sílabas. Esta técnica disminuye el factor de
actividad vocal más allá de lo que se ha considerado
tradicionalmente, ya que no sólo las pausas de larga duración entre
frases, sino también las pausas más cortas, pueden codificarse con
tasas más bajas.
Puesto que las decisiones de tasas se toman
trama a trama, no hay recorte de la parte inicial de la palabra,
tal como en un sistema de interrupción momentánea de la actividad
vocal. El recorte de esta naturaleza se produce en el sistema de
interrupción momentánea de la actividad vocal debido a un retardo
entre la detección del habla y una reanudación de la transmisión de
datos. El uso de una decisión de tasa basándose en cada trama tiene
como resultado un habla en la que todas las transiciones tienen un
sonido natural.
Con el vocodificador siempre transmitiendo, el
ruido de fondo ambiente del orador se escuchará continuamente en el
extremo de recepción, produciendo de ese modo un sonido más natural
durante las pausas del habla. La presente invención proporciona por
tanto una transición suave al ruido de fondo. Lo que escucha el
oyente en el fondo durante el habla no cambiará de repente a un
murmullo de fondo sintetizado durante las pausas, como en un sistema
de interrupción momentánea de la actividad vocal.
Debido a que el ruido de fondo se vocodifica
continuamente para su transmisión, pueden enviarse eventos
interesantes en el fondo con total claridad. En ciertos casos el
ruido de fondo interesante puede incluso codificarse con la tasa
más alta. Puede producirse codificación con la tasa máxima, por
ejemplo, cuando alguien está hablando alto en el fondo, o si pasa
una ambulancia al lado de un usuario que está en la esquina de una
calle. El ruido de fondo constante, o que varía lentamente, sin
embargo, se codificará con tasas bajas.
\newpage
El uso de vocodificación con tasa variable
promete aumentar la capacidad de un sistema telefónico celular
digital basado en el acceso múltiple por división de código (CDMA)
en más de un factor de dos. CDMA y la vocodificación con tasa
variable se corresponden unívocamente, ya que, con CDMA, la
interferencia entre canales cae automáticamente a medida que la
tasa de transmisión de datos por cualquier canal disminuye. En
contraposición, considérense sistemas en los que se asignan ranuras
de transmisión, tales como TDMA o FDMA. Con el fin de que un sistema
de este tipo se aproveche de cualquier caída en la tasa de
transmisión de datos, se requiere intervención externa para
coordinar la reasignación de ranuras no utilizadas a otros usuarios.
El retardo inherente en un esquema de este tipo implica que el
canal puede reasignarse sólo durante largas pausas del habla. Por
tanto, no puede aprovecharse totalmente el factor de actividad
vocal. Sin embargo, con coordinación externa, la vocodificación con
tasa variable es útil en sistemas distintos de CDMA, debido a las
otras razones mencionadas.
En un sistema CDMA la calidad del habla puede
degradarse ligeramente en momentos en los que se desea capacidad de
sistema adicional. Hablando en abstracto, puede pensarse en el
vocodificador como múltiples vocodificadores, funcionando todos con
tasas diferentes, con diferentes calidades del habla resultantes.
Por tanto, las calidades del habla pueden mezclarse con el fin de
reducir adicionalmente la tasa media de transmisión de datos.
Experimentos iniciales muestran que, mezclando habla vocodificada
con tasas total y media, por ejemplo, se varía la máxima tasa de
transmisión de datos admisible, trama a trama, entre 8 kbps y 4
kbps, el habla resultante tiene una calidad que es mejor que la
tasa variable media, de 4 kbps como máximo, pero no tan buena como
la tasa variable total, de 8 kbps como
máximo.
máximo.
Es bien conocido que, en la mayor parte de las
conversaciones telefónicas, sólo habla una persona a la vez. Como
función adicional para enlaces telefónicos de tipo dúplex total,
puede proporcionarse un interbloqueo de tasa. Si una dirección del
enlace está transmitiendo con la tasa de transmisión más alta,
entonces se fuerza a la otra dirección del enlace a transmitir con
la tasa más baja. Un interbloqueo entre las dos direcciones del
enlace puede garantizar no más del 50% de utilización media de cada
dirección del enlace. Sin embargo, cuando el canal se interrumpe
momentáneamente, tal como en el caso de un interbloqueo de tasa en
la interrupción momentánea de la actividad, no hay manera de que un
oyente interrumpa al orador para asumir el papel de orador en la
conversación. El procedimiento de vocodificación de la solicitud de
patente mencionada anteriormente proporciona inmediatamente la
capacidad de un interbloqueo de tasa adaptativo mediante señales de
control que establecen la tasa de vocodificación.
En la solicitud de patente mencionada
anteriormente el vocodificador se opera bien con la tasa total
cuando hay habla, o bien con un octavo de la tasa cuando no hay
habla. El funcionamiento del algoritmo de vocodificación, con la
mitad y con un cuarto de la tasa, se reserva para condiciones
especiales de capacidad afectada o cuando van a transmitirse otros
datos en paralelo con los datos del habla.
La solicitud de patente estadounidense número
5.857.147, presentada el 8 de septiembre de 1993, titulada
"Method and Apparatus for Determining the Transmission Data
Rate in a Multi-User Communication System"
["Procedimiento y Aparato para Determinar la Datos de
Transmisión de Datos en un Sistema de Comunicación
Multiusuario"], y transferida al cesionario de la presente
invención, detalla un procedimiento por el que un sistema de
comunicación, según mediciones de capacidad de sistema, limita la
tasa media de transmisión de datos de tramas codificadas mediante
un vocodificador con tasa variable. El sistema reduce la tasa media
de transmisión de datos forzando que se codifiquen tramas,
predeterminadas en una cadena de tramas con tasa total, con una tasa
menor, es decir, la mitad de la tasa. El problema de reducir la
tasa de codificación para tramas del habla activa de esta manera es
que la limitación no corresponde a ninguna característica del habla
de entrada y por tanto no está optimizada en cuanto a la calidad de
compresión del habla.
Asimismo, en la patente estadounidense número
5.341.456, transferida al cesionario de la presente invención, se
da a conocer un procedimiento para distinguir habla no vocálica de
habla vocálica. El procedimiento dado a conocer examina la energía
del habla y la inclinación espectral del habla, y utiliza la
inclinación espectral para distinguir el habla no vocálica del ruido
de fondo.
Los vocodificadores con tasa variable que varían
la tasa de codificación basándose completamente en la actividad
vocal del habla de entrada, no logran realizar la eficacia de
compresión de un codificador con tasa variable que varía la tasa de
codificación basándose en la complejidad o contenido de información
que está variando dinámicamente durante el habla activa. Haciendo
corresponder las tasas de codificación con la complejidad de la
onda de entrada, pueden construirse codificadores del habla más
eficaces. Además, los sistemas que buscan ajustar dinámicamente la
tasa de transmisión de datos de salida de los vocodificadores con
tasa variable deberían variar las tasas de transmisión de datos
según las características del habla de entrada, para conseguir una
calidad de voz óptima para una tasa media deseada de transmisión de
datos.
Se reclama atención al documento WO 92/22891,
que describe un aparato y un procedimiento para llevar a cabo la
compresión de señales del habla, mediante la codificación con tasa
variable de tramas de muestras de habla digitalizadas. Se determina
el nivel de actividad del habla para cada trama de muestras de habla
digitalizadas y se selecciona una tasa por paquetes de datos de
salida a partir de un conjunto de tasas, basándose en el nivel
determinado de actividad de habla de las tramas. La tasa más baja
del conjunto de tasas corresponde a un nivel mínimo detectado de
actividad del habla, tal como ruido de fondo o pausas del habla,
mientras que la tasa más alta corresponde a un nivel máximo
detectado de actividad del habla, tal como la vocalización activa.
Cada trama se codifica entonces según un formato de codificación
predeterminado para la tasa seleccionada, en donde cada tasa tiene
un número correspondiente de bits representativo de la trama
codificada. Se proporciona un paquete de datos para cada trama
codificada con cada paquete de datos de salida con una tasa de
transmisión de bits correspondiente a la tasa seleccionada.
\vskip1.000000\baselineskip
Según la presente invención, se proporcionan un
procedimiento de codificación de una trama de habla, según se define
en la reivindicación 1, y un aparato de determinación de tasa de
codificación, según se define en la reivindicación 12. Las
realizaciones de la invención se definen en las reivindicaciones
dependientes.
La presente invención es un procedimiento y un
aparato, novedosos y mejorados, para codificar tramas de habla
activa con una tasa de datos reducida, mediante la codificación de
tramas del habla con tasas entre una tasa máxima predeterminada y
una tasa mínima predeterminada. La presente invención designa un
conjunto de modalidades de funcionamiento del habla activa. En la
realización ejemplar de la presente invención, hay cuatro
modalidades de funcionamiento del habla activa: habla con tasa
total, habla con la mitad de la tasa, habla no vocálica con un
cuarto de la tasa y habla vocálica con un cuarto de la tasa.
Es un objetivo de la presente invención
proporcionar un procedimiento optimizado para seleccionar una
modalidad de codificación que proporcione una codificación eficaz,
en términos de tasa, del habla de entrada. Es un segundo objetivo
de la presente invención identificar un conjunto de parámetros
idealmente adecuados para esta selección de modalidad de
funcionamiento, y para proporcionar un medio a fin de generar este
conjunto de parámetros. En tercer lugar, es un objetivo de la
presente invención proporcionar identificación de dos condiciones
independientes que permitan la codificación con tasa baja, con
sacrificio mínimo de la calidad. Las dos condiciones son la
presencia de habla no vocálica y la presencia de habla temporalmente
enmascarada. Es un cuarto objetivo de la presente invención
proporcionar un procedimiento para ajustar dinámicamente la tasa
media de transmisión de datos de salida del codificador del habla,
con un impacto mínimo en la calidad del habla.
La presente invención proporciona un conjunto de
criterios de decisión de tasas, denominados medidas de modalidad.
Una primera medida de modalidad es la relación entre señal y ruido
correspondiente al objetivo (TMNSR) a partir de la trama de
codificación anterior, que proporciona información acerca de lo bien
que se corresponde el habla sintetizada con el habla de entrada o,
en otras palabras, lo bien que se está desempeñando el modelo de
codificación. Una segunda medida de modalidad es la función de
autocorrelación normalizada (NACF), que mide la periodicidad en la
trama de habla. Una tercera medida de modalidad es el parámetro de
cruces por cero (ZC), que es un procedimiento económico desde el
punto de vista del cálculo para medir el contenido de alta
frecuencia en una trama de habla de entrada. Una cuarta medida es el
diferencial de ganancia de predicción (PGD) que determina si el
modelo LPC está manteniendo su eficacia de predicción. La quinta
medida es el diferencial de energía (ED) que compara la energía en
la trama actual con una energía media de trama.
La realización ejemplar del algoritmo de
vocodificación de la presente invención usa las cinco medidas de
modalidad enumeradas anteriormente para seleccionar una modalidad de
codificación para una trama de habla activa. La lógica de
determinación de tasa de la presente invención compara la NACF con
un primer valor umbral y el ZC con un segundo valor umbral, para
determinar si el habla debería codificarse como habla no vocálica
con un cuarto de la tasa.
Si se determina que la trama de habla activa
contiene habla vocálica, entonces el vocodificador examina el
parámetro ED para determinar si la trama de habla debería
codificarse como habla vocálica con un cuarto de la tasa. Si se
determina que el habla no ha de codificarse con un cuarto de la
tasa, entonces el vocodificador prueba si el habla puede
codificarse con la mitad de la tasa. El vocodificador prueba los
valores TMSNR, PGD y NACF para determinar si la trama de habla
puede codificarse con la mitad de la tasa. Si se determina que la
trama de habla activa no puede codificarse con un cuarto o la mitad
de la tasa, entonces la trama se codifica con la tasa total.
Es un objetivo adicional proporcionar un
procedimiento para cambiar dinámicamente valores de umbral, con el
fin de adaptarse a requisitos de tasa. Variando uno o más de los
umbrales de selección de modalidad, es posible aumentar o disminuir
la tasa media de transmisión de datos. Por tanto, ajustando
dinámicamente los valores de umbral puede ajustarse una tasa de
salida.
\vskip1.000000\baselineskip
Las características, objetos y ventajas de la
presente invención se harán más evidentes a partir de la descripción
detallada expuesta a continuación, cuando se tome conjuntamente con
los dibujos, en los que caracteres de referencia similares
identifican correspondientemente a lo largo de los mismos, y en los
que:
la figura 1 es un diagrama de bloques del
aparato de determinación de la tasa de codificación de la presente
invención; y
la figura 2 es un diagrama de flujo que ilustra
el proceso de selección de la tasa de codificación de la lógica de
determinación de la tasa.
En la realización ejemplar, se codifican tramas
de habla de 160 muestras. En la realización ejemplar de la presente
invención, hay cuatro tasas de transmisión de datos: tasa total,
media tasa, un cuarto de tasa y un octavo de tasa. La tasa total
corresponde una tasa de transmisión de datos de salida de 14,4 kbps.
La media tasa corresponde a una tasa de transmisión de datos de
salida de 7,2 kbps. Un cuarto de la tasa corresponde a una tasa de
transmisión de datos de salida de 3,6 kbps. Un octavo de la tasa
corresponde a una tasa de transmisión de datos de salida de 1,8
kbps, y se reserva para la transmisión durante periodos de
silencio.
Debería observarse que la presente invención se
refiere sólo a la codificación de tramas del habla activa, tramas
en las que se detecta que tienen habla presente en las mismas. El
procedimiento para detectar la presencia del habla se detalla en
las precitadas patentes estadounidenses US 5.414.796 y
5.341.456.
Con referencia a la figura 1, el elemento 12 de
medición de modalidad determina valores de cinco parámetros
utilizados por la lógica 14 de determinación de la tasa para
seleccionar una tasa de codificación para la trama de habla activa.
En la realización ejemplar, el elemento 12 de medición de modalidad
determina cinco parámetros que proporciona a la lógica 14 de
determinación de la tasa. Basándose en los parámetros proporcionados
por el elemento 12 de medición de modalidad, la lógica 14 de
determinación de la tasa selecciona una tasa de codificación de tasa
total, media tasa o un cuarto de tasa.
La lógica 14 de determinación de tasa selecciona
una entre cuatro modalidades de codificación según los cinco
parámetros generados. Las cuatro modalidades de codificación
incluyen la modalidad de tasa total, la modalidad de media tasa, la
modalidad no vocálica de un cuarto de tasa y la modalidad vocálica
de un cuarto de tasa. La modalidad vocálica de un cuarto de tasa y
la modalidad no vocálica de un cuarto de tasa proporcionan datos
con la misma tasa, pero mediante distintas estrategias de
codificación. La modalidad de media tasa se usa para codificar
habla bien modelada, periódica y estática. Tanto la modalidad
vocálica de un cuarto de tasa, como la no vocálica de un cuarto de
tasa, así como la de media tasa, aprovechan partes del habla que no
requieren alta precisión en la codificación de la trama.
La modalidad no vocálica de un cuarto de tasa se
utiliza en la codificación de habla no vocálica. La modalidad
vocálica de un cuarto de tasa se utiliza en la codificación de
tramas de habla temporalmente enmascaradas. La mayor parte de los
codificadores CELP de habla aprovechan el enmascaramiento simultáneo
en el que la energía del habla, a una frecuencia dada, oculta por
enmascaramiento la energía de ruido a la misma frecuencia y al
mismo tiempo, haciendo el ruido inaudible. Los codificadores de
habla con tasa variable pueden aprovechar el enmascaramiento
temporal con el que se enmascaran tramas de habla activa de energía
baja, mediante tramas precedentes de habla de energía alta, de
contenido de frecuencia similar. Debido a que el oído humano está
integrando energía a lo largo del tiempo en varias bandas de
frecuencia, las tramas de energía baja se promedian en el tiempo
con las tramas de energía alta, reduciendo de ese modo los
requisitos de codificación para las tramas de energía baja.
Aprovechar estos fenómenos auditivos de enmascaramiento temporal
permite al codificador de habla con tasa variable reducir la tasa
de codificación durante esta modalidad del habla. Este fenómeno
psicoacústico se detalla en Psychoacoustics de E. Zwicker y
H. Fastl, páginas 56 a 101.
El elemento 12 de medición de modalidad recibe
cuatro señales de entrada con las que genera los cinco parámetros
de modalidad. La primera señal que recibe el elemento 12 de medición
de modalidad es S(n), que son las muestras no codificadas
del habla de entrada. En la realización ejemplar, las muestras de
habla se proporcionan en tramas que contienen 160 muestras de
habla. Todas las tramas de habla que se proporcionan al elemento 12
de medición de modalidad contienen habla activa. Durante periodos
de silencio, el sistema de determinación de la tasa del habla activa
de la presente invención está inactivo.
La segunda señal que recibe el elemento 12 de
medición de modalidad es la señal de habla sintetizada,
\hat{S}(n), que es el habla descodificada del
descodificador del codificador, del codificador CELP con tasa
variable. El descodificador del codificador descodifica una trama
de habla codificada con el fin de actualizar parámetros de filtro y
memorias, en análisis mediante el codificador CELP basado en
síntesis. El diseño de descodificadores de este tipo se conoce
ampliamente en la técnica y se detalla en la precitada patente
estadounidense 5.414.796.
La tercera señal que recibe el elemento 12 de
medición de modalidad es la señal e(n) residual formante. La
señal residual formante es la señal S(n) del habla filtrada
por el filtro de codificación de predicción lineal (LPC) del
codificador CELP. El diseño de filtros LPC y el filtrado de señales
mediante filtros de este tipo se conoce ampliamente en la técnica y
se detalla en la precitada patente estadounidense 5.414.796. La
cuarta entrada para el elemento 12 de medición de modalidad es
A(z), que son los valores de sangría de filtro del filtro de
ponderación perceptiva del codificador CELP asociado. La generación
de los valores de sangría, y la operación de filtrado de un filtro
de ponderación perceptiva se conocen ampliamente en la técnica y se
detallan en la solicitud de patente estadounidense con número de
serie 08/004.484.
El elemento 2 de cálculo de la relación entre
señal y ruido (SNR) correspondiente al objetivo recibe la señal del
habla sintetizada, \hat{S}(n), las muestras S(n) del
habla y un conjunto de valores A(z) de sangría de filtro de
ponderación perceptiva. El elemento 2 de cálculo de SNR
correspondiente al objetivo proporciona un parámetro, denominado
TMSNR, que indica cuán correctamente el modelo del habla está
rastreando el habla de entrada. El elemento 2 de cálculo de SNR
correspondiente al objetivo genera TMSNR según la siguiente ecuación
1:
en la que el subíndice w indica que
la señal se ha filtrado mediante un filtro de ponderación
perceptiva. Obsérvese que esta medida se calcula para la trama de
habla anterior, mientras que NACF, PGD, ED, ZC se calculan sobre la
trama de habla actual. TMSNR se calcula sobre la trama de habla
anterior, ya que está en función de la tasa de codificación
seleccionada y por tanto, por razones de complejidad de cálculo, se
calcula sobre la trama anterior a la trama que está
codificándose.
\vskip1.000000\baselineskip
El diseño y la implementación de filtros de
ponderación perceptiva son ampliamente conocidos en la técnica y se
detallan en la patente estadounidense US 5.414.796 mencionada
anteriormente. Debería observarse que la ponderación perceptiva se
prefiere para ponderar las características significativas en cuanto
a percepción de la trama de habla. Sin embargo, se prevé que la
medición podría realizarse sin ponderar las señales en cuanto a
percepción.
El elemento 4 de cálculo de autocorrelación
normalizada recibe la señal residual formante, e(n). La
función del elemento 4 de cálculo de autocorrelación normalizada es
proporcionar una indicación de periodicidad de las muestras en la
trama de habla. El elemento 4 de cálculo de autocorrelación
normalizada genera un parámetro, indicado por NACF, según la
siguiente ecuación 2:
Debería observarse que la generación de este
parámetro requiere memoria de la señal residual formante a partir de
la codificación de la trama anterior. Esto permite probar no sólo la
periodicidad de la trama actual, sino que también prueba la
periodicidad de la trama actual con la trama anterior.
La razón por la que en la realización preferida
se utiliza la señal residual formante, e(n), en lugar de las
muestras de habla, S(n), que podrían utilizarse para generar
NACF, es eliminar la interacción de las formantes de la señal de
habla. Pasar la señal de habla a través del filtro formante sirve
para alisar la envolvente del habla y así blanquear la señal
resultante. Debería observarse que los valores de retardo T en la
realización ejemplar corresponden a frecuencias de altura tonal
entre 66 Hz y 400 Hz para una frecuencia de muestreo de 8000
muestras por segundo. La frecuencia de altura tonal para un valor T
de retardo dado se calcula mediante la siguiente ecuación 3:
donde f_{s} es la frecuencia de
muestreo.
\vskip1.000000\baselineskip
Debería observarse que el intervalo de
frecuencias puede extenderse o reducirse simplemente seleccionando
un conjunto diferente de valores de retardo. Debería observarse
también que la presente invención puede aplicarse igualmente a
cualquier frecuencia de muestreo.
\newpage
El contador 6 de cruces por cero recibe las
muestras S(n) de habla y cuenta el número de veces que las
muestras del habla cambian de signo. Este es un procedimiento,
económico desde el punto de vista del cálculo, de detección de
componentes de alta frecuencia en la señal de habla. Este contador
puede implementarse en software mediante un bucle de la forma:
El bucle de las ecuaciones 4 a 6 multiplica
muestras de habla consecutivas y comprueba si el producto es menor
que cero, lo que indica que el signo entre las dos muestras
consecutivas difiere. Esto supone que no hay componente DC para la
señal de habla. Se conoce bien en la técnica cómo eliminar
componentes DC de las señales.
El elemento 8 de diferencial de ganancia de
predicción recibe la señal S(n) de habla y la señal
e(n) residual formante. El elemento 8 de diferencial de
ganancia de predicción genera un parámetro indicado por PGD, que
determina si el modelo LPC está manteniendo su eficacia de
predicción. El elemento 8 de diferencial de ganancia de predicción
genera la ganancia de predicción, Pg, según la siguiente ecuación
7:
La ganancia de predicción de la trama presente
se compara entonces con la ganancia de predicción de la trama
anterior para generar el parámetro PGD de salida mediante la
siguiente ecuación 8:
en la que i indica el número de
trama.
\vskip1.000000\baselineskip
En una realización preferida, el elemento 8 de
diferencial de ganancia de predicción no genera los valores Pg de
ganancia de predicción. En la generación de los coeficientes LPC un
derivado de la recursión de Durbin es la ganancia Pg de predicción,
por lo que no es necesaria una repetición del cálculo.
El elemento 10 de diferencial de energía de
trama recibe las muestras s(n) de habla de la trama presente
y calcula la energía de la señal de habla en la trama presente según
la siguiente ecuación 9:
La energía de la trama presente se compara con
una energía media de tramas anteriores E_{med}. En la realización
ejemplar, la energía media, E_{med} se genera mediante un
integrador con fugas de la forma:
El factor, \alpha, determina el intervalo de
tramas que son relevantes en el cálculo. En la realización ejemplar,
\alpha se establece en 0,8825, lo que proporciona un tiempo
constante de 8 tramas. El elemento 10 de diferencial de energía de
trama genera entonces el parámetro ED según la siguiente ecuación
11:
Los cinco parámetros, TMSNR, NACF, ZC, PGD y ED
se proporcionan a la lógica 14 de determinación de la tasa. La
lógica 14 de determinación de la tasa selecciona una tasa de
codificación para la siguiente trama de muestras según los
parámetros, y un conjunto predeterminado de reglas de selección. Con
referencia ahora a la figura 2, se muestra un diagrama de flujo que
ilustra el proceso de selección de la tasa del elemento 14 de lógica
de determinación de la tasa de transmisión.
El proceso de determinación de la tasa comienza
en el bloque 18. En el bloque 20, la salida del elemento 4 de
autocorrelación normalizada, NACF, se compara con un valor umbral
predeterminado, THR1 y la salida del contador de cruces por cero se
compara con un segundo umbral predeterminado, THR2. Si NACF es menor
que THR1 y ZC es mayor que THR2, entonces el flujo continúa en el
bloque 22, que codifica el habla como no vocálica, de un cuarto de
tasa. Si NACF fuera menor que un umbral predeterminado, indicaría
una falta de periodicidad en el habla, y si ZC fuera mayor que un
umbral predeterminado indicaría un componente de alta frecuencia en
el habla. La combinación de estas dos condiciones indica que la
trama contiene habla no vocálica. En la realización ejemplar THR1
es 0,35 y THR2 es de 50 cruces por cero. Si NACF no es menor que
THR1 o ZC no es mayor que THR2, entonces el flujo continúa en el
bloque 24.
En el bloque 24, la salida del elemento 10 de
diferencial de energía de trama, ED, se compara con un tercer valor
umbral, THR3. Si ED es menor que THR3, entonces la trama de habla
actual se codificará como habla vocálica con un cuarto de tasa en
el bloque 26. Si la diferencia de energía entre la trama actual es
menor que la media en una cantidad mayor que una magnitud umbral,
entonces se indica una condición de habla temporalmente enmascarada.
En la realización ejemplar, THR3 es -14dB. Si ED no supera THR3
entonces el flujo continúa en el bloque 28.
En el bloque 28, la salida del elemento 2 de
cálculo de SNR correspondiente al objetivo, TMSNR, se compara con
un cuarto valor umbral, THR4; la salida del elemento 8 de
diferencial de ganancia de predicción, PGD, se compara con un
quinto valor umbral, THR5; y la salida del elemento 4 de cálculo de
autocorrelación normalizada, NACF, se compara con un sexto valor
umbral, THR6. Si TMSNR supera THR4; PGD es menor que THR5; y NACF
supera THR6, entonces el flujo continúa en el bloque 30 y el habla
se codifica con la mitad de la tasa. Si TMSNR supera su umbral,
indicará que el modelo y el habla que está modelándose se
correspondían correctamente en la trama anterior. Si el parámetro
PGD es menor que su umbral predeterminado, indica que el modelo LPC
está manteniendo su eficacia de predicción. Si el parámetro NACF
supera su umbral predeterminado, indica que la trama contiene habla
periódica que es periódica con la trama de habla anterior.
En la realización ejemplar, THR4 se establece
inicialmente en 10 dB, THR5 se establece en -5 dB y THR6 se
establece en 0,4. En el bloque 28, si TMSNR no supera THR4, o PGD no
supera THR5, o NACF no supera THR6, entonces el flujo continúa en
el bloque 32 y la trama de habla actual se codificará con la tasa
total.
Ajustando dinámicamente los valores umbral puede
lograrse una tasa de transmisión de datos global arbitraria. La tasa
media de transmisión de datos del habla activa global, R, puede
definirse para tramas de habla activa de ventana W de análisis
como:
en la
que
R_{f} es la tasa de transmisión de datos para
tramas codificadas con tasa total,
R_{h} es la tasa de transmisión de datos para
tramas codificadas con la mitad de la tasa,
R_{q} es la tasa de transmisión de datos para
tramas codificadas con un cuarto de la tasa, y
W = #tramas R_{f} + # tramas R_{h} + #
tramas R_{q} .
\newpage
Multiplicando cada una de las tasas de
codificación por el número de tramas codificadas con esa tasa, y
después dividiendo entre el número total de tramas en la muestra,
puede calcularse una tasa media de transmisión de datos para la
muestra de habla activa. Es importante tener un tamaño de muestra de
trama, W, lo suficientemente grande para impedir que una larga
duración del habla no vocálica, tal como sonidos "s"
prolongados, distorsione la estadística de tasa media. En la
realización ejemplar, el tamaño de muestra de trama, W, para el
cálculo de la tasa media es de 400 tramas.
La tasa media de transmisión de datos puede
disminuirse aumentando el número de tramas codificadas con una tasa
total que va a codificarse a la mitad de la tasa y, a la inversa, la
tasa media de transmisión de datos puede aumentarse aumentando el
número de tramas codificadas con la mitad de la tasa que va a
codificarse con una tasa total. En una realización preferida, el
umbral que se ajusta para efectuar este cambio es THR4. En la
realización ejemplar se almacena un histograma de los valores de
TSNR. En la realización ejemplar, los valores TMSNR almacenados se
cuantizan en valores de un número entero de decibelios a partir del
valor actual de THR4. Manteniendo un histograma de este tipo puede
estimarse fácilmente cuántas tramas habrían cambiado en el bloque
de análisis anterior, de codificarse con tasa total a codificarse
con la mitad de la tasa, si el THR4 se disminuyera un número entero
de decibelios. A la inversa, una estimación de cuántas tramas
codificadas con la mitad de la tasa se codificarían con la tasa
total si se aumentara el umbral en un número entero de
decibelios.
La ecuación para determinar el número de tramas
que deberían cambiar de tramas con 1/2 de la tasa a tramas con la
tasa total se determina por la ecuación:
donde
\Delta es el número de tramas codificadas con
la mitad de la tasa que deberían codificarse con tasa total con el
fin de conseguir la tasa objetivo, y
W = # tramas R_{f} + # tramas R_{h} + #
tramas R_{q} .
TMSNR_{NUEV} = TMSNR_{VIEJ} + (el número de
dB desde TMSNR_{VIEJ} para conseguir diferencias \Deltatrama
definidas en la anterior ecuación 13).
\vskip1.000000\baselineskip
Obsérvese que el valor inicial de TMSNR está en
función de la tasa objetivo deseada. En una realización ejemplar de
una tasa objetivo de 8,7 kbps, en un sistema con R_{f}=14,4 kbps,
R_{f}=7,2 kbps, R_{q}=3,6 kbps, el valor inicial de TMSNR es de
10 dB. Debería observarse que la cuantización de los valores TMSNR a
números enteros para la distancia desde el umbral THR4 puede
fácilmente afinarse más, tal como a la mitad o un cuarto de los
decibelios, o puede afinarse menos, tal como a uno y medio o dos
decibelios.
Se prevé que la tasa objetivo puede almacenarse
bien en un elemento de memoria o bien en un elemento 14 de lógica
de determinación de tasa, en cuyo caso la tasa objetivo sería un
valor estático según el cual el valor THR4 se determinaría
dinámicamente. Además, con esta tasa objetivo inicial, se prevé que
el sistema de comunicación pueda transmitir una señal de comando de
tasa al aparato de selección de la tasa de codificación, basándose
en las condiciones de capacidad actuales del sistema.
La señal de comando de tasa podría bien
especificar la tasa objetivo o bien simplemente podría solicitar un
aumento o un descenso en la tasa media. Si el sistema especificara
la tasa objetivo, esa tasa se utilizaría para determinar el valor
de THR4 según las ecuaciones 12 y 13. Si el sistema especificara
sólo que el usuario debería transmitir con una tasa de transmisión
más alta o más baja, entonces el elemento 14 de lógica de
determinación de tasa puede responder cambiando el valor THR4 por
un aumento predeterminado, o puede calcular un cambio incremental
según un aumento o un descenso incremental predeterminado en la
tasa.
Los bloques 22 y 26 indican una diferencia en el
procedimiento de codificar el habla, basándose en si las muestras
del habla representan habla vocálica o no vocálica. El habla no
vocálica es habla en la forma de fricativas y sonidos consonánticos
tales como "f", "s", "sh", "t" y "z". El
habla vocálica con un cuarto de tasa es habla temporalmente
enmascarada donde una trama de habla a bajo volumen sigue a una
trama de habla a volumen relativamente alto de contenido de
frecuencia similar. El oído humano no puede escuchar los matices
finos del habla en la trama de volumen bajo que sigue a tramas de
volumen alto, de modo que pueden ahorrarse bits codificando esta
habla con un cuarto de la tasa.
En la realización ejemplar de codificación de
habla no vocálica con un cuarto de la tasa, una trama de habla se
divide en cuatro subtramas. Todo lo que se transmite para cada una
de las cuatro subtramas es un valor G de ganancia y los
coeficientes del filtro LPC. En la realización ejemplar, se
transmiten cinco bits para representar la ganancia en cada
subtrama. En un descodificador, para cada subtrama, se selecciona
aleatoriamente un índice del libro de códigos. El vector del libro
de códigos seleccionado aleatoriamente se multiplica por el valor
de ganancia transmitido y se pasa a través del filtro LPC, para
generar el habla no vocálica sintetizada.
En la codificación del habla vocálica con un
cuarto de la tasa, una trama de habla se divide en dos subtramas y
el codificador CELP determina un índice y ganancia del libro de
códigos para cada una de las dos subtramas. En la realización
ejemplar, se asignan cinco bits para indicar un índice del libro de
códigos y otros cinco bits se asignan para especificar un valor de
ganancia correspondiente. En la realización ejemplar, el libro de
códigos utilizado para la codificación vocálica con un cuarto de
tasa es un subconjunto de los vectores del libro de códigos,
utilizado para la codificación con media tasa y con la tasa total.
En la realización ejemplar, se utilizan siete bits para especificar
un índice del libro de códigos en las modalidades de codificación de
media tasa y tasa total.
En la figura 1, los bloques pueden implementarse
como bloques estructurales para realizar las funciones designadas,
o los bloques pueden representar funciones realizadas en la
programación de un procesador de señales digitales (DSP), o un
circuito integrado de aplicación específica ASIC. La descripción de
la funcionalidad de la presente invención permitiría a cualquiera
medianamente versado implementar la presente invención en un DSP o
un ASIC sin excesiva experimentación.
La descripción anterior de las realizaciones
preferidas se proporciona para permitir a cualquier persona versada
en la técnica realizar o utilizar la presente invención. Las
diversas modificaciones de estas realizaciones serán inmediatamente
evidentes para los versados en la técnica, y los principios
genéricos definidos en el presente documento pueden aplicarse a
otras realizaciones sin el uso de la facultad inventiva. Por tanto,
la presente invención no pretende limitarse a las realizaciones
mostradas en el presente documento, sino que ha de otorgársele el
alcance más amplio coherente con las reivindicaciones adjuntas.
Claims (24)
1. Un procedimiento para codificar una trama de
habla, que comprende las etapas de:
- derivar una pluralidad de parámetros de trama;
- seleccionar (20) una primera modalidad de codificación, si un parámetro derivado de medición de autocorrelación normalizada (NACF) es superado por un primer valor de umbral, y si un parámetro contador de cruces por cero (ZC) supera un segundo valor de umbral;
- seleccionar (24) una segunda modalidad de codificación si la primera modalidad de codificación no es seleccionada, y si un parámetro derivado (ED) de medición diferencial de energía es superado por un tercer valor de umbral, en donde el parámetro derivado (ED) de medición diferencial de energía indica una diferencia en energía entre una trama actual y las tramas anteriores;
- seleccionar (28) una tercera modalidad de codificación si las modalidades de codificación primera y segunda no son seleccionadas y si un parámetro derivado de calidad de codificación (TMSNR) supera un cuarto nivel de umbral, y si un parámetro derivado de medición de diferencial de ganancia de predicción (PGD) es superado por un quinto nivel de umbral, y si el parámetro derivado de medición de autocorrelación normalizada (NACF) supera un sexto valor de umbral, en donde el parámetro derivado de calidad de codificación (TMSNR) indica el desempeño de un modelo de codificación;
- seleccionar una cuarta modalidad de codificación si las modalidades de codificación primera, segunda y tercera no se seleccionan; y
- codificar la trama de voz según la modalidad de codificación seleccionada.
\vskip1.000000\baselineskip
2. El procedimiento de la reivindicación 1, en
el cual la primera modalidad de codificación es una modalidad de
codificación del habla no vocálica, de un cuarto de tasa, la segunda
modalidad de codificación es una modalidad de codificación del habla
vocálica, de un cuarto de tasa, la tercera modalidad de codificación
es una modalidad de codificación de media tasa y la cuarta modalidad
de codificación es una modalidad de codificación de tasa
completa.
3. El procedimiento de la reivindicación 2, en
el cual la modalidad de codificación del habla no vocálica, de
cuarto de tasa, comprende dividir la trama de habla entre cuatro
subtramas, y transmitir una pluralidad de coeficientes de filtrado
de codificación predictiva lineal y, para cada subtrama, un valor de
ganancia.
4. El procedimiento de la reivindicación 3, en
el cual el valor de ganancia está representado por cinco bits
digitales.
5. El procedimiento de la reivindicación 4, en
el cual la modalidad de codificación del habla vocálica, de un
cuarto de tasa, comprende dividir la trama de habla entre dos
subtramas, y determinar, para cada subtrama, un índice del libro de
códigos y un valor de ganancia.
6. El procedimiento de la reivindicación 5, en
el cual el valor de ganancia está representado por cinco bits
digitales, y el índice del libro de códigos está representado por
cinco bits digitales.
7. El procedimiento de la reivindicación 6, en
el cual el parámetro de calidad de codificación es una razón que
indica una coincidencia entre una trama de habla anterior y una
trama de habla sintetizada derivada de la misma.
8. El procedimiento de la reivindicación 7, que
comprende adicionalmente la etapa de variar al menos uno entre los
valores de umbral para ajustar una tasa media de codificación para
una pluralidad de tramas de habla.
9. El procedimiento de la reivindicación 8, en
el cual el valor de umbral es el cuarto valor de umbral.
10. El procedimiento de la reivindicación 8, en
el cual la tasa media de codificación se reduce codificando una
pluralidad de tramas de habla a la mitad de la tasa, en donde la
pluralidad de tramas de habla codificadas a la mitad de la tasa son
tramas de habla que fueron seleccionadas para ser codificadas con la
tasa completa.
11. El procedimiento de la reivindicación 8, en
el cual la tasa media de codificación se aumenta codificando una
pluralidad de tramas de habla con la tasa completa, en donde la
pluralidad de tramas de habla codificadas con la tasa completa son
tramas de habla que fueron seleccionadas para ser codificadas con la
mitad de la tasa.
12. Un aparato de determinación de tasa de
codificación en un codificador del habla, para codificar una trama
de habla, que comprende:
- medios (12) para derivar una pluralidad de parámetros de trama; y
- medios (14) para seleccionar una primera modalidad de codificación si un parámetro derivado de medición de autocorrelación normalizada (NACF) es superado por un primer valor de umbral, y si un parámetro derivado del contador de cruces por el cero (ZC) supera un segundo valor de umbral; seleccionar una segunda modalidad de codificación si no se selecciona la primera modalidad de codificación y si un parámetro derivado de medición diferencial de energía (ED) es superado por un tercer valor de umbral; seleccionar una tercera modalidad de codificación si las modalidades de codificación primera y segunda no son seleccionadas, y si un parámetro derivado de calidad de codificación (TMSNR) supera un cuarto valor de umbral, y si un parámetro derivado de medición de diferencial de ganancia de predicción (PGD) es superado por un quinto valor de umbral, y si el parámetro derivado de medición de autocorrelación normalizada (NACF) supera un sexto valor de umbral; y seleccionar una cuarta modalidad de codificación si las modalidades de codificación primera, segunda y tercera no son seleccionadas, en donde el parámetro derivado de medición de diferencial de energía (ED) indica una diferencia en energía entre una trama actual y las tramas anteriores, y el parámetro derivado de calidad de codificación (TMSNR) indica el desempeño de un modelo de codificación.
\vskip1.000000\baselineskip
13. El aparato de la reivindicación 12, en el
cual la primera modalidad de codificación es una modalidad de
codificación del habla no vocálica, de un cuarto de tasa, la segunda
modalidad de codificación es una modalidad de codificación del habla
vocálica, de un cuarto de tasa, la tercera modalidad de codificación
es una modalidad de codificación de media tasa, y la cuarta
modalidad de codificación es una modalidad de codificación de tasa
completa.
14. El aparato de la reivindicación 13, en el
cual la modalidad de codificación del habla no vocálica, de un
cuarto de tasa, comprende dividir la trama de habla entre cuatro
subtramas, y transmitir una pluralidad de coeficientes de filtrado
de codificación predictiva lineal y, para cada subtrama, un valor de
ganancia.
15. El aparato de la reivindicación 14, en el
cual el valor de ganancia está representado por cinco bits
digitales.
16. El aparato de la reivindicación 13, en el
cual la modalidad de codificación de habla vocálica, de un cuarto de
tasa, comprende dividir la trama de habla entre dos subtramas y
determinar, para cada subtrama, un índice del libro de códigos y un
valor de ganancia.
17. El aparato de la reivindicación 16, en el
cual el valor de ganancia está representado por cinco bits
digitales, y el índice del libro de códigos está representado por
cinco bits digitales.
18. El aparato de la reivindicación 12, en el
cual el parámetro de calidad de codificación es una razón que indica
una coincidencia entre una trama anterior de habla y una trama de
habla sintetizada derivada de la misma.
19. El aparato de la reivindicación 12, que
comprende adicionalmente medios para variar al menos uno de los
valores de umbral, a fin de ajustar una tasa media de codificación
para una pluralidad de tramas de habla.
20. El aparato de la reivindicación 19, en el
cual el valor de umbral es el cuarto valor de umbral.
21. El aparato de la reivindicación 19, en el
cual la tasa media de codificación se reduce codificando una
pluralidad de tramas de habla a media tasa, en donde la pluralidad
de tramas de habla codificadas a media tasa son tramas de habla que
fueron seleccionadas para ser codificadas con tasa completa.
22. El aparato de la reivindicación 19, en el
cual la tasa media de codificación se aumenta codificando una
pluralidad de tramas de habla a tasa completa, en donde la
pluralidad de tramas de habla codificadas a tasa completa son tramas
de habla que fueron seleccionadas para ser codificadas a media
tasa.
23. El aparato de cualquiera de las
reivindicaciones 12 a 22, en el cual dichos medios (12) para derivar
una pluralidad de parámetros de trama comprenden un calculador de
mediciones (12) de modalidad, configurado para derivar dicha
pluralidad de parámetros de trama; y en el cual dichos medios (14)
para seleccionar comprenden una lógica (14) de determinación de
tasa.
24. Un medio legible por procesador, con
instrucciones que son ejecutables para llevar a cabo las etapas de
la reivindicación 1.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US28684294A | 1994-08-05 | 1994-08-05 | |
US286842 | 1994-08-05 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2343948T3 true ES2343948T3 (es) | 2010-08-13 |
Family
ID=23100400
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES95928266T Expired - Lifetime ES2299175T3 (es) | 1994-08-05 | 1995-08-01 | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. |
ES03005273T Expired - Lifetime ES2343948T3 (es) | 1994-08-05 | 1995-08-01 | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES95928266T Expired - Lifetime ES2299175T3 (es) | 1994-08-05 | 1995-08-01 | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. |
Country Status (18)
Country | Link |
---|---|
US (3) | US5911128A (es) |
EP (2) | EP0722603B1 (es) |
JP (4) | JP3611858B2 (es) |
KR (1) | KR100399648B1 (es) |
CN (1) | CN1144180C (es) |
AT (2) | ATE470932T1 (es) |
AU (1) | AU689628B2 (es) |
BR (1) | BR9506307B1 (es) |
CA (1) | CA2172062C (es) |
DE (2) | DE69536082D1 (es) |
ES (2) | ES2299175T3 (es) |
FI (2) | FI120327B (es) |
IL (1) | IL114819A (es) |
MY (3) | MY114777A (es) |
RU (1) | RU2146394C1 (es) |
TW (1) | TW271524B (es) |
WO (1) | WO1996004646A1 (es) |
ZA (1) | ZA956078B (es) |
Families Citing this family (156)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW271524B (es) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
WO1997036397A1 (en) * | 1996-03-27 | 1997-10-02 | Motorola Inc. | Method and apparatus for providing a multi-party speech connection for use in a wireless communication system |
US6765904B1 (en) | 1999-08-10 | 2004-07-20 | Texas Instruments Incorporated | Packet networks |
US7024355B2 (en) * | 1997-01-27 | 2006-04-04 | Nec Corporation | Speech coder/decoder |
US6104993A (en) * | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
US6167375A (en) * | 1997-03-17 | 2000-12-26 | Kabushiki Kaisha Toshiba | Method for encoding and decoding a speech signal including background noise |
DE69831991T2 (de) * | 1997-03-25 | 2006-07-27 | Koninklijke Philips Electronics N.V. | Verfahren und Vorrichtung zur Sprachdetektion |
US6466912B1 (en) * | 1997-09-25 | 2002-10-15 | At&T Corp. | Perceptual coding of audio signals employing envelope uncertainty |
US6366704B1 (en) * | 1997-12-01 | 2002-04-02 | Sharp Laboratories Of America, Inc. | Method and apparatus for a delay-adaptive rate control scheme for the frame layer |
KR100269216B1 (ko) * | 1998-04-16 | 2000-10-16 | 윤종용 | 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법 |
US7346063B1 (en) * | 1998-07-08 | 2008-03-18 | Broadcom Corporation | Memory management unit for a network switch |
US6226618B1 (en) * | 1998-08-13 | 2001-05-01 | International Business Machines Corporation | Electronic content delivery system |
JP3893763B2 (ja) * | 1998-08-17 | 2007-03-14 | 富士ゼロックス株式会社 | 音声検出装置 |
JP4308345B2 (ja) * | 1998-08-21 | 2009-08-05 | パナソニック株式会社 | マルチモード音声符号化装置及び復号化装置 |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6711540B1 (en) * | 1998-09-25 | 2004-03-23 | Legerity, Inc. | Tone detector with noise detection and dynamic thresholding for robust performance |
US6574334B1 (en) | 1998-09-25 | 2003-06-03 | Legerity, Inc. | Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors |
JP3152217B2 (ja) * | 1998-10-09 | 2001-04-03 | 日本電気株式会社 | 有線伝送装置及び有線伝送方法 |
US6691084B2 (en) | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
CA2356869C (en) * | 1998-12-28 | 2004-11-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and devices for coding or decoding an audio signal or bit stream |
US6226607B1 (en) * | 1999-02-08 | 2001-05-01 | Qualcomm Incorporated | Method and apparatus for eighth-rate random number generation for speech coders |
EP1159738B1 (en) * | 1999-02-08 | 2006-04-05 | QUALCOMM Incorporated | Speech synthesizer based on variable rate speech coding |
US6519259B1 (en) * | 1999-02-18 | 2003-02-11 | Avaya Technology Corp. | Methods and apparatus for improved transmission of voice information in packet-based communication systems |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6954727B1 (en) * | 1999-05-28 | 2005-10-11 | Koninklijke Philips Electronics N.V. | Reducing artifact generation in a vocoder |
JP4438127B2 (ja) * | 1999-06-18 | 2010-03-24 | ソニー株式会社 | 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体 |
US6766291B2 (en) * | 1999-06-18 | 2004-07-20 | Nortel Networks Limited | Method and apparatus for controlling the transition of an audio signal converter between two operative modes based on a certain characteristic of the audio input signal |
KR100549552B1 (ko) * | 1999-07-05 | 2006-02-08 | 노키아 코포레이션 | 코딩 방법의 선택 방법 |
CA2341577C (en) * | 1999-07-08 | 2005-01-11 | Samsung Electronics Co., Ltd. | Data rate detection device and method for a mobile communication system |
US6393394B1 (en) | 1999-07-19 | 2002-05-21 | Qualcomm Incorporated | Method and apparatus for interleaving line spectral information quantization methods in a speech coder |
US6330532B1 (en) * | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US6324503B1 (en) | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions |
US6397175B1 (en) | 1999-07-19 | 2002-05-28 | Qualcomm Incorporated | Method and apparatus for subsampling phase spectrum information |
US6757256B1 (en) | 1999-08-10 | 2004-06-29 | Texas Instruments Incorporated | Process of sending packets of real-time information |
US6801532B1 (en) | 1999-08-10 | 2004-10-05 | Texas Instruments Incorporated | Packet reconstruction processes for packet communications |
US6801499B1 (en) | 1999-08-10 | 2004-10-05 | Texas Instruments Incorporated | Diversity schemes for packet communications |
US6744757B1 (en) | 1999-08-10 | 2004-06-01 | Texas Instruments Incorporated | Private branch exchange systems for packet communications |
US6804244B1 (en) | 1999-08-10 | 2004-10-12 | Texas Instruments Incorporated | Integrated circuits for packet communications |
US6678267B1 (en) | 1999-08-10 | 2004-01-13 | Texas Instruments Incorporated | Wireless telephone with excitation reconstruction of lost packet |
US6505152B1 (en) | 1999-09-03 | 2003-01-07 | Microsoft Corporation | Method and apparatus for using formant models in speech systems |
US6574593B1 (en) * | 1999-09-22 | 2003-06-03 | Conexant Systems, Inc. | Codebook tables for encoding and decoding |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
AU2003262451B2 (en) * | 1999-09-22 | 2006-01-19 | Macom Technology Solutions Holdings, Inc. | Multimode speech encoder |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6604070B1 (en) | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6772126B1 (en) * | 1999-09-30 | 2004-08-03 | Motorola, Inc. | Method and apparatus for transferring low bit rate digital voice messages using incremental messages |
US6438518B1 (en) * | 1999-10-28 | 2002-08-20 | Qualcomm Incorporated | Method and apparatus for using coding scheme selection patterns in a predictive speech coder to reduce sensitivity to frame error conditions |
US7574351B2 (en) * | 1999-12-14 | 2009-08-11 | Texas Instruments Incorporated | Arranging CELP information of one frame in a second packet |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US7127390B1 (en) * | 2000-02-08 | 2006-10-24 | Mindspeed Technologies, Inc. | Rate determination coding |
US6757301B1 (en) * | 2000-03-14 | 2004-06-29 | Cisco Technology, Inc. | Detection of ending of fax/modem communication between a telephone line and a network for switching router to compressed mode |
US6901362B1 (en) | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
DE60137376D1 (de) * | 2000-04-24 | 2009-02-26 | Qualcomm Inc | Verfahren und Vorrichtung zur prädiktiven Quantisierung von stimmhaften Sprachsignalen |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
JP4221537B2 (ja) * | 2000-06-02 | 2009-02-12 | 日本電気株式会社 | 音声検出方法及び装置とその記録媒体 |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US6477502B1 (en) | 2000-08-22 | 2002-11-05 | Qualcomm Incorporated | Method and apparatus for using non-symmetric speech coders to produce non-symmetric links in a wireless communication system |
US6640208B1 (en) * | 2000-09-12 | 2003-10-28 | Motorola, Inc. | Voiced/unvoiced speech classifier |
ES2267457T3 (es) * | 2000-11-09 | 2007-03-16 | Koninklijke Kpn N.V. | Medicion de la calidad de la voz de un enlace telefonico en una red de telecomunicaciones. |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7505594B2 (en) * | 2000-12-19 | 2009-03-17 | Qualcomm Incorporated | Discontinuous transmission (DTX) controller system and method |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US7013269B1 (en) * | 2001-02-13 | 2006-03-14 | Hughes Electronics Corporation | Voicing measure for a speech CODEC system |
US7072908B2 (en) * | 2001-03-26 | 2006-07-04 | Microsoft Corporation | Methods and systems for synchronizing visualizations with audio streams |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US6658383B2 (en) | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
WO2003021573A1 (fr) * | 2001-08-31 | 2003-03-13 | Fujitsu Limited | Codec |
WO2003042648A1 (fr) * | 2001-11-16 | 2003-05-22 | Matsushita Electric Industrial Co., Ltd. | Codeur de signal vocal, decodeur de signal vocal, procede de codage de signal vocal et procede de decodage de signal vocal |
US6785645B2 (en) | 2001-11-29 | 2004-08-31 | Microsoft Corporation | Real-time speech and music classifier |
US6647366B2 (en) * | 2001-12-28 | 2003-11-11 | Microsoft Corporation | Rate control strategies for speech and music coding |
US7321559B2 (en) * | 2002-06-28 | 2008-01-22 | Lucent Technologies Inc | System and method of noise reduction in receiving wireless transmission of packetized audio signals |
CA2392640A1 (en) * | 2002-07-05 | 2004-01-05 | Voiceage Corporation | A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems |
AU2003278013A1 (en) * | 2002-10-11 | 2004-05-04 | Voiceage Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US7657427B2 (en) | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
FI20021936A7 (fi) * | 2002-10-31 | 2004-05-01 | Nokia Corp | Vaihtuvanopeuksinen puhekoodekki |
US7698132B2 (en) * | 2002-12-17 | 2010-04-13 | Qualcomm Incorporated | Sub-sampled excitation waveform codebooks |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
US7613606B2 (en) * | 2003-10-02 | 2009-11-03 | Nokia Corporation | Speech codecs |
US20050091041A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for speech coding |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
US7277031B1 (en) * | 2003-12-15 | 2007-10-02 | Marvell International Ltd. | 100Base-FX serializer/deserializer using 10000Base-X serializer/deserializer |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US7412378B2 (en) * | 2004-04-01 | 2008-08-12 | International Business Machines Corporation | Method and system of dynamically adjusting a speech output rate to match a speech input rate |
WO2006008817A1 (ja) * | 2004-07-22 | 2006-01-26 | Fujitsu Limited | オーディオ符号化装置及びオーディオ符号化方法 |
GB0416720D0 (en) * | 2004-07-27 | 2004-09-01 | British Telecomm | Method and system for voice over IP streaming optimisation |
KR20070070174A (ko) * | 2004-10-13 | 2007-07-03 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치, 스케일러블 복호 장치 및스케일러블 부호화 방법 |
US8102872B2 (en) * | 2005-02-01 | 2012-01-24 | Qualcomm Incorporated | Method for discontinuous transmission and accurate reproduction of background noise information |
US20060200368A1 (en) * | 2005-03-04 | 2006-09-07 | Health Capital Management, Inc. | Healthcare Coordination, Mentoring, and Coaching Services |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
TWI279774B (en) * | 2005-04-14 | 2007-04-21 | Ind Tech Res Inst | Adaptive pulse allocation mechanism for multi-pulse CELP coder |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US9071344B2 (en) * | 2005-08-22 | 2015-06-30 | Qualcomm Incorporated | Reverse link interference cancellation |
US8743909B2 (en) * | 2008-02-20 | 2014-06-03 | Qualcomm Incorporated | Frame termination |
US8611305B2 (en) * | 2005-08-22 | 2013-12-17 | Qualcomm Incorporated | Interference cancellation for wireless communications |
US9014152B2 (en) | 2008-06-09 | 2015-04-21 | Qualcomm Incorporated | Increasing capacity in wireless communications |
US8630602B2 (en) * | 2005-08-22 | 2014-01-14 | Qualcomm Incorporated | Pilot interference cancellation |
US8594252B2 (en) * | 2005-08-22 | 2013-11-26 | Qualcomm Incorporated | Interference cancellation for wireless communications |
EP1955320A2 (en) | 2005-12-02 | 2008-08-13 | QUALCOMM Incorporated | Systems, methods, and apparatus for frequency-domain waveform alignment |
CN101322182B (zh) * | 2005-12-05 | 2011-11-23 | 高通股份有限公司 | 用于检测音调分量的系统、方法和设备 |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
KR100770895B1 (ko) * | 2006-03-18 | 2007-10-26 | 삼성전자주식회사 | 음성 신호 분리 시스템 및 그 방법 |
US8920343B2 (en) | 2006-03-23 | 2014-12-30 | Michael Edward Sabatino | Apparatus for acquiring and processing of physiological auditory signals |
KR101186133B1 (ko) * | 2006-10-10 | 2012-09-27 | 퀄컴 인코포레이티드 | 오디오 신호들을 인코딩 및 디코딩하는 방법 및 장치 |
JP4918841B2 (ja) * | 2006-10-23 | 2012-04-18 | 富士通株式会社 | 符号化システム |
EP1918909B1 (en) * | 2006-11-03 | 2010-07-07 | Psytechnics Ltd | Sampling error compensation |
US20080120098A1 (en) * | 2006-11-21 | 2008-05-22 | Nokia Corporation | Complexity Adjustment for a Signal Encoder |
PL2052548T3 (pl) | 2006-12-12 | 2012-08-31 | Fraunhofer Ges Forschung | Koder, dekoder oraz sposoby kodowania i dekodowania segmentów danych reprezentujących strumień danych w dziedzinie czasu |
KR100964402B1 (ko) * | 2006-12-14 | 2010-06-17 | 삼성전자주식회사 | 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
CN101217037B (zh) * | 2007-01-05 | 2011-09-14 | 华为技术有限公司 | 对音频信号的编码速率进行源控的方法和系统 |
US8553757B2 (en) * | 2007-02-14 | 2013-10-08 | Microsoft Corporation | Forward error correction for media transmission |
JP2008263543A (ja) * | 2007-04-13 | 2008-10-30 | Funai Electric Co Ltd | 記録再生装置 |
US20080267224A1 (en) * | 2007-04-24 | 2008-10-30 | Rohit Kapoor | Method and apparatus for modifying playback timing of talkspurts within a sentence without affecting intelligibility |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
US8321222B2 (en) * | 2007-08-14 | 2012-11-27 | Nuance Communications, Inc. | Synthesis by generation and concatenation of multi-form segments |
US8566107B2 (en) | 2007-10-15 | 2013-10-22 | Lg Electronics Inc. | Multi-mode method and an apparatus for processing a signal |
US8606566B2 (en) * | 2007-10-24 | 2013-12-10 | Qnx Software Systems Limited | Speech enhancement through partial speech reconstruction |
US8326617B2 (en) * | 2007-10-24 | 2012-12-04 | Qnx Software Systems Limited | Speech enhancement with minimum gating |
US8015002B2 (en) | 2007-10-24 | 2011-09-06 | Qnx Software Systems Co. | Dynamic noise reduction using linear model fitting |
US9237515B2 (en) | 2008-08-01 | 2016-01-12 | Qualcomm Incorporated | Successive detection and cancellation for cell pilot detection |
US9277487B2 (en) | 2008-08-01 | 2016-03-01 | Qualcomm Incorporated | Cell detection with interference cancellation |
KR101797033B1 (ko) | 2008-12-05 | 2017-11-14 | 삼성전자주식회사 | 부호화 모드를 이용한 음성신호의 부호화/복호화 장치 및 방법 |
RU2394284C1 (ru) * | 2009-03-24 | 2010-07-10 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ сжатия и восстановления речевых сигналов для систем кодирования с переменной скоростью передачи |
EP2237269B1 (en) | 2009-04-01 | 2013-02-20 | Motorola Mobility LLC | Apparatus and method for processing an encoded audio data signal |
US9160577B2 (en) * | 2009-04-30 | 2015-10-13 | Qualcomm Incorporated | Hybrid SAIC receiver |
CN101615910B (zh) * | 2009-05-31 | 2010-12-22 | 华为技术有限公司 | 压缩编码的方法、装置和设备以及压缩解码方法 |
RU2400831C1 (ru) * | 2009-06-03 | 2010-09-27 | Государственное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) | Способ выделения сегментов квазистационарности при анализе речевого сигнала в вокодерах с линейным предсказанием |
US8787509B2 (en) | 2009-06-04 | 2014-07-22 | Qualcomm Incorporated | Iterative interference cancellation receiver |
KR101344435B1 (ko) | 2009-07-27 | 2013-12-26 | 에스씨티아이 홀딩스, 인크. | 음성의 표적화 및 잡음의 무시에 의한 음성 신호의 프로세싱에 있어서 잡음 감소를 위한 시스템 및 방법 |
US8670990B2 (en) * | 2009-08-03 | 2014-03-11 | Broadcom Corporation | Dynamic time scale modification for reduced bit rate audio coding |
US8831149B2 (en) | 2009-09-03 | 2014-09-09 | Qualcomm Incorporated | Symbol estimation methods and apparatuses |
WO2011063569A1 (en) | 2009-11-27 | 2011-06-03 | Qualcomm Incorporated | Increasing capacity in wireless communications |
JP6091895B2 (ja) | 2009-11-27 | 2017-03-08 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | 無線通信における容量の増加 |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
US9208792B2 (en) | 2010-08-17 | 2015-12-08 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for noise injection |
TW202509914A (zh) * | 2010-12-03 | 2025-03-01 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
KR20120116137A (ko) * | 2011-04-12 | 2012-10-22 | 한국전자통신연구원 | 음성 통신 장치 및 그 방법 |
RU2648595C2 (ru) | 2011-05-13 | 2018-03-26 | Самсунг Электроникс Ко., Лтд. | Распределение битов, кодирование и декодирование аудио |
US8990074B2 (en) * | 2011-05-24 | 2015-03-24 | Qualcomm Incorporated | Noise-robust speech coding mode classification |
WO2013057659A2 (en) * | 2011-10-19 | 2013-04-25 | Koninklijke Philips Electronics N.V. | Signal noise attenuation |
US9047863B2 (en) * | 2012-01-12 | 2015-06-02 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for criticality threshold control |
US9263054B2 (en) | 2013-02-21 | 2016-02-16 | Qualcomm Incorporated | Systems and methods for controlling an average encoding rate for speech signal encoding |
US9570095B1 (en) * | 2014-01-17 | 2017-02-14 | Marvell International Ltd. | Systems and methods for instantaneous noise estimation |
US9793879B2 (en) * | 2014-09-17 | 2017-10-17 | Avnera Corporation | Rate convertor |
US10061554B2 (en) * | 2015-03-10 | 2018-08-28 | GM Global Technology Operations LLC | Adjusting audio sampling used with wideband audio |
JP2017009663A (ja) * | 2015-06-17 | 2017-01-12 | ソニー株式会社 | 録音装置、録音システム、および、録音方法 |
US10269375B2 (en) * | 2016-04-22 | 2019-04-23 | Conduent Business Services, Llc | Methods and systems for classifying audio segments of an audio signal |
CN113314133B (zh) * | 2020-02-11 | 2024-12-20 | 华为技术有限公司 | 音频传输方法及电子设备 |
CN112767953B (zh) * | 2020-06-24 | 2024-01-23 | 腾讯科技(深圳)有限公司 | 语音编码方法、装置、计算机设备和存储介质 |
Family Cites Families (62)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US32580A (en) * | 1861-06-18 | Water-elevatok | ||
US3633107A (en) * | 1970-06-04 | 1972-01-04 | Bell Telephone Labor Inc | Adaptive signal processor for diversity radio receivers |
JPS5017711A (es) * | 1973-06-15 | 1975-02-25 | ||
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4214125A (en) * | 1977-01-21 | 1980-07-22 | Forrest S. Mozer | Method and apparatus for speech synthesizing |
CA1123955A (en) * | 1978-03-30 | 1982-05-18 | Tetsu Taguchi | Speech analysis and synthesis apparatus |
DE3023375C1 (es) * | 1980-06-23 | 1987-12-03 | Siemens Ag, 1000 Berlin Und 8000 Muenchen, De | |
US4379949A (en) * | 1981-08-10 | 1983-04-12 | Motorola, Inc. | Method of and means for variable-rate coding of LPC parameters |
EP0076233B1 (de) * | 1981-09-24 | 1985-09-11 | GRETAG Aktiengesellschaft | Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung |
USRE32580E (en) | 1981-12-01 | 1988-01-19 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder |
JPS6011360B2 (ja) * | 1981-12-15 | 1985-03-25 | ケイディディ株式会社 | 音声符号化方式 |
US4535472A (en) * | 1982-11-05 | 1985-08-13 | At&T Bell Laboratories | Adaptive bit allocator |
DE3276651D1 (en) * | 1982-11-26 | 1987-07-30 | Ibm | Speech signal coding method and apparatus |
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
US4672670A (en) * | 1983-07-26 | 1987-06-09 | Advanced Micro Devices, Inc. | Apparatus and methods for coding, decoding, analyzing and synthesizing a signal |
EP0163829B1 (en) * | 1984-03-21 | 1989-08-23 | Nippon Telegraph And Telephone Corporation | Speech signal processing system |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
US4856068A (en) * | 1985-03-18 | 1989-08-08 | Massachusetts Institute Of Technology | Audio pre-processing methods and apparatus |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
US4899384A (en) * | 1986-08-25 | 1990-02-06 | Ibm Corporation | Table controlled dynamic bit allocation in a variable rate sub-band speech coder |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4797925A (en) * | 1986-09-26 | 1989-01-10 | Bell Communications Research, Inc. | Method for coding speech at low bit rates |
IT1195350B (it) * | 1986-10-21 | 1988-10-12 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale |
US4903301A (en) * | 1987-02-27 | 1990-02-20 | Hitachi, Ltd. | Method and system for transmitting variable rate speech signal |
US5054072A (en) * | 1987-04-02 | 1991-10-01 | Massachusetts Institute Of Technology | Coding of acoustic waveforms |
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
NL8700985A (nl) * | 1987-04-27 | 1988-11-16 | Philips Nv | Systeem voor sub-band codering van een digitaal audiosignaal. |
US4890327A (en) * | 1987-06-03 | 1989-12-26 | Itt Corporation | Multi-rate digital voice coder apparatus |
US4899385A (en) * | 1987-06-26 | 1990-02-06 | American Telephone And Telegraph Company | Code excited linear predictive vocoder |
CA1337217C (en) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Speech coding |
US4852179A (en) * | 1987-10-05 | 1989-07-25 | Motorola, Inc. | Variable frame rate, fixed bit rate vocoding method |
US4817157A (en) * | 1988-01-07 | 1989-03-28 | Motorola, Inc. | Digital speech coder having improved vector excitation source |
DE3883519T2 (de) * | 1988-03-08 | 1994-03-17 | Ibm | Verfahren und Einrichtung zur Sprachkodierung mit mehreren Datenraten. |
DE3871369D1 (de) * | 1988-03-08 | 1992-06-25 | Ibm | Verfahren und einrichtung zur sprachkodierung mit niedriger datenrate. |
US5023910A (en) * | 1988-04-08 | 1991-06-11 | At&T Bell Laboratories | Vector quantization in a harmonic speech coding arrangement |
US4864561A (en) * | 1988-06-20 | 1989-09-05 | American Telephone And Telegraph Company | Technique for improved subjective performance in a communication system using attenuated noise-fill |
CA1321645C (en) * | 1988-09-28 | 1993-08-24 | Akira Ichikawa | Method and system for voice coding based on vector quantization |
JP3033060B2 (ja) * | 1988-12-22 | 2000-04-17 | 国際電信電話株式会社 | 音声予測符号化・復号化方式 |
US5222189A (en) * | 1989-01-27 | 1993-06-22 | Dolby Laboratories Licensing Corporation | Low time-delay transform coder, decoder, and encoder/decoder for high-quality audio |
DE68916944T2 (de) * | 1989-04-11 | 1995-03-16 | Ibm | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. |
US5060269A (en) * | 1989-05-18 | 1991-10-22 | General Electric Company | Hybrid switched multi-pulse/stochastic speech coding technique |
GB2235354A (en) * | 1989-08-16 | 1991-02-27 | Philips Electronic Associated | Speech coding/encoding using celp |
JPH03181232A (ja) * | 1989-12-11 | 1991-08-07 | Toshiba Corp | 可変レート符号化方式 |
US5103459B1 (en) * | 1990-06-25 | 1999-07-06 | Qualcomm Inc | System and method for generating signal waveforms in a cdma cellular telephone system |
US5127053A (en) * | 1990-12-24 | 1992-06-30 | General Electric Company | Low-complexity method for improving the performance of autocorrelation-based pitch detectors |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
US5187745A (en) * | 1991-06-27 | 1993-02-16 | Motorola, Inc. | Efficient codebook search for CELP vocoders |
ES2225321T3 (es) * | 1991-06-11 | 2005-03-16 | Qualcomm Incorporated | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
JPH0580799A (ja) * | 1991-09-19 | 1993-04-02 | Fujitsu Ltd | 可変レート音声符号化器 |
JP3327936B2 (ja) * | 1991-09-25 | 2002-09-24 | 日本放送協会 | 話速制御型補聴装置 |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5513297A (en) * | 1992-07-10 | 1996-04-30 | At&T Corp. | Selective application of speech coding techniques to input signal segments |
US5341456A (en) * | 1992-12-02 | 1994-08-23 | Qualcomm Incorporated | Method for determining speech encoding rate in a variable rate vocoder |
US5774496A (en) * | 1994-04-26 | 1998-06-30 | Qualcomm Incorporated | Method and apparatus for determining data rate of transmitted variable rate data in a communications receiver |
TW271524B (es) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
US5742734A (en) * | 1994-08-10 | 1998-04-21 | Qualcomm Incorporated | Encoding rate selection in a variable rate vocoder |
US6122384A (en) * | 1997-09-02 | 2000-09-19 | Qualcomm Inc. | Noise suppression system and method |
US5974079A (en) * | 1998-01-26 | 1999-10-26 | Motorola, Inc. | Method and apparatus for encoding rate determination in a communication system |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
-
1995
- 1995-07-08 TW TW084107077A patent/TW271524B/zh not_active IP Right Cessation
- 1995-07-20 ZA ZA956078A patent/ZA956078B/xx unknown
- 1995-07-31 MY MYPI95002226A patent/MY114777A/en unknown
- 1995-07-31 MY MYPI20070660A patent/MY137264A/en unknown
- 1995-07-31 MY MYPI20021851A patent/MY129887A/en unknown
- 1995-08-01 CA CA2172062A patent/CA2172062C/en not_active Expired - Lifetime
- 1995-08-01 WO PCT/US1995/009780 patent/WO1996004646A1/en active Application Filing
- 1995-08-01 EP EP95928266A patent/EP0722603B1/en not_active Expired - Lifetime
- 1995-08-01 RU RU96110286A patent/RU2146394C1/ru active
- 1995-08-01 DE DE69536082T patent/DE69536082D1/de not_active Expired - Lifetime
- 1995-08-01 KR KR1019960701753A patent/KR100399648B1/ko not_active Expired - Lifetime
- 1995-08-01 BR BRPI9506307-2A patent/BR9506307B1/pt not_active IP Right Cessation
- 1995-08-01 CN CNB951907239A patent/CN1144180C/zh not_active Expired - Lifetime
- 1995-08-01 ES ES95928266T patent/ES2299175T3/es not_active Expired - Lifetime
- 1995-08-01 DE DE69535723T patent/DE69535723T2/de not_active Expired - Lifetime
- 1995-08-01 EP EP03005273A patent/EP1339044B1/en not_active Expired - Lifetime
- 1995-08-01 AT AT03005273T patent/ATE470932T1/de not_active IP Right Cessation
- 1995-08-01 AT AT95928266T patent/ATE388464T1/de not_active IP Right Cessation
- 1995-08-01 AU AU32095/95A patent/AU689628B2/en not_active Expired
- 1995-08-01 ES ES03005273T patent/ES2343948T3/es not_active Expired - Lifetime
- 1995-08-01 JP JP50672896A patent/JP3611858B2/ja not_active Expired - Lifetime
- 1995-08-03 IL IL11481995A patent/IL114819A/xx not_active IP Right Cessation
-
1996
- 1996-03-29 FI FI961445A patent/FI120327B/fi not_active IP Right Cessation
-
1997
- 1997-03-11 US US08/815,354 patent/US5911128A/en not_active Expired - Lifetime
-
1999
- 1999-02-12 US US09/252,595 patent/US6240387B1/en not_active Expired - Lifetime
-
2001
- 2001-04-12 US US09/835,258 patent/US6484138B2/en not_active Expired - Lifetime
-
2004
- 2004-07-27 JP JP2004219254A patent/JP4444749B2/ja not_active Expired - Lifetime
-
2007
- 2007-08-24 FI FI20070642A patent/FI122726B/fi not_active IP Right Cessation
-
2008
- 2008-02-14 JP JP2008033680A patent/JP4778010B2/ja not_active Expired - Lifetime
-
2009
- 2009-11-18 JP JP2009262773A patent/JP4851578B2/ja not_active Expired - Lifetime
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2343948T3 (es) | Procedimiento y aparato para realizar vocodificacion con tasa reducida y tasa variable. | |
ES2288950T3 (es) | Procedimiento de compensacion de borrado de tramas en un codificador de voz de velocidad de transmision variable. | |
ES2276845T3 (es) | Metodos y aparatos para la clasificacion de voz robusta. | |
ES2361154T3 (es) | Procedimiento para la interoperación entre codecs de la voz de banda ancha tasa múltiple adaptativo (amr-wr) y de banda ancha, tasa de bits variable modo múltiple (vmr-wb). | |
ES2225321T3 (es) | Aparaato y procedimiento para el enmascaramiento de errores en tramas de datos. | |
ES2206667T3 (es) | Procedimiento para generar ruido de bienestar durante una transmision discontinua. | |
ES2265442T3 (es) | Aparato para la expansion del ancho de banda de una señal vocal. | |
US7613606B2 (en) | Speech codecs | |
US8190440B2 (en) | Sub-band codec with native voice activity detection | |
US6985857B2 (en) | Method and apparatus for speech coding using training and quantizing | |
JP2003515178A (ja) | フレームエラーに対する感度を低減する符号化体系パターンを使用する予測音声コーダ | |
Gersho et al. | Variable rate speech coding for cellular networks | |
US6240383B1 (en) | Celp speech coding and decoding system for creating comfort noise dependent on the spectral envelope of the speech signal | |
Erhardt et al. | An open-source speech codec at 450 bit/s with pseudo-wideband mode | |
HK1015184B (en) | Method and apparatus for performing reduced rate variable rate vocoding | |
Gersho et al. | FOR CELLULAR NETWORKS | |
Chen | Adaptive variable bit-rate speech coder for wireless applications |