EP1267325A1 - Process for voice activity detection in a signal, and speech signal coder comprising a device for carrying out the process - Google Patents
Process for voice activity detection in a signal, and speech signal coder comprising a device for carrying out the process Download PDFInfo
- Publication number
- EP1267325A1 EP1267325A1 EP02290984A EP02290984A EP1267325A1 EP 1267325 A1 EP1267325 A1 EP 1267325A1 EP 02290984 A EP02290984 A EP 02290984A EP 02290984 A EP02290984 A EP 02290984A EP 1267325 A1 EP1267325 A1 EP 1267325A1
- Authority
- EP
- European Patent Office
- Prior art keywords
- frame
- decision
- signal
- voice
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000000694 effects Effects 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 title claims description 12
- 230000008569 process Effects 0.000 title abstract description 9
- 238000009499 grossing Methods 0.000 claims abstract description 23
- 230000003416 augmentation Effects 0.000 abstract 2
- 238000005457 optimization Methods 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 32
- 235000021183 entrée Nutrition 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001644893 Entandrophragma utile Species 0.000 description 2
- 241000287107 Passer Species 0.000 description 2
- 201000007201 aphasia Diseases 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 240000008042 Zea mays Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Definitions
- the invention relates to a voice signal encoder comprising a device improved voice activity detection, and in particular an encoder conforming to the ITU-T G.729A standard, annex B.
- a voice signal has up to 60% silence or background noise.
- it is known to discriminate the voice signal portions that actually contain useful signals and the portions that contain only silence or noise; and code them respectively according to two different algorithms, each portion which contains that silence or noise being coded with very little information representing the characteristics of ambient noise.
- Such an encoder includes a device for voice activity detection which realizes this discrimination according to spectral characteristics and according to the energy of the voice signal to be coded (calculated on each signal frame).
- the voice signal is divided into digital frames corresponding to a duration of 10ms, for example.
- a set of parameters is extract the signal.
- the main parameters are auto coefficients correlation.
- a set of linear prediction coding coefficients, and a set of frequency parameters are then deduced from these auto coefficients correlation.
- One of the steps in the signal portion discrimination process voice that actually contain useful signals and portions that don't contain only silence or noise is to compare the energy of a signal frame with a threshold.
- a device for calculating the threshold value adapts the threshold value as a function of noise variations. Noise affecting the signal vocal is composed of noise of electrical origin and ambient noise. This last can increase or decrease significantly during the same communication.
- frequency noise filtering coefficients must also be adapted to variations in noise.
- the decoder responsible for decoding the coded voice signal must use alternately two corresponding decoding algorithms respectively to signal portions encoded as voice and to signal portions encoded like silence or background noise.
- the transition from one algorithm to another is synchronized by the information coding the periods of silence or noise.
- the object of the invention is to propose a more effective solution, which preserves the effectiveness of voice activity detection in terms of traffic, but which does not affect the quality of the signal reproduced after decoding.
- the process thus characterized avoids an undesirable “noise” transition towards “Voice” during an increase in transient energy during frame n only, because the smoothing function takes into account the final decision taken for frame n-1 preceding the current frame n, to decide on a transition from "noise” to "voice".
- the method according to the invention furthermore consists in preventing any final “noise” decision for frames n + 1 to n + i where i is an integer defining a duration of inertia.
- the process thus characterized avoids the phenomenon of loss of segments speech because the smoothing function has an inertia corresponding to the duration of i frames, for returning to a “noise” decision.
- the subject of the invention is also a voice signal coder comprising smoothing means for implementing the method according to the invention.
- FIG. 5 represents respectively the percentages of errors with the known method and with the method according to the invention, for different values of the signal to noise ratio.
- Figure 6 shows the percentages of speech loss with the known method and with the method according to the invention, for different values of the signal to noise ratio.
- the coder When the voice signal is a useful signal, the coder provides a frame every 10 ms. When the voice signal consists of silence (or noise), the encoder provides a single frame, at the start of the period of silence (or noise).
- such an encoder can be produced by means of a processor. suitably programmed.
- the method according to the invention can be implemented by software whose realization is within the reach of man art.
- FIG. 2 represents the flowchart of the decision making “voice” or “noise”, according to the coding method known by the standard G.729 appendix B, 11/96. The method is applied to digitized signal frames having a fixed duration of 10 ms.
- a first step 11 consists in extracting four parameters for the current frame of the signal to be coded: the energy of this frame in the whole band of frequencies, the energy of this frame in the low frequencies, a set of spectral coefficients, and the rate of zero crossings.
- the next step 12 consists in updating the minimum size of a buffer memory.
- the curves E1 and E2 respectively represent the percentages of errors with the known method and with the method according to the invention, for different values of the signal to noise ratio.
- the curves L1 and L2 respectively represent the percentages of speech losses with the known method and with the method according to the invention, for different values of the signal to noise ratio.
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Circuits Of Receivers In General (AREA)
- Communication Control (AREA)
Abstract
Ce procédé permet de détecter l'activité vocale dans un signal en lissant la décision « voix » ou « bruit » pour éviter de perdre des segments de parole. Ce procédé est particulièrement adapté au cas où le niveau de bruit est élevé. Contrairement au procédé connu qui favorise l'optimisation du trafic, ce procédé favorise l'intelligibilité du signal restitué après le décodage. Le signal à coder est découpé en trames. Une décision initiale, « voix » ou « bruit », est prise pour chaque trame de signal. Le procédé consiste à :
- Prendre la décision « voix » sitôt qu'il y a une augmentation de l'énergie du signal par rapport à la trame précédant la trame courante, même si cette augmentation est faible.
- Prendre la décision « bruit » seulement si les caractéristiques du signal corespondent aux caractéristiques du bruit pendant au moins i trames de suite (i=6 par exemple).
- Take the “voice” decision as soon as there is an increase in signal energy compared to the frame preceding the current frame, even if this increase is small.
- Take the “noise” decision only if the characteristics of the signal correspond to the characteristics of the noise for at least i consecutive frames (i = 6 for example).
Application à la téléphonie. Application to telephony.
Description
L'invention concerne un codeur de signal vocal comportant un dispositif amélioré de détection d'activité vocale, et notamment un codeur conforme à la norme ITU-T G.729A, annexe B.The invention relates to a voice signal encoder comprising a device improved voice activity detection, and in particular an encoder conforming to the ITU-T G.729A standard, annex B.
Un signal vocal comporte jusqu'à 60% de silence ou de bruit de fond. Pour réduire la quantité d'informations à transmettre, il est connu de discriminer les portions de signal vocal qui contiennent réellement des signaux utiles et les portions qui ne contiennent que du silence ou du bruit ; et de les coder respectivement selon deux algorithmes différents, chaque portion qui ne contient que du silence ou du bruit étant codée avec très peu d'informations représentant les caractéristiques du bruit ambiant. Un tel codeur comporte un dispositif de détection d'activité vocale qui réalise cette discrimination d'après les caractéristiques spectrales et d'après l'énergie du signal vocal à coder (calculée sur chaque trame de signal).A voice signal has up to 60% silence or background noise. To reduce the amount of information to be transmitted, it is known to discriminate the voice signal portions that actually contain useful signals and the portions that contain only silence or noise; and code them respectively according to two different algorithms, each portion which contains that silence or noise being coded with very little information representing the characteristics of ambient noise. Such an encoder includes a device for voice activity detection which realizes this discrimination according to spectral characteristics and according to the energy of the voice signal to be coded (calculated on each signal frame).
Le signal vocal est découpé en trames numériques correspondant à une durée de 10ms, par exemple. Pour chaque trame, un jeu de paramètres est extrait du signal. Les paramètres principaux sont des coefficients d'auto corrélation. Un ensemble de coefficients de codage par prédiction linéaire, et un jeu de paramètres fréquentiels sont ensuite déduits de ces coefficients d'auto corrélation. Une des étape du procédé de discrimination des portions de signal vocal qui contiennent réellement des signaux utiles et des portions qui ne contiennent que du silence ou du bruit consiste à comparer l'énergie d'une trame du signal avec un seuil. Un dispositif de calcul de la valeur du seuil adapte la valeur du seuil en fonction des variations du bruit. Le bruit affectant le signal vocal est composé de bruit d'origine électrique et de bruit ambiant. Ce dernier peut augmenter ou diminuer de manière importante au cours d'une même communication. D'autre part, des coefficients de filtrage fréquentiel du bruit doivent être adaptés eux aussi aux variations du bruit.The voice signal is divided into digital frames corresponding to a duration of 10ms, for example. For each frame, a set of parameters is extract the signal. The main parameters are auto coefficients correlation. A set of linear prediction coding coefficients, and a set of frequency parameters are then deduced from these auto coefficients correlation. One of the steps in the signal portion discrimination process voice that actually contain useful signals and portions that don't contain only silence or noise is to compare the energy of a signal frame with a threshold. A device for calculating the threshold value adapts the threshold value as a function of noise variations. Noise affecting the signal vocal is composed of noise of electrical origin and ambient noise. This last can increase or decrease significantly during the same communication. On the other hand, frequency noise filtering coefficients must also be adapted to variations in noise.
L'article « ITU-T Recommendation G729 Annex B : A Silence Compression Scheme for Use With G729 Optimized for V.70 Digital Simultaneous Voice and Data Applications », par Adil Benyassine et al, IEEE Communication Magazine, September 1997, décrit un tel codeur. The article “ITU-T Recommendation G729 Annex B: A Silence Compression Scheme for Use With G729 Optimized for V.70 Digital Simultaneous Voice and Data Applications ”, by Adil Benyassine et al, IEEE Communication Magazine, September 1997, describes such an encoder.
Le décodeur chargé de décoder le signal vocal codé doit utiliser alternativement deux algorithmes de décodage correspondant respectivement aux portion de signal codées comme de la voix et aux portions de signal codées comme du silence ou bruit de fond. Le passage d'un algorithme à l'autre est synchronisé par les informations codant les périodes de silence ou bruit.The decoder responsible for decoding the coded voice signal must use alternately two corresponding decoding algorithms respectively to signal portions encoded as voice and to signal portions encoded like silence or background noise. The transition from one algorithm to another is synchronized by the information coding the periods of silence or noise.
Les codeurs connus qui implémentent la norme ITU-T G.729A, annexe B, 11/96, ne sont plus capables de faire la distinction entre le signal utile et le bruit lorsque le niveau de bruit est supérieur à 8000 échelons de l'échelle de quantification définie par cette norme. Il en résulte de nombreuses transitions inutiles du signal de détection d'activité vocale, et donc la perte de portions du signal utile.Known coders that implement the ITU-T G.729A standard, appendix B, 11/96, are no longer able to distinguish between the wanted signal and the noise when the noise level is greater than 8000 steps of the quantification defined by this standard. This results in many transitions of the voice activity detection signal, and therefore the loss of portions of the useful signal.
On connaít une solution décrite dans la contribution G.723.1 VAD et qui consiste à inhiber complètement la détection d'activité vocale dans le codeur, lorsque le rapport signal sur bruit est inférieur à une valeur prédéterminée. Cette solution préserve l'intégrité du signal utile mais a pour inconvénient d'augmenter le traffic.We know a solution described in the contribution G.723.1 VAD and which consists in completely inhibiting the detection of voice activity in the coder, when the signal-to-noise ratio is less than a predetermined value. This solution preserves the integrity of the useful signal but has the disadvantage to increase traffic.
Le but de l'invention est de proposer une solution plus efficace, qui préserve l'efficacité de la détection d'activité vocale en termes de trafic, mais qui ne nuise pas à la qualité du signal restitué après le décodage.The object of the invention is to propose a more effective solution, which preserves the effectiveness of voice activity detection in terms of traffic, but which does not affect the quality of the signal reproduced after decoding.
L'objet de l'invention est un procédé pour détecter l'activité vocale dans un signal, ce signal étant découpé en trames, et ce procédé comportant une étape de lissage d'une décision initiale, « voix » ou « bruit », prise pour chaque trame ; caractérisé en ce que cette étape de lissage comporte une étape qui consiste à prendre une décision définitive « voix », pour la trame n, si :
- la décision initiale pour la trame n est « voix » ;
- et la décision définitive pour la trame n-2 était « bruit » ;
- et l'énergie de la trame n-1 était supérieure à celle de la trame n-2 ;
- et l'énergie de la trame n est supérieure à l'énergie de la frame n-2.
- the initial decision for frame n is "voice";
- and the final decision for frame n-2 was "noise";
- and the energy of frame n-1 was greater than that of frame n-2;
- and the energy of frame n is greater than the energy of frame n-2.
Le procédé ainsi caractérisé évite une transition indésirable « bruit » vers « voix » lors d'une augmentation d'énergie transitoire pendant la trame n seulement, parce que la fonction de lissage tient compte de la décision définitive prise pour la trame n-1 précédant la trame courante n, pour décider une transition « bruit » vers « voix ».The process thus characterized avoids an undesirable “noise” transition towards "Voice" during an increase in transient energy during frame n only, because the smoothing function takes into account the final decision taken for frame n-1 preceding the current frame n, to decide on a transition from "noise" to "voice".
Selon un mode de mise en oeuvre préférentiel, si une décision définitive « voix » a été prise pour la trame n, le procédé selon l'invention consiste en outre à empêcher toute décision définitive « bruit » pour les trames n+1 à n+i où i est un nombre entier définissant une durée d'inertie.According to a preferred embodiment, if a final “voice” decision has been made for frame n, the method according to the invention furthermore consists in preventing any final “noise” decision for frames n + 1 to n + i where i is an integer defining a duration of inertia.
Le procédé ainsi caractérisé évite le phénomène de perte de segments de paroles parce que la fonction de lissage présente une inertie correspondant à la durée de i trames, pour le retour à une décision « bruit ».The process thus characterized avoids the phenomenon of loss of segments speech because the smoothing function has an inertia corresponding to the duration of i frames, for returning to a “noise” decision.
L'invention a aussi pour objet un codeur de signal vocal comportant des moyens de lissage pour mettre en oeuvre le procédé selon l'invention.The subject of the invention is also a voice signal coder comprising smoothing means for implementing the method according to the invention.
L'invention sera mieux comprise et d'autres caractéristiques apparaítront à l'aide de la description ci-dessous et des figures l'accompagnant :
- La figure 1 représente le schéma fonctionnel d'un exemple de réalisation de codeur pour la mise en oeuvre du procédé selon l'invention.
- La figure 2 représente l'organigramme de la prise de décision « voix » / « bruit » selon le procédé de codage connu par la norme G.729 annexe B, 11/96.
- La figure 3 représente de manière plus détaillée les opérations de lissage du signal de détection d'activité vocale, selon le procédé de codage connu par la norme G.729 annexe B, 11/96.
- La figure 4 représente l'organigramme d'un exemple de mise en oeuvre du lissage du signal de détection d'activité vocale, dans le procédé selon l'invention.
- FIG. 1 represents the functional diagram of an exemplary embodiment of an encoder for implementing the method according to the invention.
- FIG. 2 represents the flowchart of the “voice” / “noise” decision making according to the coding method known by the standard G.729 annex B, 11/96.
- FIG. 3 shows in more detail the smoothing operations of the voice activity detection signal, according to the coding method known by standard G.729 annex B, 11/96.
- FIG. 4 represents the flow chart of an example of implementation of the smoothing of the voice activity detection signal, in the method according to the invention.
La figure 5 représente respectivement les pourcentages d'erreurs avec le procédé connu et avec le procédé selon l'invention, pour différentes valeurs du rapport signal sur bruit.FIG. 5 represents respectively the percentages of errors with the known method and with the method according to the invention, for different values of the signal to noise ratio.
La figure 6 représente les pourcentages de pertes de parole avec le procédé connu et avec le procédé selon l'invention, pour différentes valeurs du rapport signal sur bruit. Figure 6 shows the percentages of speech loss with the known method and with the method according to the invention, for different values of the signal to noise ratio.
L'exemple de réalisation d'un codeur, dont le schéma fonctionnel est représenté sur la figure 1 comporte :
- une borne d'entrée 1 recevant, sous forme analogique, un signal vocal à coder ;
- un
circuit 2 pour filtrer, échantillonner, quantifier, et mettre dans des trames, le signal vocal ; - un
commutateur 3 ayant une entrée reliée à la sortie ducircuit 2, et deux sorties ; - un circuit 4 de codage des trames considérées comme représentant
véritablement un signal utile, ayant une entrée reliée à une première sortie du
commutateur 3 ; - un
circuit 5 de codage des trames considérées comme représentant du silence ou du bruit, ayant une entrée reliée à une second sortie ducommutateur 3; - un second commutateur 6 ayant : une première et une seconde entrée
reliées respectivement à une sortie du circuit 4 et à une sortie du
circuit 5, et une borne de sortie 9 constituant la borne de sortie du codeur ; - et un détecteur 7 d'activité vocal ayant une entrée reliée à la sortie du
circuit 2 et une sortie reliée notamment à une entrée de commande de chacun descommutateurs 3 et 6, afin de sélectionner les trames codées correspondant au contenu reconnu dans le signal vocal : soit signal utile, soit silence (ou bruit).
- an input terminal 1 receiving, in analog form, a voice signal to be coded;
- a
circuit 2 for filtering, sampling, quantifying, and putting in frames, the voice signal; - a
switch 3 having an input connected to the output ofcircuit 2, and two outputs; - a circuit 4 for coding the frames considered to truly represent a useful signal, having an input connected to a first output of the
switch 3; - a
circuit 5 for coding the frames considered to represent silence or noise, having an input connected to a second output of theswitch 3; - a second switch 6 having: a first and a second input connected respectively to an output of circuit 4 and to an output of
circuit 5, and an output terminal 9 constituting the output terminal of the encoder; - and a voice activity detector 7 having an input connected to the output of
circuit 2 and an output linked in particular to a control input of each of theswitches 3 and 6, in order to select the coded frames corresponding to the content recognized in the voice signal : either useful signal or silence (or noise).
Quand le signal vocal est un signal utile, le codeur fournit une trame toutes les 10 ms. Quand le signal vocal est constitué de silence (ou de bruit), le codeur fournit une seule trame, au début de la période de silence (ou de bruit).When the voice signal is a useful signal, the coder provides a frame every 10 ms. When the voice signal consists of silence (or noise), the encoder provides a single frame, at the start of the period of silence (or noise).
En pratique, un tel codeur peut être réalisé au moyen d'un processeur convenablement programmé. En particulier, le procédé selon l'invention peut être mis en oeuvre par un logiciel dont la réalisation est à la portée de l'homme de l'Art.In practice, such an encoder can be produced by means of a processor. suitably programmed. In particular, the method according to the invention can be implemented by software whose realization is within the reach of man art.
La figure 2 représente l'organigramme de la prise de décision « voix » ou « bruit », selon le procédé de codage connu par la norme G.729 annexe B, 11/96. Le procédé est appliqué à des trames de signal numérisé ayant une durée fixe de 10 ms. FIG. 2 represents the flowchart of the decision making “voice” or “noise”, according to the coding method known by the standard G.729 appendix B, 11/96. The method is applied to digitized signal frames having a fixed duration of 10 ms.
Une première étape 11 consiste à extraire quatre paramètres pour la
trame courante du signal à coder : l'énergie de cette trame dans toute la bande
de fréquences, l'énergie de cette trame dans les basses fréquences, un jeu de
coefficients spectraux, et le taux de passages à zéro.A
L'étape suivante 12 consiste à mettre à jour la taille minimale d'une
mémoire tampon.The
L'étape suivante 13 consiste à comparer le numéro de la trame courante avec une valeur prédéterminée Ni :
- S'il est inférieur à Ni :
L'étape suivante 14 consiste à initialiser les valeurs des moyennes glissantes des paramètres du signal à coder: Les coefficients spectraux ; l'énergie moyenne dans toute la bande ; l'énergie moyenne dans les fréquences basses ; et le taux moyen de passages à zéro.- Puis une étape 15 consiste à comparer l'énergie de la trame à
une valeur de seuil prédéterminée, pour décider que le signal est
de la voix si l'énergie de la trame est supérieure à cette valeur, ou
décider que le signal est du bruit si l'énergie de la trame est
inférieure à cette valeur. Le traitement de la trame courante atteint
alors
sa fin 16.
- Si le numéro de trame n'est pas inférieur à Ni, une étape suivante 17
consiste à déterminer s'il est égal ou s'il est supérieur à Ni :
- s'il est égal à Ni, une étape suivante 18 consiste à initialiser la valeur de l'énergie moyenne du bruit dans toute la bande et la valeur de l'énergie moyenne du bruit dans les basses fréquences.
- S'il est supérieur à Ni :
- une étape suivante 19 consiste à calculer un jeu de paramètres différences, en soustrayant la valeur courante d'un paramètre de trame à la valeur moyenne glissante de ce paramètre de trame, cette dernière étant représentative du bruit. Ces paramètres différences sont: la distorsion spectrale, la différence d'énergie dans toute la bande, la différence d'énergie dans les basses fréquences, et la différence des taux de passage à zéro.
- Une étape suivante 20 consiste à comparer l'énergie de
la trame à une valeur de seuil prédéterminée :
- Si elle n'est pas inférieure à cette valeur, une étape 21 consiste à prendre une décision initiale («voix» ou « bruit ») basée sur une pluralité de critères, puis une étape 22 consiste à « lisser » cette décision pour éviter de trop nombreux changements de décision.
- Si elle est inférieure ou égale à cette valeur, une
étape 23 consiste à décider que le signal est du bruit,
puis l'étape 22 consiste à « lisser » cette décision.
Après l'étape 22 de lissage, une étape suivante 24 consiste à comparer l'énergie de la trame courante avec un seuil adaptatif égal à la moyenne glissante de l'énergie dans toute la bande, augmentée d'une constante :- Si elle est supérieure à la valeur de seuil, une étape
suivante 25 consiste à mettre à jour les valeurs des moyennes
glissantes des paramètres représentatifs du bruit, puis le
traitement de la trame courante atteint la
fin 26. - Si elle n'est pas supérieure à la valeur de seuil, le
traitement de la trame courante atteint la
fin 27.
- Si elle est supérieure à la valeur de seuil, une étape
suivante 25 consiste à mettre à jour les valeurs des moyennes
glissantes des paramètres représentatifs du bruit, puis le
traitement de la trame courante atteint la
- If it is less than Ni:
- The
next step 14 consists in initializing the values of the sliding means of the parameters of the signal to be coded: The spectral coefficients; average energy across the band; the average energy in the low frequencies; and the average rate of zero crossings. - Then a
step 15 consists in comparing the energy of the frame with a predetermined threshold value, to decide that the signal is voice if the energy of the frame is greater than this value, or to decide that the signal is noise if the energy of the frame is less than this value. The processing of the current frame then reaches itsend 16.
- The
- If the frame number is not less than Ni, a
next step 17 consists in determining whether it is equal or if it is greater than Ni:- if it is equal to Ni, a
next step 18 consists in initializing the value of the average noise energy in the whole band and the value of the average noise energy in the low frequencies. - If it is greater than Ni:
- a
next step 19 consists in calculating a set of difference parameters, by subtracting the current value of a frame parameter from the sliding average value of this frame parameter, the latter being representative of the noise. These difference parameters are: spectral distortion, energy difference across the band, energy difference at low frequencies, and difference in zero crossing rates. - A
next step 20 consists in comparing the energy of the frame with a predetermined threshold value:- If it is not less than this value, a
step 21 consists in making an initial decision (“voice” or “noise”) based on a plurality of criteria, then astep 22 consists in “smoothing” this decision to avoid too many decision changes. - If it is less than or equal to this value, a
step 23 consists in deciding that the signal is noise, then step 22 consists in "smoothing" this decision.
- If it is not less than this value, a
- a
- After the smoothing
step 22, anext step 24 consists in comparing the energy of the current frame with an adaptive threshold equal to the sliding average of the energy in the whole band, increased by a constant:- If it is greater than the threshold value, a
next step 25 consists in updating the values of the sliding averages of the parameters representative of the noise, then the processing of the current frame reaches theend 26. - If it is not greater than the threshold value, the processing of the current frame reaches the
end 27.
- If it is greater than the threshold value, a
- if it is equal to Ni, a
La figure 3 représente de manière plus détaillée les opérations de lissage du signal de détection d'activité vocale, selon le procédé de codage connu par la norme G.729 annexe B, 11/96. Ce lissage comporte quatre étapes, qui suivent la prise de décision initiale 21 (« voix » ou « bruit ») basée sur une pluralité de critères:
- Une première étape consiste en
un test 31 pour prendre la décision « voix » si :- la décision pour la trame précédente était « voix »,
- et l'énergie moyenne de la trame courante est supérieure à la moyenne glissante de l'énergie des trames précédentes, augmentée d'une constante, autrement dit si l'énergie de la trame courante est nettement supérieure à l'énergie moyenne du bruit.
- Une deuxième étape 32 à 35 consiste en
un test 32 pour confirmer la décision « voix » si :- la décision pour les deux trames précédentes était « voix »,
- et l'énergie moyenne de la trame courante est supérieure à la moyenne glissante de l'énergie de la trame précédente, augmentée d'une constante, autrement dit si l'énergie n'a pas beaucoup diminué de la trame précédente à la trame courante.
ce test 32 pour la prochaine trame, si la trame courante est la quatrième trame d'affilée pour laquelle la décision est « voix ». Si la décision « voix » n'est pas confirmée, la décision « bruit » 42 est prise définitivement. - Une troisième étape 36 à 39 consiste en
un test 36 pour prendre la décision « bruit » 42 définitivement si :- Une décision « bruit » a été prise pour les dix trames précédant la trame courante (la décision « voix » ayant été prise pour celle-ci dans les étapes 31-35).
- L'énergie de la trame courante est inférieure à l'énergie de la
trame précédente augmentée d'une constante, autrement dit
l'énergie n'a pas beaucoup augmenté de la trame précédente à la
trame courante.
Cette troisième étape consiste en outre à réinitialiser (opération 37)le test 36 en réinitialisant le comptage des trames (opération 39), si la trame courante est la dixième trame d'affilée pour laquelle la décision est « bruit » (test 38).
- Une quatrième étape consiste en
un test 40 prendre la décision « bruit » 42 définitivement si l'énergie de la trame courante est inférieure à la somme de la moyenne glissante de l'énergie des trames précédentes, augmentée d'une constante égale à 614. Autrement dit, la décision « voix » n'est confirmée définitivement (opération 41) que si l'énergie de la trame est nettement supérieure à la moyenne glissante de l'énergie des trames précédentes. Dans le cas contraire, la décision « bruit» 42 est prise définitivement. Cette quatrième étape 40 (décision finale) fournit de mauvaises décisions « bruit » lorsque le signal est fortement bruité. En effet, cette étape 40 décide que le signal est du bruit sans tenir compte des décisions qui précédent, mais en se basant simplement sur la différence d'énergie entre la trame courante et le bruit de fond, représenté par la valeur de la moyenne glissante de l'énergie des trames précédentes, augmentée de la constante 614. En fait, lorsque le bruit de fond est élevé, le seuil constitué par cette constante 614 n'est plus valable.Le procédé selon l'invention se distingue du procédé connu par la norme G.279.1, Annexe B, 11/96, au niveau des étapes de lissage.La figure 4 représente l'organigramme d'un exemple de mise en oeuvre du lissage du signal de détection d'activité vocale, dans le procédé selon l'invention. Ce lissage comporte quatre étapes, qui suivent la prise de décision initiale 21 («voix» ou « bruit ») basée sur une pluralité de critères. Parmi ces quatre étapes, trois étapes ( 131, 132, 136) sont analogues à trois étapes décrites ci-dessus (tests 31, 32, 36); la quatrième étape 40 décrite précédemment est supprimée ; et une étape dite préliminaire est rajoutée avant la première étape 31 décrite ci-dessus. Un comptage dit d'inertie est rajouté pour obtenir une inertie d'une durée égale à cinq fois la durée d'une trame, par exemple, avant de changer la décision « voix » en décision « bruit» lorsque l'énergie de la trame est devenue faible. Cette durée est donc égale à 50 ms dans cet exemple. Ce comptage d'inertie n'est actif que lorsque l'énergie moyenne du bruit devient supérieure à à 8000 échelons de l'échelle de quantification définie par la norme G.279.1, Annexe B, 11/96.tests - L'étape préliminaire 101 à 104 rajoutée consiste à :
- Si la décision initiale de l'étape 21 est «voix», initialiser à 0 le
compteur d'inertie (opérations 102) et enfin
passer au test 131. - Si la décision initiale de l'étape 21 est « bruit », déterminer si
l'énergie de la trame courante est supérieure à une valeur de seuil
fixée, et déterminer si le contenu du compteur d'inertie est inférieur
à 6 et supérieur à 1 (opération 103). Puis :
- Prendre la décision « voix » (en contradiction avec la
décision initiale) si ces deux conditions sont remplies, puis
incrémenter le compteur d'inertie d'une unité (opération 104)
et enfin
passer au test 131. - Ou prendre la décision « bruit » 142 définitivement si l'une de ces conditions n'est pas remplie.
- Prendre la décision « voix » (en contradiction avec la
décision initiale) si ces deux conditions sont remplies, puis
incrémenter le compteur d'inertie d'une unité (opération 104)
et enfin
- Si la décision initiale de l'étape 21 est «voix», initialiser à 0 le
compteur d'inertie (opérations 102) et enfin
- La première étape consiste en un test 131 (analogue au test 31) qui consiste à maintenir la décision « voix » si la décision précédente était « voix » et l'énergie moyenne de la trame courante est supérieure à la moyenne glissante de l'énergie des trames précédentes, augmentée d'une constante fixée.
- La deuxième étape 132 à 135 (analogue à l'étape 32 à 35) consiste à
prendre la décision « voix » si :
- la décision pour les deux trames précédentes était « voix »,
- et l'énergie moyenne de la trame courante est supérieure à la
moyenne glissante de l'énergie de la trame précédente, augmentée
d'une constante, autrement dit si l'énergie n'a pas beaucoup
diminué de la trame précédente à la trame courante.
Cette deuxième étape 132 à 135 consiste en outre à désactiver ce test pour la prochaine trame, si la trame courante est la quatrième trame d'affilée pour laquelle la décision est «voix» (Incrémentation 133 d'un compteur,comparaison 134 de son contenu avec la valeur 4, etdésactivation 135 si la valeur 4 est atteinte).
- La troisième étape 136 à 139, 143 (peu différente de l'étape 36 à 39)
consiste à prendre la décision « bruit » 142 définitivement si :
- Une décision « bruit » a été prise pour les dix dernières trames ;
- et l'énergie de la trame courante est inférieure à l'énergie de la
trame précédente augmentée d'une constante, autrement dit si
l'énergie n'a pas beaucoup augmenté de la trame précédente à la
trame courante.
Cette troisième étape consiste en outre à réinitialiserce test 136 en réinitialisant le comptage des trames, si la trame courante est la dixième trame d'affilée pour laquelle la décision est « bruit » (Incrémentation 137 d'un compteur,comparaison 138 du contenu de ce compteur avec la valeur 10,réinitialisation 139 de ce compteur à 0 si la valeur 10 est atteinte). La troisième étape est modifié par rapport au procédé connu décrit précédemment, parce qu'elle consiste en outre à forcer le compteur d'inertie à la valeur 6 (opération 143) pour éviter toute interactionentre ce test 136 et le compteur d'inertie.
- Il n'y a pas de quatrième étape analogue à l'étape 40.
- A first step consists of a
test 31 to make the “voice” decision if:- the decision for the previous frame was "voice",
- and the average energy of the current frame is greater than the sliding average of the energy of the previous frames, increased by a constant, in other words if the energy of the current frame is significantly higher than the average energy of the noise.
decision 42 is taken definitively. - A
second step 32 to 35 consists of atest 32 to confirm the “voice” decision if:- the decision for the two previous frames was "voice",
- and the average energy of the current frame is greater than the sliding average of the energy of the previous frame, increased by a constant, in other words if the energy has not decreased much from the previous frame to the current frame .
test 32 for the next frame, if the current frame is the fourth frame in a row for which the decision is "voice". If the “voice” decision is not confirmed, the “noise”decision 42 is taken definitively. - A
third step 36 to 39 consists of atest 36 to make the “noise”decision 42 definitively if:- A “noise” decision has been taken for the ten frames preceding the current frame (the “voice” decision having been taken for the latter in steps 31-35).
- The energy of the current frame is less than the energy of the previous frame increased by a constant, in other words the energy has not increased much from the previous frame to the current frame.
This third step also consists in reinitializing (operation 37) thetest 36 by reinitializing the counting of the frames (operation 39), if the current frame is the tenth frame in a row for which the decision is “noise” (test 38).
- A fourth step consists of a
test 40 making the “noise”decision 42 definitively if the energy of the current frame is less than the sum of the sliding average of the energy of the previous frames, increased by a constant equal to 614. In other words, the "voice" decision is only definitively confirmed (operation 41) if the energy of the frame is significantly higher than the sliding average of the energy of the previous frames. Otherwise, the “noise”decision 42 is taken definitively. This fourth step 40 (final decision) provides bad “noise” decisions when the signal is very noisy. In fact, thisstep 40 decides that the signal is noise without taking into account the preceding decisions, but simply based on the energy difference between the current frame and the background noise, represented by the value of the sliding average. of the energy of the previous frames, increased by the constant 614. In fact, when the background noise is high, the threshold constituted by this constant 614 is no longer valid. The process according to the invention is distinguished from the process known by standard G.279.1, Annex B, 11/96, at the level of the smoothing steps. FIG. 4 represents the flow diagram of an example of implementation of the smoothing of the voice activity detection signal, in the method according to the invention. This smoothing comprises four stages, which follow the initial decision making 21 (“voice” or “noise”) based on a plurality of criteria. Among these four stages, three stages ( 131, 132, 136) are analogous to the three stages described above (tests 31, 32, 36); thetests fourth step 40 described above is omitted; and a so-called preliminary step is added before thefirst step 31 described above. A so-called inertia count is added to obtain an inertia of a duration equal to five times the duration of a frame, for example, before changing the “voice” decision to a “noise” decision when the energy of the frame became weak. This duration is therefore equal to 50 ms in this example. This inertia counting is only active when the average noise energy becomes greater than 8000 steps of the quantization scale defined by standard G.279.1, Annex B, 11/96. - The
preliminary step 101 to 104 added consists of:- If the initial decision in
step 21 is "voice", initialize the inertia counter to 0 (operations 102) and finally go totest 131. - If the initial decision of
step 21 is “noise”, determine if the energy of the current frame is greater than a fixed threshold value, and determine if the content of the inertia counter is less than 6 and greater than 1 (operation 103). Then:- Take the “voice” decision (in contradiction with the initial decision) if these two conditions are met, then increment the inertia counter by one unit (operation 104) and finally pass to test 131.
- Or take the
noise decision 142 definitively if one of these conditions is not met.
- If the initial decision in
- The first step consists of a test 131 (similar to test 31) which consists in maintaining the “voice” decision if the previous decision was “voice” and the average energy of the current frame is greater than the sliding average of the energy. previous frames, plus a fixed constant.
- The
second step 132 to 135 (analogous to step 32 to 35) consists in making the "voice" decision if:- the decision for the two previous frames was "voice",
- and the average energy of the current frame is greater than the sliding average of the energy of the previous frame, increased by a constant, in other words if the energy has not decreased much from the previous frame to the current frame .
Thissecond step 132 to 135 also consists in deactivating this test for the next frame, if the current frame is the fourth frame in a row for which the decision is "voice" (Increment 133 of a counter,comparison 134 of its content with the value 4, anddeactivation 135 if the value 4 is reached).
- The
third step 136 to 139, 143 (little different fromstep 36 to 39) consists in making the “noise”decision 142 definitively if:- A noise decision has been made for the last ten frames;
- and the energy of the current frame is less than the energy of the previous frame increased by a constant, in other words if the energy has not increased much from the previous frame to the current frame.
This third step also consists in reinitializing thistest 136 by reinitializing the counting of the frames, if the current frame is the tenth frame in a row for which the decision is “noise” (increment 137 of a counter,comparison 138 of the content of this counter with thevalue 10, reset 139 of this counter to 0 if thevalue 10 is reached). The third step is modified compared to the known method described above, because it also consists in forcing the inertia counter to the value 6 (operation 143) to avoid any interaction between thistest 136 and the inertia counter.
- There is no fourth step analogous to step 40.
Sur la figure 5 les courbes E1 et E2 représentent respectivement les pourcentages d'erreurs avec le procédé connu et avec le procédé selon l'invention, pour différentes valeurs du rapport signal sur bruit.In FIG. 5, the curves E1 and E2 respectively represent the percentages of errors with the known method and with the method according to the invention, for different values of the signal to noise ratio.
Sur la figure 6 les courbes L1 et L2 représentent respectivement les pourcentages de pertes de parole avec le procédé connu et avec le procédé selon l'invention, pour différentes valeurs du rapport signal sur bruit.In FIG. 6, the curves L1 and L2 respectively represent the percentages of speech losses with the known method and with the method according to the invention, for different values of the signal to noise ratio.
Elles montrent que le comportement de la détection d'activité vocale est largement amélioré en milieu bruyant. Le pourcentage d'erreur global diminue, et, surtout, le pourcentage de parole perdue est considérablement réduit. L'intégrité de la parole est préservée et la conversation reste compréhensible.They show that the behavior of voice activity detection is largely improved in noisy surroundings. The overall error percentage decreases, and, above all, the percentage of lost speech is considerably reduced. Speech integrity is preserved and the conversation remains understandable.
Claims (6)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0107585A FR2825826B1 (en) | 2001-06-11 | 2001-06-11 | METHOD FOR DETECTING VOICE ACTIVITY IN A SIGNAL, AND ENCODER OF VOICE SIGNAL INCLUDING A DEVICE FOR IMPLEMENTING THIS PROCESS |
FR0107585 | 2001-06-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
EP1267325A1 true EP1267325A1 (en) | 2002-12-18 |
EP1267325B1 EP1267325B1 (en) | 2004-06-16 |
Family
ID=8864153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP02290984A Expired - Lifetime EP1267325B1 (en) | 2001-06-11 | 2002-04-18 | Process for voice activity detection in a signal, and speech signal coder comprising a device for carrying out the process |
Country Status (8)
Country | Link |
---|---|
US (1) | US7596487B2 (en) |
EP (1) | EP1267325B1 (en) |
JP (2) | JP3992545B2 (en) |
CN (1) | CN1162835C (en) |
AT (1) | ATE269573T1 (en) |
DE (1) | DE60200632T2 (en) |
ES (1) | ES2219624T3 (en) |
FR (1) | FR2825826B1 (en) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7756709B2 (en) * | 2004-02-02 | 2010-07-13 | Applied Voice & Speech Technologies, Inc. | Detection of voice inactivity within a sound stream |
GB0408856D0 (en) * | 2004-04-21 | 2004-05-26 | Nokia Corp | Signal encoding |
ES2291877T3 (en) * | 2004-05-17 | 2008-03-01 | Nokia Corporation | AUDIO CODING WITH DIFFERENT CODING MODELS. |
DE102004049347A1 (en) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Circuit arrangement or method for speech-containing audio signals |
KR100657912B1 (en) * | 2004-11-18 | 2006-12-14 | 삼성전자주식회사 | Noise reduction method and device |
US20060241937A1 (en) * | 2005-04-21 | 2006-10-26 | Ma Changxue C | Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments |
KR20080059881A (en) * | 2006-12-26 | 2008-07-01 | 삼성전자주식회사 | Preprocessing device and method of speech signal |
PT2491559E (en) * | 2009-10-19 | 2015-05-07 | Ericsson Telefon Ab L M | Method and background estimator for voice activity detection |
CN102137194B (en) * | 2010-01-21 | 2014-01-01 | 华为终端有限公司 | A call detection method and device |
ES2987086T3 (en) * | 2010-12-24 | 2024-11-13 | Huawei Tech Co Ltd | Method and apparatus for adaptively detecting voice activity in an input audio signal |
US9659571B2 (en) * | 2011-05-11 | 2017-05-23 | Robert Bosch Gmbh | System and method for emitting and especially controlling an audio signal in an environment using an objective intelligibility measure |
US20130090926A1 (en) * | 2011-09-16 | 2013-04-11 | Qualcomm Incorporated | Mobile device context information using speech detection |
CN103325386B (en) * | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | The method and system controlled for signal transmission |
CN103325385B (en) * | 2012-03-23 | 2018-01-26 | 杜比实验室特许公司 | Speech communication method and device, method and device for operating jitter buffer |
CN105681966B (en) * | 2014-11-19 | 2018-10-19 | 塞舌尔商元鼎音讯股份有限公司 | Reduce the method and electronic device of noise |
US10928502B2 (en) * | 2018-05-30 | 2021-02-23 | Richwave Technology Corp. | Methods and apparatus for detecting presence of an object in an environment |
CN109360585A (en) * | 2018-12-19 | 2019-02-19 | 晶晨半导体(上海)股份有限公司 | A kind of voice-activation detecting method |
CN113497852A (en) * | 2020-04-07 | 2021-10-12 | 北京字节跳动网络技术有限公司 | Automatic volume adjustment method, apparatus, medium, and device |
CN113555025B (en) * | 2020-04-26 | 2024-08-09 | 华为技术有限公司 | A method and device for sending and negotiating a mute description frame |
CN115132231B (en) * | 2022-08-31 | 2022-12-13 | 安徽讯飞寰语科技有限公司 | Voice activity detection method, device, equipment and readable storage medium |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US5649055A (en) * | 1993-03-26 | 1997-07-15 | Hughes Electronics | Voice activity detector for speech signals in variable background noise |
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
FR2797343A1 (en) * | 1999-08-04 | 2001-02-09 | Matra Nortel Communications | METHOD AND DEVICE FOR DETECTING VOICE ACTIVITY |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0240700A (en) * | 1988-08-01 | 1990-02-09 | Matsushita Electric Ind Co Ltd | Voice detecting device |
JPH0424692A (en) * | 1990-05-18 | 1992-01-28 | Ricoh Co Ltd | Voice section detection system |
US5583961A (en) * | 1993-03-25 | 1996-12-10 | British Telecommunications Public Limited Company | Speaker recognition using spectral coefficients normalized with respect to unequal frequency bands |
JP2897628B2 (en) * | 1993-12-24 | 1999-05-31 | 三菱電機株式会社 | Voice detector |
JP3109978B2 (en) * | 1995-04-28 | 2000-11-20 | 松下電器産業株式会社 | Voice section detection device |
US5819217A (en) * | 1995-12-21 | 1998-10-06 | Nynex Science & Technology, Inc. | Method and system for differentiating between speech and noise |
JP3297346B2 (en) * | 1997-04-30 | 2002-07-02 | 沖電気工業株式会社 | Voice detection device |
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
US6691084B2 (en) * | 1998-12-21 | 2004-02-10 | Qualcomm Incorporated | Multiple mode variable rate speech coding |
JP3759685B2 (en) * | 1999-05-18 | 2006-03-29 | 三菱電機株式会社 | Noise section determination device, noise suppression device, and estimated noise information update method |
CA2430319C (en) * | 2000-11-30 | 2011-03-01 | Matsushita Electric Industrial Co., Ltd. | Speech decoding apparatus and speech decoding method |
-
2001
- 2001-06-11 FR FR0107585A patent/FR2825826B1/en not_active Expired - Fee Related
-
2002
- 2002-04-18 DE DE60200632T patent/DE60200632T2/en not_active Expired - Lifetime
- 2002-04-18 EP EP02290984A patent/EP1267325B1/en not_active Expired - Lifetime
- 2002-04-18 ES ES02290984T patent/ES2219624T3/en not_active Expired - Lifetime
- 2002-04-18 AT AT02290984T patent/ATE269573T1/en not_active IP Right Cessation
- 2002-05-10 US US10/142,060 patent/US7596487B2/en not_active Expired - Fee Related
- 2002-05-29 CN CNB021217432A patent/CN1162835C/en not_active Expired - Fee Related
- 2002-06-10 JP JP2002168375A patent/JP3992545B2/en not_active Expired - Fee Related
-
2006
- 2006-03-28 JP JP2006087186A patent/JP2006189907A/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
US5649055A (en) * | 1993-03-26 | 1997-07-15 | Hughes Electronics | Voice activity detector for speech signals in variable background noise |
US5826230A (en) * | 1994-07-18 | 1998-10-20 | Matsushita Electric Industrial Co., Ltd. | Speech detection device |
FR2797343A1 (en) * | 1999-08-04 | 2001-02-09 | Matra Nortel Communications | METHOD AND DEVICE FOR DETECTING VOICE ACTIVITY |
Non-Patent Citations (1)
Title |
---|
JONGSEO SOHN ET AL: "A statistical model-based voice activity detection", IEEE SIGNAL PROCESSING LETTERS, JAN. 1999, IEEE, USA, vol. 6, no. 1, pages 1 - 3, XP002189007, ISSN: 1070-9908 * |
Also Published As
Publication number | Publication date |
---|---|
DE60200632T2 (en) | 2004-12-23 |
JP2006189907A (en) | 2006-07-20 |
FR2825826B1 (en) | 2003-09-12 |
CN1162835C (en) | 2004-08-18 |
US7596487B2 (en) | 2009-09-29 |
US20020188442A1 (en) | 2002-12-12 |
ES2219624T3 (en) | 2004-12-01 |
JP2003005772A (en) | 2003-01-08 |
ATE269573T1 (en) | 2004-07-15 |
DE60200632D1 (en) | 2004-07-22 |
JP3992545B2 (en) | 2007-10-17 |
CN1391212A (en) | 2003-01-15 |
FR2825826A1 (en) | 2002-12-13 |
EP1267325B1 (en) | 2004-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1267325B1 (en) | Process for voice activity detection in a signal, and speech signal coder comprising a device for carrying out the process | |
EP1320087B1 (en) | Synthesis of an excitation signal for use in a comfort noise generator | |
EP1016072B1 (en) | Method and apparatus for suppressing noise in a digital speech signal | |
EP1051703B1 (en) | Method for decoding an audio signal with transmission error correction | |
EP0109037B1 (en) | Process and device for evaluating the noise level on a telephone line | |
EP2080195A1 (en) | Synthesis of lost blocks of a digital audio signal, with pitch period correction | |
EP0946014B1 (en) | Method for detecting a sequence of symbols from a received signal, and Viterbi processor for carrying out the method | |
WO2002021515A1 (en) | Transmission error concealment in an audio signal | |
EP0906613B1 (en) | Method and device for coding an audio signal by "forward" and "backward" lpc analysis | |
WO2011161362A1 (en) | Controlling a noise-shaping feedback loop in a digital audio signal encoder | |
EP0506535B1 (en) | Method and system for processing of pre-echos of a frequency transform coded digital audio signal | |
WO2006114494A1 (en) | Method for adapting for an interoperability between short-term correlation models of digital signals | |
EP0334714A1 (en) | Differential coder with a self-adaptive filter, and decoder for said coder | |
EP3192073B1 (en) | Discrimination and attenuation of pre-echoes in a digital audio signal | |
EP1131813A1 (en) | Speech recognition method in a noisy acoustic signal and implementing system | |
EP1039736A1 (en) | Method and device for adaptive identification and related adaptive echo canceller | |
EP1016073B1 (en) | Method and apparatus for suppressing noise in a digital speech signal | |
FR3020732A1 (en) | PERFECTED FRAME LOSS CORRECTION WITH VOICE INFORMATION | |
EP1021805B1 (en) | Method and apparatus for conditioning a digital speech signal | |
EP1383109A1 (en) | Method and device for wide band speech coding | |
FR2885462A1 (en) | METHOD FOR ATTENUATING THE PRE- AND POST-ECHOS OF AN AUDIO DIGITAL SIGNAL AND CORRESPONDING DEVICE | |
FR2771543A1 (en) | Noise reduction algorithm | |
EP1383111A2 (en) | Method and device for speechcoding with enlarged bandwidth | |
EP1383110A1 (en) | Method and device for wide band speech coding, particularly allowing for an improved quality of voised speech frames | |
EP1383112A2 (en) | Method and device for enlarged bandwidth speech coding, allowing in particular an improved quality of voiced frames |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
17P | Request for examination filed |
Effective date: 20030618 |
|
AKX | Designation fees paid |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 Ref country code: AT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040616 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REF | Corresponds to: |
Ref document number: 60200632 Country of ref document: DE Date of ref document: 20040722 Kind code of ref document: P |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: FRENCH |
|
GBT | Gb: translation of ep patent filed (gb section 77(6)(a)/1977) |
Effective date: 20040714 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040916 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040916 Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20040916 |
|
NLV1 | Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act | ||
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FG2A Ref document number: 2219624 Country of ref document: ES Kind code of ref document: T3 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20050418 Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050418 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050430 Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20050430 |
|
26N | No opposition filed |
Effective date: 20050317 |
|
BERE | Be: lapsed |
Owner name: *ALCATEL Effective date: 20050430 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20060430 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20060430 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: CD |
|
BERE | Be: lapsed |
Owner name: *ALCATEL Effective date: 20050430 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: PT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20041116 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: 732E Free format text: REGISTERED BETWEEN 20131114 AND 20131120 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: GC Effective date: 20140717 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: RG Effective date: 20141016 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 14 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 15 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: GB Payment date: 20170419 Year of fee payment: 16 Ref country code: DE Payment date: 20170419 Year of fee payment: 16 Ref country code: FR Payment date: 20170419 Year of fee payment: 16 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: IT Payment date: 20170424 Year of fee payment: 16 Ref country code: ES Payment date: 20170517 Year of fee payment: 16 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 60200632 Country of ref document: DE |
|
GBPC | Gb: european patent ceased through non-payment of renewal fee |
Effective date: 20180418 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20181101 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180418 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180430 Ref country code: IT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180418 |
|
REG | Reference to a national code |
Ref country code: ES Ref legal event code: FD2A Effective date: 20190912 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20180419 |