CA2163295A1 - Detection d'activite vocale - Google Patents
Detection d'activite vocaleInfo
- Publication number
- CA2163295A1 CA2163295A1 CA002163295A CA2163295A CA2163295A1 CA 2163295 A1 CA2163295 A1 CA 2163295A1 CA 002163295 A CA002163295 A CA 002163295A CA 2163295 A CA2163295 A CA 2163295A CA 2163295 A1 CA2163295 A1 CA 2163295A1
- Authority
- CA
- Canada
- Prior art keywords
- vector
- autocorrelation
- value
- voice activity
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000001514 detection method Methods 0.000 title claims description 24
- 230000001755 vocal effect Effects 0.000 title description 3
- 239000013598 vector Substances 0.000 claims abstract description 51
- 230000005236 sound signal Effects 0.000 claims abstract description 25
- 230000000694 effects Effects 0.000 claims description 36
- 230000004069 differentiation Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Complex Calculations (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
- Cosmetics (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Time-Division Multiplex Systems (AREA)
Abstract
Dispositif de détection d'activité vocale dans un signal audio comprenant : - des moyens pour calculer les coefficients d'autocorrélation (R(k)) de ce signal, - des moyens pour identifier un premier vecteur d'autocorrélation (R0) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)), - des moyens pour identifier un second vecteur d'autocorrélation (Rq) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à la première série d'une valeur de décalage (q) prédéterminée, - des moyens pour soustraire le premier vecteur d'autocorrélation (R0) du second vecteur d'autocorrélation (Rq) afin d'obtenir un vecteur de différentiation (.DELTA.R), - des moyens pour calculer une norme (?.DELTA.R?) du vecteur de différentiation, cette norme représentant un indicateur d'activité vocale.
Description
21632~5 Détection d'activité vocale.
Le domaine de l'invention est celui de la détection d'activité vocale da~s un signal audio.
En présence d'un signal audio qui est souvent issu d'un microphone, il est parfois nécessaire de savoir si ce signal contient de la parole ou bien s'il ne comporte que du bruit.
En effet, la détection d'activité vocale va souvent conditionner certains traitements que le signal audio est 10 susceptible de subir. Au nombre des applications typiques qu'il convient d'activer en présence d'un signal de parole, on peut identifier la reconnaissance de la parole, l'annulation d'écho ou encore la fonction d'enregistrement.
Au contraire, si l'on considère un signal de téléphonie où seule la parole représente l'information utile, il est maintenant courant dans le domaine des radiocommunications de ne pas transmettre ce signal si celui-ci ne comprend que du bruit, c'est que l'on appelle couramment la transmission discontinue.
Ainsi, des solutions ont déjà été proposées pour tenter de détecter l'activité vocale dans un signal audio.
Une première solution consiste à suivre l'évolution de l'énergie du signal. Si celle-ci augmente rapidement, cela peut correspondre à l'apparition d'une activité vocale mais cela peut aussi correspondre à une variation du bruit ambiant. Il s'ensuit que cette méthode, bien que très simple à mettre en oeuvre ne se présente pas comme très fiable dans les milieux relativement bruités comme c'est le cas par exemple dans un véhicule automobile.
on connait également de nombreuses autres solutions qui ont été développées pour pallier le défaut de fiabilité
de la précédente. C'est le cas notamment de celles qui mettent en oeuvre une transformée de Fourier du signal audio pour mesurer la distance spectrale le séparant d'un signal de bruit moyenné qui est mis à jour en l'absence de toute activité vocale. C'est également le cas des méthodes 21632~
utilisant une analyse du signal en sous-bandes, méthodes qui sont proches de celles faisant appel à une transformée de Fourier. C'est encore le cas des méthodes faisant appel à
l'analyse cepstrale.
Il s'agit là de techniques beaucoup plus complexes qui, si elles apportent bien un gain au niveau de la fiabilité, ne donnent cependant pas complète satisfaction sur ce point.
On connaît aussi des solutions qui mettent à profit 10 une certaine périodicité de la parole au nombre desquelles figure celle décrite dans la demande de brevet EP 0 123 349.
En effet, les sons voisés présentent tous une périodicité
déterminée alors que le bruit est normalement apériodique ou bien présente une périodicité distincte de celle de la parole.
On peut donc rechercher la valeur de cette périodicité
déterminée (ou "pitch" en anglais) pour reconnaître la présence de sons voisés.
Pour ce faire, on calcule généralement les 20 coefficients d'autocorrélation du signal audio pour rechercher le second maxi mllm de ces coefficients, le premier r-xi mllm représentant l'énergie. Il s'agit là encore d'une technique relativement complexe qui ne donne pas complète satisfaction sur le plan de la fiabilité.
La présente invention propose donc une solution pour détecter l'activité vocale qui procure une fiabilité
acceptable pour une complexité réduite.
Selon l'invention, un dispositif de détection d'activité vocale dans un signal audio comprend :
- des moyens pour calculer les coefficients d'autocorrélation de ce signal, - des moyens pour identifier un premier vecteur d'autocorrélation ayant pour composantes une première série de coefficients d'autocorrélation, - des moyens pour identifier un second vecteur d'autocorrélation ayant pour composantes une deuxième série 21632g5 de coefficients d'autocorrélation décalée par rapport à la première série d'une valeur de décalage prédéterminée, - des moyens pour soustraire le premier vecteur d'autocorrélation du second vecteur d'autocorrélation afin d'obtenir un vecteur de différentiation, - des moyens pour calculer une norme de ce vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
De plus, le dispositif comprend des moyens de 10 réduction pour établir une norme réduite en divisant la norme du vecteur de différentiation par une valeur de réduction, cette norme réduite représentant un deuxième indicateur d'activité vocale.
A titre d'exemple, la valeur de réduction est égale à
l'énergie du signal ou bien elle est égale à la somme de l'énergie du signal et d'une constante de compression.
Selon une caractéristique additionnnelle du dispositif, celui-ci comprend des moyens de lissage de l'un de ces indicateurs d'activité vocale pour produire une 20 combinaison linéaire de la valeur présente de cet indicateur et de sa valeur antérieure, cette combinaison linéaire représentant un troisième indicateur d'activité vocale.
Par ailleurs, le dispositif comprend des moyens de décision pour produire un signal d'activité vocale si l'un de ces indicateurs excède un seuil de détection.
On peut trouver un intérêt à établir ce seuil de détection à partir de l'énergie du signal audio en l'absence de signal d'activité vocale.
En outre, une solution avantageuse consiste à choisir 30 la somme des valeurs absolues des composantes du vecteur de différentiation comme norme de ce vecteur.
L'invention concerne également une méthode de détection d'activité vocale dans un signal audio comprenant les opérations suivantes :
- calcul des coefficients d'autocorrélation de ce signal, - identification d'un premier vecteur d'autocorrélation ayant pour composantes une première série de coefficients d'autocorrélation, - identification d'un second vecteur d'autocorrélation ayant pour composantes une deuxième série de coefficients d'autocorrélation décalée par rapport à la première série d'une valeur de décalage prédéterminée, - soustraction du premier vecteur d'autocorrélation du second vecteur d'autocorrélation afin d'obtenir un vecteur lo de différentiation, - calcul d'une norme du vecteur de différentiation, cette norme représentant un premier indicateur d'activité
vocale.
La présente invention appraîtra maintenant de manière plus claire dans le cadre d'un exemple de réalisation donné
à titre illustratif en se référant à la figure annexée qui représente le déroulement des opérations effectuées par le dispositif de détection d'activité vocale.
On se place dans le cas où un signal audio est de 20 nature numérique, c'est-à-dire qu'il se présente sous la forme d'une suite d'échantillons qui correspondent à la valeur du signal à des instants successifs qui se répètent au rythme d'une fréquence d'échantillonnage.
Lorsque le signal à analyser est de nature analogique, s'il est issu d'un microphone par exemple, il est d'abord soumis à un convertisseur analogique-numérique qui fonctionne à la cadence de cette fréquence d'échantillonnage pour produire le signal audio.
Le signal audio étant numérique, il apparaît naturel 30 de réaliser le dispositif de détection d'activité vocale au - moyen d'un processeur de signal numérique. Ce processeur pourra bien entendu être utilisé à d'autres fins.
On comprend donc que ce dispositif de détection ne sera pas décrit dans sa structure car il met en oeuvre des opérations élémentaires bien connues de l'homme du métier telles que additions, multiplications, comparaisons. C'est 21632~5 _ 5 donc une description fonctionnelle qui a été retenue, car elle semble de loin préférable pour expliciter la mise en oeuvre de l'invention avec la plus grande clarté.
En référence à la figure unique, le dispositif reçoit donc le signal audio et on considère une série d'échantillons S(i) où i varie de 0 à N.
La première opération qu'effectue le dispositif est le calcul des coefficients d'autocorrélation R(k) du signal pour toutes les valeurs de k comprises entre O et N :
N- k R(k)= ~ S(i)S(i+k) i= O
A partir de ces coefficients d'autocorrélation R(k) on peut définir un premier Ro et un second Rq vecteurs d'autocorrélation en considérant de plus une valeur de décalage q qui est un entier strictement positif. Le premier vecteur d'autocorrélation Ro a pour composants les (N-q+1) premiers coefficients d'autocorrélation R(k) :
Ro = (R(O), R(1), ..., R(N-q)) Le second vecteur d'autocorrélation Rq a pour composants les (N-q+1) derniers coefficients d'autocorrélation R(k) :
Rq = (R(q), R(q+1), ..., R(N)) Le dispositif de détection calcule alors un vecteur de différentiation ~R en soustrayant le premier vecteur d'autocorrélation Ro du second vecteur d'autocorrélation Rq :
~ R = Rq - Ro Si l'on note ~R(k) la (k+l)ième composante de ce 30 vecteur de différenciation, celle-ci vaut alors pour tout k compris entre 0 et N-q :
~R(k) = R(k+q) - R(k) On s'aperçoit que les premiers Ro et deuxième Rq vecteurs d'autocorrélation n'ont pas d'utilité en eux-mêmes.
2163~5 Ils ont été introduits dans le simple but de clarifier la présentation. Le point important est le calcul du vecteur de différenciation. Ainsi, ce vecteur se définit par la valeur de ces composantes telle que définie ci-dessus.
Dès lors, le dispositif de détection calcule une norme ¦¦~R¦¦ du vecteur de différentiation ~R. De manière avantageuse, cette norme est égale à la somme des valeurs absolues des composantes du vecteur :
N -q ¦¦~ R¦~ R(k)¦
~ =o Il va sans dire que l'invention s'applique également si l'on choisit de retenir une autre norme telle que, notamment, la norme euclidienne ou la valeur maximale des valeurs absolues de chacune des composantes.
Cette norme, quelle qu'elle soit, constitue un premier indicateur d'activité vocale.
Une première option consiste à comparer cet indicateur à un seuil pour établir qu'il y a présence d'activité vocale 20 dans le signal audio si l'indicateur est supérieur au seuil.
Selon une seconde option, le dispositif de détection calcule une norme réduite P en divisant la norme II~RII du vecteur de différentiation par une valeur de réduction. A
titre d'exemple, cette valeur de réduction peut être choisie égale à l'énergie R(0) du signal audio, ce qui va tendre à
comprimer la dynamique de la norme ¦¦~ R¦¦ . Une autre solution qui procure ses avantages propres consiste à affecter à
cette valeur de réduction la somme de l'énergie R( O ) du signal audio et d'une constante que l'on nommera valeur 30 plancher C.
Cette norme réduite P, en tout état de cause constitue un deuxième indicateur d'activité vocale que l'on peut également comparer à un seuil pour établir l'absence ou la présence d'activité vocale dans ce signal.
21632~5 _ 7 Selon une troisième option, le dispositif de détection procède à un lissage de cette norme réduite. Ainsi, si l'on considère plusieurs séries successives de N échantillons du signal audio, une norme réduite Pi correspond à la iième série. La valeur lissée Pi de cette norme réduite sera une combinaison linéaire de la valeur lissée Pi_1 de la norme réduite Pi_1 associée à la série précédente et de cette norme réduite Pi :
Pi =api-l+~pi On peut choisir a et ~ de sorte que leur somme soit égale à l'unité.
De plus, il convient d'initialiser Po à l'aide d'une constante quelconque, 0 par exemple.
Cette valeur lissée Pi constitue un troisième indicateur d'activité vocale que l'on peut aussi comparer à
un seuil pour établir si le signal audio présente ou non une activité vocale.
Quel que soit l'indicateur d'activité vocale retenu, le dispositif de détection le compare donc à un seuil de détection T. La solution la plus simple consiste à affecter une valeur constante à ce seuil de détection.
Cependant, une solution avantageuse consiste à adapter ce seuil au niveau de la norme réduite P lorsque le signal audio est dépourvu d'activité vocale.
on peut donc calculer la valeur moyenne de la norme réduite sur plusieurs séries successives d'échantillons du signal audio pour lesquelles aucune activité vocale n'a été
30 détectée et multiplier cette valeur moyenne par un coefficient constant pour obtenir le seuil de détection T.
Il s'agit là d'une technique analogue à celle du lissage bien connue de l'homme du métier et elle ne sera donc pas plus détaillée.
2163~Q5 Outre le dispositif de détection proprement dit, l'invention concerne naturellement la méthode de détection d'activité vocale qui est mise en oeuvre par ce dispositif.
A titre d'application numérique et pou~ présenter un cas concret d'utilisation de l'invention, on prendra pour illustration le système paneuropéen de radiocommunication cellulaire numérique dit système GSM. Dans ce système le signal analogique à traiter est échantillonné à la fréquence de 8 kHz. Les échantillons ainsi obtenus sont regroupés en 10 séries de 160 qui correspondent donc chacune à 20 ms.
Ainsi, N, le nombre d'échantillons, vaut 160 et l'on choisira de manière avantageuse de fixer la valeur de d~calage q égale à l'unité.
Les composantes du vecteur de différentiation s'écrivent alors pour tout k compris entre 1 et 160 :
~ R(k) = R(k+l) - R(k) La norme de ce vecteur peut donc s'écrire :
¦¦~ R¦~ R(k)¦
~= o
Le domaine de l'invention est celui de la détection d'activité vocale da~s un signal audio.
En présence d'un signal audio qui est souvent issu d'un microphone, il est parfois nécessaire de savoir si ce signal contient de la parole ou bien s'il ne comporte que du bruit.
En effet, la détection d'activité vocale va souvent conditionner certains traitements que le signal audio est 10 susceptible de subir. Au nombre des applications typiques qu'il convient d'activer en présence d'un signal de parole, on peut identifier la reconnaissance de la parole, l'annulation d'écho ou encore la fonction d'enregistrement.
Au contraire, si l'on considère un signal de téléphonie où seule la parole représente l'information utile, il est maintenant courant dans le domaine des radiocommunications de ne pas transmettre ce signal si celui-ci ne comprend que du bruit, c'est que l'on appelle couramment la transmission discontinue.
Ainsi, des solutions ont déjà été proposées pour tenter de détecter l'activité vocale dans un signal audio.
Une première solution consiste à suivre l'évolution de l'énergie du signal. Si celle-ci augmente rapidement, cela peut correspondre à l'apparition d'une activité vocale mais cela peut aussi correspondre à une variation du bruit ambiant. Il s'ensuit que cette méthode, bien que très simple à mettre en oeuvre ne se présente pas comme très fiable dans les milieux relativement bruités comme c'est le cas par exemple dans un véhicule automobile.
on connait également de nombreuses autres solutions qui ont été développées pour pallier le défaut de fiabilité
de la précédente. C'est le cas notamment de celles qui mettent en oeuvre une transformée de Fourier du signal audio pour mesurer la distance spectrale le séparant d'un signal de bruit moyenné qui est mis à jour en l'absence de toute activité vocale. C'est également le cas des méthodes 21632~
utilisant une analyse du signal en sous-bandes, méthodes qui sont proches de celles faisant appel à une transformée de Fourier. C'est encore le cas des méthodes faisant appel à
l'analyse cepstrale.
Il s'agit là de techniques beaucoup plus complexes qui, si elles apportent bien un gain au niveau de la fiabilité, ne donnent cependant pas complète satisfaction sur ce point.
On connaît aussi des solutions qui mettent à profit 10 une certaine périodicité de la parole au nombre desquelles figure celle décrite dans la demande de brevet EP 0 123 349.
En effet, les sons voisés présentent tous une périodicité
déterminée alors que le bruit est normalement apériodique ou bien présente une périodicité distincte de celle de la parole.
On peut donc rechercher la valeur de cette périodicité
déterminée (ou "pitch" en anglais) pour reconnaître la présence de sons voisés.
Pour ce faire, on calcule généralement les 20 coefficients d'autocorrélation du signal audio pour rechercher le second maxi mllm de ces coefficients, le premier r-xi mllm représentant l'énergie. Il s'agit là encore d'une technique relativement complexe qui ne donne pas complète satisfaction sur le plan de la fiabilité.
La présente invention propose donc une solution pour détecter l'activité vocale qui procure une fiabilité
acceptable pour une complexité réduite.
Selon l'invention, un dispositif de détection d'activité vocale dans un signal audio comprend :
- des moyens pour calculer les coefficients d'autocorrélation de ce signal, - des moyens pour identifier un premier vecteur d'autocorrélation ayant pour composantes une première série de coefficients d'autocorrélation, - des moyens pour identifier un second vecteur d'autocorrélation ayant pour composantes une deuxième série 21632g5 de coefficients d'autocorrélation décalée par rapport à la première série d'une valeur de décalage prédéterminée, - des moyens pour soustraire le premier vecteur d'autocorrélation du second vecteur d'autocorrélation afin d'obtenir un vecteur de différentiation, - des moyens pour calculer une norme de ce vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
De plus, le dispositif comprend des moyens de 10 réduction pour établir une norme réduite en divisant la norme du vecteur de différentiation par une valeur de réduction, cette norme réduite représentant un deuxième indicateur d'activité vocale.
A titre d'exemple, la valeur de réduction est égale à
l'énergie du signal ou bien elle est égale à la somme de l'énergie du signal et d'une constante de compression.
Selon une caractéristique additionnnelle du dispositif, celui-ci comprend des moyens de lissage de l'un de ces indicateurs d'activité vocale pour produire une 20 combinaison linéaire de la valeur présente de cet indicateur et de sa valeur antérieure, cette combinaison linéaire représentant un troisième indicateur d'activité vocale.
Par ailleurs, le dispositif comprend des moyens de décision pour produire un signal d'activité vocale si l'un de ces indicateurs excède un seuil de détection.
On peut trouver un intérêt à établir ce seuil de détection à partir de l'énergie du signal audio en l'absence de signal d'activité vocale.
En outre, une solution avantageuse consiste à choisir 30 la somme des valeurs absolues des composantes du vecteur de différentiation comme norme de ce vecteur.
L'invention concerne également une méthode de détection d'activité vocale dans un signal audio comprenant les opérations suivantes :
- calcul des coefficients d'autocorrélation de ce signal, - identification d'un premier vecteur d'autocorrélation ayant pour composantes une première série de coefficients d'autocorrélation, - identification d'un second vecteur d'autocorrélation ayant pour composantes une deuxième série de coefficients d'autocorrélation décalée par rapport à la première série d'une valeur de décalage prédéterminée, - soustraction du premier vecteur d'autocorrélation du second vecteur d'autocorrélation afin d'obtenir un vecteur lo de différentiation, - calcul d'une norme du vecteur de différentiation, cette norme représentant un premier indicateur d'activité
vocale.
La présente invention appraîtra maintenant de manière plus claire dans le cadre d'un exemple de réalisation donné
à titre illustratif en se référant à la figure annexée qui représente le déroulement des opérations effectuées par le dispositif de détection d'activité vocale.
On se place dans le cas où un signal audio est de 20 nature numérique, c'est-à-dire qu'il se présente sous la forme d'une suite d'échantillons qui correspondent à la valeur du signal à des instants successifs qui se répètent au rythme d'une fréquence d'échantillonnage.
Lorsque le signal à analyser est de nature analogique, s'il est issu d'un microphone par exemple, il est d'abord soumis à un convertisseur analogique-numérique qui fonctionne à la cadence de cette fréquence d'échantillonnage pour produire le signal audio.
Le signal audio étant numérique, il apparaît naturel 30 de réaliser le dispositif de détection d'activité vocale au - moyen d'un processeur de signal numérique. Ce processeur pourra bien entendu être utilisé à d'autres fins.
On comprend donc que ce dispositif de détection ne sera pas décrit dans sa structure car il met en oeuvre des opérations élémentaires bien connues de l'homme du métier telles que additions, multiplications, comparaisons. C'est 21632~5 _ 5 donc une description fonctionnelle qui a été retenue, car elle semble de loin préférable pour expliciter la mise en oeuvre de l'invention avec la plus grande clarté.
En référence à la figure unique, le dispositif reçoit donc le signal audio et on considère une série d'échantillons S(i) où i varie de 0 à N.
La première opération qu'effectue le dispositif est le calcul des coefficients d'autocorrélation R(k) du signal pour toutes les valeurs de k comprises entre O et N :
N- k R(k)= ~ S(i)S(i+k) i= O
A partir de ces coefficients d'autocorrélation R(k) on peut définir un premier Ro et un second Rq vecteurs d'autocorrélation en considérant de plus une valeur de décalage q qui est un entier strictement positif. Le premier vecteur d'autocorrélation Ro a pour composants les (N-q+1) premiers coefficients d'autocorrélation R(k) :
Ro = (R(O), R(1), ..., R(N-q)) Le second vecteur d'autocorrélation Rq a pour composants les (N-q+1) derniers coefficients d'autocorrélation R(k) :
Rq = (R(q), R(q+1), ..., R(N)) Le dispositif de détection calcule alors un vecteur de différentiation ~R en soustrayant le premier vecteur d'autocorrélation Ro du second vecteur d'autocorrélation Rq :
~ R = Rq - Ro Si l'on note ~R(k) la (k+l)ième composante de ce 30 vecteur de différenciation, celle-ci vaut alors pour tout k compris entre 0 et N-q :
~R(k) = R(k+q) - R(k) On s'aperçoit que les premiers Ro et deuxième Rq vecteurs d'autocorrélation n'ont pas d'utilité en eux-mêmes.
2163~5 Ils ont été introduits dans le simple but de clarifier la présentation. Le point important est le calcul du vecteur de différenciation. Ainsi, ce vecteur se définit par la valeur de ces composantes telle que définie ci-dessus.
Dès lors, le dispositif de détection calcule une norme ¦¦~R¦¦ du vecteur de différentiation ~R. De manière avantageuse, cette norme est égale à la somme des valeurs absolues des composantes du vecteur :
N -q ¦¦~ R¦~ R(k)¦
~ =o Il va sans dire que l'invention s'applique également si l'on choisit de retenir une autre norme telle que, notamment, la norme euclidienne ou la valeur maximale des valeurs absolues de chacune des composantes.
Cette norme, quelle qu'elle soit, constitue un premier indicateur d'activité vocale.
Une première option consiste à comparer cet indicateur à un seuil pour établir qu'il y a présence d'activité vocale 20 dans le signal audio si l'indicateur est supérieur au seuil.
Selon une seconde option, le dispositif de détection calcule une norme réduite P en divisant la norme II~RII du vecteur de différentiation par une valeur de réduction. A
titre d'exemple, cette valeur de réduction peut être choisie égale à l'énergie R(0) du signal audio, ce qui va tendre à
comprimer la dynamique de la norme ¦¦~ R¦¦ . Une autre solution qui procure ses avantages propres consiste à affecter à
cette valeur de réduction la somme de l'énergie R( O ) du signal audio et d'une constante que l'on nommera valeur 30 plancher C.
Cette norme réduite P, en tout état de cause constitue un deuxième indicateur d'activité vocale que l'on peut également comparer à un seuil pour établir l'absence ou la présence d'activité vocale dans ce signal.
21632~5 _ 7 Selon une troisième option, le dispositif de détection procède à un lissage de cette norme réduite. Ainsi, si l'on considère plusieurs séries successives de N échantillons du signal audio, une norme réduite Pi correspond à la iième série. La valeur lissée Pi de cette norme réduite sera une combinaison linéaire de la valeur lissée Pi_1 de la norme réduite Pi_1 associée à la série précédente et de cette norme réduite Pi :
Pi =api-l+~pi On peut choisir a et ~ de sorte que leur somme soit égale à l'unité.
De plus, il convient d'initialiser Po à l'aide d'une constante quelconque, 0 par exemple.
Cette valeur lissée Pi constitue un troisième indicateur d'activité vocale que l'on peut aussi comparer à
un seuil pour établir si le signal audio présente ou non une activité vocale.
Quel que soit l'indicateur d'activité vocale retenu, le dispositif de détection le compare donc à un seuil de détection T. La solution la plus simple consiste à affecter une valeur constante à ce seuil de détection.
Cependant, une solution avantageuse consiste à adapter ce seuil au niveau de la norme réduite P lorsque le signal audio est dépourvu d'activité vocale.
on peut donc calculer la valeur moyenne de la norme réduite sur plusieurs séries successives d'échantillons du signal audio pour lesquelles aucune activité vocale n'a été
30 détectée et multiplier cette valeur moyenne par un coefficient constant pour obtenir le seuil de détection T.
Il s'agit là d'une technique analogue à celle du lissage bien connue de l'homme du métier et elle ne sera donc pas plus détaillée.
2163~Q5 Outre le dispositif de détection proprement dit, l'invention concerne naturellement la méthode de détection d'activité vocale qui est mise en oeuvre par ce dispositif.
A titre d'application numérique et pou~ présenter un cas concret d'utilisation de l'invention, on prendra pour illustration le système paneuropéen de radiocommunication cellulaire numérique dit système GSM. Dans ce système le signal analogique à traiter est échantillonné à la fréquence de 8 kHz. Les échantillons ainsi obtenus sont regroupés en 10 séries de 160 qui correspondent donc chacune à 20 ms.
Ainsi, N, le nombre d'échantillons, vaut 160 et l'on choisira de manière avantageuse de fixer la valeur de d~calage q égale à l'unité.
Les composantes du vecteur de différentiation s'écrivent alors pour tout k compris entre 1 et 160 :
~ R(k) = R(k+l) - R(k) La norme de ce vecteur peut donc s'écrire :
¦¦~ R¦~ R(k)¦
~= o
Claims (9)
1) Dispositif de détection d'activité vocale dans un signal audio comprenant :
- des moyens pour calculer les coefficients d'autocorrélation (R(k)) de ce signal, - des moyens pour identifier un premier vecteur d'autocorrélation (R0) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)), - des moyens pour identifier un second vecteur d'autocorrélation (Rq) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à ladite première série d'une valeur de décalage (q) prédéterminée, - des moyens pour soustraire ledit premier vecteur d'autocorrélation (R0) dudit second vecteur d'autocorrélation (Rq) afin d'obtenir un vecteur de différentiation (.DELTA.R), - des moyens pour calculer une norme (?.DELTA.R?) dudit vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
- des moyens pour calculer les coefficients d'autocorrélation (R(k)) de ce signal, - des moyens pour identifier un premier vecteur d'autocorrélation (R0) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)), - des moyens pour identifier un second vecteur d'autocorrélation (Rq) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à ladite première série d'une valeur de décalage (q) prédéterminée, - des moyens pour soustraire ledit premier vecteur d'autocorrélation (R0) dudit second vecteur d'autocorrélation (Rq) afin d'obtenir un vecteur de différentiation (.DELTA.R), - des moyens pour calculer une norme (?.DELTA.R?) dudit vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
2) Dispositif selon la revendication 1, caractérisé en ce qu'il comprend de plus des moyens de réduction pour établir une norme réduite en divisant ladite norme (?.DELTA.R?) du vecteur de différentiation par une valeur de réduction, cette norme réduite représentant un deuxième indicateur d'activité vocale.
3) Dispositif selon la revendication 2 caractérisé en ce que ladite valeur de réduction est égale à l'énergie du signal audio.
4) Dispositif selon la revendication 2 caractérisé en ce que ladite valeur de réduction est égale à la somme de l'énergie du signal audio et d'une valeur plancher (C).
5) Dispositif selon l'une quelconque des revendications 1 à 4, caractérisé en ce qu'il comprend des moyens de lissage de l'un desdits indicateurs d'activité
vocale pour produire une combinaison linéaire de la valeur présente de cet indicateur et de sa valeur antérieure, ladite combinaison linéaire représentant un troisième indicateur d'activité vocale.
vocale pour produire une combinaison linéaire de la valeur présente de cet indicateur et de sa valeur antérieure, ladite combinaison linéaire représentant un troisième indicateur d'activité vocale.
6) Dispositif selon l'une quelconque des revendications 1 à 5, caractérisé en ce qu'il comprend des moyens de décision pour produire un signal d'activité vocale si l'un desdits indicateurs excède un seuil de détection.
7) Dispositif selon la revendication 6, caractérisé en ce que ledit seuil de détection est établi à partir de la valeur de la norme réduite dudit signal audio en l'absence dudit signal d'activité vocale.
8) Dispositif selon l'une quelconque des revendications 1 à 7, caractérisé en ce que ladite norme (?.DELTA.R?) du vecteur de différentiation est égale à la somme des valeurs absolues des composantes de ce vecteur.
9) Méthode de détection d'activité vocale dans un signal audio comprenant les opérations suivantes :
- calcul des coefficients d'autocorrélation (R(k)) de ce signal, - identification d'un premier vecteur d'autocorrélation (R0) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)), - identification d'un second vecteur d'autocorrélation (Rq) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à ladite première série d'une valeur de décalage (q) prédéterminée, - soustraction dudit premier vecteur d'autocorrélation (R0) dudit second vecteur d'autocorrélation (Rq) afin d'obtenir un vecteur de différentiation (.DELTA.R), - calcul d'une norme (?.DELTA.R?) dudit vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
- calcul des coefficients d'autocorrélation (R(k)) de ce signal, - identification d'un premier vecteur d'autocorrélation (R0) ayant pour composantes une première série (k=0,...,N-q) de coefficients d'autocorrélation (R(k)), - identification d'un second vecteur d'autocorrélation (Rq) ayant pour composantes une deuxième série (k=q,...,N) de coefficients d'autocorrélation (R(k)) décalée par rapport à ladite première série d'une valeur de décalage (q) prédéterminée, - soustraction dudit premier vecteur d'autocorrélation (R0) dudit second vecteur d'autocorrélation (Rq) afin d'obtenir un vecteur de différentiation (.DELTA.R), - calcul d'une norme (?.DELTA.R?) dudit vecteur de différentiation, cette norme représentant un premier indicateur d'activité vocale.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9413962A FR2727236B1 (fr) | 1994-11-22 | 1994-11-22 | Detection d'activite vocale |
FR9413962 | 1994-11-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
CA2163295A1 true CA2163295A1 (fr) | 1996-05-23 |
Family
ID=9469024
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA002163295A Abandoned CA2163295A1 (fr) | 1994-11-22 | 1995-11-20 | Detection d'activite vocale |
Country Status (10)
Country | Link |
---|---|
US (1) | US5732141A (fr) |
EP (1) | EP0714088B1 (fr) |
JP (1) | JPH08221097A (fr) |
AT (1) | ATE183598T1 (fr) |
AU (1) | AU698712B2 (fr) |
CA (1) | CA2163295A1 (fr) |
DE (1) | DE69511508T2 (fr) |
ES (1) | ES2136815T3 (fr) |
FI (1) | FI955584A (fr) |
FR (1) | FR2727236B1 (fr) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19716862A1 (de) | 1997-04-22 | 1998-10-29 | Deutsche Telekom Ag | Sprachaktivitätserkennung |
US6556967B1 (en) | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6381568B1 (en) | 1999-05-05 | 2002-04-30 | The United States Of America As Represented By The National Security Agency | Method of transmitting speech using discontinuous transmission and comfort noise |
EP1304682A1 (fr) * | 2000-07-05 | 2003-04-23 | Alcatel | Système distribué de reconnaissance de la parole |
EP1170728A1 (fr) * | 2000-07-05 | 2002-01-09 | Alcatel | Dispositif de réduction adaptive du bruit dans des signaux de parole |
EP1175058A1 (fr) * | 2000-07-21 | 2002-01-23 | Alcatel | Système de processeurs, et terminal, et unité de réseau, et méthode |
US7305099B2 (en) * | 2003-08-12 | 2007-12-04 | Sony Ericsson Mobile Communications Ab | Electronic devices, methods, and computer program products for detecting noise in a signal based on autocorrelation coefficient gradients |
EP1729410A1 (fr) * | 2005-06-02 | 2006-12-06 | Sony Ericsson Mobile Communications AB | Dispositif et méthode de commande automatique de gain d'un signal audio |
CN101983402B (zh) * | 2008-09-16 | 2012-06-27 | 松下电器产业株式会社 | 声音分析装置、方法、系统、合成装置、及校正规则信息生成装置、方法 |
US9002030B2 (en) | 2012-05-01 | 2015-04-07 | Audyssey Laboratories, Inc. | System and method for performing voice activity detection |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3919479A (en) * | 1972-09-21 | 1975-11-11 | First National Bank Of Boston | Broadcast signal identification system |
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
JPS5672499A (en) * | 1979-11-19 | 1981-06-16 | Hitachi Ltd | Pretreatment for voice identifier |
GB2139052A (en) * | 1983-04-20 | 1984-10-31 | Philips Electronic Associated | Apparatus for distinguishing between speech and certain other signals |
US4720802A (en) * | 1983-07-26 | 1988-01-19 | Lear Siegler | Noise compensation arrangement |
JPS62204652A (ja) * | 1986-03-04 | 1987-09-09 | Nec Corp | 可聴周波信号識別方式 |
US4815137A (en) * | 1986-11-06 | 1989-03-21 | American Telephone And Telegraph Company | Voiceband signal classification |
FR2623382B1 (fr) * | 1987-11-24 | 1991-05-03 | Peugeot Cycles | Dispositif de fixation d'un revetement notamment un revetement de siege |
PT89978B (pt) * | 1988-03-11 | 1995-03-01 | British Telecomm | Aparelho detector da actividade vocal e aparelho telefonico movel que o contem |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
US5410632A (en) * | 1991-12-23 | 1995-04-25 | Motorola, Inc. | Variable hangover time in a voice activity detector |
-
1994
- 1994-11-22 FR FR9413962A patent/FR2727236B1/fr not_active Expired - Fee Related
-
1995
- 1995-11-17 EP EP95402589A patent/EP0714088B1/fr not_active Expired - Lifetime
- 1995-11-17 ES ES95402589T patent/ES2136815T3/es not_active Expired - Lifetime
- 1995-11-17 AT AT95402589T patent/ATE183598T1/de not_active IP Right Cessation
- 1995-11-17 DE DE69511508T patent/DE69511508T2/de not_active Expired - Fee Related
- 1995-11-20 AU AU37937/95A patent/AU698712B2/en not_active Ceased
- 1995-11-20 US US08/560,645 patent/US5732141A/en not_active Expired - Fee Related
- 1995-11-20 FI FI955584A patent/FI955584A/fi unknown
- 1995-11-20 CA CA002163295A patent/CA2163295A1/fr not_active Abandoned
- 1995-11-22 JP JP7304462A patent/JPH08221097A/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
AU3793795A (en) | 1996-05-30 |
US5732141A (en) | 1998-03-24 |
FR2727236B1 (fr) | 1996-12-27 |
DE69511508D1 (de) | 1999-09-23 |
FR2727236A1 (fr) | 1996-05-24 |
JPH08221097A (ja) | 1996-08-30 |
EP0714088B1 (fr) | 1999-08-18 |
ATE183598T1 (de) | 1999-09-15 |
AU698712B2 (en) | 1998-11-05 |
FI955584A (fi) | 1996-05-23 |
EP0714088A1 (fr) | 1996-05-29 |
FI955584A0 (fi) | 1995-11-20 |
DE69511508T2 (de) | 2000-07-06 |
ES2136815T3 (es) | 1999-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6820053B1 (en) | Method and apparatus for suppressing audible noise in speech transmission | |
EP0752181B1 (fr) | Annuleur d'echo acoustique a filtre adaptatif et passage dans le domaine frequentiel | |
EP2415047A1 (fr) | Procede et dispositif de classification du bruit de fond contenu dans un signal audio | |
FR2743238A1 (fr) | Dispositif de telecommunication reagissant a des ordres vocaux et procede d'utilisation de celui-ci | |
EP1096471A1 (fr) | Procédé et dispositif pour l'extraction de paramètres robustes pour la reconnaissance de parole | |
EP0002998A1 (fr) | Procédé de compression de données relatives au signal vocal et dispositif mettant en oeuvre ledit procédé | |
EP1730729A1 (fr) | Procede et systeme ameliores de conversion d'un signal vocal | |
EP0998166A1 (fr) | Dispositif de traitement audio récepteur et procédé pour filtrer un signal utile et le restituer en présence de bruit ambiant | |
EP0714088B1 (fr) | Détection d'activité vocale | |
FR2715784A1 (fr) | Procédé et dispositif d'analyse d'un signal de retour et annuleur d'écho adaptatif en comportant application. | |
EP1093112B1 (fr) | Procédé de génération d'un signal caractéristique de parole et dispositif de mise en oeuvre | |
EP0234993B1 (fr) | Procédé et dispositif de reconnaissance automatique de cibles à partir d'échos "Doppler" | |
EP1730728A1 (fr) | Procede et systeme de conversion rapides d'un signal vocal | |
EP0506535B1 (fr) | Procédé et système de traitement des pré-échos d'un signal audio-numérique codé par transformée fréquentielle | |
EP3192073B1 (fr) | Discrimination et atténuation de pré-échos dans un signal audionumérique | |
EP1039736B1 (fr) | Procédé et disposiif d'identification adaptive, et annuleur d'écho adaptive mettant en oeuvre un tel procédé | |
FR2848715A1 (fr) | Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication | |
EP0534837A1 (fr) | Procédé de traitement de la parole en présence de bruits acoustiques utilisant la sous traction spectrale non-linéaire et les modèles de Markov cachés | |
EP1116216A1 (fr) | Procede et dispositif de detection d'activite vocale | |
FR2905489A1 (fr) | Procede d'estimation de phase pour la modelisation sinusoidale d'un signal numerique. | |
EP0989544A1 (fr) | Dispositif et procédé de filtrage d'un signal de parole, récepteur et système de communications téléphonique | |
US7155387B2 (en) | Noise spectrum subtraction method and system | |
Puder | Kalman‐filters in subbands for noise reduction with enhanced pitch‐adaptive speech model estimation | |
Härmä et al. | Backward adaptive warped lattice for wideband stereo coding | |
FR3051959A1 (fr) | Procede et dispositif pour estimer un signal dereverbere |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EEER | Examination request | ||
FZDE | Discontinued |