[go: up one dir, main page]

EP2680262A1 - Method for suppressing noise in an acoustic signal for a multi-microphone audio device operating in a noisy environment - Google Patents

Method for suppressing noise in an acoustic signal for a multi-microphone audio device operating in a noisy environment Download PDF

Info

Publication number
EP2680262A1
EP2680262A1 EP13171948.6A EP13171948A EP2680262A1 EP 2680262 A1 EP2680262 A1 EP 2680262A1 EP 13171948 A EP13171948 A EP 13171948A EP 2680262 A1 EP2680262 A1 EP 2680262A1
Authority
EP
European Patent Office
Prior art keywords
sensors
signal
denoising
noise
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
EP13171948.6A
Other languages
German (de)
French (fr)
Other versions
EP2680262B1 (en
Inventor
Charles Fox
Guillaume Vitte
Maurice Charbit
Jacques Prado
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Parrot SA
Original Assignee
Parrot SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Parrot SA filed Critical Parrot SA
Publication of EP2680262A1 publication Critical patent/EP2680262A1/en
Application granted granted Critical
Publication of EP2680262B1 publication Critical patent/EP2680262B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the invention relates to the treatment of speech in a noisy environment.
  • microphones include one or more microphones (“microphones”) sensitive, capturing not only the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go in some cases to make unintelligible the speaker's words . It is the same if one wants to implement speech recognition techniques, because it is very difficult to perform a form recognition on words embedded in a high noise level.
  • the significant distance between the microphone (placed at the dashboard or in an angle of the cockpit of the passenger compartment) and the speaker (whose distance is constrained by the driving position) entails capturing a relatively high noise level, which makes it difficult to extract the useful signal embedded in the noise.
  • the very noisy environment typical of the automotive environment has spectral characteristics that evolve unpredictably depending on driving conditions: passage on deformed or paved roads, car radio in operation, etc.
  • the headset can be used in a noisy environment (subway, busy street, train, etc.), so that the microphone will not only pick up the word of the wearer of the helmet, but also the noise surrounding.
  • the wearer is protected from this noise by the headphones, especially if it is a model with closed headphones isolating the ear from the outside, and even more if the headset is provided with an "active noise control"".
  • the distant speaker the one at the other end of the communication channel
  • the distant speaker will suffer from the noise picked up by the microphone and being superimposed and interfere with the speech signal of the near speaker (the helmet wearer).
  • certain speech formers essential to the understanding of the voice are often embedded in noise components commonly encountered in the usual environments.
  • the invention more particularly relates to denoising techniques using a network of several microphones, judiciously combining the signals simultaneously picked up by these microphones to discriminate the useful components of speech from the noise noise components.
  • a conventional technique consists in placing and orienting one of the microphones so that it mainly captures the voice of the speaker, while the other is arranged to capture a greater noise component than the main microphone.
  • the comparison of the signals captured makes it possible to extract the voice of the ambient noise by spatial coherence analysis of the two signals, with relatively simple software means.
  • the US 2008/0280653 A1 describes such a configuration, where one of the pickups (the one that mainly picks up the voice) is that of a wireless headset carried by the driver of the vehicle, while the other (the one that captures the noise) is that of the telephone device, placed remotely in the passenger compartment of the vehicle, for example hung on the dashboard.
  • this technique has the disadvantage of requiring two remote microphones, the efficiency being even higher than the two microphones are remote. Therefore, this technique is not applicable to a device in which the two microphones are close together, for example two microphones incorporated in the facade of a car radio, or two microphones that would be arranged on one of the shells an earphone.
  • beamforming consists of creating by software means a directivity that improves the signal / noise ratio of the network or "antenna" microphones.
  • the US 2007/0165879 A1 describes such a technique, applied to a pair of non-directional microphones placed back to back.
  • An adaptive filtering of the captured signals makes it possible to derive at the output a signal in which the voice component has been reinforced.
  • the EP 2 293 594 A1 and EP 2 309 499 A1 (Parrot ) describe other techniques, also based on the assumption that the wanted signal and / or spurious noises have a certain directivity, which combine the signals from the different microphones so as to improve the signal / noise ratio according to these conditions of directivity.
  • These denoising techniques are based on the assumption that speech generally has a higher spatial coherence than noise and that, moreover, the direction of speech incidence is generally well defined and can be assumed to be known (in the case of motor vehicle, it is defined by the position of the driver, to which are turned the microphones).
  • This assumption takes into account the reverberation effect typical of the cabin of a car, where powerful reflections and many make it difficult to calculate a direction of arrival. They can also be faulted by noises with a certain directivity, such as blows of horn, passage of a scooter, overtaking by a car, etc.
  • the directivity is all the more marked as the frequency is high, so that this criterion becomes less discriminating for the lower frequencies.
  • the invention provides a method of denoising a noisy acoustic signal for a multi-microphone audio device of the general type disclosed by the aforementioned article by McCowan and S. Sridharan, wherein the device comprises a sensor network consisting of a plurality of microphone sensors arranged in a predetermined configuration and able to collect the noisy signal, the sensors being grouped into two sub-networks, with a first sub-network able to collect an RF portion of the spectrum, and a second sub-network of sensors able to collect a part BF of the spectrum distinct from the part HF.
  • the first sub-array of sensors able to collect the RF portion of the spectrum may in particular comprise a linear array of at least two sensors aligned perpendicularly to the direction of the speech source, and the second sub-array of sensors adapted to collect the spectrum portion BF may comprise a linear network of at least two sensors aligned parallel to the direction of the speech source.
  • the sensors of the first sub-array of sensors are advantageously unidirectional sensors, oriented in the direction of the speech source.
  • the denoising processing of the HF part of the spectrum in step b1) can be differentially performed for a lower band and an upper band of this HF part, with the selection of different sensors among the sensors of the first sub-network, the distance between the sensors selected for denoising the upper band being smaller than the distance of the selected sensors for denoising the lower band.
  • the step b13) of estimating the transfer function of the acoustic channels can in particular be implemented by an LMS-type linear least linear adaptive adaptive filter, with modulation by the probability of presence of speech, notably a modulation. by variation of the iteration step of the adaptive filter LMS.
  • the prediction of the noise of one sensor on the other can be made in the time domain, in particular by a Wiener filter multichannel filter with weighting by the Speech distortion, SDW-MWF, including an SDW-MWF filter adaptively estimated by a gradient descent algorithm.
  • Each microphone thus captures a component of the useful signal (the speech signal) and a component of the surrounding noise, in all its forms (directive or diffuse, stationary or evolving unpredictably, etc.).
  • the network R is configured in two subnetworks R 1 and R 2 dedicated respectively to the capture and processing of the signals in the upper part (hereinafter "high frequency”, HF) of the spectrum and in the lower part (hereinafter after “low frequency”, BF) of this same spectrum.
  • the microphone M 1 which belongs to the two subnetworks R 1 and R 2 , is shared, which makes it possible to reduce the total number of microphones of the network. This pooling is advantageous, but it is not necessary.
  • a shaped configuration is illustrated in "L" when the microphone is shared the microphone M 1, but this configuration is not restrictive, the microphone can be shared eg micro M 3, giving the whole network a configuration in the form of "T".
  • the microphone M 2 of the BF network may be an omnidirectional microphone, since the directivity is much less marked in BF than in HF.
  • the illustrated configuration showing two subnets R 1 + R 2 comprising 3 + 2 microphones (a total of 4 microphones given the pooling of one of the microphones) is not limiting.
  • the minimum configuration is a configuration with 2 + 2 microphones (a minimum of 3 microphones if one of them is shared). Conversely, it is possible to increase the number of microphones, with configurations to 4 + 2 pickups, 4 + 3 pickups, etc.
  • the increase in the number of microphones makes it possible, particularly in the high frequencies, to select different microphone configurations depending on the parts of the RF spectrum processed.
  • FIGS. 2a and 2b illustrate, respectively for an omnidirectional microphone and for a unidirectional microphone, characteristics giving, as a function of frequency, the value of the correlation function between two microphones, for several distance values d between these microphones.
  • the correlation function between two microphones distant from a distance d is a globally decreasing function of the distance between the microphones.
  • This correlation function is represented by mean squared coherence MSC ( Mean Squared Coherence ) , which varies between 1 (the two signals are perfectly coherent, they differ only from a linear filter) and 0 (totally decorrelated signals).
  • MSC Mean Squared Coherence
  • unidirectional microphones will be used because, as can be seen by comparing the Figures 2a and 2b the variation of the coherence function is much more abrupt in this case than with an omnidirectional microphone.
  • Denoising treatment description of a preferential mode
  • a high-pass filter HF 10 receives the signals from the microphones M 1 , M 3 and M 4 of the sub-network R 1 , used jointly. These signals are first subject to a fast FFT Fourier transform (block 12), then to a frequency-domain processing by an algorithm (block 14) exploiting the predictability of the useful signal of a signal.
  • microphone on the other, in this example a type estimator MMSE-STSA (Minimum Mean-Squared Error Short-Time Spectral Amplitude), which will be described in detail below.
  • a low-pass filter BF 16 receives as input the signals picked up by the microphones M 1 and M 2 subnet R 2. These signals are the subject of a denoising processing (block 18) operated in the time domain by an algorithm exploiting a prediction of the noise of a microphone on the other during the periods of silence of the speaker.
  • a denoising processing (block 18) operated in the time domain by an algorithm exploiting a prediction of the noise of a microphone on the other during the periods of silence of the speaker.
  • SDW-MWF Speech Distortion Weighted Multichannel Wiener Filter
  • the resulting denoised signal is then subjected to a fast Fourier transform FFT (block 20).
  • two resulting single-channel signals are available, one for the HF part originating from block 14, the other for part BF coming from block 18 after passing into the frequency domain by block 20. .
  • an additional (single channel) processing of selective denoising (block 24) is performed on the corresponding reconstructed signal.
  • the signal resulting from this treatment is finally the subject of a transformation of Fourier fast inverse iFFT (block 26) to return to the time domain.
  • this final selective denoising processing consists in applying a variable gain specific to each frequency band, this denoising being also modulated by a probability of presence of speech.
  • this particular implementation is of course not limiting, other denoising techniques can be envisaged, since they are based on the predictability of the useful signal of a microphone on the other.
  • this HF denoising is not necessarily operated in the frequency domain, it can also be operated in the time domain, by equivalent means.
  • the proposed technique consists of searching for an optimal linear "projector" for each frequency, that is to say an operator corresponding to a transformation of a plurality of signals (those collected concurrently by the various microphones of the sub-network R 1 ). in a single single channel signal.
  • This projection is an "optimal" linear projection in that it is sought that the residual noise component on the single-channel signal output is minimized and that the useful speech component is the less distorted possible.
  • the transfer function H corresponds to a pure delay, it recognizes the formula beamforming MVDR (Minimum Variance Distorsionless Response), also called beamforming Capon. It will be noted that the residual noise power is worth, after projection 1 H T ⁇ R not - 1 ⁇ H .
  • MVDR Minimum Variance Distorsionless Response
  • the selective noise denoising treatment, applied to the single-channel signal resulting from beamforming processing is advantageously the OM-LSA type treatment described above, operated by block 24 on the complete spectrum after synthesis at 22.
  • MVDR estimator (block 28) its implementation involves an estimation of the acoustic transfer functions H i between the speech source and each of the microphones M i (M 1 , M 3 or M 4 ).
  • a frequency LMS estimator (block 30) receiving as input the signals from the different microphones and outputting the estimates of the various transfer functions H.
  • x i is the sensed signal
  • h i is the impulse response between the useful signal source (speaker speech signal) and the microphone M i
  • s is the useful signal produced by the source S
  • b i is the additive noise
  • the MMSE-STSA estimator factorizes into a MVDR beamforming (block 28) followed by a single-channel estimator (the OM / LSA algorithm of block 24).
  • MVDR X H T ⁇ ⁇ bb - 1 ⁇ X H T ⁇ ⁇ bb - 1 ⁇ H
  • the adaptive MVDR beamforming thus exploits the coherence of the useful signal to estimate a transfer function H corresponding to the acoustic channel between the speaker and each of the microphones of the sub-network.
  • LMS algorithms - or NLMS Normalized LMS which is a standardized version of the LMS - are relatively simple and undemanding algorithms in terms of computing resources.
  • the LMS algorithm aims (in known manner) to estimate a filter H (block 36) by means of an adaptive algorithm, corresponding to the signal x i delivered by the microphone M 1 , by estimating the transfer of voice between the microphone M i and the microphone M 1 (taken as a reference).
  • the output of the filter 36 is subtracted at 38 from the signal x 1 picked up by the microphone M 1 , to give a prediction error signal allowing the iterative adaptation of the filter 36. It is thus possible to predict from the signal x i the speech component contained in the signal x 1 .
  • the signal x 1 is slightly delayed (block 40).
  • the error signal of the adaptive filter 36 is weighted at 42 by the probability of presence of speech SPP delivered at the output of the block 34, so as to adapt the filter only when the probability of presence of speech is high.
  • This weighting can in particular be made by modifying the adaptation step of the algorithm, as a function of the SPP probability .
  • This prediction of the noise on a microphone is made from the noise on every microphone considered the second subnet R 2, and this in periods of silence the speaker, where only noise is present.
  • the Wiener filter (block 44) provides a noise prediction which is subtracted at 46 from the collected, non-denoised signal after applying a delay (block 48) to avoid causation problems.
  • the Wiener filter 44 is parameterized by a coefficient ⁇ (represented at 50) which determines an adjustable weighting between, on the one hand, the distortion introduced by the processing on the speech signal denoised and, on the other hand, the noise level. residual.
  • the Wiener filter used is advantageously a weighted Wiener filter (SDW-MVF), to take into account not only the energy of the noise to be eliminated by the filtering, but also the distortion introduced by this filtering, which should be minimized. .
  • SDW-MVF weighted Wiener filter
  • This filter is implemented adaptively by a gradient descent algorithm such as that set forth in the aforementioned article [6].
  • the diagram is the one illustrated Figures 3 and 4 .
  • R b ⁇ ⁇ ⁇ R b ⁇ t - 1 + 1 - ⁇ ⁇ x t ⁇ x ⁇ t T if there is no word R b ⁇ t - 1 if not ⁇ being a factor of forgetting.
  • this parameter must correspond to a spatial and temporal reality, with a sufficient number of coefficients to predict the noise temporally (temporal coherence of the noise) and spatially (spatial transfer between the microphones).
  • the parameter ⁇ is adjusted experimentally, increasing it until the distortion on the voice becomes perceptible to the ear.
  • J kr ⁇ ⁇ E ⁇ b k t - w T ⁇ b t 2 + E w T ⁇ s t 2

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

The method involves denoising two parts of a spectrum with implementation of an adaptive algorithm estimator by denoising and exploiting a character of a useful signal from a sensor to another sensor between first sub-array sensors by a first adaptive algorithm estimator (14) for a high frequency part and by denoising by prediction of noise from the sensor to another sensor between second sub-array sensors by a second adaptive algorithm estimator (18) for a low frequency part. The spectrum is reconstructed (22) by combining signals delivered after denoising the two parts of the spectrum. The character is a predictable character. The sensors of the first sub-array of sensors are unidirectional sensors oriented along direction of a speech source.

Description

L'invention concerne le traitement de la parole en milieu bruité.The invention relates to the treatment of speech in a noisy environment.

Elle concerne notamment le traitement des signaux de parole captés par des dispositifs de téléphonie de type "mains libres" destinés à être utilisés dans un environnement bruité.It relates in particular to the processing of speech signals picked up by "hands-free" telephony devices intended to be used in a noisy environment.

Ces appareils comportent un ou plusieurs microphones ("micros") sensibles, captant non seulement la voix de l'utilisateur, mais également le bruit environnant, bruit qui constitue un élément perturbateur pouvant aller dans certains cas jusqu'à rendre inintelligibles les paroles du locuteur. Il en est de même si l'on veut mettre en oeuvre des techniques de reconnaissance vocale, car il est très difficile d'opérer une reconnaissance de forme sur des mots noyés dans un niveau de bruit élevé.These devices include one or more microphones ("microphones") sensitive, capturing not only the voice of the user, but also the surrounding noise, noise that is a disruptive element that can go in some cases to make unintelligible the speaker's words . It is the same if one wants to implement speech recognition techniques, because it is very difficult to perform a form recognition on words embedded in a high noise level.

Cette difficulté liée aux bruits environnants est particulièrement contraignante dans le cas des dispositifs "mains libres" pour véhicules automobiles, qu'il s'agisse d'équipements incorporés au véhicule ou bien d'accessoires en forme de boitier amovible intégrant tous les composants et fonctions de traitement du signal pour la communication téléphonique.This difficulty related to surrounding noise is particularly restrictive in the case of devices "hands free" for motor vehicles, whether in-vehicle equipment or accessories in the form of removable housing incorporating all components and functions signal processing for telephone communication.

En effet, dans cette application, la distance importante entre le micro (placé au niveau de la planche de bord ou dans un angle du pavillon de l'habitacle) et le locuteur (dont l'éloignement est contraint par la position de conduite) entraine la captation d'un niveau de bruit relativement élevé, qui rend difficile l'extraction du signal utile noyé dans le bruit. De plus, le milieu très bruité typique de l'environnement automobile présente des caractéristiques spectrales qui évoluent de manière imprévisible en fonction des conditions de conduite : passage sur des chaussées déformées ou pavées, autoradio en fonctionnement, etc.Indeed, in this application, the significant distance between the microphone (placed at the dashboard or in an angle of the cockpit of the passenger compartment) and the speaker (whose distance is constrained by the driving position) entails capturing a relatively high noise level, which makes it difficult to extract the useful signal embedded in the noise. In addition, the very noisy environment typical of the automotive environment has spectral characteristics that evolve unpredictably depending on driving conditions: passage on deformed or paved roads, car radio in operation, etc.

Des difficultés comparables se présentent lorsque le dispositif est un casque audio de type micro/casque combiné utilisé pour des fonctions de communication telles que des fonctions de téléphonie "mains libres", en complément de l'écoute d'une source audio (musique par exemple) provenant d'un appareil sur lequel est branché le casque.Comparable difficulties arise when the device is a headset type microphone / headset combined used for communication functions such as hands-free telephony functions, in addition to listening to an audio source (music for example ) from a device to which the headphones are connected.

Dans ce cas, il s'agit d'assurer une intelligibilité suffisante du signal capté par le micro, c'est-à-dire du signal de parole du locuteur proche (le porteur du casque). Or le casque peut être utilisé dans un environnement bruyant (métro, rue passante, train, etc.), de sorte que le micro captera non seulement la parole du porteur du casque, mais également les bruits parasites environnants. Le porteur est protégé de ce bruit par le casque, notamment s'il s'agit d'un modèle à écouteurs fermés isolant l'oreille de l'extérieur, et encore plus si le casque est pourvu d'un "contrôle actif de bruit". En revanche, le locuteur distant (celui se trouvant à l'autre bout du canal de communication) souffrira des bruits parasites captés par le micro et venant se superposer et interférer avec le signal de parole du locuteur proche (le porteur du casque). En particulier, certains formants de la parole essentiels à la compréhension de la voix sont souvent noyés dans des composantes de bruit couramment rencontrées dans les environnements habituels.In this case, it is a question of ensuring sufficient intelligibility of the signal picked up by the microphone, that is to say the speech signal of the close speaker (the helmet wearer). But the headset can be used in a noisy environment (subway, busy street, train, etc.), so that the microphone will not only pick up the word of the wearer of the helmet, but also the noise surrounding. The wearer is protected from this noise by the headphones, especially if it is a model with closed headphones isolating the ear from the outside, and even more if the headset is provided with an "active noise control"". On the other hand, the distant speaker (the one at the other end of the communication channel) will suffer from the noise picked up by the microphone and being superimposed and interfere with the speech signal of the near speaker (the helmet wearer). In particular, certain speech formers essential to the understanding of the voice are often embedded in noise components commonly encountered in the usual environments.

L'invention concerne plus particulièrement les techniques de débruitage mettant en oeuvre un réseau de plusieurs micros, en combinant de façon judicieuse les signaux captés simultanément par ces micros pour discriminer les composantes utiles de parole d'avec les composantes parasites de bruit.The invention more particularly relates to denoising techniques using a network of several microphones, judiciously combining the signals simultaneously picked up by these microphones to discriminate the useful components of speech from the noise noise components.

Une technique classique consiste à placer et orienter l'un des micros pour qu'il capte principalement la voix du locuteur, tandis que l'autre est disposé de manière à capter une composante de bruit plus importante que le micro principal. La comparaison des signaux captés permet d'extraire la voix du bruit ambiant par analyse de cohérence spatiale des deux signaux, avec des moyens logiciels relativement simples.A conventional technique consists in placing and orienting one of the microphones so that it mainly captures the voice of the speaker, while the other is arranged to capture a greater noise component than the main microphone. The comparison of the signals captured makes it possible to extract the voice of the ambient noise by spatial coherence analysis of the two signals, with relatively simple software means.

Le US 2008/0280653 A1 décrit une telle configuration, où l'un des micros (celui qui capte principalement la voix) est celui d'une oreillette sans fil portée par le conducteur du véhicule, tandis que l'autre (celui qui capte principalement le bruit) est celui de l'appareil téléphonique, placé à distance dans l'habitacle du véhicule, par exemple accroché au tableau de bord.The US 2008/0280653 A1 describes such a configuration, where one of the pickups (the one that mainly picks up the voice) is that of a wireless headset carried by the driver of the vehicle, while the other (the one that captures the noise) is that of the telephone device, placed remotely in the passenger compartment of the vehicle, for example hung on the dashboard.

Cette technique présente cependant l'inconvénient de nécessiter deux micros distants, l'efficacité étant d'autant plus élevée que les deux micros sont éloignés. De ce fait, cette technique n'est pas applicable à un dispositif dans lequel les deux micros sont rapprochés, par exemple deux micros incorporés à la façade d'un autoradio de véhicule automobile, ou deux micros qui seraient disposés sur l'une des coques d'un écouteur de casque audio.However, this technique has the disadvantage of requiring two remote microphones, the efficiency being even higher than the two microphones are remote. Therefore, this technique is not applicable to a device in which the two microphones are close together, for example two microphones incorporated in the facade of a car radio, or two microphones that would be arranged on one of the shells an earphone.

Une autre technique encore, dite beamforming, consiste à créer par des moyens logiciels une directivité qui améliore le rapport signal/bruit du réseau ou "antenne" de micros. Le US 2007/0165879 A1 décrit une telle technique, appliquée à une paire de micros non directionnels placés dos à dos. Un filtrage adaptatif des signaux captés permet de dériver en sortie un signal dans lequel la composante de voix a été renforcée.Another technique, called beamforming, consists of creating by software means a directivity that improves the signal / noise ratio of the network or "antenna" microphones. The US 2007/0165879 A1 describes such a technique, applied to a pair of non-directional microphones placed back to back. An adaptive filtering of the captured signals makes it possible to derive at the output a signal in which the voice component has been reinforced.

Toutefois, on estime qu'une méthode de débruitage multi-capteurs ne fournit de bons résultats qu'à condition de disposer d'un réseau d'au moins huit micros, les performances étant extrêmement limitées lorsque seulement deux micros sont utilisés.However, it is estimated that a method of multi-sensor denoising only provides good results provided to have a network of at least eight microphones, the performance is extremely limited when only two microphones are used.

Les EP 2 293 594 A1 et EP 2 309 499 A1 (Parrot ) décrivent d'autres techniques, également basées sur l'hypothèse que le signal utile et/ou les bruits parasites présentent une certaine directivité, qui combinent les signaux issus des différents micros de manière à améliorer le rapport signal/bruit en fonction de ces conditions de directivité. Ces techniques de débruitage reposent sur l'hypothèse que la parole présente généralement une cohérence spatiale supérieure au bruit et que, par ailleurs, la direction d'incidence de la parole est généralement bien définie et peut être supposée connue (dans le cas d'un véhicule automobile, elle est définie par la position du conducteur, vers lequel sont tournés les micros). Cette hypothèse prend cependant mal en compte l'effet de réverbération typique de l'habitacle d'une voiture, où les réflexions puissantes et nombreuses rendent difficile le calcul d'une direction d'arrivée. Elles peuvent être également mises en défaut par des bruits présentant une certaine directivité, tels que coups de klaxon, passage d'un scooter, dépassement par une voiture, etc.The EP 2 293 594 A1 and EP 2 309 499 A1 (Parrot ) describe other techniques, also based on the assumption that the wanted signal and / or spurious noises have a certain directivity, which combine the signals from the different microphones so as to improve the signal / noise ratio according to these conditions of directivity. These denoising techniques are based on the assumption that speech generally has a higher spatial coherence than noise and that, moreover, the direction of speech incidence is generally well defined and can be assumed to be known (in the case of motor vehicle, it is defined by the position of the driver, to which are turned the microphones). This assumption, however, takes into account the reverberation effect typical of the cabin of a car, where powerful reflections and many make it difficult to calculate a direction of arrival. They can also be faulted by noises with a certain directivity, such as blows of horn, passage of a scooter, overtaking by a car, etc.

Un autre procédé encore est décrit dans l'article de I. McCowan et S. Sridharan, "Adaptive Parameter Compensation for Robust Hands-free Speech Recognition using a Dual-Beamforming Microphone Array", Proceedings on 2001 International Symposium on Intelligent Multimedia, Video and Speech Processing, May 2001 .Yet another method is described in the article of I. McCowan and S. Sridharan, "Adaptive Parameter Compensation for Robust Hands-free Speech Recognition Using a Dual-Beamforming Microphone Array", Proceedings on 2001 International Symposium on Intelligent Multimedia, Video and Speech Processing, May 2001 .

De façon générale, ces techniques basées sur des hypothèses de directivité présentent toutes des performances limitées à l'encontre des composantes de bruit situées dans la région des fréquences les plus basses - là où, précisément, le bruit peut se trouver concentré à un niveau d'énergie relativement élevé.In general, these techniques based on directivity assumptions all have limited performance against the noise components in the region of the lowest frequencies - there where, precisely, the noise can be concentrated at a relatively high energy level.

En effet, la directivité est d'autant plus marquée que la fréquence est élevée, de sorte que ce critère devient peu discriminant pour les fréquences les plus basses. En fait, pour rester suffisamment efficace, il est nécessaire d'écarter beaucoup les micros, par exemple de 15 à 20 cm, voire même plus en fonction des performances souhaitées, de manière à décorréler suffisamment les bruits captés par ces micros.In fact, the directivity is all the more marked as the frequency is high, so that this criterion becomes less discriminating for the lower frequencies. In fact, to remain sufficiently effective, it is necessary to remove many microphones, for example 15 to 20 cm, or even more depending on the desired performance, so as to decorrelate enough noise picked up by these microphones.

Par voie de conséquence, il n'est pas possible d'incorporer un tel réseau de micros par exemple au boitier d'un autoradio de véhicule automobile ou à un boitier de "kit mains libres" autonome placé dans le véhicule, encore moins sur des coques d'écouteurs d'un casque audio.Consequently, it is not possible to incorporate such a network of microphones, for example, into the housing of a car radio or to a stand-alone "hands-free" housing placed in the vehicle, let alone on vehicles. earphone shells of a headphone.

Le problème de l'invention est, dans un tel contexte, de pouvoir disposer d'une technique de réduction de bruit efficace permettant de délivrer au locuteur distant un signal vocal représentatif de la parole émise par le locuteur proche (conducteur du véhicule ou porteur du casque), en débarrassant ce signal des composantes parasites de bruit extérieur présentes dans l'environnement de ce locuteur proche, technique qui :

  • présente des performances accrues dans le bas du spectre des fréquences, là où sont le plus souvent concentrées les composantes de bruit parasite les plus gênantes, notamment du point de vue du masquage du signal de parole ;
  • ne requière pour sa mise en oeuvre qu'un nombre réduit de micros (typiquement, pas plus de trois à cinq micros) ; et
  • avec une configuration géométrique suffisamment ramassée du réseau de micros (typiquement avec un écartement entre micros de quelques centimètres seulement), pour permettre notamment son intégration à des produits compacts de type "tout-en-un".
The problem of the invention is, in such a context, to be able to have an effective noise reduction technique for delivering to the remote speaker a voice signal representative of the speech transmitted by the close speaker (driver of the vehicle or carrier of the helmet), by eliminating this signal of the external noise noise components present in the environment of this close speaker, a technique which:
  • shows increased performance in the lower frequency spectrum, where the most troublesome parasitic noise components are most often concentrated, particularly from the point of view of masking the speech signal;
  • require for its implementation a small number of microphones (typically no more than three to five microphones); and
  • with a sufficiently compact geometric configuration of the network of microphones (typically with a gap between microphones of a few centimeters only), to allow including its integration with compact products of "all-in-one" type.

Le point de départ de l'invention réside dans l'analyse du champ de bruit typique dans l'habitacle d'un véhicule automobile, qui conduit aux observations suivantes :

  • le bruit dans l'habitacle est spatialement cohérent dans les basses fréquences (au-dessous de 1000 Hz environ) ;
  • il perd en cohérence dans les hautes fréquences (au-dessus de 1000 Hz) ; et
  • selon le type de micro utilisé, unidirectionnel ou omnidirectionnel, la cohérence spatiale est modifiée.
The starting point of the invention lies in the analysis of the typical noise field in the passenger compartment of a motor vehicle, which leads to the following observations:
  • the noise in the passenger compartment is spatially coherent at low frequencies (below about 1000 Hz);
  • it loses coherence in the high frequencies (above 1000 Hz); and
  • depending on the type of microphone used, unidirectional or omnidirectional, the spatial coherence is modified.

Ces observations, qui seront précisées et justifiées plus loin, conduisent à proposer une stratégie de débruitage hybride, mettant en oeuvre en basse fréquence (BF) et en haute fréquence (HF) deux algorithmes différents, exploitant la cohérence ou la non-cohérence des composantes de bruit selon la partie du spectre considérée :

  • la forte cohérence des bruits en BF permet d'envisager un algorithme exploitant une prédiction du bruit d'un micro sur l'autre, ce qui est possible car on peut observer des périodes de silence du locuteur, avec absence de signal utile et présence exclusive du bruit ;
  • en revanche, en HF le bruit est faiblement cohérent et il est difficilement prédictible, sauf à prévoir un nombre élevé de micros (ce qui n'est pas souhaité) ou à rapprocher les micros pour rendre les bruits plus cohérents (mais l'on n'obtiendra jamais de grande cohérence dans cette bande, sauf à confondre les micros : les signaux captés seraient alors les mêmes, et l'on n'aurait aucune information spatiale). Pour cette partie HF, on utilisera alors un algorithme exploitant le caractère prédictible du signal utile d'un micro sur l'autre (et non plus une prédiction du bruit), ce qui est par hypothèse possible car on sait que ce signal utile est produit par une source ponctuelle (la bouche du locuteur).
These observations, which will be specified and justified later, lead to propose a hybrid denoising strategy, using low frequency (BF) and high frequency (HF) two different algorithms, exploiting the coherence or non-coherence of the components. of noise according to the part of the spectrum considered:
  • the high coherence of the noise in BF makes it possible to envisage an algorithm exploiting a prediction of the noise of a microphone on the other, which is possible because one can observe periods of silence of the speaker, with absence of useful signal and exclusive presence noise ;
  • on the other hand, in HF the noise is weakly coherent and it is difficult to predict, except to foresee a high number of microphones (which is not desired) or to bring the microphones closer to make the noises more coherent (but one does not will never get much consistency in this band, except to confuse the pickups: the signals picked up would then be the same, and we would have no spatial information). For this HF part, we will then use an algorithm exploiting the predictability of the useful signal from one microphone to the other (and no longer a noise prediction), which is hypothetically possible because we know that this useful signal is produced by a point source (the mouth of the speaker).

Plus précisément, l'invention propose un procédé de débruitage d'un signal acoustique bruité pour un dispositif audio multi-microphone du type général divulgué par l'article précité de McCowan and S. Sridharan, où le dispositif comprend un réseau de capteurs formé d'une pluralité de capteurs microphoniques disposés selon une configuration prédéterminée et aptes à recueillir le signal bruité, les capteurs étant regroupés en deux sous-réseaux, avec un premier sous-réseau apte à recueillir une partie HF du spectre, et un second sous-réseau de capteurs apte à recueillir une partie BF du spectre distincte de la partie HF.More specifically, the invention provides a method of denoising a noisy acoustic signal for a multi-microphone audio device of the general type disclosed by the aforementioned article by McCowan and S. Sridharan, wherein the device comprises a sensor network consisting of a plurality of microphone sensors arranged in a predetermined configuration and able to collect the noisy signal, the sensors being grouped into two sub-networks, with a first sub-network able to collect an RF portion of the spectrum, and a second sub-network of sensors able to collect a part BF of the spectrum distinct from the part HF.

Ce procédé comporte des étapes de :

  1. a) partition du spectre du signal bruité entre ladite partie HF et ladite partie BF, par filtrage respectivement au-delà et en deçà d'une fréquence pivot prédéterminée,
  2. b) débruitage de chacune des deux parties du spectre avec mise en oeuvre d'un estimateur à algorithme adaptatif ; et
  3. c) reconstruction du spectre par combinaison des signaux délivrés après débruitage des deux parties du spectre aux étapes b1) et b2),
This process comprises steps of:
  1. a) partition of the spectrum of the noisy signal between said RF portion and said BF portion, by filtering respectively beyond and below a predetermined pivot frequency,
  2. b) denoising each of the two parts of the spectrum with implementation of an adaptive algorithm estimator; and
  3. c) reconstruction of the spectrum by combining the signals delivered after denoising the two parts of the spectrum in steps b1) and b2),

De façon caractéristique de l'invention, l'étape b) de débruitage est opérée par des traitements distincts pour chacune des deux parties du spectre, avec :

  • b1) pour la partie HF, un débruitage exploitant le caractère prédictible du signal utile d'un capteur sur l'autre entre capteurs du premier sous-réseau, au moyen d'un premier estimateur (14) à algorithme adaptatif, et
  • b2) pour la partie BF, un débruitage par prédiction du bruit d'un capteur sur l'autre entre capteurs du second sous-réseau, au moyen d'un second estimateur (18) à algorithme adaptatif.
In a characteristic manner of the invention, the denoising step b) is carried out by separate treatments for each of the two parts of the spectrum, with:
  • b1) for the HF part, a denoising exploiting the predictability of the useful signal from one sensor to the other between sensors of the first sub-network, by means of a first adaptive algorithm estimator (14), and
  • b2) for the BF part, a prediction noise denoising of one sensor on the other between sensors of the second sub-network, by means of a second adaptive algorithm estimator (18).

En ce qui concerne la géométrie du réseau de capteurs, le premier sous-réseau de capteurs apte à recueillir la partie HF du spectre peut notamment comprendre un réseau linaire d'au moins deux capteurs alignés perpendiculairement à la direction de la source de parole, et le second sous-réseau de capteurs apte à recueillir la partie BF du spectre peut comprendre un réseau linaire d'au moins deux capteurs alignés parallèlement à la direction de la source de parole.With regard to the geometry of the sensor array, the first sub-array of sensors able to collect the RF portion of the spectrum may in particular comprise a linear array of at least two sensors aligned perpendicularly to the direction of the speech source, and the second sub-array of sensors adapted to collect the spectrum portion BF may comprise a linear network of at least two sensors aligned parallel to the direction of the speech source.

Les capteurs du premier sous-réseau de capteurs sont avantageusement des capteurs unidirectionnels, orientés dans la direction de la source de parole.The sensors of the first sub-array of sensors are advantageously unidirectional sensors, oriented in the direction of the speech source.

Le traitement de débruitage de la partie HF du spectre à l'étape b1) peut être opéré de façon différenciée pour une bande inférieure et une bande supérieure de cette partie HF, avec sélection de capteurs différents parmi les capteurs du premier sous-réseau, la distance entre les capteurs sélectionnés pour le débruitage de la bande supérieure étant plus réduite que la distance des capteurs sélectionnés pour le débruitage de la bande inférieure.The denoising processing of the HF part of the spectrum in step b1) can be differentially performed for a lower band and an upper band of this HF part, with the selection of different sensors among the sensors of the first sub-network, the distance between the sensors selected for denoising the upper band being smaller than the distance of the selected sensors for denoising the lower band.

Le traitement de débruitage prévoit de préférence, après l'étape c) de reconstruction du spectre, une étape de :

  • d) réduction sélective du bruit par un traitement de type gain à amplitude log-spectrale modifié optimisé, OM-LSA, à partir du signal reconstruit produit à l'étape c) et d'une probabilité de présence de parole.
The denoising treatment preferably provides, after step c) of spectrum reconstruction, a step of:
  • d) selective noise reduction by optimized modified log-spectral amplitude gain processing, OM-LSA, from the reconstructed signal produced in step c) and a speech presence probability.

En ce qui concerne le débruitage de la partie HF du spectre, l'étape b1), exploitant le caractère prédictible du signal utile d'un capteur sur l'autre, peut être opérée dans le domaine fréquentiel, en particulier par :

  • b11) estimation d'une probabilité de présence de parole dans le signal bruité recueilli ;
  • b12) estimation d'une matrice spectrale de covariance des bruits recueillis par les capteurs du premier sous-réseau, cette estimation étant modulée par la probabilité de présence de parole ;
  • b13) estimation de la fonction de transfert des canaux acoustiques entre la source de parole et au moins certains des capteurs du premier sous-réseau, cette estimation étant opérée par rapport à une référence de signal utile constituée par le signal recueilli par l'un des capteurs du premier sous-réseau, et étant en outre modulée par la probabilité de présence de parole ; et
  • b14) calcul, notamment par un estimateur de type beamforming à réponse sans distorsion à variance minimale, MVDR, d'un projecteur linéaire optimal donnant un signal combiné débruité unique à partir des signaux recueillis par au moins certains des capteurs du premier sous-réseau, de la matrice spectrale de covariance estimée à l'étape b12), et des fonctions de transfert estimées à l'étape b13).
With regard to the denoising of the RF portion of the spectrum, step b1), exploiting the predictability of the useful signal from one sensor to the other, can be operated in the frequency domain, in particular by:
  • b11) estimating a probability of speech in the collected noisy signal;
  • b12) estimation of a spectral matrix of covariance of the noises collected by the sensors of the first sub-network, this estimation being modulated by the probability of presence of speech;
  • b13) estimation of the transfer function of the acoustic channels between the speech source and at least some of the sensors of the first sub-network, this estimation being made with respect to a useful signal reference constituted by the signal collected by one of the sensors of the first sub-network, and further being modulated by the probability of presence of speech; and
  • b14) calculating, in particular by a minimally variance-minimum distortion-response beamforming estimator, MVDR, of an optimal linear projector giving a combined single-ended signal from the signals collected by at least some of the sensors of the first sub-array, the estimated covariance spectral matrix in step b12), and transfer functions estimated in step b13).

L'étape b13) d'estimation de la fonction de transfert des canaux acoustiques peut notamment être mise en oeuvre par un filtre adaptatif à prédiction linéaire de type moindres carrés moyens, LMS, avec modulation par la probabilité de présence de parole, notamment une modulation par variation du pas d'itération du filtre adaptatif LMS.The step b13) of estimating the transfer function of the acoustic channels can in particular be implemented by an LMS-type linear least linear adaptive adaptive filter, with modulation by the probability of presence of speech, notably a modulation. by variation of the iteration step of the adaptive filter LMS.

Pour le débruitage de la partie BF à l'étape b2), la prédiction du bruit d'un capteur sur l'autre peut être opérée dans le domaine f temporel, en particulier par un filtre de type filtre de Wiener multicanal avec pondération par la distorsion de la parole, SDW-MWF, notamment un filtre SDW-MWF estimé de manière adaptative par un algorithme de descente de gradient.For the denoising of the part BF in step b2), the prediction of the noise of one sensor on the other can be made in the time domain, in particular by a Wiener filter multichannel filter with weighting by the Speech distortion, SDW-MWF, including an SDW-MWF filter adaptively estimated by a gradient descent algorithm.

On va maintenant décrire un exemple de mise en oeuvre du dispositif de l'invention, en référence aux dessins annexés où les mêmes références numériques désignent d'une figure à l'autre des éléments identiques ou fonctionnellement semblables.

  • La Figure 1 illustre de façon schématique un exemple de réseau de micros, comprenant quatre micros utilisables de façon sélective pour la mise en oeuvre de l'invention.
  • Les Figures 2a et 2b sont des caractéristiques, respectivement pour un micro omnidirectionnel et pour un micro unidirectionnel, montrant les variations, en fonction de la fréquence, de la corrélation (fonction de cohérence quadratique) entre deux micros pour un champ de bruit diffus, ceci pour plusieurs valeurs d'écartement entre ces deux micros.
  • La Figure 3 est un schéma d'ensemble, sous forme de blocs fonctionnels, montrant les différents traitements selon l'invention pour le débruitage des signaux recueillis par le réseau de micros de la Figure 1.
  • La Figure 4 est une représentation schématique par blocs fonctionnels, généralisée à un nombre de micros supérieur à deux, d'un filtre adaptatif pour l'estimation de la fonction de transfert d'un canal acoustique, utilisable pour le traitement de débruitage de la partie BF du spectre dans le traitement d'ensemble de la Figure 3.
An embodiment of the device of the invention will now be described with reference to the appended drawings in which the same reference numerals designate identical or functionally similar elements from one figure to another.
  • The Figure 1 schematically illustrates an example of a network of microphones, comprising four microphones used selectively for the implementation of the invention.
  • The Figures 2a and 2b are characteristics, respectively for an omnidirectional microphone and for a unidirectional microphone, showing the variations, as a function of frequency, of the correlation (quadratic coherence function) between two microphones for a diffuse noise field, this for several values of spacing between these two pickups.
  • The Figure 3 is a block diagram, in the form of functional blocks, showing the different treatments according to the invention for the denoising of the signals collected by the network of microphones of the Figure 1 .
  • The Figure 4 is a functional block schematic representation, generalized to a number of micros greater than two, of an adaptive filter for the estimation of the transfer function of an acoustic channel, usable for the denoising processing of the spectrum part BF in the overall treatment of the Figure 3 .

On va maintenant décrire en détail un exemple de technique de débruitage mettant en oeuvre les enseignements de l'invention.An example of a denoising technique embodying the teachings of the invention will now be described in detail.

Configuration du réseau de capteurs microphoniquesConfiguration of the microphone sensor network

On considèrera, comme illustré Figure 1, un réseau R de capteurs microphoniques M1 ... M4, chaque capteur pouvant être assimilé à un micro unique captant une version bruitée d'un signal de parole émis par une source de signal utile (locuteur) de direction d'incidence Δ.We will consider, as illustrated Figure 1 , a network R of microphonic sensors M 1 ... M 4 , each sensor being able to be likened to a single microphone picking up a noisy version of a speech signal emitted by a useful signal source (speaker) of direction of incidence Δ .

Chaque micro capte donc une composante du signal utile (le signal de parole) et une composante du bruit parasite environnant, sous toutes ses formes (directif ou diffus, stationnaire ou évoluant de manière imprévisible, etc.).Each microphone thus captures a component of the useful signal (the speech signal) and a component of the surrounding noise, in all its forms (directive or diffuse, stationary or evolving unpredictably, etc.).

Le réseau R est configuré en deux sous-réseaux R1 et R2 dédiés respectivement à la captation et au traitement des signaux dans la partie supérieure (ci-après "haute fréquence", HF) du spectre et dans la partie inférieure (ci-après "basse fréquence", BF) de ce même spectre.The network R is configured in two subnetworks R 1 and R 2 dedicated respectively to the capture and processing of the signals in the upper part (hereinafter "high frequency", HF) of the spectrum and in the lower part (hereinafter after "low frequency", BF) of this same spectrum.

Le sous-réseau R1 dédié à la partie HF du spectre est constitué des trois micros M1, M3, M4 qui sont alignés perpendiculairement à la direction d'incidence Δ, avec un écartement respectif de d = 2 cm dans l'exemple illustré. Ces micros sont de préférence des micros unidirectionnels dont le lobe principal est orienté dans la direction Δ du locuteur.The sub-network R 1 dedicated to the HF part of the spectrum consists of three microphones M 1 , M 3 , M 4 which are aligned perpendicularly to the direction of incidence Δ, with a respective spacing of d = 2 cm in the illustrated example. These microphones are preferably unidirectional microphones whose main lobe is oriented in the direction Δ of the speaker.

Le sous-réseau R2 dédié à la partie BF du spectre est constitué des deux micros M1 et M2, alignés parallèlement à la direction Δet écartés de d = 3 cm dans l'exemple illustré. On notera que le micro M1, qui appartient aux deux sous-réseaux R1 et R2, est mutualisé, ce qui permet de réduire le nombre total de micros du réseau. Cette mutualisation est avantageuse mais elle n'est toutefois pas nécessaire. D'autre part, on a illustré une configuration en forme de "L" où le micro mutualisé est le micro M1, mais cette configuration n'est pas restrictive, le micro mutualisé pouvant être par exemple le micro M3, donnant à l'ensemble du réseau une configuration en forme de "T".The sub-network R 2 dedicated to the part BF of the spectrum consists of two microphones M 1 and M 2 , aligned parallel to the direction Δand spaced apart by d = 3 cm in the illustrated example. It will be noted that the microphone M 1 , which belongs to the two subnetworks R 1 and R 2 , is shared, which makes it possible to reduce the total number of microphones of the network. This pooling is advantageous, but it is not necessary. On the other hand, a shaped configuration is illustrated in "L" when the microphone is shared the microphone M 1, but this configuration is not restrictive, the microphone can be shared eg micro M 3, giving the whole network a configuration in the form of "T".

Par ailleurs, le micro M2 du réseau BF peut être un micro omnidirectionnel, dans la mesure où la directivité est beaucoup moins marquée en BF qu'en HF.Moreover, the microphone M 2 of the BF network may be an omnidirectional microphone, since the directivity is much less marked in BF than in HF.

Enfin, la configuration illustrée montrant deux sous-réseaux R1 + R2 comprenant 3 + 2 micros (soit un total de 4 micros compte tenu de la mutualisation de l'un des micros) n'est pas limitative. La configuration minimale est une configuration à 2 + 2 micros (soit un minimum de 3 micros si l'un d'entre eux est mutualisé). Inversement, il est possible d'augmenter le nombre de micros, avec des configurations à 4 + 2 micros, 4 + 3 micros, etc.Finally, the illustrated configuration showing two subnets R 1 + R 2 comprising 3 + 2 microphones (a total of 4 microphones given the pooling of one of the microphones) is not limiting. The minimum configuration is a configuration with 2 + 2 microphones (a minimum of 3 microphones if one of them is shared). Conversely, it is possible to increase the number of microphones, with configurations to 4 + 2 pickups, 4 + 3 pickups, etc.

L'augmentation du nombre de micros permet, notamment dans les hautes fréquences, de sélectionner des configurations de micros différentes selon les parties du spectre HF traitées.The increase in the number of microphones makes it possible, particularly in the high frequencies, to select different microphone configurations depending on the parts of the RF spectrum processed.

Ainsi, dans l'exemple illustré, si l'on opère en téléphonie wideband avec une plage de fréquences allant jusqu'à 8000 Hz (au lieu de 4000 Hz), pour la bande inférieure (1000 à 4000 Hz) de la partie HF du spectre on choisira les deux micros extrêmes {M1, M4} éloignés entre eux de d = 4 cm, tandis que pour la bande supérieure (4000 à 8000 Hz) de cette même partie HF on utilisera un couple de deux micros voisins {M1, M3} ou {M3, M4}, ou bien les trois micros {M1, M3, M4} ensemble, ces micros étant espacés chacun de d = 2 cm seulement: on bénéficie ainsi dans la bande inférieure du spectre HF de l'écartement maximum des micros, ce qui maximise la décorrélation des bruits captés, tout en évitant dans la bande supérieure un repliement des hautes fréquences du signal à restituer ; un tel repliement apparaitrait sinon du fait d'une fréquence d'échantillonnage spatiale trop faible, dans la mesure où il faut que le retard de phase maximal d'un signal capté par un micro puis par l'autre soit inférieur à la période d'échantillonnage du convertisseur de numérisation des signaux. On va maintenant exposer, en référence aux Figures 2a et 2b, la manière de choisir la fréquence pivot entre les deux parties BF et HF du spectre, et le choix préférentiel du type de micro unidirectionnel/omnidirectionnel selon la partie du spectre à traiter, HF ou BF.Thus, in the illustrated example, if one operates in wideband telephony with a frequency range up to 8000 Hz (instead of 4000 Hz), for the lower band (1000 to 4000 Hz) of the HF part of the spectrum we will choose the two extreme microphones {M 1 , M 4 } distant from each other by d = 4 cm, while for the upper band (4000 to 8000 Hz) of this same HF part we will use a pair of two neighboring microphones {M 1 , M 3 } or {M 3 , M 4 }, or the three microphones {M 1 , M 3 , M 4 } together, these microphones being each spaced apart by d = 2 cm only: it thus benefits in the lower band of the HF spectrum of the maximum spacing of the microphones, which maximizes the decorrelation of the sensed noises, while avoiding in the upper band a refolding of the high frequencies of the signal to be restored; such a refolding would appear if not because of a too low spatial sampling frequency, insofar as it is necessary that the maximum phase delay of a signal picked up by a microphone then by the other is less than the period of time. sampling of the signal digitizer. We will now expose, with reference to Figures 2a and 2b , the manner of choosing the pivot frequency between the two parts BF and HF of the spectrum, and the preferred choice of the unidirectional / omnidirectional microphone type according to the part of the spectrum to be treated, HF or BF.

Ces Figures 2a et 2b illustrent, respectivement pour un micro omnidirectionnel et pour un micro unidirectionnel, des caractéristiques donnant, en fonction de la fréquence, la valeur de la fonction de corrélation entre deux micros, pour plusieurs valeurs d d'écartement entre ces micros.These Figures 2a and 2b illustrate, respectively for an omnidirectional microphone and for a unidirectional microphone, characteristics giving, as a function of frequency, the value of the correlation function between two microphones, for several distance values d between these microphones.

La fonction de corrélation entre deux micros éloignés d'une distance d, pour un modèle champ de bruit diffus, est une fonction globalement décroissante de la distance entre les micros. Cette fonction de corrélation est représentée par la cohérence quadratique moyenne MSC (Mean Squared Coherence), qui varie entre 1 (les deux signaux sont parfaitement cohérents, ils ne diffèrent que d'un filtre linéaire) et 0 (signaux totalement décorrélés). Dans le cas d'un micro omnidirectionnel, cette cohérence peut être modélisée en fonction de la fréquence par la fonction : MSC f = sin 2 πfτ 2 πfτ 2

Figure imgb0001
f étant la fréquence considérée et τ étant le retard de propagation entre les micros soit τ = d/c,d est la distance entre les micros et c la vitesse du son.The correlation function between two microphones distant from a distance d , for a diffuse noise field model, is a globally decreasing function of the distance between the microphones. This correlation function is represented by mean squared coherence MSC ( Mean Squared Coherence ) , which varies between 1 (the two signals are perfectly coherent, they differ only from a linear filter) and 0 (totally decorrelated signals). In the case of an omnidirectional microphone, this coherence can be modeled according to the frequency by the function: MSC f = sin 2 πfτ 2 πfτ 2
Figure imgb0001
f being the frequency considered and τ being the propagation delay between the microphones is τ = d / c, where d is the distance between the microphones and c the speed of sound.

Cette courbe modélisée a été illustrée sur la Figure 2a, les figures 2a et 2b montant également la fonction de cohérence MSC réellement mesurée pour les deux types de micros et pour diverses valeurs de distances d. This modeled curve has been illustrated on the Figure 2a , the Figures 2a and 2b also setting the MSC consistency function actually measured for both types of microphones and for various distance values d.

Si l'on considère que l'on est en présence de signaux effectivement cohérents lorsque la valeur de MSC > 0,9, le bruit pourra être considéré comme étant cohérent lorsque l'on se trouve au-dessous d'une fréquence f0 telle que : f 0 = 0.787 c 2 πd .

Figure imgb0002
If one considers that there are actually coherent signals when the value of MSC > 0.9, the noise can be considered as being coherent when one is below a frequency f 0 such than : f 0 = 0787 vs 2 πd .
Figure imgb0002

Ceci donne une fréquence pivot f0 d'environ 1000 Hz pour des micros écartés de d = 4 cm (distance entre les micros M1 et M4 de l'exemple de réseau de la Figure 1).This gives a pivot frequency f 0 of about 1000 Hz for microphones spaced apart by d = 4 cm (distance between the microphones M 1 and M 4 of the network example of FIG. Figure 1 ).

Dans le présent exemple, correspondant notamment au réseau de micros ayant les dimensions indiquées plus haut, on choisira ainsi une fréquence pivot f0 = 1000 Hz au-dessous de laquelle (partie BF) on considèrera que le bruit est cohérent, ce qui permet d'envisager un algorithme basé sur une prédiction de ce bruit d'un micro sur l'autre (prédiction opérée pendant les périodes de silence du locuteur, où seul le bruit est présent).In the present example, in particular corresponding to the array of microphones having the dimensions indicated above, a pivot frequency is thus chosen f 0 = 1000 Hz below which (part BF) will be considered that the noise is coherent, thereby consider an algorithm based on a prediction of this noise from one microphone to the other (prediction made during periods of silence of the speaker, where only the noise is present).

De préférence, on utilisera pour cette partie BF, des micros unidirectionnels, car comme on peut le voir en comparant les Figures 2a et 2b la variation de la fonction de cohérence est beaucoup plus abrupte dans ce cas qu'avec un micro omnidirectionnel.Preferably, for this part BF, unidirectional microphones will be used because, as can be seen by comparing the Figures 2a and 2b the variation of the coherence function is much more abrupt in this case than with an omnidirectional microphone.

Dans la partie HF du spectre, où le bruit est faiblement cohérent, il n'est plus possible de prédire ce bruit de façon satisfaisante ; on mettra alors en oeuvre un autre algorithme, exploitant le caractère prédictible du signal utile (et non plus du bruit) d'un micro sur l'autre.In the HF part of the spectrum, where the noise is weakly coherent, it is no longer possible to predict this noise satisfactorily; another algorithm will then be implemented, exploiting the predictability of the useful signal (and no longer noise) from one microphone to the other.

On notera enfin que le choix de la fréquence pivot (f0 = 1000 Hz pour d = 2 cm) dépend aussi de l'écartement entre micros, un écartement plus grand correspondant à une fréquence pivot plus faible, et vice versa. Note finally that the choice of the pivot frequency ( f 0 = 1000 Hz for d = 2 cm) also depends on the spacing between microphones, a larger gap corresponding to a lower pivot frequency, and vice versa.

Traitement de débruitage : description d'un mode préférentielDenoising treatment: description of a preferential mode

On va maintenant décrire, en référence à la Figure 3, un mode de mise en oeuvre préférentiel de débruitage des signaux recueillis par le réseau de micros de la Figure 1, de façon bien entendu non limitative.We will now describe, with reference to the Figure 3 , a preferred mode of implementation of denoising of the signals collected by the network of microphones of the Figure 1 , of course without limitation.

Comme expliqué plus haut, des traitements différents sont opérés pour le haut du spectre (hautes fréquences, HF) et pour le bas du spectre (basses fréquences, BF).As explained above, different treatments are performed for the high-frequency spectrum (high frequencies, HF) and for the low-end spectrum (low frequencies, BF).

Pour le haut du spectre, un filtre passe-haut HF 10 reçoit les signaux des micros M1, M3 et M4 du sous-réseau R1, utilisés conjointement. Ces signaux font d'abord l'objet d'une transformée rapide de Fourier FFT (bloc 12), puis d'un traitement, dans le domaine fréquentiel, par un algorithme (bloc 14) exploitant le caractère prédictible du signal utile d'un micro sur l'autre, dans cet exemple un estimateur de type MMSE-STSA (Minimum Mean-Squared Error Short-Time Spectral Amplitude), qui sera décrit en détail plus bas.For the high end of the spectrum, a high-pass filter HF 10 receives the signals from the microphones M 1 , M 3 and M 4 of the sub-network R 1 , used jointly. These signals are first subject to a fast FFT Fourier transform (block 12), then to a frequency-domain processing by an algorithm (block 14) exploiting the predictability of the useful signal of a signal. microphone on the other, in this example a type estimator MMSE-STSA (Minimum Mean-Squared Error Short-Time Spectral Amplitude), which will be described in detail below.

Pour le bas du spectre, un filtre passe-bas BF 16 reçoit en entrée les signaux captés par les micros M1 et M2 du sous-réseau R2. Ces signaux font l'objet d'un traitement de débruitage (bloc 18) opéré dans le domaine temporel par un algorithme exploitant une prédiction du bruit d'un micro sur l'autre pendant les périodes de silence du locuteur. Dans cet exemple, on utilise un algorithme de type SDW-MWF (Speech Distorsion Weighted Multichannel Wiener Filter), qui sera décrit plus en détail par la suite. Le signal débruité résultant fait ensuite l'objet d'une transformée rapide de Fourier FFT (bloc 20).In the lower spectrum, a low-pass filter BF 16 receives as input the signals picked up by the microphones M 1 and M 2 subnet R 2. These signals are the subject of a denoising processing (block 18) operated in the time domain by an algorithm exploiting a prediction of the noise of a microphone on the other during the periods of silence of the speaker. In this example, we use an SDW-MWF ( Speech Distortion Weighted Multichannel Wiener Filter ) type algorithm, which will be described in more detail below. The resulting denoised signal is then subjected to a fast Fourier transform FFT (block 20).

On dispose ainsi, à partir de deux traitements multicanal, de deux signaux monocanal résultants, l'un pour la partie HF issue du bloc 14, l'autre pour la partie BF issue du bloc 18 après passage dans le domaine fréquentiel par le bloc 20.Thus, from two multichannel treatments, two resulting single-channel signals are available, one for the HF part originating from block 14, the other for part BF coming from block 18 after passing into the frequency domain by block 20. .

Ces deux signaux résultants débruités sont combinés (bloc 22) de manière à opérer une reconstruction du spectre complet, HF + BF.These two resulting denoised signals are combined (block 22) so as to perform a reconstruction of the complete spectrum, HF + BF.

Très avantageusement, un traitement (monocanal) supplémentaire de débruitage sélectif (bloc 24) est opéré sur le signal reconstruit correspondant. Le signal issu de ce traitement fait enfin l'objet d'une transformée de Fourier rapide inverse iFFT (bloc 26) pour repasser dans le domaine temporel.Very advantageously, an additional (single channel) processing of selective denoising (block 24) is performed on the corresponding reconstructed signal. The signal resulting from this treatment is finally the subject of a transformation of Fourier fast inverse iFFT (block 26) to return to the time domain.

Plus précisément, ce traitement de débruitage sélectif final consiste à appliquer un gain variable propre à chaque bande de fréquence, ce débruitage étant également modulé par une probabilité de présence de parole.More specifically, this final selective denoising processing consists in applying a variable gain specific to each frequency band, this denoising being also modulated by a probability of presence of speech.

On peut avantageusement utiliser pour le débruitage du bloc 24 une méthode de type OM/LSA (Optimally Modified - Log Spectral Amplitude) telle que celle décrite par :

  1. [1] I. Cohen, "Optimal Speech Enhancement under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator", Signal Processing Letters, IEEE, Vol. 9, No 4, pp. 113-116, Apr. 2002 .
    Essentiellement, l'application d'un gain nommé "gain LSA" (Log-Spectral Amplitude) permet de minimiser la distance quadratique moyenne entre le logarithme de l'amplitude du signal estimé et le logarithme de l'amplitude du signal de parole originel. Ce second critère se montre supérieur au premier car la distance choisie est en meilleure adéquation avec le comportement de l'oreille humaine et donne donc qualitativement de meilleurs résultats.
    Dans tous les cas, il s'agit de diminuer l'énergie des composantes fréquentielles très parasitées en leur appliquant un gain faible, tout en laissant intactes (par l'application d'un gain égal à 1) celles qui le sont peu ou pas du tout.
    L'algorithme "OM-LSA" (Optimally-Modified LSA) améliore le calcul du gain LSA à appliquer en le pondérant par une probabilité conditionnelle de présence de parole SPP (Speech Presence Probability), qui intervient à deux niveaux :
    • pour l'estimation de l'énergie du bruit : la probabilité module le facteur d'oubli dans le sens d'une mise à jour plus rapide de l'estimation du bruit sur le signal bruité lorsque la probabilité de présence de parole est faible ;
    • pour le calcul du gain final : la réduction de bruit appliquée est d'autant plus importante (c'est-à-dire que le gain appliqué est d'autant plus faible) que la probabilité de présence de parole est faible.
Can be advantageously used for the block 24 a denoising method type OM / LSA (Optimally Modified - Log Spectral Amplitude) as described by
  1. [1] I. Cohen, "Optimal Speech Enhancement Under Signal Presence Uncertainty Using Log-Spectral Amplitude Estimator," Signal Processing Letters, IEEE, Vol. 9, No. 4, pp. 113-116, Apr. 2002 .
    Essentially, the application of a gain called Log-Spectral Amplitude (LSA) is used to minimize the mean squared distance between the logarithm of the amplitude of the estimated signal and the logarithm of the amplitude of the original speech signal. This second criterion is superior to the first because the distance chosen is in better adequacy with the behavior of the human ear and thus gives qualitatively better results.
    In all cases, it is a question of reducing the energy of the highly parasitized frequency components by applying them a weak gain, while leaving intact (by the application of a gain equal to 1) those which are it little or not at all.
    The algorithm "OM-LSA" ( Optimally-Modified LSA ) improves the calculation of the LSA gain to be applied by weighting it by a conditional probability of speech presence SPP ( Speech Presence Probability ), which intervenes on two levels:
    • for estimating the noise energy: the probability modulates the forgetting factor in the direction of a faster update of the estimate of the noise on the noisy signal when the probability of presence of speech is low;
    • for the calculation of the final gain: the noise reduction applied is all the more important (that is to say, the applied gain is even lower) that the probability of presence of speech is low.

La probabilité de présence de parole SPP est un paramètre pouvant prendre plusieurs valeurs différentes comprises entre 0 et 100 %. Ce paramètre est calculé selon une technique en elle-même connue, dont des exemples sont notamment exposés dans :

  • [2] I. Cohen et B. Berdugo, "Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio", IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2003, Hong-Kong, pp. 233-236, Apr. 2003 .
The probability of presence of speech SPP is a parameter that can take several different values between 0 and 100%. This parameter is calculated according to a technique in itself known, examples of which are notably set forth in:
  • [2] I. Cohen and B. Berdugo, "Two-Channel Signal Detection and Speech Enhancement Based on the Transient Beam-to-Reference Ratio," IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2003, Hong Kong, pp. 233-236, Apr. 2003 .

On pourra également se référer au WO 2007/099222 A1 (Parrot ), qui décrit une technique de débruitage mettant en oeuvre un calcul de probabilité de présence de parole.We can also refer to WO 2007/099222 A1 (Parrot ), which describes a denoising technique implementing a probability calculation of presence of speech.

Algorithme MMSE-STSA de débruitage HF (bloc 14)MMSE-STSA HF Denoising Algorithm (block 14)

On va décrire un exemple de traitement de débruitage appliqué à la partie HF du spectre, par un estimateur MMSE-STSA opérant dans le domaine fréquentiel.An example of denoising processing applied to the HF portion of the spectrum will be described by an MMSE-STSA estimator operating in the frequency domain.

Cette mise en oeuvre particulière n'est bien entendu pas limitative, d'autres techniques de débruitage pouvant être envisagées, dès lors qu'elles sont basées sur le caractère prédictible du signal utile d'un micro sur l'autre. En outre, ce débruitage HF n'est pas nécessairement opéré dans le domaine fréquentiel, il peut également être opéré dans le domaine temporel, par des moyens équivalents.This particular implementation is of course not limiting, other denoising techniques can be envisaged, since they are based on the predictability of the useful signal of a microphone on the other. In addition, this HF denoising is not necessarily operated in the frequency domain, it can also be operated in the time domain, by equivalent means.

La technique proposée consiste à rechercher un "projecteur" linéaire optimal pour chaque fréquence, c'est-à-dire un opérateur correspondant à une transformation d'une pluralité de signaux (ceux recueillis concurremment par les divers micros du sous-réseau R1) en un signal unique monocanal.The proposed technique consists of searching for an optimal linear "projector" for each frequency, that is to say an operator corresponding to a transformation of a plurality of signals (those collected concurrently by the various microphones of the sub-network R 1 ). in a single single channel signal.

Cette projection, estimée par le bloc 28, est une projection linéaire "optimale" en ce sens que l'on cherche à ce que la composante de bruit résiduel sur le signal monocanal délivré en sortie soit minimisée et que la composante utile de parole soit la moins déformée possible.This projection, estimated by the block 28, is an "optimal" linear projection in that it is sought that the residual noise component on the single-channel signal output is minimized and that the useful speech component is the less distorted possible.

Cette optimisation implique de rechercher pour chaque fréquence un vecteur A tel que :

  • la projection ATX contienne le moins de bruit possible, c'est-à-dire que la puissance du bruit résiduel, qui vaut E[ ATVVTA] = ATRnA, soit minimisée, et
  • la voix du locuteur ne soit pas déformée, ce qui se traduit par la contrainte ATH =1, où Rn est la matrice de corrélation entre les micros, pour chaque fréquence, et H est le canal acoustique considéré.
This optimization involves searching for each frequency a vector A such that:
  • the projection A T X contains the least amount of noise, that is to say, the power of the residual noise, which is E [VV A T T A] = A T R n A, is minimized, and
  • the voice of the speaker is not distorted, which results in stress A T H = 1, where R n is the correlation matrix between the microphones for each frequency, and H is the acoustic channel considered.

Ce problème est un problème d'optimisation sous contrainte, à savoir la recherche de min( ATRnA ) sous la contrainte ATH =1.This problem is a constrained optimization problem, namely the search for min ( A T R n A ) under the constraint A T H = 1.

Il peut être résolu en utilisant la méthode des multiplieurs de Lagrange, qui conduit à la solution : A T = H T R n - 1 H T R n - 1 H .

Figure imgb0003
It can be solved using the method of Lagrange multipliers, which leads to the solution: AT T = H T R not - 1 H T R not - 1 H .
Figure imgb0003

Dans le cas où les fonctions de transfert H correspondent à un retard pur, on reconnait la formule du beamforming MVDR (Minimum Variance Distorsionless Response), aussi appelé beamforming de Capon. On notera que la puissance de bruit résiduel vaut, après projection 1 H T R n - 1 H .

Figure imgb0004
In the case where the transfer function H corresponds to a pure delay, it recognizes the formula beamforming MVDR (Minimum Variance Distorsionless Response), also called beamforming Capon. It will be noted that the residual noise power is worth, after projection 1 H T R not - 1 H .
Figure imgb0004

De plus, si l'on considère des estimateurs de type MMSE (Minimum Mean-Squared Error) sur l'amplitude et la phase du signal à chaque fréquence, on constate que ces estimateurs s'écrivent comme un beamforming de Capon suivi d'un traitement monocanal de débruitage sélectif, comme cela a été exposé par :

  • [3] R. C. Hendriks et al., On optimal multichannel mean-squared error estimators for speech enhancement, IEEE Signal Processing Letters, vol. 16, no. 10, 2009 .
Moreover, if we consider MMSE ( Minimum Mean-Squared Error ) estimators on the amplitude and the phase of the signal at each frequency, we see that these estimators are written like a Capon beamforming followed by a single-channel selective denoising treatment, as has been stated by:
  • [3] RC Hendriks et al., On Multichannel Optimal Mean-squared error estimators for speech enhancement, IEEE Signal Processing Letters, Vol. 16, no. 10, 2009 .

Le traitement de débruitage sélectif du bruit, appliqué au signal monocanal résultant du traitement de beamforming, est avantageusement le traitement de type OM-LSA décrit plus haut, opéré par le bloc 24 sur le spectre complet après synthèse en 22.The selective noise denoising treatment, applied to the single-channel signal resulting from beamforming processing , is advantageously the OM-LSA type treatment described above, operated by block 24 on the complete spectrum after synthesis at 22.

La matrice interspectrale des bruits est estimée récursivement (bloc 32), en utilisant la probabilité de présence de parole SPP (bloc 34, voir plus haut) : Σ bb t = α Σ bb t t - 1 + 1 - α X t X t T α = α 0 + 1 - α 0 SPP

Figure imgb0005

α 0 étant un facteur d'oubli.The interspectral matrix of noises is estimated recursively (block 32), using the probability of presence of speech SPP (block 34, see above): Σ bb t = α Σ bb t t - 1 + 1 - α X t X t T α = α 0 + 1 - α 0 SPP
Figure imgb0005

α 0 being a forgetting factor.

En ce qui concerne l'estimateur MVDR (bloc 28), sa mise en oeuvre implique une estimation des fonctions de transfert acoustiques Hi entre la source de parole et chacun des micros Mi (M1, M3 ou M4).With regard to the MVDR estimator (block 28), its implementation involves an estimation of the acoustic transfer functions H i between the speech source and each of the microphones M i (M 1 , M 3 or M 4 ).

Ces fonctions de transfert sont avantageusement évaluées par un estimateur de type LMS fréquentiel (bloc 30) recevant en entrée les signaux issus des différents micros et délivrant en sortie les estimées des diverses fonctions de transfert H. These transfer functions are advantageously evaluated by a frequency LMS estimator (block 30) receiving as input the signals from the different microphones and outputting the estimates of the various transfer functions H.

Il est également nécessaire d'estimer (bloc 32) la matrice de corrélation Rn (matrice spectrale de covariance, également dénommée matrice interspectrale des bruits).It is also necessary to estimate (block 32) the correlation matrix R n (covariance spectral matrix, also called the interspectral noise matrix).

Enfin, ces diverses estimations impliquent la connaissance d'une probabilité de présence de parole SPP, obtenue à partir du signal recueilli par l'un des micros (bloc 34).Finally, these various estimates imply the knowledge of a probability of presence of speech SPP , obtained from the signal collected by one of the microphones (block 34).

On va maintenant décrire en détail la manière dont opère l'estimateur MMSE-STSA.We will now describe in detail how the MMSE-STSA estimator operates.

Il s'agit de traiter les signaux multiples produits par les micros pour fournir un signal débruité unique qui soit le plus proche possible du signal de parole émis par le locuteur, c'est-à-dire :

  • contenant le moins de bruit possible, et
  • déformant le moins possible la voix du locuteur restituée en sortie.
This involves processing the multiple signals produced by the microphones to provide a unique noise signal that is as close as possible to the speech signal emitted by the speaker, that is to say:
  • containing as little noise as possible, and
  • distorting as little as possible the speaker's voice output.

Sur le micro de rang i, le signal recueilli est : x i t = h i s t + b i t

Figure imgb0006

xi est le signal capté, hi est la réponse impulsionnelle entre la source de signal utile (signal de parole du locuteur) et le micro Mi, s est le signal utile produit par la source S et bi est le bruit additif.On the microphone of rank i , the collected signal is: x i t = h i s t + b i t
Figure imgb0006

where x i is the sensed signal, h i is the impulse response between the useful signal source (speaker speech signal) and the microphone M i , s is the useful signal produced by the source S and b i is the additive noise .

Pour l'ensemble des micros, on peut utiliser la notation vectorielle : x t = h s t + b t

Figure imgb0007
For all the microphones, we can use the vector notation: x t = h s t + b t
Figure imgb0007

Dans le domaine fréquentiel, cette expression devient (les majuscules représentant les transformées de Fourier correspondantes) : X i ω = H i ω S ω + B i ω

Figure imgb0008
In the frequency domain, this expression becomes (uppercase letters representing the corresponding Fourier transforms): X i ω = H i ω S ω + B i ω
Figure imgb0008

On fera les hypothèses suivantes, pour toutes les fréquences ω:

  • le signal S(ω) est gaussien de moyenne nulle et de puissance spectrale σ s 2 ω ;
    Figure imgb0009
  • les bruits Bi (ω) sont gaussiens de moyenne nulle et ont une matrice interspectrale (E[BB T ]) notée Σ bb (ω);
  • le signal et les bruits considérés sont décorrélés, et chacun est décorrélé lorsque les fréquences sont différentes.
We will make the following assumptions, for all frequencies ω:
  • the signal S (ω) is Gaussian of zero mean and spectral power σ s 2 ω ;
    Figure imgb0009
  • the noise B i (ω) is Gaussian of zero mean and has an interspectral matrix ( E [BB T ]) denoted Σ bb (ω);
  • the signal and noises considered are decorrelated, and each is decorrelated when the frequencies are different.

Comme cela a été indiqué plus haut, dans le cas multi-microphone l'estimateur MMSE-STSA se factorise en un beamforming MVDR (bloc 28) suivi d'un estimateur monocanal (l'algorithme OM/LSA du bloc 24).As mentioned above, in the multi-microphone case the MMSE-STSA estimator factorizes into a MVDR beamforming (block 28) followed by a single-channel estimator (the OM / LSA algorithm of block 24).

Le beamforming MVDR s'écrit : MVDR X = H T Σ bb - 1 X H T Σ bb - 1 H

Figure imgb0010
The MVDR beamforming is written: MVDR X = H T Σ bb - 1 X H T Σ bb - 1 H
Figure imgb0010

Le beamforming MVDR adaptatif exploite ainsi la cohérence du signal utile pour estimer une fonction de transfert H correspondant au canal acoustique entre le locuteur et chacun des micros du sous-réseau.The adaptive MVDR beamforming thus exploits the coherence of the useful signal to estimate a transfer function H corresponding to the acoustic channel between the speaker and each of the microphones of the sub-network.

Pour l'estimation de ce canal acoustique, on utilise un algorithme de type bloc-LMS dans le domaine fréquentiel (bloc 30) tel que celui décrit notamment par :

  • [4] J. Prado and E. Moulines, Frequency-Domain Adaptive Filtering with Applications to Acoustic Echo Cancellation, Springer, Ed. Annals of Telecommunications, 1994.
For the estimation of this acoustic channel, an LMS-block-type algorithm is used in the frequency domain (block 30) such as that described in particular by:
  • [4] J. Prado and E. Mills, Frequency-Domain Adaptive Filtering with Applications to Acoustic Echo Cancellation, Springer, Ed. Annals of Telecommunications, 1994.

Les algorithmes de type LMS - ou NLMS (Normalized LMS) qui est une version normalisée du LMS - sont des algorithmes relativement simples et peu exigeants en termes de ressources de calcul.LMS algorithms - or NLMS ( Normalized LMS ) which is a standardized version of the LMS - are relatively simple and undemanding algorithms in terms of computing resources.

Pour un beamforming de type GSC (Generalized Sidelobe Canceller), cette approche est similaire à celle proposée par :

  • [5] M.-S. Choi, C.-H. Baik, Y.-C. Park, and H.-G. Kang, "A Soft-Decision Adaptation Mode Controller for an Efficient Frequency-Domain Generalized Sidelobe Canceller," IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2007, Vol. 4, April 2007, pp. IV-893-IV-896.
For a type GSC beamforming (Generalized sidelobe canceller), this approach is similar to that proposed by:
  • [5] M.-S. Choi, C.-H. Baik, Y.-C. Park, and H.-G. Kang, "A Soft-Decision Adaptation Mode Controller for an Efficient Frequency-Domain Generalized Sidelobe Canceller," IEEE International Conference on Acoustics, Speech and Signal Processing ICASSP 2007, Vol. 4, April 2007, pp. IV-893-IV-896.

Le signal utile s(t) étant inconnu, on ne peut identifier H qu'à une fonction de transfert près. On choisit donc l'un des canaux comme référence de signal utile, par exemple le canal du micro M1, et l'on calcule les fonctions de transfert H 2 ... Hn pour les autres canaux (ce qui revient à contraindre H1 = 1). Si le micro de référence choisi n'apporte pas de dégradation majeure sur le signal utile, ce choix n'a pas d'influence notable sur les performances de l'algorithme.The useful signal s (t) is unknown, we can identify H than at a transfer function close. We therefore choose one of the channels as a reference for a useful signal, for example the channel of the microphone M 1 , and the transfer functions H 2 ... H n are calculated for the other channels (which amounts to constraining H 1 = 1). If the selected reference microphone does not bring major degradation to the useful signal, this choice has no significant influence on the performance of the algorithm.

Comme illustré sur la figure, l'algorithme LMS vise (de façon connue) à estimer un filtre H (bloc 36) au moyen d'un algorithme adaptatif, correspondant au signal xi délivré par le micro M1, en estimant le transfert de voix entre le micro Mi et le micro M1 (pris comme référence). La sortie du filtre 36 est soustraite en 38 au signal x 1 capté par le micro M1, pour donner un signal d'erreur de prédiction permettant l'adaptation itérative du filtre 36. Il est ainsi possible de prédire à partir du signal xi la composante de parole contenue dans le signal x 1.As illustrated in the figure, the LMS algorithm aims (in known manner) to estimate a filter H (block 36) by means of an adaptive algorithm, corresponding to the signal x i delivered by the microphone M 1 , by estimating the transfer of voice between the microphone M i and the microphone M 1 (taken as a reference). The output of the filter 36 is subtracted at 38 from the signal x 1 picked up by the microphone M 1 , to give a prediction error signal allowing the iterative adaptation of the filter 36. It is thus possible to predict from the signal x i the speech component contained in the signal x 1 .

Pour éviter les problèmes liés à la causalité (c'est-à-dire pour être sûr que les signaux xi arrivent en avance par rapport à la référence x 1), on retarde légèrement (bloc 40) le signal x 1.To avoid the problems related to the causality (that is to say, to be sure that the signals x i arrive in advance with respect to the reference x 1 ), the signal x 1 is slightly delayed (block 40).

Par ailleurs, on pondère en 42 le signal d'erreur du filtre adaptatif 36 par la probabilité de présence de parole SPP délivrée en sortie du bloc 34, de manière à ne procéder à l'adaptation du filtre que quand la probabilité de présence de parole est élevée.Moreover, the error signal of the adaptive filter 36 is weighted at 42 by the probability of presence of speech SPP delivered at the output of the block 34, so as to adapt the filter only when the probability of presence of speech is high.

Cette pondération peut notamment être opérée par modification du pas d'adaptation de l'algorithme, en fonction de la probabilité SPP. This weighting can in particular be made by modifying the adaptation step of the algorithm, as a function of the SPP probability .

L'équation de mise à jour du filtre adaptatif est, pour le bin de fréquence k et pour le micro i : H i t k = H i t - 1 , k + μ X i t k * X 1 t k - H i t - 1 , k X i t k

Figure imgb0011

avec μ = μ 0 SPP t k E X 1 k 2
Figure imgb0012

t étant l'indice temporel de la trame courante, µ 0 étant une constante choisie expérimentalement, et SPP étant la probabilité de présence de parole a posteriori, estimée comme indiqué plus haut (bloc 34).The adaptive filter update equation is, for frequency bin k and the microphone i: H i t k = H i t - 1 , k + μ X i t k * X 1 t k - H i t - 1 , k X i t k
Figure imgb0011

with μ = μ 0 SPP t k E X 1 k 2
Figure imgb0012

t being the temporal index of the current frame, μ 0 being an experimentally chosen constant, and SPP being the probability of presence of posterior speech , estimated as indicated above (block 34).

Le pas µ d'adaptation de l'algorithme, modulé par la probabilité de présence de parole SPP, s'écrit sous forme normalisée du LMS (le dénominateur correspondant à la puissance spectrale du signal x 1 à la fréquence considérée) : μ = p E X 1 2

Figure imgb0013
Μ not the adaptation of the algorithm, modulated by the probability of presence of speech SPP, is written in a standardized form of the LMS (the denominator corresponding to the spectral power of the signal x 1 at the frequency considered): μ = p E X 1 2
Figure imgb0013

L'hypothèse que les bruits sont décorrélés conduit à une prédiction de la voix, et non du bruit, par l'algorithme LMS, de sorte que la fonction de transfert estimé correspond effectivement au canal acoustique H entre le locuteur et les micros.The hypothesis that the noises are decorrelated leads to a prediction of the voice, and not of the noise, by the LMS algorithm, so that the estimated transfer function effectively corresponds to the acoustic channel H between the speaker and the microphones.

Algorithme SDW-MWF de débruitage BF (bloc 18)SDW-MWF BF denoising algorithm (block 18)

On va décrire un exemple d'algorithme de débruitage du type SDW-MWF, opéré dans le domaine temporel, mais ce choix n'est pas limitatif, d'autres techniques de débruitage pouvant être envisagées, dès lors qu'elles sont basées sur la prédiction du bruit d'un micro sur l'autre. En outre, ce débruitage BF n'est pas nécessairement opéré dans le domaine temporel, il peut également être opéré dans le domaine fréquentiel, par des moyens équivalents.An example of an SDW-MWF type time-domain denoising algorithm will be described, but this choice is not limitative, other denoising techniques may be envisaged, as long as they are based on the predicting the noise of one microphone on the other. In addition, this BF denoising is not necessarily operated in the time domain, it can also be operated in the frequency domain, by equivalent means.

La technique employée par l'invention est basée sur une prédiction du bruit d'un micro sur l'autre décrite, pour une aide auditive, par :

  • [6] A. Spriet, M. Moonen, and J. Wouters, "Stochastic Gradient-Based Implementation of Spatially Preprocessed Speech Distortion Weighted Multichannel Wiener Filtering for Noise Reduction in Hearing Aids," IEEE Transactions on Signal Processing, Vol. 53, pp. 911-925, Mar. 2005 .
The technique used by the invention is based on a prediction of the noise of a microphone on the other described, for a hearing aid, by:
  • [6] A. Spriet, M. Moonen, and J. Wouters, "Stochastic Gradient-Based Implementation of Spatially Preprocessed Speech Distortion Weighted Multichannel Wiener Filtering for Noise Reduction in Hearing Aids," IEEE Transactions on Signal Processing, Vol. 53, pp. 911-925, Mar. 2005 .

Chaque micro capte une composante de signal utile et une composante de bruit. Pour le micro de rang i, on a : xi (t) = si (t) + bi (t) si étant la composante du signal utile et bi la composante de bruit. Si l'on souhaite estimer une version du signal utile présente sur un micro k par un estimateur des moindres carrés linéaires, ceci revient à estimer un filtre W de taille M.L tel que : W ^ k = min w E s k t - w T x t 2

Figure imgb0014
où :

  • x i (t) est le vecteur [xi (t - L + 1) ... xi (t)] T et x t = x 1 t T x 2 t T x M t T T .
    Figure imgb0015
Each microphone picks up a useful signal component and a noise component. For the micro of rank i , we have: x i ( t ) = s i ( t ) + b i ( t ) s i being the component of the useful signal and b i the noise component. If it is desired to estimate a version of the useful signal present on a micro k by a linear least squares estimator, this amounts to estimating a size of W filter ML such that: W ^ k = min w E s k t - w T x t 2
Figure imgb0014
or :
  • x i ( t ) is the vector [ x i ( t - L + 1) ... x i ( t )] T and x t = x 1 t T x 2 t T ... x M t T T .
    Figure imgb0015

La solution est donnée par le filtre de Wiener : W ^ k = E x t x t T - 1 E x t s k t

Figure imgb0016
The solution is given by the Wiener filter: W ^ k = E x t x t T - 1 E x t s k t
Figure imgb0016

Dans la mesure où, comme on l'a expliqué en introduction, pour la partie BF du spectre on cherche à estimer le bruit et non plus le signal utile, on obtient : W ^ k b = min w E b k t - w T x t 2

Figure imgb0017
Since, as we have explained in the introduction, for the BF part of the spectrum, we try to estimate the noise and not the useful signal, we obtain: W ^ k b = min w E b k t - w T x t 2
Figure imgb0017

Cette prédiction du bruit présent sur un micro est opérée à partir du bruit présent sur tous les micros considérés du second sous-réseau R2, et ceci dans les périodes de silence du locuteur, où seul le bruit est présent.This prediction of the noise on a microphone is made from the noise on every microphone considered the second subnet R 2, and this in periods of silence the speaker, where only noise is present.

La technique utilisée est voisine de celle du débruitage ANC (Adaptative Noise Cancellation), en utilisant plusieurs micros pour la prédiction et en incluant dans le filtrage un micro de référence (par exemple le micro M1). La technique ANC est exposée notamment par :

  • [7] B. Widrow, J. Glover, J.R., J. McCool, J. Kaunitz, C. Williams, R. Hearn, J. Zeidler, J. Eugene Dong, and R. Goodlin, "Adaptive Noise Cancelling : Principles and applications," Proceedings of the IEEE, Vol. 63, No. 12, pp. 1692-1716, Dec. 1975 .
The technique used is close to that of the ANC ( Adaptive Noise Cancellation ) denoising, by using several microphones for the prediction and including in the filtering a reference microphone (for example the microphone M 1 ). The ANC technique is exposed in particular by:
  • [7] B. Widrow, J. Glover, JR, J. McCool, J. Kaunitz, C. Williams, R. Hearn, J. Zeidler, J. Eugene Dong, and R. Goodlin, "Adaptive Noise Canceling: Principles and Applications," Proceedings of the IEEE, Vol. 63, No. 12, pp. 1692-1716, Dec. 1975 .

Comme illustré sur la Figure 3, le filtre de Wiener (bloc 44) fournit une prédiction du bruit qui est soustraite en 46 du signal recueilli, non débruité, après application d'un retard (bloc 48) pour éviter les problèmes de causalité. Le filtre de Wiener 44 est paramétré par un coefficient µ (schématisé en 50) qui détermine une pondération ajustable entre, d'une part, la distorsion introduite par le traitement sur le signal vocal débruité et, d'autre part, le niveau de bruit résiduel.As illustrated on the Figure 3 , the Wiener filter (block 44) provides a noise prediction which is subtracted at 46 from the collected, non-denoised signal after applying a delay (block 48) to avoid causation problems. The Wiener filter 44 is parameterized by a coefficient μ (represented at 50) which determines an adjustable weighting between, on the one hand, the distortion introduced by the processing on the speech signal denoised and, on the other hand, the noise level. residual.

Dans le cas d'un signal recueilli par un plus grand nombre de micros, la généralisation de ce schéma de la prédiction de bruit pondéré est donnée Figure 4.In the case of a signal collected by a larger number of microphones, the generalization of this scheme of the weighted noise prediction is given Figure 4 .

Le signal estimé étant : s ^ t = x k t - W k b

Figure imgb0018

la solution est donnée, de la même façon que précédemment, par le filtre de Wiener: W ^ k b = E x t x t T - 1 E x t b k t
Figure imgb0019
The estimated signal being: s ^ t = x k t - W k b
Figure imgb0018

the solution is given, in the same way as before, by the Wiener filter: W ^ k b = E x t x t T - 1 E x t b k t
Figure imgb0019

Le signal estimé est alors rigoureusement le même, car on peut prouver que W ^ k + W ^ k b = e k , ave e k = [ 0 , 0 1 position k 0 ] T .

Figure imgb0020
The estimated signal is then strictly the same, because we can prove that W ^ k + W ^ k b = e k , ave e k = [ 0 , 0 ... 1 } position k ... 0 ] T .
Figure imgb0020

Le filtre de Wiener utilisé est avantageusement un filtre de Wiener pondéré (SDW-MVF), pour prendre en compte non seulement l'énergie du bruit à éliminer par le filtrage, mais également la distorsion introduite par ce filtrage et qu'il convient de minimiser.The Wiener filter used is advantageously a weighted Wiener filter (SDW-MVF), to take into account not only the energy of the noise to be eliminated by the filtering, but also the distortion introduced by this filtering, which should be minimized. .

Dans le cas du filtre de Wiener Ŵ k , la "fonction de cout" peut être séparée en deux, l'écart quadratique moyen pouvant s'écrire comme la somme de deux termes : E s k t - w T x t 2 = E s k t - w T s t 2 e a + E w T b t 2 e b

Figure imgb0021

où :

  • si (t) est le vecteur [si (t - L + 1) ... si (t)] T
    • s(t) = [s1(t) T s2(t) T ... s M (t) T ] T
    • bi(t) est le vecteur [bi (t - L + 1) ... bi (t)] T et
    • b(t) = [b1(t) T b2(t) T ... b M (t) T ] T
    • es est la distorsion introduite par le filtrage sur le signal utile, et
    • eb est le bruit résiduel après filtrage.
In the case of the Wiener filter Ŵ k , the "cost function" can be split into two, the mean square deviation can be written as the sum of two terms: E s k t - w T x t 2 = E s k t - w T s t 2 } e at + E w T b t 2 } e b
Figure imgb0021

or :
  • s i ( t ) is the vector [ s i ( t - L + 1) ... s i ( t )] T
    • s ( t ) = [s 1 ( t ) T s 2 ( t ) T ... s M ( t ) T ] T
    • b i ( t ) is the vector [ b i ( t - L + 1) ... b i ( t )] T and
    • b ( t ) = [b 1 ( t ) T b 2 ( t ) T ... b M ( t ) T ] T
    • e s is the distortion introduced by the filter on the useful signal, and
    • e b is the residual noise after filtering.

Il est possible de pondérer ces deux erreurs es et eb selon que l'on privilégie la réduction de distorsion ou bien la réduction du bruit résiduel.It is possible to weight these two errors e s and e b according to whether one favors the reduction of distortion or the reduction of the residual noise.

En invoquant la décorrélation entre bruit et signal utile, le problème devient : W ^ kr = min w E s k t - w T s t 2 + μE w T b t 2

Figure imgb0022
avec pour solution : W ^ kr = E s t s t T + μE b t b t T - 1 E s t s k t
Figure imgb0023

l'indice ".r ' indiquant que l'on régularise la fonction de cout pour pondérer selon la distorsion, et µ étant un paramètre ajustable :

  • plus µ est grand, plus l'on privilégie la réduction du bruit, mais au prix d'une distorsion plus importante sur le signal utile ;
  • si µ est nul, aucune importance n'est accordée à la réduction du bruit, et la sortie vaut xk (t) car les coefficients du filtre sont nuls ;
  • si µ est infini, les coefficients du filtre sont nuls à l'exception du terme en position k*L (L étant la longueur du filtre) qui vaut 1, la sortie vaut donc zéro.
By invoking the decorrelation between noise and useful signal, the problem becomes: W ^ kr = min w E s k t - w T s t 2 + mE w T b t 2
Figure imgb0022
with for solution: W ^ kr = E s t s t T + mE b t b t T - 1 E s t s k t
Figure imgb0023

the index " r " indicating that the function of cost is adjusted to weight according to the distortion, and μ being an adjustable parameter:
  • the larger the μ, the more the reduction of noise is preferred, but at the cost of greater distortion on the useful signal;
  • if μ is zero, no importance is given to the reduction of the noise, and the output is worth x k ( t ) because the coefficients of the filter are zero;
  • if μ is infinite, the coefficients of the filter are zero except for the term in position k * L ( L being the length of the filter) which is 1, the output is therefore zero.

Pour le filtre dual W k b ,

Figure imgb0024
le problème peut se réécrire : W ^ kr b = min w μ E b k t - w T b t 2 + E w T s t 2
Figure imgb0025

avec pour solution : W ^ kr b = 1 μ E s t s t T + E b t b t T - 1 E b t b k t
Figure imgb0026
For the dual filter W k b ,
Figure imgb0024
the problem can be rewritten: W ^ kr b = min w μ E b k t - w T b t 2 + E w T s t 2
Figure imgb0025

with for solution: W ^ kr b = 1 μ E s t s t T + E b t b t T - 1 E b t b k t
Figure imgb0026

On démontre également que le signal de sortie est le même quelle que soit l'approche utilisée.It is also demonstrated that the output signal is the same regardless of the approach used.

Ce filtre est mis en oeuvre de manière adaptative, par un algorithme de descente de gradient tel que celui exposé dans l'article [6] précité.This filter is implemented adaptively by a gradient descent algorithm such as that set forth in the aforementioned article [6].

Le schéma est celui illustré Figures 3 et 4.The diagram is the one illustrated Figures 3 and 4 .

Pour la mise en oeuvre de ce filtre, il est nécessaire d'estimer les matrices R s = E[s(t)s(t) T ], R b = E[b(t)b(t) T ], le vecteur E[b(t)bk (t)] ainsi que les paramètres L (la longueur souhaitée pour le filtre) et µ (qui ajuste la pondération entre réduction de bruit et distorsion).For the implementation of this filter, it is necessary to estimate the matrices R s = E [s ( t ) s ( t ) T ], R b = E [b ( t ) b ( t ) T ], the vector E [b ( t ) b k ( t )] as well as the parameters L (the desired length for the filter) and μ (which adjusts the weighting between noise reduction and distortion).

Si l'on suppose que l'on dispose d'un détecteur d'activité vocale (qui permet de discriminer entre phases de parole du locuteur et phases de silence) et que le bruit b(t) est stationnaire, on peut estimer R b durant les phases de silence, où seul le bruit est capté par les micros. Pendant ces phases de silence, on estime la matrice R b au fil de l'eau : R b t = { λ R b t - 1 + 1 - λ x t x t T sʹil nʹy a pas de parole R b t - 1 sinon

Figure imgb0027

λ étant un facteur d'oubli.If we assume that we have a voice activity detector (which makes it possible to discriminate between speech phases of the speaker and silence phases) and that the noise b ( t ) is stationary, we can estimate R b during the silent phases, where only the noise is picked up by the pickups. During these phases of silence, the matrix R b is estimated along the water: R b t = { λ R b t - 1 + 1 - λ x t x t T if there is no word R b t - 1 if not
Figure imgb0027

λ being a factor of forgetting.

On peut estimer E[b(t)bk (t)], ou remarquer que c'est une colonne de R b . Pour estimer R s , on invoque la décorrélation du bruit et du signal utile. Si l'on note R x = E[x(t)x(t) T ], on peut alors écrire : R x , R s + R b .We can estimate E [b ( t ) b k ( t )], or notice that it is a column of R b . To estimate R s , we invoke the decorrelation of the noise and the useful signal. If we denote R x = E [x ( t ) x ( t ) T ], we can write: R x , R s + R b .

On peut estimer R x de la même façon que R b , mais sans condition sur la présence de parole : R x t = λ R x t - 1 + 1 - λ x t x t T

Figure imgb0028

ce qui permet de déduire R s (t) = R x (t) - R b (t).We can estimate R x in the same way as R b , but without condition on the presence of speech: R x t = λ R x t - 1 + 1 - λ x t x t T
Figure imgb0028

which makes it possible to deduce R s ( t ) = R x ( t ) - R b ( t ).

En ce qui concerne la longueur L du filtre, ce paramètre doit correspondre à une réalité spatiale et temporelle, avec un nombre de coefficients suffisant pour prédire le bruit temporellement (cohérence temporelle du bruit) et spatialement (transfert spatial entre les micros).Regarding the length L of the filter, this parameter must correspond to a spatial and temporal reality, with a sufficient number of coefficients to predict the noise temporally (temporal coherence of the noise) and spatially (spatial transfer between the microphones).

Le paramètre µ est ajusté expérimentalement, en l'augmentant jusqu'à ce que la distorsion sur la voix devienne perceptible à l'oreille.The parameter μ is adjusted experimentally, increasing it until the distortion on the voice becomes perceptible to the ear.

Ces estimateurs sont utilisés pour opérer une descente de gradient sur la fonction de cout suivante : J kr = μ E b k t - w T b t 2 + E w T s t 2

Figure imgb0029
These estimators are used to perform a gradient descent on the following cost function: J kr = μ E b k t - w T b t 2 + E w T s t 2
Figure imgb0029

Le gradient de cette fonction vaut : δ J kr = 2 R s + μ R b w - 2 μE b t b k t

Figure imgb0030
The gradient of this function is: δ J kr = 2 R s + μ R b w - 2 mE b t b k t
Figure imgb0030

D'où l'équation de mise à jour : w t = w t - 1 - αδ J kr

Figure imgb0031

où α est un pas d'adaptation proportionnel à 1 x T x .
Figure imgb0032
Hence the update equation: w t = w t - 1 - αδ J kr
Figure imgb0031

where α is a proportional adaptation step to 1 x T x .
Figure imgb0032

Claims (14)

Un procédé de débruitage d'un signal acoustique bruité pour un dispositif audio multi-microphone opérant dans un milieu bruité,
le signal acoustique bruité comprenant une composante utile issue d'une source de parole et une composante parasite de bruit,
ledit dispositif comprenant un réseau de capteurs formé d'une pluralité de capteurs microphoniques (M1 ... M4) disposés selon une configuration prédéterminée et aptes à recueillir le signal bruité,
les capteurs étant regroupés en deux sous-réseaux, avec un premier sous-réseau (R1) de capteurs apte à recueillir une partie haute fréquence du spectre, et un second sous-réseau (R2) de capteurs apte à recueillir une partie basse fréquence du spectre distincte de ladite partie haute fréquence,
ce procédé comportant les étapes suivantes : a) partition du spectre du signal bruité en ladite partie haute fréquence (HF) et ladite partie basse fréquence (BF), par filtrage (10, 16) respectivement au-delà et en deçà d'une fréquence pivot prédéterminée, b) débruitage de chacune des deux parties du spectre avec mise en oeuvre d'un estimateur à algorithme adaptatif ; et c) reconstruction du spectre par combinaison (22) des signaux délivrés après débruitage des deux parties du spectre aux étapes b1) et b2), procédé caractérisé en ce que l'étape b) de débruitage est opérée par des traitements distincts pour chacune des deux parties du spectre, avec : b1) pour la partie haute fréquence, un débruitage exploitant le caractère prédictible du signal utile d'un capteur sur l'autre entre capteurs du premier sous-réseau, au moyen d'un premier estimateur (14) à algorithme adaptatif, et b2) pour la partie basse fréquence, un débruitage par prédiction du bruit d'un capteur sur l'autre entre capteurs du second sous-réseau, au moyen d'un second estimateur (18) à algorithme adaptatif.
A method of denoising a noisy acoustic signal for a multi-microphone audio device operating in a noisy medium,
the noisy acoustic signal comprising a useful component derived from a speech source and a noise noise component,
said device comprising a sensor array formed of a plurality of microphone sensors (M 1 ... M 4 ) arranged in a predetermined configuration and able to collect the noisy signal,
the sensors being grouped into two sub-networks, with a first sub-network (R 1 ) of sensors able to collect a high-frequency part of the spectrum, and a second sub-network (R 2 ) of sensors able to collect a low part spectrum frequency distinct from said high frequency part,
this process comprising the following steps: a) partition of the spectrum of the signal noisy in said high frequency portion (HF) and said low frequency portion (BF), by filtering (10, 16) respectively beyond and below a predetermined pivot frequency, b) denoising each of the two parts of the spectrum with implementation of an adaptive algorithm estimator; and c) reconstruction of the spectrum by combination (22) of the signals delivered after denoising the two parts of the spectrum in steps b1) and b2), characterized in that the denoising step b) is operated by separate treatments for each of the two parts of the spectrum, with: b1) for the high frequency part, a denoising exploiting the predictability of the useful signal from one sensor to the other between sensors of the first sub-network, by means of a first adaptive algorithm estimator (14), and b2) for the low-frequency part, a noise-canceling of the noise of one sensor on the other between sensors of the second sub-network, by means of a second adaptive algorithm estimator (18).
Le procédé de la revendication 1, dans lequel le premier sous-réseau de capteurs (R1) apte à recueillir la partie haute fréquence du spectre comprend un réseau linaire d'au moins deux capteurs (M1, M3, M4) alignés perpendiculairement à la direction (Δ) de la source de parole.The method of claim 1, wherein the first sensor sub-network (R 1) adapted to collect the high frequency part of the spectrum comprises a linear array of at least two sensors (M 1 , M 3 , M 4 ) aligned perpendicular to the direction (Δ) of the speech source. Le procédé de la revendication 1, dans lequel le second sous-réseau de capteurs (R2) apte à recueillir la partie basse fréquence du spectre comprend un réseau linaire d'au moins deux capteurs (M1, M2) alignés parallèlement à la direction (Δ) de la source de parole.The method of claim 1, wherein the second sensor sub-network (R 2) adapted to collect the low-frequency part of the spectrum comprises a linear array of at least two sensors (M 1, M 2) aligned parallel to the direction (Δ) of the speech source. Le procédé de la revendication 2, dans lequel les capteurs (M1, M3, M4) du premier sous-réseau de capteurs (R1) sont des capteurs unidirectionnels orientés dans la direction (Δ) de la source de parole.The method of claim 2, wherein the sensors (M 1 , M 3 , M 4 ) of the first sensor subarray (R 1 ) are unidirectional sensors oriented in the direction (Δ) of the speech source. Le procédé de la revendication 2, dans lequel le traitement de débruitage de la partie haute fréquence du spectre à l'étape b1) est opéré de façon différenciée pour une bande inférieure et une bande supérieure de cette partie haute fréquence, avec sélection de capteurs différents parmi les capteurs du premier sous-réseau (R1), la distance entre les capteurs (M1, M4) sélectionnés pour le débruitage de la bande supérieure étant plus réduite que celle des capteurs (M3, M4) sélectionnés pour le débruitage de la bande inférieure.The method of claim 2, wherein the denoising processing of the high frequency portion of the spectrum in step b1) is differentially performed for a lower band and an upper band of this high frequency portion, with selection of different sensors. among the sensors of the first sub-network (R 1 ), the distance between the sensors (M 1 , M 4 ) selected for the denoising of the upper band being smaller than that of the sensors (M 3 , M 4 ) selected for the denoising the lower band. Le procédé de la revendication 1 comprenant en outre, après l'étape c) de reconstruction du spectre, une étape de : d) réduction sélective du bruit (24) par un traitement de type gain à amplitude log-spectrale modifié optimisé, OM-LSA, à partir du signal reconstruit produit à l'étape c) et d'une probabilité de présence de parole. The method of claim 1 further comprising, after step c) of reconstructing the spectrum, a step of: d) selective noise reduction (24) by optimized modified log-spectral amplitude gain processing, OM-LSA, from the reconstructed signal produced in step c) and a speech presence probability. Le procédé de la revendication 1 dans lequel l'étape b1) de débruitage de la partie haute fréquence, exploitant le caractère prédictible du signal utile d'un capteur sur l'autre, est opérée dans le domaine fréquentiel.The method of claim 1 wherein the step b1) denoising the high frequency part, exploiting the predictability of the useful signal from one sensor to the other, is operated in the frequency domain. Le procédé de la revendication 7 dans lequel l'étape b1) de débruitage de la partie haute fréquence, exploitant le caractère prédictible du signal utile d'un capteur sur l'autre, est opérée par : b11) estimation (34) d'une probabilité de présence de parole (SPP) dans le signal bruité recueilli ; b12) estimation (32) d'une matrice spectrale de covariance des bruits recueillis par les capteurs du premier sous-réseau, cette estimation étant modulée par la probabilité de présence de parole ; b13) estimation (30) de la fonction de transfert des canaux acoustiques entre la source de parole et au moins certains des capteurs du premier sous-réseau, cette estimation étant opérée par rapport à une référence de signal utile constituée par le signal recueilli par l'un des capteurs du premier sous-réseau, et étant en outre modulée par la probabilité de présence de parole ; et b14) calcul (28) d'un projecteur linéaire optimal donnant un signal combiné débruité unique à partir des signaux recueillis par au moins certains des capteurs du premier sous-réseau, de la matrice spectrale de covariance estimée à l'étape b12), et des fonctions de transfert estimées à l'étape b13). The method of claim 7 wherein the step b1) of denoising the high frequency part, exploiting the predictability of the useful signal from one sensor to the other, is operated by: b11) estimating (34) a probability of speech presence (SPP) in the collected noisy signal; b12) estimating (32) a spectral covariance matrix of the noises collected by the sensors of the first sub-array, this estimation being modulated by the probability of presence of speech; b13) estimation (30) of the transfer function of the acoustic channels between the speech source and at least some of the sensors of the first sub-network, this estimation being made with respect to a useful signal reference constituted by the signal collected by the one of the sensors of the first sub-network, and further being modulated by the probability of presence of speech; and b14) calculating (28) an optimal linear projector giving a combined single denoised signal from the signals collected by at least some of the first subarray sensors, the estimated covariance spectral matrix in step b12), and transfer functions estimated in step b13). Le procédé de la revendication 8, dans lequel l'étape b14) de calcul d'un projecteur linéaire optimal (28) est mise en oeuvre par un estimateur de type beamforming à réponse sans distorsion à variance minimale, MVDR.The method of claim 8, wherein step (b14) of computing an optimal linear projector (28) is performed by a minimally variance-minimum distortion-response beamforming estimator, MVDR. Le procédé de la revendication 9, dans lequel l'étape b13) d'estimation de la fonction de transfert des canaux acoustiques (30) est mise en oeuvre par un filtre adaptatif (36, 38, 40) à prédiction linéaire de type moindres carrés moyens, LMS, avec modulation (42) par la probabilité de présence de parole.The method of claim 9, wherein step b13) of estimating the transfer function of the acoustic channels (30) is performed by an adaptive filter (36, 38, 40) with linear least squares prediction means, LMS, with modulation (42) by the probability of presence of speech. Le procédé de la revendication 10, dans lequel ladite modulation par la probabilité de présence de parole est une modulation par variation du pas d'itération du filtre adaptatif LMS.The method of claim 10, wherein said speech presence probability modulation is a variation modulation of the iteration pitch of the LMS adaptive filter. Le procédé de la revendication 1 dans lequel, pour le débruitage de la partie basse fréquence à l'étape b2), la prédiction du bruit d'un capteur sur l'autre est opérée dans le domaine temporel.The method of claim 1 wherein, for denoising the low frequency portion in step b2), the prediction of noise from one sensor to the other is operated in the time domain. Le procédé de la revendication 12, dans lequel la prédiction du bruit d'un capteur sur l'autre est mise en oeuvre par un filtre (44, 46, 48) de type filtre de Wiener multicanal avec pondération par la distorsion de la parole, SDW-MWF.The method of claim 12, wherein the prediction of noise from one sensor to the other is implemented by a filter (44, 46, 48) of Wiener multichannel filter type with speech distortion weighting, SDW-MWF. Le procédé de la revendication 13, dans lequel le filtre SDW-MWF est estimé de manière adaptative par un algorithme de descente de gradient.The method of claim 13, wherein the SDW-MWF filter is adaptively estimated by a gradient descent algorithm.
EP13171948.6A 2012-06-26 2013-06-14 Method for suppressing noise in an acoustic signal for a multi-microphone audio device operating in a noisy environment Active EP2680262B1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1256049A FR2992459B1 (en) 2012-06-26 2012-06-26 METHOD FOR DEBRUCTING AN ACOUSTIC SIGNAL FOR A MULTI-MICROPHONE AUDIO DEVICE OPERATING IN A NOISE MEDIUM

Publications (2)

Publication Number Publication Date
EP2680262A1 true EP2680262A1 (en) 2014-01-01
EP2680262B1 EP2680262B1 (en) 2015-05-13

Family

ID=47227906

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13171948.6A Active EP2680262B1 (en) 2012-06-26 2013-06-14 Method for suppressing noise in an acoustic signal for a multi-microphone audio device operating in a noisy environment

Country Status (4)

Country Link
US (1) US9338547B2 (en)
EP (1) EP2680262B1 (en)
CN (1) CN103517185B (en)
FR (1) FR2992459B1 (en)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011027005A2 (en) * 2010-12-20 2011-03-10 Phonak Ag Method and system for speech enhancement in a room
DK2856183T3 (en) * 2012-05-31 2019-05-13 Univ Mississippi SYSTEMS AND METHODS FOR REGISTERING TRANSIENT ACOUSTIC SIGNALS
JP6349899B2 (en) * 2014-04-14 2018-07-04 ヤマハ株式会社 Sound emission and collection device
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
EP3230981B1 (en) 2014-12-12 2020-05-06 Nuance Communications, Inc. System and method for speech enhancement using a coherent to diffuse sound ratio
WO2016179211A1 (en) * 2015-05-04 2016-11-10 Rensselaer Polytechnic Institute Coprime microphone array system
US9691238B2 (en) * 2015-07-29 2017-06-27 Immersion Corporation Crowd-based haptics
EP3171613A1 (en) * 2015-11-20 2017-05-24 Harman Becker Automotive Systems GmbH Audio enhancement
DE102015016380B4 (en) * 2015-12-16 2023-10-05 e.solutions GmbH Technology for suppressing acoustic interference signals
CN107045874B (en) * 2016-02-05 2021-03-02 深圳市潮流网络技术有限公司 Non-linear voice enhancement method based on correlation
CN106289506B (en) * 2016-09-06 2019-03-05 大连理工大学 A method of flow field wall surface microphone array noise signal is eliminated using POD decomposition method
US9906859B1 (en) * 2016-09-30 2018-02-27 Bose Corporation Noise estimation for dynamic sound adjustment
US10446171B2 (en) * 2016-12-23 2019-10-15 Synaptics Incorporated Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
CN107910011B (en) * 2017-12-28 2021-05-04 科大讯飞股份有限公司 Voice noise reduction method and device, server and storage medium
CN108074585A (en) * 2018-02-08 2018-05-25 河海大学常州校区 A kind of voice method for detecting abnormality based on sound source characteristics
CN108449687B (en) * 2018-03-13 2019-04-26 江苏华腾智能科技有限公司 A conference system with multi-microphone array noise reduction
CN108564963B (en) * 2018-04-23 2019-10-18 百度在线网络技术(北京)有限公司 Method and apparatus for enhancing voice
CN108831495B (en) * 2018-06-04 2022-11-29 桂林电子科技大学 Speech enhancement method applied to speech recognition in noise environment
CN109949810B (en) * 2019-03-28 2021-09-07 荣耀终端有限公司 A voice wake-up method, device, equipment and medium
US11900730B2 (en) * 2019-12-18 2024-02-13 Cirrus Logic Inc. Biometric identification
CN111028857B (en) * 2019-12-27 2024-01-19 宁波蛙声科技有限公司 Method and system for reducing noise of multichannel audio-video conference based on deep learning
TWI789577B (en) * 2020-04-01 2023-01-11 同響科技股份有限公司 Method and system for recovering audio information
CN111447524A (en) * 2020-04-22 2020-07-24 东莞市猎声电子科技有限公司 Multi-frequency-division independent processing noise reduction earphone and noise reduction method thereof
CN114822571B (en) * 2021-04-25 2024-11-15 美的集团(上海)有限公司 Echo cancellation method, device, electronic device and storage medium
CN115223582B (en) * 2021-12-16 2024-01-30 广州汽车集团股份有限公司 Audio noise processing method, system, electronic device and medium
US11948547B2 (en) * 2021-12-17 2024-04-02 Hyundai Motor Company Information quantity-based reference sensor selection and active noise control using the same
CN115840120B (en) * 2023-02-24 2023-04-28 山东科华电力技术有限公司 A high-voltage cable partial discharge abnormal monitoring and early warning method

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030040908A1 (en) * 2001-02-12 2003-02-27 Fortemedia, Inc. Noise suppression for speech signal in an automobile
EP1640971A1 (en) * 2004-09-23 2006-03-29 Harman Becker Automotive Systems GmbH Multi-channel adaptive speech signal processing with noise reduction
WO2008104446A2 (en) * 2008-02-05 2008-09-04 Phonak Ag Method for reducing noise in an input signal of a hearing device as well as a hearing device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280072B2 (en) * 2003-03-27 2012-10-02 Aliphcom, Inc. Microphone array with rear venting
CN100571295C (en) * 2005-08-02 2009-12-16 明基电通股份有限公司 Mobile device and method capable of reducing microphone noise
US8488803B2 (en) * 2007-05-25 2013-07-16 Aliphcom Wind suppression/replacement component for use with electronic systems
US8321214B2 (en) * 2008-06-02 2012-11-27 Qualcomm Incorporated Systems, methods, and apparatus for multichannel signal amplitude balancing
FR2945696B1 (en) * 2009-05-14 2012-02-24 Parrot METHOD FOR SELECTING A MICROPHONE AMONG TWO OR MORE MICROPHONES, FOR A SPEECH PROCESSING SYSTEM SUCH AS A "HANDS-FREE" TELEPHONE DEVICE OPERATING IN A NOISE ENVIRONMENT.
KR101782050B1 (en) * 2010-09-17 2017-09-28 삼성전자주식회사 Apparatus and method for enhancing audio quality using non-uniform configuration of microphones
FR2976710B1 (en) * 2011-06-20 2013-07-05 Parrot DEBRISING METHOD FOR MULTI-MICROPHONE AUDIO EQUIPMENT, IN PARTICULAR FOR A HANDS-FREE TELEPHONY SYSTEM

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030040908A1 (en) * 2001-02-12 2003-02-27 Fortemedia, Inc. Noise suppression for speech signal in an automobile
EP1640971A1 (en) * 2004-09-23 2006-03-29 Harman Becker Automotive Systems GmbH Multi-channel adaptive speech signal processing with noise reduction
WO2008104446A2 (en) * 2008-02-05 2008-09-04 Phonak Ag Method for reducing noise in an input signal of a hearing device as well as a hearing device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MCCOWAN I A ET AL: "Adaptive parameter compensation for robust hands-free speech recognition using a dual beamforming microphone array", 2 May 2001, INTELLIGENT MULTIMEDIA, VIDEO AND SPEECH PROCESSING, 2001. PROCEEDINGS OF 2001 INTERNATIONAL SYMPOSIUM ON 2-4 MAY 2001, PISCATAWAY, NJ, USA,IEEE, PAGE(S) 547 - 550, ISBN: 978-962-85766-2-3, XP010544783 *

Also Published As

Publication number Publication date
CN103517185B (en) 2018-09-21
CN103517185A (en) 2014-01-15
EP2680262B1 (en) 2015-05-13
US9338547B2 (en) 2016-05-10
US20130343558A1 (en) 2013-12-26
FR2992459B1 (en) 2014-08-15
FR2992459A1 (en) 2013-12-27

Similar Documents

Publication Publication Date Title
EP2680262B1 (en) Method for suppressing noise in an acoustic signal for a multi-microphone audio device operating in a noisy environment
EP2538409B1 (en) Noise reduction method for multi-microphone audio equipment, in particular for a hands-free telephony system
EP2530673B1 (en) Audio device with suppression of noise in a voice signal using a fractional delay filter
EP2293594B1 (en) Method for filtering lateral non stationary noise for a multi-microphone audio device
EP2309499B1 (en) Method for optimised filtering of non-stationary interference captured by a multi-microphone audio device, in particular a hands-free telephone device for an automobile.
EP2122607B1 (en) Method for the active reduction of sound disturbance
US7761291B2 (en) Method for processing audio-signals
EP2430825B1 (en) Method for selecting a microphone among a plurality of microphones in a speech processing system such as a hands-free telephone device operating in a noisy environment
EP2772916B1 (en) Method for suppressing noise in an audio signal by an algorithm with variable spectral gain with dynamically adaptive strength
EP2518724A1 (en) Microphone/headphone audio headset comprising a means for suppressing noise in a speech signal, in particular for a hands-free telephone system
US20130216064A1 (en) Multi-beam sound system
EP0884926B1 (en) Method and device for optimized processing of an interfering signal when recording sound
FR2906070A1 (en) Electronic voice signal preprocessing system for hands free mobile telephone, has non coherent filtering stage filtering output of coherent filtering stage such that signal is successively subjected to coherent and non coherent filterings
EP3025342B1 (en) Method for suppressing the late reverberation of an audible signal
Kim et al. Probabilistic spectral gain modification applied to beamformer-based noise reduction in a car environment
FR2906071A1 (en) Electronic filter e.g. non-coherent filter, for e.g. hands-free mobile phone in vehicle, has control section limiting calibration gain such that variation threshold of calibration gain does not exceed preset variation threshold
WO2017207286A1 (en) Audio microphone/headset combination comprising multiple means for detecting vocal activity with supervised classifier
CN113782046A (en) Microphone array pickup method and system for remote speech recognition
EP1155497B1 (en) Antenna treatment method and system
Plucienkowski et al. Combined front-end signal processing for in-vehicle speech systems.
WO2022207994A1 (en) Estimating an optimized mask for processing acquired sound data
Pathrose et al. Enhancement of speech through source separation for conferencing systems.
Zhang et al. Speech enhancement based on a combined multi-channel array with constrained iterative and auditory masked processing
FR2828326A1 (en) Teleconference hands free communication echo attenuation having multisensor/sound pick up and output signals complex weighting factors subjected maximising low frequency/near field constraints.
FR2878399A1 (en) Soundproofing device for e.g. global system for mobile communication system, of e.g. car, has units to apply weight function to coherence between signals captured by microphones, to limit voice signal distortion and suppress estimated noise

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20130617

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

RBV Designated contracting states (corrected)

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

GRAP Despatch of communication of intention to grant a patent

Free format text: ORIGINAL CODE: EPIDOSNIGR1

INTG Intention to grant announced

Effective date: 20141217

GRAS Grant fee paid

Free format text: ORIGINAL CODE: EPIDOSNIGR3

GRAA (expected) grant

Free format text: ORIGINAL CODE: 0009210

AK Designated contracting states

Kind code of ref document: B1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

REG Reference to a national code

Ref country code: GB

Ref legal event code: FG4D

Free format text: NOT ENGLISH

REG Reference to a national code

Ref country code: CH

Ref legal event code: EP

REG Reference to a national code

Ref country code: IE

Ref legal event code: FG4D

Free format text: LANGUAGE OF EP DOCUMENT: FRENCH

REG Reference to a national code

Ref country code: AT

Ref legal event code: REF

Ref document number: 727090

Country of ref document: AT

Kind code of ref document: T

Effective date: 20150615

REG Reference to a national code

Ref country code: DE

Ref legal event code: R096

Ref document number: 602013001738

Country of ref document: DE

Effective date: 20150625

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 3

REG Reference to a national code

Ref country code: NL

Ref legal event code: T3

REG Reference to a national code

Ref country code: AT

Ref legal event code: MK05

Ref document number: 727090

Country of ref document: AT

Kind code of ref document: T

Effective date: 20150513

REG Reference to a national code

Ref country code: LT

Ref legal event code: MG4D

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: ES

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: HR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: PT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150914

Ref country code: LT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: NO

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150813

Ref country code: FI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: RS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: BG

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150813

Ref country code: AT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: LV

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: GR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150814

Ref country code: IS

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150913

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: DK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: EE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

REG Reference to a national code

Ref country code: DE

Ref legal event code: R097

Ref document number: 602013001738

Country of ref document: DE

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: CZ

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: MC

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: RO

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150513

Ref country code: PL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: SK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

PLBE No opposition filed within time limit

Free format text: ORIGINAL CODE: 0009261

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT

REG Reference to a national code

Ref country code: IE

Ref legal event code: MM4A

26N No opposition filed

Effective date: 20160216

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: IE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150614

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SI

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 4

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MT

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

REG Reference to a national code

Ref country code: DE

Ref legal event code: R081

Ref document number: 602013001738

Country of ref document: DE

Owner name: PARROT AUTOMOTIVE, FR

Free format text: FORMER OWNER: PARROT, PARIS, FR

REG Reference to a national code

Ref country code: CH

Ref legal event code: PL

REG Reference to a national code

Ref country code: NL

Ref legal event code: PD

Owner name: PARROT AUTOMOTIVE; FR

Free format text: DETAILS ASSIGNMENT: CHANGE OF OWNER(S), ASSIGNMENT; FORMER OWNER NAME: PARROT

Effective date: 20170125

REG Reference to a national code

Ref country code: FR

Ref legal event code: TP

Owner name: PARROT AUTOMOTIVE, FR

Effective date: 20170106

REG Reference to a national code

Ref country code: GB

Ref legal event code: 732E

Free format text: REGISTERED BETWEEN 20170223 AND 20170303

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LI

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160630

Ref country code: CH

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20160630

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: HU

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT; INVALID AB INITIO

Effective date: 20130614

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 5

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SE

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

Ref country code: CY

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: BE

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150630

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: TR

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: LU

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20150614

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: SM

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

REG Reference to a national code

Ref country code: FR

Ref legal event code: PLFP

Year of fee payment: 6

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: MK

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: AL

Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT

Effective date: 20150513

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: NL

Payment date: 20190619

Year of fee payment: 7

REG Reference to a national code

Ref country code: NL

Ref legal event code: MM

Effective date: 20200701

PG25 Lapsed in a contracting state [announced via postgrant information from national office to epo]

Ref country code: NL

Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES

Effective date: 20200701

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: IT

Payment date: 20230523

Year of fee payment: 11

Ref country code: FR

Payment date: 20230523

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: GB

Payment date: 20230523

Year of fee payment: 11

PGFP Annual fee paid to national office [announced via postgrant information from national office to epo]

Ref country code: DE

Payment date: 20240521

Year of fee payment: 12