WO1999027523A1 - Method for reconstructing sound signals after noise abatement - Google Patents
Method for reconstructing sound signals after noise abatement Download PDFInfo
- Publication number
- WO1999027523A1 WO1999027523A1 PCT/FR1998/002491 FR9802491W WO9927523A1 WO 1999027523 A1 WO1999027523 A1 WO 1999027523A1 FR 9802491 W FR9802491 W FR 9802491W WO 9927523 A1 WO9927523 A1 WO 9927523A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- frames
- frame
- signal
- denoising
- lgtrame
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000005236 sound signal Effects 0.000 title claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 18
- 238000005520 cutting process Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 6
- 230000003071 parasitic effect Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000405147 Hermes Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Definitions
- the present invention relates to a method of reconstruction, after denoising, of sound signals.
- the noises result from the engines, from the air conditioning, from the ventilation of the on-board equipment or from the aerodynamic noises. All these noises are picked up, at least partially, by the microphone in which the pilot or another member of the crew speaks.
- one of the characteristics of the noises is to be very variable over time. Indeed, they are very dependent on the engine operating regime (take-off phase, stabilized regime, etc.).
- the useful signals that is to say the signals representing the conversations, also have peculiarities: they are most often of short duration.
- voicing concerns elementary characteristics of pieces of speech, and more precisely relates to vowels, as well as part of the consonants: "b", “d”, “g”, “j”, etc. These letters are characterized by an audiophonic signal of pseudo-periodic structure.
- speech processing it is usual to consider that stationary regimes, in particular the aforementioned voicing, are established over durations of between 10 and 20 ms. This time interval is characteristic of the elementary phenomena of speech production and will be referred to as a frame below.
- These methods generally include the following main steps: splitting the audio signal to be denoised into frames, processing these frames by a Fourier transform operation (or a similar transform) to pass into the frequency domain including appropriate windowing such than a Hanning windowing, the denoising processing proper by digital filtering, and a processing, dual of the first, by an inverse Fourier transform, to return to the time domain and reconstruct the denoised signal.
- a Fourier transform operation or a similar transform
- the frame signals are not “continuously evolving" signals, but discrete signals obtained by sampling. It is assumed that the signals are sampled at period *, before digital processing. It is common to then consider 2 P samples for a signal frame, choosing p so that the value 2 ⁇ x e is of the order of magnitude of the duration D of a frame.
- p the value of the duration of a frame.
- frames of 12.8 ms are often chosen, so that 128 points are available for each frame, which constitutes a power of two.
- the number of samples corresponding to a frame will be noted below LGtrame.
- D LGframe x T ", is therefore satisfied.
- S (t) is the useful signal (speech signal, for example) and x (t) the noise signal.
- the process includes three phases:
- a phase of division into frames itself comprising two stages: the digitization of the signal u (t) and the storage in buffer memory (stage 10), and the division of the original signal into frames of length LG frame and the reading of these frames (step 11);
- a denoising phase 2 itself comprising two stages: the application of a Fourier transform or an equivalent transform to pass into the frequency domain (step 20) on a series of input frame Tel (i varying from 1 to N, maximum number of frames in the sequence) and digital filtering which performs the actual denoising (step 21) and:
- a signal reconstruction phase 3 by applying an inverse Fourier transform or, more generally, a dual transform of the first (step 22), which generates a series of output frames Tsj ..
- the useful signal s '(t) is recovered at the end of phase 3. In reality, this signal has been referenced s' (t) and not s (t), since it is an "estimated” signal and not of the exact useful signal s (t) which would be extracted from the noisy signal u (t). It contains errors with respect to the exact value of the signal s (t), the rate of which fluctuates over time.
- the actual denoising operation (step 21) is advantageously carried out using an optimal Wiener filter.
- This filter has the advantage of treating each frame, a priori, differently from the previous frame and from the following frame.
- Wiener filters are described in the following books, to which one can profitably refer:
- equation (1) shows that the parameters of the Wiener filter vary from one frame to another, since if the numerator of the second term is fixed for a finite number of frames, the denominator is variable.
- connection of these frames can be done simply by "joining" the noisy frames one after the other, the reconstruction phase then being limited to the application of the inverse Fourier transform.
- edge effects due in particular to the various Fourier transforms, which are not totally reduced by the prior application of windowing (Hanning for example) preceding the application of the direct Fourier transform.
- the filters used to denoise each of the frames are different, as just indicated. There can therefore be no “continuity" of the denoised signal.
- Wiener filter which has certain advantages (differentiated processing of the frames), is therefore not free from drawbacks either.
- FIG. 2 is a diagram illustrating the parasitic effect of the edge effects.
- a simple noisy signal which is in the form of a sum of two sinusoidal functions, the edge effects are manifested by energy peaks at the ends of the two frames of this test signal.
- the two sines verify the assertions below: - for the useful signal: s (t) ⁇ sin (2 ⁇ .l0 t);
- the vertical axis of the diagram in FIG. 2 gives the amplitude of the error present in the output signal and the horizontal axis the duration of the signal in number of samples.
- Two frames, called “Frame 1" and “Frame 2" were represented, making a total of 256 samples.
- the curve shows, in this particular example, mean amplitude fluctuations, of the order of ⁇ 15%, around the zero value, and large amplitude peaks, greater than ⁇ 50% of the useful signal. These peaks are due to edge effects, in the "connection" areas between frames.
- the invention sets itself the aim, while retaining the advantages of the methods according to the known art, of overcoming the disadvantages, and in particular of avoiding the abovementioned side effects. It makes it possible, more generally, to minimize the residual error remaining between the noise-suppressed signal generated, that is to say "estimated", and the real non-noisy signal.
- It relates to a method of reconstructing a sound signal, after a double cutting into frames of the noisy sound signal so as to obtain two sets of frames offset by a fraction of frame length and denoising of each of the two sets of frames , consisting in operating a windowing operation on each of the two sequences of frames after they have been denoised and before they are summed to provide the final denoised sound signal.
- the windowing produced during the reconstruction operation on each of the two series of frames after denoising is such that the summation of windowed frames gives a result always equal to unity, regardless of the rank of the frame in one or the other of the two sequences.
- the weighting window used on the two denoised frame sequences is of the “cosine” function type g (k) and obeys the following relationship:
- a denoising processing of noisy sound signals consisting of so-called useful sound signals mixed with noise signals comprises the following different steps:
- the invention also relates to the application of this reconstruction method to speech processing.
- FIG. 1 is a block diagram illustrating the main phases and steps of an example of method for denoising a noisy signal according to known art
- FIG. 2 is a diagram illustrating the error remaining on a particular noisy signal, error due to parasitic effects generated by the method of Figure 1;
- FIG. 3 is a block diagram illustrating the main phases and steps of an example of denoising processing of a noisy signal implementing the reconstruction method according to the invention
- - Figure 4 illustrates the double cutting into frames used in the denoising treatment illustrated in the previous figure
- FIG. 5 illustrates a cosine function used as a weighting window in a preferred embodiment of the reconstruction method according to the invention
- FIG. 6 schematically illustrates the final step of summing the two series of frames used in the reconstruction method according to the invention
- FIG. 7 is a diagram showing the effect of the steps for weighting by windowing and for summing the two series of frames used in the reconstruction method according to the invention
- - And Figure 8 is a diagram illustrating the error remaining on the particular noisy signal of Figure 2, processed by the reconstruction method according to the invention.
- the signal u (t) to be processed is firstly digitized and stored in a buffer memory. Then the processing chain is split into two parallel paths, each of these paths being associated, in FIG. 3, with the indices "a” and "b", respectively.
- Each of the channels takes up most of the phases and stages of denoising processing according to the prior art: cutting into frames, denoising and reconstruction of the signal. Consequently, the basic processing operations will only be re-described as necessary. More specifically, the left channel (in Figure 3), arbitrarily associated with the index "a”, is strictly identical to the processing chain shown in Figure 1.
- the right channel (in Figure 3) arbitrarily associated with the index "b” comprises an additional step which will be described below.
- a final step of reconstruction of the denoised signal makes it possible to recombine the signals obtained following the two series of denoising processing carried out in parallel.
- the first phase of the denoising treatment consists of a double cutting into frames (blocks 4a and 4b).
- a first step (40a and 40b) consists in storing the digital samples obtained in two buffer memories , 40a and 40b, of the "FIFO" type ("First In, First Out", that is to say "first in, first out”).
- the second step (42a and 42b) of this phase consists in cutting the original signal into frames of length LGframe and in reading these frames.
- the first series of frames represents the division into frames of length LGframe of the original signal u (t): series of Tel frames, said to be input for the denoising phase by block 5a.
- the formation of the second series of frames begins with the reading of an initial frame of length less than LGframe (step 41b): let ⁇ its duration.
- This frame is not useful, in the sense that it will not be taken into account for the continuation of the operations, but it is decisive for obtaining a "shift" of the two sequences of frames.
- the reading continues taking into account again frames of length LGframe: continuation of the frames T'ei, said to be input for the denoising phase by the block 5b.
- FIG. 4 is a diagram which illustrates the double cutting which has just been described.
- the first five frames of the first series of frames are shown: Tei to Tes, all of identical length equal to LGframe (first cutting).
- the first five frames of the second sequence are shown: T •, Te 'i to Te' 4.
- the frame T ' is particular. It is obtained in step 41b, by reading a frame of length ⁇ , ie a fraction of frame length LGframe equal to [Ltrame / x].
- the other frames, Te '1 to Te' 4 are again frames of length LGframe (second cutting).
- the frame T ' is eliminated from the subsequent processing.
- an "offset" equal to ⁇ or [LGtrame / x].
- the notion of "offset” does not mean a recopy in time of the frames of the first sequence.
- the start of the frame Te'i corresponds to the amplitude of the signal u (t) at the instant to + ⁇ (with to arbitrary initial instant), while the start of the frame Tei corresponds to the amplitude of the signal u (t) at time t ⁇ in both cases after digitization.
- This denoising phase is based on a modification of the frequency components of the signal to be processed. It generally involves a passage into the frequency domain by means of a fast Fourier transform or the like (steps 50a or 50b), an actual denoising operation (steps 51a and 51b) by digital filtering, advantageously of the Wiener type, and a return to the time domain by an inverse Fourier transform or the like (step 52a or 512b).
- the denoising processing is done not only on the original signal, that is to say on the sequence of Tel frames, but also on the "shifted" signal, that is to say on the sequence of frames You.
- the offset between these two signals is variable and can in particular be fixed as a function of the desired response time.
- This time offset ⁇ induced by the reading of an initial frame during the creation of the second series of samples, can advantageously be represented in the form of the whole part of a fraction of LGTRAME:
- the last phase of the process consists in reconstructing the signal s' (t) free of noise.
- the first step, 60a or 60b consists of windowing which is carried out independently on each frame of the two suites.
- the weighting window used has specific characteristics which will be specified below.
- the initial frame T 1 is exactly half a frame length, ie [LGtrame / 2].
- the frames of the two suites therefore overlap by half.
- the function describing the window, and used for weighting is a cosine function as shown in the diagram in FIG. 5.
- a frame comprises 128 samples
- the horizontal axis of the diagram is graduated in number nd • samples.
- LGframe g l (k) the part of g (k) for k and (4)
- the denoised signal segments are added (step 61) as shown diagrammatically in FIG. 6.
- a half-frame weighted by the first part (gi (k)) of the cosine window is added with a half-frame weighted by the second part (g2 (k)) of this same window.
- the noisy frames, at the weighting and summation outputs, are referenced TDli, TD2i and TDi with regard to the first sequence (cutting 1), the second sequence (cutting 2) and the result of the summing, respectively.
- the signal resulting from the summation constitutes the sought-after denoised signal s' (t).
- the summation process is therefore as follows: the first half-frame TDm is equal to the sum of the first half-frame TDlm and the second half-frame TDm-i, the second half-frame TDm is equal to the sum of the second half-frame TDlm and the first half-frame TD and so on, until all the frames are processed if it is a signal u (t) of finite length . Otherwise, the process is continuous.
- FIG. 8 is a diagram illustrating the result of the summation of the two weighting windows g ⁇ (k) and 92 (k) in accordance with the remarkable property which links them (equation (6)).
- the cosine weighting window (equation (3)) thus makes it possible to cancel the edge effects at the ends of each frame.
- the signal is therefore correctly denoised, while eliminating the parasitic effects observed in the processes of the known art.
- the weighting function is not limited to the only cosine type function, although this function has the advantage of gentle variations.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Abstract
The invention concerns a method which is applied to a noise abatement process of a sound signal starting with a digitisation followed by a splitting (4a, 4b) of the noisy signals (u(t) into two frame sequences. The frames (Tei) of the first sequence are all identical. The first frame of the second sequence has a length equal to a half-frame, the other frames (T'ei) being of the same length as those of the first sequence (Tei), so as to obtain a half-frame shift. The frames of each sequence (Tei, Tei) are noise-corrected by applying a Fourier transform (50a, 50b), a Wiener filtering (51a, 51b), and an inverse Fourier transform (52a, 52b). It consists in weighting the frames of the two sequences (60a, 60b) through a cosine window and summing them (61) so as to reconstruct the noise-free signals (s'(t).
Description
PROCEDE DE RECONSTRUCTION, APRES DEBRUITAGE, DE METHOD FOR RECONSTRUCTION, AFTER NOISING, OF
SIGNAUX SONORESSOUND SIGNALS
La présente invention concerne un procédé de reconstruction, après débruitage, de signaux sonores.The present invention relates to a method of reconstruction, after denoising, of sound signals.
Elle s ' incrit plus particulièrement dans le cadre du débruitage de signaux sonores contenant de la parole captée en milieux bruités. Elle trouve une application principale, bien que non exclusive, dans le cadre des communications téléphoniques ou radiotéléphoniques, de la reconnaissance vocale, de la prise de son à bord d'aéronefs civils ou militaires, et de façon plus générale de tous véhicules bruyants, d' intercommunications de bord, etc.It is more particularly in the context of the denoising of sound signals containing speech picked up in noisy environments. It finds a main application, although not exclusive, in the context of telephone or radiotelephone communications, voice recognition, sound recording on board civil or military aircraft, and more generally all noisy vehicles, d on-board intercoms, etc.
A titre d'exemple non limitatif, dans le cas d'un aéronef, les bruits résultent des moteurs, de la climatisation, de la ventilation des équipements de bord ou des bruits aérodynamiques. Tous ces bruits sont captés, au moins partiellement, par le microphone dans lequel parle le pilote ou un autre membre de l'équipage. En outre, pour ce type d'application en particulier, une des caractéristiques des bruits est d'être très variables dans le temps. En effet, ils sont très dépendant du régime de fonctionnement des moteurs (phase de décollage, régime stabilisé, etc.). Les signaux utiles, c'est-à-dire les signaux représentant les conversations, présentent également des particularités : ils sont le plus souvent de brève durée.By way of nonlimiting example, in the case of an aircraft, the noises result from the engines, from the air conditioning, from the ventilation of the on-board equipment or from the aerodynamic noises. All these noises are picked up, at least partially, by the microphone in which the pilot or another member of the crew speaks. In addition, for this type of application in particular, one of the characteristics of the noises is to be very variable over time. Indeed, they are very dependent on the engine operating regime (take-off phase, stabilized regime, etc.). The useful signals, that is to say the signals representing the conversations, also have peculiarities: they are most often of short duration.
Enfin, quelle que soit l'application envisagée, si on s'intéresse au "voisement", on peut mettre en évidence certaines particularités. Comme il est connu, le voisement concerne des caractéristiques élémentaires de morceaux de parole, et plus précisément concerne les voyelles, ainsi qu'une partie des consonnes : "b", "d", "g", "j", etc. Ces lettres se caractérisent par un signal audiophonique de structure pseudo-périodique.
En traitement de la parole, il est usuel de considérer que les régimes stationnaires, notamment le voisement précité, s'établissent sur des durées comprises entre 10 et 20 ms. Cet intervalle de temps est caractéristique des phénomènes élémentaires de la production de la parole et sera dénommé trame ci-après.Finally, whatever the application envisaged, if one is interested in "voicing", one can highlight certain particularities. As is known, voicing concerns elementary characteristics of pieces of speech, and more precisely relates to vowels, as well as part of the consonants: "b", "d", "g", "j", etc. These letters are characterized by an audiophonic signal of pseudo-periodic structure. In speech processing, it is usual to consider that stationary regimes, in particular the aforementioned voicing, are established over durations of between 10 and 20 ms. This time interval is characteristic of the elementary phenomena of speech production and will be referred to as a frame below.
Aussi, il est usuel que les procédé de débruitage prennent en compte cette caractéristique importante des signaux sonores comprenant de la parole.Also, it is usual for denoising methods to take into account this important characteristic of sound signals comprising speech.
Ces procédés comprennent généralement les étapes principales suivantes : un découpage en trames du signal audiophonique à dêbruiter, le traitement de ces trames par une opération de transformée de Fourier (ou d'une transformée similaire) pour passer dans le domaine fréquentiel incluant un fenêtrage approprié tel qu'un fenêtrage de Hanning, le traitement de débruitage proprement dit par filtrage numérique, et un traitement, dual du premier, par une transformée de Fourier inverse, pour revenir dans le domaine temporel et reconstruire le signal débruité.These methods generally include the following main steps: splitting the audio signal to be denoised into frames, processing these frames by a Fourier transform operation (or a similar transform) to pass into the frequency domain including appropriate windowing such than a Hanning windowing, the denoising processing proper by digital filtering, and a processing, dual of the first, by an inverse Fourier transform, to return to the time domain and reconstruct the denoised signal.
Dans la pratique, on met en oeuvre des techniques numériques. Aussi, les signaux de trame ne sont pas des signaux à "évolution continue", mais des signaux discrets, obtenus par échantillonnage. On suppose que les signaux sont échantillonnés à la période *, avant traitement numérique. Il est courant de considérer alors 2P échantillons pour une trame de signal, en choisissant p de manière à ce que la valeur 2^x e soit de l'ordre grandeur de la durée D d'une trame. A titre d'exemple, pour une fréquence d'échantillonnage de 10 kHz, on choisit souvent des trames de 12,8 ms, de manière à pouvoir disposer de 128 points pour chaque trame, ce qui constitue une puissance de deux. Le nombre d'échantillons correspondant à une trame sera noté ci-après LGtrame. La relation suivante : D = LGtramex T«, est donc satisfaite.
La figure 1 placée en annexe de la présente description illustre les étapes d'un procédé de débruitage d'un signal bruité u(t) = s(t) + x(t) , selon l'art connu et conforme à ce qui vient d'être rappelé. S(t) est le signal utile (signal de parole, par exemple) et x(t) le signal de bruit. Le procédé comprend trois phases :In practice, digital techniques are used. Also, the frame signals are not "continuously evolving" signals, but discrete signals obtained by sampling. It is assumed that the signals are sampled at period *, before digital processing. It is common to then consider 2 P samples for a signal frame, choosing p so that the value 2 ^ x e is of the order of magnitude of the duration D of a frame. By way of example, for a sampling frequency of 10 kHz, frames of 12.8 ms are often chosen, so that 128 points are available for each frame, which constitutes a power of two. The number of samples corresponding to a frame will be noted below LGtrame. The following relation: D = LGframe x T ", is therefore satisfied. Figure 1 placed in the appendix to this description illustrates the steps of a denoising process of a noisy signal u (t) = s (t) + x (t), according to known art and in accordance with what comes to be called back. S (t) is the useful signal (speech signal, for example) and x (t) the noise signal. The process includes three phases:
- une phase de découpage en trames 1, comprenant elle- même deux étapes : la numérisation du signal u(t) et le stockage en mémoire tampon (étape 10) , et le découpage du signal original en trames de longueur LGtrame et la lecture de ces trames (étape 11) ;a phase of division into frames 1, itself comprising two stages: the digitization of the signal u (t) and the storage in buffer memory (stage 10), and the division of the original signal into frames of length LG frame and the reading of these frames (step 11);
- une phase de débruitage 2, comprenant elle-même deux étapes : l'application d'un transformée de Fourier ou une transformée équivalente pour passer dans le domaine fréquentiel (étape 20) sur une suite de trame d'entrée Tel (i variant de 1 à N, nombre maximum de trame de la suite) et un filtrage numérique qui réalise le débruitage proprement dit (étape 21) et :- a denoising phase 2, itself comprising two stages: the application of a Fourier transform or an equivalent transform to pass into the frequency domain (step 20) on a series of input frame Tel (i varying from 1 to N, maximum number of frames in the sequence) and digital filtering which performs the actual denoising (step 21) and:
- une phase de reconstruction du signal 3, par application d'une transformée de Fourier inverse ou, de façon plus générale, une transforméee duale de la première (étape 22) , ce qui génère une suite de trame de sortie Tsj..- a signal reconstruction phase 3, by applying an inverse Fourier transform or, more generally, a dual transform of the first (step 22), which generates a series of output frames Tsj ..
Le signal utile s'(t) est récupéré à la fin de la phase 3. En réalité, ce signal a été référencé s'(t) et non s(t) , car il s'agit d'un signal "estimé" et non pas du signal utile exact s(t) qui serait extrait du signal bruité u(t) . Il comporte des erreurs par rapport à la valeur exacte du signal s(t), dont le taux fluctue dans le temps.The useful signal s '(t) is recovered at the end of phase 3. In reality, this signal has been referenced s' (t) and not s (t), since it is an "estimated" signal and not of the exact useful signal s (t) which would be extracted from the noisy signal u (t). It contains errors with respect to the exact value of the signal s (t), the rate of which fluctuates over time.
L'opération de débruitage proprement dite (étape 21) s'effectue avantageusement à l'aide d'un filtre de Wiener optimal. Ce filtre présente l'intérêt de traiter chaque trame, a priori, de façon différente de la trame précédente et de la trame suivante.The actual denoising operation (step 21) is advantageously carried out using an optimal Wiener filter. This filter has the advantage of treating each frame, a priori, differently from the previous frame and from the following frame.
Si on appelle :
- U(n) la transformée de Fourier Discrète du processus aléatoire observé, c'est-à-dire le signal bruité ;If we call: - U (n) the Discrete Fourier transform of the observed random process, ie the noisy signal;
- S(n) la transformée de Fourier Discrète du processus "désiré", à estimer par filtrage linéaire de U(n) ; - X(n) la transformée de Fourier Discrète du bruit additif polluant le signal utile ;- S (n) the Discrete Fourier transform of the "desired" process, to be estimated by linear filtering of U (n); - X (n) the Discrete Fourier transform of the additive noise polluting the useful signal;
- W(z) le filtre d'estimation exprimé dans le domaine fréquentiel ;- W (z) the estimation filter expressed in the frequency domain;
~ Y s(n) la densité spectrale du signal utile ; et : - Y χ(n)la densité spectrale du bruit parasite,~ Y s ( n ) the spectral density of the useful signal; and: - Y χ (n) the spectral density of the parasitic noise,
l'équation décrivant le filtre de Wiener est donnée par la relation suivante :the equation describing the Wiener filter is given by the following relation:
relation dans laquelle : γu(n) = γ χ(n) + γ s(n) (2).relation in which: γ u (n) = γ χ (n) + γ s (n) (2).
A titre d'exemples non limitatifs, des filtres de Wiener sont décrits dans les livres suivants, auxquels on pourra se référer avec profit :By way of nonlimiting examples, Wiener filters are described in the following books, to which one can profitably refer:
- Yves THOMAS : "Signaux et systèmes linéaires", éditions MASSON (1994) ; et- Yves THOMAS: "Signals and linear systems", MASSON editions (1994); and
- François MICHAUT : "Méthodes adaptatives pour le signal", édition HERMES (1992).- François MICHAUT: "Adaptive methods for the signal", HERMES edition (1992).
L'examen de l'équation (1) montre que les paramètres du filtre de Wiener varient d'une trame à l'autre, puisque si le numérateur du second terme est figé pour un nombre de trames fini, le dénominateur est variable.Examination of equation (1) shows that the parameters of the Wiener filter vary from one frame to another, since if the numerator of the second term is fixed for a finite number of frames, the denominator is variable.
En sortie du filtre de Wiener, on dispose donc des trames débruitées une à une, avec des coefficients de
filtrage adaptés à chacune des trames, ce qui constitue un avantage important.At the output of the Wiener filter, there are therefore denoised frames one by one, with coefficients of filtering adapted to each of the frames, which constitutes an important advantage.
Le raccordement de ces trames peut se faire simplement en "accolant" les trames débruitées les unes après les autres, la phase de reconstruction étant alors limitée à l'application de la transformée de Fourier inverse. Cependant, il existe des effets de bords dus notamment aux différentes transformées de Fourier, qui ne sont pas totalement réduits par l'application préalable d'un fenêtrage (Hanning par exemple) précédant l'application de la transformée de Fourier directe. De plus, les filtres utilisés pour débruiter chacune des trames sont différents, comme il vient d'être indiqué. Il ne peut donc pas y avoir "continuité" du signal débruité. L'utilisation d'un filtre de Wiener, qui présente des avantages certains (traitement différentié des trames), n'est donc pas non plus exempte d• inconvénients.The connection of these frames can be done simply by "joining" the noisy frames one after the other, the reconstruction phase then being limited to the application of the inverse Fourier transform. However, there are edge effects due in particular to the various Fourier transforms, which are not totally reduced by the prior application of windowing (Hanning for example) preceding the application of the direct Fourier transform. In addition, the filters used to denoise each of the frames are different, as just indicated. There can therefore be no "continuity" of the denoised signal. The use of a Wiener filter, which has certain advantages (differentiated processing of the frames), is therefore not free from drawbacks either.
La figure 2 est un diagramme illustrant l'effet parasite des effets de bords. Pour fixer les idées, on considère un signal simple bruité qui se présente sous la forme d'une somme de deux fonctions sinusoïdales, les effets de bords se manifestent par des pics énergétiques aux extrémités des deux trames de ce signal de test. Les deux sinus vérifient les assertions ci-dessous : - pour le signal utile : s(t) ≈ sin(2π.l0 t) ;FIG. 2 is a diagram illustrating the parasitic effect of the edge effects. To fix the ideas, we consider a simple noisy signal which is in the form of a sum of two sinusoidal functions, the edge effects are manifested by energy peaks at the ends of the two frames of this test signal. The two sines verify the assertions below: - for the useful signal: s (t) ≈ sin (2π.l0 t);
- pour le bruit : x(t) = 0.5xsin(2π.50t) ;- for noise: x (t) = 0.5xsin (2π.50t);
- un rapport signal à bruit : RSB ≈ 6 dB ; et :- a signal to noise ratio: SNR ≈ 6 dB; and:
- nombre d'échantillon par trame : 128.- number of samples per frame: 128.
L'axe vertical du diagramme de la figure 2 donne l'amplitude de l'erreur présente dans le signal de sortie et l'axe horizontal la durée du signal en nombre d'échantillons. Deux trames, appelées "Trame 1" et "Trame 2" ont été représentées, soit au total 256 échantillons. Pour une amplitude maximale égale à l'unité, la courbe montre,
dans cet exemple particulier, des fluctuations d'amplitude moyenne, de l'ordre de ± 15 %, autour de la valeur zéro, et des pics de grande amplitude, supérieure à ± 50 % du signal utile. Ces pics sont dus aux effets de bords, dans les zones de "raccordements" entre trames.The vertical axis of the diagram in FIG. 2 gives the amplitude of the error present in the output signal and the horizontal axis the duration of the signal in number of samples. Two frames, called "Frame 1" and "Frame 2" were represented, making a total of 256 samples. For a maximum amplitude equal to unity, the curve shows, in this particular example, mean amplitude fluctuations, of the order of ± 15%, around the zero value, and large amplitude peaks, greater than ± 50% of the useful signal. These peaks are due to edge effects, in the "connection" areas between frames.
Pour lutter contre cet effet de bord dans les zones de raccordement entre trames, il est connu de procéder à un double découpage en trames du signal sonore à débruiter, de façon à obtenir deux suites de trames décalées d'une fraction de longueur de trame, de soumettre les deux suites de trames, indépendamment l'une de l'autre, à un traitement de débruitage analogue à celui illustré à la figure 1 puis de sommer les trames des deux suites après débruitage en tenant compte de leur décalage. Ce procédé, bien qu'efficace, laisse subsister des effets de bords résiduels qui font que le signal sonore débruité est encore affecté d'un bruit de traitement gênant.To combat this edge effect in the areas of connection between frames, it is known to carry out a double cutting into frames of the sound signal to be denoised, so as to obtain two series of frames offset by a fraction of frame length, to subject the two series of frames, independently of one another, to a denoising treatment similar to that illustrated in FIG. 1 and then to sum the frames of the two suites after denoising, taking account of their offset. This process, although effective, leaves residual edge effects which make the noise-suppressed sound signal still affected by an annoying processing noise.
L'invention se fixe pour but, tout en conservant les avantages des procédés selon l'art connu, d'en pallier les inconvénients, et en particulier d'éviter les effets de bord précités. Elle permet, de façon plus générale, de minimiser l'erreur résiduelle subsistant entre le signal débruité généré, c'est-à-dire "estimé", et le signal réel non bruité.The invention sets itself the aim, while retaining the advantages of the methods according to the known art, of overcoming the disadvantages, and in particular of avoiding the abovementioned side effects. It makes it possible, more generally, to minimize the residual error remaining between the noise-suppressed signal generated, that is to say "estimated", and the real non-noisy signal.
Elle a pour objet un procédé de reconstruction d'un signal sonore, après un double découpage en trames du signal sonore bruité de façon à obtenir deux suites de trames décalées d'une fraction de longueur de trame et débruitage de chacune des deux suites de trames, consistant à opérer une opération de fenêtrage sur chacune des deux suites de trames après qu'elles aient été débruitées et avant qu'elles ne soient sommées pour fournir le signal sonore final débruité.It relates to a method of reconstructing a sound signal, after a double cutting into frames of the noisy sound signal so as to obtain two sets of frames offset by a fraction of frame length and denoising of each of the two sets of frames , consisting in operating a windowing operation on each of the two sequences of frames after they have been denoised and before they are summed to provide the final denoised sound signal.
Selon une caractéristique importante, le fenêtrage réalisé lors de l'opération de reconstruction sur chacune des deux suites de trames après débruitage est tel que la
sommation des trames fenêtrées donne un résultat toujours égal à l'unité, quel que soit le rang de la trame dans l'une ou l'autre des deux suites.According to an important characteristic, the windowing produced during the reconstruction operation on each of the two series of frames after denoising is such that the summation of windowed frames gives a result always equal to unity, regardless of the rank of the frame in one or the other of the two sequences.
Dans un mode de réalisation préféré, la fenêtre de pondération utilisée sur les deux suites de trames débruitée est du type fonction "cosinus" g(k) et obéit à la relation suivante :In a preferred embodiment, the weighting window used on the two denoised frame sequences is of the “cosine” function type g (k) and obeys the following relationship:
Un traitement de débruitage de signaux sonores bruités constitués de signaux sonores dits utiles mélangés à des signaux de bruit, mettant en oeuvre le procédé de reconstruction selon 1 ' invention comporte les différentes étapes suivantes :A denoising processing of noisy sound signals consisting of so-called useful sound signals mixed with noise signals, implementing the reconstruction method according to the invention comprises the following different steps:
- découpage desdits signaux sonores bruités en deux suites de trames temporelles consécutives, la première suite étant constituée de trames identiques d'une longueur déterminée et la seconde suite étant constituée d'une première trame dont la longueur est une fraction prédéterminée de ladite longueur déterminée, suivie de trames identiques de longueur égale à ladite longueur déterminée, de manière à créer un décalage temporel entre les trames desdites première et seconde suites dont l'amplitude est égale à la longueur de ladite première trame de la secondé suite ; - lectures successives de toutes les trames de ladite première suite et de toutes les trames de ladite seconde suite à l'exception de la première, de manière à conserver ledit décalage ;- splitting of said noisy sound signals into two sequences of consecutive time frames, the first sequence consisting of identical frames of a determined length and the second sequence consisting of a first frame whose length is a predetermined fraction of said determined length, followed by identical frames of length equal to said determined length, so as to create a time difference between the frames of said first and second sequences, the amplitude of which is equal to the length of said first frame of the second sequence; - successive readings of all the frames of said first sequence and of all the frames of said second sequence with the exception of the first, so as to keep said offset;
- débruitage, trame par trame, des trames successivement lues de ladite première suite et des trames successivement lues de ladite seconde suite de manière à extraire des trames débruitées à partir de chacune desdites suites ;
- pondération des trames débruitées desdites première et seconde suites en multipliant chacune de ces trames par une fenêtre de pondération représentant une fonction déterminée, et - sommation des trames pondérées de ladite première suite avec les trames pondérées de ladite seconde suite, ces trames présentant un recouvrement égal à ladite fraction de longueur prédéterminée.- denoising, frame by frame, of the frames successively read from said first sequence and from the frames successively read from said second sequence so as to extract denoised frames from each of said sequences; - weighting of the noisy frames of said first and second sequences by multiplying each of these frames by a weighting window representing a determined function, and - summation of the weighted frames of said first sequence with the weighted frames of said second sequence, these frames having an overlap equal to said fraction of predetermined length.
L'invention a encore pour objet l'application de ce procédé de reconstruction au traitement de la parole.The invention also relates to the application of this reconstruction method to speech processing.
L'invention sera mieux comprise et d'autres caractéristiques et avantages apparaîtront à la lecture de la description qui suit en référence aux figures annexées, parmi lesquelles : - la figure 1 est un bloc diagramme illustrant les principales phases et étapes d'un exemple de procédé de débruitage d'un signal bruité selon l'art connu ;The invention will be better understood and other characteristics and advantages will appear on reading the description which follows with reference to the appended figures, among which: FIG. 1 is a block diagram illustrating the main phases and steps of an example of method for denoising a noisy signal according to known art;
- la figure 2 est un diagramme illustrant l'erreur subsistant sur un signal particulier bruité, erreur due à des effets parasites générés par le procédé de la figure 1 ;- Figure 2 is a diagram illustrating the error remaining on a particular noisy signal, error due to parasitic effects generated by the method of Figure 1;
- la figure 3 est un bloc diagramme illustrant les principales phases et étapes d'un exemple de traitement de débruitage d'un signal bruité mettant en ouvre le procédé de reconstruction selon l'invention ; - la figure 4 illustre le double découpage en trames utilisé dans le traitement de débruitage illustré à la figure précédente ;- Figure 3 is a block diagram illustrating the main phases and steps of an example of denoising processing of a noisy signal implementing the reconstruction method according to the invention; - Figure 4 illustrates the double cutting into frames used in the denoising treatment illustrated in the previous figure;
- la figure 5 illustre une fonction en cosinus utilisée comme fenêtre de pondération dans un mode de réalisation préféré du procédé de reconstruction selon l'invention ;- Figure 5 illustrates a cosine function used as a weighting window in a preferred embodiment of the reconstruction method according to the invention;
- la figure 6 illustre schématiquement l'étape finale de sommation des deux suites de trames mises en oeuvre dans le procédé de reconstruction selon l'invention ;
- la figure 7 est un diagramme montrant l'effet des étapes de pondération par fenêtrage et de sommation des deux suites de trames mises en oeuvre dans le procédé de reconstruction selon 1 ' invention ; - et la figure 8 est un diagramme illustrant l'erreur subsistant sur le signal particulier bruité de la figure 2, traité par le procédé de reconstruction selon l'invention.- Figure 6 schematically illustrates the final step of summing the two series of frames used in the reconstruction method according to the invention; FIG. 7 is a diagram showing the effect of the steps for weighting by windowing and for summing the two series of frames used in the reconstruction method according to the invention; - And Figure 8 is a diagram illustrating the error remaining on the particular noisy signal of Figure 2, processed by the reconstruction method according to the invention.
Un exemple de procédé selon 1 ' invention va maintenant être décrit par référence au diagramme de la figure 3.An example of a process according to the invention will now be described with reference to the diagram in FIG. 3.
Le signal u(t) à traiter, c'est-à-dire à débruiter, est tout d'abord numérisé et, stocké dans une mémoire tampon. Puis la chaîne de traitement est dédoublée en deux voies parallèles, chacune de ces voies étant associée, sur la figure 3, aux indices "a" et "b", respectivement. Chacune des voies reprend l'essentiel des phases et étapes du traitement de débruitage selon l'art connu : découpage en trames, débruitage et reconstruction du signal. En conséquence, les opérations élémentaires de traitement ne seront redécrites qu'en tant que de besoin. De façon plus précise, la voie de gauche (sur la figure 3) , associée arbitrairement à l'indice "a", est strictement identique à la chaîne de traitement représentée sur la figure 1. La voie de droite (sur la figure 3) , associée arbitrairement à l'indice "b" comporte une étape supplémentaire qui sera décrite ci-après.The signal u (t) to be processed, that is to say to denois, is firstly digitized and stored in a buffer memory. Then the processing chain is split into two parallel paths, each of these paths being associated, in FIG. 3, with the indices "a" and "b", respectively. Each of the channels takes up most of the phases and stages of denoising processing according to the prior art: cutting into frames, denoising and reconstruction of the signal. Consequently, the basic processing operations will only be re-described as necessary. More specifically, the left channel (in Figure 3), arbitrarily associated with the index "a", is strictly identical to the processing chain shown in Figure 1. The right channel (in Figure 3) , arbitrarily associated with the index "b" comprises an additional step which will be described below.
Une étape finale de reconstruction du signal débruité permet de recombiner les signaux obtenus suite aux deux séries de traitement de débruitage effectués en parallèle.A final step of reconstruction of the denoised signal makes it possible to recombine the signals obtained following the two series of denoising processing carried out in parallel.
La première phase du traitement de dêbruitage consiste en un double découpage en trames (blocs 4a et 4b) . Une première étape (40a et 40b) consiste à stocker les échantillons numériques obtenus dans deux mémoires tampons
circulantes, 40a et 40b, du type "FIFO" ("First In, First Out", c'est-à-dire "premier entré, premier sorti"). Comme précédemment, la deuxième étape (42a et 42b) de cette phase consiste à découper le signal original en trames de longueur LGtrame et à lire ces trames.The first phase of the denoising treatment consists of a double cutting into frames (blocks 4a and 4b). A first step (40a and 40b) consists in storing the digital samples obtained in two buffer memories , 40a and 40b, of the "FIFO" type ("First In, First Out", that is to say "first in, first out"). As before, the second step (42a and 42b) of this phase consists in cutting the original signal into frames of length LGframe and in reading these frames.
Les deux séries de trames ont les caractéristiques suivantes :The two series of frames have the following characteristics:
La première suite de trames représente le découpage en trames de longueur LGtrame du signal original u(t) : suite des trames Tel, dites d'entrée pour la phase de débruitage par le bloc 5a.The first series of frames represents the division into frames of length LGframe of the original signal u (t): series of Tel frames, said to be input for the denoising phase by block 5a.
La formation de la seconde suite de trames débute par la lecture d'une trame initiale de longueur inférieure à LGtrame (étape 41b) : soit Δ sa durée. Cette trame n'est pas utile, en ce sens qu'elle ne sera pas prise en compte pour la suite des opérations, mais elle est déterminante pour obtenir un "décalage" des deux suites de trames. Puis, la lecture se poursuit prenant en compte de nouveau des trames de longueur LGtrame : suite des trames T'ei, dites d'entrée pour la phase de débruitage par le bloc 5b.The formation of the second series of frames begins with the reading of an initial frame of length less than LGframe (step 41b): let Δ its duration. This frame is not useful, in the sense that it will not be taken into account for the continuation of the operations, but it is decisive for obtaining a "shift" of the two sequences of frames. Then, the reading continues taking into account again frames of length LGframe: continuation of the frames T'ei, said to be input for the denoising phase by the block 5b.
La figure 4 est un diagramme qui illustre le double découpage qui vient d'être décrit. Sur la partie supérieure de la figure 4, on a représenté les cinq premières trames de la première suite de trames : Tei à Tes, toutes de longueur identique égale à LGtrame (premier découpage) . Sur la partie inférieure de cette même figure, on a représenté les cinq premières trames de la seconde suite : T• , Te ' i à Te ' 4. La trame T' est particulière. Elle est obtenue à l'étape 41b, par lecture d'une trame de longueur Δ, soit une fraction de longueur de trame LGtrame égale à [Ltrame/x] . Les autres trames, Te ' 1 à Te ' 4 sont de nouveau des trames de longueur LGtrame (second découpage) .FIG. 4 is a diagram which illustrates the double cutting which has just been described. On the upper part of FIG. 4, the first five frames of the first series of frames are shown: Tei to Tes, all of identical length equal to LGframe (first cutting). On the lower part of this same figure, the first five frames of the second sequence are shown: T •, Te 'i to Te' 4. The frame T 'is particular. It is obtained in step 41b, by reading a frame of length Δ, ie a fraction of frame length LGframe equal to [Ltrame / x]. The other frames, Te '1 to Te' 4 are again frames of length LGframe (second cutting).
On élimine du traitement ultérieur la trame T'. On constate qu'il y a un recouvrement des trames de même rang
des deux suites, soit un "décalage" égal à Δ ou [LGtrame/x] . Il doit être clair cependant que la notion de "décalage" ne signifie pas une recopie dans le temps des trames de la première suite. Le début de la trame Te'i correspond à l'amplitude du signal u(t) à l'instant to + Δ (avec to instant initial arbitraire) , alors que le début de la trame Tei correspond à l'amplitude du signal u(t) à l'instant tθ dans les deux cas après numérisation.The frame T 'is eliminated from the subsequent processing. We see that there is an overlap of the frames of the same rank of the two sequences, either an "offset" equal to Δ or [LGtrame / x]. It should be clear, however, that the notion of "offset" does not mean a recopy in time of the frames of the first sequence. The start of the frame Te'i corresponds to the amplitude of the signal u (t) at the instant to + Δ (with to arbitrary initial instant), while the start of the frame Tei corresponds to the amplitude of the signal u (t) at time t θ in both cases after digitization.
On procède ensuite à une phase de débruitage des deux suites de trames d'entrée : Tel et T'ei (figure 3). Les deux blocs 5a et 5b peuvent être identiques à celui décrit sur la figure 1.We then proceed to a denoising phase of the two sequences of input frames: Tel and T'ei (Figure 3). The two blocks 5a and 5b can be identical to that described in FIG. 1.
Cette phase de débruitage repose sur une modification des composantes fréquentielles du signal à traiter. Elle implique généralement, un passage dans le domaine fréquentiel au moyen d'une transformée de Fourier rapide ou similaire (étapes 50a ou 50b) , une opération de débruitage proprement dite (étape 51a et 51b) par filtrage numérique, avantageusement du type Wiener, et un retour au domaine temporel par une transformée de Fourier inverse ou similaire (étape 52a ou 512b) .This denoising phase is based on a modification of the frequency components of the signal to be processed. It generally involves a passage into the frequency domain by means of a fast Fourier transform or the like (steps 50a or 50b), an actual denoising operation (steps 51a and 51b) by digital filtering, advantageously of the Wiener type, and a return to the time domain by an inverse Fourier transform or the like (step 52a or 512b).
Ici, le traitement de débruitage se fait non seulement sur le signal original, c'est-à-dire sur la suite des trames Tel, mais également sur le signal " décalé ", c'est-à-dire sur la suite des trames T'ei. Le décalage entre ces deux signaux est variable et peut en particulier être fixé en fonction du temps de réponse désiré. Ce décalage temporel Δ, induit par la lecture d'une trame initiale lors de la création de la seconde suite d'échantillons, peut avantageusement être représenté sous la forme de la partie entière d'une fraction de LGTRAME :Here, the denoising processing is done not only on the original signal, that is to say on the sequence of Tel frames, but also on the "shifted" signal, that is to say on the sequence of frames You. The offset between these two signals is variable and can in particular be fixed as a function of the desired response time. This time offset Δ, induced by the reading of an initial frame during the creation of the second series of samples, can advantageously be represented in the form of the whole part of a fraction of LGTRAME:
Δ = E(Lgtrame/x) , relation dans laquelle E désigne la partie entière.
Ainsi sont obtenues deux suites de trames traitées Tsi et T'si, dites de sortie. Comme les trames d'entrée, Tei et T'ei, ces trames de sortie, Tsi et T'si, sont également décalées temporellement de la valeur Δ.Δ = E (Lgframe / x), relation in which E indicates the whole part. Thus two sequences of processed frames Tsi and T'si are obtained, called output. Like the input frames, Tei and T'ei, these output frames, Tsi and T'si, are also temporally offset by the value Δ.
La dernière phase du procédé consiste à reconstruire le signal s'(t) exempt de bruit. La première étape, 60a ou 60b, consiste en un fenêtrage qui est réalisé de façon autonome sur chacune trames des deux suites. La fenêtre de pondération utilisée possède des caractéristiques spécifiques qui seront précisées ci-après.The last phase of the process consists in reconstructing the signal s' (t) free of noise. The first step, 60a or 60b, consists of windowing which is carried out independently on each frame of the two suites. The weighting window used has specific characteristics which will be specified below.
On va maintenant se placer dans un exemple préféré de réalisation pour lequel la valeur de x est égale à 2. En d'autres termes, la trame initiale T1 est égale exactement à une demie longueur de trame, soit [LGtrame/2]. Les trames des deux suites se recouvrent donc par moitié.We will now go to a preferred embodiment for which the value of x is equal to 2. In other words, the initial frame T 1 is exactly half a frame length, ie [LGtrame / 2]. The frames of the two suites therefore overlap by half.
Toujours dans un mode de réalisation préféré, la fonction décrivant la fenêtre, et utilisée pour la pondération, est une fonction en cosinus telle que représentée sur le diagramme de la figure 5. Dans le cadre de l'exemple décrit, une trame comporte 128 échantillons, et l'axe horizontal du diagramme est gradué en nombre n d• échantillons .Still in a preferred embodiment, the function describing the window, and used for weighting, is a cosine function as shown in the diagram in FIG. 5. In the context of the example described, a frame comprises 128 samples , and the horizontal axis of the diagram is graduated in number nd • samples.
L'équation mathématique décrivant cette fonction est donnée par la relation suivante :The mathematical equation describing this function is given by the following relation:
A l'intérieur d'une trame, cette fonction a une amplitude A maximale égale à l'unité pour [LGtrame/2], soit n = 64 échantillons, et passe par zéro pour n = 0 et n = 128.Within a frame, this function has a maximum amplitude A equal to unity for [LGtrame / 2], ie n = 64 samples, and goes through zero for n = 0 and n = 128.
Si on appelle :
LGtrame gl(k) la partie de g(k) pour k et (4)If we call: LGframe g l (k) the part of g (k) for k and (4)
LGtrame , , _ g2(k) la partie de g(k) pour k e + 1; LGtrame (5),LGframe,, _ g 2 (k) the part of g (k) for ke + 1; LGframe (5),
il existe une propriété supplémentaire entre gι(k) et 92 M , exprimée par la relation suivante :there is an additional property between gι (k) and 92 M, expressed by the following relation:
LGtrame LGtrame gl(k+— —)+g20 ≈l, ke (6).LGtrame LGtrame gl (k + - -) + g20 ≈ l, ke (6).
Après pondération (étape 60a ou 60b, de la phase 6 de reconstruction du signal) , les segments de signal débruité sont additionnés (étape 61) comme illustré schématiquement par la figure 6. Ainsi, une demi-trame pondérée par la première partie (gi (k) ) de la fenêtre cosinus est additionnée avec une demi-trame pondérée par la seconde partie (g2 (k) ) de cette même fenêtre. Les trames débruitées, en sorties de pondération et de sommation, sont référencées TDli, TD2i et TDi en ce qui concerne la première suite (découpage 1) , la seconde suite (découpage 2) et le résultat de la sommation, respectivement. Tenant compte de la propriété exprimée par la relation (6) , le signal résultant de la sommation constitue le signal débruité recherché s' (t) .After weighting (step 60a or 60b, of phase 6 of signal reconstruction), the denoised signal segments are added (step 61) as shown diagrammatically in FIG. 6. Thus, a half-frame weighted by the first part (gi (k)) of the cosine window is added with a half-frame weighted by the second part (g2 (k)) of this same window. The noisy frames, at the weighting and summation outputs, are referenced TDli, TD2i and TDi with regard to the first sequence (cutting 1), the second sequence (cutting 2) and the result of the summing, respectively. Taking into account the property expressed by equation (6), the signal resulting from the summation constitutes the sought-after denoised signal s' (t).
Sur la figure 6, on a représenté les trames suivantes :In FIG. 6, the following frames have been represented:
- TDlm et TDlm+i ∑ deux trames débruitées consécutives de rangs m et m+l, avec le découpage 1 ;- TDl m and TDlm + i ∑ two consecutive denoised frames of rows m and m + l, with the division 1;
- TDlm-ι, TD2m et TDlm+ι : trois trames débruitées consécutives de rangs m-1, m et m+l, avec le découpage 2 ; et :- TDl m -ι, TD2 m and TDl m + ι: three consecutive denoised frames of rows m-1, m and m + l, with the cutting 2; and:
- TDlm : deux trames débruitées consécutives de rangs m et m+l, après sommation (étape 61) .
Le processus de sommation est donc le suivant : la première demi-trame TDm est égale à la somme de la première demi-trame TDlm et de la seconde demi-trame TDm-i, la seconde demi-trame TDm est égale à la somme de la seconde demi-trame TDlm et de la première demi-trame TD et ainsi de suite, jusqu'à ce qu'à ce que toutes les trames soient traitées s'il s'agit d'un signal u(t) de longueur finie. Dans le cas contraire, le processus est continu.- TDl m : two consecutive denoised frames of rows m and m + l, after summation (step 61). The summation process is therefore as follows: the first half-frame TDm is equal to the sum of the first half-frame TDlm and the second half-frame TDm-i, the second half-frame TDm is equal to the sum of the second half-frame TDlm and the first half-frame TD and so on, until all the frames are processed if it is a signal u (t) of finite length . Otherwise, the process is continuous.
La figure 8 est un diagramme illustrant le résultat de la sommation des deux fenêtres de pondération gι(k) et 92 (k) conformément à la propriété remarquable qui les lie (équation (6)). On a porté sur ce diagramme les deux courbes ci-dessus et le résultat g(k) ≈ gι(k) + g2 (k) , sur la longueur d'une demi-trame. On constate bien, qu'à tout instant, la courbe g(k) = gι(k) + g2(k) est une droite de pente nulle, passant par l'ordonnée unité. Ce résultat reste vrai, quelle que soit la paire de demi-trames considérée.FIG. 8 is a diagram illustrating the result of the summation of the two weighting windows gι (k) and 92 (k) in accordance with the remarkable property which links them (equation (6)). The two curves above and the result g (k) ≈ gι (k) + g2 (k) are plotted on this diagram, over the length of a half-frame. It can be seen that at all times, the curve g (k) = gι (k) + g2 (k) is a line of zero slope, passing through the ordinate unit. This result remains true, whatever the pair of half-frames considered.
La fenêtre de pondération en cosinus (équation (3)) permet ainsi d'annuler les effets de bords aux extrémités de chaque trame.The cosine weighting window (equation (3)) thus makes it possible to cancel the edge effects at the ends of each frame.
Le signal est donc correctement débruité, tout en éliminant les effets parasites constatés dans les procédés de l'art connu.The signal is therefore correctly denoised, while eliminating the parasitic effects observed in the processes of the known art.
A titre comparatif, si on considère de nouveau l'exemple ayant conduit à la courbe d'erreur de la figure 2, c'est-à-dire un signal bruité simple, qui se présente sous la forme d'une somme de deux fonctions sinusoïdales dont les paramètres ont été précédemment donnés, on obtient la courbe d'erreur (sur deux trames, c'est-à-dire 256 échantillons comme précédemment) donnée par le diagramme de la figure 8.By way of comparison, if we again consider the example that led to the error curve in FIG. 2, that is to say a simple noisy signal, which is in the form of a sum of two functions sinusoidal whose parameters have been previously given, we obtain the error curve (on two frames, that is to say 256 samples as before) given by the diagram of figure 8.
On constate qu'il n'y a plus d'effets de bords et que la courbe d'erreur se réduit à une très faible ondulation, résiduelles comprise dans la fourchette ± 0,05. Etant donné que l'amplitude maximale du signal est ± 1
(fonctions sinusoïdales) , Cette dernière valeur est à comparer aux pics dus aux effets de bords supérieurs à ± 50 % de l'amplitude maximale du signal utile (figure 2), c'est- à-dire ± 0,5. L'erreur maximale est donc réduite dans un rapport dix. De même l'ondulation résiduelle en amplitude de la fonction erreur est trois fois moins importante (± 0,05 au lieu de ± 0,15).It can be seen that there are no more edge effects and that the error curve is reduced to a very low ripple, residuals lying in the range ± 0.05. Since the maximum signal amplitude is ± 1 (sinusoidal functions), This last value is to be compared with the peaks due to edge effects greater than ± 50% of the maximum amplitude of the useful signal (Figure 2), that is to say ± 0.5. The maximum error is therefore reduced in a ratio of ten. Similarly, the residual ripple in amplitude of the error function is three times less (± 0.05 instead of ± 0.15).
A la lecture de ce qui précède, on constate aisément que l'invention atteint bien les buts qu'elle s'est fixés.On reading the above, it is easy to see that the invention achieves the goals it has set for itself.
II doit être clair cependant que l'invention n'est pas limitée aux seuls exemples de réalisations explicitement décrits, notamment en relation avec les figures 3 à 8.It should be clear, however, that the invention is not limited only to the examples of embodiments explicitly described, in particular in relation to FIGS. 3 to 8.
Bien qu'il soit particulièrement avantageux d'adopter une valeur de décalage :Although it is particularly advantageous to adopt an offset value:
. E(LGtrame). E (LGtrame)
Δ = — -Δ = - -
qui correspond au mode de réalisation préféré, de façon plus générale, on peut adopter d'autres valeurs telles que :which corresponds to the preferred embodiment, more generally, other values can be adopted such as:
. _ E(LGtrame). _ E (LGtrame)
avec x>l.with x> l.
II est seulement nécessaire que la fonction associée à la fenêtre de pondération soit telle que la relation (6) soit vérifiée à chaque instant.It is only necessary that the function associated with the weighting window be such that the relation (6) is verified at all times.
De même, la fonction de pondération n'est pas limitée à la seule fonction de type cosinus, bien que cette fonction présente l'avantage de variations douces. On peut, en effet, avoir recours à des fonctions en dents de scie, de type triangle ou trapèze. Cependant, ces fonctions risquent d'induire des effets parasites, car elles présentent des variations brusques aux changements de pente.
Likewise, the weighting function is not limited to the only cosine type function, although this function has the advantage of gentle variations. One can, in fact, use sawtooth functions, of the triangle or trapezoid type. However, these functions are likely to induce parasitic effects, because they present abrupt variations with the changes of slope.
Claims
1. Procédé de reconstruction d'un signal sonore, après un double découpage du signal en trames de façon à obtenir deux suites de trames décalées d'une fraction de longueur de trame et débruitage de chacune des suites de trames, caractérisé en ce qu'il consiste à réaliser une opération de fenêtrage sur chacune des deux suites de trames après qu'elles aient été débruitées et avant qu'elles ne soient sommées pour fournir le signal sonore final débruité.1. Method for reconstructing a sound signal, after double cutting the signal into frames so as to obtain two sets of frames offset by a fraction of frame length and denoising of each of the sets of frames, characterized in that it consists in carrying out a windowing operation on each of the two series of frames after they have been denoised and before they are summed to provide the final denoised sound signal.
2. Procédé selon la revendication 1, caractérisé en ce que ladite opération de fenêtrage consiste à appliquer sur chaque trame de signal débruité une fonction de pondération g(k) comprise dans une fenêtre de longueur égale à celle d'une trame et obéissant à la relation suivante :2. Method according to claim 1, characterized in that said windowing operation consists in applying to each denoised signal frame a weighting function g (k) included in a window of length equal to that of a frame and obeying the following relationship:
LGtrame LGtrame gι(k+— - —)+g2(k) = l, ke i; avecLGtrame LGtrame gι (k + - - -) + g 2 (k) = l, ke i; with
LGtrame égal à ladite longueur déterminée de trame,LGframe equal to said determined frame length,
LGtrame gl(k) la partie de g(k) pour li¬ erLGframe gl (k) the part of g (k) to link
LGtrame g2(k) la partie degfl) pour k e + 1;LGtrameLGtrame g2 (k) the degfl part) for k e + 1; LGtrame
3. Procédé selon la revendication 2, caractérisé en ce que ladite fonction de pondération est une fonction en cosinus dans une fenêtre de longueur égale à ladite longueur déterminée de trame (LGtrame) et obéissant à la relation suivante :
3. Method according to claim 2, characterized in that said weighting function is a cosine function in a window of length equal to said determined frame length (LGframe) and obeying the following relation:
4. Traitement de débruitage d'un signal sonore mettant en oeuvre le procédé de reconstruction selon la revendication 1, caractérisé en ce qu'il comprend une étape préliminaire consistant en la numérisation desdits signaux bruités (u(t)) par échantillonnage avant ledit découpage en deux suites de trames (Tel,T'ei) et une étape de stockage (40a, 40b) des trames numérisées des deux suites dans deux mémoires circulantes du type "premier entré - premier sorti" .4. denoising treatment of a sound signal implementing the reconstruction method according to claim 1, characterized in that it comprises a preliminary step consisting in the digitization of said noisy signals (u (t)) by sampling before said cutting in two series of frames (Tel, T'ei) and a storage step (40a, 40b) of the digitalized frames of the two suites in two circulating memories of the "first in - first out" type.
5. Traitement selon la revendication 4, caractérisé en ce qu' il comporte une étape de débruitage (5a, 5b) consistant, indépendamment pour chacune desdites deux suites, à appliquer à chaque trame (Tei ou T'ei) une transformée de Fourier rapide (50a, 50b) , un filtrage numérique (51a, 51b), différencié d'une trame à l'autre, suivi d'une transformée de Fourier inverse (52a, 52b) .5. Treatment according to claim 4, characterized in that it comprises a denoising step (5a, 5b) consisting, independently for each of said two sequences, in applying to each frame (Tei or T'ei) a fast Fourier transform (50a, 50b), digital filtering (51a, 51b), differentiated from one frame to another, followed by an inverse Fourier transform (52a, 52b).
6. Traitement selon la revendication 5, caractérisé en ce que ledit filtrage numérique (51a, 51b) est réalisé à l'aide d'un filtre de Wiener.6. Treatment according to claim 5, characterized in that said digital filtering (51a, 51b) is carried out using a Wiener filter.
7. Application du traitement selon l'une quelconque des revendications 4 à 6 au débruitage de signaux de parole bruités (u(t)).7. Application of the processing according to any one of claims 4 to 6 to the denoising of noisy speech signals (u (t)).
8. Procédé selon la revendication 7, caractérisé en ce que la durée desdites trames (Tei, T'ei) est comprise dans la gamme 10 à 20 ms.
8. Method according to claim 7, characterized in that the duration of said frames (Tei, T'ei) is in the range 10 to 20 ms.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9714642A FR2771543B1 (en) | 1997-11-21 | 1997-11-21 | METHOD FOR NOISE NOISE OF SOUND SIGNALS, IN PARTICULAR FOR SPEECH PROCESSING |
FR97/14642 | 1997-11-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO1999027523A1 true WO1999027523A1 (en) | 1999-06-03 |
Family
ID=9513646
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/FR1998/002491 WO1999027523A1 (en) | 1997-11-21 | 1998-11-20 | Method for reconstructing sound signals after noise abatement |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR2771543B1 (en) |
WO (1) | WO1999027523A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968664A (en) * | 2020-08-21 | 2020-11-20 | 武汉大晟极科技有限公司 | Voice noise reduction method and equalization filter |
CN113129922A (en) * | 2021-04-21 | 2021-07-16 | 维沃移动通信有限公司 | Voice signal processing method and device |
-
1997
- 1997-11-21 FR FR9714642A patent/FR2771543B1/en not_active Expired - Fee Related
-
1998
- 1998-11-20 WO PCT/FR1998/002491 patent/WO1999027523A1/en active Application Filing
Non-Patent Citations (2)
Title |
---|
BOLL S F: "Suppression of acoustic noise in speech using spectral subtraction", IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, APRIL 1979, USA, vol. ASSP-27, no. 2, ISSN 0096-3518, pages 113 - 120, XP002072967 * |
COMPERNOLLE VAN D: "SPEECH ENHANCEMENT FOR APPLICATIONS IN COMMUNICATION AND RECOGNITION", REVUE HF, vol. 17, no. 1/02/03, 1 January 1993 (1993-01-01), pages 99 - 108, XP000417952 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968664A (en) * | 2020-08-21 | 2020-11-20 | 武汉大晟极科技有限公司 | Voice noise reduction method and equalization filter |
CN111968664B (en) * | 2020-08-21 | 2024-04-05 | 武汉大晟极科技有限公司 | Speech noise reduction method and equalization filter |
CN113129922A (en) * | 2021-04-21 | 2021-07-16 | 维沃移动通信有限公司 | Voice signal processing method and device |
WO2022222922A1 (en) * | 2021-04-21 | 2022-10-27 | 维沃移动通信有限公司 | Voice signal processing method and apparatus |
CN113129922B (en) * | 2021-04-21 | 2022-11-08 | 维沃移动通信有限公司 | Voice signal processing method and device |
Also Published As
Publication number | Publication date |
---|---|
FR2771543B1 (en) | 2000-06-02 |
FR2771543A1 (en) | 1999-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0918317B1 (en) | Frequency filtering method using a Wiener filter applied to noise reduction of audio signals | |
CA2436318C (en) | Noise reduction method and device | |
EP1789956B1 (en) | Method of processing a noisy sound signal and device for implementing said method | |
EP0806760B1 (en) | Method and device for filtering a speech signal by equalisation, implemented by a statistical signal model | |
EP0993671B1 (en) | Method for searching a noise model in noisy sound signals | |
EP2104936B1 (en) | Low-delay transform coding using weighting windows | |
EP0932964B1 (en) | Method and device for blind equalizing of transmission channel effects on a digital speech signal | |
EP1593116B1 (en) | Method for differentiated digital voice and music processing, noise filtering, creation of special effects and device for carrying out said method | |
EP0531242B1 (en) | Adaptive filtering method of a signal transformed in subbands and corresponding filter device | |
WO2007099222A1 (en) | Method for suppressing noise in an audio signal | |
FR2768547A1 (en) | Noise reduction procedure for speech signals | |
EP1395981B1 (en) | Device and method for processing an audio signal | |
EP1016071B1 (en) | Method and apparatus for detecting speech activity | |
EP0490740A1 (en) | Method and apparatus for pitch period determination of the speech signal in very low bitrate vocoders | |
EP0692883B1 (en) | Blind equalisation method, and its application to speech recognition | |
EP1131813A1 (en) | Speech recognition method in a noisy acoustic signal and implementing system | |
FR2739481A1 (en) | NOISE ELIMINATION APPARATUS AND METHOD | |
EP2515300B1 (en) | Method and system for noise reduction | |
WO1999027523A1 (en) | Method for reconstructing sound signals after noise abatement | |
EP1021805B1 (en) | Method and apparatus for conditioning a digital speech signal | |
EP0989544A1 (en) | Device and method for filtering a speech signal, receiver and telephone communications system | |
WO2002093553A1 (en) | Estimation of fundamental periods of multiple concurrent sources in particular of sound | |
FR2664446A1 (en) | SELF-ADAPTIVE SELF-ADAPTIVE PREDICTING FILTER DIFFERENTIAL ENCODER WITH QUICK GAIN ADAPTATION AND CORRESPONDING DECODER. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AK | Designated states |
Kind code of ref document: A1 Designated state(s): JP US |
|
AL | Designated countries for regional patents |
Kind code of ref document: A1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application | ||
122 | Ep: pct application non-entry in european phase |