EP0948237A2 - Method for noise suppression in a microphone signal - Google Patents
Method for noise suppression in a microphone signal Download PDFInfo
- Publication number
- EP0948237A2 EP0948237A2 EP99106123A EP99106123A EP0948237A2 EP 0948237 A2 EP0948237 A2 EP 0948237A2 EP 99106123 A EP99106123 A EP 99106123A EP 99106123 A EP99106123 A EP 99106123A EP 0948237 A2 EP0948237 A2 EP 0948237A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- signal
- filter
- speech
- filter function
- microphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 230000001629 suppression Effects 0.000 title description 11
- 230000003044 adaptive effect Effects 0.000 claims abstract description 7
- 238000004088 simulation Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 35
- 230000004044 response Effects 0.000 claims description 33
- 238000001228 spectrum Methods 0.000 claims description 29
- 238000012546 transfer Methods 0.000 claims description 26
- 239000013598 vector Substances 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000004422 calculation algorithm Methods 0.000 abstract description 16
- 230000009466 transformation Effects 0.000 abstract description 8
- 230000009467 reduction Effects 0.000 abstract description 4
- 230000003595 spectral effect Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000002592 echocardiography Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012074 hearing test Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/007—Protection circuits for transducers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
Definitions
- the invention relates to a method for eliminating interference Microphone signal.
- Such methods are particularly useful for voice input of commands and / or for hands-free phones increasingly of importance, especially the situation in is an important application for a vehicle.
- a playback device such as e.g. a radio, a Cassette or CD player through a loudspeaker Generated noise environment, which as a noise signal from one Microphone recorded voice signal, for example for voice recognition or telephone transmission is superimposed.
- a playback device such as e.g. a radio, a Cassette or CD player through a loudspeaker Generated noise environment, which as a noise signal from one Microphone recorded voice signal, for example for voice recognition or telephone transmission is superimposed.
- a playback device such as e.g. a radio, a Cassette or CD player through a loudspeaker Generated noise environment, which as a noise signal from one Microphone recorded voice signal, for example for voice recognition or telephone transmission is superimposed.
- That from a source of interference, especially a loudspeaker outgoing interference signal does not only arrive at the shortest direct Way to the microphone, but also occurs via numerous Reflections as an overlay of a plurality of Echoes with different delay times in the microphone signal in Appearance.
- the total exposure to the interference signal from the Interference source on the microphone signal can by a priori unknown transfer function of the room, for example of the passenger compartment of a motor vehicle are described.
- the transfer function changes depending on the occupation of the Vehicle and according to the position of the individual.
- a compensation signal can be generated, which by Subtraction from the microphone signal is freed from the interference signal Signal, for example a pure voice signal.
- the replica mentioned represents a more or less good approximation to the unknown transfer function and the malfunction cannot be completely eliminated become.
- the object of the present invention is a method to provide interference from a microphone signal that at reasonable signal processing effort good properties with regard to interference suppression.
- the Compensation of the interference signal component in the microphone signal by means of one from the reference signal via the simulation of the Transfer function generated compensation signal in the frequency domain is made so that microphone signal, compensation signal and output signal in the frequency domain, i.e. are in the form of spectra.
- the signal processing required in this step in the frequency domain a spectral transformation of the microphone signal, but takes into account that the simulation of the transfer function is more advantageous in the frequency domain and provides for an advantageous subsequent additional noise reduction of the output signal, which is also typically in the frequency domain is already a special one suitable waveform ready.
- Trouble shooting proves to be particularly advantageous of a speech signal based on a setting of the Replica filters in a previous language break won and saved.
- the division of the replica filter into several sub-filters and the interference clearance based on one in one Speech pause filter settings are also independent of interference signal compensation in the frequency domain independently for the interference suppression of a microphone signal feasible and advantageous.
- the loudspeaker signal x is filtered by the a priori unknown transfer function G of the vehicle interior.
- the interference component r arises, which is added to the microphone signal y with the speech signal s.
- an estimate r ⁇ is generated from the loudspeaker signal x using the filter simulation H.
- the voice signal can still contain interference in the form of, for example, engine noise or external noise, but these are not dealt with explicitly in this context.
- H is an adaptive filter and works according to one in the Literature known standard method, the LMS algorithm (least mean squares).
- the error signal E needed to adapt the coefficient to accomplish in filter H.
- the output signal s ⁇ fed to the determination of the filter coefficients.
- the adaptive system H can e.g. in the time domain as FIR filter (finite impulse response filter) will be realized. With long impulse response lengths, as they often occur in practice however, this requires a very high computing effort.
- FIR filter finite impulse response filter
- FLMS frequency domain
- F is a spectral transformation FFT of a time signal into the frequency domain and F -1 is the inverse IFFT.
- the processing steps designated as projections P1, P2 and P3 are used for the correct segmentation of the data by the block-wise use with the FFT or IFFT and are explained in more detail later.
- the filter works by multiplying the reference spectrum X by the filter coefficient vector H.
- the spectrum of the filter output R ⁇ is transformed back into the time domain via F -1 .
- the signal r ⁇ is available.
- the projection P1 which is particularly complex here with two spectral transformations, calculates from H 'the coefficient vector H required for the filtering.
- the spectrum S ⁇ of the output signal evaluated with P 3 is used to calculate the correction vector ⁇ H' s + r - r ⁇ needed.
- FIG. 3 A detailed block diagram of the FLMS algorithm shown in FIG. 2b is shown in FIG. 3.
- the sample values of a signal and the reference points of the FFT are commonly referred to as samples. All spectral transformations and their inverses are to be segmented as 256-point FFTs, each overlapping by 128 samples.
- the output signal s ⁇ is made up of 128 sample blocks in the time domain. It arises from the difference between the second block halves (that is, samples 129 to 256) of the microphone signal and the filtered compensation signal r ⁇ .
- the projection P1 is complex, which requires 2 FFTs and converts the vector H 'into the vector H.
- the first half (samples 1 to 128) is cut out of the complex 256-point result vector of the backward transformation from the frequency to the time domain (IFFT) and the second half (samples 129 to 256) is set to zero.
- the transformation into the frequency domain is carried out again using FFT.
- the projection P2 is simple. It consists of the sectioning of the last 128 samples already described above, which again results in non-overlapping 128-sample blocks from overlapping 256-sample blocks.
- the projection P3 is also very simple, which in turn provides overlapping 256-sample blocks from non-overlapping 128-sample blocks of the output signal by prepending 128 zero values.
- the adaptation of the filter coefficients H ' L + 1 for a cycle L + 1 consists of the addition of a renewal vector ⁇ H' L to the old coefficient vector H ' L.
- the spectrum X of the reference signal is stored in a buffer D delayed by 1 or 2 block lengths and the undelayed X1 and the two delayed spectra X2, X3 separately in with an extended projection P1 multiplied certain coefficient vectors H1, H2, H3.
- the coefficient vectors are formed analogously to Case of only a partial filter, whereby in K1, K2, K3 each associated reference spectrum with the spectrum S ⁇ of the output signal is linked. The effort is mainly by tripling the P1 projection considerably elevated. Additional space requirements will be necessary the spectra of the older one by 1 or 2 block lengths To provide reference signals X.
- Figure 6 provides a more detailed block diagram of the FLMS algorithm with frequency domain output signal and allows a comparison with FIG. 3 again (time domain output).
- the filter adaptation has remained unchanged consisting of smoothing the spectral power, power normalization and coefficient renewal. They are new FFT in the microphone channel, the difference Y-R ⁇ in the frequency instead of in the time domain for the output formation, and finally the newly defined projection P4, which is only through the complementary time window of the projection P1 differs.
- the FLMS algorithm is shown with 3 sub-filters (384-sample impulse response), which has a sufficient suppression of the radio signal in the microphone channel of the speech input system.
- the Projections P1 and P4 are shown in simplified form. It is the additional effort already known from FIG. 4b in the form the memory P and the tripling of the projection P1 evident.
- the 1-part filter solution according to Fig. 6 becomes the sum W of the current and the two in time previous reference power spectra on the Given the input of the recursive filter.
- the fact that at the filter output now practically 3 times the spectral smoothed Performance is available after the reciprocal by multiplying by the constant 6 ⁇ .
- the filter adaptation is now the output spectrum S ⁇ for the 3 coefficient vectors of the 3 sub-filters separately carried out.
- FIG. 9 An example Z0 for the operation of the invention according to Figure 7 shows Figure 9.
- the input data has been synthesized generated.
- the microphone signal Y was created by Convolution of this noise signal with a likewise constructed one 384-sample impulse response and the addition of one extremely weak speech signals.
- the 10 spoken Digits just in color (because filtered) Recognizing noise When listening to this in 9 signal y recorded above are the 10 spoken Digits just in color (because filtered) Recognizing noise. That transformed back into the time domain
- Output signal of the estimator frees up after a approx. 1 second (12000 samples) settling process very effective the speech input from the noise and delivers an undistorted but slightly reverberated speech signal S ⁇ (Fig. 9 below).
- this came from real measurements in the vehicle Reference signal tapped at the radio speaker terminals radio and that recorded by the microphone of the voice input system Signal micro of scene Z1.
- This microphone signal is shown in Fig. 11 above, consists of 100000 samples and therefore has a sampling frequency of 12 kHz a duration of approximately 8.3 seconds. It is about to fluent and relatively fast spoken language vehicle occupants sitting in the rear right while at the same time music with normal volume from the car radio speaker sounds. After applying the interference suppression measure 7 and conversion into the time range the output signal shown in Fig. 11 below. Of the Hearing test shows a clear elaboration of the language component or a remarkable one especially in the short language breaks Music suppression.
- a suitable one Feature serves as an indicator along with a threshold for voice input. Falls below the characteristic the threshold, so this is a sign of missing Voice input.
- the filter coefficient set is now used resorted to the immediately before the Threshold crossing - i.e. at the end of the previous one Speech pause - was saved.
- This saved Coefficients H10, H20, H30 usually provide a clear better radio signal compensation than that under the disturbing influence of voice input is constantly changing current coefficients H, H2, H3.
- Fig. 8 shows an embodiment with a further improved FLMS processing with 3 partial filters.
- existing current filter coefficient vectors H1, H2, H3, which were continuously adopted to form the Output signal y-R were required, there is now an additional one Output signal (y-Ro) that is stored using Coefficients H10, H20, H30 is formed.
- the current coefficient sets H1, H2, H3 only provide missing speech input in the steady state usable compensation filter in the frequency domain, on the other hand provide inadequate filter properties for voice input, because the adaptation process in the control loop is constantly disturbed. If there is no voice input, i.e.
- the outputs (y-Ro) and (y-Ra) are identical. Inserting Voice inputs open the 3 switches, whereby the last ones in the memories M1, M2, M3 Coefficients H10, H20, H30 no longer overwritten will and remain unchanged. This state in which the outputs (Y-Ro) and (Y-Ra) differ hold until a speech pause is detected again and the switches are closed.
- the smoothed sum has become the speech pause feature fea all absolute values of the coefficient correction vectors ⁇ H1 ', ⁇ H2 ', ⁇ H3' proven (Fig. 8a).
- This size is zero or has small numerical values if there is none or only there is little need to change the coefficients. This is the case during breaks in speech, the control loop is practical steady.
- Disorders such as those caused by voice input - but also by movements of the vehicle occupants - have an increased need for readjustment result, which is characterized by correspondingly large numerical values noticeable with ⁇ H1 ', ⁇ H2', ⁇ H3 'and thus with the characteristic fea makes.
- a smoothing filter for example, a recursive one 1st order low pass with the feat input on his Output the smoothed speech pause feature fea is available, which after comparison with a threshold value th the Switch for coefficient acceptance controls.
- the 384 sample impulse response measured at the end of the scene in FIG with associated amount transfer function 15 as the current impulse response (a) or current Transfer function (b) shown.
- the estimate from the current coefficient H1, H2, H3 is from the saved Coefficients H10, H20, H30 an impulse response (c) and a transfer function (d) of high quality can be calculated.
- the impulse response from the stored coefficients points the typical zero samples at the beginning, which are indicated by the Running time of the direct sound from the radio speaker to Voice input microphone. From the example readable dead time of approx. 40 samples the distance between the speaker and the microphone determine.
- Fig. 16a the "right-hand" 128-sample rectangular window in the time domain
- Fig. 16b the ideal projection replaced by a 128-sample Hamming window
- Fig. 17 shows, the real part of the spectrum exists in the rectangular window from a single line (DC component), while the middle antisymmetric imaginary part spectrum from many lines slowly descending towards the outside with alternating lines Zeros exist.
- the projection P1 can of course also be used (IFFT - left-sided rectangular window - FFT) replace with a corresponding convolution operation in the frequency domain the conjugate complex 7-line spectrum.
- IFFT - left-sided rectangular window - FFT
- Effortless solutions can be nevertheless achieve by following in the LMS algorithm 8 the 3 projections P1 not simultaneously in one 256-sample input data block must be processed.
- the with 128-sample overlapping input data blocks of length 256 are numbered starting at "1" sketched in Fig. 19a. So it is e.g. possible at modulo-3-counting of the input data blocks the 3 sub-filter projections not in parallel (Fig.
- the first of these scenes Z2 includes voice input from Digits, the radio speaker almost white Noise emits at a relatively high volume.
- the associated 100000 sample microphone signal is in Fig. 20 above, the extracted output signal is shown in Fig. 20 below.
- a clear release of noise from the output signal compared to the microphone input is made by listening comparison firmly.
- the time course of the speech pause feature is up along with the constant threshold th Fig. 21 mapped and the derived language breaks or the assigned switch positions in Fig. 21 below.
- FIG. 22 shows the in an analogous manner to FIG impulse response (a) and transfer function found at the end of the scene (b) based on the current coefficients and the corresponding sizes (c), (d) based on the Speech pause setting. It is clearly recognizable that the current impulse response found at the end of the scene Speech input represents disturbed result while the out the impulse response from the last speech pause stored coefficient sets has a high quality.
- the first 100000 samples of a measuring scene Z3 with POP music on the radio and fluent to quickly spoken language of the The person sitting on the right rear is in the form of a microphone signal y recorded in Fig. 23 above. After about 10,000 samples (0.83 s) the radio signal is suppressed usably (Fig. 23 below). Even in the last third of this POP music suppression remains when voice input begins effectively preserved, making speech intelligibility noticeably improved here compared to the microphone signal becomes. After a long pause in speech, it comes because of the subsequent one non-stop voice input to one Falling below threshold (Fig. 24). This is why the impulse response recorded at the bottom of the scene in Fig.
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
Description
Die Erfindung betrifft ein Verfahren zur Störbefreiung eines Mikrophonsignals.The invention relates to a method for eliminating interference Microphone signal.
Derartige Verfahren gewinnen insbesondere für die Spracheingabe von Kommandos und/oder für Freisprechtelefone zunehmend an Bedeutung, wobei insbesondere die Situation in einem Fahrzeug ein wichtiger Anwendungsfall ist.Such methods are particularly useful for voice input of commands and / or for hands-free phones increasingly of importance, especially the situation in is an important application for a vehicle.
Eine besondere Situation ist in Fahrzeugen häufig dadurch gegeben, daß ein Wiedergabegerät wie z.B. ein Radio, ein Kassetten- oder CD-Abspieler über einen Lautsprecher eine Geräuschumgebung erzeugt, die als Störsignal ein von einem Mikrophon aufgenommenes Sprachsignal, beispielsweise für die Spracherkennung oder Telefonübertragung überlagert. Zur Erkennung von Spracheingaben in einem Spracherkenner oder zur verständlichen Sprachübertragung über Telefon ist das Mikrophonsignal soweit wie möglich von Störsignalanteilen zu befreien.This often creates a special situation in vehicles given that a playback device such as e.g. a radio, a Cassette or CD player through a loudspeaker Generated noise environment, which as a noise signal from one Microphone recorded voice signal, for example for voice recognition or telephone transmission is superimposed. For Recognition of voice inputs in a speech recognizer or for understandable voice transmission over the phone Microphone signal as far as possible from interference signal components to free.
Das von einer Störquelle, insbesondere einem Lautsprecher ausgehende Störsignal gelangt nicht nur auf direktem kürzestem Weg zum Mikrophon, sondern tritt auch noch über zahlreiche Reflexionen als eine Überlagerung einer Mehrzahl von Echos mit verschiedenen Laufzeiten im Mikrophonsignal in Erscheinung. Die gesamte Einwirkung des Störsignals von der Störquelle auf das Mikrophonsignal kann durch eine a priori unbekannte Übertragungsfunktion des Raumes, beispielsweise des Fahrgastraumes eines Kraftfahrzeugs beschrieben werden. Die Übertragungsfunktion ändert sich je nach Besetzung des Fahrzeugs und nach Position der einzelnen Personen. Durch Nachbildung dieser Übertragungsfunktion und Filterung eines Referenzsignals von der Störquelle mit dieser Nachbildung kann ein Kompensationssignal erzeugt werden, welches durch Subtraktion vom Mikrophonsignal ein vom Störsignal befreites Signal, beispielsweise ein reines Sprachsignal liefert. Im Realfall stellt die genannte Nachbildung eine mehr oder minder gute Annäherung an die unbekannte Übertragungsfunktion dar und die Störung kann nicht vollständig beseitigt werden.That from a source of interference, especially a loudspeaker outgoing interference signal does not only arrive at the shortest direct Way to the microphone, but also occurs via numerous Reflections as an overlay of a plurality of Echoes with different delay times in the microphone signal in Appearance. The total exposure to the interference signal from the Interference source on the microphone signal can by a priori unknown transfer function of the room, for example of the passenger compartment of a motor vehicle are described. The transfer function changes depending on the occupation of the Vehicle and according to the position of the individual. By Simulation of this transfer function and filtering a Reference signal from the interference source with this replica a compensation signal can be generated, which by Subtraction from the microphone signal is freed from the interference signal Signal, for example a pure voice signal. In the real case, the replica mentioned represents a more or less good approximation to the unknown transfer function and the malfunction cannot be completely eliminated become.
Aufgabe der vorliegenden Erfindung ist es, ein Verfahren zur Störbefreiung eines Mikrophonsignals anzugeben, daß bei vertretbarem Signalverarbeitungsaufwand gute Eigenschaften hinsichltich der Entstörung aufweist. The object of the present invention is a method to provide interference from a microphone signal that at reasonable signal processing effort good properties with regard to interference suppression.
Die Erfindung ist im Patentanspruch 1 beschrieben. Die Unteransprüche
enthalten vorteilhafte Ausgestaltungen und
Weiterbildungen der Erfindung.The invention is described in
Wesentlich an dem erfindungsgemäßen Verfahren ist, daß die Kompensation des Störsignalanteils im Mikrophonsignal mittels eines aus dem Referenzsignal über die Nachbildung der Übertragungsfunktion erzeugten Kompensationssignals im Frequenzbereich vorgenommen wird, so daß Mikrophonsignal, Kompensationssignal und Ausgangssignal im Frequenzbereich, d.h. in Form von Spektren vorliegen. Die Signalverarbeitung in diesem Verfahrensschritt im Frequenzbereich erfordert zwar eine spektrale Transformation des Mikrophonsignals, berücksichtigt aber, daß die Nachbildung der Übertragungsfunktion im Frequenzbereich vorteilhafter ist und stellt für eine vorteilhafte nachfolgende zusätzliche Geräuschreduktion des Ausgangssignals, die typischerweise gleichfalls im Frequenzbereich vorgenommen wird, bereits eine besonders geeignete Signalform bereit.It is essential in the method according to the invention that the Compensation of the interference signal component in the microphone signal by means of one from the reference signal via the simulation of the Transfer function generated compensation signal in the frequency domain is made so that microphone signal, compensation signal and output signal in the frequency domain, i.e. are in the form of spectra. The signal processing required in this step in the frequency domain a spectral transformation of the microphone signal, but takes into account that the simulation of the transfer function is more advantageous in the frequency domain and provides for an advantageous subsequent additional noise reduction of the output signal, which is also typically in the frequency domain is already a special one suitable waveform ready.
Durch einfache Näherungen beim Ersatz eines Verarbeitungsschritts mit einem Zeitfenster kann durch Übergang zu einer Faltung im Frequenzbereich eine deutliche Reduzierung des Verarbeitungsaufwands reduziert werden.By simple approximations when replacing a processing step with a time window can be made by moving to a Convolution in the frequency domain a significant reduction in the Processing effort can be reduced.
Für lange Impulsantworten der Übertragungsfunktion bzw. deren Nachbildung sieht eine vorteilhafte Weiterbildung der Erfindung eine Aufteilung des Nachbildungsfilters in mehrere Teilfilter zu zeitversetzten Segmenten des segmentierten Referenzsignals vor, deren Koeffizienten-Aktualisierung zeitlich gestaffelt sein kann, wodurch der Signalverarbeitungsaufwand gering gehalten werden kann.For long impulse responses of the transfer function or its Replica sees an advantageous development of Invention a division of the replica filter into several Sub-filter for time-shifted segments of the segmented Reference signal before, its coefficient update can be staggered in time, reducing the signal processing effort can be kept low.
Als besonders vorteilhaft erweist es sich, die Entstörung eines Sprachsignals auf der Basis einer Einstellung des Nachbildungsfilters, die in einer vorhergehenden Sprachpause gewonnen und gespeichert wurde, vorzunehmen.Trouble shooting proves to be particularly advantageous of a speech signal based on a setting of the Replica filters in a previous language break won and saved.
Die Aufteilung des Nachbildungsfilters in mehrere Teilfilter und die Störbefreiung auf der Basis einer in einer Sprachpause gewonnenen Filtereinstellung sind auch unabhängig von der Störsignalkompensation im Frequenzbereich eigenständig für die Störbefreiung eines Mikrophonsignals realisierbar und vorteilhaft.The division of the replica filter into several sub-filters and the interference clearance based on one in one Speech pause filter settings are also independent of interference signal compensation in the frequency domain independently for the interference suppression of a microphone signal feasible and advantageous.
Die Erfindung ist nachfolgend anhand von bevorzugten Ausführungsbeispielen unter Bezugnahme auf die Abbildungen noch eingehend veranschaulicht. Dabei zeigt:
- Fig. 1
- ein Prinzip der Kompensation eines Radiosignals
- Fig. 2a
- ein Blockschaltbild zu Fig. 1
- Fig. 2b
- ein Blockschaltbild zur Filternachbildung
- Fig. 3
- ein detailliertes Beispiel zu Fig. 2b
- Fig. 4
- eine Erweiterung auf mehrere Teilfilter
- Fig. 5
- einen Übergang zur Kompensation im Frequenzbereich
- Fig. 6
- ein detailliertes Beispiel zu Fig. 5b
- Fig. 7
- ein Ausführungsbeispiel mit mehreren Teilfiltern
- Fig. 8
- ein Ausführungsbeispiel mit Speicherung der Filtereinstellungen
- Fig. 9
- Signale einer synthetischen Beispielsszene
- Fig. 10
- Impulsantwort und Übertragungsfunktion zu Fig. 9
- Fig. 11
- Signal einer ersten Meßszene
- Fig. 12
- Impulsantwort und Übertragungsfunktion zu Fig. 11
- Fig. 13
- das Beispiel nach Fig. 11 mit Speicherung der Filtereinstellungen
- Fig. 14
- eine Sprachpausendetektion zu Fig. 13
- Fig. 15
- Impulsantworten und Übertragungsfunktionen zu Fig. 11 und Fig. 13
- Fig. 16
- Übergang von einem Zeitfenster zu einer Faltung im Frequenzbereich
- Fig. 17
- ein Rechteck-Zeitfenster mit Linienspektrum
- Fig. 18
- ein Hamming-Zeitfenster mit Linienspektrum
- Fig. 19
- Staffelung von Signalblöcken bei der Filterberechnung
- Fig. 20
- Signale einer zweiten Meßszene
- Fig. 21
- eine Sprachpausendetektion zu Fig. 20
- Fig. 22
- Impulsantworten und Übertragungsfunktionen zu Fig. 20 und Fig. 21
- Fig. 23
- Signale einer dritten Meßszene
- Fig. 24
- eine Sprachpausendetektion zu Fig. 23
- Fig. 25
- Impulsantworten und Übertragungsfunktionen zu Fig. 23 und Fig. 24
- Fig. 26
- Signale einer vierten Meßszene
- Fig. 27
- eine Sprachpausendetektion zu Fig. 26
- Fig. 28
- Impulsantworten und Übertragungsfunktionen zu Fig. 26 und Fig. 27.
- Fig. 1
- a principle of compensation for a radio signal
- Fig. 2a
- 2 shows a block diagram of FIG. 1
- Fig. 2b
- a block diagram for filter replication
- Fig. 3
- a detailed example of Fig. 2b
- Fig. 4
- an extension to several sub-filters
- Fig. 5
- a transition to compensation in the frequency domain
- Fig. 6
- a detailed example of Fig. 5b
- Fig. 7
- an embodiment with several sub-filters
- Fig. 8
- an embodiment with storage of the filter settings
- Fig. 9
- Signals from a synthetic example scene
- Fig. 10
- Impulse response and transfer function for Fig. 9
- Fig. 11
- Signal from a first measurement scene
- Fig. 12
- Impulse response and transfer function for Fig. 11
- Fig. 13
- the example of FIG. 11 with storage of the filter settings
- Fig. 14
- a speech pause detection for FIG. 13
- Fig. 15
- Pulse responses and transfer functions for FIGS. 11 and 13
- Fig. 16
- Transition from a time window to a convolution in the frequency domain
- Fig. 17
- a rectangular time window with a line spectrum
- Fig. 18
- a Hamming time window with a line spectrum
- Fig. 19
- Staggering of signal blocks in the filter calculation
- Fig. 20
- Signals from a second measurement scene
- Fig. 21
- a speech pause detection for FIG. 20
- Fig. 22
- Impulse responses and transfer functions for FIGS. 20 and 21
- Fig. 23
- Signals from a third measurement scene
- Fig. 24
- a speech pause detection for FIG. 23
- Fig. 25
- Pulse responses and transfer functions to FIGS. 23 and 24
- Fig. 26
- Signals from a fourth measurement scene
- Fig. 27
- a speech pause detection for FIG. 26
- Fig. 28
- Impulse responses and transfer functions to FIGS. 26 and 27.
Fig. 1 stellt das Prinzip einer Einrichtung zur (einkanaligen) Radiosignalkompensation dar. Das vom Lautsprecher abgestrahlte akustische Signal gelangt auf direktem Wege, aber auch über zahlreiche Reflektionen im Fahrzeuginnenraum, auf das Mikrophon des Spracheingabesystems. Unter der Annahme, daß sich die Übertragungsstrecke G demnach als Transversalfilter mit einer gewichteten Summe zeitlich verzögerter Echos darstellt, läßt sich eine Filternachbildung H finden, die im Idealfall H=G eine vollständige Kompensation des Radiosignales ermöglicht.1 shows the principle of a device for (single-channel) Radio signal compensation. That from the speaker emitted acoustic signal arrives directly, but also about numerous reflections in the vehicle interior, on the microphone of the voice input system. Under the Assumption that the transmission path G is accordingly Transversal filter with a weighted sum of time delays Represents echoes, can be a filter replica H find, which in the ideal case H = G a complete compensation of the radio signal.
Das Lautsprechersignal x wird durch die a priori unbekannte
Übertragungsfunktion G des Fahrzeuginnenraumes gefiltert.
Es entsteht die Störkomponente r, die sich mit dem Sprachsignal
s zu dem Mikrophonsignal y addiert. Um die Störkomponente
r zu kompensieren, wird mittels der Filternachbildung
H ein Schätzwert r^ aus dem Lautsprechersignal x erzeugt.
Der Ausgang der Schaltung liefert den Schätzwert für
das Sprachsignal:
Dem Sprachsignal s ist also am Ausgang der Schaltung noch
das Fehlersignal
H ist ein adaptives Filter und arbeitet nach einem in der Literatur bekannten Standardverfahren, dem LMS-Algorithmus (least mean squares). Neben dem Eingangssignal x wird noch das Fehlersignal E benötigt, um die Koeffizientenadaption im Filter H zu bewerkstelligen. Hierfür ist das Ausgangssignal s^ der Bestimmung der Filterkoeffizienten zugeführt.H is an adaptive filter and works according to one in the Literature known standard method, the LMS algorithm (least mean squares). In addition to the input signal x the error signal E needed to adapt the coefficient to accomplish in filter H. For this is the output signal s ^ fed to the determination of the filter coefficients.
Fig. 2a zeigt in anderer Darstellung nochmals die Anordnung
von Fig. 1 als Radiosignalkompensation. Das adaptive System
H kann z.B. im Zeitbereich als FIR-Filter (finite-impulse-response-Filter)
realisiert werden. Bei großen Impulsantwortlängen,
wie sie in der Praxis häufig auftreten, ist
hierzu allerdings ein sehr hoher Rechenaufwand notwendig.
Verschiedene Vorteile gegenüber einer Zeitbereichslösung
bietet die Realisierung des LMS-Algorithmus im Frequenzbereich
(FLMS). Wegen der blockweisen Verarbeitung von
Daten in den als diskreten Fouriertransformationen realisierten
spektralen Transformationen und der Filterrealisierung
im Frequenzbereich durch Multiplikationen wird dieses
Verfahren besonders rechenzeitgünstig.2a shows the arrangement again in another
Fig. 2b zeigt ein Blockschaltbild des FLMS-Algorithmus. Die
zugehörige Theorie ist an sich bekannt und daher an dieser
Stelle nicht im Detail behandelt. Es bedeuten F eine spektrale
Transformation FFT eines Zeitsignals in den Frequenzbereich
und F-1 die inverse IFFT. Die als Projektionen P1,
P2 und P3 bezeichneten Verarbeitungsschritte dienen der
korrekten Segmentierung der Daten durch die blockweise Verwendung
mit der FFT bzw. IFFT und werden später noch genauer
erläutert. Die Arbeitsweise des Filters besteht in
der Multiplikation des Referenzspektrums X mit dem Filter-Koeffizientenvektor
H. Das Spektrum des Filterausgangs R^
wird über F-1 zurück in den Zeitbereich transformiert. Nach
Anwendung der Projektion P2 auf den Realteil des so erhaltenen
Kompensationssignals steht das Signal r^ zur Verfügung.
Die Differenz der Signale
Wesentlicher Bestandteil des adaptiven Filters ist die
Koeffiiientenadaption im Block K, die im Fig. 2b durch die
Erneuerungsgleichung
Ein detailliertes Blockschaltbild des in Fig. 2b dargestellten
FLMS-Algorithmus zeigt Fig. 3. Die Abtastwerte
eines Signals und die Stützstellen der FFT seien in gebräuchlicher
Weise als samples bezeichnet. Alle Spektraltransformationen
und deren Inverse sind als 256-Punkte -
FFT's, die jeweils um 128 samples überlappen, zu segmentieren.
Zu beachten ist, daß sich das Ausgangssignal s^ im
Zeitbereich aus 128-sample-Blöcken zusammensetzt. Es entsteht
aus der Differenz der zweiten Blockhälften (also
jeweils der samples 129 bis 256) von Mikrofonsignal und
gefiltertem Kompensationssignal r^. Aufwendig ist die Projektion
P1, die 2 FFT's benötigt und den Vektor H' in den
Vektor H umrechnet. Hierbei wird aus dem komplexen 256-Punkte-Ergebnisvektor
der Rücktransformation vom Frequenz-in
den Zeitbereich (IFFT) die erste Hälfte (samples 1 bis
128) ausgeschnitten und die zweite Hälfte (samples 129 bis
256) zu Null gesetzt. Nach Anwendung dieses Rechteckfensters
im Zeitbereich erfolgt wieder mittels FFT die Transformation
in den Frequenzbereich. Einfach ist die Projektion
P2. Sie besteht aus der oben schon beschriebenen Ausschnittsbildung
der letzten 128 samples, wodurch aus überlappenden
256-sample-Blöcken wieder nicht überlappende 128-sample-Blöcke
entstehen. Ebenfalls sehr einfach ist
schließlich auch die Projektion P3, welche umgekehrt aus
nicht überlappenden 128-sample-Blöcken des Ausgangssignales
durch Voranstellen von 128 Nullwerten wiederum überlappende
256-sample-Blöcke bereitstellt. Die Adaption der Filterkoeffizienten
H'L+1 für einen Zyklus L+1 besteht aus der
Addition eines Erneuerungsvektors ΔH'L zum alten Koeffizientenvektor
H'L. Diese Erneuerung errechnet sich aus dem
Produkt zwischen dem Spektrum S^L des Ausgangssignals und
dem konjugiert komplexen Spektrum X*L des Referenzsignales
- gewichtet mit einer spektralen Leistungsnormierung 2µL,
Die Arbeitsweise des LMS-Algorithmus wird erheblich von der Adaptionskonstante α und der Glättungskonstante β beeinflußt. Zwischenspeicher in Rekursionsschleifen sind mit Sp bezeichnet.The operation of the LMS algorithm is significantly different from that Adaptation constant α and the smoothing constant β influenced. Buffer in recursion loops are with Sp designated.
Die bisher beschriebene Anordnung des FLMS-Algorithmus erlaubt Filternachbildungen mit einer maximalen Impulsantwortlänge von einer halben FFT-Länge, im Beispielsfall also 128 samples. Sollen längere Impulsantworten kompensiert werden, ist der schon bekannte FLMS-Algorithmus für einen Teilfilter (Fig. 4a) auf n Teilfilter zu erweitern. Eine 3-Teilfilter-Lösung mit einer Impulsantwortlänge von 3·128=384 samples hat sich bei der Radiosignalunterdrückung im Pkw mit einem Spracheingabesystem bewährt (Fig. 4b). Der im Fig. 4a mit B bezeichnete Block mit den Eingangssignalen X und S^ und dem Kompensations-Spektrum R^ als Ausgang ist durch die im Fig. 4b dargestellte Erweiterung zu ersetzen. Das Spektrum X des Referenzsignals wird durch Zwischenspeicher D um 1 bzw. 2 Blocklängen verzögert und das unverzögerte X1 und die beiden verzögerten Spektren X2, X3 werden separat in mit in einer erweiterten Projektion P1 getrennt bestimmten Koeffizientenvektoren H1, H2, H3 multipliziert. Die Bildung der Koeffizientenvektoren erfolgt analog zum Fall nur eines Teilfilters, wobei in K1, K2, K3 jeweils das zugehörige Referenzspektrum mit dem Spektrum S^ des Ausgangssignals verknüpft wird. Der Aufwand wird hauptsächlich durch die Verdreifachung der Projektion P1 beträchtlich erhöht. Zusätzlicher Speicherplatzbedarf wird notwendig um die Spektren des um 1 bzw. 2 Blocklängen zeitlich älteren Referenzsignales X bereitzustellen.The arrangement of the FLMS algorithm described so far allows Filter replicas with a maximum impulse response length of half a FFT length, so in the example 128 samples. Should longer impulse responses be compensated is the already known FLMS algorithm for one Extend sub-filter (Fig. 4a) to n sub-filters. A 3-part filter solution with an impulse response length of 3 * 128 = 384 samples has proven itself in radio signal suppression in the car proven with a voice input system (Fig. 4b). The one in 4a block designated B with the input signals X. and S ^ and the compensation spectrum R ^ as an output to be replaced by the extension shown in FIG. 4b. The spectrum X of the reference signal is stored in a buffer D delayed by 1 or 2 block lengths and the undelayed X1 and the two delayed spectra X2, X3 separately in with an extended projection P1 multiplied certain coefficient vectors H1, H2, H3. The coefficient vectors are formed analogously to Case of only a partial filter, whereby in K1, K2, K3 each associated reference spectrum with the spectrum S ^ of the output signal is linked. The effort is mainly by tripling the P1 projection considerably elevated. Additional space requirements will be necessary the spectra of the older one by 1 or 2 block lengths To provide reference signals X.
Bei der beispielhaft angegebenen Aufgabenstellung der Unterdrückung des Radiosignales bei Spracheingabe im Kfz ist es vorteilhaft die Ausgangsdaten nicht im Zeit- sondern im Frequenzbereich auszugeben, da dadurch eine verbesserte Anpassung an eine nachgeschaltete Geräuschunterdrückung erreicht werden kann. Der bereits vorgestellte FLMS-Algorithmus mit einem Teilfilter benötigt gemäß Fig. 5a insgesamt 5 FFT's bei einem Ausgangssignal im Zeitbereich. Wird dem Ausgang eine FFT nachgeschaltet, erhöht sich der Aufwand bei einem Frequenzbereichs-Ausgangssignal auf 6 FFT's. Die gleiche FFT-Anzahl ergibt sich zunächst auch bei einer äquivalenten Lösung nach Fig. 5b. Diese Variante besitzt jedoch folgende Vorteile:
- Bei der zeitgleichen Spektralanalyse der Signale
x und y ist nur eine einzige 256-Punkte-FFT mit
geringem Zusatzaufwand für eine spektrale Separation
notwendig. Man erzielt
eine Einsparung von 1 FFT. - Die hier mit P4 gekennzeichnete und neu definierte
Projektion ist bis auf das verwendete Zeitfenster
formal identisch mit der Projektion P1. Wie
später gezeigt wird, läßt sich P4 durch eine relativ
einfache Faltungsoperation im Frequenzbereich
ersetzten, ohne daß eine merkliche Einbuße
an Qualität in Kauf genommen werden muß. Man erzielt
eine Einsparung von 2 FFT's.
- With the simultaneous spectral analysis of the signals x and y, only a single 256-point FFT is required with little additional effort for spectral separation. A saving of 1 FFT is achieved.
- The projection identified and redefined here with P4 is formally identical to projection P1 except for the time window used. As will be shown later, P4 can be replaced by a relatively simple convolution operation in the frequency domain without having to accept a noticeable loss in quality. A saving of 2 FFT's is achieved.
Fig. 6 stellt ein ausführlicheres Blockschaltbild des FLMS-Algorithmus mit Frequenzbereichs-Ausgangssignal dar und gestattet nochmals einen Vergleich mit Fig. 3 (Zeitbereichs-Ausgang). Unverändert geblieben ist die Filteradaption bestehend aus Glättung der spektralen Leistung, Leistungsnormierung und Koeffizientenerneuerung. Neu sind die FFT im Mikrophonkanal, die Differenzbildung Y-R^ im Frequenz- anstatt im Zeitbereich zur Ausgangsbildung, und schließlich die neu definierte Projektion P4, welche sich lediglich durch das komplementäre Zeitbereichsfenster von der Projektion P1 unterscheidet. Figure 6 provides a more detailed block diagram of the FLMS algorithm with frequency domain output signal and allows a comparison with FIG. 3 again (time domain output). The filter adaptation has remained unchanged consisting of smoothing the spectral power, power normalization and coefficient renewal. They are new FFT in the microphone channel, the difference Y-R ^ in the frequency instead of in the time domain for the output formation, and finally the newly defined projection P4, which is only through the complementary time window of the projection P1 differs.
Als Vorstufe einer nachfolgend beschriebenen bevorzugten Ausführung betrachte man Fig. 7. Dargestellt ist der FLMS-Algorithmus mit 3 Teilfiltern (384-sample-Impulsantwort), welcher eine ausreichende Unterdrückung des Radiosignales im Mikrophonkanal des Spracheingabesystems liefert. Die Projektionen P1 und P4 sind vereinfacht dargestellt. Es ist der schon aus Fig. 4b bekannte zusätzliche Aufwand in Form der Speicher P sowie die Verdreifachung der Projektion P1 ersichtlich. Im Gegensatz zur 1-Teilfilter-Lösung nach Fig. 6 wird die Summe W von gegenwärtigem und den beiden zeitlich vorausgegangenen Referenz-Leistungsspektren auf den Eingang des rekursiven Filters gegeben. Die Tatsache, daß am Filterausgang nun praktisch die 3-fache geglättete spektrale Leistung vorliegt, wird nach der Kehrwertbildung durch Multiplikation mit der Konstanten 6α berücksichtigt. Nach der spektralen Leistungsnormierung des in P4 modifizierten Ausgangsspektrums S^ wird die Filter-Adaption nun für die 3 Koeffizientenvektoren der 3 Teilfilter separat durchgeführt.As a precursor to a preferred one described below See FIG. 7 for execution. The FLMS algorithm is shown with 3 sub-filters (384-sample impulse response), which has a sufficient suppression of the radio signal in the microphone channel of the speech input system. The Projections P1 and P4 are shown in simplified form. It is the additional effort already known from FIG. 4b in the form the memory P and the tripling of the projection P1 evident. In contrast to the 1-part filter solution according to Fig. 6 becomes the sum W of the current and the two in time previous reference power spectra on the Given the input of the recursive filter. The fact that at the filter output now practically 3 times the spectral smoothed Performance is available after the reciprocal by multiplying by the constant 6α. After the spectral performance standardization of the modified in P4 The filter adaptation is now the output spectrum S ^ for the 3 coefficient vectors of the 3 sub-filters separately carried out.
Ein Beispiel Z0 für die Wirkungsweise der Erfindung nach Fig. 7 zeigt Fig. 9. Die Eingangsdaten wurden synthetisch generiert. Das Referenzsignal X stellt 100000 Abtastwerte eines weißen Gaußrauschens bei einer Abtastfolgefrequenz von fs=12 kHz dar. Das Mikrophonsignal Y entstand durch Faltung dieses Rauschsignales mit einer ebenfalls konstruierten 384-sample-Impulsantwort sowie der Addition eines äußerst schwachen Sprachsignales. Beim Abhören dieses in Fig. 9 oben aufgezeichneten Signals y sind die 10 gesprochenen Ziffern gerade noch im farbigen (weil gefilterten) Rauschen zu erkennen. Das in den Zeitbereich zurücktransformierte Ausgangssignal des Schätzers befreit nach einem ca. 1 Sekunde (12000 samples) dauernden Einschwingvorgang sehr wirkungsvoll die Spracheingabe vom Rauschen und liefert ein unverzerrtes jedoch leicht verhalltes Sprachsignal S^ (Fig. 9 unten). Die verwendeten beiden Parameter waren α=0,05 und β=0,5, Werte, die sich auch bei den später vorgestellten Beispielen gut bewährt haben.An example Z0 for the operation of the invention according to Figure 7 shows Figure 9. The input data has been synthesized generated. The reference signal X represents 100,000 samples a white Gaussian noise at a sample rate of fs = 12 kHz. The microphone signal Y was created by Convolution of this noise signal with a likewise constructed one 384-sample impulse response and the addition of one extremely weak speech signals. When listening to this in 9 signal y recorded above are the 10 spoken Digits just in color (because filtered) Recognizing noise. That transformed back into the time domain Output signal of the estimator frees up after a approx. 1 second (12000 samples) settling process very effective the speech input from the noise and delivers an undistorted but slightly reverberated speech signal S ^ (Fig. 9 below). The two parameters used were α = 0.05 and β = 0.5, values that are also in the later presented Examples have proven successful.
Aus den jeweils 129 samples langen Teilkoeffizientenvektoren
H1, H2, H3 der 3 Teilfilter nach Bild7 läßt sich nun zu
jedem Zeitpunkt die hieraus resultierende 3*128-sample-Impulsantwort
bzw. die zugehörige Filterübertragungsfunktion
berechnen. So zeigt Fig. 10 oben die 384-sample-Impulsantwort,
wie sie sich ganz am Ende der Szene- also nachdem
die Ziffer "0" gesprochen wurde - ergibt. Sie ist ein sehr
genaues Abbild derjenigen Impulsantwort, die zur Faltung
mit weißem Gaußrauschen und damit zur synthetischen Generierung
des Signales mikro benutzt wurde. Die zugehörige
Betragsübertragungsfunktion (Fig. 10 unten) im Bereich zwischen
den Frequenzen 0 und fs/2 = 6 kHz stellt einen mit
zahlreichen schmalbandigen Resonanzüberhöhungen behafteten
Tiefpaßfrequenzgang dar.From the 129 sample-long partial coefficient vectors
H1, H2, H3 of the 3 sub-filters according to Fig. 7 can now be used
the resulting 3 * 128-sample impulse response at any time
or the associated filter transfer function
to calculate. 10 shows the 384 sample impulse response,
how they look at the very end of the scene
the digit "0" was spoken - results. It is a very
exact image of the impulse response that is used for folding
with white Gaussian noise and thus for synthetic generation
of the signal was used micro. The associated
Amount transfer function (Fig. 10 below) in the range between
the
Weißes Rauschen als Referenzeingangssignal und gefiltertes "farbiges" Rauschen als Mikrophonaingangssignal stellen im Sinne der Aufgabenstellung, eine Nachbildung dieses Filters zu finden, den einfachsten Fall dar. Da das Referenzsignal per Definitionen alle Frequenzanteile enthält, gelingt die Filteradaption hier am schnellsten. Die zusätzliche additive Spracheingabe im Mikrophoneingangssignal - also das eigentliche Nutzsignal des Spracheingabesystems - stellt für den (F)LMS-Algorithmus eine Störung dar, welche die korrekte Adaption der Filterkoeffizienten behindert. Anders ausgedrückt: nur in Sprachpausen ist das System dazu in der Lage die Raumakustik des Fahrzeuginnenraums (Strecke Radiolautsprecher zum Mikrophon) richtig nachzubilden und dadurch eine Kompensation der Radiowiedergabe zu bewirken. Im oben demonstrierten Beispiel gemäß Fig. 9 gelingt dies sehr gut, da der Mikrophon-eingang im wesentlichen aus Rauschen und nur zu einem sehr geringen Teil aus Spracheingabe besteht.White noise as a reference input signal and filtered "colored" noise as a microphone input signal in the Meaning of the task, a replica of this filter to find the simplest case. Because the reference signal contains all frequency components by definition, the Filter adaptation is the fastest here. The additional additive Voice input in the microphone input signal - that is actual useful signal of the voice input system - provides for the (F) LMS algorithm represents a disturbance which the correct adaptation of the filter coefficients hindered. Different in other words: the system is only able to do this during pauses in speech Position the room acoustics of the vehicle interior (route Radio speakers to the microphone) and correctly thereby to compensate for the radio reproduction. In the example shown in FIG. 9 demonstrated above, this succeeds very good, since the microphone input is essentially off Noise and only a very small part Voice input exists.
Aus echten Messungen im Fahrzeug hingegen entstammten das
an den Radiolautsprecherklemmen abgegriffene Referenzsignal
radio und das vom Mikrophon des Spracheingabesystem aufgezeichnete
Signal mikro der Szene Z1. Dieses Mikrophonsignal
ist in Fig. 11 oben dargestellt, besteht aus 100000 samples
und besitzt demnach bei einer Sampling-Frequenz von 12 kHz
eine zeitliche Dauer von ca. 8,3 Sekunden. Es handelt sich
um flüssig und relativ schnelle gesprochene Sprache eines
hinten rechts im Auto sitzenden Fahrzeuginsassen, während
gleichzeitig Musik mit normaler Lautstärke aus dem Autoradio-Lautsprecher
erklingt. Nach Anwendung der Entstörmaßnahme
gemäß Fig. 7 und Umrechnung in den Zeitbereich ergibt
sich das in Fig. 11 unten dargestellte Ausgangssignal. Der
Hörtest ergibt eine deutliche Herausarbeitung des Sprachanteils
bzw. eine vor allem in den kurzen Sprachpausen bemerkenswerte
Musikunterdrückung. Auffällig und von Nachteil
ist jedoch, daß die erwünschte Radiosignalunterdrückung in
starkem Maße davon abhängt, ob gerade gesprochen wird oder
nicht. Die wieder am Szenenende ermittelte 384-sample-Impulsantwort
mit zugehöriger Übertragungsfunktion ist aus
Fig. 12 ersichtlich. Eine korrekte Impulsantwort ist an den
typischen Nullsamples (Totzeit) am Anfang zu erkennen,
welche von der Laufzeit des Direktschalls vom Radiolautsprecher
zum Mikrophon herrühren. Aus den hier vorhandenen
starken Störungen am Anfang sowie am Ende der Impulsantwort
läßt sich demnach der Schluß ziehen, daß die Filteradaption
an dieser Stelle wegen vorhandener Spracheingabe äußerst
unzureichend ist. On the other hand, this came from real measurements in the vehicle
Reference signal tapped at the radio speaker terminals
radio and that recorded by the microphone of the voice input system
Signal micro of scene Z1. This microphone signal
is shown in Fig. 11 above, consists of 100000 samples
and therefore has a sampling frequency of 12 kHz
a duration of approximately 8.3 seconds. It is about
to fluent and relatively fast spoken language
vehicle occupants sitting in the rear right while
at the same time music with normal volume from the car radio speaker
sounds. After applying the
Die im folgenden anhand von Fig. 8 beschriebene Ausführungsform beruht auf folgender Grundidee: ein geeignetes Merkmal dient zusammen mit einem Schwellenwert als Indikator für eine Spracheingabe. Unterschreitet das Merkmal die Schwelle, so ist dies ein Anzeichen für fehlende Spracheingabe. In diesem Fall kann - wie oben schon festgestellt - eine weitgehend ungestörte Filteradaption erfolgen. Bei Spracheingabe wird nun auf denjenigen Filterkoeffizientensatz zurückgegriffen, der unmittelbar vor der Schwellenüberschreitung - d.h. am Ende der vorangegangenen Sprachpause - abgespeichert wurde. Diese gespeicherten Koeffizienten H10, H20, H30 liefern im Regelfall eine deutlich bessere Radiosignal-Kompensation als die unter dem störenden Einfluß der Spracheingabe sich ständig ändernden aktuellen Koeffizienten H, H2, H3.The embodiment described below with reference to FIG. 8 is based on the following basic idea: a suitable one Feature serves as an indicator along with a threshold for voice input. Falls below the characteristic the threshold, so this is a sign of missing Voice input. In this case - as stated above - A largely undisturbed filter adaptation. With voice input, the filter coefficient set is now used resorted to the immediately before the Threshold crossing - i.e. at the end of the previous one Speech pause - was saved. This saved Coefficients H10, H20, H30 usually provide a clear better radio signal compensation than that under the disturbing influence of voice input is constantly changing current coefficients H, H2, H3.
Fig. 8 stellt eine Ausführung mit einer weiter verbesserten FLMS-Verarbeitung mit 3 Teilfiltern dar. Neben den schon in Fig. 7 vorhandenen aktuellen Filterkoeffizientenvektoren H1, H2, H3, welche zur Bildung des fortlaufend adoptierten Ausgangssignals y-R benötigt wurden, existiert nun ein zusätzliches Ausgangssignal (y-Ro), das unter Verwendung gespeicherter Koeffizienten H10, H20, H30 gebildet ist. Die aktuellen Koeffizientensätze H1, H2, H3 stellen nur bei fehlender Spracheingabe im eingeschwungenen Zustand ein brauchbares Kompensationsfilter im Frequenzbereich dar, liefern hingegen bei Spracheingabe ungenügende Filtereigenschaften, weil der Adaptionsprozeß in der Regelschleife ständig gestört wird. Bei fehlender Spracheingabe d.h. hoher Filterqualität sind die drei Schalter geschlossen und es werden die aktuellen Koeffizientensätze in die Koeffizientenspeicher M1, M2, M3 geschrieben: H10=H1, H20=H2, H30=H3. Die Ausgänge (y-Ro) und (y-Ra) sind identisch. Einsetzende Spracheingaben bewirken ein Öffnen der 3 Schalter, wodurch die zuletzt in den Speichern M1, M2, M3 befindlichen Koeffizienten H10, H20, H30 nicht mehr überschrieben werden und unverändert bleiben. Dieser Zustand, in welchem sich die Ausgänge (Y-Ro) und (Y-Ra) unterschieden, wird solange beibehalten, bis wieder eine Sprachpause detektiert und die Schalter geschlossen werden.Fig. 8 shows an embodiment with a further improved FLMS processing with 3 partial filters. In addition to the already in Fig. 7 existing current filter coefficient vectors H1, H2, H3, which were continuously adopted to form the Output signal y-R were required, there is now an additional one Output signal (y-Ro) that is stored using Coefficients H10, H20, H30 is formed. The current coefficient sets H1, H2, H3 only provide missing speech input in the steady state usable compensation filter in the frequency domain, on the other hand provide inadequate filter properties for voice input, because the adaptation process in the control loop is constantly disturbed. If there is no voice input, i.e. The three switches are closed and of high filter quality the current coefficient sets are stored in the coefficient memory M1, M2, M3 written: H10 = H1, H20 = H2, H30 = H3. The outputs (y-Ro) and (y-Ra) are identical. Inserting Voice inputs open the 3 switches, whereby the last ones in the memories M1, M2, M3 Coefficients H10, H20, H30 no longer overwritten will and remain unchanged. This state in which the outputs (Y-Ro) and (Y-Ra) differ hold until a speech pause is detected again and the switches are closed.
Als Sprachpausenmerkmal fea hat sich die geglättete Summe aller Absolutwerte der Koeffizientenkorrekturvektoren ΔH1', ΔH2', ΔH3' bewährt (Fig. 8a). Diese Größe ist gleich Null bzw. weist kleine Zahlenwerte auf, wenn es keinen oder nur einen geringen Bedarf gibt, die Koeffizienten abzuändern. In Sprachpausen ist dies der Fall, der Regelkreis ist praktisch eingeschwungen. Störungen, wie sie durch Spracheingabe - aber auch durch Bewegungen der Fahrzeuginsassen - hervorgerufen werden, haben einen erhöhten Nachregelbedarf zur Folge, was sich durch entsprechend große Zahlenwerte bei ΔH1', ΔH2', ΔH3' und somit beim Merkmal fea bemerkbar macht. Ein Glättungsfilter beispielsweise ein rekursiver Tiefpaß 1. Ordnung mit dem Eingang feat stellt an seinem Ausgang das geglättete Sprachpausen-Merkmal fea zur Verfügung, welches nach Vergleich mit einem Schwellwert th die Schalter für die Koeffizientenübernahme steuert.The smoothed sum has become the speech pause feature fea all absolute values of the coefficient correction vectors ΔH1 ', ΔH2 ', ΔH3' proven (Fig. 8a). This size is zero or has small numerical values if there is none or only there is little need to change the coefficients. This is the case during breaks in speech, the control loop is practical steady. Disorders such as those caused by voice input - but also by movements of the vehicle occupants - have an increased need for readjustment result, which is characterized by correspondingly large numerical values noticeable with ΔH1 ', ΔH2', ΔH3 'and thus with the characteristic fea makes. A smoothing filter, for example, a recursive one 1st order low pass with the feat input on his Output the smoothed speech pause feature fea is available, which after comparison with a threshold value th the Switch for coefficient acceptance controls.
Die Wirkungsweise des verbesserten FLMS-Algorithmus nach
Fig. 8 demonstriert Fig. 13. Oben ist das aufgezeichnete
Signal y der Szene Z1 (vgl. Fig. 11 oben) dargestellt, unten
das gewonnene Ausgangssignal. Schon der visuelle Vergleich
der Ausgangssignale von Fig. 13 und Fig. 11 zeigt
die verbesserte Herausarbeitung der Sprachpassagen. Der
vergleichende Hörtest bestätigt dies: auch während der
Spracheingabe ist die Musikunterdrückung deutlich besser.
Den Verlauf des Sprachpausenmerkmals und der konstanten
Schwelle über der Zeit (hier in FFT-Blöcken skaliert) zeigt
Fig. 14 oben. In den durch die Schwellenunterschreitung
detektierten Sprachpausen (Fig. 14 unten) findet laufend
die Übernahme der Koeffizienten in die Speicher wie beschrieben
statt, um dort während der Spracheingabe als
gespeicherte Koeffizienten zur Verfügung zu stehen. Die
schon in Fig. 12 am Szenenende gemessene 384-sample-Impulsantwort
mit zugehöriger Betragsübertragungsfunktion ist
in Fig. 15 als aktuelle Impulsantwort (a) bzw. aktuelle
Übertragungsfunktion (b) dargestellt. Im Gegensatz zu dieser
infolge Spracheingabe stark gestörten Schätzung aus den
aktuellen Koeffizienten H1, H2, H3 ist aus den gespeicherten
Koeffizienten H10, H20, H30 eine Impulsantwort (c) und
eine Übertragungsfunktion (d) hoher Qualität berechenbar.
Die Impulsantwort aus den gespeicherten Koeffizienten weist
die typischen Nullsamples am Anfang auf, welche durch die
Laufzeit des Direktschalls vom Radiolautsprecher zum
Spracheingabemikrophon verursacht werden. Aus der im Beispielsfall
abzulesenden Totzeit von ca. 40 samples läßt
sich die Entfernung zwischen Lautsprecher und Mikrophon
bestimmen.How the improved FLMS algorithm works
Figure 8 demonstrates Figure 13. Above is the recorded one
Signal y of scene Z1 (see FIG. 11 above) shown below
the output signal obtained. Already the visual comparison
of the output signals of FIGS. 13 and 11
the improved elaboration of the language passages. Of the
comparative hearing test confirms this: also during the
Voice input is much better at music rejection.
The course of the speech pause feature and the constant
Threshold over time (scaled here in FFT blocks) shows
Fig. 14 above. In the fall below the threshold
detected speech pauses (Fig. 14 below) takes place continuously
the transfer of the coefficients into the memory as described
instead of being there during voice input
stored coefficients are available. The
384 sample impulse response measured at the end of the scene in FIG
with associated
Wie vorstehend schon angedeutet läßt sich die aufwendige
Projektion P4 (IFFT, Fenster rechts im Zeitbereich, FFT)
ohne merkliche Einbuße an Qualität durch eine relativ einfache
Faltung im Frequenzbereich ersetzten, wodurch 2 FFT's
eingespart werden. Dazu betrachte man Fig. 16. In einem
ersten Schritt wird das "rechtsseitige" 128-sample-Rechteckfenster
im Zeitbereich (Fig. 16a) bei der idealen Projektion
ersetzt durch ein 128-sample-Hammingfenster (Fig.
16b). Gegenüber dem Rechteckfenster besitzt dieses den Vorteil
eines bedeutend schmaleren Spektrums. Wie Fig. 17
zeigt, besteht beim Rechteckfenster der Realteil des Spektrums
aus einer einzigen Linie (Gleichanteil), während das
zur Mitte antisymmetrische Imaginärteil-Spektrum aus vielen
nach außen hin langsam abfallenden Linien mit alternierenden
Nullstellen besteht. Im Gegensatz dazu beschränkt sich
das komplexe Spektrum des Hammingfensters (Fig. 18) auf
insgesamt 7 Linien, von denen im symmetrischen Realteil nur
3 und im antisymmetrischen Imaginärteil nur 4 Werte von
Null verschieden sind. Sämtliche weiter außen liegenden Anteile
sind vernachlässigbar gering. Diese spezielle Eigenschaft
des Hammingfensters ermöglicht es vorteilhafterweise
die Multiplikation im Zeitbereich (Fig. 16b) zu ersetzen
durch eine Faltung mit dem zugehörigen 7-sample-Spektrum im
Frequenzbereich und damit eine IFFT und eine FFT einzusparen
(Fig. 16c).As already indicated above, the complex
Projection P4 (IFFT, window on the right in the time domain, FFT)
without noticeable loss of quality due to a relatively simple
Replacing convolution in the frequency domain, resulting in 2 FFT's
be saved. Consider Fig. 16. In one
The first step is the "right-hand" 128-sample rectangular window
in the time domain (Fig. 16a) with the ideal projection
replaced by a 128-sample Hamming window (Fig.
16b). This has the advantage over the rectangular window
of a significantly narrower spectrum. Like Fig. 17
shows, the real part of the spectrum exists in the rectangular window
from a single line (DC component), while the
middle antisymmetric imaginary part spectrum from many
lines slowly descending towards the outside with alternating lines
Zeros exist. In contrast, it is limited
the complex spectrum of the Hamming window (Fig. 18)
a total of 7 lines, of which only in the symmetrical
Prinzipiell läßt sich natürlich auch die Projektion P1
(IFFT - linksseitiges Rechteckfenster - FFT) ersetzen durch
eine entsprechende Faltungsoperation im Frequenzbereich mit
dem konjugiert komplexen 7-Linien-Spektrum. Experimente
haben jedoch gezeigt, daß Einsparungen an dieser Stelle
erkauft werden mit einer deutlichen Verschlechterung des
Einschwingverhaltens. Aufwandsgünstige Lösungen lassen sich
trotzdem dadurch erzielen, daß in dem LMS-Algorithmus nach
Fig. 8 die 3 Projektionen P1 nicht gleichzeitig in einem
256-sample-Inputdatenblock abgearbeitet werden müssen. Die
mit 128-samples überlappenden Inputdatenblöcke der Länge
256 sind mit einer willkürlich bei "1" beginnenden Nummerierung
in Fig. 19a skizziert. So ist es z.B. möglich bei
modulo-3-Zählweise der Inputdatenblöcke die 3 Teilfilterprojektionen
nicht parallel (Fig. 19b) sondern sequentiell
in aufeinanderfolgenden Blöcken Fig. 19 zu berechnen. Dadurch
sind bei idealer Projektion P1 pro Datenblock nicht 6
sondern nur noch 2 FFT's notwendig. Es hat sich gezeigt,
daß die Kompensation des Radiosignales auch noch ausreichend
funktioniert, wenn die Abstände zwischen den zu berechnenden
Teilfilter-Projektionen noch größer gewählt werden.
Zählt man die Blöcke z.B. modulo 6, so ist lediglich
in jedem zweiten Block eine Projektion Zu berechnen (Fig.
19d). Selbst eine Reduzierung auf einen Abstand von vier
Blöcken zwischen zwei aufeinanderfolgenden P1 Berechnungen
mittels modulo-12-Zählung führt noch zu brauchbaren Ergebnissen
(Fig. 19e).In principle, the projection P1 can of course also be used
(IFFT - left-sided rectangular window - FFT) replace with
a corresponding convolution operation in the frequency domain
the conjugate complex 7-line spectrum. Experiments
have shown, however, savings at this point
be bought with a significant deterioration in the
Transient response. Effortless solutions can be
nevertheless achieve by following in the
Die Leistungsfähigkeit des FLMS-Algorithmus mit 3 Teilfiltern gemäß Blockschaltung Fig. 8 und einer sequentiellen Berechnung der idealen Projektion P1 im Zeitraster nach Fig. 19e sowie der Projektion P2 mittels Faltung im Frequenzbereich (Fig. 16c) mit einem komplexen 7-Linien-Spektrum (Fig. 18) sei anhand von 3 Meßszenen demonstriert.The performance of the FLMS algorithm with 3 sub-filters according to block circuit Fig. 8 and a sequential Calculation of the ideal projection P1 according to the time grid 19e and the projection P2 by means of convolution in the frequency domain (Fig. 16c) with a complex 7-line spectrum (Fig. 18) will be demonstrated using 3 measurement scenes.
Die erste dieser Szenen Z2 beinhaltet Spracheingabe von Ziffern, wobei der Radiolautsprecher annähernd weißes Rauschen mit verhältnismäßig hoher Lautstärke abstrahlt. Das zugehörige 100000-sample-Mikrophonsignal ist in Fig. 20 oben, das extrahierte Ausgangssignal in Fig. 20 unten dargestellt. Eine deutliche Rauschbefreiung des Outputsignales gegenüber dem Mikrophoninput stellt man durch Abhörvergleich fest. Der zeitliche Verlauf des Sprachpausenmerkmals ist zusammen mit der konstanten Schwelle th Fig. 21 oben abgebildet und die hieraus abgeleiteten Sprachpausen bzw. die zugeordneten Schalterstellungen in Fig. 21 unten. Schließlich zeigt Fig. 22 in zu Fig. 15 analoger Weise die am Szenenende gefundene Impulsantwort (a) und Übertragungsfunktion (b) auf der Basis der aktuellen Koeffizienten und die entsprechenden Größen (c), (d) auf der Basis der Sprachpauseneinstellung. Es ist deutlich erkennbar, daß die am Szenenende gefundene aktuelle Impulsantwort ein infolge Spracheingabe gestörtes Ergebnis darstellt, während die aus der letzten Sprachpause stammende Impulsantwort aus den gespeicherten Koeffizientensätzen eine hohe Qualität aufweist. The first of these scenes Z2 includes voice input from Digits, the radio speaker almost white Noise emits at a relatively high volume. The associated 100000 sample microphone signal is in Fig. 20 above, the extracted output signal is shown in Fig. 20 below. A clear release of noise from the output signal compared to the microphone input is made by listening comparison firmly. The time course of the speech pause feature is up along with the constant threshold th Fig. 21 mapped and the derived language breaks or the assigned switch positions in Fig. 21 below. Finally, FIG. 22 shows the in an analogous manner to FIG impulse response (a) and transfer function found at the end of the scene (b) based on the current coefficients and the corresponding sizes (c), (d) based on the Speech pause setting. It is clearly recognizable that the current impulse response found at the end of the scene Speech input represents disturbed result while the out the impulse response from the last speech pause stored coefficient sets has a high quality.
Die ersten 100000 samples einer Meßszene Z3 mit POP-Musik im Radio und flüssig bis schnell gesprochener Sprache der rechts hinten sitzenden Person sind in Form des Mikrophonsignales y in Fig. 23 oben aufgezeichnet. Nach ca. 10000 samples (0,83 s) wird das Radiosignal brauchbar unterdrückt (Fig. 23 unten). Auch bei der im letzten Drittel dieser Szene einsetzenden Spracheingabe bleibt die POP-Musikunterdrückung wirksam erhalten, wodurch die Sprachverständlichkeit hier gegenüber dem Mikrophonsignal merklich verbessert wird. Nach einer langen Sprachpause kommt es wegen der anschließenden pausenfreien Spracheingabe nicht mehr zu einer Schwellenunterschreitung (Fig. 24). Aus diesem Grunde ist die in Fig. 25 unten am Ende der Szene festgehaltene Impulsantwort auf der Basis der gespeicherten Koeffizienten zeitlich relativ veraltet, weil sie bereits ca. 2,3 s vorher aktuell war (215 Blöcke * 10,7 ms). Wieder weist die aktuelle Impulsantwort (Fig. 25 oben) starke von der Spracheingabe herrührende Störungen auf. Wie ein Vergleich mit der ähnlichen Szene Z1 nach Figuren 11 bis 15 zeigt, ist trotz des stark verringerten Rechenaufwandes die Qualität der Störbefreiung unverändert hoch.The first 100000 samples of a measuring scene Z3 with POP music on the radio and fluent to quickly spoken language of the The person sitting on the right rear is in the form of a microphone signal y recorded in Fig. 23 above. After about 10,000 samples (0.83 s) the radio signal is suppressed usably (Fig. 23 below). Even in the last third of this POP music suppression remains when voice input begins effectively preserved, making speech intelligibility noticeably improved here compared to the microphone signal becomes. After a long pause in speech, it comes because of the subsequent one non-stop voice input to one Falling below threshold (Fig. 24). This is why the impulse response recorded at the bottom of the scene in Fig. 25 based on the stored coefficients Relatively obsolete in time because it was already approx was current (215 blocks * 10.7 ms). Again, the current impulse response (Fig. 25 above) strong from the Interference arising from voice input. Like a comparison with the similar scene Z1 according to FIGS. 11 to 15, is the quality despite the greatly reduced computing effort the interference exemption remains high.
Die letzte Szene Z4 nach Fig. 26 wurde ohne Spracheingabe erstellt und soll abschließend nochmals die Musikunterdrückungseigenschaften des beschriebenen FLMS-Algorithmus demonstrieren. Nach ca. 18000 samples bzw. 1,5 s wird - wie aus Fig. 26 unten ersichtlich - die Musik wirksam unterdrückt. Diese Eigenschaft wird bis zum Szenenende mit unveränderter Qualität beibehalten. Fig. 27 zeigt auf, daß das Sprachpausen-Größe fea überwiegend unter der Schwelle th bleibt. Die Zeiten, in welchen auf die gespeicherten Koeffizienten zurückgegriffen wird, sind demnach nur sehr kurz. Impulsantwort und Übertragungsfunktion aus aktuellen Koeffizienten sind daher im wesentlichen mit den entsprechenden Verläufen aus Sprachpausen-Koeffizienten identisch.The last scene Z4 according to FIG. 26 was without speech input finally creates and is supposed to again the music suppression properties of the FLMS algorithm described to demonstrate. After about 18000 samples or 1.5 s - how seen from Fig. 26 below - the music effectively suppressed. This property is unchanged until the end of the scene Maintain quality. Fig. 27 shows that the speech pause size fea predominantly below the threshold th remains. The times when the saved Coefficients are therefore used only very much short. Impulse response and transfer function from current Coefficients are therefore essentially the same Course from speech pause coefficients identical.
Claims (12)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19814971A DE19814971A1 (en) | 1998-04-03 | 1998-04-03 | Procedure for the elimination of interference from a microphone signal |
DE19814971 | 1998-04-03 |
Publications (3)
Publication Number | Publication Date |
---|---|
EP0948237A2 true EP0948237A2 (en) | 1999-10-06 |
EP0948237A3 EP0948237A3 (en) | 2006-02-08 |
EP0948237B1 EP0948237B1 (en) | 2008-06-11 |
Family
ID=7863491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP99106123A Expired - Lifetime EP0948237B1 (en) | 1998-04-03 | 1999-04-01 | Method for noise suppression in a microphone signal |
Country Status (4)
Country | Link |
---|---|
US (1) | US6895095B1 (en) |
EP (1) | EP0948237B1 (en) |
AT (1) | ATE398326T1 (en) |
DE (2) | DE19814971A1 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2392796A (en) * | 2002-09-09 | 2004-03-10 | Ford Global Tech Llc | An audio noise cancellation apparatus for a sensor in an automative vehicle |
WO2006130668A3 (en) * | 2005-06-01 | 2007-05-03 | Bose Corp | Person monitoring |
EP1801788A1 (en) * | 2005-12-23 | 2007-06-27 | QNX Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
US8306821B2 (en) | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19958836A1 (en) * | 1999-11-29 | 2001-05-31 | Deutsche Telekom Ag | In car communication system has individual microphones and loudspeakers allows easy conversation |
DE10041885A1 (en) * | 2000-08-25 | 2002-03-07 | Mueller Bbm Gmbh | Speech signal transmission system e.g. for motor vehicle hands-free telephone, adjusts filter so that difference signal is minimum for given harmonic frequency |
DE10052991A1 (en) * | 2000-10-19 | 2002-05-02 | Deutsche Telekom Ag | Determining spatial acoustic and electroacoustic parameters, involves conducting signal conversion steps in room with sound source, electroacoustic converters in predefined arrangement |
DE10221990B4 (en) * | 2002-05-17 | 2006-10-12 | Audi Ag | Reduction of noise on car radios with bus connections |
JP2005218010A (en) * | 2004-02-02 | 2005-08-11 | Matsushita Electric Ind Co Ltd | Vehicle data transmission system |
EP1848243B1 (en) * | 2006-04-18 | 2009-02-18 | Harman/Becker Automotive Systems GmbH | Multi-channel echo compensation system and method |
EP1855456B1 (en) * | 2006-05-08 | 2009-10-14 | Harman/Becker Automotive Systems GmbH | Echo reduction in time-variant systems |
ATE436151T1 (en) * | 2006-05-10 | 2009-07-15 | Harman Becker Automotive Sys | COMPENSATION OF MULTI-CHANNEL ECHOS THROUGH DECORRELATION |
EP1879181B1 (en) * | 2006-07-11 | 2014-05-21 | Nuance Communications, Inc. | Method for compensation audio signal components in a vehicle communication system and system therefor |
US20080063122A1 (en) * | 2006-09-07 | 2008-03-13 | Gwo-Jia Jong | Method for suppressing co-channel interference from different frequency |
ATE522078T1 (en) * | 2006-12-18 | 2011-09-15 | Harman Becker Automotive Sys | LOW COMPLEXITY ECHO COMPENSATION |
US7577257B2 (en) * | 2006-12-21 | 2009-08-18 | Verizon Services Operations, Inc. | Large scale quantum cryptographic key distribution network |
US20080225688A1 (en) * | 2007-03-14 | 2008-09-18 | Kowalski John M | Systems and methods for improving reference signals for spatially multiplexed cellular systems |
EP1995940B1 (en) * | 2007-05-22 | 2011-09-07 | Harman Becker Automotive Systems GmbH | Method and apparatus for processing at least two microphone signals to provide an output signal with reduced interference |
EP2018034B1 (en) * | 2007-07-16 | 2011-11-02 | Nuance Communications, Inc. | Method and system for processing sound signals in a vehicle multimedia system |
EP2222091B1 (en) * | 2009-02-23 | 2013-04-24 | Nuance Communications, Inc. | Method for determining a set of filter coefficients for an acoustic echo compensation means |
EP2733699B1 (en) * | 2011-10-07 | 2017-09-06 | Panasonic Intellectual Property Corporation of America | Scalable audio encoding device and scalable audio encoding method |
DE102014214143B4 (en) * | 2014-03-14 | 2015-12-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing a signal in the frequency domain |
US20180166073A1 (en) * | 2016-12-13 | 2018-06-14 | Ford Global Technologies, Llc | Speech Recognition Without Interrupting The Playback Audio |
EP3563561B1 (en) * | 2016-12-30 | 2025-04-02 | Harman Becker Automotive Systems GmbH | Acoustic echo canceling |
DE102017101497B4 (en) | 2017-01-26 | 2020-08-27 | Infineon Technologies Ag | Micro-electro-mechanical system (MEMS) circuit and method for reconstructing a disturbance variable |
DE102018204687B3 (en) * | 2018-03-27 | 2019-06-13 | Infineon Technologies Ag | MEMS microphone module |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8601604A (en) * | 1986-06-20 | 1988-01-18 | Philips Nv | FREQUENCY DOMAIN BLOCK-ADAPTIVE DIGITAL FILTER. |
JP2748626B2 (en) * | 1989-12-29 | 1998-05-13 | 日産自動車株式会社 | Active noise control device |
US5649012A (en) * | 1995-09-15 | 1997-07-15 | Hughes Electronics | Method for synthesizing an echo path in an echo canceller |
US5937060A (en) * | 1996-02-09 | 1999-08-10 | Texas Instruments Incorporated | Residual echo suppression |
JP3654470B2 (en) * | 1996-09-13 | 2005-06-02 | 日本電信電話株式会社 | Echo canceling method for subband multi-channel audio communication conference |
-
1998
- 1998-04-03 DE DE19814971A patent/DE19814971A1/en not_active Withdrawn
-
1999
- 1999-04-01 DE DE59914782T patent/DE59914782D1/en not_active Expired - Lifetime
- 1999-04-01 EP EP99106123A patent/EP0948237B1/en not_active Expired - Lifetime
- 1999-04-01 AT AT99106123T patent/ATE398326T1/en not_active IP Right Cessation
- 1999-04-02 US US09/285,064 patent/US6895095B1/en not_active Expired - Lifetime
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2392796A (en) * | 2002-09-09 | 2004-03-10 | Ford Global Tech Llc | An audio noise cancellation apparatus for a sensor in an automative vehicle |
US8543390B2 (en) | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
US7949520B2 (en) | 2004-10-26 | 2011-05-24 | QNX Software Sytems Co. | Adaptive filter pitch extraction |
US8150682B2 (en) | 2004-10-26 | 2012-04-03 | Qnx Software Systems Limited | Adaptive filter pitch extraction |
US8170879B2 (en) | 2004-10-26 | 2012-05-01 | Qnx Software Systems Limited | Periodic signal enhancement system |
US8306821B2 (en) | 2004-10-26 | 2012-11-06 | Qnx Software Systems Limited | Sub-band periodic signal enhancement system |
US7525440B2 (en) | 2005-06-01 | 2009-04-28 | Bose Corporation | Person monitoring |
WO2006130668A3 (en) * | 2005-06-01 | 2007-05-03 | Bose Corp | Person monitoring |
EP1801788A1 (en) * | 2005-12-23 | 2007-06-27 | QNX Software Systems (Wavemakers), Inc. | Advanced periodic signal enhancement |
US8850154B2 (en) | 2007-09-11 | 2014-09-30 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8904400B2 (en) | 2007-09-11 | 2014-12-02 | 2236008 Ontario Inc. | Processing system having a partitioning component for resource partitioning |
US9122575B2 (en) | 2007-09-11 | 2015-09-01 | 2236008 Ontario Inc. | Processing system having memory partitioning |
US8694310B2 (en) | 2007-09-17 | 2014-04-08 | Qnx Software Systems Limited | Remote control server protocol system |
US8209514B2 (en) | 2008-02-04 | 2012-06-26 | Qnx Software Systems Limited | Media processing system having resource partitioning |
Also Published As
Publication number | Publication date |
---|---|
ATE398326T1 (en) | 2008-07-15 |
EP0948237B1 (en) | 2008-06-11 |
DE59914782D1 (en) | 2008-07-24 |
DE19814971A1 (en) | 1999-10-07 |
EP0948237A3 (en) | 2006-02-08 |
US6895095B1 (en) | 2005-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0948237B1 (en) | Method for noise suppression in a microphone signal | |
DE69529328T2 (en) | Method and apparatus for noise suppression in a speech signal and corresponding system with echo cancellation | |
DE69738288T2 (en) | DEVICE FOR SUPPRESSING A DISTURBING COMPONENT OF AN INPUT SIGNAL | |
EP0747880B1 (en) | System for speech recognition | |
DE2207141C3 (en) | Circuit arrangement for suppressing unwanted speech signals by means of a predictive filter | |
DE102006027673A1 (en) | Signal isolator, method for determining output signals based on microphone signals and computer program | |
DE102008039329A1 (en) | An apparatus and method for calculating control information for an echo suppression filter and apparatus and method for calculating a delay value | |
DE19747885A1 (en) | Process for the reduction of acoustic signal interference using the adaptive filter method of spectral subtraction | |
EP1143416A2 (en) | Time domain noise reduction | |
DE112007003625T5 (en) | Echo cancellation device, echo cancellation system, echo cancellation method and computer program | |
DE102007030209A1 (en) | smoothing process | |
EP1189419B1 (en) | Method and device for eliminating the loudspeaker interference on microphone signals | |
EP3065417B1 (en) | Method for suppressing interference noise in an acoustic system | |
EP2080197B1 (en) | Apparatus for noise suppression in an audio signal | |
DE102015222105A1 (en) | Audio signal processing in a vehicle | |
DE69525396T2 (en) | Method for blind equalization and its use for speech recognition | |
DE102013011761A1 (en) | Motor vehicle has estimating unit and background noise spectrum unit that are designed to open dynamic filter with low background noise and close with strong background noise | |
DE60304147T2 (en) | Virtual microphone arrangement | |
EP0695045B1 (en) | Echo canceller using short time spectral analysis | |
DE10137348A1 (en) | Noise filtering method in voice communication apparatus, involves controlling overestimation factor and background noise variable in transfer function of wiener filter based on ratio of speech and noise signal | |
DE3230391C2 (en) | ||
EP0615226A2 (en) | Method for noise reduction in disturbed voice drannels | |
EP1282297B1 (en) | Method and apparatus for echo and noise suppression | |
DE10140523B4 (en) | Device for feedback canceling the output of microphone signals through loudspeakers | |
DE10016619A1 (en) | Interference component lowering method involves using adaptive filter controlled by interference estimated value having estimated component dependent on reverberation of acoustic voice components |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: DAIMLERCHRYSLER AG |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS (BECKER DIVISION) |
|
RAP1 | Party data changed (applicant data changed or rights of an application transferred) |
Owner name: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE |
|
AX | Request for extension of the european patent |
Extension state: AL LT LV MK RO SI |
|
17P | Request for examination filed |
Effective date: 20060807 |
|
AKX | Designation fees paid |
Designated state(s): AT CH DE ES FR GB IT LI NL SE |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
17Q | First examination report despatched |
Effective date: 20070803 |
|
RIC1 | Information provided on ipc code assigned before grant |
Ipc: H04R 3/00 20060101ALI20070927BHEP Ipc: G10L 21/02 20060101AFI20070927BHEP |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT CH DE ES FR GB IT LI NL SE |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REF | Corresponds to: |
Ref document number: 59914782 Country of ref document: DE Date of ref document: 20080724 Kind code of ref document: P |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080611 |
|
NLV1 | Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act | ||
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080911 Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080922 |
|
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
26N | No opposition filed |
Effective date: 20090312 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: AT Payment date: 20090401 Year of fee payment: 11 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: CH Payment date: 20090427 Year of fee payment: 11 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20100401 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20100430 Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20100430 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 59914782 Country of ref document: DE Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R082 Ref document number: 59914782 Country of ref document: DE Representative=s name: GRUENECKER PATENT- UND RECHTSANWAELTE PARTG MB, DE Effective date: 20120411 Ref country code: DE Ref legal event code: R082 Ref document number: 59914782 Country of ref document: DE Representative=s name: GRUENECKER, KINKELDEY, STOCKMAIR & SCHWANHAEUS, DE Effective date: 20120411 Ref country code: DE Ref legal event code: R081 Ref document number: 59914782 Country of ref document: DE Owner name: NUANCE COMMUNICATIONS, INC. (N.D.GES.D. STAATE, US Free format text: FORMER OWNER: HARMAN BECKER AUTOMOTIVE SYSTEMS GMBH, 76307 KARLSBAD, DE Effective date: 20120411 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: TP Owner name: NUANCE COMMUNICATIONS, INC., US Effective date: 20120924 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 18 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 19 |
|
REG | Reference to a national code |
Ref country code: FR Ref legal event code: PLFP Year of fee payment: 20 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: FR Payment date: 20180426 Year of fee payment: 20 Ref country code: IT Payment date: 20180420 Year of fee payment: 20 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20180629 Year of fee payment: 20 Ref country code: GB Payment date: 20180427 Year of fee payment: 20 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R071 Ref document number: 59914782 Country of ref document: DE |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: PE20 Expiry date: 20190331 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: GB Free format text: LAPSE BECAUSE OF EXPIRATION OF PROTECTION Effective date: 20190331 |