DE69522605T2 - Verfahren zur Rauschreduktion eines Sprachsignals und zur Detektion des Rauschbereichs - Google Patents
Verfahren zur Rauschreduktion eines Sprachsignals und zur Detektion des RauschbereichsInfo
- Publication number
- DE69522605T2 DE69522605T2 DE69522605T DE69522605T DE69522605T2 DE 69522605 T2 DE69522605 T2 DE 69522605T2 DE 69522605 T DE69522605 T DE 69522605T DE 69522605 T DE69522605 T DE 69522605T DE 69522605 T2 DE69522605 T2 DE 69522605T2
- Authority
- DE
- Germany
- Prior art keywords
- value
- noise
- speech
- rms
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 36
- 230000009467 reduction Effects 0.000 title description 16
- 238000001514 detection method Methods 0.000 title description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 14
- 230000001629 suppression Effects 0.000 claims description 13
- 238000009499 grossing Methods 0.000 claims description 9
- 238000013016 damping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 description 30
- 230000006870 function Effects 0.000 description 17
- 238000001228 spectrum Methods 0.000 description 16
- 230000007774 longterm Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000009291 secondary effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 102100023397 tRNA dimethylallyltransferase Human genes 0.000 description 1
- 101710103876 tRNA dimethylallyltransferase Proteins 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02168—Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Noise Elimination (AREA)
- Time-Division Multiplex Systems (AREA)
Description
- Die Erfindung betrifft ein Verfahren zum Reduzieren des Rauschens in Sprachsignalen und ein Verfahren zum Detektieren des Rauschbereichs. Sie betrifft insbesondere ein Verfahren zum Reduzieren des Rauschens in Sprachsignalen, bei dem eine Rauschunterdrückung durch adaptives Steuern eines Maximum-Likelihood-Filters für die Berechnung von Sprachkomponenten auf der Basis der Wahrscheinlichkeit des Vorkommens von Sprache und des S/N-Verhältnisses (SNR) erfolgt, das seinerseits auf der Basis der Eingangs-Sprachsignale berechnet wird, und ein Verfahren zur Detektierung des Rauschbereichs, das sich für die Anwendung in dem Rauschreduzierungsverfahren eignet.
- Es erscheint notwendig, in mobilen Telefonen oder bei der Spracherkennung das in den aufgenommenen Sprachsignalen enthaltene Umgebungs- oder Hintergrundgeräusch zu unterdrücken und die Sprachkomponenten zu verbessern.
- In R.J. McAulay und M.L. Malpass, "Speech Enhancement Using a Soft-Decision Noise Suppression Filter", IEEE Trans. Acoust, Speech, Signal Processing, Bd. 28, Seiten 137-145, April 1980 und J. Yang, "Frequency Domain Noise Suppression Approach in Mobile Telephone System", IEEE ICASSP, Bd. II, Seiten 363-366, April 1993 sind Verfahren zum Verbessern der Sprache oder zur Geräuschreduzierung beschrieben, bei denen eine bedingte Wahrscheinlichkeitsfunktion zum Justieren des Dämpfungsfaktors benutzt wird.
- Bei diesen Geräuschunterdrückungsverfahren kann es häufig vorkommen, daß durch ein unpassendes festes Signal-/Rausch-Verhältnis (S/N-Verhältnis) oder einen unpassenden Unterdrückungsfaktor ein unnatürlicher Sprachklang oder verzerrte Sprache entstehen. Bei der praktischen Anwendung ist es unerwünscht, daß der Benutzer das S/N-Verhältnis zu justieren hat, das zu den Parametern des Rauschunterdrückungssystems gehört, mit denen sich eine optimale Leistung erzielen läßt. Es ist außerdem bei den herkömmlichen Verfahren zur Sprachsignalverbesserung schwierig, das Rauschen hinreichend zu beseitigen, ohne daß gleichzeitig die Sprachsignale verzerrt werden, die für große Fluktuationen in dem Kurzzeit- S/N-Verhältnis anfällig sind.
- Bei dem oben beschriebenen Verfahren zur Sprachverbesserung oder zur Geräuschreduzierung wird eine Methode zum Detektieren des Rauschbereichs benutzt, bei der der Eingangspegel oder die Eingangsleistung mit einem voreingestellten Schwellwert verglichen wird, um den Rauschbereich zu diskriminieren. Wenn man die Zeitkonstante des Schwellwerts vergrößert, um zu verhindern, daß er der Sprache folgt, wird es jedoch unmöglich, Änderungen des Geräuschpegels, insbesondere einer Erhöhung des Geräuschpegels, zu folgen, was zu einer fehlerhaften Diskriminierung führt.
- Gemäß vorliegender Erfindung ist ein Verfahren zum Reduzieren des Geräuschs eines Eingangssprachsignals vorgesehen, wobei bei diesem Verfahren die Rauschunterdrückung durch adaptives Steuern eines Maximum-Likelihood-Filters erfolgt, das für die Berechnung von Sprachkomponenten auf der Basis der Wahrscheinlichkeit des Vorkommens von Sprache und des auf der Basis des Eingangssprachsignals berechneten S/N-Verhältnisses ausgelegt ist, wobei das Verfahren gekennzeichnet ist durch die Verwendung der Differenz zwischen dem Spektralwert des Eingangssprachsignals und dem Spektralwert eines geschätzten Geräuschs bei der Berechnung der Wahrscheinlichkeit des Vorkommens von Sprache.
- Vorzugsweise wird bei der Berechnung der Wahrscheinlichkeit des Vorkommens von Sprache von der oben genannten Differenz des Spektralwerts oder einem voreingestellten Wert der jeweils größere Wert benutzt.
- Vorteilhafterweise wird von dem Wert der oben definierten Differenz oder einem voreingestellten Wert der jeweils größere für den laufenden Rahmen und für einen früheren Rahmen berechnet, der Wert für den früheren Rahmen mit einem voreingestellten Dämpfungskoeffizienten multipliziert, und bei der Berechnung der Wahrscheinlichkeit des Vorkommens von Sprache von dem Wert für den laufenden Rahmen oder dem mit dem voreingestellten Dämpfungskoeffizienten multiplizierten Wert für den früheren Rahmen der jeweils größere benutzt.
- Ausführungsbeispiele der Erfindung stellen ein Verfahren zum Reduzieren des Geräuschs in Sprachsignalen zur Verfügung, bei dem der Unterdrückungsfaktor auf einen Wert justiert wird, der bezüglich des S/N-Verhältnisses des tatsächlichen Eingangssignals in Abhängigkeit von den Eingangs-Sprachsignalen optimiert ist, wobei eine ausreichende Geräuscheliminierung erreicht werden kann, ohne daß als Sekundäreffekt Verzerrung erzeugt wird oder der Benutzer eine Vorjustierung vornehmen muß.
- Die charakteristischen Merkmale des Maximum-Likelihood-Filters werden vorteilhafterweise durch Glättungsfilterung entlang der Frequenzachse oder entlang der Zeitachse verarbeitet. Für die Glättungsfilterung entlang der Frequenzachse wird vorzugsweise ein Medianwert von charakteristischen Merkmalen des Maximum-Likelihood-Filters in dem betrachteten Frequenzbereich und von charakteristischen Merkmalen des Maximum-Likelihood-Filters in links und rechts benachbarten Frequenzbereichen benutzt.
- Das oben beschriebene Verfahren zur Detektierung des Rauschbereichs wird vorzugsweise in dem Verfahren zur Rauschreduzierung für Sprachsignale gemäß der Erfindung verwendet.
- Da die Wahrscheinlichkeit des Vorhandenseins von Sprache berechnet wird, indem der geschätzte Spektralwert des Geräuschs von dem Spektralwert des Eingangssignals subtrahiert wird und das Maximum-Likelihood-Filter auf der Basis der berechneten Wahrscheinlichkeit des Auftretens von Sprache adaptiv gesteuert wird, kann in Ausführungsbeispielen der Erfindung die Justierung auf einen optimalen Unterdrückungsfaktor in Abhängigkeit von dem S/N-Verhältnis des Eingangs-Sprachsignals erreicht werden, so daß der Benutzer vor der praktischen Anwendung keine Justierung durchführen muß.
- Im folgenden wird die Erfindung an Ausführungsbeispielen näher erläutert, wobei auf die anliegenden Zeichnungen Bezug genommen wird.
- Fig. 1 zeigt eine Blockschaltung zur Erläuterung einer Schaltungsanordnung zur Durchführung des Rauschreduzierungsverfahrens für Sprachsignale nach einem Ausführungsbeispiel der Erfindung,
- Fig. 2 zeigt ein Blockschaltbild eines Beispiels für eine Geräuschschätzschaltung, die in dem Ausführungsbeispiel von Fig. 1 benutzt wird,
- Fig. 3 zeigt eine Graphik, in der Beispiele für die Energie E[k] und die Dämpfungsenergie Edecay[k] in dem Ausführungsbeispiel von Fig. 1 dargestellt sind,
- Fig. 4 zeigt eine Graphik, in der Beispiele des Kurzzeit-RMS-Werts RMS[k], der minimalen Rausch-RMS-Werte MinNoise[k] und der maximalen RMS-Signalwerte MaxSignal[k] in dem Ausführungsbeispiel von Fig. 1 dargestellt sind,
- Fig. 5 zeigt eine Graphik, in der Beispiele für die relative Energie dBrel[k] in dB, den maximalen SNR-Wert MaxSNR[k] und dBthresrel[k] als einem der Schwellwerte für die Geräuschdiskriminierung dargestellt sind,
- Fig. 6 zeigt eine Graphik, in der der NR-Pegel [k] als Funktion dargestellt ist, die in Bezug auf den maximalen SNR-Wert Max SNR[k] in dem Ausführungsbeispiel von Fig. 1 definiert ist.
- Anhand der Zeichnungen wird ein bevorzugtes Ausführungsbeispiel des Rauschreduzierungsverfahrens für Sprachsignale gemäß der Erfindung näher erläutert. In Fig. 1 ist eine schematische Anordnung der Rauschreduzierungsvorrichtung zur Durchführung des Bauschreduzierungsverfahrens für Sprachsignale nach dem bevorzugten Ausführungsbeispiel der Erfindung in Form einer Blockschaltung dargestellt.
- In der Anordnung von Fig. 1 wird einem Eingang 11 ein Eingangssignal y[t] zugeführt, das eine Sprachkomponente und eine Geräuschkomponente enthält. Das Eingangssignal y[t], das ein digitales Signal mit der Abtastfrequenz FS ist, wird einer Rahmenbildungs-/Fensterschaltung 12 zugeführt, in der es in Rahmen unterteilt wird, deren Länge jeweils FS Abtastproben entspricht, so daß das Eingangssignal anschließend auf Rahmenbasis verarbeitet wird. Das Rahmenintervall, das die Größe der Rahmenverschiebung entlang der Zeitachse darstellt, umfaßt FL Abtastproben, so daß die (k + 1)-te Abtastprobe nach FL Abtastproben von dem K-ten Rahmen gestartet wird. Vor der Verarbeitung in einer Schaltung 13 zur schnellen Fourier-Transformation (FFT-Schaltung), der nachgeordneten Schaltung, führt die Rahmenbildungs-/Pensterschaltung 12 eine Fensterung der rahmenbasierten Signale mit einer Fensterfunktion Winput durch. Nach einer inversen FFT oder IPPT in der letzten Stufe für die Signalverarbeitung der rahmenbasierten Signale wird das Ausgangssignal durch Fensterung mit einer Fensterfunktion Woutput verarbeitet. Beispiele für die Fensterfunktionen Winput und Woutput sind in den folgenden Gleichungen (1) und (2) angegeben:
- Wenn die Abtastfrequenz FS gleich 8000 Hz = 8 kHz ist und das Rahmenintervall FI 80 und 160 Abtastproben umfaßt, beträgt das Rahmenintervall 10 ms bzw. 20 ms.
- Die FFT-Schaltung 13 führt an 256 Punkten eine FFT durch, um Frequenzspektrum-Amplitudenwerte zu erzeugen, die von einer Frequenzteilerschaltung 14 z. B. in 18 Bänder unterteilt werden. Die folgende Tabelle 1 zeigt Beispiele der Frequenzbereiche der betreffenden Bänder.
- 0 0-125Hz
- 1 125-250 Hz
- 2 250-375 Hz
- 3 375-563 Hz
- 4 563-750 Hz
- 5 750-938 Hz
- 6 938-1125 Hz
- 7 1125-1313 Hz
- 8 1313-1563 Hz
- 9 1563-1813 Hz
- 10 1813-2063 Hz
- 11 2063-2313 Hz
- 12 2313-2563 Hz
- 13 2563-2813 Hz
- 14 2813-3063 Hz
- 15 3063-3375 Hz
- 16 3375-3688 Hz
- 17 3688-4000 Hz
- Bei der Festsetzung dieser Frequenzbänder wurde berücksichtigt, daß die wahrnehmbare Auflösung des menschlichen Gehörsinns zu höheren Frequenzen hin kleiner wird. Als Amplituden der betreffenden Bereiche werden die maximalen FFT-Amplitude in dem betreffenden Frequenzbereichen verwendet.
- Eine Geräuschschätzschaltung 15 unterscheidet das Rauschen in dem Eingangssignal y[t] von der Sprache und detektiert einen Rahmen, der als Rauschen geschätzt wird. Das Schätzen des Rauschbereichs oder das Detektieren des Rauschrahmens erfolgt durch Kombinieren von drei Arten der Detektierung. Im folgenden wird anhand von Fig. 2 ein Beispiel für die Rauschbereichschätzung erläutert.
- In dieser Figur wird das an dem Eingang 11 anliegende Eingangssignal y[t] einer Schaltung 15A zur Berechnung des quadratischen Mittelwerts (RMS) zugeführt, in der Kurzzeit-RMS- Werte auf Rahmenbasis berechnet werden. Das Ausgangssignal der RMS-Rechenschaltung 15A wird einer Schaltung 15B zur Berechnung der relativen Energie, einer Schaltung 15C zur Berechnung des minimalen RMS-Werts, einer Schaltung 15D zur Berechnung des maximalen Signals und einer Rauschspektrum-Schätzschaltung 15E zugeführt. Der Rauschspektrum-Schätzschaltung 15E werden außerdem das Ausgangssignal der Schaltung 15B zur Berechnung der relativen Energie, das Ausgangssignal der Schaltung 15C zur Berechnung des kleinsten quadratischen Mittelwerts (RMS-Wert) und das Ausgangssignal der Schaltung 15D zur Berechnung des maximalen Signals zugeführt sowie das Ausgangssignal der Frequenzteilerschaltung 14.
- Die RMS-Rechenschaltung 15A berechnet RMS-Werte der rahmenbasierten Signale. Der RMS-Wert RMS[k] des k-ten Rahmens wird nach der folgenden Gleichung berechnet:
- Die Schaltung 15B zur Berechnung der relativen Energie berechnet die relative Energie dBrel[k] des k-ten Rahmens, die zu der Dämpfungsenergie eines vorhergehenden Rahmens paßt. Die relative Energie dBrel[k] in dB wird nach der folgenden Gleichung (4) berechnet:
- (4) dBrel[k] = 10log&sub1;&sub0;(Edecay[k]/E[k])
- In der obigen Gleichung (4) können der Energiewert E[k] und der Wert der Dämpfungsenergie Edecay[k] aus den Gleichungen (5) bzw. (6) berechnet werden:
- (5) E[k] = y²[t]
- (6) Edecay[k] = max(E[k]. e Edecay[k-1]
- Da die Gleichung (5) sich durch FL·(RMS[k])² darstellen läßt, kann das Ausgangssignal RMS[k] der RMS-Rechenschaltung 15A verwendet werden. Der Wert der Gleichung (5), der im Lauf der Berechnung von Gleichung (3) in der RMS-Rechenschaltung gewonnen wird, kann jedoch direkt der Schaltung 15B zur Berechnung der relativen Energie zugeführt werden. In der Gleichung (6) ist die Abfallzeit auf 0,65 s gesetzt, wobei dieser Wert jedoch nur als Beispiel dient.
- Fig. 3 zeigt Beispiele der Energie E[k] und der Dämpfungsenergie Edecay[k].
- Die Schaltung 15C zur Berechnung des minimalen RMS-Werts ermittelt den minimalen RMS-Wert, der für die Bewertung des Hintergrundrauschpegels geeignet ist. Die rahmenbasierten minimalen Kurzzeit-RMS-Werte auf Rahmenbasis und die minimalen Lanzeit-RMS- Werte, d. h. die minimalen RMS-Werte über mehrere Rahmen, werden ermittelt. Die Langzeit-Werte werden benutzt, wenn die Kurzzeit-Werte signifikanten Änderungen in dem Rauschpegel nicht folgen können. Der minimale Kurzzeit-RMS-Rauschwert MinNoisesnort wird nach der folgenden Gleichung (7) berechnet:
- (7) MinNoiseshort[k] = min (RMS[k], max(α(k)e MinNoisesnort[k-1], MinNoiselong))
- α(k) = 1 für RMS[k] < MAX_NOISE_RMS, und
- RMS[k] < 3 MinNoiseshort[k-1]
- 0 sonst
- Der minimale Kurzzeit-RMS-Rauschwert MinNoiseshort ist so gesetzt, daß er für das Hintergrundgeräusch, d. h. das von Sprache freie Umgebungsgeräusch größer wird. Während die Anstiegsrate für den hohen Rauschpegel exponentiellen Verlauf hat, wird für den niedrigen Rauschpegel eine feste Anstiegsrate verwendet, um eine höhere Anstiegsrate zu erzeugen.
- Der minimale Langzeit-RMS-Rauschwert MinNoiselong wird alle 0,6 Sekunden berechnet. MinNoiselong ist das Minimum über die vorangehenden 1,8 Sekunden der RMS-Werte des Rahmens, bei denen dBrel > 19 dB ist. Falls in den vorangehenden 1,8 Sekunden keine RMS-Werte mit dBrel > 19 dB auftreten, wird MinNoiselong nicht verwendet, weil die vorangehende 1 Sekunde des Signals keine Rahmen enthalten kann, in denen nur Hintergrundgeräusch auftritt. In diesem Fall wird in jedem 0,6-Sekunden-Intervall MinNoiseshort auf MinNoiselong gesetzt, falls MinNoiselong > MinNoiseshort ist.
- Die Schaltung 15D zur Berechnung des maximalen Signals berechnet den maximalen RMS- Wert oder den maximalen SNR-Wert (S/N-Verhältnis). Der maximale RMS-Wert wird für die Berechnung des optimalen oder maximalen SNR-Werts benutzt. Für den maximalen RMS- Wert werden sowohl der Kurzzeit- als auch der Langzeit-Wert berechnet. Der maximale Kurzzeit-RMS-Wert MaxSignalshort wird aus der folgenden Gleichung (8) ermittelt:
- (8) MaxSignalshort[k] = max(RMS[k]), e MaxSignal[k-1]
- Der maximale Langzeit-RMS-Rauschwert MaxSignalong wird in einem Intervall von beispielsweise 0,4 Sekunden berechnet. Dieser Wert MaxSignalong ist der Maximalwert des RMS- Werts des Rahmens während der Zeit von 0,8 Sekunden, die zeitlich vor dem laufenden Zeitpunkt liegen. Falls während jedes der Bereiche von 0,4 Sekunden der Wert Max- Signalong kleiner ist als MaxSignalshort, wird MaxSignalshort auf den Wert (0,7·MaxSignalshort + 0,3·MaxSignalong) gesetzt.
- Fig. 4 zeigt beispielhafte Werte des Kurzzeit-RMS-Werts RMS[k], des minimalen Rausch- RMS-Werts MinNoise[k] und des maximalen Signal-RMS-Werts MaxSignal[k]. In Fig. 4 bezeichnet der minimale Rausch-RMS-Wert MinNoise[k] den Kurzzeit-Wert MinNoiseshort, der den Langzeit-Wert MinNoiselong berücksichtigt. Der maximale Signal-RMS-Wert MaxSignal[k] bezeichnet den Kurzzeit-Wert MaxSignalshort, der den Langzeit-Wert MaxSignalong berücksichtigt.
- Der maximale Signal-SNR-Wert kann geschätzt werden, indem man den maximalen Kurzzeit-Signal-RMS-Wert MaxSignalshort und den minimalen Kurzzeit-Rausch-RMS-Wert Min- Noiseshort benutzt. Die Rauschunterdrückungseigenschaften und der Schwellwert für die Rauschbereich-Diskriminierung werden auf der Basis dieser Schätzung modifiziert, um die Möglichkeit der Verzerrung des rauschfreien reinen Sprachsignals zu reduzieren. Der maximale SNR-Wert MaxSNR wird aus der folgenden Gleichung berechnet:
- Aus dem Wert MaxSNR wird der normierte Parameter NR_Pegel in einem Bereich von 0 bis 1 berechnet, der den relativen Rauschpegel angibt. Dabei wird die folgende NT Pegel- Funktion verwendet:
- für 30 < MaxSNR[k] ≤ 50
- = 0 für MaxSNR[k] > 50
- = 1,0 sonst
- Im folgenden wird die Funktion der Rauschspektrum-Schätzschaltung 15E erläutert. Die von der Schaltung 15B zur Berechnung der relativen Energie, von der Schaltung 15C zur Berechnung des minimalen RMS-Werts und von der Schaltung 15D zur Berechnung des maximalen Signals berechneten Werte werden dazu benutzt, die Sprache von dem Hintergrundgeräusch zu unterscheiden. Wenn die folgenden Bedingungen erfüllt sind, wird das Signal in dem k-ten Rahmen als Hintergrundgeräusch klassifiziert:
- (11) ((RMS[k] < NoiseRMSthresh[k]) oder (dBrel[k] > dBthresrel[k])) und (RMS[k] < RMS[k-1] + 200)
- worin
- NoiseRMSrel[k] = min(1,05 + 0,45·NR_Pegel[k])
- MinNoise[k], MinNoise[k] + Max_Δ_NOISE_RMS)
- dBthresrel[k] = max(MaxSNR[k] - 4,0, 0,9·MaxSNR[k])
- fig. 5 zeigt beispielhafte Werte der relativen Energie dBrel[k], des maximalen SNR-Werts MaxSNR[k] und des Werts dBthresrel[k] als eines der Schwellwerte für die Rauschdiskriminierung in der obigen Gleichung (11).
- Fig. 6 zeigt NR_Pegel[k] als Funktion von MaxSNR[k] in Gleichung (10).
- Wenn der k-te Rahmen als Hintergrundgeräusch oder Rauschen klassifiziert wird, wird der zeitlich gemittelte Schätzwert des Rauschspektrums Y[w, k] durch das Signalspektrum Y[w, k] des laufenden Rahmens aktualisiert, wie dies in der folgenden Gleichung (12) dargestellt ist:
- (12) N[w, k] = max(N[w, k-1], Y[w, k]) + (1-) min(N[w, k-1], Y[w, k]) = e
- worin w die Bandnummer für das Frequenzbandsplitting bezeichnet.
- Wenn der k-te Rahmen als Sprache klassifiziert wird, wird der Wert N[w, k - 1] direkt für N[w, k] benutzt.
- Das Ausgangssignal der Rauschschätzschaltung 15 von Fig. 2 wird einer Sprachschätzschaltung 16, einer Pr(Sp)-Rechenschaltung 17, einer Pr(Sp Y)-Rechenschaltung 18 und einem Maximum-Likelihood-Filter 19 zugeführt.
- Bei der Durchführung der arithmetisch-logischen Operationen in der Rauschspektrum- Schätzschaltung 15E der Rauschschätzschaltung 15 können die arithmetisch-logischen Operationen unter Verwendung zumindest einer der Ausgangsdaten der Schaltung 15B zur Berechnung der relativen Energie, der Schaltung 15C zur Berechnung des minimalen RMS- Werts und der Schaltung 15D zur Berechnung des maximalen Signals durchgeführt werden. Die Genauigkeit der von der Schätzschaltung 15E erzeugten Daten wird zwar reduziert, dafür kann Schaltungsumfang der Rauschschätzschaltung 15 verringert werden. Natürlich können hochgenaue Ausgangsdaten der Schätzschaltung 15E erzeugt werden, indem alle Ausgangsdaten der drei Rechenschaltungen 15B, 15C und 15D verwendet werden. Die arithmetisch-logischen Operationen der Schätzschaltung 15E lassen sich jedoch ausführen, indem die Ausgangssignale von nur zwei der Rechenschaltungen 15B, 15C und 15D verwendet werden.
- Die Sprachschätzschaltung 16 berechnet das S/N-Verhältnis auf Bandbasis. Der Sprachschätzschaltung 16 werden die Spektralamplitudendaten Y[w, k] aus der Frequenzband- Teilerschaltung 14 und die geschätzten Rausch-Spektralamplitudendaten aus der Rauschschätzschaltung 15 zugeführt. Die geschätzten Sprachspektraldaten S[w, k] werden auf der Basis dieser Daten abgeleitet. Für die Berechnung der Wahrscheinlichkeit Pr(Sp Y) kann ein roher Schätzwert des rauschfreien reinen Sprachspektrums benutzt werden, wie dies weiter unten erläutert wird. Dieser Wert wird mit Hilfe der Differenz der Spektralwerte nach der folgenden Gleichung (13) berechnet:
- Mit dem nach der obigen Gleichung (13) berechneten rohen Schätzwert S'[w, k] des Sprachspektrums wird nach der folgenden Gleichung (14) ein auf Bandbasis zeitlich gemittelter Schätzwert S[w, k] des Sprachspektrums berechnet:
- (14) S[w, k] = max(5'[w, k], 5'[w, k-1]decay_rate)
- In der Gleichung (14) wird die dort dargestellte Abfall Rate (decayrate) verwendet.
- Das bandbasierte S/N-Verhältnis wird nach der folgenden Gleichung (15) berechnet
- in der der Schätzwert des Rauschspektrums N[w, k] und der Schätzwert des Sprachspektrums aus den Gleichungen (12) bzw. (14) ermittelt werden können.
- Im folgenden wird die Funktion der Pr(sp)-Rechenschaltung 17 erläutert. Die Wahrscheinlichkeit Pr(Sp) ist die Wahrscheinlichkeit, daß in einem angenommenen Eingangssignal Sprachsignale auftreten. Diese Wahrscheinlichkeit war bisher stets auf 0,5 festgelegt. Für ein Signal mit großem S/N-Verhältnis kann die Wahrscheinlichkeit Pr(sp) vergrößert werden, um eine Verschlechterung der Tonqualität zu verhindern. Die Wahrscheinlichkeit Pr(Sp) kann nach der folgenden Gleichung (16) berechnet werden:
- (16) Pr(Sp) = 0,5 + 0,45·(1,0 - NR_Pegel)
- wobei die von der Schaltung 15D zur Berechnung des maximalen Signals berechnete NR_Pegel-Funktion benutzt wird.
- Im folgenden wird die Funktion der Pr(Sp Y)-Rechenschaltung 18 erläutert. Pr(Sp Y) ist die Wahrscheinlichkeit dafür, daß das Sprachsignal in dem Eingangssignal y[t] auftritt und wird unter Verwendung von Pr(Sp) und SNR[w, k] berechnet. Der Wert Pr(Sp Y) wird dazu benutzt, den sprachfreien Bereich auf einen engeren Wert zu reduzieren. Für die Berechnungen wurde das Verfahren benutzt, das in R.J. McAulay und M.L. Malpass; Speech Enhancement Using a Soft-Decision Noise Suppression Filter, IEEE Trans. Acoust, Speech, and Signal Processing, Vo. ASSP-28, Nr. 2, April 1980, beschrieben ist, das nun anhand der Gleichungen (17) bis (20) erläutert wird.
- In den obigen Gleichungen (17) bis (20) bezeichnet H0 ein sprachfreies Ereignis, d. h. das Ereignis, daß das Eingangssignal y(t) das Signal n(t) ist, während H1 ein Sprachereignis bezeichnet, d. h. das Ereignis, daß das Eingangssignal y(t) eine Summe aus dem Sprachsignal s(t) und dem Rauschsignal n(t) ist und s(t) von 0 verschieden ist. Ferner bezeichnen w, k Y, S und σ die Bandnummer, die Rahmennummer, das Eingangssignal [w, k], den Schätzwert des Sprachsignals S[w, k] bzw. das Quadrat des geschätzten Rauschsignals N[w, k]².
- Pr(H1Y)[w, k] wird aus der Gleichung (17) berechnet, während p(YH0) und p(YH1) in der Gleichung (17) aus der Gleichung (19) ermittelt werden können. Die Bessel-Funktion I&sub0;(X) wird aus der Gleichung (20) berechnet.
- Die Bessel-Funktion kann durch die folgende Funktion (21) approximiert werden:
- Früher wurde für die Herleitung von Pr(H1Y) ein fester Wert des S/N-Verhältnisses, z. B. SNR = 5, benutzt, ohne daß der geschätzte Sprachsignalwert S[w, k] benutzt wurde. Dadurch wurde p(YH1) vereinfacht, wie dies durch die folgende Gleichung (22) dargestellt ist:
- Ein Signal, dessen momentanes S/N-Verhältnis kleiner ist als der bei der Berechnung von p(YH1) benutzte SNR-Wert des S/N-Verhältnisses wird signifikant unterdrückt. Wenn man annimmt, daß der SNR-Wert des S/N-Verhältnisses auf einen exzessiv hohen Wert gesetzt wird, wird die durch Rauschen mit niedrigerem Pegel korrumpierte Sprache in ihrem Niedrigpegelteil exzessiv abgesenkt, so daß die erzeugte Sprache unnatürlich wird. Wenn umgekehrt der SNR-Wert des S/N-Verhältnisses auf einen exzessiv niedrigen Wert gesetzt wird, wird die durch den größeren Rauschpegel korrumpierte Sprache wenig unterdrückt und klingt selbst in ihrem Niedrigpegelteil rauschbehaftet. Somit erhält man den Wert p(YH1) passend für einen breiten Bereich des Hintergrund-/Sprachpegels, indem man wie in dem vorliegenden Ausführungsbeispiel anstelle des festen S/N-Verhältnisses das variable S/N- Verhältnis SNRnew[w, k] verwendet. Der Wert SNRnew[w, k] kann aus der folgenden Gleichung (23) ermittelt werden:
- (23) SNRnew[w, k] = max(MIN_SNR(SNR[w, k]), S'[w, k]/N[w, k])
- in der der Wert MIN_SNR aus der Gleichung (24) ermittelt wird:
- (24) MIN_SNR(x) = 3 für x < 10
- für 10 ≤ x ≤ 45
- = 1,5 sonst
- Der SNR-Wertnew[w, k] ist ein momentaner SNR-Wert in dem k-ten Rahmen, in dem der minimale Wert begrenzt ist. Der SNR-Wertnew[w, k] kann für ein Signal, das insgesamt ein hohes S/N-Verhältnis hat, auf 1,5 herabgesetzt werden. In einem solchen Fall findet in Segmenten mit niedrigem momentanen S/N-Verhältnis keine Unterdrückung statt. Der SNR- Wertnew[w, k] kann für ein Signal, das insgesamt ein niedriges momentanes S/N-Verhältnis hat, nicht unter 3 abgesenkt werden. Deshalb läßt sich eine ausreichende Unterdrückung für Segmente mit niedrigem momentanen S/N-Verhältnis erreichen.
- Im folgenden wird die Funktion des Maximum-Likelihood-Filters 19 erläutert. Das Maximum-Likelihood-Filter 19 ist ein Vorfilter, das vorgesehen ist, um die betreffenden Bänder des Eingangssignals von Rauschsignalen zu befreien. In dem Maximum-Likelihood-Filter 19 werden die Spektralamplitudendaten Y[w, k] aus dem Frequenzband-Teilungsfilter 14 in ein Signal H[w, k] umgewandelt, wobei die Rausch-Spektralamplitudendaten N[w, k] aus der Rauschschätzschaltung 15 benutzt werden. Das Signal H[w, k] wird nach der folgenden Gleichung (25) berechnet:
- für Y > O und Y ≥ N
- a sonst
- worin = 0,7 - 0,4 NR_Pegel[k].
- Obwohl der Wert in der obigen Gleichung (25) üblicherweise auf 1/2 gesetzt wird, kann der Grad der Rauschunterdrückung in Abhängigkeit von dem maximalen SNR variiert werden, weil ein Näherungswert von SNR bekannt ist.
- Im folgenden wird die Funktion einer Soft-Decision-Unterdrückungsschaltung 20 erläutert. Die Soft-Decision-Unterdrückungsschaltung 20 bildet eines der Vorfilter zur Verbesserung des Sprachteils des Signals. Die Umwandlung erfolgt nach dem in der folgenden Gleichung (26) angegebenen Verfahren unter Verwendung des Signals H[w, k] und des Werts Pr(H1Y) aus der Pr(SpY)-Rechenschaltung 18:
- (26) H[w k] ← Pr(H1Y)[w, k]H[w, k] + (1 - Pr(H1Y[w, k]MIN_GAIN
- In der obigen Gleichung (26) ist MIN_GAIN ein Parameter, der die minimale Verstärkung angibt, und er kann z. B. auf 0,1, d. h. -15 dB, gesetzt werden.
- Im folgenden wird die Funktion einer Filterverarbeitungsschaltung 21 erläutert. Das Signal H[w, k] aus der Soft-Decision-Unterdrückungsschaltung 20 wird sowohl entlang der Frequenzachse als auch entlang der Zeitachse gefiltert. Die Filterung entlang der Frequenzachse hat die Wirkung, daß die effektive Impulsantwortlänge des Signals H[w, k] verkürzt wird. Dadurch werden zirkulare Faltungs-Aliasing-Effekte eliminiert, die mit der Filterung durch Multiplikation im Frequenzbereich verbunden sind. Die Filterung entlang der Zeitachse hat die Wirkung, daß die Änderungsrate des Filters bei der Unterdrückung von Rausch-Bursts begrenzt wird.
- Die Filterung entlang der Frequenzachse wird nun erläutert. Die Signale H[w, k] jedes der 18 Bänder, die aus der Frequenzbandteilung resultieren, werden einer Median-Filterung unterzogen. Das Verfahren wird durch die folgenden Gleichungen (27) und (28) erläutert:
- (27) Schritt 1:
- H1[w, k] = max(median(H[w-1, K], H[w, k], H[w+1, k], H[w, k]
- worin H1[w, k] = H[w, k], wenn (w-1) oder (w+1) nicht vorhanden sind,
- (28) Schritt 2
- H2[w, k] = min(median(H[w-1, k], H[w, k], H[w+1, k], H[w, k]
- worin H2[w, k] = H[w, k], wenn (w-1) oder (w+1) nicht vorhanden sind,
- In dem Schritt 1 bedeutet H1[w, k] H[w, k] ohne Einzelband-Nullen. In dem Schritt 2 bedeutet H2[w, k] H1[w, k] ohne Einzelband-Spitzen. Das aus der Filterung entlang der Frequenzachse resultierende Signal ist H2[w, k].
- Als nächstes wird die Filterung entlang der Zeitachse erläutert. Die Filterung entlang der Zeitachse berücksichtigt drei Zustände des Eingangs-Sprachsignals, nämlich die Sprache, das Hintergrundgeräusch und die Transienten, d. h. den ansteigenden Teil der Sprache. Das Sprachsignal wird entlang der Zeitachse geglättet, wie dies in der folgenden Gleichung (29) dargestellt ist:
- (29) Hspeech[w, k] = 0,7·H2[w, k] + 0,3·H2[w, k - 1]
- Das Hintergrundrauschsignal wird entlang der Zeitachse geglättet, wie dies durch die folgende Gleichung (30) dargestellt ist:
- (30) Hnoise[w, k] = 0,7·Min_H + 0,3·Max_H
- hierin bedeuten Min_H und Max_H:
- Min_H = min(H2[w, k], N2[w, k-1]
- Max_H = max(H2[w, k], H2[w, k-1]
- Für transiente Signale findet keine Glättung auf der Zeitachse statt. Zuletzt werden Berechnungen nach der folgenden Gleichung (31) durchgeführt, um das geglättete Ausgangssignal Ht_smooth[w, k]zu erzeugen:
- (31) Ht_smooth[w, k] = (1 - αtr)(αsp·Hspeech[w, k] + (1 - αsp)·Hnoise[w, k] + αtr·H2[w, k]
- Die Werte αsp und αtr in der Gleichung (31) werden aus den folgenden Gleichungen (32) bzw. (33) ermittelt:
- (32) αsp = 1,0 für SNRinst > 4,0
- = (SNRinst - 1)1/3 für 1,0 < SNRinst < 4,0
- = 0 sonst
- worin SNR = RMS[k]/MinNoise[k]
- (33) αtr = 1,0 für δrms > 3,5
- = (δrms - 2)2/3 für 2,0 < δrms < 3,5
- = 0 sonst
- Im folgenden wird die Arbeitsweise einer Bandumsetzungsschaltung 22 erläutert. Die 18 Bandsignale Ht_smooth[w, k] aus der Filterschaltung 21 werden in z. B. 128 Bandsignale H&sub1;&sub2;&sub8;[w, k] interpoliert. Die Interpolation erfolgt in zwei Stufen, nämlich die Interpolation von 18 auf 64 Bänder, die durch Halten nullter Ordnung erfolgt, und die Interpolation von 64 auf 128 Bänder, die durch eine Tiefpaßfilter-Interpolation vorgenommen wird.
- Im folgenden wird die Arbeitsweise einer Spektrum-Korrekturschaltung 23 erläutert. Der Realteil und der Imaginärteil der in der FFT-Schaltung 13 gewonnenen FFT-Koeffizienten des Eingangssignals werden mit dem obigen Signal H&sub1;&sub2;&sub8;[w, k] multipliziert, um eine Spektrumkorrektur durchzuführen. Das Ergebnis besteht darin, daß die Spektralamplitude korrigiert wird, während das Spektrum in seiner Phase nicht modifiziert wird.
- Eine IFFT-Schaltung 24 bewirkt eine inverse FFT des in der Spektrum-Korrekturschaltung 23 gewonnenen Signals.
- Eine Überlappungs- und Addierschaltung 25 überlappt und addiert die Rahmenbegrenzungsabschnitte der rahmenbasierten IFFT-Ausgangssignale. Durch die oben beschrieben Prozedur wird an dem Ausgang 26 ein rauschreduziertes Ausgangssignal gewonnen.
- Das so gewonnene Ausgangssignal wird verschiedenen Kodierern eines mobilen Telefongeräts oder einer Signalverarbeitungsschaltung einer Spracherkennungvorrichtung zugeführt. Alternativ können Dekodierer-Ausgangssignale eines mobilen Telefongeräts mit Rauschreduzierung gemäß der Erfindung verarbeitet werden.
- Die vorliegende Erfindung ist nicht auf das obige Ausführungsbeispiel beschränkt. Die beschriebene Filterung durch die Filterschaltung 21 kann z. B. auch bei der herkömmlichen Rauschunterdrückungstechnologie verwendet werden, bei der das Maximum-Likelihood-Filter benutzt wird. Das Verfahren zur Detektierung des Rauschbereichs mit Hilfe der Filterverarbeitungsschaltung 15 kann auch in zahlreichen anderen Vorrichtungen benutzt werden als in der Rauschunterdrückungsvorrichtung.
Claims (10)
1. Verfahren zum Reduzieren des Rauschens eines Eingangssprachsignals, wobei bei
diesem Verfahren die Rauschunterdrückung durch adaptives Steuern eines
Maximum-Likelihood-Filters erfolgt, das für die Berechnung von Sprachkomponenten auf der Basis der
Wahrscheinlichkeit des Vorkommens von Sprache und des auf der Basis des
Eingangssprachsignals berechneten S/N-Verhältnisses ausgelegt ist,
gekennzeichnet durch
die Verwendung der Differenz zwischen dem Spektralwert des Eingangssprachsignals
und dem Spektralwert eines geschätzten Rauschens bei der Berechnung der
Wahrscheinlichkeit des Vorkommens von Sprache.
2. Verfahren nach Anspruch 1, bei dem bei der Berechnung der Wahrscheinlichkeit des
Vorkommens von Sprache von dem Wert der in Anspruch 1 definierten Differenz oder einem
voreingestellten Wert der jeweils größere Wert benutzt wird.
3. Verfahren nach Anspruch 1, bei dem
von dem Wert der in Anspruch 1 definierten Differenz oder einem voreingestellten
Wert der jeweils größere für den laufenden Rahmen und für einen früheren Rahmen
ermittelt wird,
der Wert für den früheren Rahmen mit einem voreingestellten Dämpfungskoeffizienten
multipliziert wird
und bei der Berechnung der Wahrscheinlichkeit des Vorkommens von Sprache von
dem Wert für den laufenden Rahmen oder dem mit dem voreingestellten
Dämpfungskoeffizienten multiplizierten Wert für den früheren Rahmen der jeweils größere benutzt wird.
4. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die Rauschdomäne
detektiert wird, um die Wahrscheinlichkeit des Vorkommens von Sprache durch Vergleichen
der rahmenbasierten RMS-Werte mit einem Schwellwert Th1 zu ermitteln, und ein Wert th
zur Ermittlung des Schwellwerts Th1 berechnet wird, wobei von dem RMS-Wert für den
laufenden Rahmen und dem mit einem Koeffizienten α multiplizierten Wert th des früheren
Rahmen der jeweils kleinere Wert benutzt wird, wobei der Koeffizient α von dem RMS-
Wert des laufenden Rahmens abhängt.
5. Verfahren nach Anspruch 4, bei dem der Wert th zur Ermittlung des Schwellwerts Th&sub1;
berechnet wird, indem von dem RMS-Wert des laufenden Rahmens und dem Wert, der von
dem mit einem Koeffizienten α multiplizierten Wert th eines früheren Rahmens oder dem
Minimalwert der RMS-Werte über mehrere Rahmen der größere ist, der jeweils kleinere
Wert benutzt wird.
6. Verfahren nach Anspruch 5, bei dem die Rauschdomäne auch detektiert wird durch
Vergleichen der relativen Energie des laufenden Rahmens mit einem Schwellwert Th&sub2;, der
unter Verwendung eines Maximalwerts des S/N-Verhältnisses des Eingangssprachsignals
berechnet wird.
7. Verfahren nach einem der vorhergehenden Ansprüche, bei dem die charakteristischen
Merkmale des Maximum-Likelihood-Filters durch Glättungsfilterung entlang der
Frequenzachse und entlang der Zeitachse verarbeitet werden.
8, Verfahren nach Anspruch 7, bei dem ein Medianwert von charakteristischen Merkmale
des Maximum-Likelihood-Filters in dem betrachteten Frequenzbereich und von
charakteristischen Merkmale des Maximum-Likelihood-Filters in den links und rechts anschließenden
Frequenzbereichen für die Glättungsfilterung entlang der Frequenzachse benutzt wird.
9. Verfahren nach Anspruch 7, bei dem die Glättungsfilterung entlang der Frequenzachse
den Verfahrensschritt umfaßt, daß von dem Medianwert der charakteristischen Merkmale
des Maximum-Likelihood-Filters in dem betrachteten Frequenzbereich und dem Wert, der
von dem Medianwert für den dem Bearbeitungsergebnissen entsprechenden
Frequenzbereich oder den charakteristischen Merkmale des Maximum-Likelihood-Filters in dem
betrachteten Frequenzbereich der kleinere ist, der jeweils größere ausgewählt wird.
10. Verfahren nach Anspruch 8 oder 9, bei dem die Glättungsfilterung entlang der Zeitachse
das Glätten für Signale des Sprachanteils und Glätten für Signale des Rauschanteils umfaßt.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09986994A JP3484757B2 (ja) | 1994-05-13 | 1994-05-13 | 音声信号の雑音低減方法及び雑音区間検出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69522605D1 DE69522605D1 (de) | 2001-10-18 |
DE69522605T2 true DE69522605T2 (de) | 2002-07-04 |
Family
ID=14258823
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69531710T Expired - Lifetime DE69531710T2 (de) | 1994-05-13 | 1995-05-02 | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen |
DE69522605T Expired - Lifetime DE69522605T2 (de) | 1994-05-13 | 1995-05-02 | Verfahren zur Rauschreduktion eines Sprachsignals und zur Detektion des Rauschbereichs |
DE69529002T Expired - Lifetime DE69529002T2 (de) | 1994-05-13 | 1995-05-02 | Verfahren zur Detektion des Rauschbereichs |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69531710T Expired - Lifetime DE69531710T2 (de) | 1994-05-13 | 1995-05-02 | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69529002T Expired - Lifetime DE69529002T2 (de) | 1994-05-13 | 1995-05-02 | Verfahren zur Detektion des Rauschbereichs |
Country Status (8)
Country | Link |
---|---|
US (3) | US5668927A (de) |
EP (3) | EP0683482B1 (de) |
JP (1) | JP3484757B2 (de) |
KR (1) | KR100335162B1 (de) |
CN (1) | CN1113335A (de) |
DE (3) | DE69531710T2 (de) |
MY (1) | MY121946A (de) |
TW (1) | TW262620B (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10252946B3 (de) * | 2002-11-14 | 2004-07-15 | Atlas Elektronik Gmbh | Verfahren zur Unterdrückung des Rauschanteils eines Sensorsignals |
DE102004017486A1 (de) * | 2004-04-08 | 2005-10-27 | Siemens Ag | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
Families Citing this family (78)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3484801B2 (ja) * | 1995-02-17 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
JP3453898B2 (ja) * | 1995-02-17 | 2003-10-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
US6256394B1 (en) * | 1996-01-23 | 2001-07-03 | U.S. Philips Corporation | Transmission system for correlated signals |
JP3483695B2 (ja) * | 1996-03-14 | 2004-01-06 | 株式会社リコー | 音声通信装置 |
KR100250561B1 (ko) * | 1996-08-29 | 2000-04-01 | 니시무로 타이죠 | 잡음소거기 및 이 잡음소거기를 사용한 통신장치 |
US5933495A (en) * | 1997-02-07 | 1999-08-03 | Texas Instruments Incorporated | Subband acoustic noise suppression |
US6104993A (en) * | 1997-02-26 | 2000-08-15 | Motorola, Inc. | Apparatus and method for rate determination in a communication system |
US6353809B2 (en) * | 1997-06-06 | 2002-03-05 | Olympus Optical, Ltd. | Speech recognition with text generation from portions of voice data preselected by manual-input commands |
DE19747885B4 (de) * | 1997-10-30 | 2009-04-23 | Harman Becker Automotive Systems Gmbh | Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion |
US6175602B1 (en) * | 1998-05-27 | 2001-01-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Signal noise reduction by spectral subtraction using linear convolution and casual filtering |
US6549586B2 (en) * | 1999-04-12 | 2003-04-15 | Telefonaktiebolaget L M Ericsson | System and method for dual microphone signal noise reduction using spectral subtraction |
US7209567B1 (en) | 1998-07-09 | 2007-04-24 | Purdue Research Foundation | Communication system with adaptive noise suppression |
US6351731B1 (en) | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6453285B1 (en) | 1998-08-21 | 2002-09-17 | Polycom, Inc. | Speech activity detector for use in noise reduction system, and methods therefor |
US6122610A (en) * | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
US6711540B1 (en) * | 1998-09-25 | 2004-03-23 | Legerity, Inc. | Tone detector with noise detection and dynamic thresholding for robust performance |
US6574334B1 (en) | 1998-09-25 | 2003-06-03 | Legerity, Inc. | Efficient dynamic energy thresholding in multiple-tone multiple frequency detectors |
US6289309B1 (en) | 1998-12-16 | 2001-09-11 | Sarnoff Corporation | Noise spectrum tracking for speech enhancement |
US6363345B1 (en) * | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
CN1348583A (zh) * | 1999-02-18 | 2002-05-08 | 安德烈电子公司 | 消除噪声的系统、方法和设备 |
JP2001016057A (ja) * | 1999-07-01 | 2001-01-19 | Matsushita Electric Ind Co Ltd | 音響装置 |
US6349278B1 (en) * | 1999-08-04 | 2002-02-19 | Ericsson Inc. | Soft decision signal estimation |
JP3961290B2 (ja) | 1999-09-30 | 2007-08-22 | 富士通株式会社 | 雑音抑圧装置 |
DE69920461T2 (de) * | 1999-10-29 | 2005-12-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Verfahren und Vorrichtung zur robusten Merkmalsextraktion für die Spracherkennung |
JP3454206B2 (ja) * | 1999-11-10 | 2003-10-06 | 三菱電機株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6804640B1 (en) * | 2000-02-29 | 2004-10-12 | Nuance Communications | Signal noise reduction using magnitude-domain spectral subtraction |
US6898566B1 (en) | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
JP3566197B2 (ja) * | 2000-08-31 | 2004-09-15 | 松下電器産業株式会社 | 雑音抑圧装置及び雑音抑圧方法 |
GB2367467B (en) * | 2000-09-30 | 2004-12-15 | Mitel Corp | Noise level calculator for echo canceller |
SE0003608L (sv) * | 2000-10-06 | 2001-12-17 | Xcounter Ab | Metod för reducering av högfrekvent brus i bilder med hjälp av medelvärdesbildning av pixlar och parvis addering av pixelpar som uppfyller ett villkor |
AU2002241476A1 (en) * | 2000-11-22 | 2002-07-24 | Defense Group Inc. | Noise filtering utilizing non-gaussian signal statistics |
EP2242049B1 (de) | 2001-03-28 | 2019-08-07 | Mitsubishi Denki Kabushiki Kaisha | Rauschunterdrückungsvorrichtung |
US7013273B2 (en) * | 2001-03-29 | 2006-03-14 | Matsushita Electric Industrial Co., Ltd. | Speech recognition based captioning system |
JP4127792B2 (ja) * | 2001-04-09 | 2008-07-30 | エヌエックスピー ビー ヴィ | 音声強化デバイス |
US7136813B2 (en) | 2001-09-25 | 2006-11-14 | Intel Corporation | Probabalistic networks for detecting signal content |
US7149684B1 (en) | 2001-12-18 | 2006-12-12 | The United States Of America As Represented By The Secretary Of The Army | Determining speech reception threshold |
US7096184B1 (en) * | 2001-12-18 | 2006-08-22 | The United States Of America As Represented By The Secretary Of The Army | Calibrating audiometry stimuli |
US6864104B2 (en) | 2002-06-28 | 2005-03-08 | Progressant Technologies, Inc. | Silicon on insulator (SOI) negative differential resistance (NDR) based memory device with reduced body effects |
US6874796B2 (en) * | 2002-12-04 | 2005-04-05 | George A. Mercurio | Sulky with buck-bar |
JP4128916B2 (ja) * | 2003-08-15 | 2008-07-30 | 株式会社東芝 | 字幕制御装置および方法ならびにプログラム |
US7363221B2 (en) * | 2003-08-19 | 2008-04-22 | Microsoft Corporation | Method of noise reduction using instantaneous signal-to-noise ratio as the principal quantity for optimal estimation |
JP4632047B2 (ja) * | 2003-09-02 | 2011-02-16 | 日本電気株式会社 | 信号処理方法および装置 |
JP3909709B2 (ja) * | 2004-03-09 | 2007-04-25 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、方法、及びプログラム |
US7729456B2 (en) * | 2004-11-17 | 2010-06-01 | Via Technologies, Inc. | Burst detection apparatus and method for radio frequency receivers |
GB2422237A (en) * | 2004-12-21 | 2006-07-19 | Fluency Voice Technology Ltd | Dynamic coefficients determined from temporally adjacent speech frames |
US20060184363A1 (en) * | 2005-02-17 | 2006-08-17 | Mccree Alan | Noise suppression |
US20060206320A1 (en) * | 2005-03-14 | 2006-09-14 | Li Qi P | Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers |
EP1861846B1 (de) * | 2005-03-24 | 2011-09-07 | Mindspeed Technologies, Inc. | Adaptive stimmenmodus-erweiterung für einen stimmenaktivitäts-detektor |
CN1841500B (zh) * | 2005-03-30 | 2010-04-14 | 松下电器产业株式会社 | 一种基于自适应非线性谱减的抗噪方法和装置 |
KR100745977B1 (ko) * | 2005-09-26 | 2007-08-06 | 삼성전자주식회사 | 음성 구간 검출 장치 및 방법 |
US20070100611A1 (en) * | 2005-10-27 | 2007-05-03 | Intel Corporation | Speech codec apparatus with spike reduction |
JP4863713B2 (ja) * | 2005-12-29 | 2012-01-25 | 富士通株式会社 | 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム |
JP4753821B2 (ja) | 2006-09-25 | 2011-08-24 | 富士通株式会社 | 音信号補正方法、音信号補正装置及びコンピュータプログラム |
DE602006006081D1 (de) * | 2006-12-27 | 2009-05-14 | Abb Technology Ag | Verfahren zur Bestimmung von Kanalqualität und Modem |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
KR20100006492A (ko) | 2008-07-09 | 2010-01-19 | 삼성전자주식회사 | 부호화 방식 결정 방법 및 장치 |
TWI355771B (en) | 2009-02-23 | 2012-01-01 | Acer Inc | Multiband antenna and communication device having |
EP2401872A4 (de) * | 2009-02-25 | 2012-05-23 | Conexant Systems Inc | Verzerrungsunterdrückungssystem und -verfahren für lautsprecher |
CN101859568B (zh) * | 2009-04-10 | 2012-05-30 | 比亚迪股份有限公司 | 一种语音背景噪声的消除方法和装置 |
FR2944640A1 (fr) * | 2009-04-17 | 2010-10-22 | France Telecom | Procede et dispositif d'evaluation objective de la qualite vocale d'un signal de parole prenant en compte la classification du bruit de fond contenu dans le signal. |
CN101599274B (zh) * | 2009-06-26 | 2012-03-28 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法 |
US8834386B2 (en) * | 2009-07-07 | 2014-09-16 | Koninklijke Philips N.V. | Noise reduction of breathing signals |
WO2011015237A1 (en) * | 2009-08-04 | 2011-02-10 | Nokia Corporation | Method and apparatus for audio signal classification |
JP2011100029A (ja) * | 2009-11-06 | 2011-05-19 | Nec Corp | 信号処理方法、情報処理装置、及び信号処理プログラム |
JP5609157B2 (ja) * | 2010-02-26 | 2014-10-22 | ヤマハ株式会社 | 係数設定装置および雑音抑圧装置 |
CN103594094B (zh) * | 2012-08-15 | 2016-09-07 | 湖南涉外经济学院 | 自适应谱减法实时语音增强 |
US9107010B2 (en) * | 2013-02-08 | 2015-08-11 | Cirrus Logic, Inc. | Ambient noise root mean square (RMS) detector |
US9231740B2 (en) * | 2013-07-12 | 2016-01-05 | Intel Corporation | Transmitter noise in system budget |
US10141003B2 (en) * | 2014-06-09 | 2018-11-27 | Dolby Laboratories Licensing Corporation | Noise level estimation |
US10149047B2 (en) * | 2014-06-18 | 2018-12-04 | Cirrus Logic Inc. | Multi-aural MMSE analysis techniques for clarifying audio signals |
CN106199549B (zh) * | 2016-06-30 | 2019-01-22 | 南京理工大学 | 一种采用谱减法提升lfmcw雷达信噪比的方法 |
CN106885971B (zh) * | 2017-03-06 | 2020-07-03 | 西安电子科技大学 | 一种用于电缆故障检测定点仪的智能背景降噪方法 |
US10504538B2 (en) | 2017-06-01 | 2019-12-10 | Sorenson Ip Holdings, Llc | Noise reduction by application of two thresholds in each frequency band in audio signals |
CN112000047A (zh) * | 2020-09-07 | 2020-11-27 | 广东众科智能科技股份有限公司 | 一种远程智能化监控系统 |
CN113488032A (zh) * | 2021-07-05 | 2021-10-08 | 湖北亿咖通科技有限公司 | 车辆以及车辆用语音识别系统和方法 |
CN118629417B (zh) * | 2024-08-13 | 2024-11-22 | 华中师范大学 | 一种多模态课堂教师教学言语行为分析方法及系统 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
DE3473373D1 (en) * | 1983-10-13 | 1988-09-15 | Texas Instruments Inc | Speech analysis/synthesis with energy normalization |
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US5036540A (en) * | 1989-09-28 | 1991-07-30 | Motorola, Inc. | Speech operated noise attenuation device |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
DE4405723A1 (de) * | 1994-02-23 | 1995-08-24 | Daimler Benz Ag | Verfahren zur Geräuschreduktion eines gestörten Sprachsignals |
JP3484801B2 (ja) * | 1995-02-17 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
-
1994
- 1994-05-13 JP JP09986994A patent/JP3484757B2/ja not_active Expired - Lifetime
-
1995
- 1995-05-01 US US08/431,746 patent/US5668927A/en not_active Expired - Lifetime
- 1995-05-02 DE DE69531710T patent/DE69531710T2/de not_active Expired - Lifetime
- 1995-05-02 DE DE69522605T patent/DE69522605T2/de not_active Expired - Lifetime
- 1995-05-02 TW TW084104386A patent/TW262620B/zh not_active IP Right Cessation
- 1995-05-02 EP EP95303004A patent/EP0683482B1/de not_active Expired - Lifetime
- 1995-05-02 EP EP00120757A patent/EP1065657B1/de not_active Expired - Lifetime
- 1995-05-02 EP EP00120756A patent/EP1065656B1/de not_active Expired - Lifetime
- 1995-05-02 DE DE69529002T patent/DE69529002T2/de not_active Expired - Lifetime
- 1995-05-09 MY MYPI95001231A patent/MY121946A/en unknown
- 1995-05-12 CN CN95104844A patent/CN1113335A/zh active Pending
- 1995-05-13 KR KR1019950011826A patent/KR100335162B1/ko not_active IP Right Cessation
-
1996
- 1996-11-07 US US08/744,918 patent/US5974373A/en not_active Expired - Lifetime
- 1996-11-07 US US08/744,915 patent/US5771486A/en not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10252946B3 (de) * | 2002-11-14 | 2004-07-15 | Atlas Elektronik Gmbh | Verfahren zur Unterdrückung des Rauschanteils eines Sensorsignals |
DE102004017486A1 (de) * | 2004-04-08 | 2005-10-27 | Siemens Ag | Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal |
Also Published As
Publication number | Publication date |
---|---|
EP1065656A3 (de) | 2001-01-10 |
KR100335162B1 (ko) | 2002-09-27 |
CN1113335A (zh) | 1995-12-13 |
JP3484757B2 (ja) | 2004-01-06 |
MY121946A (en) | 2006-03-31 |
EP0683482A2 (de) | 1995-11-22 |
KR950034057A (ko) | 1995-12-26 |
TW262620B (en) | 1995-11-11 |
US5668927A (en) | 1997-09-16 |
JPH07306695A (ja) | 1995-11-21 |
EP1065657A1 (de) | 2001-01-03 |
DE69522605D1 (de) | 2001-10-18 |
EP1065657B1 (de) | 2002-11-27 |
US5771486A (en) | 1998-06-23 |
EP0683482A3 (de) | 1997-12-03 |
DE69529002T2 (de) | 2003-07-24 |
EP0683482B1 (de) | 2001-09-12 |
US5974373A (en) | 1999-10-26 |
DE69529002D1 (de) | 2003-01-09 |
EP1065656B1 (de) | 2003-09-03 |
DE69531710T2 (de) | 2004-07-15 |
DE69531710D1 (de) | 2003-10-09 |
EP1065656A2 (de) | 2001-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69522605T2 (de) | Verfahren zur Rauschreduktion eines Sprachsignals und zur Detektion des Rauschbereichs | |
DE69612770T2 (de) | Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen | |
DE69617069T2 (de) | Verfahren und Vorrichtung zur Geräuschverminderung | |
DE69420027T2 (de) | Rauschverminderung | |
DE69627580T2 (de) | Verfahren zur Rauschverminderung in einem Sprachsignal | |
EP0912974B1 (de) | Verfahren zur verringerung von störungen eines sprachsignals | |
DE69905035T2 (de) | Rauschunterdrückung mittels spektraler subtraktion unter verwendung von linearem faltungsprodukt und kausaler filterung | |
DE69632626T2 (de) | Adaptiver sprachsignalfilter | |
DE69428119T2 (de) | Verringerung des hintergrundrauschens zur sprachverbesserung | |
DE3856280T2 (de) | Rauschunterdrückungssystem | |
DE112009000805B4 (de) | Rauschreduktion | |
DE69421792T2 (de) | Verfahren und Vorrichtung zur Geräuschreduzierung sowie Telefon | |
DE19747885B4 (de) | Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion | |
DE69714431T2 (de) | Verfahren zum verbessern von verrauschter sprache und gerät | |
DE69124005T2 (de) | Sprachsignalverarbeitungsvorrichtung | |
EP2191466A1 (de) | Spracherweiterung mit stimmklarheit | |
DE112011106045T5 (de) | Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren | |
DE102014221528B4 (de) | Akkurate Vorwärts-SNR-Schätzung basierend auf MMSE-Sprachpräsenzwahrscheinlichkeit | |
CN117351986A (zh) | 一种噪声抑制方法及装置 | |
DE69802431T2 (de) | Verfahren und vorrichtung zur verbesserung eines digitalen sprachsignals | |
DE3230391C2 (de) | ||
Gui et al. | Adaptive subband Wiener filtering for speech enhancement using critical-band gammatone filterbank | |
Saha et al. | Configurable digital hearing aid system with reduction of noise for speech enhancement using spectral subtraction method and frequency dependent amplification | |
Khalil et al. | Enhancement of speech signals using multiple statistical models | |
Rao et al. | Speech enhancement using cross-correlation compensated multi-band wiener filter combined with harmonic regeneration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |