DE69529002T2

DE69529002T2 - Verfahren zur Detektion des Rauschbereichs

Info

Publication number: DE69529002T2
Application number: DE69529002T
Authority: DE
Inventors: Joseph Chan; Masayuki Nishiguchi
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-05-13
Filing date: 1995-05-02
Publication date: 2003-07-24
Anticipated expiration: 2015-05-03
Also published as: DE69529002D1; EP0683482B1; EP1065656A3; US5771486A; JP3484757B2; US5668927A; DE69531710T2; KR100335162B1; KR950034057A; JPH07306695A; EP1065657B1; MY121946A; EP0683482A3; EP0683482A2; EP1065657A1; EP1065656A2; TW262620B; EP1065656B1; DE69531710D1; CN1113335A

Description

Die Erfindung betrifft ein Verfahren zur Detektierung einer Rauschdomäne, das sich vorteilhaft bei einem Verfahren zur Geräuschreduzierung anwenden läßt.
Es erscheint notwendig, in mobilen Telefonen oder bei der Spracherkennung das in den aufgenommenen Sprachsignalen enthaltene Umgebungs- oder Hintergrundgeräusch zu unterdrücken und die Sprachkomponenten zu verbessern.
In R. J. McAulay und M. L. Malpass, "Speech Enhancement Using a Soft-Decision Noise Suppression Filter", IEEE Trans. Acoust, Speech, Signal Processing, Bd, 28. Seiten 137-145, April 1980 und J. Yang, "Frequency Domain Noise Suppression Approach in Mobile Telephone System", IEEE ICASSP, Bd. II, Seiten 363-366, April 1993 sind Verfahren zum Verbessern der Sprache oder zur Geräuschreduzierung beschrieben, bei denen eine bedingte Wahrscheinlichkeitsfunktion zum Justieren des Dämpfungsfaktors benutzt wird.
Bei dem oben beschriebenen Verfahren zur Sprachverbesserung oder Geräuschreduzierung wird ein Verfahren zur Detektierung der Rauschdomäne benutzt, bei dem der Eingangspegel oder die Eingangsleistung mit einem voreingestellten Schwellwert verglichen wird, um die Rauschdomäne zu diskriminieren. Wenn die Zeitkonstante des Schwellwerts vergrößert wird, um ein Verwischen der Sprache zu verhindern, wird es jedoch unmöglich, Änderungen des Rauschpegels, insbesondere einer Vergrößerung des Rauschpegels, zu folgen, was zu einer fehlerhaften Diskriminierung führt.
Es wäre wünschenswert, über ein Verfahren zum Delektieren der Rauschdomäne verfügen zu können, bei dem die Rauschdomäne auf der Basis eines optimalen, von dem Eingangssignal abhängigen Schwellwert diskriminiert wird, und bei dem eine fehlerhafte Diskriminierung selbst dann eliminiert werden kann, wenn in dem Rauschpegel Schwankungen auftreten.
Ein Beispiel für die Anpassung des Schwellwerts an das Eingangssignal wurde in EP-A-451 796 beschrieben.
Gemäß der Erfindung ist ein Verfahren vorgesehen zum Detektieren einer Rauschdomäne durch Unterteilen eines Eingangssprachsignals auf Rahmenbasis, Ermitteln eines RMS- Werts auf Rahmenbasis und Vergleichen der RMS-Werte mit einem Schwellwert Th&sub1; zum Delektieren der Rauschdomäne. Ein Wert th zur Ermittlung des Schwellwert Th&sub1; wird unter Verwendung des jeweils kleineren Werts von dem RMS-Wert für den laufenden Rahmen und dem mit einem Koeffizienten α multiplizierten Wert th des früheren Rahmens berechnet, wobei der Koeffizient α in Abhängigkeit von dem RMS-Wert des laufenden Rahmens umgesteuert wird. In dem nachfolgenden Ausführungsbeispiel ist der Schwellwert Th&sub1; NoiseRMSthres[K] während der für die Ermittlung benutzte Wert th MinNoiseshort[k] ist, wobei [k] die Rahmennummer bedeutet. Wie weiter unten anhand von Gleichung (7) erläutert wird, wird der mit dem Koeffizienten α[k] multiplizierte Wert MinNoiseshort[k - 1] des vorhergehenden Rahmens mit dem Wert RMS[k] des laufenden Rahmens verglichen, und der kleinere Wert wird auf MinNoiseshort[k] gesetzt. Der Koeffizient wird in Abhängigkeit von dem RMS-Wert RMS[k] von 1 auf 0 umgesteuert oder umgekehrt.
Der Wert th zur Ermittlung des Schwellwerts Th&sub1; ist vorzugsweise der kleinere von dem RMS-Wert für den laufenden Rahmen und dem jeweils größeren aus einem Wert th des vorhergehenden Rahmens, multipliziert mit dem Koeffizienten α, d. h. MinNoiseshort[k] wie weiter unten erläutert wird, oder dem kleinsten RMS-Wert über mehrere Rahmen, d. h. MinNoiselong[k];
Die Rauschdomäne wird auch auf der Basis der Ergebnisse der Diskriminierung der relativen Energie des laufenden Rahmens unter Verwendung der Schwellwert Th&sub2; delektiert, der unter Verwendung maximalen S/N-Verhältnisses des Eingangssprachsignals berechnet wird, sowie der Ergebnisse des Vergleichs des RMS-Werts mit dem Schwellwert Th&sub1;. In dem folgenden Ausführungsbeispiel ist der Schwellwert Th&sub2; dBthresrel[k], wobei die rahmenbasierte relative Energie dBrel ist. Die relative Energie dBrel ist ein relativer Wert, der auf eine lokale Spitze der unmittelbar vorhergehenden Signalenergie bezogen ist, und beschreibt die laufende Signalenergie.
Da bei dem Verfahren zur Detektierung der Rauschdomäne gemäß der Erfindung der Wert th, der für die Ermittlung des Schwellwerts Th&sub1; zur Diskriminierung der Rauschdomäne unter Verwendung des jeweils kleineren von dem RMS-Wert des laufenden Rahmens oder dem Werts th des vorhergehenden Rahmens, multipliziert mit dem Koeffizienten α, berechnet wird und der Koeffizient α in Abhängigkeit von dem RMS-Wert des laufenden Rahmens umgesteuert wird, kann die Rauschdomäne mit einem von dem Eingangssignal abhängigen optimalen Schwellwert diskriminiert werden, ohne daß eine fehlerhafte Beurteilung stattfindet, selbst wenn in dem Rauschpegel Schwankungen auftreten.
Im folgenden wird die Erfindung an Ausführungsbeispielen näher erläutert, wobei auf die anliegenden Zeichnungen Bezug genommen wird.
Fig. 1 zeigt eine Blockschaltung zur Erläuterung einer Schaltungsanordnung zur Durchführung des Rauschreduzierungsverfahrens für Sprachsignale nach einem Ausführungsbeispiel der Erfindung,
Fig. 2 zeigt ein Blockschaltbild eines Beispiels für eine Geräuschschätzschaltung, die in dem Ausführungsbeispiel von Fig. 1 benutzt wird,
Fig. 3 zeigt eine Graphik, in der Beispiele für die Energie E[k] und die Dämpfungsenergie Edecay[k] in dem Ausführungsbeispiel von Fig. 1 dargestellt sind,
Fig. 4 zeigt eine Graphik, in der Beispiele des Kurzzeit-RMS-Werts RMS[k], der minimalen Rausch-RMS-Werte MinNoise[k] und der maximalen RMS-Signalwerte MaxSignal[k] in dem Ausführungsbeispiel von Fig. 1 dargestellt sind,
Fig. 5 zeigt eine Graphik, in der Beispiele für die relative Energie dBrel[k] in dB, den maximalen SNR-Wert MaxSNR[k] und dBthresrel[k] als einem der Schwellwerte für die Geräuschdiskriminierung dargestellt sind,
Fig. 6 zeigt eine Graphik, in der der NR-Pegel[k] als Funktion dargestellt ist, die in Bezug auf den maximalen SNR-Wert MaxSNR[k] in dem Ausführungsbeispiel von Fig. 1 definiert ist.
In Fig. 1 ist eine schematische Anordnung der Rauschreduzierungsschaltung zur Ausführung des Rauschreduzierungsverfahrens für Sprachsignale gemäß dem bevorzugten Ausführungsbeipiel der vorliegenden Erfindung in einem Blockschaltbild dargestellt.
In der Anordnung von Fig. 1 wird einem Eingang 11 ein Eingangssignal y[t] zugeführt, das eine Sprachkomponente und eine Geräuschkomponente enthält. Das Eingangssignal y[t], das ein digitales Signal mit der Abtastfrequenz FS ist, wird einer Rahmenbildungs-/Fensterschaltung 12 zugeführt, in der es in Rahmen unterteilt wird, deren Länge jeweils FL Abtastproben entspricht, so daß das Eingangssignal anschließend auf Rahmenbasis verarbeitet wird. Das Rahmenintervall, das die Größe der Rahmenverschiebung entlang der Zeitachse darstellt, umfaßt FL Abtastproben, so daß die (k + 1)-te Abtastprobe nach FL Abtastproben von dem K-ten Rahmen aus gestartet wird. Vor der Verarbeitung in der nachgeordneten Schaltung, einer Schaltung 13 zur schnellen Fourier-Transformation (FFT-Schaltung), führt die Rahmenbildungs-/Fensterschaltung 12 eine Fensterung der rahmenbasierten Signale mit einer Fensterfunktion Winput durch. Nach einer inversen FFT oder IFFT in der letzten Stufe für die Signalverarbeitung der rahmenbasierten Signale wird das Ausgangssignal durch Fensterung mit einer Fensterfunktion Woutput verarbeitet. Beispiele für die Fensterfunktionen Winput und Woutput sind in den folgenden Gleichungen (1) und (2) angegeben:
Wenn die Abtastfrequenz FS gleich 8000 Hz = 8 kHz ist und das Rahmenintervall Fl 80 und 160 Abtastproben umfaßt, hat das Rahmenintervall eine Länge von 10 ms bzw. 20 ms.
Die FFT-Schaltung 13 fuhrt an 256 Punkten eine FFT durch, um Frequenzspektrum-Amplitudenwerte zu erzeugen, die von einer Frequenzteilerschaltung 14 z. B. in 18 Bänder unterteilt werden. Die folgende Tabelle 1 zeigt Beispiele der Frequenzbereiche der betreffenden Bänder. Tabelle 1
Bei der Festsetzung dieser Frequenzbänder wurde berücksichtigt, daß die von dem menschlichen Gehör wahrnehmbare Auflösung zu höheren Frequenzen hin kleiner wird. Als Amplituden der betreffenden Bereiche werden die maximalen FFT-Amplituden in dem betreffenden Frequenzbereichen verwendet.
Eine Geräuschschätzschaltung 15 unterscheidet das Rauschen in dem Eingangssignal y[t] von der Sprache und delektiert einen Rahmen, der als Rauschen geschätzt wird. Das Schätzen des Rauschbereichs oder das Delektieren des Rauschrahmens erfolgt durch Kombinieren von drei Detektierungsarten. Im folgenden wird anhand von Fig. 2 ein Beispiel für die Rauschbereichschätzung erläutert.
In dieser Figur wird das an dem Eingang 11 anliegende Eingangssignal y[t] einer Schaltung 15A zur Berechnung des quadratischen Mittelwerts (RMS) zugeführt, in der Kurzzeit-RMS- Werte auf Rahmenbasis berechnet werden. Das Ausgangssignal der RMS-Rechenschaltung 15A wird einer Schaltung 15B zur Berechnung der relativen Energie, einer Schaltung 15C zur Berechnung des minimalen RMS-Werts, einer Schaltung 15D zur Berechnung des maximalen Signals und einer Rauschspektrum-Schätzschaltung 15E zugeführt. Der Rauschspektrum-Schätzschaltung 15E werden außerdem das Ausgangssignal der Schaltung 15B zur Berechnung der relativen Energie, das Ausgangssignal der Schaltung 15C zur Berechnung des kleinsten quadratischen Mittelwerts (RMS-Wert) und das Ausgangssignal der Schaltung 15D zur Berechnung des maximalen Signals zugeführt sowie das Ausgangssignal der Frequenzteilerschaltung 14.
Die RMS-Rechenschaltung 15A berechnet RMS-Werte der rahmenbasierten Signale. Der RMS-Wert RMS[k] des k-ten Rahmens wird nach der folgenden Gleichung berechnet:
Die Schaltung 15B zur Berechnung der relativen Energie berechnet die relative Energie dBrel[k] des k-ten Rahmens, die zu der Dämpfungsenergie eines vorhergehenden Rahmens paßt. Die relative Energie dBrel[k] in dB wird nach der folgenden Gleichung (4) berechnet:
(4) dBrel[k] = 10log&sub1;&sub0;(Edecay[k]/E[k])
In der obigen Gleichung (4) können der Energiewert E[k] und der Wert der Dämpfungsenergie Edecay[k] aus den Gleichungen (5) bzw. (6) berechnet werden:
(5) E[k] = y²[t]
(6) Edecay[k] = max(E[k]·e Edecay[k - 1])
Da die Gleichung (5) sich durch FL·(RMS[k])² darstellen läßt, kann das Ausgangssignal RMS[k] der RMS-Rechenschaltung 15A verwendet werden. Der Wert der Gleichung (5), der im Lauf der Berechnung von Gleichung (3) in der RMS-Rechenschaltung gewonnen wird, kann jedoch direkt der Schaltung 15B zur Berechnung der relativen Energie zugeführt werden. In der Gleichung (6) ist die Abfallzeit auf 0,65 s gesetzt, wobei dieser Wert jedoch nur als Beispiel dient.
Fig. 3 zeigt Beispiele der Energie E[k] und der Dämpfungsenergie Edecay[k].
Die Schaltung 15C zur Berechnung des minimalen RMS-Werts ermittelt den minimalen RMS-Wert, der für die Bewertung des Hintergrundrauschpegels geeignet ist. Die rahmenbasierten minimalen Kurzzeit-RMS-Werte auf Rahmenbasis und die minimalen Lanzeit-RMS- Werte, d. h. die minimalen RMS-Werte über mehrere Rahmen, werden ermittelt. Die Langzeit-Werte werden benutzt, wenn die Kurzzeit-Werte signifikanten Änderungen in dem Rauschpegel nicht folgen können. Der minimale Kurzzeit-RMS-Rauschwert MinNoiseshort wird nach der folgenden Gleichung (7) berechnet:
(7) MinNoiseshort[k] = min(RMS[k], max(α(k) e MinNoiseshort[k - 1], MinNoiselong))
α(k) = 1 für RMS[k] < MAX_NOISE_RMS, und
RMS[k] < 3 MinNoiseshort[k - 1]
0 sonst
Der minimale Kurzzeit-RMS-Rauschwert MinNoiseshort ist so gesetzt, daß er für das Hintergrundgeräusch, d. h. das von Sprache freie Umgebungsgeräusch größer wird. Während die Anstiegsrate für den hohen Rauschpegel exponentiellen Verlauf hat, wird für den niedrigen Rauschpegel eine feste Anstiegsrate verwendet, um eine höhere Anstiegsrate zu erzeugen.
Der minimale Langzeit-RMS-Rauschwert MinNoiselong wird alle 0,6 Sekunden berechnet. MinNoiselong ist das Minimum über die vorangehenden 1,8 Sekunden der RMS-Werte des Rahmens, bei denen dBrel > 19 dB ist. Falls in den vorangehenden 1,8 Sekunden keine RMS-Werte mit dBrel > 19 dB auftreten, wird MinNoiselong nicht verwendet, weil die vorangehende 1 Sekunde des Signals keine Rahmen enthalten kann, in denen nur Hintergrundgeräusch auftritt. In diesem Fall wird in jedem 0,6-Sekunden-Intervall MinNoiseshort auf MinNoiselong gesetzt, falls MinNoiselong > MinNoiseshort ist.
Die Schaltung 15D zur Berechnung des maximalen Signals berechnet den maximalen RMS- Wert oder den maximalen SNR-Wert (S/N-Verhältnis). Der maximale RMS-Wert wird für die Berechnung des optimalen oder maximalen SNR-Werts benutzt. Für den maximalen RMS- Wert werden sowohl der Kurzzeit- als auch der Langzeit-Wert berechnet. Der maximale Kurzzeit-RMS-Wert MaxSignalshort wird aus der folgenden Gleichung (8) ermittelt:
(8) MaxSignalshort[k] = max(RMS[k]), e- MaxSignalshort[k - 1]
Der maximale Langzeit-RMS-Rauschwert MaxSignallong wird in einem Intervall von beispielsweise 0,4 Sekunden berechnet. Dieser Wert MaxSignallong ist der Maximalwert des RMS- Werts des Rahmens während der Zeit von 0,8 Sekunden, die zeitlich vor dem laufenden Zeitpunkt liegen. Falls während jedes der Bereiche von 0,4 Sekunden der Wert Max-Signallong kleiner ist als MaxSignalshort, wird MaxSignalshort auf den Wert (0,7·MaxSignalshort + 0,3·MaxSignallong) gesetzt.
Fig. 4 zeigt beispielhafte Werte des Kurzzeit-RMS-Werts RMS[k], des minimalen Rausch- RMS-Werts MinNoise[k] und des maximalen Signal-RMS-Werts MaxSignal[k]. In Fig. 4 bezeichnet der minimale Rausch-RMS-Wert MinNoise[k] den Kurzzeit-Wert MinNoiseshort, der den Langzeit-Wert MinNoiselong berücksichtigt. Der maximale Signal-RMS-Wert MaxSignal[k] bezeichnet den Kurzzeit-Wert MaxSignalshort, der den Langzeit-Wert MaxSignallong berücksichtigt.
Der maximale Signal-SNR-Wert kann geschätzt werden, indem man den maximalen Kurzzeit-Signal-RMS-Wert MaxSignalshort und den minimalen Kurzzeit-Rausch-RMS-Wert Min-Noiseshort benutzt. Die Rauschunterdrückungseigenschaften und der Schwellwert für die Diskriminierung des Rauschbereichs werden auf der Basis dieser Schätzung modifiziert, um die Gefahr einer Verzerrung des rauschfreien reinen Sprachsignals zu reduzieren. Der maximale SNR-Wert MaxSNR wird aus der folgenden Gleichung berechnet:
Aus dem Wert MaxSNR wird der normierte Parameter NR_Pegel in einem Bereich von 0 bis 1 berechnet, der den relativen Rauschpegel angibt. Dabei wird die folgende NT_Pegel- Funktion verwendet:
für 30 < MaxSNR[k] ≤ 50
= 0 für MaxSNR[k] > 50
= 1,0 sonst
Im folgenden wird die Funktion der Rauschspektrum-Schätzschaltung 15E erläutert. Die von der Schaltung 15B zur Berechnung der relativen Energie, von der Schaltung 15C zur Berechnung des minimalen RMS-Werts und von der Schaltung 15D zur Berechnung des maximalen Signals berechneten Werte werden dazu benutzt, die Sprache von dem Hintergrundgeräusch zu unterscheiden. Wenn die folgenden Bedingungen erfüllt sind, wird das Signal in dem k-ten Rahmen als Hintergrundgeräusch klassifiziert:
(11) ((RMS[k] < NoiseRMSthresh[k]) oder
(dBrel[k] > dBthresrel[k])) und (RMS[k] < RMS[k - 1] + 200)
worin
NoiseRMSrel[k] = min(1,05 + 0,45·NR_Pegel[k])
MinNoise[k], MinNoise[k] + Max_Δ_NOISE_RMS)
dBthresrel[k] = max(MaxSNR[k] - 4,0, 0,9·MaxSNR[k])
Fig. 5 zeigt beispielhafte Werte für die relative Energie dBrel[k], des maximalen SNR-Werts MaxSNR[k] und des Werts dBthresrel[k] als eines der Schwellwerte für die Rauschdiskriminierung in der obigen Gleichung (11),
Fig. 6 zeigt NR_Pegel[k] als Funktion von MaxSNR[k] in Gleichung (10).
Wenn der k-te Rahmen als Hintergrundgeräusch oder Rauschen klassifiziert wird, wird der zeitlich gemittelte Schatzwert des Rauschspektrums Y[w, k] durch das Signalspektrum Y[w, k] des laufenden Rahmens aktualisiert, wie dies in der folgenden Gleichung (12) dargestellt ist:
(12) N[w, k] = α·max(N[w, k - 1], Y[w, k]) + (1 - α)·min(N[w, k - 1], Y[w, k])
α = e-
worin die Bandnummer für das Frequenzbandsplitting bezeichnet.
Wenn der k-te Rahmen als Sprache klassifiziert wird, wird der Wert N[w, k - 1] direkt für N[w, k] benutzt.
Das Ausgangssignal der Rauschschätzschaltung 15 von Fig. 2 wird einer Sprachschätzschaltung 16, einer Pr(Sp)-Rechenschaltung 17, einer Pr(Sp Y)-Rechenschaltung 18 und einem Maximum-Likelihood-Filter 19 zugeführt.
Bei der Durchführung der arithmetisch-logischen Operationen in der Rauschspektrum- Schatzschaltung 15E der Rauschschätzschaltung 15 können die arithmetisch-logischen Operationen unter Verwendung zumindest einer der Ausgangsdaten der Schaltung 15B zur Berechnung der relativen Energie, der Schaltung 15C zur Berechnung des minimalen RMS- Werts und der Schaltung 15D zur Berechnung des maximalen Signals durchgeführt werden. Die Genauigkeit der von der Schätzschaltung 15E erzeugten Daten wird zwar reduziert, dafür kann der Schaltungsumfang der Rauschschätzschaltung 15 verringert werden. Natürlich können hochgenaue Ausgangsdaten der Schätzschaltung 15E erzeugt werden, indem alle Ausgangsdaten der drei Rechenschaltungen 15B, 15C und 15D verwendet werden. Die arithmetisch-logischen Operationen der Schätzschaltung 15E lassen sich jedoch ausführen, indem die Ausgangssignale von nur zwei der Rechenschaltungen 15B, 15C und 15D verwendet werden.
Die Sprachschätzschaltung 16 berechnet das S/N-Verhältnis auf Bandbasis. Der Sprachschätzschaltung 16 werden die Spektralamplitudendaten Y[w, k] aus der Frequenzband- Teilerschaltung 14 und die geschätzten Rausch-Spektralamplitudendaten aus der Rauschschätzschaltung 15 zugeführt. Die geschätzten Sprachspektraldaten S[w, k] werden auf der Basis dieser Daten abgeleitet. Für die Berechnung der Wahrscheinlichkeit Pr(SpY) kann ein roher Schätzwert des rauschfreien reinen Sprachspektrums benutzt werden, wie dies weiter unten erläutert wird. Dieser Wert wird mit Hilfe der Differenz der Spektralwerte nach der folgenden Gleichung (13) berechnet:
(13) S'[w, k] =
Mit dem nach der obigen Gleichung (13) berechneten rohen Schätzwert S'[w, k] des Sprachspektrums wird nach der folgenden Gleichung (14) ein auf Bandbasis zeitlich gemittelter Schätzwert S[w, k] des Sprachspektrums berechnet:
(14) S[w, k] = max(S'[w, k], S'[w, k - 1]·decay_rate)
decayrate = e
In der Gleichung (14) wird die dort dargestellte Abfallrate (decay_rate) verwendet.
Das bandbasierte S/N-Verhältnis wird nach der folgenden Gleichung (15) berechnet:
in der der Schätzwert des Rauschspektrums N[w, k] und der Schätzwert des Sprachspektrums aus den Gleichungen (12) bzw. (14) ermittelt werden können.
Im folgenden wird die Funktion der Pr(sp)-Rechenschaltung 17 erläutert. Die Wahrscheinlichkeit Pr(Sp) ist die Wahrscheinlichkeit, daß in einem angenommenen Eingangssignal Sprachsignale auftreten. Diese Wahrscheinlichkeit war bisher stets auf 0,5 festgelegt. Für ein Signal mit großem S/N-Verhältnis kann die Wahrscheinlichkeit Pr(sp) vergrößert werden, um eine Verschlechterung der Tonqualität zu verhindern. Die Wahrscheinlichkeit Pr(Sp) kann nach der folgenden Gleichung (16) berechnet werden:
(16) Pr(Sp) = 0,5 + 0,45·(1,0 - NR_Pegel)
wobei die von der Schaltung 15D zur Berechnung des maximalen Signals berechnete NR_Pegel-Funktion benutzt wird.
Im folgenden wird die Funktion der Pr(Sp Y)-Rechenschaltung 18 erläutert. Pr(Sp Y) ist die Wahrscheinlichkeit dafür, daß das Sprachsignal in dem Eingangssignal y[t] auftritt und wird unter Verwendung von Pr(Sp) und SNR[w, k] berechnet. Der Wert Pr(Sp Y) wird dazu benutzt, den sprachfreien Bereich auf einen engeren Wert zu reduzieren. Für die Berechnungen wurde das Verfahren benutzt, das in R. J. McAulay und M. L. Malpass; Speech Enhancement Using a Soft-Decision Noise Suppression Filter, IEEE Trans. Acoust, Speech, and Signal Processing, Vo. ASSP-28, Nr. 2, April 1980, beschrieben ist, das nun anhand der Gleichungen (17) bis (20) erläutert wird. Satz von Bayes Rayleigh-Wahrscheinlichkeitsdichtefunktion Rician-Wahrscheinlichkeitsdichtefunktion Modifizierte Bessel-Funktion 1. Art
In den obigen Gleichungen (17) bis (20) bezeichnet H0 ein sprachfreies Ereignis, d. h. das Ereignis, daß das Eingangssignal y(t) das Signal n(t) ist, während H1 ein Sprachereignis bezeichnet, d. h. das Ereignis, daß das Eingangssignal y(t) eine Summe aus dem Sprachsignal s(t) und dem Rauschsignal n(t) ist und s(t) von 0 verschieden ist. Ferner bezeichnen , , Y, S und σ die Bandnummer, die Rahmennummer, das Eingangssignal [w, k], den Schätzwert des Sprachsignals S[w, k] bzw. das Quadrat des geschätzten Rauschsignals N[w, k]².
Pr(H1~Y)[w, k] wird aus der Gleichung (17) berechnet, während p(Y H0) und p(Y H1) in der Gleichung (17) aus der Gleichung (19) ermittelt werden können. Die Bessel-Funktion l&sub0;(X) wird aus der Gleichung (20) berechnet.
Die Bessel-Funktion kann durch die folgende Funktion (21) approximiert werden:
Früher wurde für die Herleitung von Pr(H1 Y) ein fester Wert des S/N-Verhältnisses, z. B. SNR = 5, benutzt, ohne daß der geschätzte Sprachsignalwert S[w, k] benutzt wurde. Dadurch wurde p(YH1) vereinfacht, wie dies durch die folgende Gleichung (22)dargestellt ist:
Ein Signal, dessen momentanes S/N-Verhältnis kleiner ist als der bei der Berechnung von p(Y H1) benutzte SNR-Wert des S/N-Verhältnisses wird signifikant unterdrückt. Wenn man annimmt, daß der SNR-Wert des S/N-Verhältnisses auf einen exzessiv hohen Wert gesetzt wird, wird die durch Rauschen mit niedrigerem Pegel korrumpierte Sprache in ihrem Niedrigpegelteil exzessiv abgesenkt, so daß die erzeugte Sprache unnatürlich wird. Wenn umge kehrt der SNR-Wert des S/N-Verhältnisses auf einen exzessiv niedrigen Wert gesetzt wird, wird die durch den größeren Rauschpegel korrumpierte Sprache wenig unterdrückt und klingt selbst in ihrem Niedrigpegelteil rauschbehaftet. Somit erhält man den Wert p(Y H1) passend für einen breiten Bereich des Hintergrund-/Sprachpegels, wenn man wie in dem vorliegenden Ausführungsbeispiel anstelle des festen S/N-Verhältnisses das variable S/N- Verhältnis SNRnew[w, k] verwendet. Der Wert SNRnew[w, k] kann aus der folgenden Gleichung (23) ermittelt werden:
(23) SNRnew[w, k] = max(MIN_SNR(SNR[w, k]), S'[w, k])/(N[w, k]))
in der der Wert MIN_SNR aus der Gleichung (24) ermittelt wird:
(24) MIN_SNR(x) = 3 für x < 10
für 10 ≤ x ≤ 45
= 1,5 sonst
Der SNR-Wertnew[k] ist ein momentaner SNR-Wert in dem k-ten Rahmen, in dem der minimale Wert begrenzt ist. Der SNR-Wertnew[w, k] kann für ein Signal, das insgesamt ein hohes S/N-Verhältnis hat, auf 1,5 herabgesetzt werden. In einem solchen Fall findet in Segmenten mit niedrigem momentanen S/N-Verhältnis keine Unterdrückung statt. Der SNR- Wertnew[w, k] kann für ein Signal, das insgesamt ein niedriges momentanes S/N-Verhältnis hat, nicht unter 3 abgesenkt werden. Deshalb läßt sich eine ausreichende Unterdrückung für Segmente mit niedrigem momentanen S/N-Verhältnis erreichen.
Im folgenden wird die Funktion des Maximum-Likelihood-Filters 19 erläutert. Das Maximum-Likelihood-Filter 19 ist ein Vorfilter, das vorgesehen ist, um die betreffenden Bänder des Eingangssignals von Rauschsignalen zu befreien. In dem Maximum-Likelihood-Filter 19 werden die Spektralamplitudendaten Y[w, k] aus dem Frequenzband-Teilungsfilter 14 in ein Signal H[w, k] umgewandelt, wobei die Rausch-Spektralamplitudendaten N[w, k] aus der Rauschschätzschaltung 15 benutzt werden. Das Signal H[w, k] wird nach der folgenden Gleichung (25) berechnet:
für Y > 0 und Y ≥ N
α sonst
worin α = 0,7 - 0,4 NR_Pegel[k].
Obwohl der Wert in der obigen Gleichung (25) üblicherweise auf 1/2 gesetzt wird, kann der Grad der Rauschunterdrückung in Abhängigkeit von dem maximalen SNR variiert werden, weil ein Näherungswert von SNR bekannt ist.
Im folgenden wird die Funktion einer Soft-Decision-Unterdrückungsschaltung 20 erläutert. Die Soft-Decision-Unterdrückungsschaltung 20 bildet eines der Vorfilter zur Verbesserung des Sprachteils des Signals. Die Umwandlung erfolgt nach dem in der folgenden Gleichung (26) angegebenen Verfahren unter Verwendung des Signals H[w, k] und des Werts Pr(H1Y) aus der Pr(SpY)-Rechenschaltung 18:
(26) H[w, k] ← Pr(H1 Y)[w, k]H[w, k] + (1 - Pr(H1 Y[w, k]MIN_GAIN
In der obigen Gleichung (26) ist MIN_GAIN ein Parameter, der die minimale Verstärkung angibt, und der z. B. auf 0,1, d. h. -15 dB, gesetzt werden kann.
Im folgenden wird die Funktion einer Filterverarbeitungsschaltung 21 erläutert. Das Signal H[w, k] aus der Soft-Decision-Unterdrückungsschaltung 20 wird sowohl entlang der Frequenzachse als auch entlang der Zeitachse gefiltert. Die Filterung entlang der Frequenzachse hat die Wirkung, daß die effektive Impulsantwortlänge des Signals H[w, k] verkürzt wird. Dadurch werden zirkuläre Faltungs-Aliasing-Effekte eliminiert, die mit der Filterung durch Multiplikation im Frequenzbereich verbunden sind. Die Filterung entlang der Zeitachse hat die Wirkung, daß die Änderungsrate des Filters bei der Unterdrückung von Rausch-Bursts begrenzt wird.
Die Filterung entlang der Frequenzachse wird nun erläutert. Die Signale H[w, k] jedes der 18 Bänder, die aus der Frequenzbandteilung resultieren, werden einer Median-Filterung unterzogen. Das Verfahren wird durch die folgenden Gleichungen (27) und (28) erläutert:

Schritt 1

(27) H1[w, k] = max(median(H[w - 1, k], H[w, k], H[w + 1, k]), H[w, k]
worin H1[w, k] = H[w, k], wenn (w - 1) oder (w + 1) nicht vorhanden sind,

Schritt 2

(28) H2[w, k] = min(median(H[w - 1, k], H[w, k], H[w + 1, k]), H[w, k]
worin H2[w, k] = H[w, k], wenn (w - 1) oder (w + 1) nicht vorhanden sind,
In dem Schritt 1 bedeutet H1[w, k] H[w, k] ohne Einzelband-Nullen. In dem Schritt 2 bedeutet H2[w, k] H1[w, k] ohne Einzelband-Spitzen. Das aus der Filterung entlang der Frequenzachse resultierende Signal ist H2[w, k].
Als nächstes wird die Filterung entlang der Zeitachse erläutert. Die Filterung entlang der Zeitachse berücksichtigt drei Zustände des Eingangs-Sprachsignals, nämlich die Sprache, das Hintergrundgeräusch und die Transienten, d. h. den ansteigenden Teil der Sprache. Das Sprachsignal wird entlang der Zeitachse geglättet, wie dies in der folgenden Gleichung (29) dargestellt ist:
(29) Hspeech[w, k] = 0,7H2[w, k] + 0,3H2[w, k - 1]
Das Hintergrundrauschsignal wird entlang der Zeitachse geglättet, wie dies durch die folgende Gleichung (30) dargestellt ist:
(30) Hnoise[w, k] = 0,7Min_H + 0,3Max_H
hierin bedeuten Min_H und Max_H:
Min_H = min(H2[w, k], H2[w, k - 1])
Max_H = max(H2[w, k], H2[w, k - 1])
Für transiente Signale findet keine Glättung auf der Zeitachse statt. Zuletzt werden Berechnungen nach der folgenden Gleichung (31) durchgeführt, um das geglättete Ausgangssignal Ht_smooth[w, k] zu erzeugen:
(31) Ht_smooth[w, k] = (1 - αtr)(αsp·Hspeech[w, k] + (1 - αsp)·Hnoise[w, k] + αtr·H2[w, k]
Die Werte αsp und αtr in der Gleichung (31) werden aus den folgenden Gleichungen (32) bzw. (33) ermittelt:
(32) αsp=1,0 für SNRinst > 4,0
für 1,0 < SNRinst < 4,0
= 0 sonst
worin
SNRinst = RMS[k]/MinNoise[k]
(33) αtr = 1,0 für δrms > 3,5
für 2,0 < δrms < 3,5
= 0 sonst
worin
Im folgenden wird die Arbeitsweise einer Bandumsetzungsschaltung 22 erläutert. Die 18 Bandsignale Ht_smooth[w, k] aus der Filterschaltung 21 werden in z. B. 128 Bandsignale H&sub1;&sub2;&sub8;[w, k] interpoliert. Die Interpolation erfolgt in zwei Stufen, nämlich die Interpolation von 18 auf 64 Bänder, die durch Halten nullter Ordnung erfolgt, und die Interpolation von 64 auf 128 Bänder, die durch eine Tiefpaßfilter-Interpolation vorgenommen wird.
Im folgenden wird die Arbeitsweise einer Spektrum-Korrekturschaltung 23 erläutert. Der Realteil und der Imaginärteil der in der FFT-Schaltung 13 gewonnenen FFT-Koeffizienten des Eingangssignals werden mit dem obigen Signal H&sub1;&sub2;&sub8;[w, k] multipliziert, um eine Spektrumkorrektur durchzuführen. Das Ergebnis besteht darin, daß die Spektralamplitude korrigiert wird, während das Spektrum in seiner Phase nicht modifiziert wird.
Eine IFFT-Schaltung 24 bewirkt eine inverse FFT des in der Spektrum-Korrekturschaltung 23 gewonnenen Signals.
Eine Überlappungs- und Addierschaltung 25 überlappt und addiert die Rahmenbegrenzungsabschnitte der rahmenbasierten IFFT-Ausgangssignale. Durch die oben beschriebene Prozedur wird an dem Ausgang 26 ein rauschreduziertes Ausgangssignal gewonnen.
Das so gewonnene Ausgangssignal wird verschiedenen Kodierern eines mobilen Telefongeräts oder einer Signalverarbeitungsschaltung einer Spracherkennungvorrichtung zugeführt. Alternativ können die Ausgangssignale des Dekodierers in einem mobilen Telefongerät mit Rauschreduzierung gemäß der Erfindung verarbeitet werden.
Die vorliegende Erfindung ist nicht auf das obige Ausführungsbeispiel beschränkt. Die beschriebene Filterung durch die Filterschaltung 21 kann z. B. auch bei der herkömmlichen Rauschunterdrückungstechnologie verwendet werden, bei der das Maximum-Likelihood-Filter benutzt wird. Das Verfahren zur Detektierung des Rauschbereichs mit Hilfe der Filterverarbeitungsschaltung 15 kann auch in zahlreichen anderen Vorrichtungen benutzt werden als in der Rauschunterdrückungsvorrichtung.

Claims

1. Verfahren zum Delektieren einer Rauschdomäne durch

Unterteilen eines Eingangssprachsignals auf Rahmenbasis,

Ermitteln eines RMS-Wert mit der Rahmenbasis und

Vergleichen der RMS-Werte mit einem Schwellwert Th&sub1; zum Detektieren der Rauschdomäne,

gekennzeichnet durch

das Berechnen eines Werts th für die Ermittlung des Schwellwerts Th&sub1;, unter Verwendung des jeweils kleineren Werts von

dem RMS-Wert für den laufenden Rahmen und

dem mit einem Koeffizienten α multiplizierten Wert th des früheren Rahmens, wobei der Koeffizient α von dem RMS-Wert des laufenden Rahmens abhängig ist.

2. Verfahren zum Detektieren einer Rauschdomäne durch

Unterteilen eines Eingangssprachsignals auf Rahmenbasis,

Ermitteln eines RMS-Wert mit der Rahmenbasis und

Vergleichen der RMS-Werte mit einem Schwellwert Th&sub1; zum Delektieren der Rauschdomäne,

gekennzeichnet durch

dem RMS-Wert des laufenden Rahmens und

dem jeweils größeren Wert von

dem Wert th des vorhergehenden Rahmens multipliziert mit einem Koeffizienten α, der von einem RMS-Wert des laufenden Rahmens abhängt, oder dem kleinsten RMS-Wert über mehrere Rahmen.

3. Verfahren nach Anspruch 1 oder 2, bei dem die Rauschdomäne auch delektiert wird durch Vergleichen der relativen Energie des laufenden Rahmens mit einem Schwellwert Th&sub2;, der unter Verwendung des Maximalwerts des S/N-Verhältnisses des Eingangssprachsignals berechnet wird.