DE69428119T2

DE69428119T2 - Verringerung des hintergrundrauschens zur sprachverbesserung

Info

Publication number: DE69428119T2
Application number: DE69428119T
Authority: DE
Inventors: L. Chu; Martin Helf
Original assignee: Picturetel Corp
Current assignee: Polycom LLC
Priority date: 1993-07-07
Filing date: 1994-06-06
Publication date: 2002-03-21
Anticipated expiration: 2014-06-07
Also published as: US5550924A; WO1995002288A1; JPH09503590A; EP0707763A4; JP3626492B2; EP0707763B1; EP0707763A1; DE69428119D1

Description

Diese Erfindung bezieht sich auf ein Gerät und ein Verfahren zur Verringerung wahrgenommenen Hintergrundrauschens, wenn beispielsweise Sprach-Informationen über einen Kanal, etwa einen Telefon-Verbindungskanal, übertragen werden.
Mikrofone, die bei Sprachübertragungssystemen benutzt werden, nehmen typischerweise Umgebungs- oder Hintergrundgeräusche, Rauschen genannt, zusammen mit der Sprache auf, die sie aufnehmen sollen. Bei Sprachübertragungssystemen, bei denen sich das Mikrofon in einiger Entfernung vom Sprecher (von Sprechern) befindet, beispielsweise bei Systemen, die im Umfeld von Video- und Audio-Telefonkonferenzen benutzt werden, ist Hintergrundrauschen eine Ursache schlechter Audio-Qualität, weil das Rauschen zu der mittels eines Mikrofons aufgenommenen Sprache hinzugefügt wird. Aufgrund ihrer Natur und gedachten Anwendung müssen diese Systeme Töne von sämtlichen Orten her aufnehmen, die ihre Mikrofone umgeben, und diese Töne enthalten Hintergrundrauschen. Ventilatorgeräusche, die von HVAC-Systemen, Computern und anderen elektronischen Einrichtungen ausgehen, sind die als vorherrschend ermittelte Quelle von Rauschen in den meisten Umgebungen von Telefonkonferenzen.
Die US-A-5 012 519 (Adlersberg u. a.) bezieht sich auf ein Rauschverringerungssystem, bei dem ein Eingangssignal in Kanäle aufgeteilt wird und bei dem die Verstärkung in jedem Kanal, der ein niedriges Signal-/Rauschverhältnis (SNR) besitzt, verringert wird.
Eine gute Technik zur Rauschunterdrückung verringert die Wahrnehmung von Hintergrundrauschen, während sie gleichzeitig die Güte oder Erkennbarkeit von Sprache nicht beeinträchtigt. Allgemein ist es ein Ziel dieser Erfindung, Rauschen zu unterdrücken, das Sprache hinzugefügt ist, welche durch ein einzelnes Mikrofon aufgenommen wird.
Gemäß einem Aspekt der vorliegenden Erfindung ist ein Gerät für die wahrnehmbare Unterdrückung von Hintergrundrauschen in einem Audio- Eingangssignal vorgesehen, das Rauschkomponenten besitzt, mit einem Blockbildner zum Unterteilen des Audio-Eingangssignals in eine Mehrzahl von Audio-Signalblöcken, einem Transformierer, um Frequenzspektrum-Komponenten von den Audio-Signalblöcken zu erhalten, und einem Rauschabschätzer, der die Frequenzspektrum-Komponenten benutzt, um einen Rauschschätzwert einer Rauschmenge in den Frequenzspektrum -Komponenten zu erzeugen, gekennzeichnet durch ein Fenstertechnikglied zum Erzeugen eines laufenden, fenstertransformierten Audio-Signalblockes, indem sämtliche Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes kombiniert werden, der zeitlich unmittelbar dem genannten einen Block vorausgeht, wobei der Transformierer dazu vorgesehen ist, Frequenzspektrum-Komponenten von dem laufenden, fenstertransformierten Audio-Signalblock zu erhalten, wobei das Gerät ferner gekennzeichnet ist durch einen Rauschunterdrückungs-Spektralmodifikator zum Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der Frequenzspektrum-Komponenten, die aus dem laufenden, fenstertransformierten Audio-Signalblock erhalten sind, einen Verzögerer zur Verzögerung der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzsprektrum-Komponenten zu erzeugen, ein gesteuertes Dämpfungsglied, um die verzögerten Frequenzspektrum-Komponenten auf Grundlage der Verstärkungsvervielfachungsfaktoren abzuschwächen, um rauschverringerte Frequenzkomponenten zu erzeugen, und einen inversen Transformierer, um die rauschverringerten Frequenzkomponenten in den Zeitbereich umzuwandeln.
Bei bevorzugten Ausführungsbeispielen beinhaltet der Rauschunterdrückungs-Spektralmodifikator einen globalen Entscheidungsmechanismus, einen lokalen Entscheidungsmechanismus, einen Detektor, einen Streumechanismus und einen spektralen Talfüller.
Der globale Entscheidungsmechanismus tätigt für jede Frequenzkomponente der Frequenzspektrum-Komponenten eine Ermittlung darüber, ob diese Frequenzkomponente hauptsächlich Rauschen ist. Der Entscheidungsmechanismus für lokales Rauschen leitet für jede Frequenzkomponente der Frequenzspektrum-Komponenten einen Vertrauensgrad dafür ab, daß die Frequenzkomponente hauptsächlich eine Rauschkomponente ist. Der Detektor ermittelt auf Grundlage der Vertrauensgrade einen Verstärkungsvervielfachungsfaktor für jede Frequenzkomponente. Der Spektralmechanismus streut spektral und zeitlich die Wirkung der ermittelten Verstärkungsvervielfachungsfaktoren, und der spektrale Talfüller ermittelt und füllt spektrale Täler in den resultierenden Frequenzkomponenten aus.
Bei anderen Aspekten des bevorzugten Ausführungsbeispiels erzeugt der Abschätzer für Hintergrundrauschen auch einen Rauschschätzwert für jede Frequenzspektrum-Komponente, und der Entscheidungsmechanismus für lokales Rauschen leitet Vertrauensgrade auf Grundlage der Verhältnisse zwischen jeder Frequenzkomponente und ihrem entsprechenden Rauschschätzwert und den durch den globalen Entscheidungsmechanismus getroffenen Ermittlungen ab.
Vorteilhafterweise beinhaltet das Gerät ferner eine Nach-Fensterfunktion und einen Überlapper-Addier-Mechanismus. Die Nach-Fensterfunktion erzeugt geglättete Zeitbereichkomponenten, um Diskontinuitäten in den rauschverringerten Zeitbereichkomponenten zu minimieren; und der Überlapper-Addierer gibt einen ersten Teil der geglätteten Zeitbereichkomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichkomponenten als Ausgangssignal ab und speichert einen verbleibenden Teil der geglätteten Frequenzkomponenten, wobei der verbleibende Teil die geglätteten Frequenzkomponenten aufweist, die in dem ersten Teil nicht enthalten sind.
Bei bevorzugten Ausführungsbeispielen des Gerätes beinhaltet der Abschätzer für Hintergrundrauschen zumindest zwei Abschätzer, von denen jeder einen Rauschschätzwert erzeugt, sowie einen Komparator für das Vergleichen und Auswählen eines der Schätzwerte für Hintergrundrauschen. Einer der Abschätzer ist ein laufender Minimum-Abschätzer, und der andere Abschätzer ist ein stationärer Abschätzer.
Bei einem bevorzugten Ausführungsbeispiel ist eine Bank von Bandsperrfiltern vorhanden, um Rauschkomponenten aus jedem Audio-Signalblock zu entfernen, um gefilterte Audio-Signalblöcke zu erzeugen, die sodann dem Fenstertechnikglied zugeführt werden. Das Gerät kann auch einen Sperrfiltermechanismus beinhalten, um die Lagen der Dämpfungsmaxima für die Sperrfilterbank zu ermitteln.
Gemäß einem weiteren Aspekt beinhaltet die Erfindung auch ein Verfahren zur Verringerung der Wahrnehmung von Hintergrundrauschen für ein Audio-Eingangssignal, mit den Schritten des Aufteilens des Audio-Eingangssignals in eine Mehrzahl von Audio-Signalblöcken, des Gewinnens von Frequenzspektrum-Komponenten der Blöcke und des Benutzens der Frequenzspektrum-Komponenten, um einen Rauschschätzwert einer Menge des Rauschens in den Frequenzspektrum-Komponenten zu erzeugen, wobei das Verfahren gekennzeichnet ist durch: Erzeugen eines fenstertransformiererten Audio-Signalblockes, Kombinieren sämtlicher Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes, der zeitlich dem genannten einen Block unmittelbar vorausgeht, wobei die Frequenzspektrum-Komponenten aus dem fenstertransformierten Audio-Signalblock gewonnen werden und die genannten Komponenten auf Grundlage der genannten Verstärkungsvervielfachungsfaktoren benutzt werden, um den genannten Rauschschätzwert zu erzeugen, Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der genannten Frequenzspektrum-Komponenten, Verzögern der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum-Komponenten zu erzeugen, Abschwächen der verzögerten Frequenzspektrum-Komponenten, um rauschverringerte Frequenzkomponenten zu erzeugen, und Umwandeln der rauschverringerten Frequenzkomponenten in den Zeitbereich.
Das in dieser Beschreibung erläuterte System verringert Ventilatorgeräusch wirksam, das zu Sprache hinzugefügt wird, welche durch ein einzelnes Mikrofon aufgenommen wird.
Die Erfindung wird nun beispielhaft unter Bezugnahme auf die Zeichnungen beschrieben, in denen:
Fig. 1 ein Blockdiagramm eines erfindungsgemäßen Rauschunterdrückungssystemes ist, und
Fig. 2-4 detaillierte Blockdarstellungen sind, die Teile des Blockdiagramms von Fig. 1 darstellen.
Das einfachste Gerät zur Rauschunterdrückung, bei Millionen von Menschen rings um die Welt in täglichem Gebrauch, ist die sogenannte "Squelch"-Schaltung. Eine Squelch-Schaltung ist bei den meisten Sende- Empfangsgeräten des CB-Bandes Standard. Sie arbeitet in der Weise, daß der Lautsprecher des Systems einfach abgeschaltet wird, wenn die Energie des empfangenen Signales unter einen bestimmten Schwellenwert fällt. Die Größe dieses Schwellenwertes wird gewöhnlich unter Verwendung eines manuellen Steuerknopfes auf einen Pegel derart festgelegt, daß das Hintergrundrauschen niemals zum Lautsprecher gelangt, wenn das entfernte Ende stumm ist. Das Problem bei dieser Art Schaltung besteht darin, daß, wenn die Schaltung einschaltet und abschaltet, wenn der Sprecher am entfernten Ende beginnt und sodann aufhört, das Vorhandensein und sodann das Fehlen von Rauschen klar zu hören ist. Das Rauschen ist breitbandig und überdeckt Frequenzen, in denen nur eine geringe Sprachenergie vorhanden ist, und somit kann das Rauschen gleichzeitig gehört werden, wenn die Person spricht. Die Tätigkeit der Squelch-Schaltung erzeugt einen sehr verwirrenden Effekt, obgleich dieser dem Vorhandensein überhaupt keiner Rauschunterdrückung vorzuziehen ist.
Das unten beschriebene Verfahren zur Rauschunterdrückung verbessert das "Squelch"-Konzept wesentlich, indem das Hintergrundrauschen sowohl in den Sprachabschnitten als auch den sprachfreien Abschnitten des Audiosignals verringert wird. Der benutzte Lösungsansatz beruht auf der menschlichen Wahrnehmung. Durch Benutzung der Prinzipien der spektralen und zeitlichen Maskierung (beides unten definiert) wird die wahrgenommene Lautheit von Rauschen, das dem Sprachsignal zugeführt oder mit ihm vermischt ist, verringert.
Dieser Lösungsansatz unterscheidet sich von anderen Ansätzen, beispielsweise solchen, bei denen es das Ziel ist, das mittlere Fehlerquadrat zwischen Sprachkomponente selbst (Sprache ohne Rauschen) und dem verarbeiteten Sprachausgangssignal des Unterdrückungssystemes zu minimieren.
Das zu beschreibende Verfahren nutzt den "Squelch"-Gedanken des Erhöhens der Verstärkung in einem Kanal aus, wenn die Energie dieses Kanales einen Schwellenwert übersteigt, und des Absenkens der Verstärkung, wenn die Kanalenergie unter den Schwellenwert fällt, jedoch führt das Verfahren diese Tätigkeit in unterschiedlichen Frequenzbereichen gesondert durch. Die Verstärkung in einem Kanal kann als das Verhältnis zwischen der Größe des Eingangssignales und der Größe des entsprechenden Ausgangssignales betrachtet werden.
Das Verfahren nutzt ferner verschiedene psychoakustische Prinzipien der spektralen Maskierung aus, insbesondere die Prinzipien, welche grundsätzlich feststellen, daß, wenn ein lauter Ton bei einer Frequenz existiert, sodann ein gegebenes Frequenzband um diese Frequenz herum vorhanden ist, das kritische Band genannt, innerhalb dessen andere Signale nicht zu hören sind. In anderen Worten gesagt, lassen sich in dem kritischen Band keine weiteren Signale hören. Das erfindungsgemäße Verfahren ist hinsichtlich der Verringerung der Wahrnehmung von Rauschen, während Sprache vom ferngelegenen Ende empfangen wird, weit effektiver als eine einfache "Squelch"-Schaltung.
Das zu beschreibende Verfahren nutzt auch eine Eigenheit der zeitlichen Maskierung aus. Wenn ein lauter Tonausbruch stattfindet, dann ist für einen Zeitraum bis zu 200 ms nach diesem Ausbruch die Empfindlichkeit des Ohres in dem Spektralbreich des Ausbruches herabgesetzt. Ein weiterer akustischer Effekt besteht darin, daß für eine Zeit von bis zu 20 ms vor dem Ausbruch die Empfindlichkeit des Ohres herabgesetzt ist (somit besteht beim menschlichen Gehör eine Leitungsverzögerung von etwa 20 ms). Ein Schlüsselelement dieses Verfahrens besteht somit darin, dass der Signalschwellenwert, unterhalb dem die Verstärkung für ein gegebenes Band abgesenkt wird, um einen Zeitraum sowohl vor als auch nach dem Auftreten eines ausreichend starken Signales in diesem Band abgesenkt werden kann, weil die Empfindlichkeit des Ohres für Rauschen in diesem Zeitraum herabgesetzt ist.
Es wird nun auf das Blockdiagramm von Fig. 1 Bezug genommen. Das Eingangssignal 1 wird zunächst durch einen Blockbildner 2 in 20 ms-Blöcke von Abtastwerten aufgeteilt (da das Eingangssignal mit einer Rate von 16 kHz bei dem dargestellten Beispiel abgetastet wird, beinhaltet jeder 20 ms- Block 320 Abtastwerte). Die rechnerische Komplexität des Verfahrens wird merklich verringert, indem man an Gruppen von Blöcken aus Abtastwerten zu einem Zeitpunkt arbeitet und nicht zu einem Zeitpunkt an einzelnen Abtastwerten. Das in Blöcke gebrachte Signal wird sodann durch eine Bank aus Bandsperrfiltern 4 geführt, deren Zweck darin besteht, schmalbandige Komponenten des Rauschens zu entfernen, typischerweise Motorgeräusch, das bei den Drehzahlfrequenzen des Motors auftritt. Wenn die Dämpfungsmaxima schmal genug sind, mit einer ausreichend dünnen spektralen Dichte, wird die Tongüte der Sprache nicht ungünstig beeinflußt. Jeder Block digitaler Signale wird dann mit einem Teil vom Ende des unmittelbar vorausgehenden Blockes digitaler Signale kombiniert, um einen fenstertransformierten Block zu erzeugen.
Bei bevorzugten Ausführungsbeispielen wird jeder Block digitaler Signale (20 ms) mit den letzten 12 ms des vorausgehenden Blockes kombiniert, um fenstertransformierte Blöcke zu erzeugen, die eine Dauer von 32 ms besitzen. In anderen Worten gesagt, beinhaltet jeder Block 320 Abtastwerte von einem Block digitaler Signale in Kombination mit den letzten 192 gefilterten Abtastwerten des unmittelbar vorausgehenden Blockes. Das Sprachsegment von 512 Abtastwerten wird sodann mit einer Fensterfunktion an einem Multiplikator 6 multipliziert, um Probleme zu verringern, die aus Diskontinuitäten des Signales am Beginn und am Ende des Blockes von 512 Abtastwerten entstehen. Eine schnelle Fourier Transformation (FFT) 8 wird dann an dem fenstertransformierten Block der 512 Abtastwerte durchgeführt, um ein Frequenzspektrum von 257 Komponenten zu erzeugen.
Die niedrigsten (Gleichspannung) und höchsten (Abtastfrequenz geteilt durch 2 oder 8 kHz) Frequenzkomponenten des transformierten Signales weisen lediglich Realteile auf, während die übrigen 255 Komponenten sowohl Real- als auch Imaginärteile aufweisen. Die Spektralkomponenten werden zu einem Hintergrund-Rauschabschätzer 20 zugeführt, dessen Zweck darin besteht, die spektralen Energien des Hintergrundrauschens abzuschätzen und Spektrumsspitzen des Hintergrundrauschens aufzufinden, um auf diese die Dämpfungsmaxima des Bandsperrfilters 4 auszurichten. Ein Spektrumabschätzer für Signalgröße, ein stationärer Abschätzer 24, und ein Spektrumabschätzer für Hintergrundrauschen, ein laufender Minimumabschätzer 22 für jede Frequenzkomponente, werden mittels eines Komparators 28 verglichen, und verschiedene Vertrauensgradpegel werden mittels eines Entscheidungsmechanismus 32 für jede Frequenzkomponente dafür abgeleitet, ob die spezielle Frequenzkomponente in erster Linie aus Rauschen besteht oder aus Signal plus Rauschen. Auf Grundlage dieser Vertrauensgradpegel wird die Verstärkung für ein Frequenzband mittels eines Verstärkungseinstellers 34 festgelegt. Die Verstärkungen werden sodann mittels eines Streumechanismus 36 frequenzbereichsmäßig in kritischen Bändern spektral und zeitlich gestreut, wobei psychoakustische Maskiereffekte ausgenützt werden. Ein Spektraltalfüller 38 wird benutzt, um spektrale Täler in der Verstärkungsfunktion der Frequenzkomponenten zu erkennen und die Täler aufzufüllen. Die endgültige Verstärkungsfunktion der Frequenzkomponente aus dem Rauschunterdrückungs-Spektralmodifikator 30 wird benutzt, um die Größe der Spektralkomponenten der 512-Punkte FFT an einem Abschwächer 12 zu modifizieren. Merke, daß der Block am Abschwächer 12 um eine Zeiteinheit hinter den Signalen liegt, welche in erster Linie zur Generierung der Verstärkungen benutzt werden. Eine inverse FFT (IFFT) 14 setzt sodann das Signal von dem Frequenzbereich zurück in den Zeitbereich um. Der resultierende 512 Punkte-Block des rauschverringerten Signales wird durch eine Fensterfunktion in einem Multiplikator 16 multipliziert. Das Ergebnis wird sodann in einem Addierer 18 überlappt und zu dem Signal des vorausgehenden Blockes addiert, um 20 ms oder 320 Abtastwerte des Ausgangssignales in der Leitung 40 zu gewinnen.
Eine in nähere Einzelheiten gehende Beschreibung jedes Blockes in der Signalverarbeitungskette, vom Eingang bis zum Ausgang in der Reihenfolge ihres Vorkommens, erfolgt nunmehr.
Wie oben beschrieben, wird das in Blöcke gebrachte Eingangssignal durch eine Bank von Bandsperrfiltern 4 hindurch geführt.
Bezüglich Fig. 1 und 2 besteht die Bank der Bandsperrfilter 4 aus einer Kaskade digitaler IIR (Infinite Impulse Response) Filter, wobei jeder Filter ein Verhalten in der Form besitzt:
worin θ = π/8000 · (Frequenz des Dämpfungsmaximums) und r ein Wert kleiner als 1 sind, der die Breite des Maximums wiedergibt. Wenn die -3 dB Breite des Dämpfungsmaximums ωHz beträgt, dann gilt r = 1 - (ω/2)(π/8000). Die Bandbreite ω, die bei dem dargestellten und bevorzugten Ausführungsbeispiel benutzt wird, beträgt 20 Hz. Ein Dämpfungsmaximum ist ungefähr bei jeden 100 Hz gelegen, an der größten Spitze der Hintergrundrauschenergie in der Nähe der Nennfrequenz.
Die Bandsperrfilterung wird auf die 320 Abtastwerte des neuen Signalblockes angewandt. Die resultierenden 320 Abtastwerte bandsperrgefilterten Ausgangsignales werden an die letzten 192 Abtastwerte des bandsperrgefilterten Ausgangsignales des vorausgehenden Blockes angefügt, um einen gesamten ausgedehnten Block von 512 Abtastwerten zu erzeugen.
Bezüglich Fig. 1 und 2 wird der bandsperrgefilterte Block von 512 Abtastwerten, der von der Filterbank 4 gewonnen ist, durch eine Fensterfunktion multipliziert, wobei folgende Formel verwendet wird:
für i = 0,1, ..., 191
w(i) = f(i) für i = 192, 193, ....., 319
für i = 320, 321, ..., 511
(2)
worin f(i) der Wert des i ten bandsperrgefilterten Abtastwertes des von der Filterbank 4 stammenden Blockes von 512 Abtastwerten ist und w(i) der resultierende Wert des i ten-Abtastwertes des resultierenden, fenstertransformierten Ausgangssignales der 512 Abtastwerte ist, welcher als nächstes der FFT 8 zugeführt wird. Der Zweck der durch den Multiplikator 6 durchgeführten Fenstertransformation besteht darin, Randeffekte und Diskontinuitäten am Beginn und am Ende des ausgedehnten Blockes zu minimieren.
Die Zeit-fenstertransformierten 512 Abtastwerte werden nun der FFT 8 zugeführt. Aufgrund der Allgegenwart von FFT's, liefern viele Hersteller digitaler Signalverarbeitungschips (DSP) hoch optimierte Assembler-Sprachcode zum Implementieren der FFT.
Ein Verzögerer 10 um einen Block ist eingeführt, so dass Signalfrequenzkomponenten der FFT verstärkt und im Abschwächer 12 verarbeitet werden können, basierend auf später auftretende Signalwerte. Dies führt keinerlei wahrnehmbares Rauschen ein, weil, wie oben bemerkt, eine Signalkomponente Frequenzen in ihrer spektralen Nachbarschaft 20 ms bevor sie tatsächlich auftritt, maskiert. Da Sprachgeräusche fortschreitend im Volumen zunehmen, ausgehend von der Nullamplitude, verhindert die Verzögerung um einen Block auch das Abschneiden des Beginns von Sprachäußerungen.
Diejenigen Komponenten der FFT, die auf Rauschen beruhen, werden durch den Abschwächer 12 gedämpft, während die Komponenten aufgrund des Signales weniger gedämpft oder ungedämpft bleiben oder verstärkt werden können. Wie oben erwähnt existiert für jede Frequenz eine reale und eine imaginäre Komponente. Beide Komponenten werden um einen einzelnen Faktor multipliziert, der vom Rauschunterdrückungs- Spektralmodifikatormodul 30 aufgefunden wird, so daß die Phase für die Frequenzkomponente erhalten bleibt, während die Größe verändert wird.
Die inverse FFT 14 (IFFT) wird von der in der Größe modifizierten FFT genommen, um einen frequenzbearbeiteten verlängerten Block zu erzeugen, in einer Länge von 512 Abtastwerten. Die Fenstertechnik-Operation, die im Multiplikator 16 angewendet wird, ist genau die gleiche wie die Fenstertechnik-Operation, welche oben für den Multiplikator 6 definiert wurde. Ihr Zweck besteht darin, Diskontinuitäten zu minimieren, die durch die Dämpfung der Frequenzkomponenten eingeführt werden. Beispielsweise angenommen, dass sämtliche Frequenzkomponenten, mit Ausnahme von einer, auf Null gesetzt sind. Das Ergebnis ist eine Sinusschwingung, wenn die IFFT getätigt wird. Diese Sinusschwingung kann mit einem großen Wert beginnen und mit einem großen Wert endigen. Benachbarte Blöcke brauchen diese Sinusschwingungskomponente nicht aufzuweisen. Somit, wenn dieses Signal, ohne geeignete Fenstertechnik, in dem Ausgangsaddierer 18 überlappt wird, kann ein Klicken am Beginn und am Ende des Blockes hörbar sein. Durch geeignete Fenstertechnik an der Sinusschwingung, wobei beispielsweise die in Gleichung (2) definierten Parameter benutzt werden, ist jedoch lediglich eine Sinusschwingung hörbar, die in der Stärke sanft ansteigt und dann in der Stärke sanft abnimmt.
Aufgrund der Vor- und Nach-Fenstertechnikbehandlung des Blockes durch die Multiplikatoren 6 und 16, ist eine Überlappung und Addition der Blöcke erforderlich, um zu verhindern, daß das Ausgangssignal am Beginn und am Ende des Blockes abnimmt. Somit werden die ersten 192 Abtastwerte des vorliegenden, ausgedehnten und fenstertransformierten Blockes mit 512 Abtastwerten zu den letzten 192 Abtastwerten des vorausgehend ausgedehnten und fenstertransformierten Blockes addiert. Dann werden die nächsten 128 Abtastwerte (8 ms) des laufenden, ausgedehnten Blockes als Ausgangssignal abgegeben. Die letzten 192 Abtastwerte des vorliegenden, ausgedehnten und fenstertransformierten Blockes werden dann gespeichert, um bei der Überlappungs-Addierungsoperation des nächsten Blockes benutzt zu werden usw..
Bei einem bevorzugten Ausführungsbeispiel hat die benutzte Fensterfunktion W die Eigenschaft, daß:
W² + (W² verschoben um den Betrag der Überlappung) = 1
um die Erzeugung einer Modulation über die Zeit zu vermeiden. Wenn beispielsweise der Betrag der Überlappung einen halben Block beträgt, dann hat die Fensterfunktion W die Eigenschaft, daß:
W² + (W² verschoben ¹/&sub2;) = 1

Hintergrund-Rauschabschätzer 20

Bezüglich Fig. 1 und 3 arbeiten der Hintergrund-Rauschabschätzer 20 und der Rauschunterdrückungs-Spektralmodifikatormodul 30 wie folgt.
Zweck des Hintergrund-Rauschabschätzers 20 ist es, einen Schätzwert für jede Frequenzkomponente der FFT zu entwickeln, der durchschnittlichen Stärke der Energie aufgrund des Hintergrundrauschens. Der Hintergrund- Rauschabschätzer beseitigt das Erfordernis, daß der Benutzer manuell das System für jede neue Umgebung justieren oder trainieren muß. Der Hintergrund-Rauschabschätzer überwacht die Signal/Rauschen-Umgebung kontinuierlich, um Schätzwerte des Hintergrundrauschens selbsttätig in Abhängigkeit beispielsweise vom Ausschalten oder Einschalten von Klimaanlagengebläsen usw. zu aktualisieren. Zwei Ansätze werden benutzt, wobei die Ergebnisse des einen oder anderen Ansatzes für die besondere Situation angewendet werden. Der erste Ansatz ist genauer, erfordert jedoch Intervale von einer Sekunde mit ausschließlich Hintergrundrauschen. Der zweite Ansatz ist weniger genau, entwickelt jedoch Schätzwerte von Hintergrundrauschen in 10 Sek. unter beliebigen Bedingungen.

Stationärer Abschätzer 24

Unter Bezugnahme auf Fig. 1 und 3 benutzt der erste Ansatz einen stationären Abschätzer 24, um nach langen Sequenzen von Blöcken zu schauen, wo die spektrale Form in jedem Block derjenigen anderer Blöcke sehr ähnlich ist. Sehr wahrscheinlich kann diese Bedingung lediglich auftreten, wenn der Mensch in dem Raum stumm ist und das konstante Hintergrundrauschen aufgrund von Ventilatoren und/oder Schaltungsrauschen die hauptsächliche Signalquelle ist. Wenn eine solche Sequenz erkannt wird, wird die durchschnittliche Größe jeder Frequenz von solchen Blöcken im Zentralteil der FFT Sequenz genommen (Blöcke am Beginn und Ende der Sequenz können Sprachkomponenten schwachen Pegels enthalten). Diese Methode liefert ein viel genaueres Maß des Hintergrundrauschspektrums, verglichen mit dem zweiten Ansatz (unten beschrieben), erfordert jedoch, daß das Hintergrundrauschen verhältnismäßig konstant ist und dass die Menschen im Raum über einen bestimmten Zeitraum hin nicht sprechen, Bedingungen, die in der Praxis manchmal nicht zu finden sind.
Die Betriebsweise dieses Abschätzer in näheren Einzelheiten ist folgende:
1. Es wird auf Fig. 3 Bezug genommen. Die Methode ermittelt bei dem ersten Ansatz, ob der laufende 20 ms-Block in der Spektralform den vorausgehenden Blöcken ähnlich ist. Zunächst berechnet die Methode bei 240 die Spektralform der vorausgehenden Blöcke:
Ni(fC) = 0.25 ( (R²(k,f) + I²(k,f)))
(3)
worin fc die Blocknummer für den laufenden 20 ms-Block ist, (sie nimmt für darauffolgende Blöcke um eins zu), i bezeichnet ein 1000 Hz Frequenzband, ki = i·32, k indexiert die 256 Frequenzkomponenten der 512 Punkte FFT und R (k, f) und I (k, f) sind die Real- und Imaginärkomponente der k ten Frequenzkomponente des Blockes f.
2. Als nächstes wird die Spektralform Si (fc) des laufenden Blockes bei 242 ermittelt:
Si(fC) = (R²(k,fC) + I²(k,fC))
(4)
worin die Notation die gleiche Bedeutung hat wie in obiger Gleichung (3) und die Si die Größe der i ten Frequenzkomponente des laufenden Blockes fc ist.
3. Der Abschätzer 24 prüft dann bei 244 und 245, um festzustellen, ob
Ni(fc) > t&sub1;Si(fc) (5)
oder
Si(fc) > t&sub1;Ni(fc), für i = 0,1 ..., 7 (6)
worin t, eine niedrigere Schwelle ist. Bei dem bevorzugten Ausführungsbeispiel t, = 3. Wenn die Ungleichung in (5) oder (6) für mehr als vier Werte von i befriedigt ist, dann wird der laufende Block fc als Signal klassifiziert; anderenfalls prüft der Abschätzer (bei 248 und 250), um zu ermitteln ob
Ni(fc) > thSi(fc) (7)
oder
Si(fc) > thNi(fc), für i = 0,1, ..., 7 (8)
worin th eine höhere Schwelle ist und Ni die Größe der i ten Frequenzkomponente des Hintergrundrauschen-Schätzwertes bezeichnet. In einem bevorzugten Ausführungsbeispiel th = 4,5. Wenn eine der Ungleichungen für einen oder mehrere Werte von i befriedigt ist, dann wird der laufende Block fc ebenfalls als ein Signalblock klassifiziert. Anderenfalls wird der laufende Block als Rauschen klassifiziert.
4. Wenn bei 252 fünfzig aufeinanderfolgende, als Rauschen klassifizierte Blöcke in einer Reihe auftreten (entsprechend einer Sekunde Rauschen), dann entwickelt der Abschätzer 24 Schätzwerte für Hintergrundrauschen, indem Frequenzenergien vom 10-ten bis zum 41-ten Block summiert werden. Durch Ignorieren der anfänglichen und endseitigen Blöcke der Sequenz ist der Vertrauensgrad, daß in den übrigen Blöcken kein Signal enthalten ist, erhöht. Bei 254 findet der Abschätzer
Bk = 1/32 (R²(k,f) + I²(k,t)) (9)
worin k = 0, 1, 2, ..., 255, fs ist der Startindex des 10-ten als Rauschen klassifizierten Blockes und die übrigen Ausdrücke haben die gleiche Notation wie in Gleichung (3). Die Werte Bk stellen nun die durchschnittliche spektrale Größe der Rauschkomponente des Signales für die k te Frequenz dar.
Um zu ermitteln, wo die Maxima der Sperrfilterbank zu plazieren sind, werden, auf Fig. 1 und 4 Bezug nehmend, die nicht fenstertransformierten 20 ms Abtastwerte im Zeitbereich, die den 32 als nur Rauschen klassifizierten Blöcke entsprechen, einander angefügt (bei 260) um eine ununterbrochene Sequenz zu bilden. Eine lange FFT wird von der Sequenz durchgeführt (bei 262). Die Komponente mit der größten Stärke, etwa alle 100 Hz, wird ermittelt (bei 264), und die Frequenz bei der diese Maximalgröße lokal auftritt, entspricht der Stelle, an der eine Dämpfungsmaximum- Mittenfrequenz plaziert wird (bei 266). Dämpfungsmaxima sind nützlich, um Gebläsegeräusch lediglich bis zu 1500 Hz etwa zu verringern, weil für höhere Frequenzen das Spektrum des Gebläsegeräusches dazu neigt, ziemlich flach zu sein, wobei starke Spitzen fehlen.

Laufender Minimumabschätzer 22

Es gibt einige Momente, wo entweder das Sprachsignal niemals länger als eine Sekunde lang fehlt oder das Hintergrundrauschen selbst niemals in seiner Spektralform konstant ist, so daß der stationäre Abschätzer 24 (oben beschrieben) niemals Schätzwerte für Hintergrundrauschen erzeugt. Für diese Fälle erzeugt der laufende Minimumabschätzer 22 Schätzwerte für Hintergrundrauschen, wenn auch mit weit geringerer Genauigkeit.
Die vom laufenden Minimumabschätzer angewendeten Schritte sind:
1. Über ein 10 Sekunden Intervall, und für jede Frequenzkomponente k, finde die acht aufeinanderfolgenden Blöcke, die die Energie der acht aufeinanderfolgenden Blöcke für diese Frequenzkomponente minimieren; d. h. für jede Frequenzkomponente k finde den Block fk der Mk(fk) minimiert, worin
Mk(fk) = 1/8 (R²(k,f) + I²(k,f)) (10)
wo fk jede Blocknummer ist, die innerhalb des 10 Sekunden Intervalles auftritt. Merke, daß allgemein der fk welcher die Gleichung (10) minimiert, unterschiedliche Werte für verschiedene Frequenzkomponenten k annimmt.
2. Benutze die kleinsten Werte von Mk, die in dem vorausgehenden Schritt abgeleitet wurden, als Spektralschätzwert für Hintergrundrauschen, wenn die zwei folgenden Bedingungen erfüllt sind:
(a) Es vergingen mehr als 10 Sekunden seit der letzten Aktualisierung des spektralen Schätzwerts für Hintergrundrauschen durch den stationären Abschätzer.
(b) Die Differenz D zwischen dem vergangenen Schätzwert für Hintergrundrauschen, der sich vom stationären Abschätzer oder vom laufenden Minimumabschätzer ergeben hat, und dem aktuellen laufenden Minimumabschätzer ist groß. Die für die Definition der Differenz D benutzte Technik ist in Gleichung (11) angegeben:
D = (max(Mk/Nk,Nk/Mk) - 1)² (11)
worin die max-Funktion das Maximum ihrer zwei Argumente zurückführt und Nk die vorherigen Schätzwerte für Hintergundrauschen sind (entweder vom laufenden Minimumabschätzer oder stationären Abschätzer) und Mk die laufenden Schätzwerte für Hintergrundrauschen vom laufenden Minimumabschätzer sind.
Wenn D größer als ein gewisser Schwellenwert ist, beispielsweise 3000 bei einem bevorzugten Ausführungsbeispiel, und die obige Bedingung (a) befriedigt ist, dann wird Mk als neuer spektraler Hintergrundschätzwert benutzt. Die Verwendung von Mk als Rauschschätzwert zeigt an, daß die Sperrfilter ausgeschaltet werden sollten, weil ein guter Schätzwert der Zentren der Sperrfrequenzen nicht möglich ist.

Rauschunterdrückungs-Spektralmodifikator 30

Es wird auf Fig. 1 Bezug genommen. Wenn der Schätzwert für Hintergrundrauschen aufgefunden wurde, müssen die Spektren des laufenden Blockes mit den Spektren der Schätzwerte für Hintergrundrauschen verglichen werden und auf der Basis dieses Vergleiches muß die Dämpfung für jede Frequenzkomponente der FFT des laufenden Blockes abgeleitet werden als Versuch, die Wahrnehmung von Rauschen in dem Ausgangssignal zu verringern.

Globaler Detektor 32 für Sprache gegenüber Rauschen

Jeder gegebene Block enthält entweder Sprache oder nicht. Der globale Detektor 32 für Sprache gegenüber Rauschen trifft eine binäre Entscheidung ob der Block Rauschen ist oder nicht.
Bei Vorhandensein von Sprache können Schwellenwerte abgesenkt werden, weil Maskiereffekte dazu neigen, unrichtige Deklarierungen von Signal gegenüber Rauschen weniger bemerkbar zu machen. Wenn jedoch der Block wahrhaftig lediglich Rauschen ist, führen leichte Fehler in der Entscheidung, ob Frequenzkomponenten auf Rauschen oder auf Signal beruhen, zu den sogenannten "flackernden" Tönen.
Gemäß dem dargestellten Ausführungsbeispiel vergleicht das System, um zu ermitteln, ob in einem Block Sprache vorhanden ist, die Größe der k ten Frequenzkomponente des laufenden Blockes, mit Sk bezeichnet, mit der Größe der k ten Frequenzkomponente des Schätzwertes für Hintergrundrauschen, mit Ck bezeichnet. Sodann, wenn Sk > T · Ck für mehr als sieben Werte von k ist (für einen Block), wobei T eine Schwellenwertkonstante ist (T = 3 bei einem bevorzugten Ausführungsbeispiel), dann wird der Block als ein Sprachblock deklariert. Anderenfalls wird er als Rauschblock deklariert.

Lokaler Detektor 34 für Sprache gegenüber Rauschen für individuelle Frequenzkomponenten

Der globale Detektor 32 für Sprache gegenüber Rauschen, der im vorherigen Abschnitt beschrieben wurde, trifft eine binäre Entscheidung ob jede Frequenzkomponente Rauschen ist oder nicht. Der lokale Detektor 34 für Sprache gegenüber Räuschen erzeugt andererseits einen Bereich von Entscheidungen ob jede Frequenzkomponente Rauschen ist oder nicht. Diese Entscheidungen reichen von einer in hohem Maße vertrauenswürdigen Entscheidung, daß die k te Frequenzkomponente Rauschen ist, bis zu einer in hohem Maße vertrauenswürdigen Entscheidung, daß die k te Frequenzkomponente Signal ist.
Die Entscheidungen beruhen auf dem Verhältnis der Größe der k ten Frequenzkomponente des laufenden Blockes zu der Größe der entsprechenden Komponente des Spektralschätzwertes für Hintergrundrauschen. Die Entscheidung ist Dk. Bei diesem Ausführungsbeispiel reichen die Entscheidungen Dk von 0 bis 4, wobei eine Entscheidung von Dk = 0 einem "hoch vertrauenswürdig ist die Komponente Rauschen" und eine Entscheidung von Dk = 4 einem "in hohem Maße vertrauenswürdig daß die Komponente Signal ist" entspricht. Dann
wenn Sk/Nk > t&sub4;, Dk = 4,
sonst wenn Sk/Nk > t&sub3;, Dk = 3,
sonst wenn Sk/Nk > t&sub2;, Dk = 2,
sonst wenn Sk/Nk > t&sub1;, Dk = 1,
sonst Dk = 0
(12)
worin Sk = R²(k) + I²(k) für den laufenden Block und Nk der Schätzwert für Hintergrundrauschen für die Komponente k sind. Die für t&sub1;, t&sub2;, t&sub3;, t&sub4; benutzten Werte hängen davon ab, ob der globale Sprachdetektor 32 den vorausgehenden Block als Sprache oder Rauschen deklariert hat. Für den Fall des Rauschens gilt bei dem dargestellten Ausführungsbeispiel t&sub1; = 6,3, t&sub2; = 9,46, t&sub3; = 18,9, t&sub4; = 25,2, und für den Fall von Signal werden die Schwellenwerte um den Faktor zwei abgesenkt auf t&sub1; = 3,15, t&sub2; = 4,73, t&sub3; = 9,45 und t&sub4; = 12,6.
Die Dk's werden in dem folgenden Schritt dazu benutzt, die Verstärkungsverfielfachungsfaktoren für den gesteuerten Abschwächer einzustellen.

Zeitliches und spektrales Streuen von Bin Frequenzverstärkungen über kritische Bänder 36

Ein Array, als Ak bezeichnet, speichert die Verfielfachungsfaktoren für jede FFT Frequenzkomponente k. Die Elemente von Ak werden von dem gesteuerten Abschwächer 12 dazu benutzt, die spektralen Komponenten der FFT 8 über die Ein-Block-Verzögerung 10 zu modifizieren. Die Werte des Ak werden auf Grundlage der Entscheidungen Dk modifiziert, welche in dem Detektor 34 für lokale Sprache gegenüber Rauschen getroffen werden.
Ak ist im Wert auf den Bereich L < Ak < 1 beschränkt, worin L die untere Grenze der Stärke der Rauschverringerung ist (wie unten erläutert wird). Je kleiner L im Wert ist, desto stärker kann die Rauschverringerung sein. Jedoch ist im allgemeinen eine stärkere Rauschverringerung von mehr Artefakten begleitet. Je höher das Signal/Rausch-Verhältnis (SNR) des Signales ist, desto niedriger kann L gesetzt werden, ohne schädliche Artefakte in der Sprache zu erzeugen. Ein guter Wert von L für ein moderates SNR von 14 dB ist 0,25. Der Wert von L sollte mit niedrigeren SNR's zunehmen, um schädliche Artefakte zu verringern, die die Verständlichkeit der Sprache beeinträchtigen. Ein SNR von 6 dB würde beispielsweise erfordern, daß L 0,5 ist. Das SNR der Sprache wird während des Betriebes des Systems gemessen, und der Meßwert wird sodann benutzt, um den Wert von L zu ermitteln.
Ak ändert sich bei jedem neuen Block als Funktion des Ak in dem vorausgehenden Block und des Wertes von Dk des laufenden Blockes, wie es aus obiger Gleichung (12) abgeleitet wird. Wenn Ak des i ten Blockes als Aki bezeichnet wird, dann gilt Aki = G(Aki-1, Dk), wobei die Funktion G in der untenstehenden Gleichung (13) definiert ist.
G(Aki, Dk) = wenn Dk = 0 dann
Aki = Aki-1 · βO
wenn Dk ≥ 1 dann (13)
Aki = Aki-1 · β
worin β > 1 und mit Dk zunimmt und βO < 1.
Mit anderen Worten gesagt, wenn die Entscheidung lautet Dk ≥ 1, dann wird Ak vom vorausgehenden Block durch einen Multiplikationsfaktor multipliziert, der größer ist als 1 und mit zunehmendem Wert von Dk größer wird. Wenn die Entscheidung lautet Dk = O, dann wird Ak vom vorausgehenden Block durch einen Verfielfachungsfaktor kleiner als 1 multipliziert, typischerweise dem Wert 0,8.
Dies ist das zeitliche Streuen. Bei einem bevorzugten Ausführungsbeispiel dauert das zeitliche Streuen von 20 ms vor bis 200 ms nach dem laufenden Block.
Eine Entscheidung von Dk = 4 stellt einen hohen Vertrauensgrad dafür dar, daß die spektrale Komponente k ein Sprachsignal enthält, und Ak wird auf seinen Maximalwert 1 gesetzt.
Als nächstes wird spektrales Streuen von Ak für Frequenzen von mehr als 500 Hz ausgeführt. Das Streuen findet über die kritische Bandbreite statt, welche bei diesem dargestellten Ausführungsbeispiel 1/6 der Mittenfrequenz ist. Der Anlaß hierfür ergibt sich aus psychoakustischen Versuchen, welche gezeigt haben, daß, wenn eine starke Signalkomponente bei einer gegebenen Frequenz vorhanden ist, sie Maskierungseffekte für das Rauschen in einer Bandbreite 1/6 der Frequenz hat. Das spektrale Streuen wird auf folgende Weise durchgeführt:
Für Entscheidungswerte von Dk ≥ 1 läßt man solche Ak in der kritischen Bandbreite, die wie oben beschrieben berechnet sind, nicht kleiner werden als F(Dk) (F wird unten definiert). Im Kern wird die untere Grenze L für Ak in der kritischen Bandbreite angehoben, so daß weniger Rausch-(und Sprach-)Verringerung in Spektralbereichen stattfindet. Während L typischerweise 0,25 sein kann, ist F(Dk) definiert als:
F(4) = 0,5
F(3) = 0,4
F(2) = 0,333
Für Frequenzen von weniger als 500 Hz findet kein spektrales Streuen statt. In Versuchen wurde gezeigt, daß das Spektrum von Hintergrundrauschen viele Spitzen und Täler bei niedrigen Frequenzen besitzt, aufgrund von Rotationsakustika, und grobe oder rohe Artefakte ergeben sich aus jedwedem Versuch spektraler Streuung in diesen Frequenzen.

Spektraltalfüller 38

Einer der Artefakte des Rauschverringerungschemas besteht darin, daß die Wahrnehmung von Nachhall vergrößert wird, resultierend aus der Tatsache, daß die Tiefe spektraler Nullstellen in dem Signal aufgrund von Nachhall in dem Verlauf des Ableitens des Verstärkungsvervielfachungsfaktoren-Array Ak vergrößert wird. Um bei der Bekämpfung dieses Artefaktes zu helfen; werden lokale Minima im Ak, welche mit Nachhall verbundenen spektralen Nullen entsprechen können, im Wert vergrößert. Für den Frequenzbereich von 500 Hz an aufwärts gilt, wenn Ak < Ak-4 und Ak < Ak+4 dann
(14)
für k = 16, 17, 18, ...., 251.

Abschwächer 12

Wenn die Werte des Verfielfachungsfaktoren-Array für einen bestimmten Block ermittelt sind, können die Frequenzkomponenten eingestellt werden, um die Entscheidungen Rauschen-gegenüber Sprache widerzuspiegeln. Bei dem gesteuerten Abschwächer 12 wird der Verfielfachungsfaktoren- Array, Ak, auf folgende Weise benutzt. Jede Frequenzkomponente, real und imaginär, des verzögerten, transformierten Signales wird wie folgt skaliert:
für k = 0, 1, 2, ..., 256
Rn(k) = AkR(k)
In(k) = AkI(k)
(15)
Die modifzierten Fourier Komponenten Rn(k) und In(k) werden dann der inversen FFT zugeführt, fenstertransformiert und überlappt, um letztendlich als Ausgangssignal den rauschverringerten Signalblock zu erzeugen, wie es in dem Blockdiagramm von Fig. 1 gezeigt und beschrieben ist.
Es ergibt sich ein ästhetisch mehr zusagendes und wahrnehmbar rauschverringertes Signal.

Claims

1. Gerät für die wahrnehmbare Unterdrückung von Hintergrundrauschen in einem Audio-Eingangssignal, das Rauschkomponenten besitzt, mit einem Blockbildner (2) zum Unterteilen des Audio- Eingangssignales in eine Mehrzahl von Audio-Signalblöcken, einem Transformierer (8), um Frequenzspektrum-Komponenten von den Audio-Signalblöcken zu erhalten, und einem Rauschabschätzer (20), der die Frequenzspektrum- Komponenten benutzt, um einen Rauschschätzwert einer Rauschmenge in den Frequenzspektrum-Komponenten zu erzeugen, gekennzeichnet durch ein Fenstertechnikglied (6) zum Erzeugen eines laufenden, fenstertransformierten Audio-Signalblockes, indem sämtliche Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio- Signalblockes kombiniert werden, der zeitlich unmittelbar dem genannten einen Block vorausgeht, wobei der Transformierer (8) dazu vorgesehen ist, Frequenzspektrum-Komponenten von dem laufenden, fenstertransformierten Audio-Signalblock zu erhalten;

wobei das Gerät ferner gekennzeichnet ist durch einen Rauschunterdrückungs-Spektralmodifikator (30) zum Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der Frequenzspektrum-Komponenten, die aus dem laufenden, fenstertransformierten Audio-Signalblock erhalten sind;

einen Verzögerer (10) zur Verzögerung der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum- Komponenten zu erzeugen;

ein gesteuertes Dämpfungsglied, um die verzögerten Frequenzspektrum-Komponenten auf Grundlage der Verstärkungsvervielfachungsfaktoren abzuschwächen, um rauschverringerte Frequenzkomponenten zu erzeugen, und

einen inversen Transformierer (14), um die rauschverringerten Frequenzkomponenten in den Zeitbereich umzuwandeln.

2. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) ferner ein Mittel (36) aufweist, um zuvor erzeugte Verstärkungsvervielfachungsfaktoren zu verwenden, um laufende Verstärkungsvervielfachungsfaktoren zu ermitteln.

3. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) aufweist:

einen globalen Entscheidungsmechanismus (32), um für jede Frequenzkomponente der Frequenzspektrum-Komponenten eine Ermittlung durchzuführen, ob diese Frequenzkomponente Rauschen ist;

einen Entscheidungsmechanismus (34) für lokales Rauschen, um für jede Frequenzkomponente der Frequenzspektrum-Komponenten einen Vertrauensgrad dafür abzuleiten, daß die Frequenzkomponente eine Rauschkomponente ist;

einen Detektor, um auf Grundlage der Vertrauensgrade die Verstärkungsvervielfachungsfaktoren für jede Frequenzkomponente zu ermitteln und

einen Streumechanismus (36), um die Verstärkungsvervielfachungsfaktoren spektral und zeitlich einzustellen.

4. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Abschätzer (20) für Hintergrundrauschen einen zugehörigen Rauschschätzwert für jede Frequenzspektrum-Komponente erzeugt und daß der Entscheidungsmechanismus (34) für lokales Rauschen Vertrauensgrade ableitet aufgrund von:

(a) den Verhältnissen zwischen jeder der Frequenzkomponenten und ihrem zugehörigen Rauschschätzwert und

(b) den durch den globalen Entscheidungsmechanismus (32) getroffenen Ermittlungen.

5. Gerät nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß der Streumechanismus (36) die Verstärkungsvervielfachungsfaktoren auf Grundlage der Vertrauensgrade einstellt.

6. Gerät nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß der Unterdrückungs-Spektralmodifikator (30) ferner aufweist:

einen Spektraltalfüller (38) zum Ermitteln und Ausfüllen von spektralen Tälern in den genannten Frequenzkomponenten.

7. Gerät nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, daß der globale Entscheidungsmechanismus (32) außerdem ein Mittel aufweist, um jede Frequenzspektrum-Komponente mit einem entsprechenden Rauschschätzwert für die genannte Frequenzkomponente zu vergleichen, sowie ein Mittel, um einen Block als einen Sprachblock zu erklären, wenn eine ausgewählte Anzahl der genannten Spektrumkomponenten den genannten entsprechenden Rauschschätzwert um einen ausgewählten Schwellenwert übersteigt.

8. Gerät nach Anspruch 4, dadurch gekennzeichnet, daß der Hintergrund- Rauschabschätzer außerdem ein Mittel aufweist, um die genannten Verhältnisse mit ausgewählten Schwellen zu vergleichen, wobei besagte Schwellen davon abhängig sind, ob ein vorausgehender Block durch den globalen Entscheidungsmechanismus als Rauschen erklärt worden ist.

9. Gerät nach Anspruch 3 dadurch gekennzeichnet, daß die Verstärkungsvervielfachungsfaktoren einen ausgewählten unteren Pegelwert besitzen und daß der genannte Streumechanismus ferner aufweist:

ein Mittel zur Vergrößerung des unteren Pegelwerts für eine Frequenzkomponente eines Blockes auf Grundlage einer Signal-zu-Rausch- Messung für die genannte Frequenz und den Vertrauensgrad für die genannte Frequenzkomponente des genannten Blockes.

10. Gerät nach irgendeinem vorausgehenden Anspruch, dadurch gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) ein Mittel aufweist, um das Verhalten eines schnell ansprechenden, langsam abklingenden Filters in dem genannten zeitlichen Bereich zu bewirken.

11. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Streumechanismus wie ein schnell ansprechender, langsam abklingender Filter wirkt, um den genannten Vervielfachungsfaktor für eine Komponente schnell zu vergrößern und den genannten Vervielfachungsfaktor langsam auf eine veränderliche untere Grenze für die genannte Frequenzkomponente absinken zu lassen.

12. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Streumechanismus aufweist:

ein Mittel zur Einstellung der Vervielfachungsfaktoren, aufgrund spektraler Streuung, lediglich für Frequenzen von mehr als etwa 500 Hz.

13. Gerät nach irgendeinem vorausgehenden Anspruch, gekennzeichnet durch ein Mittel zum Entfernen schmalbandiger Komponenten von Rauschen, mit einer Bank von Bandsperrfiltern, um Rauschkomponenten aus den Audio-Signalblöcken zu entfernen um gefilterte Audio- Signalblöcke zu bilden.

14. Gerät nach irgendeinem vorausgehenden Anspruch, außerdem gekennzeichnet durch:

eine Nach-Fensterfunktion (16), die geglättete Zeitbereichkomponenten erzeugt, um Diskontinuitäten in den rauschverringerten Zeitbereichkomponenten zu minimieren, und

einen Überlapper-Addierer (18) für die Abgabe eines ersten Teiles der geglätteten Zeitbereichkomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichkomponenten und zum Speichern eines übrigen Teiles der geglätteten Zeitbereichkomponenten, wobei der verbleibende Teil die geglätteten Zeitbereichkomponenten aufweist, die in dem ersten Teil nicht enthalten sind.

15. Verfahren zur Verringerung der Wahrnehmung von Hintergrundrauschen für ein Audio-Eingangssignal, mit den Schritten des Aufteilens des Audio-Eingangssignales in eine Mehrzahl von Audio-Signalblöcken, des Gewinnens von Frequenzspektrum-Komponenten der Blöcke und des Benutzens der Frequenzspektrum-Komponenten, um einen Rauschschätzwert einer Menge des Rauschens in den Frequenzspektrum- Komponenten zu erzeugen, wobei das Verfahren gekennzeichnet ist durch:

Erzeugen eines fenstertransformierten Audio-Signalblockes;

Kombinieren sämtlicher Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes, der zeitlich dem genannten einen Block unmittelbar vorausgeht, wobei die Frequenzspektrum-Komponenten aus dem fenstertransformierten Audio- Signalblock von Signalen gewonnen werden und die genannten Komponenten dazu benutzt werden, um den genannten Rauschschätzwert zu erzeugen;

Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der genannten Frequenzspektrum Komponenten;

Verzögern der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum-Komponenten zu erzeugen;

Abschwächen der verzögerten Frequenzspektrum-Komponenten auf Grundlage der genannten Verstärkungsvervielfachungsfaktoren, um rauschverringerte Frequenzkomponenten zu erzeugen,

Umwandeln der rauschverringerten Frequenzkomponenten in den Zeitbereich.

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß der Schritt des Erzeugens der genannten Verstärkungsvervielfachungsfaktoren den Schritt des Benutzens zuvor erzeugter Verstärkungsvervielfachungsfaktoren beinhaltet, um laufende Vervielfachungsfaktoren zu ermitteln.

17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß der Schritt des Erzeugens von Verstärkungsvervielfachungsfaktoren die Schritte beinhaltet:

Durchführen einer Ermittlung für jede Frequenzkomponente der Frequenzspektrum-Komponenten, ob diese Frequenzkomponente Rauschen ist;

Ableiten für jede Frequenzkomponente der Frequenzspektrum- Komponenten einen Vertrauensgrad dafür, daß die Frequenzkomponente eine Rauschkomponente ist;

Ermitteln auf Grundlage der Vertrauensgrade die Verstärkungsvervielfachungsfaktoren für jede Frequenzkomponente und spektrales und zeitliches Einstellen der Verstärkungsvervielfachungsfaktoren.

18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß der Schritt des Erzeugens der Verstärkungsvervielfachungsfaktoren außerdem den Schritt des Erkennens und Auffüllens spektraler Täler in den genannten Frequenzkomponenten beinhaltet.

19. Verfahren nach irgendeinem der Ansprüche 15 bis 18, ferner gekennzeichnet durch die Nach-Fenstertransformierung, um geglättete Zeitbereichskomponenten zu erzeugen;

Abgeben eines ersten Teiles der geglätteten Zeitbereichskomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichskomponenten und

Speichern eines übrigen Teiles der geglätteten Zeitbereichskomponenten, wobei der übrige Teil die geglätteten Zeitbereichskomponenten beinhaltet, die in dem ersten Teil nicht enthalten sind.