[go: up one dir, main page]

DE69428119T2 - Verringerung des hintergrundrauschens zur sprachverbesserung - Google Patents

Verringerung des hintergrundrauschens zur sprachverbesserung

Info

Publication number
DE69428119T2
DE69428119T2 DE69428119T DE69428119T DE69428119T2 DE 69428119 T2 DE69428119 T2 DE 69428119T2 DE 69428119 T DE69428119 T DE 69428119T DE 69428119 T DE69428119 T DE 69428119T DE 69428119 T2 DE69428119 T2 DE 69428119T2
Authority
DE
Germany
Prior art keywords
noise
components
frequency
block
frequency spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69428119T
Other languages
English (en)
Other versions
DE69428119D1 (de
Inventor
L. Chu
Martin Helf
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Polycom LLC
Original Assignee
Picturetel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Picturetel Corp filed Critical Picturetel Corp
Application granted granted Critical
Publication of DE69428119D1 publication Critical patent/DE69428119D1/de
Publication of DE69428119T2 publication Critical patent/DE69428119T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/10Means associated with receiver for limiting or suppressing noise or interference
    • H04B1/1027Means associated with receiver for limiting or suppressing noise or interference assessing signal quality or detecting noise/interference for the received signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/06Receivers
    • H04B1/10Means associated with receiver for limiting or suppressing noise or interference
    • H04B1/1027Means associated with receiver for limiting or suppressing noise or interference assessing signal quality or detecting noise/interference for the received signal
    • H04B2001/1063Means associated with receiver for limiting or suppressing noise or interference assessing signal quality or detecting noise/interference for the received signal using a notch filter

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Description

  • Diese Erfindung bezieht sich auf ein Gerät und ein Verfahren zur Verringerung wahrgenommenen Hintergrundrauschens, wenn beispielsweise Sprach-Informationen über einen Kanal, etwa einen Telefon-Verbindungskanal, übertragen werden.
  • Mikrofone, die bei Sprachübertragungssystemen benutzt werden, nehmen typischerweise Umgebungs- oder Hintergrundgeräusche, Rauschen genannt, zusammen mit der Sprache auf, die sie aufnehmen sollen. Bei Sprachübertragungssystemen, bei denen sich das Mikrofon in einiger Entfernung vom Sprecher (von Sprechern) befindet, beispielsweise bei Systemen, die im Umfeld von Video- und Audio-Telefonkonferenzen benutzt werden, ist Hintergrundrauschen eine Ursache schlechter Audio-Qualität, weil das Rauschen zu der mittels eines Mikrofons aufgenommenen Sprache hinzugefügt wird. Aufgrund ihrer Natur und gedachten Anwendung müssen diese Systeme Töne von sämtlichen Orten her aufnehmen, die ihre Mikrofone umgeben, und diese Töne enthalten Hintergrundrauschen. Ventilatorgeräusche, die von HVAC-Systemen, Computern und anderen elektronischen Einrichtungen ausgehen, sind die als vorherrschend ermittelte Quelle von Rauschen in den meisten Umgebungen von Telefonkonferenzen.
  • Die US-A-5 012 519 (Adlersberg u. a.) bezieht sich auf ein Rauschverringerungssystem, bei dem ein Eingangssignal in Kanäle aufgeteilt wird und bei dem die Verstärkung in jedem Kanal, der ein niedriges Signal-/Rauschverhältnis (SNR) besitzt, verringert wird.
  • Eine gute Technik zur Rauschunterdrückung verringert die Wahrnehmung von Hintergrundrauschen, während sie gleichzeitig die Güte oder Erkennbarkeit von Sprache nicht beeinträchtigt. Allgemein ist es ein Ziel dieser Erfindung, Rauschen zu unterdrücken, das Sprache hinzugefügt ist, welche durch ein einzelnes Mikrofon aufgenommen wird.
  • Gemäß einem Aspekt der vorliegenden Erfindung ist ein Gerät für die wahrnehmbare Unterdrückung von Hintergrundrauschen in einem Audio- Eingangssignal vorgesehen, das Rauschkomponenten besitzt, mit einem Blockbildner zum Unterteilen des Audio-Eingangssignals in eine Mehrzahl von Audio-Signalblöcken, einem Transformierer, um Frequenzspektrum-Komponenten von den Audio-Signalblöcken zu erhalten, und einem Rauschabschätzer, der die Frequenzspektrum-Komponenten benutzt, um einen Rauschschätzwert einer Rauschmenge in den Frequenzspektrum -Komponenten zu erzeugen, gekennzeichnet durch ein Fenstertechnikglied zum Erzeugen eines laufenden, fenstertransformierten Audio-Signalblockes, indem sämtliche Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes kombiniert werden, der zeitlich unmittelbar dem genannten einen Block vorausgeht, wobei der Transformierer dazu vorgesehen ist, Frequenzspektrum-Komponenten von dem laufenden, fenstertransformierten Audio-Signalblock zu erhalten, wobei das Gerät ferner gekennzeichnet ist durch einen Rauschunterdrückungs-Spektralmodifikator zum Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der Frequenzspektrum-Komponenten, die aus dem laufenden, fenstertransformierten Audio-Signalblock erhalten sind, einen Verzögerer zur Verzögerung der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzsprektrum-Komponenten zu erzeugen, ein gesteuertes Dämpfungsglied, um die verzögerten Frequenzspektrum-Komponenten auf Grundlage der Verstärkungsvervielfachungsfaktoren abzuschwächen, um rauschverringerte Frequenzkomponenten zu erzeugen, und einen inversen Transformierer, um die rauschverringerten Frequenzkomponenten in den Zeitbereich umzuwandeln.
  • Bei bevorzugten Ausführungsbeispielen beinhaltet der Rauschunterdrückungs-Spektralmodifikator einen globalen Entscheidungsmechanismus, einen lokalen Entscheidungsmechanismus, einen Detektor, einen Streumechanismus und einen spektralen Talfüller.
  • Der globale Entscheidungsmechanismus tätigt für jede Frequenzkomponente der Frequenzspektrum-Komponenten eine Ermittlung darüber, ob diese Frequenzkomponente hauptsächlich Rauschen ist. Der Entscheidungsmechanismus für lokales Rauschen leitet für jede Frequenzkomponente der Frequenzspektrum-Komponenten einen Vertrauensgrad dafür ab, daß die Frequenzkomponente hauptsächlich eine Rauschkomponente ist. Der Detektor ermittelt auf Grundlage der Vertrauensgrade einen Verstärkungsvervielfachungsfaktor für jede Frequenzkomponente. Der Spektralmechanismus streut spektral und zeitlich die Wirkung der ermittelten Verstärkungsvervielfachungsfaktoren, und der spektrale Talfüller ermittelt und füllt spektrale Täler in den resultierenden Frequenzkomponenten aus.
  • Bei anderen Aspekten des bevorzugten Ausführungsbeispiels erzeugt der Abschätzer für Hintergrundrauschen auch einen Rauschschätzwert für jede Frequenzspektrum-Komponente, und der Entscheidungsmechanismus für lokales Rauschen leitet Vertrauensgrade auf Grundlage der Verhältnisse zwischen jeder Frequenzkomponente und ihrem entsprechenden Rauschschätzwert und den durch den globalen Entscheidungsmechanismus getroffenen Ermittlungen ab.
  • Vorteilhafterweise beinhaltet das Gerät ferner eine Nach-Fensterfunktion und einen Überlapper-Addier-Mechanismus. Die Nach-Fensterfunktion erzeugt geglättete Zeitbereichkomponenten, um Diskontinuitäten in den rauschverringerten Zeitbereichkomponenten zu minimieren; und der Überlapper-Addierer gibt einen ersten Teil der geglätteten Zeitbereichkomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichkomponenten als Ausgangssignal ab und speichert einen verbleibenden Teil der geglätteten Frequenzkomponenten, wobei der verbleibende Teil die geglätteten Frequenzkomponenten aufweist, die in dem ersten Teil nicht enthalten sind.
  • Bei bevorzugten Ausführungsbeispielen des Gerätes beinhaltet der Abschätzer für Hintergrundrauschen zumindest zwei Abschätzer, von denen jeder einen Rauschschätzwert erzeugt, sowie einen Komparator für das Vergleichen und Auswählen eines der Schätzwerte für Hintergrundrauschen. Einer der Abschätzer ist ein laufender Minimum-Abschätzer, und der andere Abschätzer ist ein stationärer Abschätzer.
  • Bei einem bevorzugten Ausführungsbeispiel ist eine Bank von Bandsperrfiltern vorhanden, um Rauschkomponenten aus jedem Audio-Signalblock zu entfernen, um gefilterte Audio-Signalblöcke zu erzeugen, die sodann dem Fenstertechnikglied zugeführt werden. Das Gerät kann auch einen Sperrfiltermechanismus beinhalten, um die Lagen der Dämpfungsmaxima für die Sperrfilterbank zu ermitteln.
  • Gemäß einem weiteren Aspekt beinhaltet die Erfindung auch ein Verfahren zur Verringerung der Wahrnehmung von Hintergrundrauschen für ein Audio-Eingangssignal, mit den Schritten des Aufteilens des Audio-Eingangssignals in eine Mehrzahl von Audio-Signalblöcken, des Gewinnens von Frequenzspektrum-Komponenten der Blöcke und des Benutzens der Frequenzspektrum-Komponenten, um einen Rauschschätzwert einer Menge des Rauschens in den Frequenzspektrum-Komponenten zu erzeugen, wobei das Verfahren gekennzeichnet ist durch: Erzeugen eines fenstertransformiererten Audio-Signalblockes, Kombinieren sämtlicher Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes, der zeitlich dem genannten einen Block unmittelbar vorausgeht, wobei die Frequenzspektrum-Komponenten aus dem fenstertransformierten Audio-Signalblock gewonnen werden und die genannten Komponenten auf Grundlage der genannten Verstärkungsvervielfachungsfaktoren benutzt werden, um den genannten Rauschschätzwert zu erzeugen, Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der genannten Frequenzspektrum-Komponenten, Verzögern der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum-Komponenten zu erzeugen, Abschwächen der verzögerten Frequenzspektrum-Komponenten, um rauschverringerte Frequenzkomponenten zu erzeugen, und Umwandeln der rauschverringerten Frequenzkomponenten in den Zeitbereich.
  • Das in dieser Beschreibung erläuterte System verringert Ventilatorgeräusch wirksam, das zu Sprache hinzugefügt wird, welche durch ein einzelnes Mikrofon aufgenommen wird.
  • Die Erfindung wird nun beispielhaft unter Bezugnahme auf die Zeichnungen beschrieben, in denen:
  • Fig. 1 ein Blockdiagramm eines erfindungsgemäßen Rauschunterdrückungssystemes ist, und
  • Fig. 2-4 detaillierte Blockdarstellungen sind, die Teile des Blockdiagramms von Fig. 1 darstellen.
  • Das einfachste Gerät zur Rauschunterdrückung, bei Millionen von Menschen rings um die Welt in täglichem Gebrauch, ist die sogenannte "Squelch"-Schaltung. Eine Squelch-Schaltung ist bei den meisten Sende- Empfangsgeräten des CB-Bandes Standard. Sie arbeitet in der Weise, daß der Lautsprecher des Systems einfach abgeschaltet wird, wenn die Energie des empfangenen Signales unter einen bestimmten Schwellenwert fällt. Die Größe dieses Schwellenwertes wird gewöhnlich unter Verwendung eines manuellen Steuerknopfes auf einen Pegel derart festgelegt, daß das Hintergrundrauschen niemals zum Lautsprecher gelangt, wenn das entfernte Ende stumm ist. Das Problem bei dieser Art Schaltung besteht darin, daß, wenn die Schaltung einschaltet und abschaltet, wenn der Sprecher am entfernten Ende beginnt und sodann aufhört, das Vorhandensein und sodann das Fehlen von Rauschen klar zu hören ist. Das Rauschen ist breitbandig und überdeckt Frequenzen, in denen nur eine geringe Sprachenergie vorhanden ist, und somit kann das Rauschen gleichzeitig gehört werden, wenn die Person spricht. Die Tätigkeit der Squelch-Schaltung erzeugt einen sehr verwirrenden Effekt, obgleich dieser dem Vorhandensein überhaupt keiner Rauschunterdrückung vorzuziehen ist.
  • Das unten beschriebene Verfahren zur Rauschunterdrückung verbessert das "Squelch"-Konzept wesentlich, indem das Hintergrundrauschen sowohl in den Sprachabschnitten als auch den sprachfreien Abschnitten des Audiosignals verringert wird. Der benutzte Lösungsansatz beruht auf der menschlichen Wahrnehmung. Durch Benutzung der Prinzipien der spektralen und zeitlichen Maskierung (beides unten definiert) wird die wahrgenommene Lautheit von Rauschen, das dem Sprachsignal zugeführt oder mit ihm vermischt ist, verringert.
  • Dieser Lösungsansatz unterscheidet sich von anderen Ansätzen, beispielsweise solchen, bei denen es das Ziel ist, das mittlere Fehlerquadrat zwischen Sprachkomponente selbst (Sprache ohne Rauschen) und dem verarbeiteten Sprachausgangssignal des Unterdrückungssystemes zu minimieren.
  • Das zu beschreibende Verfahren nutzt den "Squelch"-Gedanken des Erhöhens der Verstärkung in einem Kanal aus, wenn die Energie dieses Kanales einen Schwellenwert übersteigt, und des Absenkens der Verstärkung, wenn die Kanalenergie unter den Schwellenwert fällt, jedoch führt das Verfahren diese Tätigkeit in unterschiedlichen Frequenzbereichen gesondert durch. Die Verstärkung in einem Kanal kann als das Verhältnis zwischen der Größe des Eingangssignales und der Größe des entsprechenden Ausgangssignales betrachtet werden.
  • Das Verfahren nutzt ferner verschiedene psychoakustische Prinzipien der spektralen Maskierung aus, insbesondere die Prinzipien, welche grundsätzlich feststellen, daß, wenn ein lauter Ton bei einer Frequenz existiert, sodann ein gegebenes Frequenzband um diese Frequenz herum vorhanden ist, das kritische Band genannt, innerhalb dessen andere Signale nicht zu hören sind. In anderen Worten gesagt, lassen sich in dem kritischen Band keine weiteren Signale hören. Das erfindungsgemäße Verfahren ist hinsichtlich der Verringerung der Wahrnehmung von Rauschen, während Sprache vom ferngelegenen Ende empfangen wird, weit effektiver als eine einfache "Squelch"-Schaltung.
  • Das zu beschreibende Verfahren nutzt auch eine Eigenheit der zeitlichen Maskierung aus. Wenn ein lauter Tonausbruch stattfindet, dann ist für einen Zeitraum bis zu 200 ms nach diesem Ausbruch die Empfindlichkeit des Ohres in dem Spektralbreich des Ausbruches herabgesetzt. Ein weiterer akustischer Effekt besteht darin, daß für eine Zeit von bis zu 20 ms vor dem Ausbruch die Empfindlichkeit des Ohres herabgesetzt ist (somit besteht beim menschlichen Gehör eine Leitungsverzögerung von etwa 20 ms). Ein Schlüsselelement dieses Verfahrens besteht somit darin, dass der Signalschwellenwert, unterhalb dem die Verstärkung für ein gegebenes Band abgesenkt wird, um einen Zeitraum sowohl vor als auch nach dem Auftreten eines ausreichend starken Signales in diesem Band abgesenkt werden kann, weil die Empfindlichkeit des Ohres für Rauschen in diesem Zeitraum herabgesetzt ist.
  • Es wird nun auf das Blockdiagramm von Fig. 1 Bezug genommen. Das Eingangssignal 1 wird zunächst durch einen Blockbildner 2 in 20 ms-Blöcke von Abtastwerten aufgeteilt (da das Eingangssignal mit einer Rate von 16 kHz bei dem dargestellten Beispiel abgetastet wird, beinhaltet jeder 20 ms- Block 320 Abtastwerte). Die rechnerische Komplexität des Verfahrens wird merklich verringert, indem man an Gruppen von Blöcken aus Abtastwerten zu einem Zeitpunkt arbeitet und nicht zu einem Zeitpunkt an einzelnen Abtastwerten. Das in Blöcke gebrachte Signal wird sodann durch eine Bank aus Bandsperrfiltern 4 geführt, deren Zweck darin besteht, schmalbandige Komponenten des Rauschens zu entfernen, typischerweise Motorgeräusch, das bei den Drehzahlfrequenzen des Motors auftritt. Wenn die Dämpfungsmaxima schmal genug sind, mit einer ausreichend dünnen spektralen Dichte, wird die Tongüte der Sprache nicht ungünstig beeinflußt. Jeder Block digitaler Signale wird dann mit einem Teil vom Ende des unmittelbar vorausgehenden Blockes digitaler Signale kombiniert, um einen fenstertransformierten Block zu erzeugen.
  • Bei bevorzugten Ausführungsbeispielen wird jeder Block digitaler Signale (20 ms) mit den letzten 12 ms des vorausgehenden Blockes kombiniert, um fenstertransformierte Blöcke zu erzeugen, die eine Dauer von 32 ms besitzen. In anderen Worten gesagt, beinhaltet jeder Block 320 Abtastwerte von einem Block digitaler Signale in Kombination mit den letzten 192 gefilterten Abtastwerten des unmittelbar vorausgehenden Blockes. Das Sprachsegment von 512 Abtastwerten wird sodann mit einer Fensterfunktion an einem Multiplikator 6 multipliziert, um Probleme zu verringern, die aus Diskontinuitäten des Signales am Beginn und am Ende des Blockes von 512 Abtastwerten entstehen. Eine schnelle Fourier Transformation (FFT) 8 wird dann an dem fenstertransformierten Block der 512 Abtastwerte durchgeführt, um ein Frequenzspektrum von 257 Komponenten zu erzeugen.
  • Die niedrigsten (Gleichspannung) und höchsten (Abtastfrequenz geteilt durch 2 oder 8 kHz) Frequenzkomponenten des transformierten Signales weisen lediglich Realteile auf, während die übrigen 255 Komponenten sowohl Real- als auch Imaginärteile aufweisen. Die Spektralkomponenten werden zu einem Hintergrund-Rauschabschätzer 20 zugeführt, dessen Zweck darin besteht, die spektralen Energien des Hintergrundrauschens abzuschätzen und Spektrumsspitzen des Hintergrundrauschens aufzufinden, um auf diese die Dämpfungsmaxima des Bandsperrfilters 4 auszurichten. Ein Spektrumabschätzer für Signalgröße, ein stationärer Abschätzer 24, und ein Spektrumabschätzer für Hintergrundrauschen, ein laufender Minimumabschätzer 22 für jede Frequenzkomponente, werden mittels eines Komparators 28 verglichen, und verschiedene Vertrauensgradpegel werden mittels eines Entscheidungsmechanismus 32 für jede Frequenzkomponente dafür abgeleitet, ob die spezielle Frequenzkomponente in erster Linie aus Rauschen besteht oder aus Signal plus Rauschen. Auf Grundlage dieser Vertrauensgradpegel wird die Verstärkung für ein Frequenzband mittels eines Verstärkungseinstellers 34 festgelegt. Die Verstärkungen werden sodann mittels eines Streumechanismus 36 frequenzbereichsmäßig in kritischen Bändern spektral und zeitlich gestreut, wobei psychoakustische Maskiereffekte ausgenützt werden. Ein Spektraltalfüller 38 wird benutzt, um spektrale Täler in der Verstärkungsfunktion der Frequenzkomponenten zu erkennen und die Täler aufzufüllen. Die endgültige Verstärkungsfunktion der Frequenzkomponente aus dem Rauschunterdrückungs-Spektralmodifikator 30 wird benutzt, um die Größe der Spektralkomponenten der 512-Punkte FFT an einem Abschwächer 12 zu modifizieren. Merke, daß der Block am Abschwächer 12 um eine Zeiteinheit hinter den Signalen liegt, welche in erster Linie zur Generierung der Verstärkungen benutzt werden. Eine inverse FFT (IFFT) 14 setzt sodann das Signal von dem Frequenzbereich zurück in den Zeitbereich um. Der resultierende 512 Punkte-Block des rauschverringerten Signales wird durch eine Fensterfunktion in einem Multiplikator 16 multipliziert. Das Ergebnis wird sodann in einem Addierer 18 überlappt und zu dem Signal des vorausgehenden Blockes addiert, um 20 ms oder 320 Abtastwerte des Ausgangssignales in der Leitung 40 zu gewinnen.
  • Eine in nähere Einzelheiten gehende Beschreibung jedes Blockes in der Signalverarbeitungskette, vom Eingang bis zum Ausgang in der Reihenfolge ihres Vorkommens, erfolgt nunmehr.
  • Wie oben beschrieben, wird das in Blöcke gebrachte Eingangssignal durch eine Bank von Bandsperrfiltern 4 hindurch geführt.
  • Bezüglich Fig. 1 und 2 besteht die Bank der Bandsperrfilter 4 aus einer Kaskade digitaler IIR (Infinite Impulse Response) Filter, wobei jeder Filter ein Verhalten in der Form besitzt:
  • worin θ = π/8000 · (Frequenz des Dämpfungsmaximums) und r ein Wert kleiner als 1 sind, der die Breite des Maximums wiedergibt. Wenn die -3 dB Breite des Dämpfungsmaximums ωHz beträgt, dann gilt r = 1 - (ω/2)(π/8000). Die Bandbreite ω, die bei dem dargestellten und bevorzugten Ausführungsbeispiel benutzt wird, beträgt 20 Hz. Ein Dämpfungsmaximum ist ungefähr bei jeden 100 Hz gelegen, an der größten Spitze der Hintergrundrauschenergie in der Nähe der Nennfrequenz.
  • Die Bandsperrfilterung wird auf die 320 Abtastwerte des neuen Signalblockes angewandt. Die resultierenden 320 Abtastwerte bandsperrgefilterten Ausgangsignales werden an die letzten 192 Abtastwerte des bandsperrgefilterten Ausgangsignales des vorausgehenden Blockes angefügt, um einen gesamten ausgedehnten Block von 512 Abtastwerten zu erzeugen.
  • Bezüglich Fig. 1 und 2 wird der bandsperrgefilterte Block von 512 Abtastwerten, der von der Filterbank 4 gewonnen ist, durch eine Fensterfunktion multipliziert, wobei folgende Formel verwendet wird:
  • für i = 0,1, ..., 191
  • w(i) = f(i) für i = 192, 193, ....., 319
  • für i = 320, 321, ..., 511
  • (2)
  • worin f(i) der Wert des i ten bandsperrgefilterten Abtastwertes des von der Filterbank 4 stammenden Blockes von 512 Abtastwerten ist und w(i) der resultierende Wert des i ten-Abtastwertes des resultierenden, fenstertransformierten Ausgangssignales der 512 Abtastwerte ist, welcher als nächstes der FFT 8 zugeführt wird. Der Zweck der durch den Multiplikator 6 durchgeführten Fenstertransformation besteht darin, Randeffekte und Diskontinuitäten am Beginn und am Ende des ausgedehnten Blockes zu minimieren.
  • Die Zeit-fenstertransformierten 512 Abtastwerte werden nun der FFT 8 zugeführt. Aufgrund der Allgegenwart von FFT's, liefern viele Hersteller digitaler Signalverarbeitungschips (DSP) hoch optimierte Assembler-Sprachcode zum Implementieren der FFT.
  • Ein Verzögerer 10 um einen Block ist eingeführt, so dass Signalfrequenzkomponenten der FFT verstärkt und im Abschwächer 12 verarbeitet werden können, basierend auf später auftretende Signalwerte. Dies führt keinerlei wahrnehmbares Rauschen ein, weil, wie oben bemerkt, eine Signalkomponente Frequenzen in ihrer spektralen Nachbarschaft 20 ms bevor sie tatsächlich auftritt, maskiert. Da Sprachgeräusche fortschreitend im Volumen zunehmen, ausgehend von der Nullamplitude, verhindert die Verzögerung um einen Block auch das Abschneiden des Beginns von Sprachäußerungen.
  • Diejenigen Komponenten der FFT, die auf Rauschen beruhen, werden durch den Abschwächer 12 gedämpft, während die Komponenten aufgrund des Signales weniger gedämpft oder ungedämpft bleiben oder verstärkt werden können. Wie oben erwähnt existiert für jede Frequenz eine reale und eine imaginäre Komponente. Beide Komponenten werden um einen einzelnen Faktor multipliziert, der vom Rauschunterdrückungs- Spektralmodifikatormodul 30 aufgefunden wird, so daß die Phase für die Frequenzkomponente erhalten bleibt, während die Größe verändert wird.
  • Die inverse FFT 14 (IFFT) wird von der in der Größe modifizierten FFT genommen, um einen frequenzbearbeiteten verlängerten Block zu erzeugen, in einer Länge von 512 Abtastwerten. Die Fenstertechnik-Operation, die im Multiplikator 16 angewendet wird, ist genau die gleiche wie die Fenstertechnik-Operation, welche oben für den Multiplikator 6 definiert wurde. Ihr Zweck besteht darin, Diskontinuitäten zu minimieren, die durch die Dämpfung der Frequenzkomponenten eingeführt werden. Beispielsweise angenommen, dass sämtliche Frequenzkomponenten, mit Ausnahme von einer, auf Null gesetzt sind. Das Ergebnis ist eine Sinusschwingung, wenn die IFFT getätigt wird. Diese Sinusschwingung kann mit einem großen Wert beginnen und mit einem großen Wert endigen. Benachbarte Blöcke brauchen diese Sinusschwingungskomponente nicht aufzuweisen. Somit, wenn dieses Signal, ohne geeignete Fenstertechnik, in dem Ausgangsaddierer 18 überlappt wird, kann ein Klicken am Beginn und am Ende des Blockes hörbar sein. Durch geeignete Fenstertechnik an der Sinusschwingung, wobei beispielsweise die in Gleichung (2) definierten Parameter benutzt werden, ist jedoch lediglich eine Sinusschwingung hörbar, die in der Stärke sanft ansteigt und dann in der Stärke sanft abnimmt.
  • Aufgrund der Vor- und Nach-Fenstertechnikbehandlung des Blockes durch die Multiplikatoren 6 und 16, ist eine Überlappung und Addition der Blöcke erforderlich, um zu verhindern, daß das Ausgangssignal am Beginn und am Ende des Blockes abnimmt. Somit werden die ersten 192 Abtastwerte des vorliegenden, ausgedehnten und fenstertransformierten Blockes mit 512 Abtastwerten zu den letzten 192 Abtastwerten des vorausgehend ausgedehnten und fenstertransformierten Blockes addiert. Dann werden die nächsten 128 Abtastwerte (8 ms) des laufenden, ausgedehnten Blockes als Ausgangssignal abgegeben. Die letzten 192 Abtastwerte des vorliegenden, ausgedehnten und fenstertransformierten Blockes werden dann gespeichert, um bei der Überlappungs-Addierungsoperation des nächsten Blockes benutzt zu werden usw..
  • Bei einem bevorzugten Ausführungsbeispiel hat die benutzte Fensterfunktion W die Eigenschaft, daß:
  • W² + (W² verschoben um den Betrag der Überlappung) = 1
  • um die Erzeugung einer Modulation über die Zeit zu vermeiden. Wenn beispielsweise der Betrag der Überlappung einen halben Block beträgt, dann hat die Fensterfunktion W die Eigenschaft, daß:
  • W² + (W² verschoben ¹/&sub2;) = 1
  • Hintergrund-Rauschabschätzer 20
  • Bezüglich Fig. 1 und 3 arbeiten der Hintergrund-Rauschabschätzer 20 und der Rauschunterdrückungs-Spektralmodifikatormodul 30 wie folgt.
  • Zweck des Hintergrund-Rauschabschätzers 20 ist es, einen Schätzwert für jede Frequenzkomponente der FFT zu entwickeln, der durchschnittlichen Stärke der Energie aufgrund des Hintergrundrauschens. Der Hintergrund- Rauschabschätzer beseitigt das Erfordernis, daß der Benutzer manuell das System für jede neue Umgebung justieren oder trainieren muß. Der Hintergrund-Rauschabschätzer überwacht die Signal/Rauschen-Umgebung kontinuierlich, um Schätzwerte des Hintergrundrauschens selbsttätig in Abhängigkeit beispielsweise vom Ausschalten oder Einschalten von Klimaanlagengebläsen usw. zu aktualisieren. Zwei Ansätze werden benutzt, wobei die Ergebnisse des einen oder anderen Ansatzes für die besondere Situation angewendet werden. Der erste Ansatz ist genauer, erfordert jedoch Intervale von einer Sekunde mit ausschließlich Hintergrundrauschen. Der zweite Ansatz ist weniger genau, entwickelt jedoch Schätzwerte von Hintergrundrauschen in 10 Sek. unter beliebigen Bedingungen.
  • Stationärer Abschätzer 24
  • Unter Bezugnahme auf Fig. 1 und 3 benutzt der erste Ansatz einen stationären Abschätzer 24, um nach langen Sequenzen von Blöcken zu schauen, wo die spektrale Form in jedem Block derjenigen anderer Blöcke sehr ähnlich ist. Sehr wahrscheinlich kann diese Bedingung lediglich auftreten, wenn der Mensch in dem Raum stumm ist und das konstante Hintergrundrauschen aufgrund von Ventilatoren und/oder Schaltungsrauschen die hauptsächliche Signalquelle ist. Wenn eine solche Sequenz erkannt wird, wird die durchschnittliche Größe jeder Frequenz von solchen Blöcken im Zentralteil der FFT Sequenz genommen (Blöcke am Beginn und Ende der Sequenz können Sprachkomponenten schwachen Pegels enthalten). Diese Methode liefert ein viel genaueres Maß des Hintergrundrauschspektrums, verglichen mit dem zweiten Ansatz (unten beschrieben), erfordert jedoch, daß das Hintergrundrauschen verhältnismäßig konstant ist und dass die Menschen im Raum über einen bestimmten Zeitraum hin nicht sprechen, Bedingungen, die in der Praxis manchmal nicht zu finden sind.
  • Die Betriebsweise dieses Abschätzer in näheren Einzelheiten ist folgende:
  • 1. Es wird auf Fig. 3 Bezug genommen. Die Methode ermittelt bei dem ersten Ansatz, ob der laufende 20 ms-Block in der Spektralform den vorausgehenden Blöcken ähnlich ist. Zunächst berechnet die Methode bei 240 die Spektralform der vorausgehenden Blöcke:
  • Ni(fC) = 0.25 ( (R²(k,f) + I²(k,f)))
  • (3)
  • worin fc die Blocknummer für den laufenden 20 ms-Block ist, (sie nimmt für darauffolgende Blöcke um eins zu), i bezeichnet ein 1000 Hz Frequenzband, ki = i·32, k indexiert die 256 Frequenzkomponenten der 512 Punkte FFT und R (k, f) und I (k, f) sind die Real- und Imaginärkomponente der k ten Frequenzkomponente des Blockes f.
  • 2. Als nächstes wird die Spektralform Si (fc) des laufenden Blockes bei 242 ermittelt:
  • Si(fC) = (R²(k,fC) + I²(k,fC))
  • (4)
  • worin die Notation die gleiche Bedeutung hat wie in obiger Gleichung (3) und die Si die Größe der i ten Frequenzkomponente des laufenden Blockes fc ist.
  • 3. Der Abschätzer 24 prüft dann bei 244 und 245, um festzustellen, ob
  • Ni(fc) > t&sub1;Si(fc) (5)
  • oder
  • Si(fc) > t&sub1;Ni(fc), für i = 0,1 ..., 7 (6)
  • worin t, eine niedrigere Schwelle ist. Bei dem bevorzugten Ausführungsbeispiel t, = 3. Wenn die Ungleichung in (5) oder (6) für mehr als vier Werte von i befriedigt ist, dann wird der laufende Block fc als Signal klassifiziert; anderenfalls prüft der Abschätzer (bei 248 und 250), um zu ermitteln ob
  • Ni(fc) > thSi(fc) (7)
  • oder
  • Si(fc) > thNi(fc), für i = 0,1, ..., 7 (8)
  • worin th eine höhere Schwelle ist und Ni die Größe der i ten Frequenzkomponente des Hintergrundrauschen-Schätzwertes bezeichnet. In einem bevorzugten Ausführungsbeispiel th = 4,5. Wenn eine der Ungleichungen für einen oder mehrere Werte von i befriedigt ist, dann wird der laufende Block fc ebenfalls als ein Signalblock klassifiziert. Anderenfalls wird der laufende Block als Rauschen klassifiziert.
  • 4. Wenn bei 252 fünfzig aufeinanderfolgende, als Rauschen klassifizierte Blöcke in einer Reihe auftreten (entsprechend einer Sekunde Rauschen), dann entwickelt der Abschätzer 24 Schätzwerte für Hintergrundrauschen, indem Frequenzenergien vom 10-ten bis zum 41-ten Block summiert werden. Durch Ignorieren der anfänglichen und endseitigen Blöcke der Sequenz ist der Vertrauensgrad, daß in den übrigen Blöcken kein Signal enthalten ist, erhöht. Bei 254 findet der Abschätzer
  • Bk = 1/32 (R²(k,f) + I²(k,t)) (9)
  • worin k = 0, 1, 2, ..., 255, fs ist der Startindex des 10-ten als Rauschen klassifizierten Blockes und die übrigen Ausdrücke haben die gleiche Notation wie in Gleichung (3). Die Werte Bk stellen nun die durchschnittliche spektrale Größe der Rauschkomponente des Signales für die k te Frequenz dar.
  • Um zu ermitteln, wo die Maxima der Sperrfilterbank zu plazieren sind, werden, auf Fig. 1 und 4 Bezug nehmend, die nicht fenstertransformierten 20 ms Abtastwerte im Zeitbereich, die den 32 als nur Rauschen klassifizierten Blöcke entsprechen, einander angefügt (bei 260) um eine ununterbrochene Sequenz zu bilden. Eine lange FFT wird von der Sequenz durchgeführt (bei 262). Die Komponente mit der größten Stärke, etwa alle 100 Hz, wird ermittelt (bei 264), und die Frequenz bei der diese Maximalgröße lokal auftritt, entspricht der Stelle, an der eine Dämpfungsmaximum- Mittenfrequenz plaziert wird (bei 266). Dämpfungsmaxima sind nützlich, um Gebläsegeräusch lediglich bis zu 1500 Hz etwa zu verringern, weil für höhere Frequenzen das Spektrum des Gebläsegeräusches dazu neigt, ziemlich flach zu sein, wobei starke Spitzen fehlen.
  • Laufender Minimumabschätzer 22
  • Es gibt einige Momente, wo entweder das Sprachsignal niemals länger als eine Sekunde lang fehlt oder das Hintergrundrauschen selbst niemals in seiner Spektralform konstant ist, so daß der stationäre Abschätzer 24 (oben beschrieben) niemals Schätzwerte für Hintergrundrauschen erzeugt. Für diese Fälle erzeugt der laufende Minimumabschätzer 22 Schätzwerte für Hintergrundrauschen, wenn auch mit weit geringerer Genauigkeit.
  • Die vom laufenden Minimumabschätzer angewendeten Schritte sind:
  • 1. Über ein 10 Sekunden Intervall, und für jede Frequenzkomponente k, finde die acht aufeinanderfolgenden Blöcke, die die Energie der acht aufeinanderfolgenden Blöcke für diese Frequenzkomponente minimieren; d. h. für jede Frequenzkomponente k finde den Block fk der Mk(fk) minimiert, worin
  • Mk(fk) = 1/8 (R²(k,f) + I²(k,f)) (10)
  • wo fk jede Blocknummer ist, die innerhalb des 10 Sekunden Intervalles auftritt. Merke, daß allgemein der fk welcher die Gleichung (10) minimiert, unterschiedliche Werte für verschiedene Frequenzkomponenten k annimmt.
  • 2. Benutze die kleinsten Werte von Mk, die in dem vorausgehenden Schritt abgeleitet wurden, als Spektralschätzwert für Hintergrundrauschen, wenn die zwei folgenden Bedingungen erfüllt sind:
  • (a) Es vergingen mehr als 10 Sekunden seit der letzten Aktualisierung des spektralen Schätzwerts für Hintergrundrauschen durch den stationären Abschätzer.
  • (b) Die Differenz D zwischen dem vergangenen Schätzwert für Hintergrundrauschen, der sich vom stationären Abschätzer oder vom laufenden Minimumabschätzer ergeben hat, und dem aktuellen laufenden Minimumabschätzer ist groß. Die für die Definition der Differenz D benutzte Technik ist in Gleichung (11) angegeben:
  • D = (max(Mk/Nk,Nk/Mk) - 1)² (11)
  • worin die max-Funktion das Maximum ihrer zwei Argumente zurückführt und Nk die vorherigen Schätzwerte für Hintergundrauschen sind (entweder vom laufenden Minimumabschätzer oder stationären Abschätzer) und Mk die laufenden Schätzwerte für Hintergrundrauschen vom laufenden Minimumabschätzer sind.
  • Wenn D größer als ein gewisser Schwellenwert ist, beispielsweise 3000 bei einem bevorzugten Ausführungsbeispiel, und die obige Bedingung (a) befriedigt ist, dann wird Mk als neuer spektraler Hintergrundschätzwert benutzt. Die Verwendung von Mk als Rauschschätzwert zeigt an, daß die Sperrfilter ausgeschaltet werden sollten, weil ein guter Schätzwert der Zentren der Sperrfrequenzen nicht möglich ist.
  • Rauschunterdrückungs-Spektralmodifikator 30
  • Es wird auf Fig. 1 Bezug genommen. Wenn der Schätzwert für Hintergrundrauschen aufgefunden wurde, müssen die Spektren des laufenden Blockes mit den Spektren der Schätzwerte für Hintergrundrauschen verglichen werden und auf der Basis dieses Vergleiches muß die Dämpfung für jede Frequenzkomponente der FFT des laufenden Blockes abgeleitet werden als Versuch, die Wahrnehmung von Rauschen in dem Ausgangssignal zu verringern.
  • Globaler Detektor 32 für Sprache gegenüber Rauschen
  • Jeder gegebene Block enthält entweder Sprache oder nicht. Der globale Detektor 32 für Sprache gegenüber Rauschen trifft eine binäre Entscheidung ob der Block Rauschen ist oder nicht.
  • Bei Vorhandensein von Sprache können Schwellenwerte abgesenkt werden, weil Maskiereffekte dazu neigen, unrichtige Deklarierungen von Signal gegenüber Rauschen weniger bemerkbar zu machen. Wenn jedoch der Block wahrhaftig lediglich Rauschen ist, führen leichte Fehler in der Entscheidung, ob Frequenzkomponenten auf Rauschen oder auf Signal beruhen, zu den sogenannten "flackernden" Tönen.
  • Gemäß dem dargestellten Ausführungsbeispiel vergleicht das System, um zu ermitteln, ob in einem Block Sprache vorhanden ist, die Größe der k ten Frequenzkomponente des laufenden Blockes, mit Sk bezeichnet, mit der Größe der k ten Frequenzkomponente des Schätzwertes für Hintergrundrauschen, mit Ck bezeichnet. Sodann, wenn Sk > T · Ck für mehr als sieben Werte von k ist (für einen Block), wobei T eine Schwellenwertkonstante ist (T = 3 bei einem bevorzugten Ausführungsbeispiel), dann wird der Block als ein Sprachblock deklariert. Anderenfalls wird er als Rauschblock deklariert.
  • Lokaler Detektor 34 für Sprache gegenüber Rauschen für individuelle Frequenzkomponenten
  • Der globale Detektor 32 für Sprache gegenüber Rauschen, der im vorherigen Abschnitt beschrieben wurde, trifft eine binäre Entscheidung ob jede Frequenzkomponente Rauschen ist oder nicht. Der lokale Detektor 34 für Sprache gegenüber Räuschen erzeugt andererseits einen Bereich von Entscheidungen ob jede Frequenzkomponente Rauschen ist oder nicht. Diese Entscheidungen reichen von einer in hohem Maße vertrauenswürdigen Entscheidung, daß die k te Frequenzkomponente Rauschen ist, bis zu einer in hohem Maße vertrauenswürdigen Entscheidung, daß die k te Frequenzkomponente Signal ist.
  • Die Entscheidungen beruhen auf dem Verhältnis der Größe der k ten Frequenzkomponente des laufenden Blockes zu der Größe der entsprechenden Komponente des Spektralschätzwertes für Hintergrundrauschen. Die Entscheidung ist Dk. Bei diesem Ausführungsbeispiel reichen die Entscheidungen Dk von 0 bis 4, wobei eine Entscheidung von Dk = 0 einem "hoch vertrauenswürdig ist die Komponente Rauschen" und eine Entscheidung von Dk = 4 einem "in hohem Maße vertrauenswürdig daß die Komponente Signal ist" entspricht. Dann
  • wenn Sk/Nk > t&sub4;, Dk = 4,
  • sonst wenn Sk/Nk > t&sub3;, Dk = 3,
  • sonst wenn Sk/Nk > t&sub2;, Dk = 2,
  • sonst wenn Sk/Nk > t&sub1;, Dk = 1,
  • sonst Dk = 0
  • (12)
  • worin Sk = R²(k) + I²(k) für den laufenden Block und Nk der Schätzwert für Hintergrundrauschen für die Komponente k sind. Die für t&sub1;, t&sub2;, t&sub3;, t&sub4; benutzten Werte hängen davon ab, ob der globale Sprachdetektor 32 den vorausgehenden Block als Sprache oder Rauschen deklariert hat. Für den Fall des Rauschens gilt bei dem dargestellten Ausführungsbeispiel t&sub1; = 6,3, t&sub2; = 9,46, t&sub3; = 18,9, t&sub4; = 25,2, und für den Fall von Signal werden die Schwellenwerte um den Faktor zwei abgesenkt auf t&sub1; = 3,15, t&sub2; = 4,73, t&sub3; = 9,45 und t&sub4; = 12,6.
  • Die Dk's werden in dem folgenden Schritt dazu benutzt, die Verstärkungsverfielfachungsfaktoren für den gesteuerten Abschwächer einzustellen.
  • Zeitliches und spektrales Streuen von Bin Frequenzverstärkungen über kritische Bänder 36
  • Ein Array, als Ak bezeichnet, speichert die Verfielfachungsfaktoren für jede FFT Frequenzkomponente k. Die Elemente von Ak werden von dem gesteuerten Abschwächer 12 dazu benutzt, die spektralen Komponenten der FFT 8 über die Ein-Block-Verzögerung 10 zu modifizieren. Die Werte des Ak werden auf Grundlage der Entscheidungen Dk modifiziert, welche in dem Detektor 34 für lokale Sprache gegenüber Rauschen getroffen werden.
  • Ak ist im Wert auf den Bereich L < Ak < 1 beschränkt, worin L die untere Grenze der Stärke der Rauschverringerung ist (wie unten erläutert wird). Je kleiner L im Wert ist, desto stärker kann die Rauschverringerung sein. Jedoch ist im allgemeinen eine stärkere Rauschverringerung von mehr Artefakten begleitet. Je höher das Signal/Rausch-Verhältnis (SNR) des Signales ist, desto niedriger kann L gesetzt werden, ohne schädliche Artefakte in der Sprache zu erzeugen. Ein guter Wert von L für ein moderates SNR von 14 dB ist 0,25. Der Wert von L sollte mit niedrigeren SNR's zunehmen, um schädliche Artefakte zu verringern, die die Verständlichkeit der Sprache beeinträchtigen. Ein SNR von 6 dB würde beispielsweise erfordern, daß L 0,5 ist. Das SNR der Sprache wird während des Betriebes des Systems gemessen, und der Meßwert wird sodann benutzt, um den Wert von L zu ermitteln.
  • Ak ändert sich bei jedem neuen Block als Funktion des Ak in dem vorausgehenden Block und des Wertes von Dk des laufenden Blockes, wie es aus obiger Gleichung (12) abgeleitet wird. Wenn Ak des i ten Blockes als Aki bezeichnet wird, dann gilt Aki = G(Aki-1, Dk), wobei die Funktion G in der untenstehenden Gleichung (13) definiert ist.
  • G(Aki, Dk) = wenn Dk = 0 dann
  • Aki = Aki-1 · &beta;O
  • wenn Dk &ge; 1 dann (13)
  • Aki = Aki-1 · &beta;
  • worin &beta; > 1 und mit Dk zunimmt und &beta;O < 1.
  • Mit anderen Worten gesagt, wenn die Entscheidung lautet Dk &ge; 1, dann wird Ak vom vorausgehenden Block durch einen Multiplikationsfaktor multipliziert, der größer ist als 1 und mit zunehmendem Wert von Dk größer wird. Wenn die Entscheidung lautet Dk = O, dann wird Ak vom vorausgehenden Block durch einen Verfielfachungsfaktor kleiner als 1 multipliziert, typischerweise dem Wert 0,8.
  • Dies ist das zeitliche Streuen. Bei einem bevorzugten Ausführungsbeispiel dauert das zeitliche Streuen von 20 ms vor bis 200 ms nach dem laufenden Block.
  • Eine Entscheidung von Dk = 4 stellt einen hohen Vertrauensgrad dafür dar, daß die spektrale Komponente k ein Sprachsignal enthält, und Ak wird auf seinen Maximalwert 1 gesetzt.
  • Als nächstes wird spektrales Streuen von Ak für Frequenzen von mehr als 500 Hz ausgeführt. Das Streuen findet über die kritische Bandbreite statt, welche bei diesem dargestellten Ausführungsbeispiel 1/6 der Mittenfrequenz ist. Der Anlaß hierfür ergibt sich aus psychoakustischen Versuchen, welche gezeigt haben, daß, wenn eine starke Signalkomponente bei einer gegebenen Frequenz vorhanden ist, sie Maskierungseffekte für das Rauschen in einer Bandbreite 1/6 der Frequenz hat. Das spektrale Streuen wird auf folgende Weise durchgeführt:
  • Für Entscheidungswerte von Dk &ge; 1 läßt man solche Ak in der kritischen Bandbreite, die wie oben beschrieben berechnet sind, nicht kleiner werden als F(Dk) (F wird unten definiert). Im Kern wird die untere Grenze L für Ak in der kritischen Bandbreite angehoben, so daß weniger Rausch-(und Sprach-)Verringerung in Spektralbereichen stattfindet. Während L typischerweise 0,25 sein kann, ist F(Dk) definiert als:
  • F(4) = 0,5
  • F(3) = 0,4
  • F(2) = 0,333
  • Für Frequenzen von weniger als 500 Hz findet kein spektrales Streuen statt. In Versuchen wurde gezeigt, daß das Spektrum von Hintergrundrauschen viele Spitzen und Täler bei niedrigen Frequenzen besitzt, aufgrund von Rotationsakustika, und grobe oder rohe Artefakte ergeben sich aus jedwedem Versuch spektraler Streuung in diesen Frequenzen.
  • Spektraltalfüller 38
  • Einer der Artefakte des Rauschverringerungschemas besteht darin, daß die Wahrnehmung von Nachhall vergrößert wird, resultierend aus der Tatsache, daß die Tiefe spektraler Nullstellen in dem Signal aufgrund von Nachhall in dem Verlauf des Ableitens des Verstärkungsvervielfachungsfaktoren-Array Ak vergrößert wird. Um bei der Bekämpfung dieses Artefaktes zu helfen; werden lokale Minima im Ak, welche mit Nachhall verbundenen spektralen Nullen entsprechen können, im Wert vergrößert. Für den Frequenzbereich von 500 Hz an aufwärts gilt, wenn Ak < Ak-4 und Ak < Ak+4 dann
  • (14)
  • für k = 16, 17, 18, ...., 251.
  • Abschwächer 12
  • Wenn die Werte des Verfielfachungsfaktoren-Array für einen bestimmten Block ermittelt sind, können die Frequenzkomponenten eingestellt werden, um die Entscheidungen Rauschen-gegenüber Sprache widerzuspiegeln. Bei dem gesteuerten Abschwächer 12 wird der Verfielfachungsfaktoren- Array, Ak, auf folgende Weise benutzt. Jede Frequenzkomponente, real und imaginär, des verzögerten, transformierten Signales wird wie folgt skaliert:
  • für k = 0, 1, 2, ..., 256
  • Rn(k) = AkR(k)
  • In(k) = AkI(k)
  • (15)
  • Die modifzierten Fourier Komponenten Rn(k) und In(k) werden dann der inversen FFT zugeführt, fenstertransformiert und überlappt, um letztendlich als Ausgangssignal den rauschverringerten Signalblock zu erzeugen, wie es in dem Blockdiagramm von Fig. 1 gezeigt und beschrieben ist.
  • Es ergibt sich ein ästhetisch mehr zusagendes und wahrnehmbar rauschverringertes Signal.

Claims (19)

1. Gerät für die wahrnehmbare Unterdrückung von Hintergrundrauschen in einem Audio-Eingangssignal, das Rauschkomponenten besitzt, mit einem Blockbildner (2) zum Unterteilen des Audio- Eingangssignales in eine Mehrzahl von Audio-Signalblöcken, einem Transformierer (8), um Frequenzspektrum-Komponenten von den Audio-Signalblöcken zu erhalten, und einem Rauschabschätzer (20), der die Frequenzspektrum- Komponenten benutzt, um einen Rauschschätzwert einer Rauschmenge in den Frequenzspektrum-Komponenten zu erzeugen, gekennzeichnet durch ein Fenstertechnikglied (6) zum Erzeugen eines laufenden, fenstertransformierten Audio-Signalblockes, indem sämtliche Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio- Signalblockes kombiniert werden, der zeitlich unmittelbar dem genannten einen Block vorausgeht, wobei der Transformierer (8) dazu vorgesehen ist, Frequenzspektrum-Komponenten von dem laufenden, fenstertransformierten Audio-Signalblock zu erhalten;
wobei das Gerät ferner gekennzeichnet ist durch einen Rauschunterdrückungs-Spektralmodifikator (30) zum Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der Frequenzspektrum-Komponenten, die aus dem laufenden, fenstertransformierten Audio-Signalblock erhalten sind;
einen Verzögerer (10) zur Verzögerung der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum- Komponenten zu erzeugen;
ein gesteuertes Dämpfungsglied, um die verzögerten Frequenzspektrum-Komponenten auf Grundlage der Verstärkungsvervielfachungsfaktoren abzuschwächen, um rauschverringerte Frequenzkomponenten zu erzeugen, und
einen inversen Transformierer (14), um die rauschverringerten Frequenzkomponenten in den Zeitbereich umzuwandeln.
2. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) ferner ein Mittel (36) aufweist, um zuvor erzeugte Verstärkungsvervielfachungsfaktoren zu verwenden, um laufende Verstärkungsvervielfachungsfaktoren zu ermitteln.
3. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) aufweist:
einen globalen Entscheidungsmechanismus (32), um für jede Frequenzkomponente der Frequenzspektrum-Komponenten eine Ermittlung durchzuführen, ob diese Frequenzkomponente Rauschen ist;
einen Entscheidungsmechanismus (34) für lokales Rauschen, um für jede Frequenzkomponente der Frequenzspektrum-Komponenten einen Vertrauensgrad dafür abzuleiten, daß die Frequenzkomponente eine Rauschkomponente ist;
einen Detektor, um auf Grundlage der Vertrauensgrade die Verstärkungsvervielfachungsfaktoren für jede Frequenzkomponente zu ermitteln und
einen Streumechanismus (36), um die Verstärkungsvervielfachungsfaktoren spektral und zeitlich einzustellen.
4. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Abschätzer (20) für Hintergrundrauschen einen zugehörigen Rauschschätzwert für jede Frequenzspektrum-Komponente erzeugt und daß der Entscheidungsmechanismus (34) für lokales Rauschen Vertrauensgrade ableitet aufgrund von:
(a) den Verhältnissen zwischen jeder der Frequenzkomponenten und ihrem zugehörigen Rauschschätzwert und
(b) den durch den globalen Entscheidungsmechanismus (32) getroffenen Ermittlungen.
5. Gerät nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß der Streumechanismus (36) die Verstärkungsvervielfachungsfaktoren auf Grundlage der Vertrauensgrade einstellt.
6. Gerät nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß der Unterdrückungs-Spektralmodifikator (30) ferner aufweist:
einen Spektraltalfüller (38) zum Ermitteln und Ausfüllen von spektralen Tälern in den genannten Frequenzkomponenten.
7. Gerät nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, daß der globale Entscheidungsmechanismus (32) außerdem ein Mittel aufweist, um jede Frequenzspektrum-Komponente mit einem entsprechenden Rauschschätzwert für die genannte Frequenzkomponente zu vergleichen, sowie ein Mittel, um einen Block als einen Sprachblock zu erklären, wenn eine ausgewählte Anzahl der genannten Spektrumkomponenten den genannten entsprechenden Rauschschätzwert um einen ausgewählten Schwellenwert übersteigt.
8. Gerät nach Anspruch 4, dadurch gekennzeichnet, daß der Hintergrund- Rauschabschätzer außerdem ein Mittel aufweist, um die genannten Verhältnisse mit ausgewählten Schwellen zu vergleichen, wobei besagte Schwellen davon abhängig sind, ob ein vorausgehender Block durch den globalen Entscheidungsmechanismus als Rauschen erklärt worden ist.
9. Gerät nach Anspruch 3 dadurch gekennzeichnet, daß die Verstärkungsvervielfachungsfaktoren einen ausgewählten unteren Pegelwert besitzen und daß der genannte Streumechanismus ferner aufweist:
ein Mittel zur Vergrößerung des unteren Pegelwerts für eine Frequenzkomponente eines Blockes auf Grundlage einer Signal-zu-Rausch- Messung für die genannte Frequenz und den Vertrauensgrad für die genannte Frequenzkomponente des genannten Blockes.
10. Gerät nach irgendeinem vorausgehenden Anspruch, dadurch gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) ein Mittel aufweist, um das Verhalten eines schnell ansprechenden, langsam abklingenden Filters in dem genannten zeitlichen Bereich zu bewirken.
11. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Streumechanismus wie ein schnell ansprechender, langsam abklingender Filter wirkt, um den genannten Vervielfachungsfaktor für eine Komponente schnell zu vergrößern und den genannten Vervielfachungsfaktor langsam auf eine veränderliche untere Grenze für die genannte Frequenzkomponente absinken zu lassen.
12. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Streumechanismus aufweist:
ein Mittel zur Einstellung der Vervielfachungsfaktoren, aufgrund spektraler Streuung, lediglich für Frequenzen von mehr als etwa 500 Hz.
13. Gerät nach irgendeinem vorausgehenden Anspruch, gekennzeichnet durch ein Mittel zum Entfernen schmalbandiger Komponenten von Rauschen, mit einer Bank von Bandsperrfiltern, um Rauschkomponenten aus den Audio-Signalblöcken zu entfernen um gefilterte Audio- Signalblöcke zu bilden.
14. Gerät nach irgendeinem vorausgehenden Anspruch, außerdem gekennzeichnet durch:
eine Nach-Fensterfunktion (16), die geglättete Zeitbereichkomponenten erzeugt, um Diskontinuitäten in den rauschverringerten Zeitbereichkomponenten zu minimieren, und
einen Überlapper-Addierer (18) für die Abgabe eines ersten Teiles der geglätteten Zeitbereichkomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichkomponenten und zum Speichern eines übrigen Teiles der geglätteten Zeitbereichkomponenten, wobei der verbleibende Teil die geglätteten Zeitbereichkomponenten aufweist, die in dem ersten Teil nicht enthalten sind.
15. Verfahren zur Verringerung der Wahrnehmung von Hintergrundrauschen für ein Audio-Eingangssignal, mit den Schritten des Aufteilens des Audio-Eingangssignales in eine Mehrzahl von Audio-Signalblöcken, des Gewinnens von Frequenzspektrum-Komponenten der Blöcke und des Benutzens der Frequenzspektrum-Komponenten, um einen Rauschschätzwert einer Menge des Rauschens in den Frequenzspektrum- Komponenten zu erzeugen, wobei das Verfahren gekennzeichnet ist durch:
Erzeugen eines fenstertransformierten Audio-Signalblockes;
Kombinieren sämtlicher Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes, der zeitlich dem genannten einen Block unmittelbar vorausgeht, wobei die Frequenzspektrum-Komponenten aus dem fenstertransformierten Audio- Signalblock von Signalen gewonnen werden und die genannten Komponenten dazu benutzt werden, um den genannten Rauschschätzwert zu erzeugen;
Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der genannten Frequenzspektrum Komponenten;
Verzögern der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum-Komponenten zu erzeugen;
Abschwächen der verzögerten Frequenzspektrum-Komponenten auf Grundlage der genannten Verstärkungsvervielfachungsfaktoren, um rauschverringerte Frequenzkomponenten zu erzeugen,
Umwandeln der rauschverringerten Frequenzkomponenten in den Zeitbereich.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß der Schritt des Erzeugens der genannten Verstärkungsvervielfachungsfaktoren den Schritt des Benutzens zuvor erzeugter Verstärkungsvervielfachungsfaktoren beinhaltet, um laufende Vervielfachungsfaktoren zu ermitteln.
17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß der Schritt des Erzeugens von Verstärkungsvervielfachungsfaktoren die Schritte beinhaltet:
Durchführen einer Ermittlung für jede Frequenzkomponente der Frequenzspektrum-Komponenten, ob diese Frequenzkomponente Rauschen ist;
Ableiten für jede Frequenzkomponente der Frequenzspektrum- Komponenten einen Vertrauensgrad dafür, daß die Frequenzkomponente eine Rauschkomponente ist;
Ermitteln auf Grundlage der Vertrauensgrade die Verstärkungsvervielfachungsfaktoren für jede Frequenzkomponente und spektrales und zeitliches Einstellen der Verstärkungsvervielfachungsfaktoren.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß der Schritt des Erzeugens der Verstärkungsvervielfachungsfaktoren außerdem den Schritt des Erkennens und Auffüllens spektraler Täler in den genannten Frequenzkomponenten beinhaltet.
19. Verfahren nach irgendeinem der Ansprüche 15 bis 18, ferner gekennzeichnet durch die Nach-Fenstertransformierung, um geglättete Zeitbereichskomponenten zu erzeugen;
Abgeben eines ersten Teiles der geglätteten Zeitbereichskomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichskomponenten und
Speichern eines übrigen Teiles der geglätteten Zeitbereichskomponenten, wobei der übrige Teil die geglätteten Zeitbereichskomponenten beinhaltet, die in dem ersten Teil nicht enthalten sind.
DE69428119T 1993-07-07 1994-06-06 Verringerung des hintergrundrauschens zur sprachverbesserung Expired - Lifetime DE69428119T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US8670793A 1993-07-07 1993-07-07
PCT/US1994/006367 WO1995002288A1 (en) 1993-07-07 1994-06-06 Reduction of background noise for speech enhancement

Publications (2)

Publication Number Publication Date
DE69428119D1 DE69428119D1 (de) 2001-10-04
DE69428119T2 true DE69428119T2 (de) 2002-03-21

Family

ID=22200351

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69428119T Expired - Lifetime DE69428119T2 (de) 1993-07-07 1994-06-06 Verringerung des hintergrundrauschens zur sprachverbesserung

Country Status (5)

Country Link
US (1) US5550924A (de)
EP (1) EP0707763B1 (de)
JP (1) JP3626492B2 (de)
DE (1) DE69428119T2 (de)
WO (1) WO1995002288A1 (de)

Families Citing this family (169)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
JP3453898B2 (ja) * 1995-02-17 2003-10-06 ソニー株式会社 音声信号の雑音低減方法及び装置
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
US5778082A (en) * 1996-06-14 1998-07-07 Picturetel Corporation Method and apparatus for localization of an acoustic source
DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US7379961B2 (en) * 1997-04-30 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
FR2765715B1 (fr) * 1997-07-04 1999-09-17 Sextant Avionique Procede de recherche d'un modele de bruit dans des signaux sonores bruites
US6466912B1 (en) * 1997-09-25 2002-10-15 At&T Corp. Perceptual coding of audio signals employing envelope uncertainty
US6047234A (en) * 1997-10-16 2000-04-04 Navigation Technologies Corporation System and method for updating, enhancing or refining a geographic database using feedback
US6505057B1 (en) 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
US6157908A (en) * 1998-01-27 2000-12-05 Hm Electronics, Inc. Order point communication system and method
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US7306700B1 (en) 1998-04-27 2007-12-11 Akzo Nobel Nv Process for the production of paper
KR100403840B1 (ko) 1998-04-27 2003-11-01 악조 노벨 엔.브이. 제지 방법
EP0953680A1 (de) * 1998-04-27 1999-11-03 Akzo Nobel N.V. Verfahren zur Herstellung von Papier
US6088668A (en) 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US7072831B1 (en) * 1998-06-30 2006-07-04 Lucent Technologies Inc. Estimating the noise components of a signal
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6993480B1 (en) * 1998-11-03 2006-01-31 Srs Labs, Inc. Voice intelligibility enhancement system
US6718301B1 (en) 1998-11-11 2004-04-06 Starkey Laboratories, Inc. System for measuring speech content in sound
US6205422B1 (en) * 1998-11-30 2001-03-20 Microsoft Corporation Morphological pure speech detection using valley percentage
US6249757B1 (en) 1999-02-16 2001-06-19 3Com Corporation System for detecting voice activity
EP1210765B1 (de) 1999-07-28 2007-03-07 Clear Audio Ltd. Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank
DE19948308C2 (de) * 1999-10-06 2002-05-08 Cortologic Ag Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
AU764610B2 (en) * 1999-10-07 2003-08-28 Widex A/S Method and signal processor for intensification of speech signal components in a hearing aid
US7110923B2 (en) * 1999-11-04 2006-09-19 Verticalband, Limited Fast, blind equalization techniques using reliable symbols
US7085691B2 (en) * 1999-11-04 2006-08-01 Verticalband, Limited Reliable symbols as a means of improving the performance of information transmission systems
GB2356112B (en) * 1999-11-04 2002-02-06 Imperial College Increasing data transmission bit rates
US7143013B2 (en) * 1999-11-04 2006-11-28 Verticalband, Limited Reliable symbols as a means of improving the performance of information transmission systems
FI19992453L (fi) 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Kohinanvaimennus
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
ATE248497T1 (de) * 1999-12-09 2003-09-15 Frederick Johannes Bruwer Sprachsverteilungssystem
AU4904801A (en) * 1999-12-31 2001-07-16 Octiv, Inc. Techniques for improving audio clarity and intelligibility at reduced bit rates over a digital network
US7379962B1 (en) 2000-01-19 2008-05-27 Computer Associates Think, Inc. Spatialized audio in a three-dimensional computer-based scene
US7110951B1 (en) 2000-03-03 2006-09-19 Dorothy Lemelson, legal representative System and method for enhancing speech intelligibility for the hearing impaired
US6523003B1 (en) * 2000-03-28 2003-02-18 Tellabs Operations, Inc. Spectrally interdependent gain adjustment techniques
AU2001260154A1 (en) * 2000-03-31 2001-10-15 Telefonaktiebolaget Lm Ericsson (Publ) A method of transmitting voice information and an electronic communications device for transmission of voice information
EP1139337A1 (de) * 2000-03-31 2001-10-04 Telefonaktiebolaget L M Ericsson (Publ) Verfahren zur Übertragung von Sprachinformationen und elektronische Fernmeldevorrichtung dafür
US6430525B1 (en) 2000-06-05 2002-08-06 Masimo Corporation Variable mode averager
EP1168734A1 (de) * 2000-06-26 2002-01-02 BRITISH TELECOMMUNICATIONS public limited company Verfahren zur Reduzierung der Verzerrung in einer Sprachübertragung über Datennetze
WO2002015395A1 (en) * 2000-07-27 2002-02-21 Clear Audio Ltd. Voice enhancement system
US20020075965A1 (en) * 2000-12-20 2002-06-20 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
US20030023429A1 (en) * 2000-12-20 2003-01-30 Octiv, Inc. Digital signal processing techniques for improving audio clarity and intelligibility
WO2002091363A1 (en) * 2001-05-08 2002-11-14 Koninklijke Philips Electronics N.V. Audio coding
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
EP1433166B8 (de) * 2001-09-28 2008-01-02 Nokia Siemens Networks Gmbh & Co. Kg Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals
US20040005065A1 (en) 2002-05-03 2004-01-08 Griesinger David H. Sound event detection system
US7103541B2 (en) * 2002-06-27 2006-09-05 Microsoft Corporation Microphone array signal enhancement using mixture models
US7697700B2 (en) * 2006-05-04 2010-04-13 Sony Computer Entertainment Inc. Noise removal for electronic device with far field microphone on console
US7013272B2 (en) * 2002-08-14 2006-03-14 Motorola, Inc. Amplitude masking of spectra for speech recognition method and apparatus
US7146315B2 (en) * 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7433462B2 (en) * 2002-10-31 2008-10-07 Plantronics, Inc Techniques for improving telephone audio quality
US7191127B2 (en) * 2002-12-23 2007-03-13 Motorola, Inc. System and method for speech enhancement
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US7885420B2 (en) * 2003-02-21 2011-02-08 Qnx Software Systems Co. Wind noise suppression system
US8326621B2 (en) 2003-02-21 2012-12-04 Qnx Software Systems Limited Repetitive transient noise removal
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
US7725315B2 (en) * 2003-02-21 2010-05-25 Qnx Software Systems (Wavemakers), Inc. Minimization of transient noises in a voice signal
US7949522B2 (en) 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US8271279B2 (en) 2003-02-21 2012-09-18 Qnx Software Systems Limited Signature noise removal
WO2004088639A1 (en) * 2003-04-02 2004-10-14 Magink Display Technologies Ltd. Psychophysical perception enhancement
US7272233B2 (en) * 2003-09-11 2007-09-18 Clarity Technologies, Inc. Acoustic shock prevention
US7224810B2 (en) * 2003-09-12 2007-05-29 Spatializer Audio Laboratories, Inc. Noise reduction system
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
US20050285935A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Personal conferencing node
US20050286443A1 (en) * 2004-06-29 2005-12-29 Octiv, Inc. Conferencing system
US20060023061A1 (en) * 2004-07-27 2006-02-02 Vaszary Mark K Teleconference audio quality monitoring
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
US9779750B2 (en) 2004-07-30 2017-10-03 Invention Science Fund I, Llc Cue-aware privacy filter for participants in persistent communications
US7720236B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Updating modeling information based on offline calibration experiments
US20060132595A1 (en) * 2004-10-15 2006-06-22 Kenoyer Michael L Speakerphone supporting video and audio features
US7826624B2 (en) * 2004-10-15 2010-11-02 Lifesize Communications, Inc. Speakerphone self calibration and beam forming
US7903137B2 (en) * 2004-10-15 2011-03-08 Lifesize Communications, Inc. Videoconferencing echo cancellers
US7720232B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US7970151B2 (en) * 2004-10-15 2011-06-28 Lifesize Communications, Inc. Hybrid beamforming
US8116500B2 (en) * 2004-10-15 2012-02-14 Lifesize Communications, Inc. Microphone orientation and size in a speakerphone
US7760887B2 (en) * 2004-10-15 2010-07-20 Lifesize Communications, Inc. Updating modeling information based on online data gathering
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7292985B2 (en) * 2004-12-02 2007-11-06 Janus Development Group Device and method for reducing stuttering
US7970150B2 (en) * 2005-04-29 2011-06-28 Lifesize Communications, Inc. Tracking talkers using virtual broadside scan and directed beams
US7991167B2 (en) * 2005-04-29 2011-08-02 Lifesize Communications, Inc. Forming beams with nulls directed at noise sources
US7593539B2 (en) * 2005-04-29 2009-09-22 Lifesize Communications, Inc. Microphone and speaker arrangement in speakerphone
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US20060269057A1 (en) * 2005-05-26 2006-11-30 Groove Mobile, Inc. Systems and methods for high resolution signal analysis and chaotic data compression
US7454335B2 (en) * 2006-03-20 2008-11-18 Mindspeed Technologies, Inc. Method and system for reducing effects of noise producing artifacts in a voice codec
JP4171922B2 (ja) * 2006-04-12 2008-10-29 船井電機株式会社 ミュート装置、液晶ディスプレイテレビ、及びミュート方法
GB2437559B (en) * 2006-04-26 2010-12-22 Zarlink Semiconductor Inc Low complexity noise reduction method
EP2014132A4 (de) 2006-05-04 2013-01-02 Sony Computer Entertainment Inc Echo- und rauschunterdrückung
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP4827661B2 (ja) 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
RS49875B (sr) * 2006-10-04 2008-08-07 Micronasnit, Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza
EP1926085B1 (de) * 2006-11-24 2010-11-03 Research In Motion Limited System und Verfahren zur Verringerung von Uplink-Geräuschen
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
US8249374B2 (en) * 2006-12-12 2012-08-21 University Of New Hampshire Systems and methods for adaptive multiresolution signal analysis with compact cupolets
ES2383217T3 (es) * 2006-12-12 2012-06-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo
US8457768B2 (en) * 2007-06-04 2013-06-04 International Business Machines Corporation Crowd noise analysis
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
US8611554B2 (en) * 2008-04-22 2013-12-17 Bose Corporation Hearing assistance apparatus
US8625704B1 (en) 2008-09-25 2014-01-07 Aquantia Corporation Rejecting RF interference in communication systems
US9912375B1 (en) 2008-09-25 2018-03-06 Aquantia Corp. Cancellation of alien interference in communication systems
US8442099B1 (en) 2008-09-25 2013-05-14 Aquantia Corporation Crosstalk cancellation for a common-mode channel
US8213635B2 (en) * 2008-12-05 2012-07-03 Microsoft Corporation Keystroke sound suppression
JP5141542B2 (ja) * 2008-12-24 2013-02-13 富士通株式会社 雑音検出装置及び雑音検出方法
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US8204742B2 (en) * 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
US8467881B2 (en) * 2009-09-29 2013-06-18 Advanced Bionics, Llc Methods and systems for representing different spectral components of an audio signal presented to a cochlear implant patient
GB0919672D0 (en) 2009-11-10 2009-12-23 Skype Ltd Noise suppression
US8737654B2 (en) 2010-04-12 2014-05-27 Starkey Laboratories, Inc. Methods and apparatus for improved noise reduction for hearing assistance devices
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US8724678B2 (en) 2010-05-28 2014-05-13 Aquantia Corporation Electromagnetic interference reduction in wireline applications using differential signal compensation
US9118469B2 (en) * 2010-05-28 2015-08-25 Aquantia Corp. Reducing electromagnetic interference in a received signal
US8891595B1 (en) 2010-05-28 2014-11-18 Aquantia Corp. Electromagnetic interference reduction in wireline applications using differential signal compensation
US8457321B2 (en) 2010-06-10 2013-06-04 Nxp B.V. Adaptive audio output
US8792597B2 (en) 2010-06-18 2014-07-29 Aquantia Corporation Reducing electromagnetic interference in a receive signal with an analog correction signal
US9078077B2 (en) 2010-10-21 2015-07-07 Bose Corporation Estimation of synthetic audio prototypes with frequency-based input signal decomposition
US8924204B2 (en) * 2010-11-12 2014-12-30 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
JP5643686B2 (ja) * 2011-03-11 2014-12-17 株式会社東芝 音声判別装置、音声判別方法および音声判別プログラム
US9589580B2 (en) * 2011-03-14 2017-03-07 Cochlear Limited Sound processing based on a confidence measure
US9226088B2 (en) 2011-06-11 2015-12-29 Clearone Communications, Inc. Methods and apparatuses for multiple configurations of beamforming microphone arrays
US8861663B1 (en) 2011-12-01 2014-10-14 Aquantia Corporation Correlated noise canceller for high-speed ethernet receivers
US8645142B2 (en) * 2012-03-27 2014-02-04 Avaya Inc. System and method for method for improving speech intelligibility of voice calls using common speech codecs
US9317458B2 (en) 2012-04-16 2016-04-19 Harman International Industries, Incorporated System for converting a signal
US8929468B1 (en) 2012-06-14 2015-01-06 Aquantia Corp. Common-mode detection with magnetic bypass
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
EP2747081A1 (de) * 2012-12-18 2014-06-25 Oticon A/s Audioverarbeitungsvorrichtung mit Artifaktreduktion
US9552825B2 (en) * 2013-04-17 2017-01-24 Honeywell International Inc. Noise cancellation for voice activation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
US9554207B2 (en) 2015-04-30 2017-01-24 Shure Acquisition Holdings, Inc. Offset cartridge microphones
US9565493B2 (en) 2015-04-30 2017-02-07 Shure Acquisition Holdings, Inc. Array microphone system and method of assembling the same
CN108352166B (zh) * 2015-09-25 2022-10-28 弗劳恩霍夫应用研究促进协会 使用线性预测编码对音频信号进行编码的编码器和方法
CN106710589B (zh) * 2016-12-28 2019-07-30 百度在线网络技术(北京)有限公司 基于人工智能的语音特征提取方法及装置
US10367948B2 (en) 2017-01-13 2019-07-30 Shure Acquisition Holdings, Inc. Post-mixing acoustic echo cancellation systems and methods
WO2019231632A1 (en) 2018-06-01 2019-12-05 Shure Acquisition Holdings, Inc. Pattern-forming microphone array
US11297423B2 (en) 2018-06-15 2022-04-05 Shure Acquisition Holdings, Inc. Endfire linear array microphone
US11750985B2 (en) 2018-08-17 2023-09-05 Cochlear Limited Spatial pre-filtering in hearing prostheses
WO2020061353A1 (en) 2018-09-20 2020-03-26 Shure Acquisition Holdings, Inc. Adjustable lobe shape for array microphones
US11558693B2 (en) 2019-03-21 2023-01-17 Shure Acquisition Holdings, Inc. Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality
CN118803494A (zh) 2019-03-21 2024-10-18 舒尔获得控股公司 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置
US11303981B2 (en) 2019-03-21 2022-04-12 Shure Acquisition Holdings, Inc. Housings and associated design features for ceiling array microphones
US10587439B1 (en) 2019-04-12 2020-03-10 Rovi Guides, Inc. Systems and methods for modifying modulated signals for transmission
TW202101422A (zh) 2019-05-23 2021-01-01 美商舒爾獲得控股公司 可操縱揚聲器陣列、系統及其方法
TWI862596B (zh) 2019-05-31 2024-11-21 美商舒爾獲得控股公司 整合語音及雜訊活動偵測之低延時自動混波器
WO2021041275A1 (en) 2019-08-23 2021-03-04 Shore Acquisition Holdings, Inc. Two-dimensional microphone array with improved directivity
WO2021087377A1 (en) 2019-11-01 2021-05-06 Shure Acquisition Holdings, Inc. Proximity microphone
US11552611B2 (en) 2020-02-07 2023-01-10 Shure Acquisition Holdings, Inc. System and method for automatic adjustment of reference gain
CN111370017B (zh) * 2020-03-18 2023-04-14 苏宁云计算有限公司 一种语音增强方法、装置、系统
USD944776S1 (en) 2020-05-05 2022-03-01 Shure Acquisition Holdings, Inc. Audio device
US11706562B2 (en) 2020-05-29 2023-07-18 Shure Acquisition Holdings, Inc. Transducer steering and configuration systems and methods using a local positioning system
WO2022023415A1 (en) * 2020-07-30 2022-02-03 Dolby International Ab Hum noise detection and removal for speech and music recordings
JP2024505068A (ja) 2021-01-28 2024-02-02 シュアー アクイジッション ホールディングス インコーポレイテッド ハイブリッドオーディオビーム形成システム
CN114171038B (zh) * 2021-12-10 2023-07-28 北京百度网讯科技有限公司 语音降噪方法、装置、设备及存储介质
EP4460983A1 (de) 2022-01-07 2024-11-13 Shure Acquisition Holdings, Inc. Audiostrahlformung mit nullungssteuerungssystem und verfahren

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3967283A (en) * 1974-02-13 1976-06-29 Automation Industries, Inc. Large area motion sensor
US4185168A (en) * 1976-05-04 1980-01-22 Causey G Donald Method and means for adaptively filtering near-stationary noise from an information bearing signal
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4658426A (en) * 1985-10-10 1987-04-14 Harold Antin Adaptive noise suppressor
US4653102A (en) * 1985-11-05 1987-03-24 Position Orientation Systems Directional microphone system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US4852175A (en) * 1988-02-03 1989-07-25 Siemens Hearing Instr Inc Hearing aid signal-processing system
US4912767A (en) * 1988-03-14 1990-03-27 International Business Machines Corporation Distributed noise cancellation system
US4868880A (en) * 1988-06-01 1989-09-19 Yale University Method and device for compensating for partial hearing loss
JPH03132221A (ja) * 1989-10-18 1991-06-05 Nippon Hoso Kyokai <Nhk> 音声混入雑音除去装置
US5146504A (en) * 1990-12-07 1992-09-08 Motorola, Inc. Speech selective automatic gain control
US5349549A (en) * 1991-09-30 1994-09-20 Sony Corporation Forward transform processing apparatus and inverse processing apparatus for modified discrete cosine transforms, and method of performing spectral and temporal analyses including simplified forward and inverse orthogonal transform processing

Also Published As

Publication number Publication date
US5550924A (en) 1996-08-27
WO1995002288A1 (en) 1995-01-19
JPH09503590A (ja) 1997-04-08
EP0707763A4 (de) 1997-10-22
JP3626492B2 (ja) 2005-03-09
EP0707763B1 (de) 2001-08-29
EP0707763A1 (de) 1996-04-24
DE69428119D1 (de) 2001-10-04

Similar Documents

Publication Publication Date Title
DE69428119T2 (de) Verringerung des hintergrundrauschens zur sprachverbesserung
EP0912974B1 (de) Verfahren zur verringerung von störungen eines sprachsignals
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
DE69313480T2 (de) Rauschverminderungseinrichtung
DE69905035T2 (de) Rauschunterdrückung mittels spektraler subtraktion unter verwendung von linearem faltungsprodukt und kausaler filterung
DE69738288T2 (de) Einrichtung zur unterdrückung einer störenden komponente eines eingangssignals
DE60031354T2 (de) Geräuschunterdrückung vor der Sprachkodierung
DE112012000052B4 (de) Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen
DE3689035T2 (de) Rauschminderungssystem.
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE69129467T2 (de) Adaptiver kompensator eines akustischen echos
DE69122648T2 (de) Digitale Teilbandkodierungsvorrichtung
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
DE19806015C2 (de) Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
EP0600164A1 (de) Verfahren zum Verbessern der Übertragungseingenschaften einer elektroakustischen Anlage
DE10137348A1 (de) Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen
DE102018117558A1 (de) Adaptives nachfiltern
EP1453355B1 (de) Signalverarbeitung in einem Hörgerät
EP1869765B1 (de) Kompandersystem
EP1351550A1 (de) Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: POLYCOM, INC., MILPITAS, CALIF., US