DE69428119T2 - Verringerung des hintergrundrauschens zur sprachverbesserung - Google Patents
Verringerung des hintergrundrauschens zur sprachverbesserungInfo
- Publication number
- DE69428119T2 DE69428119T2 DE69428119T DE69428119T DE69428119T2 DE 69428119 T2 DE69428119 T2 DE 69428119T2 DE 69428119 T DE69428119 T DE 69428119T DE 69428119 T DE69428119 T DE 69428119T DE 69428119 T2 DE69428119 T2 DE 69428119T2
- Authority
- DE
- Germany
- Prior art keywords
- noise
- components
- frequency
- block
- frequency spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 claims description 51
- 238000001228 spectrum Methods 0.000 claims description 51
- 230000005236 sound signal Effects 0.000 claims description 29
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 22
- 230000002829 reductive effect Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 13
- 239000003607 modifier Substances 0.000 claims description 11
- 230000001629 suppression Effects 0.000 claims description 11
- 230000003111 delayed effect Effects 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 7
- 230000007480 spreading Effects 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 7
- 239000000945 filler Substances 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims 1
- 239000006185 dispersion Substances 0.000 claims 1
- 230000001131 transforming effect Effects 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 11
- 238000013459 approach Methods 0.000 description 10
- 230000000873 masking effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 102100024066 Coiled-coil and C2 domain-containing protein 1A Human genes 0.000 description 3
- 101000910423 Homo sapiens Coiled-coil and C2 domain-containing protein 1A Proteins 0.000 description 3
- 230000035945 sensitivity Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/06—Receivers
- H04B1/10—Means associated with receiver for limiting or suppressing noise or interference
- H04B1/1027—Means associated with receiver for limiting or suppressing noise or interference assessing signal quality or detecting noise/interference for the received signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/06—Receivers
- H04B1/10—Means associated with receiver for limiting or suppressing noise or interference
- H04B1/1027—Means associated with receiver for limiting or suppressing noise or interference assessing signal quality or detecting noise/interference for the received signal
- H04B2001/1063—Means associated with receiver for limiting or suppressing noise or interference assessing signal quality or detecting noise/interference for the received signal using a notch filter
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Noise Elimination (AREA)
Description
- Diese Erfindung bezieht sich auf ein Gerät und ein Verfahren zur Verringerung wahrgenommenen Hintergrundrauschens, wenn beispielsweise Sprach-Informationen über einen Kanal, etwa einen Telefon-Verbindungskanal, übertragen werden.
- Mikrofone, die bei Sprachübertragungssystemen benutzt werden, nehmen typischerweise Umgebungs- oder Hintergrundgeräusche, Rauschen genannt, zusammen mit der Sprache auf, die sie aufnehmen sollen. Bei Sprachübertragungssystemen, bei denen sich das Mikrofon in einiger Entfernung vom Sprecher (von Sprechern) befindet, beispielsweise bei Systemen, die im Umfeld von Video- und Audio-Telefonkonferenzen benutzt werden, ist Hintergrundrauschen eine Ursache schlechter Audio-Qualität, weil das Rauschen zu der mittels eines Mikrofons aufgenommenen Sprache hinzugefügt wird. Aufgrund ihrer Natur und gedachten Anwendung müssen diese Systeme Töne von sämtlichen Orten her aufnehmen, die ihre Mikrofone umgeben, und diese Töne enthalten Hintergrundrauschen. Ventilatorgeräusche, die von HVAC-Systemen, Computern und anderen elektronischen Einrichtungen ausgehen, sind die als vorherrschend ermittelte Quelle von Rauschen in den meisten Umgebungen von Telefonkonferenzen.
- Die US-A-5 012 519 (Adlersberg u. a.) bezieht sich auf ein Rauschverringerungssystem, bei dem ein Eingangssignal in Kanäle aufgeteilt wird und bei dem die Verstärkung in jedem Kanal, der ein niedriges Signal-/Rauschverhältnis (SNR) besitzt, verringert wird.
- Eine gute Technik zur Rauschunterdrückung verringert die Wahrnehmung von Hintergrundrauschen, während sie gleichzeitig die Güte oder Erkennbarkeit von Sprache nicht beeinträchtigt. Allgemein ist es ein Ziel dieser Erfindung, Rauschen zu unterdrücken, das Sprache hinzugefügt ist, welche durch ein einzelnes Mikrofon aufgenommen wird.
- Gemäß einem Aspekt der vorliegenden Erfindung ist ein Gerät für die wahrnehmbare Unterdrückung von Hintergrundrauschen in einem Audio- Eingangssignal vorgesehen, das Rauschkomponenten besitzt, mit einem Blockbildner zum Unterteilen des Audio-Eingangssignals in eine Mehrzahl von Audio-Signalblöcken, einem Transformierer, um Frequenzspektrum-Komponenten von den Audio-Signalblöcken zu erhalten, und einem Rauschabschätzer, der die Frequenzspektrum-Komponenten benutzt, um einen Rauschschätzwert einer Rauschmenge in den Frequenzspektrum -Komponenten zu erzeugen, gekennzeichnet durch ein Fenstertechnikglied zum Erzeugen eines laufenden, fenstertransformierten Audio-Signalblockes, indem sämtliche Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes kombiniert werden, der zeitlich unmittelbar dem genannten einen Block vorausgeht, wobei der Transformierer dazu vorgesehen ist, Frequenzspektrum-Komponenten von dem laufenden, fenstertransformierten Audio-Signalblock zu erhalten, wobei das Gerät ferner gekennzeichnet ist durch einen Rauschunterdrückungs-Spektralmodifikator zum Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der Frequenzspektrum-Komponenten, die aus dem laufenden, fenstertransformierten Audio-Signalblock erhalten sind, einen Verzögerer zur Verzögerung der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzsprektrum-Komponenten zu erzeugen, ein gesteuertes Dämpfungsglied, um die verzögerten Frequenzspektrum-Komponenten auf Grundlage der Verstärkungsvervielfachungsfaktoren abzuschwächen, um rauschverringerte Frequenzkomponenten zu erzeugen, und einen inversen Transformierer, um die rauschverringerten Frequenzkomponenten in den Zeitbereich umzuwandeln.
- Bei bevorzugten Ausführungsbeispielen beinhaltet der Rauschunterdrückungs-Spektralmodifikator einen globalen Entscheidungsmechanismus, einen lokalen Entscheidungsmechanismus, einen Detektor, einen Streumechanismus und einen spektralen Talfüller.
- Der globale Entscheidungsmechanismus tätigt für jede Frequenzkomponente der Frequenzspektrum-Komponenten eine Ermittlung darüber, ob diese Frequenzkomponente hauptsächlich Rauschen ist. Der Entscheidungsmechanismus für lokales Rauschen leitet für jede Frequenzkomponente der Frequenzspektrum-Komponenten einen Vertrauensgrad dafür ab, daß die Frequenzkomponente hauptsächlich eine Rauschkomponente ist. Der Detektor ermittelt auf Grundlage der Vertrauensgrade einen Verstärkungsvervielfachungsfaktor für jede Frequenzkomponente. Der Spektralmechanismus streut spektral und zeitlich die Wirkung der ermittelten Verstärkungsvervielfachungsfaktoren, und der spektrale Talfüller ermittelt und füllt spektrale Täler in den resultierenden Frequenzkomponenten aus.
- Bei anderen Aspekten des bevorzugten Ausführungsbeispiels erzeugt der Abschätzer für Hintergrundrauschen auch einen Rauschschätzwert für jede Frequenzspektrum-Komponente, und der Entscheidungsmechanismus für lokales Rauschen leitet Vertrauensgrade auf Grundlage der Verhältnisse zwischen jeder Frequenzkomponente und ihrem entsprechenden Rauschschätzwert und den durch den globalen Entscheidungsmechanismus getroffenen Ermittlungen ab.
- Vorteilhafterweise beinhaltet das Gerät ferner eine Nach-Fensterfunktion und einen Überlapper-Addier-Mechanismus. Die Nach-Fensterfunktion erzeugt geglättete Zeitbereichkomponenten, um Diskontinuitäten in den rauschverringerten Zeitbereichkomponenten zu minimieren; und der Überlapper-Addierer gibt einen ersten Teil der geglätteten Zeitbereichkomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter Zeitbereichkomponenten als Ausgangssignal ab und speichert einen verbleibenden Teil der geglätteten Frequenzkomponenten, wobei der verbleibende Teil die geglätteten Frequenzkomponenten aufweist, die in dem ersten Teil nicht enthalten sind.
- Bei bevorzugten Ausführungsbeispielen des Gerätes beinhaltet der Abschätzer für Hintergrundrauschen zumindest zwei Abschätzer, von denen jeder einen Rauschschätzwert erzeugt, sowie einen Komparator für das Vergleichen und Auswählen eines der Schätzwerte für Hintergrundrauschen. Einer der Abschätzer ist ein laufender Minimum-Abschätzer, und der andere Abschätzer ist ein stationärer Abschätzer.
- Bei einem bevorzugten Ausführungsbeispiel ist eine Bank von Bandsperrfiltern vorhanden, um Rauschkomponenten aus jedem Audio-Signalblock zu entfernen, um gefilterte Audio-Signalblöcke zu erzeugen, die sodann dem Fenstertechnikglied zugeführt werden. Das Gerät kann auch einen Sperrfiltermechanismus beinhalten, um die Lagen der Dämpfungsmaxima für die Sperrfilterbank zu ermitteln.
- Gemäß einem weiteren Aspekt beinhaltet die Erfindung auch ein Verfahren zur Verringerung der Wahrnehmung von Hintergrundrauschen für ein Audio-Eingangssignal, mit den Schritten des Aufteilens des Audio-Eingangssignals in eine Mehrzahl von Audio-Signalblöcken, des Gewinnens von Frequenzspektrum-Komponenten der Blöcke und des Benutzens der Frequenzspektrum-Komponenten, um einen Rauschschätzwert einer Menge des Rauschens in den Frequenzspektrum-Komponenten zu erzeugen, wobei das Verfahren gekennzeichnet ist durch: Erzeugen eines fenstertransformiererten Audio-Signalblockes, Kombinieren sämtlicher Abtastwerte eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-Signalblockes, der zeitlich dem genannten einen Block unmittelbar vorausgeht, wobei die Frequenzspektrum-Komponenten aus dem fenstertransformierten Audio-Signalblock gewonnen werden und die genannten Komponenten auf Grundlage der genannten Verstärkungsvervielfachungsfaktoren benutzt werden, um den genannten Rauschschätzwert zu erzeugen, Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der genannten Frequenzspektrum-Komponenten, Verzögern der genannten Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum-Komponenten zu erzeugen, Abschwächen der verzögerten Frequenzspektrum-Komponenten, um rauschverringerte Frequenzkomponenten zu erzeugen, und Umwandeln der rauschverringerten Frequenzkomponenten in den Zeitbereich.
- Das in dieser Beschreibung erläuterte System verringert Ventilatorgeräusch wirksam, das zu Sprache hinzugefügt wird, welche durch ein einzelnes Mikrofon aufgenommen wird.
- Die Erfindung wird nun beispielhaft unter Bezugnahme auf die Zeichnungen beschrieben, in denen:
- Fig. 1 ein Blockdiagramm eines erfindungsgemäßen Rauschunterdrückungssystemes ist, und
- Fig. 2-4 detaillierte Blockdarstellungen sind, die Teile des Blockdiagramms von Fig. 1 darstellen.
- Das einfachste Gerät zur Rauschunterdrückung, bei Millionen von Menschen rings um die Welt in täglichem Gebrauch, ist die sogenannte "Squelch"-Schaltung. Eine Squelch-Schaltung ist bei den meisten Sende- Empfangsgeräten des CB-Bandes Standard. Sie arbeitet in der Weise, daß der Lautsprecher des Systems einfach abgeschaltet wird, wenn die Energie des empfangenen Signales unter einen bestimmten Schwellenwert fällt. Die Größe dieses Schwellenwertes wird gewöhnlich unter Verwendung eines manuellen Steuerknopfes auf einen Pegel derart festgelegt, daß das Hintergrundrauschen niemals zum Lautsprecher gelangt, wenn das entfernte Ende stumm ist. Das Problem bei dieser Art Schaltung besteht darin, daß, wenn die Schaltung einschaltet und abschaltet, wenn der Sprecher am entfernten Ende beginnt und sodann aufhört, das Vorhandensein und sodann das Fehlen von Rauschen klar zu hören ist. Das Rauschen ist breitbandig und überdeckt Frequenzen, in denen nur eine geringe Sprachenergie vorhanden ist, und somit kann das Rauschen gleichzeitig gehört werden, wenn die Person spricht. Die Tätigkeit der Squelch-Schaltung erzeugt einen sehr verwirrenden Effekt, obgleich dieser dem Vorhandensein überhaupt keiner Rauschunterdrückung vorzuziehen ist.
- Das unten beschriebene Verfahren zur Rauschunterdrückung verbessert das "Squelch"-Konzept wesentlich, indem das Hintergrundrauschen sowohl in den Sprachabschnitten als auch den sprachfreien Abschnitten des Audiosignals verringert wird. Der benutzte Lösungsansatz beruht auf der menschlichen Wahrnehmung. Durch Benutzung der Prinzipien der spektralen und zeitlichen Maskierung (beides unten definiert) wird die wahrgenommene Lautheit von Rauschen, das dem Sprachsignal zugeführt oder mit ihm vermischt ist, verringert.
- Dieser Lösungsansatz unterscheidet sich von anderen Ansätzen, beispielsweise solchen, bei denen es das Ziel ist, das mittlere Fehlerquadrat zwischen Sprachkomponente selbst (Sprache ohne Rauschen) und dem verarbeiteten Sprachausgangssignal des Unterdrückungssystemes zu minimieren.
- Das zu beschreibende Verfahren nutzt den "Squelch"-Gedanken des Erhöhens der Verstärkung in einem Kanal aus, wenn die Energie dieses Kanales einen Schwellenwert übersteigt, und des Absenkens der Verstärkung, wenn die Kanalenergie unter den Schwellenwert fällt, jedoch führt das Verfahren diese Tätigkeit in unterschiedlichen Frequenzbereichen gesondert durch. Die Verstärkung in einem Kanal kann als das Verhältnis zwischen der Größe des Eingangssignales und der Größe des entsprechenden Ausgangssignales betrachtet werden.
- Das Verfahren nutzt ferner verschiedene psychoakustische Prinzipien der spektralen Maskierung aus, insbesondere die Prinzipien, welche grundsätzlich feststellen, daß, wenn ein lauter Ton bei einer Frequenz existiert, sodann ein gegebenes Frequenzband um diese Frequenz herum vorhanden ist, das kritische Band genannt, innerhalb dessen andere Signale nicht zu hören sind. In anderen Worten gesagt, lassen sich in dem kritischen Band keine weiteren Signale hören. Das erfindungsgemäße Verfahren ist hinsichtlich der Verringerung der Wahrnehmung von Rauschen, während Sprache vom ferngelegenen Ende empfangen wird, weit effektiver als eine einfache "Squelch"-Schaltung.
- Das zu beschreibende Verfahren nutzt auch eine Eigenheit der zeitlichen Maskierung aus. Wenn ein lauter Tonausbruch stattfindet, dann ist für einen Zeitraum bis zu 200 ms nach diesem Ausbruch die Empfindlichkeit des Ohres in dem Spektralbreich des Ausbruches herabgesetzt. Ein weiterer akustischer Effekt besteht darin, daß für eine Zeit von bis zu 20 ms vor dem Ausbruch die Empfindlichkeit des Ohres herabgesetzt ist (somit besteht beim menschlichen Gehör eine Leitungsverzögerung von etwa 20 ms). Ein Schlüsselelement dieses Verfahrens besteht somit darin, dass der Signalschwellenwert, unterhalb dem die Verstärkung für ein gegebenes Band abgesenkt wird, um einen Zeitraum sowohl vor als auch nach dem Auftreten eines ausreichend starken Signales in diesem Band abgesenkt werden kann, weil die Empfindlichkeit des Ohres für Rauschen in diesem Zeitraum herabgesetzt ist.
- Es wird nun auf das Blockdiagramm von Fig. 1 Bezug genommen. Das Eingangssignal 1 wird zunächst durch einen Blockbildner 2 in 20 ms-Blöcke von Abtastwerten aufgeteilt (da das Eingangssignal mit einer Rate von 16 kHz bei dem dargestellten Beispiel abgetastet wird, beinhaltet jeder 20 ms- Block 320 Abtastwerte). Die rechnerische Komplexität des Verfahrens wird merklich verringert, indem man an Gruppen von Blöcken aus Abtastwerten zu einem Zeitpunkt arbeitet und nicht zu einem Zeitpunkt an einzelnen Abtastwerten. Das in Blöcke gebrachte Signal wird sodann durch eine Bank aus Bandsperrfiltern 4 geführt, deren Zweck darin besteht, schmalbandige Komponenten des Rauschens zu entfernen, typischerweise Motorgeräusch, das bei den Drehzahlfrequenzen des Motors auftritt. Wenn die Dämpfungsmaxima schmal genug sind, mit einer ausreichend dünnen spektralen Dichte, wird die Tongüte der Sprache nicht ungünstig beeinflußt. Jeder Block digitaler Signale wird dann mit einem Teil vom Ende des unmittelbar vorausgehenden Blockes digitaler Signale kombiniert, um einen fenstertransformierten Block zu erzeugen.
- Bei bevorzugten Ausführungsbeispielen wird jeder Block digitaler Signale (20 ms) mit den letzten 12 ms des vorausgehenden Blockes kombiniert, um fenstertransformierte Blöcke zu erzeugen, die eine Dauer von 32 ms besitzen. In anderen Worten gesagt, beinhaltet jeder Block 320 Abtastwerte von einem Block digitaler Signale in Kombination mit den letzten 192 gefilterten Abtastwerten des unmittelbar vorausgehenden Blockes. Das Sprachsegment von 512 Abtastwerten wird sodann mit einer Fensterfunktion an einem Multiplikator 6 multipliziert, um Probleme zu verringern, die aus Diskontinuitäten des Signales am Beginn und am Ende des Blockes von 512 Abtastwerten entstehen. Eine schnelle Fourier Transformation (FFT) 8 wird dann an dem fenstertransformierten Block der 512 Abtastwerte durchgeführt, um ein Frequenzspektrum von 257 Komponenten zu erzeugen.
- Die niedrigsten (Gleichspannung) und höchsten (Abtastfrequenz geteilt durch 2 oder 8 kHz) Frequenzkomponenten des transformierten Signales weisen lediglich Realteile auf, während die übrigen 255 Komponenten sowohl Real- als auch Imaginärteile aufweisen. Die Spektralkomponenten werden zu einem Hintergrund-Rauschabschätzer 20 zugeführt, dessen Zweck darin besteht, die spektralen Energien des Hintergrundrauschens abzuschätzen und Spektrumsspitzen des Hintergrundrauschens aufzufinden, um auf diese die Dämpfungsmaxima des Bandsperrfilters 4 auszurichten. Ein Spektrumabschätzer für Signalgröße, ein stationärer Abschätzer 24, und ein Spektrumabschätzer für Hintergrundrauschen, ein laufender Minimumabschätzer 22 für jede Frequenzkomponente, werden mittels eines Komparators 28 verglichen, und verschiedene Vertrauensgradpegel werden mittels eines Entscheidungsmechanismus 32 für jede Frequenzkomponente dafür abgeleitet, ob die spezielle Frequenzkomponente in erster Linie aus Rauschen besteht oder aus Signal plus Rauschen. Auf Grundlage dieser Vertrauensgradpegel wird die Verstärkung für ein Frequenzband mittels eines Verstärkungseinstellers 34 festgelegt. Die Verstärkungen werden sodann mittels eines Streumechanismus 36 frequenzbereichsmäßig in kritischen Bändern spektral und zeitlich gestreut, wobei psychoakustische Maskiereffekte ausgenützt werden. Ein Spektraltalfüller 38 wird benutzt, um spektrale Täler in der Verstärkungsfunktion der Frequenzkomponenten zu erkennen und die Täler aufzufüllen. Die endgültige Verstärkungsfunktion der Frequenzkomponente aus dem Rauschunterdrückungs-Spektralmodifikator 30 wird benutzt, um die Größe der Spektralkomponenten der 512-Punkte FFT an einem Abschwächer 12 zu modifizieren. Merke, daß der Block am Abschwächer 12 um eine Zeiteinheit hinter den Signalen liegt, welche in erster Linie zur Generierung der Verstärkungen benutzt werden. Eine inverse FFT (IFFT) 14 setzt sodann das Signal von dem Frequenzbereich zurück in den Zeitbereich um. Der resultierende 512 Punkte-Block des rauschverringerten Signales wird durch eine Fensterfunktion in einem Multiplikator 16 multipliziert. Das Ergebnis wird sodann in einem Addierer 18 überlappt und zu dem Signal des vorausgehenden Blockes addiert, um 20 ms oder 320 Abtastwerte des Ausgangssignales in der Leitung 40 zu gewinnen.
- Eine in nähere Einzelheiten gehende Beschreibung jedes Blockes in der Signalverarbeitungskette, vom Eingang bis zum Ausgang in der Reihenfolge ihres Vorkommens, erfolgt nunmehr.
- Wie oben beschrieben, wird das in Blöcke gebrachte Eingangssignal durch eine Bank von Bandsperrfiltern 4 hindurch geführt.
- Bezüglich Fig. 1 und 2 besteht die Bank der Bandsperrfilter 4 aus einer Kaskade digitaler IIR (Infinite Impulse Response) Filter, wobei jeder Filter ein Verhalten in der Form besitzt:
- worin θ = π/8000 · (Frequenz des Dämpfungsmaximums) und r ein Wert kleiner als 1 sind, der die Breite des Maximums wiedergibt. Wenn die -3 dB Breite des Dämpfungsmaximums ωHz beträgt, dann gilt r = 1 - (ω/2)(π/8000). Die Bandbreite ω, die bei dem dargestellten und bevorzugten Ausführungsbeispiel benutzt wird, beträgt 20 Hz. Ein Dämpfungsmaximum ist ungefähr bei jeden 100 Hz gelegen, an der größten Spitze der Hintergrundrauschenergie in der Nähe der Nennfrequenz.
- Die Bandsperrfilterung wird auf die 320 Abtastwerte des neuen Signalblockes angewandt. Die resultierenden 320 Abtastwerte bandsperrgefilterten Ausgangsignales werden an die letzten 192 Abtastwerte des bandsperrgefilterten Ausgangsignales des vorausgehenden Blockes angefügt, um einen gesamten ausgedehnten Block von 512 Abtastwerten zu erzeugen.
- Bezüglich Fig. 1 und 2 wird der bandsperrgefilterte Block von 512 Abtastwerten, der von der Filterbank 4 gewonnen ist, durch eine Fensterfunktion multipliziert, wobei folgende Formel verwendet wird:
- für i = 0,1, ..., 191
- w(i) = f(i) für i = 192, 193, ....., 319
- für i = 320, 321, ..., 511
- (2)
- worin f(i) der Wert des i ten bandsperrgefilterten Abtastwertes des von der Filterbank 4 stammenden Blockes von 512 Abtastwerten ist und w(i) der resultierende Wert des i ten-Abtastwertes des resultierenden, fenstertransformierten Ausgangssignales der 512 Abtastwerte ist, welcher als nächstes der FFT 8 zugeführt wird. Der Zweck der durch den Multiplikator 6 durchgeführten Fenstertransformation besteht darin, Randeffekte und Diskontinuitäten am Beginn und am Ende des ausgedehnten Blockes zu minimieren.
- Die Zeit-fenstertransformierten 512 Abtastwerte werden nun der FFT 8 zugeführt. Aufgrund der Allgegenwart von FFT's, liefern viele Hersteller digitaler Signalverarbeitungschips (DSP) hoch optimierte Assembler-Sprachcode zum Implementieren der FFT.
- Ein Verzögerer 10 um einen Block ist eingeführt, so dass Signalfrequenzkomponenten der FFT verstärkt und im Abschwächer 12 verarbeitet werden können, basierend auf später auftretende Signalwerte. Dies führt keinerlei wahrnehmbares Rauschen ein, weil, wie oben bemerkt, eine Signalkomponente Frequenzen in ihrer spektralen Nachbarschaft 20 ms bevor sie tatsächlich auftritt, maskiert. Da Sprachgeräusche fortschreitend im Volumen zunehmen, ausgehend von der Nullamplitude, verhindert die Verzögerung um einen Block auch das Abschneiden des Beginns von Sprachäußerungen.
- Diejenigen Komponenten der FFT, die auf Rauschen beruhen, werden durch den Abschwächer 12 gedämpft, während die Komponenten aufgrund des Signales weniger gedämpft oder ungedämpft bleiben oder verstärkt werden können. Wie oben erwähnt existiert für jede Frequenz eine reale und eine imaginäre Komponente. Beide Komponenten werden um einen einzelnen Faktor multipliziert, der vom Rauschunterdrückungs- Spektralmodifikatormodul 30 aufgefunden wird, so daß die Phase für die Frequenzkomponente erhalten bleibt, während die Größe verändert wird.
- Die inverse FFT 14 (IFFT) wird von der in der Größe modifizierten FFT genommen, um einen frequenzbearbeiteten verlängerten Block zu erzeugen, in einer Länge von 512 Abtastwerten. Die Fenstertechnik-Operation, die im Multiplikator 16 angewendet wird, ist genau die gleiche wie die Fenstertechnik-Operation, welche oben für den Multiplikator 6 definiert wurde. Ihr Zweck besteht darin, Diskontinuitäten zu minimieren, die durch die Dämpfung der Frequenzkomponenten eingeführt werden. Beispielsweise angenommen, dass sämtliche Frequenzkomponenten, mit Ausnahme von einer, auf Null gesetzt sind. Das Ergebnis ist eine Sinusschwingung, wenn die IFFT getätigt wird. Diese Sinusschwingung kann mit einem großen Wert beginnen und mit einem großen Wert endigen. Benachbarte Blöcke brauchen diese Sinusschwingungskomponente nicht aufzuweisen. Somit, wenn dieses Signal, ohne geeignete Fenstertechnik, in dem Ausgangsaddierer 18 überlappt wird, kann ein Klicken am Beginn und am Ende des Blockes hörbar sein. Durch geeignete Fenstertechnik an der Sinusschwingung, wobei beispielsweise die in Gleichung (2) definierten Parameter benutzt werden, ist jedoch lediglich eine Sinusschwingung hörbar, die in der Stärke sanft ansteigt und dann in der Stärke sanft abnimmt.
- Aufgrund der Vor- und Nach-Fenstertechnikbehandlung des Blockes durch die Multiplikatoren 6 und 16, ist eine Überlappung und Addition der Blöcke erforderlich, um zu verhindern, daß das Ausgangssignal am Beginn und am Ende des Blockes abnimmt. Somit werden die ersten 192 Abtastwerte des vorliegenden, ausgedehnten und fenstertransformierten Blockes mit 512 Abtastwerten zu den letzten 192 Abtastwerten des vorausgehend ausgedehnten und fenstertransformierten Blockes addiert. Dann werden die nächsten 128 Abtastwerte (8 ms) des laufenden, ausgedehnten Blockes als Ausgangssignal abgegeben. Die letzten 192 Abtastwerte des vorliegenden, ausgedehnten und fenstertransformierten Blockes werden dann gespeichert, um bei der Überlappungs-Addierungsoperation des nächsten Blockes benutzt zu werden usw..
- Bei einem bevorzugten Ausführungsbeispiel hat die benutzte Fensterfunktion W die Eigenschaft, daß:
- W² + (W² verschoben um den Betrag der Überlappung) = 1
- um die Erzeugung einer Modulation über die Zeit zu vermeiden. Wenn beispielsweise der Betrag der Überlappung einen halben Block beträgt, dann hat die Fensterfunktion W die Eigenschaft, daß:
- W² + (W² verschoben ¹/&sub2;) = 1
- Bezüglich Fig. 1 und 3 arbeiten der Hintergrund-Rauschabschätzer 20 und der Rauschunterdrückungs-Spektralmodifikatormodul 30 wie folgt.
- Zweck des Hintergrund-Rauschabschätzers 20 ist es, einen Schätzwert für jede Frequenzkomponente der FFT zu entwickeln, der durchschnittlichen Stärke der Energie aufgrund des Hintergrundrauschens. Der Hintergrund- Rauschabschätzer beseitigt das Erfordernis, daß der Benutzer manuell das System für jede neue Umgebung justieren oder trainieren muß. Der Hintergrund-Rauschabschätzer überwacht die Signal/Rauschen-Umgebung kontinuierlich, um Schätzwerte des Hintergrundrauschens selbsttätig in Abhängigkeit beispielsweise vom Ausschalten oder Einschalten von Klimaanlagengebläsen usw. zu aktualisieren. Zwei Ansätze werden benutzt, wobei die Ergebnisse des einen oder anderen Ansatzes für die besondere Situation angewendet werden. Der erste Ansatz ist genauer, erfordert jedoch Intervale von einer Sekunde mit ausschließlich Hintergrundrauschen. Der zweite Ansatz ist weniger genau, entwickelt jedoch Schätzwerte von Hintergrundrauschen in 10 Sek. unter beliebigen Bedingungen.
- Unter Bezugnahme auf Fig. 1 und 3 benutzt der erste Ansatz einen stationären Abschätzer 24, um nach langen Sequenzen von Blöcken zu schauen, wo die spektrale Form in jedem Block derjenigen anderer Blöcke sehr ähnlich ist. Sehr wahrscheinlich kann diese Bedingung lediglich auftreten, wenn der Mensch in dem Raum stumm ist und das konstante Hintergrundrauschen aufgrund von Ventilatoren und/oder Schaltungsrauschen die hauptsächliche Signalquelle ist. Wenn eine solche Sequenz erkannt wird, wird die durchschnittliche Größe jeder Frequenz von solchen Blöcken im Zentralteil der FFT Sequenz genommen (Blöcke am Beginn und Ende der Sequenz können Sprachkomponenten schwachen Pegels enthalten). Diese Methode liefert ein viel genaueres Maß des Hintergrundrauschspektrums, verglichen mit dem zweiten Ansatz (unten beschrieben), erfordert jedoch, daß das Hintergrundrauschen verhältnismäßig konstant ist und dass die Menschen im Raum über einen bestimmten Zeitraum hin nicht sprechen, Bedingungen, die in der Praxis manchmal nicht zu finden sind.
- Die Betriebsweise dieses Abschätzer in näheren Einzelheiten ist folgende:
- 1. Es wird auf Fig. 3 Bezug genommen. Die Methode ermittelt bei dem ersten Ansatz, ob der laufende 20 ms-Block in der Spektralform den vorausgehenden Blöcken ähnlich ist. Zunächst berechnet die Methode bei 240 die Spektralform der vorausgehenden Blöcke:
- Ni(fC) = 0.25 ( (R²(k,f) + I²(k,f)))
- (3)
- worin fc die Blocknummer für den laufenden 20 ms-Block ist, (sie nimmt für darauffolgende Blöcke um eins zu), i bezeichnet ein 1000 Hz Frequenzband, ki = i·32, k indexiert die 256 Frequenzkomponenten der 512 Punkte FFT und R (k, f) und I (k, f) sind die Real- und Imaginärkomponente der k ten Frequenzkomponente des Blockes f.
- 2. Als nächstes wird die Spektralform Si (fc) des laufenden Blockes bei 242 ermittelt:
- Si(fC) = (R²(k,fC) + I²(k,fC))
- (4)
- worin die Notation die gleiche Bedeutung hat wie in obiger Gleichung (3) und die Si die Größe der i ten Frequenzkomponente des laufenden Blockes fc ist.
- 3. Der Abschätzer 24 prüft dann bei 244 und 245, um festzustellen, ob
- Ni(fc) > t&sub1;Si(fc) (5)
- oder
- Si(fc) > t&sub1;Ni(fc), für i = 0,1 ..., 7 (6)
- worin t, eine niedrigere Schwelle ist. Bei dem bevorzugten Ausführungsbeispiel t, = 3. Wenn die Ungleichung in (5) oder (6) für mehr als vier Werte von i befriedigt ist, dann wird der laufende Block fc als Signal klassifiziert; anderenfalls prüft der Abschätzer (bei 248 und 250), um zu ermitteln ob
- Ni(fc) > thSi(fc) (7)
- oder
- Si(fc) > thNi(fc), für i = 0,1, ..., 7 (8)
- worin th eine höhere Schwelle ist und Ni die Größe der i ten Frequenzkomponente des Hintergrundrauschen-Schätzwertes bezeichnet. In einem bevorzugten Ausführungsbeispiel th = 4,5. Wenn eine der Ungleichungen für einen oder mehrere Werte von i befriedigt ist, dann wird der laufende Block fc ebenfalls als ein Signalblock klassifiziert. Anderenfalls wird der laufende Block als Rauschen klassifiziert.
- 4. Wenn bei 252 fünfzig aufeinanderfolgende, als Rauschen klassifizierte Blöcke in einer Reihe auftreten (entsprechend einer Sekunde Rauschen), dann entwickelt der Abschätzer 24 Schätzwerte für Hintergrundrauschen, indem Frequenzenergien vom 10-ten bis zum 41-ten Block summiert werden. Durch Ignorieren der anfänglichen und endseitigen Blöcke der Sequenz ist der Vertrauensgrad, daß in den übrigen Blöcken kein Signal enthalten ist, erhöht. Bei 254 findet der Abschätzer
- Bk = 1/32 (R²(k,f) + I²(k,t)) (9)
- worin k = 0, 1, 2, ..., 255, fs ist der Startindex des 10-ten als Rauschen klassifizierten Blockes und die übrigen Ausdrücke haben die gleiche Notation wie in Gleichung (3). Die Werte Bk stellen nun die durchschnittliche spektrale Größe der Rauschkomponente des Signales für die k te Frequenz dar.
- Um zu ermitteln, wo die Maxima der Sperrfilterbank zu plazieren sind, werden, auf Fig. 1 und 4 Bezug nehmend, die nicht fenstertransformierten 20 ms Abtastwerte im Zeitbereich, die den 32 als nur Rauschen klassifizierten Blöcke entsprechen, einander angefügt (bei 260) um eine ununterbrochene Sequenz zu bilden. Eine lange FFT wird von der Sequenz durchgeführt (bei 262). Die Komponente mit der größten Stärke, etwa alle 100 Hz, wird ermittelt (bei 264), und die Frequenz bei der diese Maximalgröße lokal auftritt, entspricht der Stelle, an der eine Dämpfungsmaximum- Mittenfrequenz plaziert wird (bei 266). Dämpfungsmaxima sind nützlich, um Gebläsegeräusch lediglich bis zu 1500 Hz etwa zu verringern, weil für höhere Frequenzen das Spektrum des Gebläsegeräusches dazu neigt, ziemlich flach zu sein, wobei starke Spitzen fehlen.
- Es gibt einige Momente, wo entweder das Sprachsignal niemals länger als eine Sekunde lang fehlt oder das Hintergrundrauschen selbst niemals in seiner Spektralform konstant ist, so daß der stationäre Abschätzer 24 (oben beschrieben) niemals Schätzwerte für Hintergrundrauschen erzeugt. Für diese Fälle erzeugt der laufende Minimumabschätzer 22 Schätzwerte für Hintergrundrauschen, wenn auch mit weit geringerer Genauigkeit.
- Die vom laufenden Minimumabschätzer angewendeten Schritte sind:
- 1. Über ein 10 Sekunden Intervall, und für jede Frequenzkomponente k, finde die acht aufeinanderfolgenden Blöcke, die die Energie der acht aufeinanderfolgenden Blöcke für diese Frequenzkomponente minimieren; d. h. für jede Frequenzkomponente k finde den Block fk der Mk(fk) minimiert, worin
- Mk(fk) = 1/8 (R²(k,f) + I²(k,f)) (10)
- wo fk jede Blocknummer ist, die innerhalb des 10 Sekunden Intervalles auftritt. Merke, daß allgemein der fk welcher die Gleichung (10) minimiert, unterschiedliche Werte für verschiedene Frequenzkomponenten k annimmt.
- 2. Benutze die kleinsten Werte von Mk, die in dem vorausgehenden Schritt abgeleitet wurden, als Spektralschätzwert für Hintergrundrauschen, wenn die zwei folgenden Bedingungen erfüllt sind:
- (a) Es vergingen mehr als 10 Sekunden seit der letzten Aktualisierung des spektralen Schätzwerts für Hintergrundrauschen durch den stationären Abschätzer.
- (b) Die Differenz D zwischen dem vergangenen Schätzwert für Hintergrundrauschen, der sich vom stationären Abschätzer oder vom laufenden Minimumabschätzer ergeben hat, und dem aktuellen laufenden Minimumabschätzer ist groß. Die für die Definition der Differenz D benutzte Technik ist in Gleichung (11) angegeben:
- D = (max(Mk/Nk,Nk/Mk) - 1)² (11)
- worin die max-Funktion das Maximum ihrer zwei Argumente zurückführt und Nk die vorherigen Schätzwerte für Hintergundrauschen sind (entweder vom laufenden Minimumabschätzer oder stationären Abschätzer) und Mk die laufenden Schätzwerte für Hintergrundrauschen vom laufenden Minimumabschätzer sind.
- Wenn D größer als ein gewisser Schwellenwert ist, beispielsweise 3000 bei einem bevorzugten Ausführungsbeispiel, und die obige Bedingung (a) befriedigt ist, dann wird Mk als neuer spektraler Hintergrundschätzwert benutzt. Die Verwendung von Mk als Rauschschätzwert zeigt an, daß die Sperrfilter ausgeschaltet werden sollten, weil ein guter Schätzwert der Zentren der Sperrfrequenzen nicht möglich ist.
- Es wird auf Fig. 1 Bezug genommen. Wenn der Schätzwert für Hintergrundrauschen aufgefunden wurde, müssen die Spektren des laufenden Blockes mit den Spektren der Schätzwerte für Hintergrundrauschen verglichen werden und auf der Basis dieses Vergleiches muß die Dämpfung für jede Frequenzkomponente der FFT des laufenden Blockes abgeleitet werden als Versuch, die Wahrnehmung von Rauschen in dem Ausgangssignal zu verringern.
- Jeder gegebene Block enthält entweder Sprache oder nicht. Der globale Detektor 32 für Sprache gegenüber Rauschen trifft eine binäre Entscheidung ob der Block Rauschen ist oder nicht.
- Bei Vorhandensein von Sprache können Schwellenwerte abgesenkt werden, weil Maskiereffekte dazu neigen, unrichtige Deklarierungen von Signal gegenüber Rauschen weniger bemerkbar zu machen. Wenn jedoch der Block wahrhaftig lediglich Rauschen ist, führen leichte Fehler in der Entscheidung, ob Frequenzkomponenten auf Rauschen oder auf Signal beruhen, zu den sogenannten "flackernden" Tönen.
- Gemäß dem dargestellten Ausführungsbeispiel vergleicht das System, um zu ermitteln, ob in einem Block Sprache vorhanden ist, die Größe der k ten Frequenzkomponente des laufenden Blockes, mit Sk bezeichnet, mit der Größe der k ten Frequenzkomponente des Schätzwertes für Hintergrundrauschen, mit Ck bezeichnet. Sodann, wenn Sk > T · Ck für mehr als sieben Werte von k ist (für einen Block), wobei T eine Schwellenwertkonstante ist (T = 3 bei einem bevorzugten Ausführungsbeispiel), dann wird der Block als ein Sprachblock deklariert. Anderenfalls wird er als Rauschblock deklariert.
- Der globale Detektor 32 für Sprache gegenüber Rauschen, der im vorherigen Abschnitt beschrieben wurde, trifft eine binäre Entscheidung ob jede Frequenzkomponente Rauschen ist oder nicht. Der lokale Detektor 34 für Sprache gegenüber Räuschen erzeugt andererseits einen Bereich von Entscheidungen ob jede Frequenzkomponente Rauschen ist oder nicht. Diese Entscheidungen reichen von einer in hohem Maße vertrauenswürdigen Entscheidung, daß die k te Frequenzkomponente Rauschen ist, bis zu einer in hohem Maße vertrauenswürdigen Entscheidung, daß die k te Frequenzkomponente Signal ist.
- Die Entscheidungen beruhen auf dem Verhältnis der Größe der k ten Frequenzkomponente des laufenden Blockes zu der Größe der entsprechenden Komponente des Spektralschätzwertes für Hintergrundrauschen. Die Entscheidung ist Dk. Bei diesem Ausführungsbeispiel reichen die Entscheidungen Dk von 0 bis 4, wobei eine Entscheidung von Dk = 0 einem "hoch vertrauenswürdig ist die Komponente Rauschen" und eine Entscheidung von Dk = 4 einem "in hohem Maße vertrauenswürdig daß die Komponente Signal ist" entspricht. Dann
- wenn Sk/Nk > t&sub4;, Dk = 4,
- sonst wenn Sk/Nk > t&sub3;, Dk = 3,
- sonst wenn Sk/Nk > t&sub2;, Dk = 2,
- sonst wenn Sk/Nk > t&sub1;, Dk = 1,
- sonst Dk = 0
- (12)
- worin Sk = R²(k) + I²(k) für den laufenden Block und Nk der Schätzwert für Hintergrundrauschen für die Komponente k sind. Die für t&sub1;, t&sub2;, t&sub3;, t&sub4; benutzten Werte hängen davon ab, ob der globale Sprachdetektor 32 den vorausgehenden Block als Sprache oder Rauschen deklariert hat. Für den Fall des Rauschens gilt bei dem dargestellten Ausführungsbeispiel t&sub1; = 6,3, t&sub2; = 9,46, t&sub3; = 18,9, t&sub4; = 25,2, und für den Fall von Signal werden die Schwellenwerte um den Faktor zwei abgesenkt auf t&sub1; = 3,15, t&sub2; = 4,73, t&sub3; = 9,45 und t&sub4; = 12,6.
- Die Dk's werden in dem folgenden Schritt dazu benutzt, die Verstärkungsverfielfachungsfaktoren für den gesteuerten Abschwächer einzustellen.
- Ein Array, als Ak bezeichnet, speichert die Verfielfachungsfaktoren für jede FFT Frequenzkomponente k. Die Elemente von Ak werden von dem gesteuerten Abschwächer 12 dazu benutzt, die spektralen Komponenten der FFT 8 über die Ein-Block-Verzögerung 10 zu modifizieren. Die Werte des Ak werden auf Grundlage der Entscheidungen Dk modifiziert, welche in dem Detektor 34 für lokale Sprache gegenüber Rauschen getroffen werden.
- Ak ist im Wert auf den Bereich L < Ak < 1 beschränkt, worin L die untere Grenze der Stärke der Rauschverringerung ist (wie unten erläutert wird). Je kleiner L im Wert ist, desto stärker kann die Rauschverringerung sein. Jedoch ist im allgemeinen eine stärkere Rauschverringerung von mehr Artefakten begleitet. Je höher das Signal/Rausch-Verhältnis (SNR) des Signales ist, desto niedriger kann L gesetzt werden, ohne schädliche Artefakte in der Sprache zu erzeugen. Ein guter Wert von L für ein moderates SNR von 14 dB ist 0,25. Der Wert von L sollte mit niedrigeren SNR's zunehmen, um schädliche Artefakte zu verringern, die die Verständlichkeit der Sprache beeinträchtigen. Ein SNR von 6 dB würde beispielsweise erfordern, daß L 0,5 ist. Das SNR der Sprache wird während des Betriebes des Systems gemessen, und der Meßwert wird sodann benutzt, um den Wert von L zu ermitteln.
- Ak ändert sich bei jedem neuen Block als Funktion des Ak in dem vorausgehenden Block und des Wertes von Dk des laufenden Blockes, wie es aus obiger Gleichung (12) abgeleitet wird. Wenn Ak des i ten Blockes als Aki bezeichnet wird, dann gilt Aki = G(Aki-1, Dk), wobei die Funktion G in der untenstehenden Gleichung (13) definiert ist.
- G(Aki, Dk) = wenn Dk = 0 dann
- Aki = Aki-1 · βO
- wenn Dk ≥ 1 dann (13)
- Aki = Aki-1 · β
- worin β > 1 und mit Dk zunimmt und βO < 1.
- Mit anderen Worten gesagt, wenn die Entscheidung lautet Dk ≥ 1, dann wird Ak vom vorausgehenden Block durch einen Multiplikationsfaktor multipliziert, der größer ist als 1 und mit zunehmendem Wert von Dk größer wird. Wenn die Entscheidung lautet Dk = O, dann wird Ak vom vorausgehenden Block durch einen Verfielfachungsfaktor kleiner als 1 multipliziert, typischerweise dem Wert 0,8.
- Dies ist das zeitliche Streuen. Bei einem bevorzugten Ausführungsbeispiel dauert das zeitliche Streuen von 20 ms vor bis 200 ms nach dem laufenden Block.
- Eine Entscheidung von Dk = 4 stellt einen hohen Vertrauensgrad dafür dar, daß die spektrale Komponente k ein Sprachsignal enthält, und Ak wird auf seinen Maximalwert 1 gesetzt.
- Als nächstes wird spektrales Streuen von Ak für Frequenzen von mehr als 500 Hz ausgeführt. Das Streuen findet über die kritische Bandbreite statt, welche bei diesem dargestellten Ausführungsbeispiel 1/6 der Mittenfrequenz ist. Der Anlaß hierfür ergibt sich aus psychoakustischen Versuchen, welche gezeigt haben, daß, wenn eine starke Signalkomponente bei einer gegebenen Frequenz vorhanden ist, sie Maskierungseffekte für das Rauschen in einer Bandbreite 1/6 der Frequenz hat. Das spektrale Streuen wird auf folgende Weise durchgeführt:
- Für Entscheidungswerte von Dk ≥ 1 läßt man solche Ak in der kritischen Bandbreite, die wie oben beschrieben berechnet sind, nicht kleiner werden als F(Dk) (F wird unten definiert). Im Kern wird die untere Grenze L für Ak in der kritischen Bandbreite angehoben, so daß weniger Rausch-(und Sprach-)Verringerung in Spektralbereichen stattfindet. Während L typischerweise 0,25 sein kann, ist F(Dk) definiert als:
- F(4) = 0,5
- F(3) = 0,4
- F(2) = 0,333
- Für Frequenzen von weniger als 500 Hz findet kein spektrales Streuen statt. In Versuchen wurde gezeigt, daß das Spektrum von Hintergrundrauschen viele Spitzen und Täler bei niedrigen Frequenzen besitzt, aufgrund von Rotationsakustika, und grobe oder rohe Artefakte ergeben sich aus jedwedem Versuch spektraler Streuung in diesen Frequenzen.
- Einer der Artefakte des Rauschverringerungschemas besteht darin, daß die Wahrnehmung von Nachhall vergrößert wird, resultierend aus der Tatsache, daß die Tiefe spektraler Nullstellen in dem Signal aufgrund von Nachhall in dem Verlauf des Ableitens des Verstärkungsvervielfachungsfaktoren-Array Ak vergrößert wird. Um bei der Bekämpfung dieses Artefaktes zu helfen; werden lokale Minima im Ak, welche mit Nachhall verbundenen spektralen Nullen entsprechen können, im Wert vergrößert. Für den Frequenzbereich von 500 Hz an aufwärts gilt, wenn Ak < Ak-4 und Ak < Ak+4 dann
- (14)
- für k = 16, 17, 18, ...., 251.
- Wenn die Werte des Verfielfachungsfaktoren-Array für einen bestimmten Block ermittelt sind, können die Frequenzkomponenten eingestellt werden, um die Entscheidungen Rauschen-gegenüber Sprache widerzuspiegeln. Bei dem gesteuerten Abschwächer 12 wird der Verfielfachungsfaktoren- Array, Ak, auf folgende Weise benutzt. Jede Frequenzkomponente, real und imaginär, des verzögerten, transformierten Signales wird wie folgt skaliert:
- für k = 0, 1, 2, ..., 256
- Rn(k) = AkR(k)
- In(k) = AkI(k)
- (15)
- Die modifzierten Fourier Komponenten Rn(k) und In(k) werden dann der inversen FFT zugeführt, fenstertransformiert und überlappt, um letztendlich als Ausgangssignal den rauschverringerten Signalblock zu erzeugen, wie es in dem Blockdiagramm von Fig. 1 gezeigt und beschrieben ist.
- Es ergibt sich ein ästhetisch mehr zusagendes und wahrnehmbar rauschverringertes Signal.
Claims (19)
1. Gerät für die wahrnehmbare Unterdrückung von Hintergrundrauschen
in einem Audio-Eingangssignal, das Rauschkomponenten besitzt, mit
einem Blockbildner (2) zum Unterteilen des Audio- Eingangssignales in
eine Mehrzahl von Audio-Signalblöcken, einem Transformierer (8), um
Frequenzspektrum-Komponenten von den Audio-Signalblöcken zu
erhalten, und einem Rauschabschätzer (20), der die Frequenzspektrum-
Komponenten benutzt, um einen Rauschschätzwert einer Rauschmenge
in den Frequenzspektrum-Komponenten zu erzeugen, gekennzeichnet
durch ein Fenstertechnikglied (6) zum Erzeugen eines laufenden,
fenstertransformierten Audio-Signalblockes, indem sämtliche Abtastwerte
eines Audio-Signalblockes mit ausgewählten Abtastwerten des Audio-
Signalblockes kombiniert werden, der zeitlich unmittelbar dem
genannten einen Block vorausgeht, wobei der Transformierer (8) dazu
vorgesehen ist, Frequenzspektrum-Komponenten von dem laufenden,
fenstertransformierten Audio-Signalblock zu erhalten;
wobei das Gerät ferner gekennzeichnet ist durch einen
Rauschunterdrückungs-Spektralmodifikator (30) zum Erzeugen von
Verstärkungsvervielfachungsfaktoren auf Grundlage des Rauschschätzwertes und der
Frequenzspektrum-Komponenten, die aus dem laufenden,
fenstertransformierten Audio-Signalblock erhalten sind;
einen Verzögerer (10) zur Verzögerung der genannten
Frequenzspektrum-Komponenten, um verzögerte Frequenzspektrum-
Komponenten zu erzeugen;
ein gesteuertes Dämpfungsglied, um die verzögerten
Frequenzspektrum-Komponenten auf Grundlage der
Verstärkungsvervielfachungsfaktoren abzuschwächen, um rauschverringerte Frequenzkomponenten zu
erzeugen, und
einen inversen Transformierer (14), um die rauschverringerten
Frequenzkomponenten in den Zeitbereich umzuwandeln.
2. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß der
Rauschunterdrückungs-Spektralmodifikator (30) ferner ein Mittel (36) aufweist, um
zuvor erzeugte Verstärkungsvervielfachungsfaktoren zu verwenden, um
laufende Verstärkungsvervielfachungsfaktoren zu ermitteln.
3. Gerät nach Anspruch 1, dadurch gekennzeichnet, daß der
Rauschunterdrückungs-Spektralmodifikator (30) aufweist:
einen globalen Entscheidungsmechanismus (32), um für jede
Frequenzkomponente der Frequenzspektrum-Komponenten eine
Ermittlung durchzuführen, ob diese Frequenzkomponente Rauschen ist;
einen Entscheidungsmechanismus (34) für lokales Rauschen, um für
jede Frequenzkomponente der Frequenzspektrum-Komponenten einen
Vertrauensgrad dafür abzuleiten, daß die Frequenzkomponente eine
Rauschkomponente ist;
einen Detektor, um auf Grundlage der Vertrauensgrade die
Verstärkungsvervielfachungsfaktoren für jede Frequenzkomponente zu
ermitteln und
einen Streumechanismus (36), um die
Verstärkungsvervielfachungsfaktoren spektral und zeitlich einzustellen.
4. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der Abschätzer
(20) für Hintergrundrauschen einen zugehörigen Rauschschätzwert für
jede Frequenzspektrum-Komponente erzeugt und daß der
Entscheidungsmechanismus (34) für lokales Rauschen Vertrauensgrade ableitet
aufgrund von:
(a) den Verhältnissen zwischen jeder der Frequenzkomponenten und
ihrem zugehörigen Rauschschätzwert und
(b) den durch den globalen Entscheidungsmechanismus (32)
getroffenen Ermittlungen.
5. Gerät nach Anspruch 3 oder 4, dadurch gekennzeichnet, daß der
Streumechanismus (36) die Verstärkungsvervielfachungsfaktoren auf
Grundlage der Vertrauensgrade einstellt.
6. Gerät nach einem der Ansprüche 3 bis 5, dadurch gekennzeichnet, daß
der Unterdrückungs-Spektralmodifikator (30) ferner aufweist:
einen Spektraltalfüller (38) zum Ermitteln und Ausfüllen von
spektralen Tälern in den genannten Frequenzkomponenten.
7. Gerät nach einem der Ansprüche 3 bis 6, dadurch gekennzeichnet, daß
der globale Entscheidungsmechanismus (32) außerdem ein Mittel
aufweist, um jede Frequenzspektrum-Komponente mit einem
entsprechenden Rauschschätzwert für die genannte Frequenzkomponente zu
vergleichen, sowie ein Mittel, um einen Block als einen Sprachblock zu
erklären, wenn eine ausgewählte Anzahl der genannten
Spektrumkomponenten den genannten entsprechenden Rauschschätzwert um einen
ausgewählten Schwellenwert übersteigt.
8. Gerät nach Anspruch 4, dadurch gekennzeichnet, daß der Hintergrund-
Rauschabschätzer außerdem ein Mittel aufweist, um die genannten
Verhältnisse mit ausgewählten Schwellen zu vergleichen, wobei besagte
Schwellen davon abhängig sind, ob ein vorausgehender Block durch
den globalen Entscheidungsmechanismus als Rauschen erklärt worden
ist.
9. Gerät nach Anspruch 3 dadurch gekennzeichnet, daß die
Verstärkungsvervielfachungsfaktoren einen ausgewählten unteren Pegelwert besitzen
und daß der genannte Streumechanismus ferner aufweist:
ein Mittel zur Vergrößerung des unteren Pegelwerts für eine
Frequenzkomponente eines Blockes auf Grundlage einer Signal-zu-Rausch-
Messung für die genannte Frequenz und den Vertrauensgrad für die
genannte Frequenzkomponente des genannten Blockes.
10. Gerät nach irgendeinem vorausgehenden Anspruch, dadurch
gekennzeichnet, daß der Rauschunterdrückungs-Spektralmodifikator (30) ein
Mittel aufweist, um das Verhalten eines schnell ansprechenden, langsam
abklingenden Filters in dem genannten zeitlichen Bereich zu bewirken.
11. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der
Streumechanismus wie ein schnell ansprechender, langsam abklingender Filter
wirkt, um den genannten Vervielfachungsfaktor für eine Komponente
schnell zu vergrößern und den genannten Vervielfachungsfaktor
langsam auf eine veränderliche untere Grenze für die genannte
Frequenzkomponente absinken zu lassen.
12. Gerät nach Anspruch 3, dadurch gekennzeichnet, daß der
Streumechanismus aufweist:
ein Mittel zur Einstellung der Vervielfachungsfaktoren, aufgrund
spektraler Streuung, lediglich für Frequenzen von mehr als etwa 500
Hz.
13. Gerät nach irgendeinem vorausgehenden Anspruch, gekennzeichnet
durch ein Mittel zum Entfernen schmalbandiger Komponenten von
Rauschen, mit einer Bank von Bandsperrfiltern, um Rauschkomponenten
aus den Audio-Signalblöcken zu entfernen um gefilterte Audio-
Signalblöcke zu bilden.
14. Gerät nach irgendeinem vorausgehenden Anspruch, außerdem
gekennzeichnet durch:
eine Nach-Fensterfunktion (16), die geglättete
Zeitbereichkomponenten erzeugt, um Diskontinuitäten in den rauschverringerten
Zeitbereichkomponenten zu minimieren, und
einen Überlapper-Addierer (18) für die Abgabe eines ersten Teiles
der geglätteten Zeitbereichkomponenten in Kombination mit einem
zuvor gespeicherten Teil geglätteter Zeitbereichkomponenten und zum
Speichern eines übrigen Teiles der geglätteten
Zeitbereichkomponenten, wobei der verbleibende Teil die geglätteten
Zeitbereichkomponenten aufweist, die in dem ersten Teil nicht enthalten sind.
15. Verfahren zur Verringerung der Wahrnehmung von
Hintergrundrauschen für ein Audio-Eingangssignal, mit den Schritten des Aufteilens des
Audio-Eingangssignales in eine Mehrzahl von Audio-Signalblöcken, des
Gewinnens von Frequenzspektrum-Komponenten der Blöcke und des
Benutzens der Frequenzspektrum-Komponenten, um einen
Rauschschätzwert einer Menge des Rauschens in den Frequenzspektrum-
Komponenten zu erzeugen, wobei das Verfahren gekennzeichnet ist
durch:
Erzeugen eines fenstertransformierten Audio-Signalblockes;
Kombinieren sämtlicher Abtastwerte eines Audio-Signalblockes mit
ausgewählten Abtastwerten des Audio-Signalblockes, der zeitlich dem
genannten einen Block unmittelbar vorausgeht, wobei die
Frequenzspektrum-Komponenten aus dem fenstertransformierten Audio-
Signalblock von Signalen gewonnen werden und die genannten
Komponenten
dazu benutzt werden, um den genannten Rauschschätzwert
zu erzeugen;
Erzeugen von Verstärkungsvervielfachungsfaktoren auf Grundlage
des Rauschschätzwertes und der genannten Frequenzspektrum
Komponenten;
Verzögern der genannten Frequenzspektrum-Komponenten, um
verzögerte Frequenzspektrum-Komponenten zu erzeugen;
Abschwächen der verzögerten Frequenzspektrum-Komponenten auf
Grundlage der genannten Verstärkungsvervielfachungsfaktoren, um
rauschverringerte Frequenzkomponenten zu erzeugen,
Umwandeln der rauschverringerten Frequenzkomponenten in den
Zeitbereich.
16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß der Schritt
des Erzeugens der genannten Verstärkungsvervielfachungsfaktoren den
Schritt des Benutzens zuvor erzeugter
Verstärkungsvervielfachungsfaktoren beinhaltet, um laufende Vervielfachungsfaktoren zu ermitteln.
17. Verfahren nach Anspruch 16, dadurch gekennzeichnet, daß der Schritt
des Erzeugens von Verstärkungsvervielfachungsfaktoren die Schritte
beinhaltet:
Durchführen einer Ermittlung für jede Frequenzkomponente der
Frequenzspektrum-Komponenten, ob diese Frequenzkomponente
Rauschen ist;
Ableiten für jede Frequenzkomponente der Frequenzspektrum-
Komponenten einen Vertrauensgrad dafür, daß die
Frequenzkomponente eine Rauschkomponente ist;
Ermitteln auf Grundlage der Vertrauensgrade die
Verstärkungsvervielfachungsfaktoren für jede Frequenzkomponente und
spektrales und zeitliches Einstellen der
Verstärkungsvervielfachungsfaktoren.
18. Verfahren nach Anspruch 17, dadurch gekennzeichnet, daß der Schritt
des Erzeugens der Verstärkungsvervielfachungsfaktoren außerdem den
Schritt des Erkennens und Auffüllens spektraler Täler in den genannten
Frequenzkomponenten beinhaltet.
19. Verfahren nach irgendeinem der Ansprüche 15 bis 18, ferner
gekennzeichnet durch die Nach-Fenstertransformierung, um geglättete
Zeitbereichskomponenten zu erzeugen;
Abgeben eines ersten Teiles der geglätteten
Zeitbereichskomponenten in Kombination mit einem zuvor gespeicherten Teil geglätteter
Zeitbereichskomponenten und
Speichern eines übrigen Teiles der geglätteten
Zeitbereichskomponenten, wobei der übrige Teil die geglätteten Zeitbereichskomponenten
beinhaltet, die in dem ersten Teil nicht enthalten sind.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US8670793A | 1993-07-07 | 1993-07-07 | |
PCT/US1994/006367 WO1995002288A1 (en) | 1993-07-07 | 1994-06-06 | Reduction of background noise for speech enhancement |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69428119D1 DE69428119D1 (de) | 2001-10-04 |
DE69428119T2 true DE69428119T2 (de) | 2002-03-21 |
Family
ID=22200351
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69428119T Expired - Lifetime DE69428119T2 (de) | 1993-07-07 | 1994-06-06 | Verringerung des hintergrundrauschens zur sprachverbesserung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5550924A (de) |
EP (1) | EP0707763B1 (de) |
JP (1) | JP3626492B2 (de) |
DE (1) | DE69428119T2 (de) |
WO (1) | WO1995002288A1 (de) |
Families Citing this family (169)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08223049A (ja) * | 1995-02-14 | 1996-08-30 | Sony Corp | 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法 |
JP3453898B2 (ja) * | 1995-02-17 | 2003-10-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
JP3484801B2 (ja) * | 1995-02-17 | 2004-01-06 | ソニー株式会社 | 音声信号の雑音低減方法及び装置 |
US6001131A (en) * | 1995-02-24 | 1999-12-14 | Nynex Science & Technology, Inc. | Automatic target noise cancellation for speech enhancement |
JP3307138B2 (ja) * | 1995-02-27 | 2002-07-24 | ソニー株式会社 | 信号符号化方法及び装置、並びに信号復号化方法及び装置 |
JP3591068B2 (ja) * | 1995-06-30 | 2004-11-17 | ソニー株式会社 | 音声信号の雑音低減方法 |
US5960390A (en) * | 1995-10-05 | 1999-09-28 | Sony Corporation | Coding method for using multi channel audio signals |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
JPH09212196A (ja) * | 1996-01-31 | 1997-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 雑音抑圧装置 |
US5825320A (en) * | 1996-03-19 | 1998-10-20 | Sony Corporation | Gain control method for audio encoding device |
US5778082A (en) * | 1996-06-14 | 1998-07-07 | Picturetel Corporation | Method and apparatus for localization of an acoustic source |
DE19629132A1 (de) * | 1996-07-19 | 1998-01-22 | Daimler Benz Ag | Verfahren zur Verringerung von Störungen eines Sprachsignals |
US6097820A (en) * | 1996-12-23 | 2000-08-01 | Lucent Technologies Inc. | System and method for suppressing noise in digitally represented voice signals |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
US7379961B2 (en) * | 1997-04-30 | 2008-05-27 | Computer Associates Think, Inc. | Spatialized audio in a three-dimensional computer-based scene |
US6035048A (en) * | 1997-06-18 | 2000-03-07 | Lucent Technologies Inc. | Method and apparatus for reducing noise in speech and audio signals |
FR2765715B1 (fr) * | 1997-07-04 | 1999-09-17 | Sextant Avionique | Procede de recherche d'un modele de bruit dans des signaux sonores bruites |
US6466912B1 (en) * | 1997-09-25 | 2002-10-15 | At&T Corp. | Perceptual coding of audio signals employing envelope uncertainty |
US6047234A (en) * | 1997-10-16 | 2000-04-04 | Navigation Technologies Corporation | System and method for updating, enhancing or refining a geographic database using feedback |
US6505057B1 (en) | 1998-01-23 | 2003-01-07 | Digisonix Llc | Integrated vehicle voice enhancement system and hands-free cellular telephone system |
US6157908A (en) * | 1998-01-27 | 2000-12-05 | Hm Electronics, Inc. | Order point communication system and method |
US6415253B1 (en) * | 1998-02-20 | 2002-07-02 | Meta-C Corporation | Method and apparatus for enhancing noise-corrupted speech |
US7306700B1 (en) | 1998-04-27 | 2007-12-11 | Akzo Nobel Nv | Process for the production of paper |
KR100403840B1 (ko) | 1998-04-27 | 2003-11-01 | 악조 노벨 엔.브이. | 제지 방법 |
EP0953680A1 (de) * | 1998-04-27 | 1999-11-03 | Akzo Nobel N.V. | Verfahren zur Herstellung von Papier |
US6088668A (en) | 1998-06-22 | 2000-07-11 | D.S.P.C. Technologies Ltd. | Noise suppressor having weighted gain smoothing |
US7072831B1 (en) * | 1998-06-30 | 2006-07-04 | Lucent Technologies Inc. | Estimating the noise components of a signal |
US7209567B1 (en) * | 1998-07-09 | 2007-04-24 | Purdue Research Foundation | Communication system with adaptive noise suppression |
US6453289B1 (en) * | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US6122610A (en) * | 1998-09-23 | 2000-09-19 | Verance Corporation | Noise suppression for low bitrate speech coder |
GB2342829B (en) * | 1998-10-13 | 2003-03-26 | Nokia Mobile Phones Ltd | Postfilter |
US6993480B1 (en) * | 1998-11-03 | 2006-01-31 | Srs Labs, Inc. | Voice intelligibility enhancement system |
US6718301B1 (en) | 1998-11-11 | 2004-04-06 | Starkey Laboratories, Inc. | System for measuring speech content in sound |
US6205422B1 (en) * | 1998-11-30 | 2001-03-20 | Microsoft Corporation | Morphological pure speech detection using valley percentage |
US6249757B1 (en) | 1999-02-16 | 2001-06-19 | 3Com Corporation | System for detecting voice activity |
EP1210765B1 (de) | 1999-07-28 | 2007-03-07 | Clear Audio Ltd. | Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank |
DE19948308C2 (de) * | 1999-10-06 | 2002-05-08 | Cortologic Ag | Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung |
AU764610B2 (en) * | 1999-10-07 | 2003-08-28 | Widex A/S | Method and signal processor for intensification of speech signal components in a hearing aid |
US7110923B2 (en) * | 1999-11-04 | 2006-09-19 | Verticalband, Limited | Fast, blind equalization techniques using reliable symbols |
US7085691B2 (en) * | 1999-11-04 | 2006-08-01 | Verticalband, Limited | Reliable symbols as a means of improving the performance of information transmission systems |
GB2356112B (en) * | 1999-11-04 | 2002-02-06 | Imperial College | Increasing data transmission bit rates |
US7143013B2 (en) * | 1999-11-04 | 2006-11-28 | Verticalband, Limited | Reliable symbols as a means of improving the performance of information transmission systems |
FI19992453L (fi) | 1999-11-15 | 2001-05-16 | Nokia Mobile Phones Ltd | Kohinanvaimennus |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
ATE248497T1 (de) * | 1999-12-09 | 2003-09-15 | Frederick Johannes Bruwer | Sprachsverteilungssystem |
AU4904801A (en) * | 1999-12-31 | 2001-07-16 | Octiv, Inc. | Techniques for improving audio clarity and intelligibility at reduced bit rates over a digital network |
US7379962B1 (en) | 2000-01-19 | 2008-05-27 | Computer Associates Think, Inc. | Spatialized audio in a three-dimensional computer-based scene |
US7110951B1 (en) | 2000-03-03 | 2006-09-19 | Dorothy Lemelson, legal representative | System and method for enhancing speech intelligibility for the hearing impaired |
US6523003B1 (en) * | 2000-03-28 | 2003-02-18 | Tellabs Operations, Inc. | Spectrally interdependent gain adjustment techniques |
AU2001260154A1 (en) * | 2000-03-31 | 2001-10-15 | Telefonaktiebolaget Lm Ericsson (Publ) | A method of transmitting voice information and an electronic communications device for transmission of voice information |
EP1139337A1 (de) * | 2000-03-31 | 2001-10-04 | Telefonaktiebolaget L M Ericsson (Publ) | Verfahren zur Übertragung von Sprachinformationen und elektronische Fernmeldevorrichtung dafür |
US6430525B1 (en) | 2000-06-05 | 2002-08-06 | Masimo Corporation | Variable mode averager |
EP1168734A1 (de) * | 2000-06-26 | 2002-01-02 | BRITISH TELECOMMUNICATIONS public limited company | Verfahren zur Reduzierung der Verzerrung in einer Sprachübertragung über Datennetze |
WO2002015395A1 (en) * | 2000-07-27 | 2002-02-21 | Clear Audio Ltd. | Voice enhancement system |
US20020075965A1 (en) * | 2000-12-20 | 2002-06-20 | Octiv, Inc. | Digital signal processing techniques for improving audio clarity and intelligibility |
US20030023429A1 (en) * | 2000-12-20 | 2003-01-30 | Octiv, Inc. | Digital signal processing techniques for improving audio clarity and intelligibility |
WO2002091363A1 (en) * | 2001-05-08 | 2002-11-14 | Koninklijke Philips Electronics N.V. | Audio coding |
US7236929B2 (en) * | 2001-05-09 | 2007-06-26 | Plantronics, Inc. | Echo suppression and speech detection techniques for telephony applications |
EP1433166B8 (de) * | 2001-09-28 | 2008-01-02 | Nokia Siemens Networks Gmbh & Co. Kg | Sprachextender und verfahren zum schätzen eines breitbandigen sprachsignals anhand eines schmalbandigen sprachsignals |
US20040005065A1 (en) | 2002-05-03 | 2004-01-08 | Griesinger David H. | Sound event detection system |
US7103541B2 (en) * | 2002-06-27 | 2006-09-05 | Microsoft Corporation | Microphone array signal enhancement using mixture models |
US7697700B2 (en) * | 2006-05-04 | 2010-04-13 | Sony Computer Entertainment Inc. | Noise removal for electronic device with far field microphone on console |
US7013272B2 (en) * | 2002-08-14 | 2006-03-14 | Motorola, Inc. | Amplitude masking of spectra for speech recognition method and apparatus |
US7146315B2 (en) * | 2002-08-30 | 2006-12-05 | Siemens Corporate Research, Inc. | Multichannel voice detection in adverse environments |
US7433462B2 (en) * | 2002-10-31 | 2008-10-07 | Plantronics, Inc | Techniques for improving telephone audio quality |
US7191127B2 (en) * | 2002-12-23 | 2007-03-13 | Motorola, Inc. | System and method for speech enhancement |
US7895036B2 (en) * | 2003-02-21 | 2011-02-22 | Qnx Software Systems Co. | System for suppressing wind noise |
US7885420B2 (en) * | 2003-02-21 | 2011-02-08 | Qnx Software Systems Co. | Wind noise suppression system |
US8326621B2 (en) | 2003-02-21 | 2012-12-04 | Qnx Software Systems Limited | Repetitive transient noise removal |
US8073689B2 (en) * | 2003-02-21 | 2011-12-06 | Qnx Software Systems Co. | Repetitive transient noise removal |
US7725315B2 (en) * | 2003-02-21 | 2010-05-25 | Qnx Software Systems (Wavemakers), Inc. | Minimization of transient noises in a voice signal |
US7949522B2 (en) | 2003-02-21 | 2011-05-24 | Qnx Software Systems Co. | System for suppressing rain noise |
US8271279B2 (en) | 2003-02-21 | 2012-09-18 | Qnx Software Systems Limited | Signature noise removal |
WO2004088639A1 (en) * | 2003-04-02 | 2004-10-14 | Magink Display Technologies Ltd. | Psychophysical perception enhancement |
US7272233B2 (en) * | 2003-09-11 | 2007-09-18 | Clarity Technologies, Inc. | Acoustic shock prevention |
US7224810B2 (en) * | 2003-09-12 | 2007-05-29 | Spatializer Audio Laboratories, Inc. | Noise reduction system |
US7454332B2 (en) * | 2004-06-15 | 2008-11-18 | Microsoft Corporation | Gain constrained noise suppression |
US20050285935A1 (en) * | 2004-06-29 | 2005-12-29 | Octiv, Inc. | Personal conferencing node |
US20050286443A1 (en) * | 2004-06-29 | 2005-12-29 | Octiv, Inc. | Conferencing system |
US20060023061A1 (en) * | 2004-07-27 | 2006-02-02 | Vaszary Mark K | Teleconference audio quality monitoring |
KR100677126B1 (ko) * | 2004-07-27 | 2007-02-02 | 삼성전자주식회사 | 레코더 기기의 잡음 제거 장치 및 그 방법 |
US9779750B2 (en) | 2004-07-30 | 2017-10-03 | Invention Science Fund I, Llc | Cue-aware privacy filter for participants in persistent communications |
US7720236B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Updating modeling information based on offline calibration experiments |
US20060132595A1 (en) * | 2004-10-15 | 2006-06-22 | Kenoyer Michael L | Speakerphone supporting video and audio features |
US7826624B2 (en) * | 2004-10-15 | 2010-11-02 | Lifesize Communications, Inc. | Speakerphone self calibration and beam forming |
US7903137B2 (en) * | 2004-10-15 | 2011-03-08 | Lifesize Communications, Inc. | Videoconferencing echo cancellers |
US7720232B2 (en) * | 2004-10-15 | 2010-05-18 | Lifesize Communications, Inc. | Speakerphone |
US7970151B2 (en) * | 2004-10-15 | 2011-06-28 | Lifesize Communications, Inc. | Hybrid beamforming |
US8116500B2 (en) * | 2004-10-15 | 2012-02-14 | Lifesize Communications, Inc. | Microphone orientation and size in a speakerphone |
US7760887B2 (en) * | 2004-10-15 | 2010-07-20 | Lifesize Communications, Inc. | Updating modeling information based on online data gathering |
KR100677396B1 (ko) * | 2004-11-20 | 2007-02-02 | 엘지전자 주식회사 | 음성인식장치의 음성구간 검출방법 |
US7292985B2 (en) * | 2004-12-02 | 2007-11-06 | Janus Development Group | Device and method for reducing stuttering |
US7970150B2 (en) * | 2005-04-29 | 2011-06-28 | Lifesize Communications, Inc. | Tracking talkers using virtual broadside scan and directed beams |
US7991167B2 (en) * | 2005-04-29 | 2011-08-02 | Lifesize Communications, Inc. | Forming beams with nulls directed at noise sources |
US7593539B2 (en) * | 2005-04-29 | 2009-09-22 | Lifesize Communications, Inc. | Microphone and speaker arrangement in speakerphone |
US8520861B2 (en) * | 2005-05-17 | 2013-08-27 | Qnx Software Systems Limited | Signal processing system for tonal noise robustness |
US20060269057A1 (en) * | 2005-05-26 | 2006-11-30 | Groove Mobile, Inc. | Systems and methods for high resolution signal analysis and chaotic data compression |
US7454335B2 (en) * | 2006-03-20 | 2008-11-18 | Mindspeed Technologies, Inc. | Method and system for reducing effects of noise producing artifacts in a voice codec |
JP4171922B2 (ja) * | 2006-04-12 | 2008-10-29 | 船井電機株式会社 | ミュート装置、液晶ディスプレイテレビ、及びミュート方法 |
GB2437559B (en) * | 2006-04-26 | 2010-12-22 | Zarlink Semiconductor Inc | Low complexity noise reduction method |
EP2014132A4 (de) | 2006-05-04 | 2013-01-02 | Sony Computer Entertainment Inc | Echo- und rauschunterdrückung |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
JP4827661B2 (ja) | 2006-08-30 | 2011-11-30 | 富士通株式会社 | 信号処理方法及び装置 |
RS49875B (sr) * | 2006-10-04 | 2008-08-07 | Micronasnit, | Sistem i postupak za slobodnu govornu komunikaciju pomoću mikrofonskog niza |
EP1926085B1 (de) * | 2006-11-24 | 2010-11-03 | Research In Motion Limited | System und Verfahren zur Verringerung von Uplink-Geräuschen |
US9058819B2 (en) * | 2006-11-24 | 2015-06-16 | Blackberry Limited | System and method for reducing uplink noise |
US8249374B2 (en) * | 2006-12-12 | 2012-08-21 | University Of New Hampshire | Systems and methods for adaptive multiresolution signal analysis with compact cupolets |
ES2383217T3 (es) * | 2006-12-12 | 2012-06-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo |
US8457768B2 (en) * | 2007-06-04 | 2013-06-04 | International Business Machines Corporation | Crowd noise analysis |
US8767975B2 (en) * | 2007-06-21 | 2014-07-01 | Bose Corporation | Sound discrimination method and apparatus |
US8611554B2 (en) * | 2008-04-22 | 2013-12-17 | Bose Corporation | Hearing assistance apparatus |
US8625704B1 (en) | 2008-09-25 | 2014-01-07 | Aquantia Corporation | Rejecting RF interference in communication systems |
US9912375B1 (en) | 2008-09-25 | 2018-03-06 | Aquantia Corp. | Cancellation of alien interference in communication systems |
US8442099B1 (en) | 2008-09-25 | 2013-05-14 | Aquantia Corporation | Crosstalk cancellation for a common-mode channel |
US8213635B2 (en) * | 2008-12-05 | 2012-07-03 | Microsoft Corporation | Keystroke sound suppression |
JP5141542B2 (ja) * | 2008-12-24 | 2013-02-13 | 富士通株式会社 | 雑音検出装置及び雑音検出方法 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
US8204742B2 (en) * | 2009-09-14 | 2012-06-19 | Srs Labs, Inc. | System for processing an audio signal to enhance speech intelligibility |
US8467881B2 (en) * | 2009-09-29 | 2013-06-18 | Advanced Bionics, Llc | Methods and systems for representing different spectral components of an audio signal presented to a cochlear implant patient |
GB0919672D0 (en) | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
US8737654B2 (en) | 2010-04-12 | 2014-05-27 | Starkey Laboratories, Inc. | Methods and apparatus for improved noise reduction for hearing assistance devices |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US8724678B2 (en) | 2010-05-28 | 2014-05-13 | Aquantia Corporation | Electromagnetic interference reduction in wireline applications using differential signal compensation |
US9118469B2 (en) * | 2010-05-28 | 2015-08-25 | Aquantia Corp. | Reducing electromagnetic interference in a received signal |
US8891595B1 (en) | 2010-05-28 | 2014-11-18 | Aquantia Corp. | Electromagnetic interference reduction in wireline applications using differential signal compensation |
US8457321B2 (en) | 2010-06-10 | 2013-06-04 | Nxp B.V. | Adaptive audio output |
US8792597B2 (en) | 2010-06-18 | 2014-07-29 | Aquantia Corporation | Reducing electromagnetic interference in a receive signal with an analog correction signal |
US9078077B2 (en) | 2010-10-21 | 2015-07-07 | Bose Corporation | Estimation of synthetic audio prototypes with frequency-based input signal decomposition |
US8924204B2 (en) * | 2010-11-12 | 2014-12-30 | Broadcom Corporation | Method and apparatus for wind noise detection and suppression using multiple microphones |
JP5643686B2 (ja) * | 2011-03-11 | 2014-12-17 | 株式会社東芝 | 音声判別装置、音声判別方法および音声判別プログラム |
US9589580B2 (en) * | 2011-03-14 | 2017-03-07 | Cochlear Limited | Sound processing based on a confidence measure |
US9226088B2 (en) | 2011-06-11 | 2015-12-29 | Clearone Communications, Inc. | Methods and apparatuses for multiple configurations of beamforming microphone arrays |
US8861663B1 (en) | 2011-12-01 | 2014-10-14 | Aquantia Corporation | Correlated noise canceller for high-speed ethernet receivers |
US8645142B2 (en) * | 2012-03-27 | 2014-02-04 | Avaya Inc. | System and method for method for improving speech intelligibility of voice calls using common speech codecs |
US9317458B2 (en) | 2012-04-16 | 2016-04-19 | Harman International Industries, Incorporated | System for converting a signal |
US8929468B1 (en) | 2012-06-14 | 2015-01-06 | Aquantia Corp. | Common-mode detection with magnetic bypass |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
JP6054142B2 (ja) * | 2012-10-31 | 2016-12-27 | 株式会社東芝 | 信号処理装置、方法およびプログラム |
EP2747081A1 (de) * | 2012-12-18 | 2014-06-25 | Oticon A/s | Audioverarbeitungsvorrichtung mit Artifaktreduktion |
US9552825B2 (en) * | 2013-04-17 | 2017-01-24 | Honeywell International Inc. | Noise cancellation for voice activation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN106797512B (zh) | 2014-08-28 | 2019-10-25 | 美商楼氏电子有限公司 | 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质 |
US9554207B2 (en) | 2015-04-30 | 2017-01-24 | Shure Acquisition Holdings, Inc. | Offset cartridge microphones |
US9565493B2 (en) | 2015-04-30 | 2017-02-07 | Shure Acquisition Holdings, Inc. | Array microphone system and method of assembling the same |
CN108352166B (zh) * | 2015-09-25 | 2022-10-28 | 弗劳恩霍夫应用研究促进协会 | 使用线性预测编码对音频信号进行编码的编码器和方法 |
CN106710589B (zh) * | 2016-12-28 | 2019-07-30 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音特征提取方法及装置 |
US10367948B2 (en) | 2017-01-13 | 2019-07-30 | Shure Acquisition Holdings, Inc. | Post-mixing acoustic echo cancellation systems and methods |
WO2019231632A1 (en) | 2018-06-01 | 2019-12-05 | Shure Acquisition Holdings, Inc. | Pattern-forming microphone array |
US11297423B2 (en) | 2018-06-15 | 2022-04-05 | Shure Acquisition Holdings, Inc. | Endfire linear array microphone |
US11750985B2 (en) | 2018-08-17 | 2023-09-05 | Cochlear Limited | Spatial pre-filtering in hearing prostheses |
WO2020061353A1 (en) | 2018-09-20 | 2020-03-26 | Shure Acquisition Holdings, Inc. | Adjustable lobe shape for array microphones |
US11558693B2 (en) | 2019-03-21 | 2023-01-17 | Shure Acquisition Holdings, Inc. | Auto focus, auto focus within regions, and auto placement of beamformed microphone lobes with inhibition and voice activity detection functionality |
CN118803494A (zh) | 2019-03-21 | 2024-10-18 | 舒尔获得控股公司 | 具有抑制功能的波束形成麦克风瓣的自动对焦、区域内自动对焦、及自动配置 |
US11303981B2 (en) | 2019-03-21 | 2022-04-12 | Shure Acquisition Holdings, Inc. | Housings and associated design features for ceiling array microphones |
US10587439B1 (en) | 2019-04-12 | 2020-03-10 | Rovi Guides, Inc. | Systems and methods for modifying modulated signals for transmission |
TW202101422A (zh) | 2019-05-23 | 2021-01-01 | 美商舒爾獲得控股公司 | 可操縱揚聲器陣列、系統及其方法 |
TWI862596B (zh) | 2019-05-31 | 2024-11-21 | 美商舒爾獲得控股公司 | 整合語音及雜訊活動偵測之低延時自動混波器 |
WO2021041275A1 (en) | 2019-08-23 | 2021-03-04 | Shore Acquisition Holdings, Inc. | Two-dimensional microphone array with improved directivity |
WO2021087377A1 (en) | 2019-11-01 | 2021-05-06 | Shure Acquisition Holdings, Inc. | Proximity microphone |
US11552611B2 (en) | 2020-02-07 | 2023-01-10 | Shure Acquisition Holdings, Inc. | System and method for automatic adjustment of reference gain |
CN111370017B (zh) * | 2020-03-18 | 2023-04-14 | 苏宁云计算有限公司 | 一种语音增强方法、装置、系统 |
USD944776S1 (en) | 2020-05-05 | 2022-03-01 | Shure Acquisition Holdings, Inc. | Audio device |
US11706562B2 (en) | 2020-05-29 | 2023-07-18 | Shure Acquisition Holdings, Inc. | Transducer steering and configuration systems and methods using a local positioning system |
WO2022023415A1 (en) * | 2020-07-30 | 2022-02-03 | Dolby International Ab | Hum noise detection and removal for speech and music recordings |
JP2024505068A (ja) | 2021-01-28 | 2024-02-02 | シュアー アクイジッション ホールディングス インコーポレイテッド | ハイブリッドオーディオビーム形成システム |
CN114171038B (zh) * | 2021-12-10 | 2023-07-28 | 北京百度网讯科技有限公司 | 语音降噪方法、装置、设备及存储介质 |
EP4460983A1 (de) | 2022-01-07 | 2024-11-13 | Shure Acquisition Holdings, Inc. | Audiostrahlformung mit nullungssteuerungssystem und verfahren |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3967283A (en) * | 1974-02-13 | 1976-06-29 | Automation Industries, Inc. | Large area motion sensor |
US4185168A (en) * | 1976-05-04 | 1980-01-22 | Causey G Donald | Method and means for adaptively filtering near-stationary noise from an information bearing signal |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
US4630305A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic gain selector for a noise suppression system |
US4630304A (en) * | 1985-07-01 | 1986-12-16 | Motorola, Inc. | Automatic background noise estimator for a noise suppression system |
US4628529A (en) * | 1985-07-01 | 1986-12-09 | Motorola, Inc. | Noise suppression system |
US4658426A (en) * | 1985-10-10 | 1987-04-14 | Harold Antin | Adaptive noise suppressor |
US4653102A (en) * | 1985-11-05 | 1987-03-24 | Position Orientation Systems | Directional microphone system |
US4811404A (en) * | 1987-10-01 | 1989-03-07 | Motorola, Inc. | Noise suppression system |
IL84948A0 (en) * | 1987-12-25 | 1988-06-30 | D S P Group Israel Ltd | Noise reduction system |
GB8801014D0 (en) * | 1988-01-18 | 1988-02-17 | British Telecomm | Noise reduction |
US4852175A (en) * | 1988-02-03 | 1989-07-25 | Siemens Hearing Instr Inc | Hearing aid signal-processing system |
US4912767A (en) * | 1988-03-14 | 1990-03-27 | International Business Machines Corporation | Distributed noise cancellation system |
US4868880A (en) * | 1988-06-01 | 1989-09-19 | Yale University | Method and device for compensating for partial hearing loss |
JPH03132221A (ja) * | 1989-10-18 | 1991-06-05 | Nippon Hoso Kyokai <Nhk> | 音声混入雑音除去装置 |
US5146504A (en) * | 1990-12-07 | 1992-09-08 | Motorola, Inc. | Speech selective automatic gain control |
US5349549A (en) * | 1991-09-30 | 1994-09-20 | Sony Corporation | Forward transform processing apparatus and inverse processing apparatus for modified discrete cosine transforms, and method of performing spectral and temporal analyses including simplified forward and inverse orthogonal transform processing |
-
1994
- 1994-06-06 EP EP94921248A patent/EP0707763B1/de not_active Expired - Lifetime
- 1994-06-06 WO PCT/US1994/006367 patent/WO1995002288A1/en active IP Right Grant
- 1994-06-06 DE DE69428119T patent/DE69428119T2/de not_active Expired - Lifetime
- 1994-06-06 JP JP50402695A patent/JP3626492B2/ja not_active Expired - Lifetime
-
1995
- 1995-03-13 US US08/402,550 patent/US5550924A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US5550924A (en) | 1996-08-27 |
WO1995002288A1 (en) | 1995-01-19 |
JPH09503590A (ja) | 1997-04-08 |
EP0707763A4 (de) | 1997-10-22 |
JP3626492B2 (ja) | 2005-03-09 |
EP0707763B1 (de) | 2001-08-29 |
EP0707763A1 (de) | 1996-04-24 |
DE69428119D1 (de) | 2001-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69428119T2 (de) | Verringerung des hintergrundrauschens zur sprachverbesserung | |
EP0912974B1 (de) | Verfahren zur verringerung von störungen eines sprachsignals | |
EP1143416B1 (de) | Geräuschunterdrückung im Zeitbereich | |
DE60034212T2 (de) | Verfahren und vorrichtung zur adaptiven rauschunterdrückung | |
DE60131639T2 (de) | Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem | |
DE69630580T2 (de) | Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation | |
DE69313480T2 (de) | Rauschverminderungseinrichtung | |
DE69905035T2 (de) | Rauschunterdrückung mittels spektraler subtraktion unter verwendung von linearem faltungsprodukt und kausaler filterung | |
DE69738288T2 (de) | Einrichtung zur unterdrückung einer störenden komponente eines eingangssignals | |
DE60031354T2 (de) | Geräuschunterdrückung vor der Sprachkodierung | |
DE112012000052B4 (de) | Verfahren und Vorrichtung zum Ausblenden von Windgeräuschen | |
DE3689035T2 (de) | Rauschminderungssystem. | |
DE60108401T2 (de) | System zur erhöhung der sprachqualität | |
DE69129467T2 (de) | Adaptiver kompensator eines akustischen echos | |
DE69122648T2 (de) | Digitale Teilbandkodierungsvorrichtung | |
EP2158588B1 (de) | Spektralglättungsverfahren von verrauschten signalen | |
EP1103956B1 (de) | Exponentielle Echo- und Geräuschabsenkung in Sprachpausen | |
EP1155561B1 (de) | Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen | |
DE19806015C2 (de) | Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen | |
EP0600164A1 (de) | Verfahren zum Verbessern der Übertragungseingenschaften einer elektroakustischen Anlage | |
DE10137348A1 (de) | Verfahren und Schaltungsanordnung zur Geräuschreduktion bei der Sprachübertragung in Kommunikationssystemen | |
DE102018117558A1 (de) | Adaptives nachfiltern | |
EP1453355B1 (de) | Signalverarbeitung in einem Hörgerät | |
EP1869765B1 (de) | Kompandersystem | |
EP1351550A1 (de) | Verfahren zur Anpassung einer Signalverstärkung in einem Hörgerät sowie ein Hörgerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: POLYCOM, INC., MILPITAS, CALIF., US |