[go: up one dir, main page]

DE60032797T2 - Geräuschunterdrückung - Google Patents

Geräuschunterdrückung Download PDF

Info

Publication number
DE60032797T2
DE60032797T2 DE60032797T DE60032797T DE60032797T2 DE 60032797 T2 DE60032797 T2 DE 60032797T2 DE 60032797 T DE60032797 T DE 60032797T DE 60032797 T DE60032797 T DE 60032797T DE 60032797 T2 DE60032797 T2 DE 60032797T2
Authority
DE
Germany
Prior art keywords
noise
signal
background noise
speech
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60032797T
Other languages
English (en)
Other versions
DE60032797D1 (de
Inventor
Ville-Veikko Mattila
Erkki Paajanen
Antti VÄHÄTALO
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Inc filed Critical Nokia Inc
Application granted granted Critical
Publication of DE60032797D1 publication Critical patent/DE60032797D1/de
Publication of DE60032797T2 publication Critical patent/DE60032797T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Plural Heterocyclic Compounds (AREA)
  • Surgical Instruments (AREA)
  • Inorganic Insulating Materials (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Telephone Function (AREA)

Description

  • Diese Erfindung bezieht sich auf einen Rauschunterdrücker und auf ein Rauschunterdrückungsverfahren. Sie bezieht sich insbesondere auf ein mobiles Endgerät, das einen Rauschunterdrücker für das Unterdrücken von Rauschen in einem Sprachsignal einschließt. Ein Rauschunterdrücker gemäß der Erfindung kann für das Unterdrücken akustischen Hintergrundrauschens insbesondere in einem mobilen Endgerät, das in einem zellularen Netz arbeitet, verwendet werden.
  • Ein Zweck der Rauschunterdrückung oder der Sprachverbesserung in einem mobilen Telefonendgerät besteht darin, den Einfluss von Umgebungsrauschen auf ein Sprachsignal zu reduzieren und somit die Qualität der Kommunikation zu verbessern. Im Falle eines Aufwärtsverbindungssignals (Sendesignal, TX-Signal) ist es auch wünschenswert, schädliche Effekte im Sprachkodierverfahren, die durch dieses Rauschen verursacht werden, zu minimieren.
  • Bei einer Kommunikation von Angesicht zu Angesicht stört akustisches Hintergrundrauschen einen Hörer und macht es schwieriger, die Sprache zu verstehen. Die Verständlichkeit wird verbessert, wenn ein Sprecher/eine Sprecherin seine/ihre Sprache erhebt, so dass sie lauter ist als das Hintergrundrauschen. Im Fall der Telephonie ist Hintergrundrauschen problematisch, da es keine zusätzliche Information gibt, die durch den Gesichtsausdruck und Gesten geliefert wird.
  • Bei der digitalen Telephonie wird ein Sprachsignal zuerst in eine Sequenz von digitalen Abtastwerten in einem Analog-Digital-Wandler (A/D-Wandler) umgewandelt und dann für eine Übertragung unter Verwendung eines Sprach-Kodierers-Dekodierers komprimiert. Der Ausdruck Kodierer-Dekodierer wird verwendet, um ein Sprach-Kodierer/Dekodierer-Paar zu beschreiben. In dieser Beschreibung wird der Ausdruck "Sprachkodierer" verwendet, um die Kodierseite des Sprach-Kodierers-Dekodierers zu bezeichnen, und der Ausdruck "Sprachdekodierer" wird verwendet, um die Dekodierfunktionen des Sprach-Kodierers-Dekodierers zu bezeichnen. Es sollte erkannt werden, dass ein allgemeiner Sprach-Kodierer-Dekodierer als eine einzige funktionale Einheit implementiert werden kann, oder als getrennte Elemente, die die Kodier- und Dekodieroperationen implementieren.
  • Bei der digitalen Telephonie kann die schädliche Wirkung des Hintergrundrauschens groß sein. Das ergibt sich aus der Tatsache, dass Sprach-Kodierer-Dekodierer im allgemeinen für eine effiziente Komprimierung und eine akzeptable Rekonstruktion der Sprache optimiert sind, und ihre Leistung beeinträchtigt werden kann, wenn Rauschen im Sprachsignal vorhanden ist, oder Fehler beim Senden oder Empfangen der Sprache auftreten. Zusätzlich kann das Vorhandensein von Rauschen selbst zu einer Störung des Hintergrundrauschsignals führen, wenn es kodiert und gesendet wird.
  • Die beeinträchtigte Leistung eines Sprach-Kodierers-Dekodierers reduziert sowohl die Verständlichkeit der übertragenen Sprache als auch ihre subjektive Qualität. Die Störung des übertragenen Hintergrundrauschsignal verschlechtert die Qualität des übertragenen Signals, macht es mühsamer für das Zuhören und macht die Kontextinformation schlechter erkennbar durch das Ändern der Natur des Hintergrundrauschsignals. Somit hat sich die Arbeit auf dem Gebiet der Sprachverbesserung auf das Studieren der Wirkung von Rauschen auf die Sprachkodierleistung und das Erzeugen von Vorverarbeitungsverfahren, um den Einfluss von Rauschen auf Sprach-Kodierer-Dekodierer zu reduzieren, konzentriert.
  • Die oben diskutierten Probleme beziehen sich auf Anordnungen, bei denen nur ein Mikrofon vorhanden ist, um nur ein Signal zu liefern. In solchen Anordnungen wird ein Rauschunterdrücker vorgesehen, der das Einkanalsignal interpretieren kann, um zu entscheiden, welche Teile von ihm Sprache und welche Rauschen darstellen.
  • Wenn ein digitales mobiles Endgerät ein kodiertes Sprachsignal empfängt, wird es vom Dekodierteil des Sprach-Kodierers-Dekodierers des Endgeräts dekodiert und an einen Lautsprecher oder Ohrhörer geliefert, damit der Benutzer des Endgeräts es hören kann. Ein Rauschunterdrücker kann im Sprachdekodierpfad nach dem Sprachdekodierer vorgesehen sein, um die Rauschkomponente im empfangenen und dekodierten Sprachsignal zu reduzieren. Bei Rauschzuständen kann jedoch die Leistung des Sprachdekodierers schädlich beeinflusst werden, was zu einem oder mehreren der folgenden Effekte führt:
    • 1. Die Sprachkomponente des Signals kann sich weniger natürlich oder rau anhören, da kritische Information, die vom Sprach-Kodierer-Dekodierer benötigt wird, um das Sprachsignal korrekt zu dekodieren, durch das Vorhandensein von Rauschen geändert wird.
    • 2. Das Hintergrundrauschen kann sich unnatürlich anhören, da Kodierer-Dekodierer im allgemeinen für das Komprimieren von Sprache statt von Rauschen optimiert sind. Typischerweise führt dies zu einer erhöhten Periodizität in der Hintergrundrauschkomponente und dies kann ausreichend stark sein, um den Verlust der Kontextinformation, die vom Hintergrundrauschsignal getragen wird, zu bewirken.
  • Information über ein kodiertes Sprachsignal kann auch während dem Senden und Empfangen verloren gehen oder beschädigt werden, beispielsweise durch Übertragungskanalfehler. Diese Situation kann zu einer weiteren Verschlechterung der Ausgabe des Sprach-Kodierers-Dekodierers führen, was bewirkt, dass zusätzliche Artefakte im dekodierten Sprachsignal erscheinen. Wenn ein Rauschunterdrücker im Sprachdekodierpfad nach einem Sprachdekodierer verwendet wird, kann die nicht optimale Leistung des Sprach-Kodierers-Dekodierers wiederum bewirken, dass der Rauschunterdrücker in nicht optimaler Weise arbeitet.
  • Somit muss spezielle Sorgfalt ergriffen werden, wenn Rauschunterdrücker implementiert werden, die mit dekodierten Sprachsignalen arbeiten sollen. Insbesondere müssen zwei im Konflikt stehende Faktoren ins Gleichgewicht gebracht werden. Wenn der Rauschunterdrücker eine zu große Rauschdämpfung liefert, kann dies die Verschlechterung der Sprachqualität, die durch den Sprach-Kodierer-Dekodierer verursacht wird, zum Vorschein bringen. Durch die inneren Eigenschaften eines typischen Sprach-Kodierers-Dekodierers, die für das Kodieren und Dekodieren von Sprache optimiert sind, kann dekodiertes Hintergrundrauschen ermüdender als das ursprüngliche Rauschsignal wirken und so sollte es so stark wie möglich gedämpft werden. Es wurde in der Praxis herausgefunden, dass ein leicht geringerer Pegel der Rauschreduktion für dekodierten Sprachsignale im Vergleich zu dem, der auf Sprachsignale vor dem Kodieren angewandt werden kann, optimal sein kann.
  • Es ist im allgemeinen wünschenswert, dass wenn Rauschunterdrückung während der Sprachkodierung und/oder der Sprachdekodierung verwendet wird, sie den Pegel des Hintergrundrauschens reduzieren sollte, die Sprachstörung, die durch das Rauschreduktionsverfahren verursacht wird, minimiert und die ursprüngliche Natur des eingegebenen Hintergrundrauschens beibehält.
  • Eine Ausführungsform eines mobilen Endgeräts, das eine Rauschunterdrücker gemäß dem Stand der Technik enthält, wird nun unter Bezug auf 1 beschrieben. Das mobile Endgerät und das drahtlose System, mit dem es kommuniziert, arbeiten gemäß der Norm des globalen Systems für mobile Telekommunikation (GSM). 1 zeigt ein mobiles Endgerät 10, das einen sendenden (die Sprache kodierenden) Zweig 12 und einen empfangenden (die Sprache dekodierenden) Zweig 14 umfasst.
  • Im sendenden (die Sprache kodierenden) Zweig, wird ein Sprachsignal durch ein Mikrofon 16 aufgenommen, durch einen Analog-Digital-(A/D)-Wandler 18 abgetastet und in einem Rauschunterdrücker 20 einer Rauschunterdrückung unterzogen, um ein verbessertes Signal zu erzeugen. Dies erfordert, dass das Spektrum des Hintergrundrauschens geschätzt wird, so dass das Hintergrundrauschen im abgetasteten Signal unterdrückt werden kann. Ein typischer Rauschunterdrücker arbeitet im Frequenzbereich. Das Signal im Zeitbereich wird zuerst in den Frequenzbereich umgeformt, was effizient unter Verwendung einer schnellen Fouriertransformation (FFT) erfolgen kann. Im Frequenzbereich muss die Sprachaktivität vom Hintergrundrauschen unterschieden werden, und wenn keine Sprachaktivität vorhanden ist, so wird das Spektrum des Hintergrundrauschens geschätzt. Es werden dann Rauschunterdrückungsverstärkungskoeffizienten auf der Basis des derzeitigen Eingangssignalspektrums und der Schätzung des Hintergrundrauschens berechnet. Schließlich wird das Signal unter Verwendung einer inversen FFT (IFFT) zurück in den Zeitbereich umgewandelt.
  • Das verbesserte (rauschunterdrückte) Signal wird durch einen Sprachkodierer 22 kodiert, um einen Satz von Sprachparametern, so wie sie sind, zu extrahieren, und dann in einem Kanalkodierer 24 kodiert, wo Redundanz zum kodierten Sprachsignal hinzugefügt wird, um einen gewissen Grad eines Fehlerschutzes zu liefern. Das sich ergebende Signal wird dann auf ein Funkfrequenz-(HF)-Signal aufwärtsgewandelt und dann durch eine Sende/Empfangseinheit 26 gesendet. Die Sende/Empfangseinheit 26 umfasst ein (nicht gezeigtes) Duplexfilter, das mit einer Antenne verbunden ist, um es zu ermöglichen, dass sowohl das Senden als auch der Empfang stattfinden.
  • Ein Rauschunterdrücker, der für eine Verwendung im mobilen Endgerät der 1 geeignet ist, ist im veröffentlichten Dokument WO 97/22116 beschrieben.
  • Um die Batterielebensdauer zu verlängern, werden typischerweise verschiedene Arten von vom eingegebenen Signal abhängigen Betriebsarten mit niedrigerer Leistung in mobilen Telekommunikationssystemen angewandt. Diese Anordnungen werden gemeinhin als diskontinuierliche Übertragung (DTX) bezeichnet. Die Grundidee bei der DTX ist die, das Sprach-Kodier/Dekodier-Verfahren in Nicht-Sprach-Perioden zu unterbrechen. Die DTX soll auch die Menge der Daten, die über die Funkverbindung während Sprachpausen übertragen wird, begrenzen. Beide Maßnahmen neigen dazu, die Menge der Leistung, die durch die sendende Vorrichtung verbraucht wird, zu reduzieren. Typischerweise wird eine gewisse Art eines Komfortrauschsignals, das dem Hintergrundrauschen am sendenden Ende ähneln soll, als ein Ersatz für das tatsächliche Hintergrundrauschen erzeugt. DTX-Handhabungseinrichtungen sind im Stand der Technik wohl bekannt, wie die verbesserten Sprachkodierer-Dekodierer für GSM-Vollrate (Enhanced Full Rate, EFR), Vollrate und Halbrate.
  • Wenn man wieder die 1 betrachtet, so ist der Sprachkodierer 22 mit einer Sende-(TX)-DTX-Handhabungseinrichtung 28 verbunden. Die TX DTX Handhabungseinrichtung 28 empfängt eine Eingabe von einem Sprachaktivitätsdetektor (VAD) 30, der anzeigt, ob es eine Sprachkomponente im rauschunterdrückten Signal gibt, das als Ausgabe des Rauschunterdrückungsblocks 20 geliefert wird. Der VAD 30 ist im Grund ein Energiedetektor. Er empfängt ein gefiltertes Signal, vergleicht die Energie des gefilterten Signals mit einem Schwellwert und zeigt immer dann Sprache an, wenn der Schwellwert überschritten wird. Somit zeigt er an, ob der Rahmen, der vom Sprachkodierer 22 erzeugt wird, Rauschen mit vorhandener Sprache oder Rauschen ohne Sprache erzeugt. Die größte Schwierigkeit beim Detektieren von Sprache in einem Signal, das von einem mobilen Endgerät erzeugt wird, ist die, dass die Umgebungen, in denen solche Endgeräte verwendet werden, oft zu niedrigen Sprach/Rausch- Verhältnissen führen. Die Genauigkeit des VAD 30 wird durch die Verwendung einer Filterung verbessert, um das Sprach/Rausch-Verhältnis zu erhöhen, bevor die Entscheidung gefällt wird, ob Sprache vorhanden ist.
  • Von allen Umgebungen, in denen Mobiltelefone verwendet werden, werden die schlechtesten Sprach/Rauschverhältnisse im allgemeinen in sich bewegenden Fahrzeugen angetroffen. Wenn das Rauschen jedoch für ausgedehnte Perioden relativ stationär ist, das heißt, das Rauschamplitudenspektrum ändert sich nicht sehr über der Zeit, ist es möglich, ein adaptives Filter mit geeigneten Koeffizienten zu verwenden, um den größten Teil des Fahrzeugrauschens zu entfernen.
  • Die Rauschpegel in Umgebungen, wo mobile Endgeräte verwendet werden, können sich konstant ändern. Der Frequenzgehalt (Spektrum) des Rauschens kann sich auch ändern, und er kann in Abhängigkeit von den Umständen beträchtlich variieren. Durch diese Änderungen müssen der Schwellwert und die adaptiven Filterkoeffizienten des VAD 30 konstant eingestellt werden. Um eine zuverlässige Detektion zu gewährleisten, muss der Schwellwert ausreichend über dem Rauschpegel liegen, um zu verhindern, dass Rauschen fälschlich als Sprache identifiziert wird, aber nicht so weit darüber, dass Teile der Sprache mit niedrigem Pegel als Rauschen identifiziert werden. Der Schwellwert und die adaptiven Filterkoeffizienten werden nur aktualisiert, wenn keine Sprache vorhanden ist. Natürlich ist es für den VAD 30 nicht klug, diese Werte auf der Basis seiner eigenen Entscheidung über das Vorhandensein von Sprache zu aktualisieren. Somit findet diese Adaption nur statt, wenn das Signal im Frequenzbereich im wesentlichen stationär ist, aber keine Tonhöhenkomponente aufweist, die in stimmhafter Sprache vorhanden ist. Ein Tondetektor wird auch verwendet, um eine Adaption während Informationstönen zu verhindern.
  • Ein weiterer Mechanismus wird verwendet, um zu gewährleisten, dass ein Rauschen niedrigen Pegels (das oft über lange Perioden stationär ist) nicht als Sprache detektiert wird. In diesem Fall wird ein zusätzlicher fester Schwellwert verwendet, so dass eingegebene Rahmen, die eine Rahmenleistung aufweisen, die unter dem Schwellwert liegt, als Rauschrahmen interpretiert werden.
  • Eine VAD-Überhangperiode wird verwendet, um ein Abschneiden von Sprache mit niedrigem Pegel in der Mitte zu eliminieren. Ein Überhang wird nur zu Sprachfolgen hinzugefügt, die eine gewisse Dauer übersteigen, um ausgedehnte Rauschimpulsfolgen zu vermeiden. Der Betrieb eines Sprachaktivitätsdetektors dieser Art ist aus dem Stand der Technik bekannt.
  • Die Ausgabe des VAD 30 besteht typischerweise aus einem binären Flag, das in der TX DTX-Handhabungseinrichtung 28 verwendet wird. Wenn Sprache in einem Signal detektiert wird, so setzt sich ihre Übertragung fort. Wenn Sprache nicht detektiert wird, wird die Übertragung des rauschunterdrückten Signals gestoppt, bis die Sprache wieder detektiert wird.
  • Bei den meisten mobilen Telekommunikationssystemen wird die DTX meistens in der Aufwärtsverbindung angewandt, da Sprachkodierung und Sendung typischerweise weit mehr Leistung verbrauchen als der Empfang und die Sprachdekodierung, und da das mobile Endgerät sich typischerweise auf die begrenzte Energie, die in seiner Batterie gespeichert ist, stützt. Während Perioden, in der keine Übertragung eines Signals vorliegt, das vermutlich Sprache befördert, wird ein Komfortrauschen erzeugt, um dem Hörer die Illusion zu geben, dass das Signal tatsächlich kontinuierlich ist. Wie weiter unten detaillierter beschrieben wird, wird in einigen zellularen Telefonsystemen ein Komfortrauschen im empfangenden Endgerät erzeugt, auf der Basis von Information, die vom sendenden Endgerät empfangen wird, die die Eigenschaften des Rauschens am sendenden Endgerät beschreibt.
  • Im allgemeinen wird ein explizites Flag im Sprachdekodierer vorgesehen, das anzeigt, ob der DTX-Betriebsmodus an ist oder nicht. Dies ist beispielsweise der Fall bei allen GSM-Sprach-Kodierern-Dekodierern. Es existieren jedoch andere Fälle, beispielsweise persönliche digitale zellulare Netze (PDC), wo ein Rahmenwiederholungsmodus im Rauschunterdrücker aktiviert werden muss, der eingegebene Rahmen mit früheren Rahmen vergleicht und ein sprachbetätigtes Schaltflag (voice operated switch, VOX) einstellt, wenn aufeinander folgende Rahmen identisch sind. Weiterhin wird in einer Mobil-zu-Mobil-Verbindung keine Information auf der Abwärtsverbindung über das Auftreten einer DTX in der Aufwärtsverbindung geliefert.
  • In einigen Sprach-Kodierern-Dekodierern, wie dem GSM EFR Kodierer-Dekodierer wird die Entscheidung über das Abschalten des Sendens während Sprachpausen in einer DTX-Handhabungseinrichtung des Sprachkodierers getroffen. Am Ende einer Sprachtonfolge verwendet die DTX-Handhabungseinrichtung einige wenige aufeinander folgende Rahmen, um einen Ruhebeschreibungsrahmen (silence descriptor, SID) zu erzeugen, der verwendet wird, um Rauschparameter, die geschätzte Hintergrundrauscheigenschaften beschreiben, an den Dekodierer zu geben. Ein Ruhebeschreibungs-(SID)-Rahmen ist durch ein SID-Kodewort gekennzeichnet.
  • Nach der Übertragung eines SID-Rahmens wird eine Funkübertragung abgeschnitten und ein Sprachflag (SP-Flag) wird auf null gesetzt. Ansonsten ist das SP-Flag auf 1 gesetzt, um die Funkübertragung anzuzeigen. Der SID-Rahmen wird vom Sprachdekodierer empfangen, der dann Rauschen mit einem Spektralprofil erzeugt, das den Eigenschaften entspricht, die im SID-Rahmen beschrieben sind. Gelegentlich werden SID-Rahmen-Aktualisierungen an den Dekodierer übertragen, um die Korrespondenz zwischen dem Hintergrundrauschen am sendenden Endgerät und dem Komfortrauschen, das im empfangenden Endgerät erzeugt wird, aufrecht zu halten. Beispielsweise wird in einem GSM-System ein neuer SID-Rahmen einmal alle 24 Rahmen der normalen Übertragung gesandt. Das Vorsehen von gelegentlichen SID-Rahmen-Aktualisierungen auf diese Weise erlaubt nicht nur die Erzeugung eines akzeptabel genauen Komfortrauschens sondern reduziert auch signifikant die Menge der Information, die über die Funkverbindung übertragen werden muss. Dies reduziert die Bandbreite, die für die Übertragung erforderlich ist und hilft bei einer effizienten Benutzung der Funkressourcen.
  • Im empfangenden (die Sprache dekodierenden) Zweig 14 des mobilen Endgeräts wird ein HF-Signal von der Sende/Empfangseinheit 26 empfangen und von der HF abwärts in ein Basisbandsignal umgewandelt. Das Basisbandsignal wird kanaldekodiert durch einen Kanaldekodierer 32. Wenn der Kanaldekodierer Sprache im kanaldekodierten Signal detektiert, wird das Signal sprachdekodiert durch einen Sprachdekodierer 34.
  • Das mobile Endgerät umfasst auch eine Schlechtrahmenhandhabungseinheit 38, um schlechte (beeinträchtigte) Rahmen zu handhaben. Ein schlechter Verkehrsrahmen wird durch das Funkuntersystem (Radio Sub-System, RSS) durch das Setzen einer Schlechtrahmenanzeige (Bad Frame Indication, BFI) auf 1 gekennzeichnet. Wenn Fehler im Übertragungskanal auftreten, würde die normale Dekodierung verlorener oder fehlerhafter Sprachrahmen bei einem Hörer unangenehme Geräusche verursachen. Um mit diesem Problem umzugehen, wird die subjektive Qualität verlorener Sprachrahmen typischerweise durch das Ersetzen der schlechten Rahmen mit entweder einer Wiederholung oder einer Extrapolation eines vorherigen guten Sprachrahmens oder guter Sprachrahmen verbessert. Diese Ersetzung liefert eine Kontinuität des Sprachsignals und ist von einer allmählichen Dämpfung des Ausgabepegels begleitet, was zu einem Ruhigwerden des Ausgangssignals innerhalb einer ziemlich kurzen Periode führt. Ein guter Verkehrsrahmen wird durch das Funkuntersystem mit einer BFI von 0 gekennzeichnet.
  • Eine Ausführungsform einer Schlechtrahmenhandhabungseinheit 38 des Stands der Technik ist in der diskontinuierlichen Empfangs-(RX)-Sende-(DTX)-Handhabungseinrichtung (Receive (RX) Discontinuous Transmission (DTX)) angeordnet. Die Schlechtrahmenhandhabungseinheit führt eine Rahmensubstitution und ein Stummschalten aus, wenn das Funkuntersystem anzeigt, das ein oder mehrere Sprachrahmen oder Ruhebeschreibungs-(SID)-Rahmen verloren gegangen sind. Wenn beispielsweise SID-Rahmen verloren gehen, benachrichtigt die Schlechtrahmenhandhabungseinheit den Sprachdekodierer über diese Tatsache, und der Sprachdekodierer ersetzt typischerweise einen schlechten SID-Rahmen durch den letzten gültigen. Dieser Rahmen wird wiederholt und allmählich gedämpft gerade wie im Fall eines wiederholten Sprachrahmens, um eine Kontinuität der Rauschkomponente des Signals zu liefern. Alternativ wird eine Extrapolation eines vorherigen Rahmens statt einer direkten Wiederholung verwendet.
  • Der Zweck der Rahmensubstitution liegt im Verbergen der Wirkung verlorener Rahmen. Der Zweck des Dämpfens des Ausgangssignals, wenn mehrere Rahmen verloren wurden, besteht darin, das mögliche Abbrechen der Funkverbindung (Kanal) dem Benutzer anzuzeigen und das Erzeugen möglicherweise störender Töne zu vermeiden, die sich aus dem Rahmensubstitutionsverfahren ergeben können. Die Substitution und die Dämpfung des gewöhnlicherweise nicht informativen Hintergrundrauschens in den verlorenen Rahmen beeinflusst die wahrgenommene Qualität der rauschbehafteten Sprache oder des reinen Hintergrundrauschens. Sogar bei ziemlich niedrigen Pegeln des Hintergrundrauschens führt eine schnelle Dämpfung des Hintergrundrauschens in verlorenen Rahmen zum Eindruck einer schlecht gedämpften Fluktuation des übertragenen Signals. Dieser Eindruck wird stärker, wenn das Hintergrundrauschen lauter ist.
  • Das Signal, das vom Sprachdekodierer erzeugt wird, ob es nun dekodierte Sprache, Hintergrundrauschen oder wiederholte und gedämpfte Rahmen sind, wird von der digitalen in die analoge Form durch einen Digital-Analog-Wandler 40 umgewandelt und dann durch einen Lautsprecher oder einen Ohrhörer 42 beispielsweise an einen Hörer wiedergegeben.
  • Gemäß einem Aspekt der Erfindung wird ein Rauschunterdrücker geliefert, um Rauschen in einem Signal zu unterdrücken, das Hintergrundrauschen enthält, wobei der Rauschunterdrücker eine Schätzeinrichtung umfasst, um ein Hintergrundrauschspektrum zu schätzen, bei der eine Anzeige von einer Einheit zur diskontinuierlichen Übertragung und/oder einem Kanalfehlerdekodierer verwendet wird, um die Schätzung des Hintergrundrauschspektrums zu steuern.
  • Vorzugsweise wird die Anzeige durch einen Sprachdekodierer in einem Aufwärtsverbindungspfad im Netz geliefert.
  • Vorzugsweise unterdrückt der Rauschunterdrücker Rauschen in einem Signal, das vom Sprachdekodierer geliefert wird.
  • Vorzugsweise tritt die Anzeige in einem Kanaldekodierer auf und wird vom Sprachdekodierer gehandhabt. vorzugsweise wird die Anzeige durch eine Schlechtrahmenhandhabungseinheit im Sprachdekodierer gehandhabt.
  • Vorzugsweise liefert der Rauschunterdrücker sein rauschunterdrücktes Signal an einen Sprachkodierer.
  • Vorzugsweise verwendet der Rauschunterdrücker ein Flag oder eine Anzeige, die anzeigt, dass einzelne Rahmen, die verwendet werden, um das Signal über den Kanal zu übertragen, fehlerhaft sind.
  • Vorzugsweise wird eine Aktualisierung des geschätzten Hintergrundrauschspektrums während Perioden, in denen Kanalfehler im Signal vom Kanalfehlerdetektor detektiert werden, ausgesetzt. Auf diese Weise werden die Teile des Signals, die die Kanalfehler enthalten oder Teile des Signals, die erzeugt werden, um die Kanalfehler zu maskieren oder zu mildern, bei der Erzeugung der Schätzung des Rauschens nicht verwendet.
  • Vorzugsweise umfasst der Rauschunterdrücker einen Sprachaktivitätsdetektor, um die Schätzung des Hintergrundrauschspektrums zu steuern. Vorzugsweise wird das geschätzte Hintergrundrauschspektrum aktualisiert, wenn der Sprachaktivitätsdetektor anzeigt, dass keine Sprache vorhanden ist. Vorzugsweise werden der Zustand des Sprachaktivitätsdetektors und/oder seines Speichers vorheriger Nicht-Sprach/Sprach-Entscheidungen eingefroren, wenn der Kanalfehlerdetektor Kanalfehler detektiert.
  • Vorzugsweise wird ein Komfortrauschen durch einen Komfortrauschgenerator während Zeitperioden erzeugt, in welchen das Signal nicht übertragen wird. Vorzugsweise wird die Aktualisierung des geschätzten Hintergrundrauschspektrums während Perioden, in denen die Einheit zur diskontinuierlichen Übertragung anzeigt, das das Signal nicht übertragen wird, ausgesetzt. Auf diese Weise wird das Komfortrauschen bei der Erzeugung der Schätzung des Rauschens nicht verwendet.
  • Der Ausdruck "Komfortrauschen" bedeutet ein Rauschen, das erzeugt wird, um das Hintergrundrauschen darzustellen, wobei es nicht das Hintergrundrauschen ist, das tatsächlich auftritt zu der Zeit, wenn es erzeugt wird. Beispielsweise kann das Komfortrauschen ein Rauschen sein, das aus der Analyse des Hintergrundrauschens geschätzt wird, bevor das Komfortrauschen erzeugt wird. Es kann ein zufälliges oder pseudozufälliges Rauschen sein oder es kann eine Kombination eines Rauschens sein, das aus der Analyse des Hintergrundrauschens geschätzt wird, und eines Zufallsrauschens oder Pseudozufallrauschens.
  • In einer Ausführungsform der Erfindung, in der der Rauschunterdrücker in einem mobilen Endgerät vorgesehen ist, kann er so angeordnet sein, dass er rauschunterdrückte Sprache an einen Kodierer liefert und rauschunterdrückte Sprache von einem Dekodierer empfängt. Natürlich können der Kodierer und der Dekodierer aus einem Kodierer-Dekodierer bestehen.
  • Vorzugsweise befindet sich der Rauschunterdrücker in einem drahtlosen Pfad. Es kann ein drahtloser Pfad in Abwärtsverbindungsrichtung von einem Kommunikationsnetz zu einem Kommunikationsendgerät sein.
  • Gemäß einem anderen Aspekt der Erfindung wird ein Verfahren der Rauschunterdrückung, um Rauschen in einem Signal, das Hintergrundrauschen enthält, geliefert, wobei es folgende Schritte aufweist:
    Schätzen eines Hintergrundrauschspektrums;
    Verwenden des Hintergrundrauschspektrums, um das Rauschen im Signal zu unterdrücken;
    Empfangen einer Anzeige, um den Betrieb einer Einheit zur diskontinuierlichen Übertragung und/oder eines Kanalfehlerdetektors anzuzeigen; und
    Verwenden der Anzeige, um die Schätzung des Hintergrundrauschspektrums zu steuern.
  • Gemäß einem anderen Aspekt der Erfindung wird ein mobiles Endgerät geliefert, das einen Rauschunterdrücker umfasst, um Rauschen in einem Signal, das Hintergrundrauschen enthält, zu unterdrücken, wobei der Rauschunterdrücker eine Schätzeinrichtung umfasst, um ein Hintergrundrauschspektrum zu schätzen, bei der eine Anzeige einer Einheit zur diskontinuierlichen Übertragung und/oder ein Kanalfehlerdetektor verwendet wird, um die Schätzung des Hintergrundrauschspektrums zu steuern.
  • Vorzugsweise umfasst das mobile Endgerät den Kanalfehlerdetektor. Der Kanalfehlerdetektor kann eine Anzeige liefern, dass einzelne Rahmen, die verwendet werden, um das Signal über einen Kanal zu übertragen, fehlerhaft sind.
  • Vorzugsweise wird die Anzeige durch einen Sprachdekodierer in einem Abwärtsverbindungspfad geliefert. Vorzugsweise befindet sich der Detektor für das Detektieren von Kanalfehlern im Sprachdekodierer. Vorzugsweise taucht die Anzeige in einem Kanaldekodierer auf und wird vom Sprachdekodierer gehandhabt. Vorzugsweise wird die Anzeige von einer Schlechtrahmenhandhabungseinheit im Sprachdekodierer gehandhabt.
  • Vorzugsweise umfasst der Rauschunterdrücker des mobilen Endgeräts einen Sprachaktivitätsdetektor, um die Schätzung des Hintergrundrauschspektrums zu steuern. Vorzugsweise ist der Sprachaktivitätsdetektor ein Teil des Sprachkodierers.
  • Vorzugsweise umfasst das mobile Endgerät die Einheit zur diskontinuierlichen Übertragung.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein mobiles Endgerät geliefert, das einen Abwärtsverbindungspfad umfasst, der einen Empfänger aufweist, um drahtlose Signale zu empfangen, und Mittel, um das Signal in einer Form auszugeben, die von einem Benutzer verstanden werden kann, und einen Rauschunterdrücker, um Rauschen in den empfangenen Signalen zu unterdrücken, wobei der Rauschunterdrücker im Abwärtsverbindungspfad vorgesehen ist.
  • Bei der Anwendung auf einen Kommunikationspfad in einem Kommunikationssystem bezieht sich der Ausdruck "Abwärtsverbindung" auf den Pfad vom Netz zu einem mobilen Endgerät. Natürlich können die Signale an ein festes Kommunikationsendgerät, wie ein Festnetztelefon, statt an ein mobiles Endgerät übertragen werden.
  • Gemäß einem anderen Aspekt der Erfindung wird ein mobiles Kommunikationssystems geliefert, das ein mobiles Kommunikationsnetz und eine Vielzahl von mobilen Kommunikationsendgeräten umfasst, wobei das Netz einen Rauschunterdrücker aufweist, um Rauschen in einem Signal zu unterdrücken, das Hintergrundrauschen enthält, wobei der Rauschunterdrücker eine Schätzeinrichtung umfasst, um ein Hintergrundrauschspektrum zu schätzen, in welchem eine Anzeige einer Einheit zur diskontinuierlichen Übertragung und/oder eines Kanalfehlerdetektors verwendet wird, um die Schätzung des Hintergrundrauschspektrums zu steuern.
  • Vorzugsweise wird das Signal durch ein Mikrofon erzeugt. Es kann durch ein Telefonmikrofon erzeugt werden.
  • Vorzugsweise umfasst das mobile Kommunikationssystem die Einheit zur diskontinuierlichen Übertragung.
  • Vorzugsweise ist der Rauschunterdrücker am Ausgang eines Dekodierers im Netz angeordnet, um Rauschen in der dekodierten Sprache zu unterdrücken. Alternativ liefert der Rauschunterdrücker eine rauschunterdrückte Sprache an einen Kodierer im Netz.
  • Gemäß einem anderen Aspekt der Anmeldung ist ein mobiles Kommunikationssystem vorgesehen, das ein mobiles Kommunikationsnetz und eine Vielzahl von mobilen Kommunikationsendgeräten umfasst, in welchem ein Rauschunterdrücker im Netz vorgesehen ist, um Rauschen in Signalen, die von mindestens einem der mobilen Endgeräte geliefert werden, zu unterdrücken.
  • Gemäß einem anderen Aspekt der Anmeldung ist eine Rahmenersetzeinrichtung für das Ersetzen von Rahmen in einem Signal vorgesehen, um die Störung, die durch Kanalfehler im Signal verursacht wird, zu begrenzen, wobei die Rahmenersetzeinrichtung einen Speicher umfasst, um einen vorher empfangenen Teil des Signals, der als fehlerfrei angezeigt wird, zu speichern, einen Rauschgenerator, um ein Rauschsignal zu erzeugen, und ein Rahmengenerator, um progressiv den vorher empfangenen Teil des Signals zu dämpfen und den gedämpften vorher empfangenen Teil des Signals und das Rauschsignal zu kombinieren, um ein kombiniertes Signal zu erzeugen, wobei der Rahmengenerator zum kombinierten Signal einen zunehmenden Beitrag vom Rauschsignal relativ zum vorher empfangenen Teil des Signals liefert, wenn die Zeit vergeht.
  • Das Rauschsignal kann ein Zufalls- oder Pseudozufallssignal sein. Es kann eine Kombination eines Zufalls- oder Pseudozufallssignals und einer Rauschschätzung sein.
  • Vorzugsweise wird der vorher empfangene Teil des Signals wiederholt und bei jeder Wiederholung progressiv gedämpft. Es kann ein Rahmen sein, der empfangen wurde. Das Rauschsignal kann ein Satz synthetischer Rahmen, die erzeugt worden sind, sein. Die synthetischen Rahmen des Rauschsignals können Rahmen um Rahmen zu jedem progressiv gedämpften Rahmen des vorher empfangenen Teil des Signals hinzugefügt werden. Vorzugsweise wird der Beitrag des Rauschsignals in gleichem Maße erhöht, als der vorher empfangene Teil des Signals reduziert wird, so dass der Pegel des kombinierten Signals ungefähr der gleiche wie der des vorher empfangenen Teil des Signals ist.
  • Das Rauschsignal und/oder der vorher empfangene Teil des Signals werden gedämpft, um das Zusammenbrechen des Kanals anzuzeigen. Vorzugsweise werden beide Signale gedämpft. Die Dämpfung des Rauschsignals kann beginnen, wenn der vorher empfangene Teil des Signals in einem solchen Maß gedämpft ist, dass er nicht länger zum kombinierten Signal beiträgt.
  • Die Rahmenersetzeinrichtung kann ein Teil einer Schlechtrahmenhandhabungseinrichtung sein, die ein Teil des Sprachdekodierers darstellt. Der Rauschgenerator kann sich in einem Rauschunterdrücker befinden. Der Rauschunterdrücker kann Information vom Sprachdekodierer erhalten und die Verstärkung, die er auf das Rauschen, das er erzeugt hat, einstellen auf der Basis der Information, die er empfängt, und seiner eigenen Messung, eine wie große Dämpfung die wiederholten/interpolierten Rahmen erlitten haben seit dem letzten Mal, zu dem die Schlechtrahmenanzeige aus war.
  • Die Ersetzeinrichtung kann Rahmen ersetzen, die Fehler enthalten, fehlende Rahmen oder beides. Die Kanalfehler können durch die Übertragung des Signals über eine Luftschnittstelle verursacht werden.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Verfahren zum Ersetzen von Rahmen in einem Signal geliefert, um die Störung zu begrenzen, die durch Kanalfehler verursacht wird, wobei das Verfahren folgende Schritte umfasst:
    Speichern eines vorher empfangenen Teils des Signals, der als frei von Fehlern angezeigt wird;
    Progressives Dämpfen des vorher empfangenen Teil des Signals;
    Erzeugen eines Rauschsignals;
    Kombinieren des gedämpften vorher empfangenen Teil des Signals und des Rauschsignals, um ein kombiniertes Signal zu erzeugen;
    Liefern eines zunehmenden Beitrags des Rauschsignals relativ zum vorher empfangenen Teil des Signals zum kombinierten Signal mit vergehender Zeit.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein mobiles Endgerät geliefert, das eine Rahmenersetzeinrichtung für das Ersetzen von Rahmen in einem Signal umfasst, um die Störungen, die durch die Kanalfehler im Signal verursacht werden, zu begrenzen, wobei die Rahmenersetzeinrichtung einen Speicher umfasst, um einen vorher empfangenen Teil des Signals, der als frei von Fehlern angezeigt wird, zu speichern, einen Rauschgenerator, um ein Rauschsignal zu erzeugen, und ein Rahmengenerator, um den vorher empfangenen Teil des Signals progressiv zu dämpfen, und um den gedämpften vorher empfangenen Teil des Signals und das Rauschsignal zu kombinieren, um ein kombiniertes Signal zu liefern, wobei der Rahmengenerator eine zunehmenden Beitrag vom Rauschsignal relativ zum vorher empfangenen Teil des Signals zum kombinierten Signal liefert, wenn die Zeit vergeht.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Kommunikationssystem geliefert, das ein Kommunikationsnetz umfasst, das eine Rahmenersetzeinrichtung aufweist, für das Ersetzen von Rahmen in einem Signal, um die Störung, die durch Kanalfehler verursacht wird, zu begrenzen, und eine Vielzahl von Kommunikationsendgeräten, wobei die Rahmenersetzeinrichtung einen Speicher umfasst, um einen vorher empfangenen Teil des Signals, der als frei von Fehlern angezeigt wurde, zu speichern, und einen Rauschgenerator, um ein Rauschsignal zu erzeugen, und ein Rahmengenerator, um progressiv den vorher empfangenen Teil des Signals zu dämpfen und um den gedämpften vorher empfangenen Teil des Signals und das Rauschsignal zu kombinieren, um ein kombiniertes Signal zu erzeugen, wobei der Rahmengenerator dem kombinierten Signal eine zunehmenden Beitrag vom Rauschsignal relativ zum vorher empfangenen Teil des Signals liefert, wenn die Zeit vergeht.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Detektor für die Detektion von Diskontinuitäten in einem Signal, das ein Sequenz von Rahmen umfasst und das Hintergrundrauschen enthält, geliefert, bei dem die Amplitude des Signals gemessen wird, um einen plötzlichen Abfall in der Amplitude zu detektieren, und wenn ein Amplitudenabfall detektiert wird, dessen Schärfe zu bestimmen, und wenn die Schärfe genügend groß ist, wird eine Diskontinuitätsanzeige geliefert, um die Schätzung des Hintergrundrauschens zu steuern.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Rauschunterdrücker geliefert, der eine Schätzeinrichtung umfasst, um ein Hintergrundrauschen in einem Signal zu schätzen, das eine Sequenz von Rahmen umfasst und Hintergrundrauschen enthält, und einen Detektor für die Detektion von Diskontinuitäten im Signal, wobei die Amplitude des Signals gemessen wird, um einen plötzlichen Abfall der Amplitude zu detektieren, und wenn ein Amplitudenabfall detektiert wird, seine Schärfe zu bestimmen, und wenn die Schärfe ausreichend groß ist, wird eine Anzeige geliefert, um die Schätzung des Hintergrundrauschens zu steuern.
  • Die Erfindung besteht darin, künstliche Lücken im Signal zu detektieren, von denen es sein kann, dass sie absichtlich erzeugt wurden, aber nicht leicht detektierbar sind, da es keine Diskontinuität in der Sequenz der Rahmen gibt.
  • Vorzugsweise wird die Diskontinuitätsanzeige verwendet, um die Rate zu steuern, mit der eine Schätzung des Hintergrundrauschens aktualisiert wird. Vorzugsweise wird die Rate reduziert, wenn ein Amplitudenabfall detektiert wird.
  • Vorzugsweise dient die Reduktion der Rate, mit der die Schätzung des Hintergrundrauschens aktualisiert wird, dazu zu verhindern, dass die Schätzung des Hintergrundrauschens durch etwas aktualisiert wird, das kein Rauschen ist, das aktuell erzeugt wird, sondern auf einem Rauschen früherer Zeit basieren mag. Vorzugsweise wird die Schätzung des Hintergrundrauschens in einem Rauschunterdrücker erzeugt. Obwohl der Detektor ein Teil des Rauschunterdrückers sein kann, kann er eine getrennte Einheit sein, die an den Rauschunterdrücker Ausgaben abgibt und Eingaben annimmt. Das Abnehmen der Amplitude kann sich durch einen oder mehrere verlorene Rahmen ergeben oder durch ein Dämpfungs- und Wiederholungsverfahren, das verwendet wird, um einen oder mehrere solche Rahmen zu maskieren, oder es kann sich durch eine Reduktion des tatsächlichen Rauschens, das im Signal enthalten ist, ergeben, was gleichzeitig erfolgt. Alternativ detektiert der Detektor eine Diskontinuität, die durch eine Stummschaltung des Mikrofons verursacht wird. Das Reduzieren der Rate der Aktualisierung der Rauschschätzung führt dazu dass die Schätzung des Rauschens weniger durch einen Teil des Signals beeinflusst wird, der zu dieser speziellen Zeit verarbeitet wird. Auf diese Weise basiert die Schätzung des Rauschens auf echtem Hintergrundrauschen, wenn es noch im Signal enthalten ist, aber sein Einfluss wird reduziert, um mit der Möglichkeit umzugehen, dass echtes Hintergrundrauschen zu dieser Zeit nicht mehr länger im Signal enthalten ist, sondern irgend ein anderes Signal, beispielsweise ein wiederholter und gedämpfter Rahmen, stattdessen verwendet wird.
  • Gemäß einem anderen Aspekt der Erfindung wird ein Verfahren für die Detektion von Diskontinuitäten in einem Signal, das eine Sequenz von Rahmen umfasst und Hintergrundrauschen enthält, bereitgestellt, wobei es umfasst:
    Messen der Amplitude des Signals, um einen plötzlichen Abfall der Amplitude zu detektieren;
    Detektieren, wenn die Amplitude abfällt;
    Bestimmen der Schärfe des Abfalls; und
    wenn die Schärfe ausreichend ist, Liefern einer Diskontinuitätsanzeige, um die Schätzung des Hintergrundrauschens zu steuern.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein mobiles Endgerät geliefert, das einen Rauschunterdrücker umfasst, wobei der Rauschunterdrücker eine Schätzeinrichtung für das Schätzen von Hintergrundrauschen in einem Signal, das eine Sequenz von Rahmen umfasst, und einen Detektor für das Detektieren von Diskontinuitäten im Signal umfasst, wobei die Amplitude des Signals gemessen wird, um einen plötzlich Abfall der Amplitude zu detektieren, und wenn ein Amplitudenabfall detektiert ist, so wird seine Schärfe bestimmt, und wenn die Schärfe ausreichend groß ist, wird eine Diskontinuitätsanzeige geliefert, um die Schätzung des Hintergrundrauschens zu steuern.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Kommunikationssystem geliefert, das ein Kommunikationsnetz umfasst, das einen Rauschunterdrücker und eine Vielzahl von Kommunikationsendgeräten besitzt, wobei das Kommunikationssystem eine Schätzeinrichtung umfasst, um Hintergrundrauschen in einem Signal zu schätzen, das eine Sequenz von Rahmen umfasst, und einen Detektor für das Detektieren von Diskontinuitäten im Signal, in welchem die Amplitude des Signals gemessen wird, um einen plötzlichen Abfall der Amplitude zu detektieren, und wenn ein Amplitudenabfall detektiert wird, wird seine Schärfe bestimmt, und wenn die Schärfe ausreichend groß ist, so wird eine Diskontinuitätsanzeige geliefert, um die Schätzung des Hintergrundrauschens zu steuern.
  • Gemäß einem anderen Aspekt der Anmeldung wird eine Rauschunterdrückungsstufe geliefert, um auf ein Signal zu wirken, wobei die Rauschunterdrückungsstufe einen ersten Fensterblock umfasst, um das Signal mit einer ersten Fensterfunktion zu gewichten, einen Transformator, um das Signal vom Zeitbereich in den Frequenzbereich zu transformieren, einen Transformator, um das Signal vom Frequenzbereich in den Zeitbereich zu transformieren, und einen zweiten Fensterblock, um das Signal durch eine zweite Fensterfunktion zu gewichten.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Zweiphasen-Fensterverfahren geliefert, das folgende Schritte umfasst:
    Gewichten eines Signals im Zeitbereich durch eine erste Fensterfunktion, um einen Rahmen zu erzeugen;
    Transformieren des Rahmens in den Frequenzbereich;
    Transformieren des Rahmens zurück in den Zeitbereich; und
    Gewichten des Rahmens mit einer zweiten Fensterfunktion, um Fehler bei der Anpassung zwischen benachbarten Rahmen zu unterdrücken.
  • Vorzugsweise umfasst das Verfahren den Schritt des Gewichtens mit dem Fenster nach dem Sprachkodierschritt. Alternativ kann eine Gewichtung vor einem Sprachkodierschritt erfolgen.
  • Vorzugsweise haben die Fensterfunktionen eine trapezförmige Form, die eine vordere Flanke und eine hintere Flanke aufweist. Vorzugsweise weist die erste Fensterfunktion eine vordere Flanke auf, die einen Gradienten besitzt, der flacher als der der hinteren Flanke der zweiten Fensterfunktion ist. Vorzugsweise weist die erste Fensterfunktion eine hintere Flanke auf, die einen Gradienten besitzt, der flacher als der der hinteren Flanke der zweiten Fensterfunktion ist. Die relativ flache Neigung bei der ersten Fensterfunktion ermöglicht eine gute Frequenztransformation. Die relativ steile Flanke in der zweiten Fensterfunktion liefert eine gute Unterdrückung der Fehlanpassung zwischen benachbarten Rahmen im Zeitbereich.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein mobiles Endgerät geliefert, das eine Rauschunterdrückungsstufe umfasst, um auf ein Signal zu wirken, wobei die Rauschunterdrückungsstufe einen ersten Fensterblock umfasst, um das Signal durch eine erste Fensterfunktion zu gewichten, einen Transformator, um das Signal vom Zeitbereich in den Frequenzbereich zu transformieren, einen Transformator, um das Signal vom Frequenzbereich in den Zeitbereich zu transformieren, und einen zweiten Fensterblock, um das Signal mit einer zweiten Fensterfunktion zu gewichten.
  • Gemäß einem anderen Aspekt der Anmeldung wird ein Kommunikationssystem geliefert, das ein Kommunikationsnetz umfasst, das eine Rauschunterdrückungsstufe besitzt, um auf ein Signal zu wirken, und eine Vielzahl von Kommunikationsendgeräten, wobei die Rauschunterdrückungsstufe einen ersten Fensterblock umfasst, um das Signal mit einer ersten Fensterfunktion zu gewichten, einen Transformator, um das Signal vom Zeitbereich in den Frequenzbereich zu transformieren, einen Rauschunterdrücker, um Rauschen im Signal zu unterdrücken, einen Transformator, um das Signal vom Frequenzbereich in den Zeitbereich zu transformieren, und einen zweiten Fensterblock, um das Signal mit einer zweiten Fensterfunktion zu gewichten.
  • Das Signal kann eine rauschbehaftete Sprache sein, obwohl Sprache nicht die ganze Zeit vorhanden sein muss.
  • Eine Ausführungsform der Erfindung wird nun nur beispielhaft unter Bezug auf die eingeschlossenen Zeichnungen beschrieben:
  • 1 zeigt ein mobiles Endgerät gemäß dem Stand der Technik;
  • 2 zeigt ein mobiles Endgerät gemäß der Erfindung;
  • 3 zeigt ein Detail eines Rauschunterdrückers im mobilen Endgerät der 2;
  • 4 zeigt Darstellungen der Fensterfunktionen gemäß der Erfindung;
  • 5 zeigt die Erfindung in Form eines Flussdiagramms; und
  • 6 zeigt ein Kommunikationssystem, das die Erfindung einschließt.
  • 1 wurde oben in Verbindung mit konventionellen Rauschunterdrückungstechniken, die aus dem Stand der Technik bekannt sind, beschrieben.
  • 2 zeigt ein mobiles Endgerät ähnlich dem der 1, modifiziert gemäß der Erfindung. Entsprechende Bezugszahlen wurden auf entsprechende Teile angewandt. Das Endgerät 10 der 2 umfasst zusätzlich einen Rauschunterdrücker 44, der im empfangenden Zweig 14 (Abwärtsverbindungszweig/die Sprache dekodierender Zweig) angeordnet ist. Es sollte angemerkt werden, dass der Rauschunterdrücker 44 mit der DTX-Handhabungseinrichtung 36 und der Schlechtrahmenhandhabungseinheit 38 verbunden ist. Der Rauschunterdrücker 44 empfängt Signale von der DTX-Handhabungseinrichtung 36 und der Schlechtrahmenhandhabungseinrichtung 38, die seinen Betrieb beeinflussen, wie das unten beschrieben werden wird. Es sollte angemerkt werden, dass während die Rauschunterdrückereinheiten in den die Sprache kodierenden und die Sprache dekodierenden Zweigen als getrennte Blöcke (20 und 44) in 2 gezeigt sind, sie als eine einzige Einheit implementiert werden können. Eine solche einzelne Einheit kann sowohl eine Sprachkodier- als auch eine Sprachdekodierrauschunterdrückungsfunktion aufweisen.
  • Der Rauschunterdrücker 44 ist im empfangenden (die Sprache dekodierenden) Zweig 14 am Ausgang eines Sprachdekodierers (in diesem Fall dem Sprachdekodierer 34) angeordnet. Somit muss er ein rauschbehaftetes Sprachsignal verarbeiten, das sich aus einer oder mehreren Sprachkodier- und Sprachdekodierstufen ergibt, beispielsweise in Mobil-zu-Mobil-Verbindungen über ein oder mehrere Mobiltelefonsysteme.
  • Es sollte verständlich sein, dass obwohl der Rauschunterdrücker 44 in einem mobilen Endgerät gezeigt ist, er gleichermaßen in einem Netz angeordnet sein kann. Wie unten erläutert werden wird, ist sein Betrieb insbesondere relevant, wenn er in Verbindung mit einem Sprachkodierer, einem Sprachdekodierer oder einem Kodierer-Dekodierer verwendet wird.
  • 3 zeigt Details eines Rauschunterdrückers 300. Der Rauschunterdrücker 300 kann angewandt werden, um Rauschen in Signalen zu unterdrücken, die von einem mobilen Endgerät empfangen und gesendet werden, und kann so die Basis eines Rauschunterdrückers 20 oder Rauschunterdrückers 44 im mobilen Endgerät 10 der 2 bilden. Der Rauschunterdrücker 300 ist in Form von funktionellen Blöcken dargestellt. Funktionelle Blöcke sind auch eingeschlossen, um die Rahmenverarbeitung und die Operationen der schnellen Fouriertransformation (FFT) auszuführen.
  • Im Aufwärtsverbindungszweig (die Sprache kodierenden Zweig) erzeugt der A/D-Wandler 18 einen Strom digitaler Daten, der an den Rauschunterdrücker 20 geliefert wird, der ihn in einen Eingaberahmen umwandelt. Das Erzeugen dieses Eingaberahmens wird nun unter Bezug auf 3 beschrieben. Ein Eingangssequenz 312 von Rahmen mit 80 Abtastwerten wird aus einem Eingabestrom 314 in einem Eingabesequenzausbildungsblock 316 extrahiert. Die Eingabesequenz 312 wird an eine 18-Abtastwert-Sequenz, die in einem Eingabeüberlappsegmentpuffer 318 gespeichert ist, angehängt. Diese 18-Abtastwert-Sequenz wurde im Puffer 318 während des Erzeugens einer vorherigen Eingabesequenz erzeugt. Wenn die Inhalte des Puffers 318 für den neuen Eingaberahmen verwendet wurden, so werden sie durch die letzten 18 Abtastwerte der neuen Eingabesequenz ersetzt, die bei der Erzeugung des nächsten Rahmens verwendet werden. Die Ausgabe des Eingabesequenzausbildungsblocks 316 ist somit eine Sequenz, die insgesamt 98 Abtastwerte enthält.
  • Im Block 320 wird eine trapezförmige Fensterfunktion mit 98 Abtastwerten auf die Eingabesequenz 312, die vom Eingabesequenzausbildungsblock 316 erhalten wird, angewandt. Die Fensterfunktion ist in 4 dargestellt und mit der Bezeichnung W1 versehen. 4 zeigt auch eine andere Fensterfunktion W3, die unten beschrieben wird. Die Fensterfunktion W1 weist vordere und hintere Rampen 12 mit einer Länge von 12 Abtastwerten auf. Nach der Fenstertechnik werden an die sich ergebende Eingangssequenz 30 Nullen angehängt, um einen Eingaberahmen mit 128 Abtastwerten zu erzeugen. Es sollte angemerkt werden, dass die gerade beschriebene Operation des Auffüllens mit Nullen zu einem Eingaberahmen mit einer Anzahl von Abtastwerten führt, die eine Potenz von 2 ist, in diesem Fall 27. Dies gewährleistet, dass die nachfolgende schnelle Fouriertransformation (FFT) und die inverse schnelle Fouriertransformation (IFFT) effizient ausgeführt werden können.
  • Im Block 322 wird eine 128-Punkt FFT mit dem Eingaberahmen ausgeführt, um das Frequenzspektrum des Rahmens zu extrahieren. Das Amplitudenspektrum wird aus der komplexen FFT unter Verwendung einer vorbestimmten Frequenzteilung berechnet, die grober ist als die Frequenzauflösung, die durch die FFT-Länge geboten wird. Die Frequenzbänder, die durch diese Teilung bestimmt werden, werden als "Berechnungsfrequenzbänder (calculation frequency bands)" bezeichnet. Die Amplitudenspektrumsschätzung enthält Information über die Frequenzverteilung des Signals, die dann im Rauschunterdrücker 44 verwendet wird, um Rauschunterdrückungsverstärkungskoeffizienten für die Berechnungsfrequenzbänder zu berechnen (Block 328). Zum Teil liegt der Zweck dieser Berechnung darin, eine Schätzung des Frequenzspektrums des Hintergrundrauschens zu erzeugen und aufrecht zu halten.
  • Im Block 330 wird die komplexe FFT, die als eine Ausgabe von Block 322 geliefert wird, multipliziert mit den Berechnungsfrequenzbändern mit den entsprechenden Verstärkungskoeffizienten vom Block 328. Schließlich wird das modifizierte komplexe Spektrum zurück in den Zeitbereich transformiert von Block 330, der eine inverse FFT im Block 366 verwendet.
  • Es ist bekannt, dass die Rechenbelastung und die Speicheranforderungen als auch die Verzögerung durch den Algorithmus bei Fenstertechnikoperationen unter Verwendung einer einfachen Trapezfensterfunktion mit einem kurzen Überlappsegment reduziert werden können. Die Verwendung einer solchen einfachen Fensterfunktion kann jedoch zu unerwünschten Effekten im Ausgangssignal führen. Der auffälligste ist ein knackender Ton, der durch eine Fehlanpassung (beispielsweise im Signalpegel und dem Spektralgehalt) an den kurzen, überlappenden Rahmengrenzen eingeführt wird. Dieses Artefakt kann bei Zuständen eines moderaten Eingangs-SNR auftreten, wo die Verstärkungsfunktion oft stark variierende Dämpfungsverstärkungen (attenuation gains) zwischen den Berechnungsfrequenzbändern zeigt. Wenn der Rauschunterdrücker als eine Vorverarbeitungsstufe vor einem Sprachkodierer wirkt, beispielsweise im Aufwärtsverbindungszweig (die Sprache kodierenden Zweig), wird dieses Knacken typischerweise durch das Sprach-Kodier-Dekodier-Verfahren selbst maskiert.
  • Im Fall der mobilen Endgeräts 10 der 2 gibt es jedoch keine weitere Sprachkodierstufe, die stromabwärts des Rauschunterdrückers 44 angeordnet ist. Somit werden unerwünschte Artefakte, die durch die Verwendung von trapezförmigen Fensterfunktionen mit kurzen überlappenden Segmenten eingeführt werden, durch ein nachfolgendes Kodierverfahren nicht verborgen, und sie werden im Ausgangssignal, das an den Lautsprecher/Ohrhörer 42 geliefert wird, hörbar sein. Um dieses Problem zu überwinden, könnte die Länge des Überlappungssegments verlängert und die Fensterfunktion sanfter gemacht werden, wobei dies aber zu einer Erhöhung der Komplexität der Berechnung und insbesondere einer Verzögerung durch den Algorithmus führen würde.
  • Somit wird gemäß der Erfindung ein Ausgabezeitbereichsrahmen durch ein verbessertes Überlappungshinzufügungsverfahren ausgebildet, um Artefakte in den Gebieten der Rahmengrenze zu unterdrücken. Dies wird durch die Fensterfunktionen W1 und W3 dargestellt. Es wird eine "zweiphasige" Fenstertechnikanordnung angewandt, in welcher eine Kombination von mindestens zwei trapezförmigen Fensterfunktionen, die leicht unterschiedliche Eigenschaften aufweisen, verwendet wird, eine Fensterfunktion, um Rahmen, die in eine FFT eingegeben werden, einer Fensterfunktion zu unterwerfen, und eine andere Fensterfunktion, um Rahmen, die von einer IFFT ausgegeben werden, einer Fensterfunktion zu unterwerfen. Im Verfahren gemäß der Erfindung wird eine erste trapezförmige Fensterfunktion W1, die relativ lange und flache Rampen aufweist, auf das Eingabesignal im Block 320 angewandt, bevor die FFT im Block 322 ausgeführt wird. Wenn das Eingangssignal durch die IFFT in Block 366 zurück in den Zeitbereich transformiert wird, wird das Ausgangssignal der IFFT im Block 368 durch eine zweite trapezförmige Fensterfunktion W3, die kürzere und steilere Rampen als die Fensterfunktion, die vor der FFT verwendet wurde, aufweist, modifiziert. Die Länge des Überlappungshinzufügungssegments wird durch die Rampenlänge des zweiten abgeschrägten Fensters bestimmt. Die Fensterfunktionen W1 und W3 kann man in 4 sehen und vergleichen.
  • W3 ist nur 86 Abtastwerte lang und weist vordere und hintere Rampenfunktionen mit einer Länge von 6 Abtastwerten auf. Der Beginn dieses zweiten Fensters ist synchronisiert mit dem sechsten Abtastwert der IFFT-Ausgangssequenz (Vektor), und die Rampenfunktionen sind derart ausgebildet, dass sie eine lineare Rampe mit der Länge von sechs Abtastwerten an beiden Enden des Fensters erzeugen. Das Ausgangssignal dieser Operation ist ein Vektor mit 86 Abtastwerten, wobei die ersten sechs Abtastwerte Abtastwert für Abtastwert in Block 372 mit Abtastwerten von einem Ausgabeüberlappungssegmentpuffer 370 derselben Größe, die während der Verarbeitung des vorherigen Rahmens gespeichert wurden, aufsummiert werden. Die letzten sechs Abtastwerte des Fensterausgabevektors werden dann im Ausgabeüberlappungssegmentpuffer 370 für eine Verwendung im nächsten Rahmen gespeichert. Im Block 374 wird der Ausgaberahmen schließlich als die ersten 80 Abtastwerte der Fensterausgabe, die die obige Summation der ersten sechs Abtastwerte mit dem vorherigen Abtastwerten aus dem Überlappungssegmentpuffer einschließen, extrahiert.
  • Es sollte auch angemerkt werden, dass das oben beschriebene zweiphasige trapezförmige Fenstertechnikverfahren in Verbindung mit einem Rauschunterdrücker als eine Nachverarbeitungsstufe nach der Sprachdekodierung verwendet werden kann, oder dass es in einem Rauschunterdrücker, der als Vorprozessor vor der Sprachkodierung verwendet wird, angewandt werden kann. Insbesondere kann die verbesserte Qualität, die vom zweiphasigen Fenster am Eingang eines Sprachkodierers geliefert wird, die Qualität verbessern, die im Sprachkodierverfahren erzielt wird.
  • Da die Eingabevektoren für die FFTs in der Praxis reelle Zahlen umfassen, kann die Rechenbelastung reduziert werden, indem zwei Eingaberahmen in eine komplexe FFT gepackt werden, unter Verwendung eines trigonometrischen Rekombinationsverfahren, wie es in "Numerical Recipes in C"; The Art of Scientific Computing (Seiten 414-415), 1988 beschrieben ist. Bei dieser Lösung werden die Abtastwerte eines ersten, einer Fensterfunktion unterworfenen und mit Nullen aufgefüllten Rahmens den reellen Komponenten der Eingabesequenz für die FFT zugewiesen. Ein zweiter Rahmen wird den imaginären Komponenten der Eingangssequenz zugewiesen. Es wird dann eine komplexe 128-Punkt FFT berechnet. Die komplexen Spektren der zwei Rahmen können durch eine trigonometrische Rekombination getrennt werden. Nach einer Rauschreduktionsverarbeitung der beiden komplexen Spektren werden sie kombiniert, indem zum ersten Spektrum das zweite Spektrum multipliziert mit der Imaginäreinheit hinzugefügt wird. Das sich ergebende komplexe Spektrum wird in eine IFFT eingegeben, und die ausgegebenen Rahmen im Zeitbereich können in den reellen und imaginären Teilen des IFFT-Ausgangssignals gefunden werden.
  • Ein ungefähres Amplitudenspektrum wird in Block 326 aus der komplexen FFT berechnet. In jedem FFT-Abschnitt wird der komplexe Wert ins Quadrat gesetzt, um einen Energiewert für diesen Abschnitt zu erzeugen. Die ins Quadrat erhobenen FFT-Abschnittswerte in jedem der Berechnungsfrequenzbänder werden summiert, und dann wird die Quadratwurzel gezogen, um annähernd eine mittlere Amplitude für jedes Berechnungsfrequenzband zu erhalten. Es sollte erkannt werden, dass Leistungsspektralwerte in einer völlig analogen Weise verwendet werden können.
  • Die Schätzung des Hintergrundrauschspektrums basiert auf der angenäherten Amplitudenspektrumsdarstellung, die als ein Ausgangssignal aus Block 326 erhalten werden kann. Verfahren für das Aktualisieren der Schätzung des Hintergrundrauschspektrums werden unten diskutiert.
  • In der bevorzugten Ausführungsform der Erfindung wird der Frequenzbereich von 0 Hz bis 4 kHz in 12 Berechnungsfrequenzbänder, die ungleichmäßige Breiten aufweisen, aufgeteilt. Die Aufteilung basiert auf statistischem Wissen über die mittleren Positionen der Formantfrequenzen in der Sprache. Das Verfahren zur Mittelung von Spektralwerten über die Berechnungsfrequenzbänder reduziert die Anzahl der zu verarbeitenden spektralen Anteile effektiv und reduziert somit die Rechenbelastung des Algorithmus und führt zu Einsparungen im statischen und im dynamischen Speicher mit wahlfreiem Zugriff (RAM). Darüber hinaus weist die Mittelung im Frequenzbereich eine Glättungswirkung auf die verbesserte Sprache auf. Diese Vorteile werden jedoch auf Kosten der Frequenzauflösung erricht, und somit kann ein Kompromiss notwendig werden. Insbesondere wenn das Hintergrundrauschen denselben Frequenzbereich wie das Sprachsignal belegt, sollte die Frequenzauflösung hoch genug sein, um eine ausreichende Trennung zwischen Sprache und Rauschen zu erlauben.
  • Es wird nun die Funktion des Rauschunterdrückungsverfahrens, das im Rauschunterdrücker 44 stattfindet, beschrieben. Die Rauschunterdrückung betrifft die Verbesserung eines Sprachsignals, das durch zusätzliches Hintergrundrauschen verschlechtert wurde. Gemäß der vorliegenden Erfindung wird die Rauschunterdrückung durch das Berechnen einer Schätzung des Spektrums des rauschbehafteten Sprachsignals, eine Schätzung des Spektrums des Hintergrundrauschens und das Versuchen eine Verbesserung des rauschbehafteten Sprachspektrums mit einem niedrigeren Rauschpegel als die ursprüngliche rauschbehaftete Sprache zu erzeugen.
  • Im Rauschunterdrücker 44 wird eine modifizierte Wiener Filterung verwendet. Verstärkungskoeffizienten für jedes Berechnungsfrequenzband werden im Block 328 berechnet, basierend auf einer A-priori-SNR-Schätzung, die in Block 344 berechnet wird unter Verwendung der Schätzungen des Amplitudenspektren für den ankommenden (aktuellen) Sprachrahmen und des Hintergrundrauschens. Eine Interpolation, die auf diesen Verstärkungskoeffizienten basiert, wird dann im Block 351 ausgeführt, um jeden FFT-Spektralanteil mit einem Verstärkungskoeffizienten gemäß dem Berechnungsfrequenzband, in dem er sich befindet, zu versorgen. Verstärkungskoeffizienten für die FFT-Spektralanteile unterhalb der unteren Frequenz des untersten Berechnungsfrequenzbandes werden auf der Basis des Verstärkungskoeffizienten des untersten Berechnungsfrequenzbandes bestimmt. In ähnlicher Weise werden die Verstärkungskoeffizienten, die auf FFT-Spektralanteile über der höchsten Grunde des höchsten Berechnungsfrequenzbandes, angewandt werden, unter Verwendung des Verstärkungskoeffizienten für das höchste Berechnungsfrequenzband bestimmt. Die komplexen Spektralkomponenten werden mit den entsprechenden Verstärkungskoeffizienten im Block 330 multipliziert. Im Rauschunterdrücker 44 liegen Verstärkungskoeffizientenwerte im Bereich [low gain, 1], wobei low_gain < 1 da das die Verfahrenssteuerung im Hinblick auf Überlaufvorgänge vereinfacht.
  • Die Verstärkungsberechnungsformel für die Wiener-Amplitudenschätzung für einen Frequenzspektralanteil θ kann geschrieben werden als:
    Figure 00330001
    wobei ξ(θ) das A-priori-SNR ist. Gemäß dem Stand der Technik kann ein A-priori-SNR gemäß einem auf ein auf Entscheidung gerichteten Schätzverfahren geschätzt werden, wie beispielsweise das, das in den IEEE Transactions on Acoustics, Speech and Signal Processing, ASSP-32(6), 1984 präsentiert ist. Gleichung 1 wird modifiziert unter Verwendung einer schrittweisen Mittelung des Amplitudenspektrums im Frequenzbereich in den Berechnungsfrequenzbändern, was kleinere Spektralanteil-zu-Spektralanteil-Differenzen in einem Band als bei der ursprünglichen Wiener-Schätzeinrichtung, die die volle FFT-basierte Frequenzauflösung verwendet, verursacht. Um Klarheit in der Notation zu erzielen, wird das Symbol s nachfolgend verwendet, um sich auf ein Berechnungsfrequenzband zu beziehen und es von θ zu unterscheiden, dem Symbol, das verwendet wird, um einen FFT-Spektralanteil zu bezeichnen. Weiter wird, um einen Verstärkungskoeffizienten in einem Berechnungsfrequenzband zu berechnen, eine Modifikation der grundsätzlichen Wiener-Amplitudenschätzeinrichtung verwendet. Dies kann dargestellt werden als:
    Figure 00330002
  • Die Modifikation bei der Wiener-Filterung, die hier eingeführt wird, betrifft den Weg, auf welchem ein A-priori-SNR für jedes Berechnungsfrequenzband geschätzt wird. Im wesentlichen gibt es keinen Weg, um ein wahres SNR a priori aus einem Einkanalsignal zu extrahieren, da die ursprünglichen Sprach- und Rauschsignale selbst nicht a priori bekannt sind.
  • Die Schätzung eines A-priori-SNR findet in Block 344 statt. Gemäß dem Stand der Technik kann ein A-priori-SNR unter Verwendung der auf eine Entscheidung gerichteten Lösung, die oben erwähnt wurde, geschätzt werden, was mathematisch folgendermaßen ausgedrückt werden kann: ξ(s,n) = αG2 (s,n – 1)γ(s,n – 1) + (1 – α)P[γ(s,n) – 1] 3
  • In Gleichung 3 ist γ(s,n) ein A-posteriori-SNR eines Rahmens Nummer n, berechnet im Block 342 als das Verhältnis der Komponenten des Leistungsspektrums des aktuellen Rahmens und der Schätzung des Leistungsspektrums des Hintergrundrauschens für das Berechnungsfrequenzband s. Dieses Leistungsverhältnis wird durch das Quadrieren des Verhältnisses der entsprechenden Komponenten der jeweiligen Schätzung des Amplitudenspektrums berechnet. G(s,n – 1) ist der Verstärkungskoeffizient für das Berechnungsfrequenzband s, bestimmt für den vorherigen Rahmen, P(.) ist die Gleichrichtfunktion und α ein sogenannter "Vergessensfaktor (forgetting factor" (0 < α < 1). Gemäß der auf eine Entscheidung gerichteten Lösung kann α einen von zwei Werten in Abhängigkeit von der VAD-Entscheidung für den aktuellen Rahmen annehmen.
  • Das A-priori-SNR kann bei hohen SNR-Verhältnissen genau geschätzt werden, und allgemeiner in Frequenzbändern, bei denen Sprache entweder klar vorhanden oder total fehlend ist. Da jedoch die Wiener-Schätzformel, die in Gleichung 1 präsentiert wurde, eine Ableitung aufweist, die in Richtung niedriger Werte des SNR stark zunimmt, und die Schätzung, die durch die Gleichung 3 gegeben wird, bei niedrigen SNR-Werten nicht vollständig genau ist, bewirkt die direkte Anwendung der Wiener-Schätzformel, wie sie in Gleichung 1 präsentiert ist, störende Effekte bei Frequenzbändern mit niedrigem SNR, wenn etwas Sprache vorhanden ist. Zusätzlich zur Störung der Sprache kann das Restrauschen bei Sprachäußerungen bei moderaten Rauschpegeln störend unstetig werden.
  • In der vorliegenden Erfindung wird ein A-priori-Verhältnis der rauschbehafteten Sprache zum Rauschen statt dem konventionellen Sprach-zu-Rausch-Verhältnis, das oben eingeführt wurde, geschätzt. In der folgenden Beschreibung wird das Verhältnis der rauschbehafteten Sprache zum Rauschen unter Verwendung der Abkürzung NSNR bezeichnet. Durch die Verwendung einer Schätzung eines A-priori-NSNR statt einer direkten Schätzung des A-priori-SNR kann die subjektive (wahrgenommene) Qualität eines rauschunterdrückten Sprachsignals signifikant verbessert werden.
  • Somit wird gemäß der Erfindung die Schätzung eines A-priori-SNR durch eine Schätzung eines Verhältnisses der rauschbehafteten Sprache zum Rauschen, NSNR, ersetzt, was zur folgenden Formel führt, die die Gleichung 3 ersetzt: ξ(s,n) = αG2(s,n – 1)γ(s,n – 1) + (1 – α)P[γ(s,n)] 4
  • Es wird beansprucht, dass das NSNR genauer als ein A-priori-Sprach-zu-Rausch-Verhältnis SNR geschätzt werden kann. Gemäß der Gleichung 4 werden A-posteriori-SNR-Werte, die aus dem vorherigen Rahmen erhalten werden, multipliziert mit den jeweiligen Verstärkungskoeffizienten für den vorherigen Rahmen bei der Berechnung des A-priori-Verhältnisses der rauschbehafteten Sprache zum Rauschen für den aktuellen Rahmen verwendet. Die A-posteriori-SNR-Werte für jeden Rahmen werden im SNR-Speicherblock 345 nach der Berechnung der Verstärkungskoeffizienten für den Rahmen gespeichert. Somit können die A-posteriori-SNR-Werte für den vorherigen Rahmen aus dem SNR-Speicherblock 345 abgerufen und bei der Berechnung eines A-Priori-NSNR des aktuellen Rahmens verwendet werden.
  • Gemäß der Erfindung ist die NSNR-Schätzung, die von Gleichung 4 geliefert wird, auch von unten begrenzt, wie das in Gleichung 5 ausgedrückt wird. Dies ergibt eine obere Grenze für die maximale Rauschunterdrückung, die man erhalten kann:
    Figure 00360001
  • Durch das Wählen eines Schwellwerts ξ_min, der zu einer maximalen Dämpfung von ungefähr 10 dB führt, und das Ersetzen von ξ'(s) in der Wiener-Verstärkungsformel, wird das Resthintergrundrauschen (das ist die Rauschkomponente, die nach der Rauschunterdrückung verbleibt) sanft und die Störung der Sprache wird signifikant reduziert.
  • Der Vergessensfaktor α in Gleichung 4 wird auch anders als in den Rauschunterdrückungsverfahren des Stands der Technik behandelt. Statt dem Auswählen des Vergessensfaktors α auf der Basis der VAD-Entscheidung wird er auf der Basis der vorherrschenden SNR-Zustände bestimmt. Dieses Merkmal wird durch die Tatsache motiviert, dass bei niedrigen SNR-Zuständen die Glättung der A-priori-NSNR-Schätzung im Zeitbereich den schädlichen Effekt von Schätzungsfehlern auf die Qualität der rauschunterdrückten Sprache reduzieren kann. Um die Beziehung zwischen dem Vergessensfaktor und den vorherrschenden SNR-Zuständen zu erzeugen, wird α auf der Basis einer invertierten A-posteriori-SNR-Anzeige, snr_ap_In, die in der Gleichung 6 unten gezeigt ist, berechnet: α = α(snr_ap_in) 6
  • Es wird auch eine SNR-Korrektur in die A-priori-NSNR-Schätzung eingeführt. Diese Korrektur reduziert einen Tendenz das A-priori-NSNR der Gleichung 4 bei niedrigen SNR-Zuständen zu niedrig zu schätzen, ein Effekt der eine Dämpfung und eine Störung der rauschunterdrückten (verbesserten) Sprache bewirkt. Um die SNR-Korrektur auszuführen, werden die Langzeit-SNR-Zustände am Eingang des Rauschunterdrückers überwacht. Für diesen Zweck werden Langzeitschätzungen des Pegels der rauschbehafteten Sprache und des Rauschpegels errichtet und im Block 348 geführt durch die Filterung der gesamten Eingaberahmenleistungswerte und der Gesamtleistung der Schätzung des Hintergrundrauschspektrums im Zeitbereich.
  • Um eine Sprachpegelschätzung zu erhalten, wird das Leistungsspektrum des aktuellen Sprachrahmens über die Berechnungsfrequenzbänder gemittelt. Die Rahmenleistungen werden mit einem variablen Vergessensfaktor und einer variablen Rahmenverzögerung gefiltert, um die Schätzung des Pegels der rauschbehafteten Sprache zu erzeugen. Die Schätzung des Rauschpegels wird durch das Mitteln der Schätzung des Hintergrundrauschspektrums über die Berechnungsfrequenzbänder und das Filtern über der Zeit mit einem festen Vergessensfaktor erhalten.
  • Der Rauschunterdrücker 44 umfasst auch einen Sprachaktivitätsdetektor (VAD) 336, der verwendet wird, um das Verfahren der Aktualisierung der Schätzung des Hintergrundrauschspektrums zu steuern, wie das nun beschrieben wird. Eine Sprachaktivitätsdetektion wird im Rauschunterdrücker 44 hauptsächlich verwendet, um die Schätzung des Hintergrundrauschspektrums zu steuern. Die Entscheidung des VAD 336 für jeden Rahmen wird jedoch auch verwendet, um mehrere andere Funktionen, wie eine Schätzung der rauschbehafteten Sprache und der Rauschpegel, die sich auf die A-priori-NSNR-Schätzung (oben beschrieben) und das Minimumsuchverfahren bei der Verstärkungsberechnung (unten beschrieben) beziehen, zu steuern. Weiterhin kann der VAD-Algorithmus verwendet werden, um eine Sprachdetektionsanzeige für externe Zwecke zu liefern. Die Funktion der VAD-Anzeige kann für externe Funktionen optimiert werden, wie eine Freihandechosteuerung oder diskontinuierliche Übertragungsfunktionen (DTX) durch das Vornehmen kleiner Modifikationen, wie Änderungen von Parameterwerten, um die Empfindlichkeit des VAD zu erhöhen oder zu erniedrigen.
  • Um die Schätzung des Pegels der rauschbehafteten Sprache nur in Rahmen, die Sprache enthalten, zu aktualisieren, wird die Aktualisierung in Abhängigkeit davon, ob eine Sprachaktivität durch den VAD 336 im aktuellen Rahmen und in in der Nähe befindlichen Rahmen detektiert wird, gestattet oder verhindert. Eine Verzögerung wird eingeführt, um eine Überwachung der Entscheidungen des VAD 336 vor und nach dem Rahmen, aus dem die Aktualisierungsleistung erhalten wird, zu ermöglichen. Durch das Anwenden dieser Vorsichtsmaßnahme kann der Einfluss auf die Schätzung des Sprachpegels kleiner Leistungswerte in Rahmen, die Übergänge zwischen einer rauschbehafteten Sprache und reinem Rauschen darstellen, vermindert werden, und die inhärente Unzuverlässigkeit der Entscheidungen des VAD 336 in diesen Rahmen kann kompensiert werden. In der Praxis wird die Verzögerung auf 2 Rahmen festgelegt, mit der Ausnahme bei Rahmen mit einer sehr hohen Rahmenleistung, wobei in diesem Fall das Minimum innerhalb der letzten drei Rahmen, für die der VAD 336 Sprache detektiert, ausgewählt wird.
  • Um das Aktualisieren mit Rahmenleistungen zu begünstigen, die den mittleren Bereich der Leistung der rauschbehafteten Sprache darstellen, nimmt der Vergessensfaktor Werte an, die das schnellste Aktualisieren in Fällen erlauben, bei denen die Differenz zwischen der Leistung des aktuellen Rahmens und der alten Schätzung des Sprachpegels in absoluten Ausdrücken klein ist.
  • Die Schätzung des Rauschpegels wird durch das Filtern der Gesamtleistung in der Schätzung des Hintergrundrauschspektrums auf einer Rahmen für Rahmen Basis erhalten. In diesem Fall werden keine zusätzlichen VAD-basierten Bedingungen festgelegt, und der Vergessensfaktor wird konstant gehalten, da das Aktualisierungsverfahren für die Schätzung des Rauschpegels schon ziemlich zuverlässig ist.
  • Schließlich wird eine relative Rauschpegelanzeige definiert, die als ein SNR-Korrekturfaktor verwendet wird. Sie ist als ein skaliertes und begrenztes Verhältnis der Schätzung des Rauschpegels zur Schätzung des Pegels der rauschbehafteten Sprache definiert, wie das unten in Gleichung 7 gezeigt ist:
    Figure 00390001
    wobei N ^ die Schätzung des Rauschpegels und Ŝ die Schätzung des Pegels der rauschbehafteten Sprache ist; κ ist ein Skalierungsfaktor, und max_η ist die obere Grenze des Ergebnisses. N ^ und Ŝ werden in Block 348 berechnet. Die Begrenzung kann einfach als eine Sättigung in einer Festpunktarithmetik implementiert werden, und die Skalierung kann durch ein Linksverschieben durch das Setzen κ = 2 ersetzt werden. Da gemäß einer bevorzugten Ausführungsform der Erfindung die Schätzungen des Pegels der rauschbehafteten Sprache und des Rauschpegels im Amplitudenbereich gespeichert werden, wird das Verhältnis in Gleichung 7 zuerst für die Amplituden berechnet und dann ins Quadrat genommen, um ein Verhältnis im Leistungsbereich zu erzeugen.
  • Die Schätzung N ^ des Rauschpegels, die oben beschrieben ist, wird beim Hochfahren auf null gesetzt. Die Schätzung Ŝ des Pegels der rauschbehafteten Sprache wird auf einen Wert initialisiert, der einer mäßig niedrigen Sprachleistung entspricht. Ein anderer, etwas kleinerer Wert wird als ein Minimum für das Schätzen des Pegels der rauschbehafteten Sprache bei der nachfolgenden Verarbeitung verwendet.
  • Die SNR-Korrektur wird auf eine A-priori-NSNR-Schätzung gemäß Gleichung 8 angewandt:
    Figure 00400001
  • Dies erzeugt eine modifizierte A-priori-NSNR-Schätzung für das Einsetzen in Gleichung 2.
  • Die Detektion einer Sprachaktivität in einem gegebenen Sprachrahmen basiert auf einer A-posteriori-SNR-Schätzung, die im Block 342 des Rauschunterdrückers berechnet wird. Im Grunde erfolgt die VAD-Entscheidung durch das Vergleichen eines Maßes DSNR der spektralen Distanz mit einem adaptiven Schwellwert vth. Die spektrale Distanz DSNR wird als das Mittel der Komponenten des A-posteriori-SNR-Vektors berechnet:
    Figure 00400002
    wobei s_l und s_h die Indizes der Komponenten sind, die den niedrigsten und höchsten Berechnungsfrequenzbändern, die in der VRD-Entscheidung eingeschlossen sind, entsprechen, und νs ein Wichtungsfaktor ist, der auf die SNR-Vektorkomponente im Band s angewandt wird. In der hier präsentierten Ausführungsform der Erfindung werden alle Komponenten mit gleichem Gewicht betrachtet, das heißt s_l = 0, s_h = 11 und νs = 1/12.
  • Wenn DSNR den Schwellwert vth übersteigt, so wird der Rahmen interpretiert, dass er Sprache enthält, und die VAD-Funktion zeigt "1" an. Ansonsten wird der Rahmen als Rauschen klassifiziert, und der VAD zeigt "0" an. Diese binären VAD-Entscheidungen werden in einem Schieberegister, das 16 Rahmen überspannt (eine statische 16-Bit Variable), gespeichert, um eine Referenz auf vergangene VAD-Entscheidungen zu ermöglichen.
  • Der VAD-Schwellwert vth ist normalerweise konstant. Bei sehr guten SNR-Zuständen wird jedoch der Schwellwert erhöht, um zu verhindern, dass kleine Fluktuationen in der Signalleistung als Sprache interpretiert werden. Kleine Werte des relativen Rauschpegels η (oben beschrieben) zeigen gute SNR-Zustände an, da dieser Faktor ein skaliertes Verhältnis der geschätzten Rauschleistung zur geschätzten Leistung der rauschbehafteten Sprache ist. Wenn somit η klein ist, wird der VAD-Schwellwert vth linear in Bezug auf das Negative von η erhöht. Ein Schwellwert, der sich auf η bezieht, ist auch so definiert, dass wenn η größer ist, dann der Schwellwert vth konstant gehalten wird.
  • Wenn die Eingangssignalleistung sehr niedrig ist, so kann es sein, dass kleine nicht stationäre Ereignisse im Signal fehlerhaft als Sprache interpretiert werden, sogar nach einer Adaption des VAD-Schwellwerts in der oben beschriebenen Weise. Um solche falschen Sprachdetektionen zu unterdrücken, wird die Gesamtleistung des Eingangssignalrahmens mit einem Schwellwert verglichen. Wenn die Rahmenleistung unter dem Schwellwert bleibt, wird die VAD-Entscheidung auf "0" gedrückt, um anzuzeigen, dass keine Sprache vorhanden ist. Diese Modifikation wird jedoch nur ausgeführt, wenn die VAD-Entscheidung in der A-priori-NSNR-Schätzung angewandt wird, um die Gewichte für die alte Schätzung zu bestimmen, und bei der A-posteriori-SNR des neuen Rahmens in Gleichung 4. Für die Zwecke der Aktualisierung der Schätzung des Hintergrundrauschspektrums und der Schätzungen des Pegels der rauschbehafteten Sprache und des Rauschpegels, als auch bei einer Minimumverstärkungssuche (die unten beschrieben werden wird), werden die nicht geänderten VAD-Entscheidungen im 16-Bit Schieberegister verwendet.
  • Um ein gutes Ansprechen bei Übergängen in der Sprache zu gewährleisten, sollten die Rauschdämpfungsverstärkungskoeffizienten, die in Block 328 unter Verwendung von Gleichung 2 berechnet werden, auf Sprachaktivität schnell reagieren. Unglücklicherweise erhöht eine erhöhte Empfindlichkeit der Dämpfungsverstärkungskoeffizienten gegenüber Sprachübergängen auch ihre Empfindlichkeit gegenüber nicht stationärem Rauschen. Da darüber hinaus die Schätzung des Amplitudenspektrums des Hintergrundrauschens durch ein rekursives Filtern ausgeführt wird, kann sich die Schätzung nicht schnell an schnell variierende Rauschkomponenten anpassen und kann somit nicht zu ihrer Dämpfung dienen.
  • Es ist auch wahrscheinlich, dass eine unerwünschte Variation im Restrauschen erzeugt wird, wenn die spektrale Auflösung des Verstärkungskoeffizientenvektors erhöht wird, da zur selben Zeit die Mittelung der Leistungsspektrumskomponenten reduziert wird, das heißt, es gibt weniger FFT-Spektralanteile pro Berechnungsfrequenzband. Das Verbreitern der Berechnungsfrequenzbänder reduziert jedoch die Fähigkeit des Algorithmus, solche Frequenzen zu lokalisieren, bei denen Rauschen konzentriert sein kann. Dies kann eine unerwünschte Fluktuation im Ausgangssignal des Rauschunterdrückers ergeben, insbesondere bei niedrigen Frequenzen, wo das Rauschen typischerweise konzentriert ist. Der hohe Anteil der niedrigen Frequenzen in der Sprache kann weiter eine Reduktion bei der Rauschdämpfung im selben niedrigen Frequenzbereich in Rahmen, die Sprache enthalten, ergeben, was zu einer störenden Modulation des Restrauschens synchron mit dem Rhythmus der Sprache führt.
  • In der vorliegenden Anmeldung werden die oben aufgeführten Probleme unter Verwendung einer "Minimumverstärkungssuche (minimum gain search)" angegangen. Dies wird in Block 350 ausgeführt. Die Dämpfungsverstärkungskoeffizienten G(s), die für den aktuellen Rahmen und einen oder zwei vorherige Rahmen (die im Verstärkungsspeicherblock 352 gespeichert werden) bestimmt werden, werden untersucht, und die Minimumverstärkungswerte der Dämpfungsverstärkungskoeffizienten für jedes Berechnungsfrequenzband werden identifiziert. Die VAD- Entscheidung, die sich auf den aktuellen Rahmen bezieht, wird berücksichtigt, wenn man entscheidet, wie viele vorherige Dämpfungsverstärkungskoeffizientenvektoren untersucht werden sollen, so dass wenn keine Sprache im aktuellen Rahmen detektiert wird, zwei vorherige Sätze von Dämpfungsverstärkungskoeffizienten betrachtet werden, und wenn Sprache im aktuellen Rahmen detektiert wird, nur ein vorheriger Satz untersucht wird. Die Eigenschaften der Minimumverstärkungssuche sind in nachfolgender Gleichung 10 zusammengefasst:
    Figure 00430001
    wobei GA(s,n) den Dämpfungsverstärkungskoeffizienten für das Berechnungsfrequenzband s im Rahmen n nach der Minimumverstärkungssuche bezeichnet, und Vind das Ausgangssignal des Sprackaktivitätsdetektors darstellt.
  • Die Minimumverstärkungssuche neigt dazu, das Verhalten des Rauschunterdrückungsalgorithmus zu glätten und zu stabilisieren. Als Ergebnis klingt das Resthintergrundrauschens glatter und schnell variierende nicht stationäre Komponenten des Hintergrundrauschens werden wirksam gedämpft.
  • Wie schon erläutert wurde, ist es, wenn eine Rauschunterdrückung im Frequenzbereich angewandt wird, notwendig, eine Schätzung des Hintergrundrauschspektrums zu erhalten. Dieses Schätzverfahren wird nun detaillierter beschrieben. In der vorliegenden Anmeldung wird eine Schätzung des Hintergrundrauschspektrums durch das Mitteln von Frequenzspektren von Eingangssignalrahmen während Perioden, bei denen keine Sprachaktivität herrscht, erhalten. Dies wird im Block 332 ausgeführt, der eine temporäre Schätzung des Hintergrundrauschspektrums berechnet, und in Block 334, der eine endgültige Schätzung des Hintergrundrauschspektrums berechnet. Gemäß dieser Lösung wird eine Aktualisierung der Schätzung des Hintergrundrauschspektrums unter Bezug auf das Ausgangssignal des VAD 336 ausgeführt. Wenn der VAD 336 anzeigt, dass keine Sprache vorhanden ist, wird das Amplitudenspektrum des aktuellen Rahmens mit einem vorbestimmten Gewicht zur vorherigen Schätzung des Hintergrundrauschspektrums addiert, multipliziert mit einem Vergessensfaktor. Diese Operationen werden durch die Gleichung 11 unten beschrieben: Nn(s) = λNn-1(s) + (1 – λ)S(s) s = 0, ...,1 11wobei Nn-1(s) die Komponente der Schätzung des Hintergrundrauschspektrums im Berechnungsfrequenzband s vom vorherigen Rahmen (Rahmen n – 1) ist, S(s) ist das s-te Berechnungsfrequenzband des Leistungsspektrums des aktuellen Rahmens, Nn(s) ist die entsprechende Komponente der Schätzung des Hintergrundrauschspektrums im aktuellen Rahmen, und λ ist der Vergessensfaktor.
  • Die Vergessensfaktoren werden so angeordnet, dass sie effektiver mit der Verwendung der Amplitudenspektren bei dem Aktualisieren von Rauschstatistiken, die durch Gleichung 11 gegeben sind, umgehen können. Relativ schnelle Zeitkonstanten mit kleineren Vergessensfaktoren werden im Amplitudenbereich für die Aufwärts-Aktualisierung verwendet, und langsamere Zeitkonstanten für die Abwärts-Aktualisierung. Die Zeitkonstanten werden auch variiert, um große und kleine Änderungen zu berücksichtigen. Ein schnelles Aktualisieren findet in der Aufwärtsrichtung statt, wenn eine Spektralkomponente mit einem Wert aktualisiert werden muss, der viel größer als die vorherige Schätzung ist, und ein langsames Aktualisieren erfolgt in der Abwärtsrichtung, wenn die neue Spektralkomponente viel kleiner als die alte Schätzung ist. Andererseits werden etwas langsamere Zeitkonstanten verwendet, um Spektralkomponentenwerte in der Nähe einer alten Schätzung zu aktualisieren.
  • Da der VAD 336 nur eine Ausgabe mit zwei Zuständen liefert, erfordert die Identifikation des Beginns einer Äußerung einen Kompromiss. Am Beginn einer Sprachäußerung kann es sein, dass der VAD 336 weiter Rauschen anzeigt. Somit kann es sein, dass der erste Rahmen der Sprache fehlerhaft als Rauschen klassifiziert wird, und somit könnte es sein, dass die Schätzung des Hintergrundrauschspektrums mit einem Spektrum, das Sprache enthält, aktualisiert wird. Eine ähnliche Situation kann sich am Ende einer Äußerung ergeben.
  • Wie detaillierter weiter unten beschrieben wird, wird dieses Problem durch das Testen eines Fenster von Entscheidungen vom VAD 336 vor und nach einem Rahmen vor dem Rahmen, der verwendet wird, um die Schätzung des Hintergrundrauschspektrums in Block 334 zu aktualisieren, angegangen. Dann kann das Hintergrundspektrum mit einer Verzögerung (verzögerte Aktualisierung) mit einem gespeicherten Amplitudenspektrum eines vergangenen Rahmens aktualisiert werden.
  • In der vorliegenden Anmeldung wird die Aktualisierung der Schätzung des Hintergrundrauschspektrums in zwei Stufen ausgeführt. Zuerst wird im Block 332 eine temporäre Leistungsspektrumsschätzung geschaffen durch das Aktualisieren der Schätzung des Hintergrundrauschspektrums mit dem Amplitudenspektrum des aktuellen Rahmens. Damit dieses Aktualisierungsverfahren stattfindet, sollte eine der folgenden drei Bedingungen erfüllt sein:
    • 1. Die Entscheidungen des VAD 336 für den aktuellen Rahmen und drei vergangene Rahmen sind "0" (was nur Rauschen anzeigt);
    • 2. Das Signal wird für die erforderliche Anzahl von Rahmen als stationär beurteilt; oder
    • 3. Das Leistungsspektrum des aktuellen Rahmens ist niedriger als die Schätzung des Hintergrundrauschspektrums für ein gewisses Frequenzband.
  • Als zweites wird die sich ergebende Schätzung des temporären Leistungsspektrums (vom Block 332) als die Schätzung des tatsächlichen Hintergrundrauschspektrums für den folgenden Rahmen verwendet, es sei denn, dass die VAD-Entscheidung für diesen Rahmen eine "1" ist, und drei frühere (das sind direkt vorhergehende) Rahmen eine VAD-Entscheidung "0" erzeugt haben. In diesem Fall wird entsprechend, beispielsweise am Beginn einer Äußerung, die vorherige Schätzung des Hintergrundrauschspektrums vom Block 334 in die temporäre Schätzung des Leistungsspektrums in Block 332 kopiert, um die Schätzung zurück zu setzen.
  • Es können sich auch Schwierigkeiten ergeben, da das Schätzverfahren für das Hintergrundrauschspektrum durch die Entscheidung des VAD 336 gesteuert wird, aber die Entscheidung des VAD 336 sich selbst auf die Schätzung des Hintergrundrauschsspektrums in Block 334 stützt. Wenn der Pegel des Hintergrundrauschens plötzlich ansteigt, kann es sein, dass Eingaberahmen als Sprache interpretiert werden, und keine Aktualisierung der Schätzung des Hintergrundrauschspektrums ausgeführt wird. Dies bewirkt, dass die Schätzung des Hintergrundrauschspektrums den Bezug zum tatsächlichen Rauschen verliert.
  • Um mit diesem Problem fertig zu werden, wird ein Wiedergewinnungsverfahren verwendet. Ein stationäres Verhalten des Eingangssignals wird im Block 338 während Perioden, die der VAD 336 als Sprache klassifiziert, ausgewertet. Ein Zähler, der als "Sprachfalschdetektionszähler" bezeichnet wird, wird geführt, um eine Aufzeichnung aufeinanderfolgender Entscheidungen "1" vom VAD 336 zu führen. Zu Beginn wird der Zähler auf 50 gesetzt, was 0,5 s (50 Rahmen) entspricht. Wenn das Eingangssignal als ausreichend stationär betrachtet wird, und der aktuelle Rahmen als Sprache interpretiert wird, wird der Sprachfalschdetektionszähler erniedrigt. Wenn ein stationärer Zustand angezeigt wird, und der VAD eine "0" für den aktuellen Rahmen ausgibt, aber einige der letzten paar Rahmen eine "1" erzeugt haben, wird der Zähler nicht modifiziert. Wenn beurteilt wird, dass das Eingangssignal nicht stationär ist, wird der Zähler auf einen Initialisierungswert zurück gesetzt. Immer wenn der Zähler null erreicht, wird die Schätzung des Hintergrundrauschspektrums im Block 334 aktualisiert. Wenn schließlich 12 aufeinander folgende VAD-Entscheidungen "0" erhalten werden, wird der Sprachfalschdetektionszähler auch zurück gesetzt. Diese Aktion basiert auf der Annahme, dass eine solche Aufeinanderfolge von VAD-Entscheidungen "0" implizit anzeigt, dass die Schätzung des Hintergrundrauschspektrums im Block 334 wieder den vorherrschenden Rauschpegel erreicht hat.
  • Um zu entscheiden, ob der aktuelle Rahmen ein stationäres Signal darstellt, wird eine kurzzeitige Mittelung des Eingangssignalamplitudenspektrums im Block 340 durch eine rekursive Mittelung aufrecht gehalten. Die Amplitudenspektrumkomponenten des aktuellen Rahmens werden durch die entsprechende Komponenten eines zeitlich gemittelten Spektrums geteilt, und wenn irgend einer der Quotienten kleiner als 1 wird, wird er durch den Kehrwert ersetzt. Wenn die Summe der sich ergebenden Quotienten einen vordefinierten Schwellwert übersteigt, wird das Signal als nicht stationär beurteilt, ansonsten wird ein stationäres Verhalten angezeigt. Die Komponenten der kurzzeitigen Mittelung des Amplitudenspektrums (die durch das rekursive Mitteln in Block 340 erhalten werden) werden auf null initialisiert, da sie sich nur leicht langsamer als das Eingangsrahmenamplitudenspektrum ändern.
  • Zusätzlich zur Grundlösung des auf dem VAD basierenden Aktualisieren und dem Wiedergewinnungsverfahren, die oben beschrieben sind, werden Komponenten der Schätzung des Hintergrundrauschspektrums in jedem Rahmen aktualisiert, wenn die entsprechende Komponente des Amplitudenspektrums des aktuellen Rahmens kleiner als die aktuelle Schätzung des Hintergrundrauschspektrums ist. Dies ermöglicht eine schnelle Erholung von (1) hohen Initialisierungswerten der Komponenten des Hintergrundrauschspektrums (unten beschrieben) und (2) von fehlerhaft erzwungenem Aktualisieren, das während eines wirklichen Sprachrahmens auftreten kann. Diese zusätzliche Form der Aktualisierung, die als "Abwärts-Aktualisierung" bezeichnet wird, basiert auf der Tatsache, dass Rauschen allein niemals eine höhere Amplitude als Rauschen plus Sprache haben kann. Eine Abwärts-Aktualisierung wird durch das Aktualisieren der temporären Schätzung des Hintergrundrauschspektrums im Block 332 ausgeführt.
  • Beim Hochfahren werden die Schätzkomponenten des Hintergrundrauschspektrums im Block 334 auf Werte initialisiert, die eine hohe Amplitude darstellen. Auf diese Weise kann ein breiter Bereich möglicher anfänglicher Eingangssignale aufgenommen werden, ohne dass man auf das Problem stößt, dass die Schätzung des Hintergrundrauschspektrums den Bezug zum Rauschen verliert. Dieselbe Initialisierung wird auf die temporäre Schätzung des Hintergrundrauschspektrums in Block 332, die für eine verzögerte Aktualisierung verwendet wird, angewandt.
  • Der Betrieb des Rauschunterdrückers 44 wird so gesteuert, dass er Rauschen in der Abwärtsverbindungsrichtung effektiv unterdrückt. Insbesondere wird sein Betrieb gesteuert, damit die Schätzungen der Signalleistung und der Amplitudenpegel, insbesondere die Schätzung des Hintergrundrauschspektrums im Block 334, nicht fehlerhaft modifiziert werden. Eine solche fehlerhafte Modifikation könnte als Ergebnis von Übertragungskanalfehlern auftreten. Kanalfehler können eine Beschädigung oder einen Verlust einer Anzahl von Rahmen, beispielsweise einiger zehn oder mehr Rahmen, verursachen. Wie früher erwähnt wurde, werden wenn Kanalfehler detektiert werden, sie verborgen, typischerweise durch das Wiederholten des letzten guten Sprachrahmens (oder durch eine Extrapolation von diesem), während eine schnell ansteigende Dämpfung angewandt wird.
  • Während der Zeit, zu der keine Rahmen empfangen werden, werden keine Sprache und kein Rauschen empfangen und somit neigen die temporäre Schätzung des Hintergrundrauschspektrums in Block 332 und die Schätzung des Hintergrundrauschspektrums in Block 334 dazu, abzunehmen. Somit kann es sein, dass der Rauschunterdrücker 44 den Bezug zum wahren Rauschspektrum verliert. Wenn nichts getan wird, um diesen Effekt zu kompensieren, würde, wenn der Kanal wieder klar ist und Rahmen wieder korrekt empfangen werden, die Rauschunterdrückung auf der Basis einer reduzierten Schätzung des Hintergrundrauschspektrums stattfinden. Somit würde die Rauschunterdrückung, die vom Rauschunterdrücker geliefert wird, nicht so effektiv sein, und der Rauschpegel, den ein Benutzer des mobilen Endgeräts hört, würde plötzlich zunehmen. Weiterhin müssen nach einer solchen Unterbrechung die Blöcke 332 und 334 ihre Schätzung des Hintergrundrauschspektrums auf der Basis des wahren Rauschspektrums rekonstruieren, um ihre Genauigkeit wieder herzustellen. Bis wieder eine vernünftige Schätzung erhalten wird, wird die Rauschschätzung unkorrekt sein und vom Benutzer als eine plötzliche Änderung im Typ des Rauschens zu hören sein. Solche Änderungen im Rauschtyp und Rauschpegel sind für Benutzer störend.
  • Zusätzlich bewirken fehlerhafte Sprachrahmen, die der Sprachdekodierer 34 nicht als fehlerhaft detektiert, dass falsche Sprachrahmen ausgegeben werden, die hohe Pegel zufällig verteilter Energie aufweisen. Der Rauschunterdrücker 44 kann das Signal in solchen Rahmen nicht dämpfen.
  • Ähnliche Probleme werden durch die Verwendung der diskontinuierlichen Übertragung (DTX) oder einer ähnlichen Funktion, wie ein sprachbetätigtes Schalten (VOX) verursacht. Wie früher beschrieben wurde, wird während der DTX ein Komfortrauschspektrum erzeugt und Komfortrauschen wird statt dem wahren Rauschen wiedergegeben. Wenn sich das Spektrum des Komfortrauschens vom Spektrum des wahren Rauschens unterscheidet, wenn beispielsweise sich das wahre Rauschspektrum ändert, während das Komfortrauschen wiedergegeben wird, dann wird die Schätzung des Hintergrundrauschspektrums in Block 334 ihren Bezug zum wahren Rauschspektrum verlieren. Wenn somit die DTX unterbrochen wird, und Rahmen, die Sprache enthalten, nochmals empfangen werden, wird der Rauschunterdrücker 44 beginnen, das Rauschen im empfangenen Signal unter Verwendung der vorherigen gültigen Schätzung des Hintergrundrauschens zu unterdrücken. Dies kann eine nicht optimale Dämpfung ergeben.
  • Um mit den Problemen fertig zu werden, die durch die Wirkungen der schlechten Sprachrahmen und der DTX verursacht werden, werden sie bei der Aktualisierung der Langzeitschätzung des Pegels der rauschbehafteten Sprache als auch im VAD 336 und bei den Minimumverstärkungssuchfunktionen berücksichtigt.
  • Gemäß einem Beispiel der Anmeldung wird ein Mobiltelefon geliefert, das Rauschunterdrücker besitzt, die sowohl im Aufwärtsverbindungskanal als auch im Abwärtsverbindungskanal angeordnet sind. In einem Telekommunikationssystem, in welchem zwei solche Mobiltelefone kommunizieren, kann es sein, dass ein Signal durch eine Anzahl von Rauschunterdrückern in einer Kaskadenanordnung durchläuft. Wenn weiter Rauschunterdrücker auch im zellularen Netz, wie in Vermittlungsstellen, Transkodern oder anderer Netzausrüstung, verwendet werden, sind noch mehr Rauschunterdrücker in der Kaskade vorhanden. Solche Rauschunterdrücker werden im allgemeinen unabhängig optimiert, um eine maximale Rauschdämpfung zu liefern, ohne eine störende Beeinträchtigung der Sprache zu verursachen. Die Verwendung von zwei oder mehreren solcher Rauschunterdrückungsoperationen in einer Kaskade würde zu einer Störung der Sprache führen.
  • In einer Ausführungsform der Erfindung ist der Rauschunterdrücker 44 mit einem Detektor versehen, um die Eingabe zu analysieren, um die Verwendung eines Rauschunterdrückers früher im Sprachpfad zu berücksichtigen. Der Detektor überwacht SNR-Zustände am Eingang des Rauschunterdrückers 44 im Abwärtsverbindungspfad (Sprachdekodierung) und steuert die Dämpfungsverstärkungsberechnung gemäß dem geschätzten SNR. Bei guten SNR-Zuständen wird die Größe der Rauschunterdrückung insgesamt reduziert oder eliminiert, da diese Zustände das Ergebnis einer früheren Rauschunterdrückungsstufe sein könnten. In jedem Fall besteht bei guten SNR-Zuständen im allgemeineren ein geringeres Bedürfnis für eine Rauschunterdrückung.
  • Eine Steuervariable für die signalabhängige Verstärkungssteuerung wird durch das Schätzen des effektiven Vollband-a-posteriori-SNR des Eingangssignals des Rauschunterdrückers als das Verhältnis der Langzeitschätzungen der Leistung der rauschbehafteten Sprache und der Leistung des Hintergrundrauschens errichtet. Das Vollband-a-posteriori-SNR wird im Block 348 berechnet. Der Ausdruck "effektives Vollband" bezieht sich auf den Frequenzbereich, der durch die Berechnungsfrequenzbänder bei der Verstärkungsberechnung abgedeckt wird. Aus praktischen Gründen wird die Inverse eines A-posteriori-5NR statt dem tatsächlichen SNR geschätzt. Diese Lösung wird hauptsächlich verwendet, da immer angenommen werden kann, dass die Rauschleistung kleiner oder gleich der Leistung der rauschbehafteten Sprache ist. Dies vereinfacht Berechnungen in Festpunktarithmetik.
  • Das A-posteriori-SNR oder snr_ap_i, wird als das Verhältnis der Schätzungen N ^ und Ŝ der Pegel des Rauschens und der rauschbehafteten Sprache berechnet, wie das oben diskutiert wurde. In diesem Fall wird das Verhältnis des Rauschpegels zum Pegel der rauschbehafteten Sprache nicht skaliert wie im Fall der Berechnung des SNR-Korrekturfaktors (Gleichung 7), aber es wird über Sprachrahmen einer Tiefpassfilterung unterworfen. Der Zweck des Filterns besteht darin, Effekte plötzlicher Änderungen beim Pegel der Sprache oder des Hintergrundrauschens zu reduzieren, um die Dämpfungssteuerung zu glätten. Die Schätzung der Steuervariablen snr_ap_i wird folgendermaßen ausgedrückt: snr_ap_in = b × snr_ap_in-1 + (1 – b) × min (max_snr_ap_i, (N ^/Ŝ)) 12wobei n die Ordnungszahl des aktuellen Rahmens ist, b ε (0,1), N ^ ist die Rauschpegelschätzung, Ŝ ist die Schätzung des Pegels der rauschbehafteten Sprache, und max snr_ap_i ist der Sättigungswert von snr_ap_i in der Festpunktarithmetik.
  • Der Steuermechanismus für das Beschränken der Rauschdämpfung bei guten SNR-Zuständen wurde so ausgedacht, dass die Dämpfung in Dezibel (dB) linear mit einer Zunahme des SNR in Dezibel reduziert wird. Das Berechnungsverfahren versucht einen glatten Übergang, der für einen Hörer nicht wahrnehmbar ist, zu liefern. Darüber hinaus wird die Steuerung auf einen begrenzten Bereich des Eingabe-SNR beschränkt.
  • Die Reduktion in der Dämpfung wird durch eine zu niedrige Schätzung des Ausdrucks des Hintergrundrauschspektrums in der Wiener-Verstärkungsformel verwirklicht. Statt der Gleichung 2 wird eine modifizierte Form der Formel für die Verstärkungsberechnung verwendet:
    Figure 00520001
  • Die Abhängigkeit des Einheitsterms u(snr_ap_i) von der Steuervariablen snr_ap_i kann gefunden werden, indem die lineare Beziehung in dB bei einer maximalen Dämpfung ausgedrückt wird. Die folgende Beziehung kann abgeleitet werden:
    Figure 00520002
    wobei ξ_min die untere Grenze des bandweisen SNR, das vom Block 344 erhalten wird, ist, und die Konstante A und B durch die unteren und höheren Enden des vorgesehenen Bereichs der maximalen nominalen Rauschdämpfung (die die Wirkung der SNR-Korrektur verwerfen), und die unteren und höheren Enden des verwendeten Bereichs der Steuervariablen snr_ap_i bestimmt werden.
  • Um zwei konkurrierende Verstärkungssteuermechanismen aufzunehmen und eine nicht optimale Dämpfung, die bei gewissen Zuständen auftritt, zu vermeiden, werden die Steuerparameter der Verstärkungssteuerung und insbesondere die Bereiche der Steuervariablen und der maximalen Dämpfung sorgfältig ausgewählt, so dass die höchste Rauschunterdrückung in dem Bereich erhalten wird, wo der größte Vorteil erwartet werden kann. Dies hängt von einer ausreichend guten Schätzung der SNR-Zustände ab.
  • Obwohl Probleme beim Kombinieren der Verstärkungsfunktionen erwartet werden können, eine in der Aufwärtsverbindung und eine in der Abwärtsverbindung, verbessert der erste (Aufwärtsverbindungs-) Rauschunterdrücker die SNR-Zustände am Eingang des zweiten (Abwärtsverbindungs-) Rauschunterdrückers. Somit wird das bei der doppelten Betrachtung berücksichtigt, so dass eine glatte und im wesentlichen monotone kombinierte Verstärkungsfunktion erhalten wird.
  • Der Rauschunterdrücker 44 verwendet Information, die das Auftreten von schlechten Rahmen betrifft, und die zugehörigen Aktionen, die vom Sprachdekodierer vorgenommen werden, wenn er als eine Nachverarbeitungsstufe nach der Sprachkodierung wirkt.
  • Das Schlechtrahmenanzeigeflag, das aus dem Kanaldekodierer 32 abgeleitet wird, wird einem passenden Eintrag in einem Steuerflagregister im Rauschunterdrücker zugeordnet, wo jedes Flag eine Bitposition reserviert. Wenn der Kanaldekodierer anzeigt, dass es einen schlechten Rahmen gibt, wird das Schlechtrahmenflag erhoben, es wird beispielsweise auf 1 gesetzt. Ansonsten wird es auf null gesetzt.
  • Unmittelbar nachdem eine Folge verlorener Sprachrahmen detektiert wird, werden gewisse Funktionen, die normalerweise vom VAD 336 gesteuert werden, unabhängig von den Entscheidungen des VAD 336 gemacht. Zusätzlich werden der Zustand des VAD 336 und des Schieberegisters, das vergangene VAD-Entscheidungen enthält, eingefroren, während das Schlechtrahmenanzeigeflag schlechte Rahmen anzeigt. Dies erlaubt es, solchen Funktionen, die vom VAD 336 abhängig sind, die letzten "guten" VAD-Entscheidungen nach Folgen von schlechten Rahmen, die gewöhnlicherweise von kurzer Dauer sind, zu verwenden. In den meisten Fällen minimiert dies Störungen in der Leistung des Rauschunterdrückers, die von schlechten Rahmen verursacht werden.
  • Um den korrekten Spektralpegel und die Form der Schätzung des Hintergrundrauschspektrums aufrecht zu halten, wird sie nicht aktualisiert, während das Schlechtrahmenanzeigeflag gesetzt ist. Insbesondere wird die temporäre Schätzung des Hintergrundrauschspektrums nicht aktualisiert. Das Aktualisieren der Schätzung des Hintergrundrauschspektrums wird jedoch verzögert, indem es durch die temporäre Schätzung des Hintergrundrauschspektrums ersetzt wird, sogar wenn schlechte Rahmen angezeigt werden, wenn die aktuelle Entscheidung des VAD 336 "1" ist und dieser drei VAD-Entscheidungen "0" vorher gehen, wie das oben diskutiert wurde. Da die temporäre Schätzung des Hintergrundrauschspektrums nicht aktualisiert wird, gewährleistet dies, dass nur die letzte gültige Information, die das tatsächliche Rauschspektrum betrifft, in die Schätzung des Hintergrundrauschspektrums eingeschlossen wird.
  • Um eine passende Referenz für die Stationärdetektion im Block 338 zu liefern, wird das kurzeitige Mitteln des Leistungsspektrums des Eingangssignals nicht aktualisiert, wenn schlechte Rahmen angezeigt werden. Der Sprachfalschdetektionszähler wird also nicht aktualisiert, während das Schlechtrahmenanzeigeflag gesetzt ist, um seinen Zustand über die Folge der schlechten Rahmen, die typischerweise kurz ist, zu bewahren.
  • Um eine korrekte Reduktion des Hintergrundrauschens in wiederholten und gedämpften Rahmen zu erhalten, muss die Dämpfung, die von der Schlechtrahmenhandhabungseinrichtung beim dekodierten Signal geliefert wird, berücksichtigt werden. Für diesen Zweck wird die Schätzung des Hintergrundrauschspektrums (die verwendet wird, um ein A-posteriori-SNR zu erzielen durch das Teilen des aktuellen Rahmenleistungsspektrums Komponente für Komponente) mit der wiederholten Rahmendämpfungsverstärkung multipliziert. Die wiederholte Rahmendämpfungsverstärkung wird im Block 346 berechnet.
  • Das Aktualisieren der Schätzung Ŝ des Pegels der rauschbehafteten Sprache, die in Block 348 berechnet wird, wird während schlechter Rahmen unterbunden. Die verzögerten Werte der Rahmenleistungen der zwei letzten Rahmen, die bei der Schätzung des Pegels der rauschbehafteten Sprache verwendet wurden, werden ebenfalls eingefroren, wenn das Schlechtrahmenanzeigeflag gesetzt ist. Somit wird das Aktualisierungsverfahren mit Leistungen der Rahmen, die den letzten aktualisierten VAD-Entscheidungen entsprechen, versehen.
  • Im Gegensatz dazu wird die Schätzung N ^ des Rauschpegels im Block 348 während schlechter Rahmen kontinuierlich aktualisiert. Dieses Verfahren wird motiviert durch die Tatsache, dass die Schätzung N ^ des Rauschpegels auf der Schätzung des Hintergrundrauschspektrums basiert, die durch die obigen Maßnahmen von den Wirkungen der wiederholten und gedämpften Rahmen geschützt wird. Somit kann die Zeit, die während schlechter Rahmen vergeht, tatsächlich ausgenutzt werden, um eine tiefpassgefilterte Rauschpegelschätzung zu erhalten, die dichter an der Schätzung der mittleren Leistung des Rauschspektrums liegt.
  • Die Minimumverstärkungssuche wird während schlechter Rahmen ausgesetzt. Wenn das nicht der Fall wäre, würde das Aktualisieren des Verstärkungsspeichers mit reduzierten Verstärkungswerten den Übergang, beispielsweise von schlechten Rahmen zu guten Sprachrahmen, vorspannen, was bewirkt, dass die ersten (beispielsweise ein oder zwei) guten Sprachrahmen, die auf eine Sequenz schlechter Rahmen folgen, zu stark gedämpft werden.
  • Bei Schlechtrahmenfehlerzuständen kann es sein, dass der Kanaldekodierer 32 einen Rahmen nicht korrekt wiedergewinnen kann und somit einen schlechten, fehlerhaften Rahmen an den Sprachdekodierer gibt. Da Kanalfehler typischerweise in Folgen auftreten, treten schlechte Rahmen gewöhnlicherweise in Gruppen auf. Wenn die Schlechtrahmenhandhabungseinheit 38 des Sprachdekodierers 34 einen schlechten Rahmen nicht detektiert, und dieser Rahmen somit normal dekodiert wird, ist das Ergebnis typischerweise eine zufällige Sequenz hoher Energie, die sich sehr unangenehm anhört. Ein solcher fehlerhafter Rahmen verursacht jedoch nicht notwendigerweise Probleme beim Rauschunterdrücker 44. Ein solcher Rahmen, der typischerweise einen Inhalt hoher Energie aufweist, wird in die Schätzung des Hintergrundrauschens nicht eingeschlossen, da der VAD 336 Sprache anzeigen sollte. Weiterhin wird der Rahmen mit hoher Energie die Schätzung Ŝ des Pegels der rauschbehafteten Sprache nicht signifikant beeinflussen, da der Vergessensfaktor erhöht werden wird (entsprechend der langen Zeitkonstante) gemäß den Regeln der Schätzung eines Pegels der rauschbehafteten Sprache, wo eine große Differenz zwischen der aktuellen Schätzung und der Leistung des neuen Rahmens dazu führt, dass ein großer Vergessensfaktor gewählt werden wird. Darüber hinaus wird, wenn es nicht zu viele dieser fehlerhaften Rahmen gibt, das Minimum von den letzten drei Rahmenleistungen wahrscheinlich verwendet, um die Schätzung Ŝ des Pegels der rauschbehafteten Sprache zu aktualisieren, statt des fehlerhaften Rahmens hoher Leistung.
  • Wenn die Folge undetektierter schlechter Rahmen mit hoher Leistung lang ist (wenn beispielsweise ihre Dauer 0,5 Sekunden oder mehr beträgt), besteht die Gefahr, dass eine erzwungene Aktualisierung der Schätzung des Hintergrundrauschspektrums aktiviert werden könnte. Obwohl dies einen stationären Zustand der Eingabe erfordert, könnte diese Bedingung erfüllt sein, wenn die dekodierten fehlerhaften Rahmen weißem Rauschen ähneln. Eine solch lange Fehlerfolge kann jedoch schon zu einer Unterbrechung der Verbindung führen, was diesen schlimmsten Fall der Initiierung einer erzwungenen Aktualisierung ziemlich unwahrscheinlich macht. Darüber hinaus würde, wenn die Schätzung des Hintergrundrauschspektrums auf einen hohen Pegel gemäß der fehlerhaften Rahmen aktualisiert würde, der VAD 336 das Eingangssignal für eine gewisse Zeit als Rauschen interpretieren. Dies würde es zusammen mit dem Abwärtsaktualisierungsverfahren, das oben diskutiert wurde, der Schätzung des Rauschspektrums ermöglichen, die Form und den Pegel des verlorenen Rauschspektrums schnell, typischerweise innerhalb einiger Sekunden, wiederzugewinnen.
  • Gemäß der Anmeldung werden Maßnahmen im Rauschunterdrücker ergriffen, um mit Problemen fertig zu werden, die bei einer Mobil-zu-Mobil-Verbindung auftreten können, bei der schlechte Kanalzustände in jedem der zwei Funkpfade vorherrschen können. Der Rauschunterdrücker 44, der Rahmen über eine solche schlechte Mobil-zu-Mobil-Verbindung empfängt, das ist der Rauschunterdrücker in der Abwärtsverbindung (Sprachdekodierung), kann keine Information über die Kanalzustände in der Aufwärtsverbindung (vom sendenden Mobilteil zum Netz) erhalten. Somit kann er keine explizite Schlechtrahmenanzeige erzeugen. Die Schlechtrahmenhandhabungseinheit 38 im Sprachdekodierer 34 der Aufwärtsverbindung wird jedoch dem Standardverfahren des Wiederholens und Dämpfens des letzten guten Rahmens folgen, wie es auch die Schlechtrahmenhandhabungseinrichtung des Sprachdekodierers 34 der Abwärtsverbindung tun wird. Somit empfängt der Rauschunterdrücker 44 in der Abwärtsverbindung Folgen stark gedämpfter Rahmen ohne eine begleitende Schlechtrahmeninformation.
  • Um mit diesem Problem fertig zu werden, aktualisiert der Rauschunterdrücker 44 der Abwärtsverbindung die temporäre Schätzung des Hintergrundrauschspektrums, die Kurzzeitmittelung des Sprachleistungsspektrums und die Schätzung des Pegels der rauschbehafteten Sprache langsam nach unten, wenn unnatürliche Lücken im Eingangssignal detektiert werden. Ein Lückendetektionsverfahren, das drei Vergleichsschritte umfasst, wird im Abwärtsaktualisierungsverfahren verwendet, das auf die temporäre Schätzung des Hintergrundrauschspektrums und die Kurzzeitmittelung des Sprachleistungsspektrums angewandt wird. Die drei Schritte sind:
    • 1. Vergleich der Eingangsleistung in jedem Berechnungsfrequenzband mit einem kleinen Schwellwert.
    • 2. Vergleich der Aktualisierungseingangsleistung mit dem Pegel der aktuellen Schätzung in jedem Berechnungsfrequenzband.
    • 3. Vergleich des Stationärmaßes mit dem Stationärschwellwert, der im Block 338 berechnet wird.
  • Die ersten zwei Vergleichsschritte, die oben eingeführt wurden, werden für jedes Berechnungsfrequenzband ausgeführt. Der Zweck des dritten Vergleichsschritts besteht darin, die Wiedergewinnungsaktion bei niedrigen Rauschzuständen auszusetzen. Wenn sich das Rauschen vom Beginn eines Gesprächs an auf einem niedrigen Pegel befindet, so nimmt die Kurzzeitmittelung des Eingabeamplitudenspektrums niemals hohe Werte an, und somit bleibt das Stationärmaß niedrig. Andererseits wird dieses Verfahren, wenn der Rauschpegel fällt, nachdem er hoch gewesen ist, dieses Verfahren die normale Aktualisierungsgeschwindigkeit nach einer Weile wieder herstellen, da die Kurzzeitmittelung des Eingangsamplitudenspektrums einen niedrigeren Pegel während eines langsamen Aktualisierens annimmt.
  • Im Fall der Schätzung des Pegels der rauschbehafteten Sprache werden nur die ersten zwei obigen Vergleiche ausgeführt und sie werden mit den effektiven Vollbandleistungen ausgeführt.
  • Obwohl sogar fehlende Rahmen durch den Rauschunterdrücker 44 zuverlässig detektiert werden, neigt die Schätzung des Rauschspektrums dazu, leicht aktualisiert zu werden, gerade ausreichend, um zu bewirken, dass der VAD 336 nach einer Unterdrückung von Rahmen unkorrekt Rauschen als Sprache interpretiert. Um damit umzugehen, wird der Stationärdetektionsschwellwert während einer Periode manipuliert, wenn unterdrückte Rahmen detektiert werden, um die Chancen, dass der Rauschunterdrücker 44 Sprache korrekt detektiert, zu verbessern. Der ursprüngliche Schwellwert wird wiederhergestellt, so bald sich die nächste Gelegenheit ergibt, wenn der Sprachfalschdetektionszähler eine gezwungene Aktualisierung des Hintergrundspektrums initiiert. Diese Aktion scheint eine entscheidende Rolle zu spielen, da sie wirksam das Zurücksetzen des Sprachfalschdetektionszählers bei Übergangen zu und von unterdrückten Rahmen, wo das Stationärmaß leicht hohe Werte annimmt, verhindert.
  • Diese Lösung zur Detektion von und zum Schutz gegen undetektierte unterdrückte Rahmen ist fähig, Rahmen zu identifizieren, in welchen das Signal nahezu vollständig fehlt. Weiterhin bewirken diese Maßnahmen keine negativen Effekte in Situationen, in denen keine Signallücken vorhanden sind.
  • Wie oben erwähnt wurde, arbeitet eine DTX-Handhabungseinrichtung in Verbindung mit dem Sprachdekodierer. Da das Komfortrauschsignal, das am Empfänger erzeugt wird, in der Praxis niemals identisch mit der ursprünglichen Rauschkomponente am sendenden (weit entfernten) Endgerät ist, wird der Rauschunterdrücker 44 am empfangenden Ende so gesteuert, dass er durch eine Änderung in der Natur des Hintergrundrauschens während Perioden, in denen die DTX aktiv ist, nicht beeinflusst wird.
  • Im aktuellen GSM-System wird ein explizites Flag im Sprachdekodierer vorgesehen, das anzeigt, ob der DTX-Betriebsmodus angeschaltet ist. In GSM-Sprach-Kodierern-Dekodierern erfolgt die Entscheidung, die Übertragung während Sprachpausen abzuschalten, in der Sende-(TX)-Diskontinuierlichübertragungs-(DTX)-Handhabungseinrichtung des Sprach-Kodierers-Dekodierers. Am Ende einer Sprachfolge braucht es einige darauf folgende Rahmen, einen neuen SID-Rahmen zu erzeugen, der dann verwendet wird, um Komfortrauschparameter zu befördern, die die geschätzten Hintergrundrauscheigenschaften für den Dekodierer beschreiben. Die Funkverbindung wird unterbrochen nach der Übertragung des SID-Rahmens, und das Sprachflag (SP-Flag) wird auf null gesetzt. Ansonsten ist das SP-Flag auf 1 gesetzt, um eine Funkübertragung anzuzeigen.
  • Dieses Sprachflag wird vom Sprachdekodierer empfangen und auch im Rauschunterdrücker 44 verwendet, um das DTX-Flag im Rauschunterdrückersteuerflagregister auf 0 beziehungsweise 1 zu setzen. Die Entscheidung des Aufrufs des Betriebsmodus, der für DTX-Perioden gedacht ist, basiert auf dem Wert dieses Flags. Im DTX-Modus wird der VAD 336 des Rauschunterdrückers 44 umgangen, und die VAD-Entscheidung wird gemäß der DTX-Handhabungseinrichtung des Sprach-Kodierers-Dekodierers ausgeführt. Wenn somit die DTX-Funktion an ist, wird die VAD-Entscheidung auf null gesetzt, mit den oben beschriebenen Konsequenzen.
  • Die Fähigkeit der DTX-Funktion des GSM-Sprach-Kodierers-Dekodierers, den Spektralpegel und die Form des Hintergrundrauschens zu schätzen, variiert mit dem Verfahren. Zusätzlich ist die spektrale Form des Komfortrauschens gewöhnlicherweise flacher als das Spektrum des tatsächlichen Hintergrundrauschens. Somit ist der Rauschunterdrücker 44 konfiguriert, so dass er nur das Hintergrundrauschspektrum im Block 334 während Rahmen, in denen DTX nicht auftritt, schätzt. Somit findet die Schätzung des temporären Hintergrundrauschspektrums im Block 332 nur zu Zeiten statt, wenn DTX aus ist. Das Kopieren der Schätzung des tatsächlichen Hintergrundrauschspektrums wird jedoch in allen Rahmen ermöglicht, um einen Einschluss der letzten nützlichen Information in die endgültige Schätzung des Hintergrundrauschspektrums zu ermöglichen, die im oben beschriebenen verzögerten Aktualisierungsverfahren verwendet wird.
  • Die Aktualisierung der Schätzung des Hintergrundrauschspektrums im Block 334 findet nicht statt, während Komfortrauschen übertragen wird, und ebenso wird die Stationärdetektion während solcher Rahmen nicht ausgeführt. Nachdem jedoch eine Anzahl von Rahmen mit Komfortrauschen übertragen wurden, wird ein neuer Sprachrahmen wahrscheinlich nicht länger zu einem Rahmen mit Komfortrauschen korreliert sein. Als Konsequenz wird der Sprachfalschdetektionszähler zurückgesetzt. Das Rücksetzen wird ausgeführt nach sechzehn Sprachpausenentscheidungen des VAD 336 (wie oben erläutert wurde, wird der VRD 336 eingestellt, Sprachpausen zu detektieren, während Komfortrauschen übertragen wird).
  • In Rahmen mit Komfortrauschen wird der Rauschdämpfungsverstärkung der minimal gestattete Wert in allen Berechnungsfrequenzbändern zugewiesen. Dieser Minimumverstärkungswert wird durch das Ersetzen von ξ'(s) durch ξ_min in Gleichung 8 und das Einsetzen des Ergebnisses in Gleichung 2 bestimmt. Da die spezielle Verstärkungsformel verwendet wird, kann die Berechnung eines A-priori-SNR in Block 344 während der Erzeugung des Komfortrauschens ausgesetzt werden. Der "verbesserte A-posteriori-SNR-Vektor" des vorherigen Rahmens (das A-posteriori-SNR multipliziert mit der quadrierten Dämpfungsverstärkung), der bei der Berechnung des A-priori-SNR verwendet wird, das für den neuesten Sprachrahmen berechnet wird, wird aufrecht gehalten bis zum nächsten Sprachrahmen, wo er verwendet werden kann.
  • In einer Ausführungsform der Erfindung wird der Rauschunterdrücker 44 verwendet, Variationen in den Spektraleigenschaften des Komfortrauschsignals, das während DTX-Rahmen erzeugt wurde, die sich aus Ungenauigkeiten bei der Schätzung des Hintergrundrauschspektrums in den Sprachkodierern ergeben, zu kompensieren. Der Rauschunterdrücker kann verwendet werden, um eine relativ stabile Schätzung des Hintergrundrauschspektrums am fernen Ende (beispielsweise an einem sendenden mobilen Endgerät) zu erhalten. Somit kann diese Schätzung im Rauschunterdrücker 44 verwendet werden, um den Spektralpegel und die Form des erzeugten Komfortrauschens zu modifizieren. Dies umfasst das Vorhersagen des Restrauschspektrums, das aus dem Rauschunterdrücker 44 herauskommen sollte, wenn das Eingangsspektrum der aktuellen Schätzung des Hintergrundrauschens entspricht, und einem anschließenden Modifizieren des Amplitudenspektrums des eingegebenen Komfortrauschsignals, so dass es dieser Schätzung des Restrauschens ähnelt. Es wird vorteilhafterweise ein Kompromiss zwischen der konstanten Dämpfung in allen Berechnungsfrequenzbändern, wie sie oben diskutiert wurde, und der Modifikation auf das geschätzte Restrauschen hin, verwendet. Dies Lösung verwendet die Kenntnis, die der Sprachkodierer und der Rauschunterdrücker 44 in Bezug auf das Rauschen am fernen Ende erworben haben.
  • Durch die glatte Natur des Komfortrauschens, das in einem Sprachkodierer erzeugt wird, besteht keine Notwendigkeit, die Minimumverstärkungssuchfunktion des Blocks 350 zu verwenden, um das Verhalten der Rauschreduktionsverstärkung während Rahmen mit Komfortrauschen zu stabilisieren. Darüber hinaus wird der zugehörige Speicher der letzten Verstärkungsvektorwerte in Block 352 nicht aktualisiert. Somit werden die Verstärkungsvektoren, die im Speicher gespeichert sind, die Zustände darstellen, bei denen DTX aus ist, und sind somit auf den Zustand, in dem der normale Betriebsmodus (DTX aus) wieder aufgenommen wird, besser anwendbar.
  • In allen aktuellen GSM-Sprach-Kodierern-Dekodierern wird ein explizites Flag im Sprachdekodierer vorgesehen, das anzeigt, ob der DTX-Betriebsmodus an ist. Im Falle anderer Systeme, wie eines PDC-Systems, bei denen es kein solches explizites Flag gibt, wird der entsprechende Rahmenwiederholungsmodus im Rauschunterdrücker detektiert durch das Vergleichen der Eingaberahmen mit früheren Rahmen und das Hochsetzen eines VOX-Flags, wenn aufeinander folgende Rahmen sehr ähnlich sind.
  • Wie früher erwähnt wurde, kann die Ersetzung und Unterdrückung eines verlorenen Sprachrahmens oder eines verlorenen SID-Rahmens eine Unterbrechung in einem kontinuierlichen, harmonischen Fluss des Hintergrundrauschens über den oder die verlorenen Rahmen verursachen und zum Eindruck eines schlecht verminderten Fluktuierens im übertragenen Signal führen, ein Eindruck der deutlicher wird, wenn das Hintergrundrauschen laut ist. Diese Problem wird gelöst, indem zuerst die Rauschunterdrückung in den verlorenen Sprachrahmen eingestellt wird, und zweitens durch das Erzeugen eines Pseudoresthintergrundrauschens (PRN) im Algorithmus, das dann mit dem gedämpften Sprachrahmen oder SID-Rahmen gemischt wird.
  • Das synthetische Rauschen, das als Quelle für die Erzeugen des PRN verwendet wird, wird im Rauschunterdrücker 44 im Frequenzbereich erzeugt. Reelle und imaginäre Komponenten einer Anzahl von FFT-Spektralanteilen des komplexen Komfortrauschspektrums werden unter Verwendung eines Zufallszahlengenerators 354 geschaffen. Das sich ergebende Spektrum wird nachfolgend skaliert oder gewichtet im Block 356 gemäß einer Schätzung des Spektrums des Resthintergrundrauschens, die durch das Skalieren der Schätzung des Hintergrundrauschspektrums vom Block 334 und unter Verwendung der Schätzungen des Pegels der rauschbehafteten Sprache und des Rauschens vom Block 348 erhalten werden. Das so erzeugte Pseudozufallsrauschspektrum PRN wird dann mit dem wiederholten und gedämpften Rahmen gemischt, wenn beide geeignet skaliert wurden. Schließlich wird das künstliche Rauschspektrum in den Zeitbereich über eine IFFT 360 transformiert und mit einer Fensterfunktion 362 multipliziert und dann im Zeitbereich mit den gedämpften wiederholten ursprünglichen Rahmen in Block 364 summiert, so dass es passend in die Reduktion im Pegel des Resthintergrundrauschens, die durch die Dekodiererdämpfung verursacht wird, passt.
  • Das Skalieren der Schätzung des Resthintergrundrauschens wird folgendermaßen ausgeführt. Wie oben erwähnt wurde, wird der Pegel der Dämpfung, der im Sprachdekodierer für wiederholte Rahmen bei Schlechtrahmenzuständen verwendet wird, bestimmt durch das Vergleichen der mittleren Amplitude des aktuellen Rahmens mit der des letzten guten Sprachrahmens, um Dämpfungskoeffizienten zu erzeugen. Die Dämpfungskoeffizienten werden aus einem Verhältnis der mittleren Leistung des wiederholten Rahmens zu einem gespeicherten Wert bestimmt. Die mittlere Leistung des aktuellen Rahmens wird dann im Dämpfungsverstärkungskoeffizientenspeicher 358 gespeichert.
  • Das Komplement des Verhältnis der mittleren Leistung des aktuellen Sprachrahmens zur gespeicherten mittleren Leistung des letzten guten Rahmens wird nachfolgend verwendet, um das erzeugte PRN-Spektrum zu skalieren, so dass der Pegel des Resthintergrundrauschens gedämpft wird, und der Pseudozufallsbeitrag entsprechend erhöht wird.
  • Das Summieren der Schätzung des Resthintergrundrauschens und des skalierten Pseudozufallsrauschens erzeugt das verbesserte Ausgangssprachsignal y(n) gemäß der folgenden Gleichung: y(n) = Ŝ(n) + A × (1 – GRFA(n))ν(n) 15wobei Ŝ(n) das Sprach- oder Komfortrauschsignal, das von der Schlechtrahmenhandhabungseinrichtung 38 des Sprachdekodierers gedämpft und im Rauschunterdrücker 44 verarbeitet wurde, ist, ν(n) das PRN-Signal ist, und GRFA(n) der Dämpfungsverstärkungskoeffizient des wiederholten Rahmens für den Sprachrahmen n ist. A ist eine Skalierkonstante, die einen Wert von ungefähr 1,49 aufweist. Die Skalierkonstante A ergibt sich aus zwei Beiträgen. Zuerst wird die Berechnung der Schätzung des Spektrums des Resthintergrundrauschens ursprünglich unter Verwendung eines einer Fensterfunktion unterzogenen Signals ausgeführt, wohingegen das komplexe Zufallsspektrum mit einer Annahme einer keiner Fensterfunktion unterzogenen Sequenz im Zeitbereich erzeugt wird. Als zweites wird über die IFFT die Energie des PRN über alle 128 Abtastwerte (die Länge der FFT) verteilt, aber nimmt ab, da das künstliche Signal einer Fensterfunktion unterzogen wird, um in die Fensterfunktion des ursprünglichen Signals zu passen. Andererseits wird das Spektrum des Resthintergrundrauschens nur aus 98 Eingabeabtastwerten des ursprünglichen Signals und 30 Nullen (Auffüllung mit Nullen) berechnet. Somit wird die Skalierkonstante A so verwendet, dass die Energie des PRN nicht zu niedrig geschätzt wird.
  • Im GSM-Vollraten-(FR)-Sprach-Kodierer-Dekodierer wird eine allmähliche Rückkehr vom stummgeschalteten Zustand in Bezug auf die pseudologarithmisch kodierte Blockamplitude Xmaxcr jeder der vier Unterrahmen eines Sprachrahmens gesteuert. Wenn Xmaxcr den entsprechenden Abtastwert eines Wiedergewinnungssequenz vordefinierter Amplitude für irgend einen Rahmen während der graduellen Rückkehrperiode übersteigt, wird es gemäß dem Wert dieser Abtastung begrenzt.
  • Das Auftreten dieses Zustands wird dem Rauschunterdrücker 44 angezeigt, um so den Skalierfaktor für das PRN-Spektrum in der oben beschriebenen Weise zu berechnen. Ansonsten wird kein PRN dem Ausgangssignal während der Wiedergewinnungsperiode hinzugefügt.
  • Obwohl das Hinzufügen des erzeugten PRN die Störung reduziert, die von einem sich schnell ändernden Rauschpegel erzeugt wird, reduziert es auch die Fähigkeit der Dämpfung des wiederholten Rahmens, den Benutzer über Kanalzustände zu informieren. Es werden jedoch Lücken in der Sprache erzeugt, was den Benutzer über ein Problem informiert. Um sicher zu sein, dass der Benutzer über verschlechterte Kanalzustände informiert wird, wird in jedem Fall ein Schwundmechanismus verwendet. Dieser Mechanismus schaltet das Hinzufügen des PRN nach kurzer Zeit ab und ermöglicht es so, dem stummgeschalteten Signal, vollständig zu verschwinden. Dies wird unter Verwendung eines Rahmenzählers erzielt, um die Anzahl von Rahmen, während der die PRN-Hinzufügung ohne Unterbrechung aktiv ist, zu bestimmen. Wenn der Zähler einen Schwellwert übersteigt, wird die PRN-Verstärkung gezwungen, allmählich zu schwinden, indem sie von 1 auf 0 in ausreichend kleinen Schritten über eine vorbestimmte Anzahl von Rahmen erniedrigt wird. In einer Ausführungsform der Erfindung wird das Schwinden nach einer Sekunde kontinuierlicher PRN-Hinzufügung gestartet, und die Schwundperiode beträgt 200 ms.
  • Ein Flussdiagramm, das die gegenseitige Beziehung zumindest einiger der Erfindungen zeigt, ist in 5 angegeben.
  • 6 zeigt ein Mobilkommunikationssystem 600, das ein zellulares Netz 602 und mobile Endgeräte 604 umfasst. Das zellulare Netz 602 umfasst Basis-Sender-Empfänger-Stationen (BTS) 606, die mit Mobilvermittlungszentralen (MSC) 608 über Transkodereinheiten (TRAU) 610 verbunden sind. Die MSC sind mit einem anderen Netz 612 verbunden, das Rufe überträgt.
  • Dieser Teil des zellularen Netzes 602 kann ein öffentliches Telefonnetz (PTSN) sein.
  • Die mobilen Endgeräte umfassen jeweils einen Rauschunterdrücker 614, um Rauschen sowohl in von mobilen Endgeräten 604 gesendeten als auch empfangenen Signalen zu unterdrücken.
  • Wenn ein mobiles Endgerät 604 verwendet wird, um ein Gespräch auszuführen, erzeugt es ein digitales Signal, das in seinem Rauschunterdrücker 614 rauschunterdrückt wird, das in seinem Sprachkodierer sprachkodiert und in seinem Kanalkodierer kanalkodiert wird. Das kodierte Signal wird dann in einer Aufwärtsverbindung an das zellulare Netz 602 übertragen, wo es von der Basis-Sender-Empfänger-Station 606 empfangen und dann in den Transkodereinheiten 610 zurück in ein digitales Signal dekodiert wird, das weiter, beispielsweise an ein PSTN oder ein anderes mobiles Endgerät 604 übertragen werden kann. Im letzteren Fall wird das Signal in einer Abwärtsverbindungsrichtung an eine Transkodereinheit 610 übertragen, wo es wieder kodiert und dann durch die Basis-Sender-Empfänger-Station 606 an ein anderes mobiles Endgerät 604 übertragen wird, wo es dekodiert wird und dann das Rauschen im Rauschunterdrücker 614 unterdrückt wird.
  • Die Rauschunterdrückung kann an anderen Stellen im Netz vorhanden sein. Beispielsweise kann sie in Verbindung mit den Transkodereinheiten 610 vorgesehen sein, so dass sie entweder auf ein Signal wirkt, nachdem es dekodiert wurde, oder auf ein Signal, bevor es dekodiert wurde. Zusätzlich zum Anordnen von Rauschunterdrückern im Netz 602 in dieser Weise, können auch andere Merkmale der Erfindung im Netz vorgesehen werden. Beispielsweise können die Transkodereinheiten 610 DTX- und BFI-Anzeigen liefern. Diese können von den Netzrauschunterdrückern verwendet werden, um die Rauschunterdrückung zu steuern, wie das oben beschrieben wurde. Weiterhin umfassen die Transkodereinheiten 610 die folgenden Merkmale:
    einen Detektor, um Lücken, die von verlorenen Rahmen verursacht werden, die durch wiederholte und gedämpfte Rahmen in einer vorherigen Schlechtrahmenhandhabungseinheit ersetzt wurden, zu detektieren und zu füllen; und
    Steuerfunktionen, um die Rauschunterdrückung zu steuern, um mit doppelten Erwägungen umzugehen.
  • Diese erfinderischen Merkmale, das ist der Detektor und/oder die Steuerfunktionen, können auch alternativ oder zusätzlich in den mobilen Endgeräten 604 vorgesehen sein, insbesondere um mit einem Abwärtsverbindungssignal umzugehen.
  • Es sollte angemerkt werden, dass verschiedene Aspekte der Erfindung unabhängig sind und dass sie unabhängig arbeiten können. Somit kann einer oder können mehrere der Aspekte in gewünschter Weise in das mobile Endgerät oder das Netz eingefügt werden.
  • Wenn der Rauschunterdrücker 44 in einer Abwärtsverbindung verwendet wird, in welcher Sprachkodierer-Dekodierer variabler Rate vorhanden sind, wie solche, die bei CDMA-Sprachkodiernormen verwendet werden, muss mit zusätzlichen Gegenständen umgegangen werden. Die verschiedenen Sprachkodierbitraten, die gemäß den Eigenschaften des Eingangssignals am fernen (sendenden) Ende aktiviert werden, erzeugen stark verschiedene Ausgangssprach- und Rauschsignale. Darüber hinaus wird eine gewisse Dämpfung des Ausgangssignalpegels typischerweise bei der niedrigsten Bitrate angewandt, und dies erzeugt ein Signal, das im wesentlichen als eine Art von Komfortrauschen angesehen werden kann. Somit erfordert eine erfolgreiche Anwendung des Abwärtsverbindungsrauschunterdrückers in Verbindung mit Sprach-Kodierern-Dekodierern variabler Rate:
    • 1. Die Verwendung mehrerer Schätzungen des Hintergrundrauschspektrums, die jeder der verfügbaren Sprachkodierbitraten entsprechen;
    • 2. Die Verwendung zugewiesener Parametersätze für eine Aktualisierung der Leistungsschätzung und eine Berechnung der Dämpfungsverstärkung in Verbindung mit jeder der verfügbaren Bitraten;
    • 3. Die Verwendung einer verschiedenen Verstärkungsberechnung in Verbindung mit den verfügbaren Bitraten;
    • 4. Die Verwendung von Information über jede Pegeldämpfung, die auf Signale angewandt wird, die mit niedrigen Bitraten kodiert werden.
  • In einem System, das einen Sprach-Kodierer-Dekodierer variabler Rate verwendet, ist es vorteilhaft, Information über die verwendete Sprachkodierbitrate, die vom Sprachdekodierer geliefert wird, zu verwenden, damit der Rauschunterdrücker effektiv betrieben werden kann.
  • Ein Vorhaben der vorliegenden Erfindung besteht darin, Rauschunterdrückung brauchbar zu machen, wenn sie als eine Nachverarbeitungsstufe für einen Sprachdekodierer eingesetzt werden soll. Für diesen Zweck verwendet der Rauschunterdrücker Information vom Sprach-Kodierer-Dekodierer, die seinen Status (DTX) und den Status des Kanals betrifft.
  • Während bevorzugte Ausführungsformen der Erfindung gezeigt und beschrieben wurden, wird verständlich, dass solche Ausführungsformen nur beispielhaft beschrieben sind. Fachleute werden viele Variationen, Änderungen und Ersetzungen erkennen, ohne vom Umfang der vorliegenden Erfindung, der nur durch die angefügten Ansprüche begrenzt wird, abzuweichen. Somit sollen die folgenden Ansprüche alle solche Variationen oder Äquivalente abdecken, wie sie in den Umfang der Erfindung fallen.

Claims (19)

  1. Rauschunterdrücker (300) zum Unterdrücken von Rauschen in einem Signal (314) welches Hintergrundrauschen enthält, wobei der Rauschunterdrücker eine Abschätzeinrichtung zum Abschätzen eines Hintergrundrausch-Spektrums (332, 334) umfasst, in dem eine Anzeige von mindestens einer Einheit für diskontinuierliche Übertragung (36) und einem Kanalfehlerdetektor (38) benutzt wird, um die Abschätzung des Hintergrundrauschspektrums zu steuern.
  2. Rauschunterdrücker gemäß Anspruch 1, in dem eine Aktualisierung des abgeschätzten Hintergrundrauschspektrums während Perioden ausgesetzt wird, in denen Kanalfehler in dem Signal durch den Kanalfehldetektor erfasst werden.
  3. Rauschunterdrücker gemäß Anspruch 1 oder Anspruch 2, umfassend einen Sprachaktivitäts-(336) Detektor, um die Abschätzung des Hintergrundrauschspektrums zu steuern.
  4. Rauschunterdrücker gemäß Anspruch 3, in dem das abgeschätzte Hintergrundrauschspektrum aktualisiert wird, wenn der Sprachaktivitäts-Detektor anzeigt, dass nicht gesprochen wird.
  5. Rauschunterdrücker gemäß Anspruch 3 oder 4, in dem eine Anzeige eines Kanalfehlerdetektors benutzt wird, um die Abschätzung des Hintergrundrauschspektrums zu steuern und in dem der Zustand des Sprachaktivitäts-Detektors und/oder sein Speicher von vorherigen nicht-Sprache/Sprache-Entscheidungen eingefroren ist/sind, wenn der Kanalfehlerdetektor Kanalfehlermeldungen erfasst.
  6. Rauschunterdrücker gemäß irgendeinem vorhergehenden Anspruch, in dem eine Anzeige eines Kanalfehlerdetektors benutzt wird, um die Abschätzung des Hintergrundrauschspektrums zu steuern und in dem eine Aktualisierung des abgeschätzten Hintergrundrauschspektrums während Perioden ausgesetzt wird, in denen die Einheit für diskontinuierliche Übertragung anzeigt, dass das Signal nicht übertragen wird.
  7. Rauschunterdrücker gemäß Anspruch 6, in dem ein Hintergrundrauschen durch einen Hintergrundrauschgenerator, in Zeitperioden erzeugt wird, in denen das Signal nicht übertragen wird.
  8. Verfahren der Rauschunterdrückung, zum Unterdrücken des Rauschens in einem Signal, welches Hintergrundrauschen enthält, umfassend die Schritte von: Abschätzen eines Hintergrundrauschspektrums; Verwenden des Hintergrundrauschspektrums um das Rauschen in dem Signal zu unterdrücken; Empfangen einer Anzeige zum Anzeigen des Betriebs von mindestens, der Einheit für diskontinuierliche Übertragung oder dem Kanalfehlerdetektor; und Verwenden der Anzeige um den Schritt des Abschätzens des Hintergrundrauschspektrums zu Steuern.
  9. Verfahren der Rauschunterdrückung gemäß Anspruch 8 welches den Schritt des Aussetzens der Aktualisierung des abgeschätzten Hintergrundrauschspektrums während Perioden umfasst, in denen Kanalfehler in dem Signal durch den Kanalfehlerdetektor erfasst werden.
  10. Verfahren gemäß Anspruch 8 oder 9, umfassend den Schritt des Steuerns einer Abschätzung des Hintergrundrauschspektrums, mit einem Sprachaktivitäts-Detektor.
  11. Verfahren der Rauschunterdrückung gemäß Anspruch 10, umfassend den Schritt der Aktualisierung des abgeschätzten Hintergrundrauschspektrums, wenn der Sprachaktivitäts-Detektor anzeigt, dass nicht gesprochen wird.
  12. Verfahren der Rauschunterdrückung gemäß Anspruch 10 oder 11, in dem eine Anzeige eines Kanalfehlerdetektors benutzt wird, um den Schritt des Abschätzens des Hintergrundrauschspektrums zu steuern und weiter umfassend den Schritt des Aussetzens der Aktualisierung des abgeschätzten Hintergrundrauschspektrums während Perioden, in denen die Einheit für diskontinuierliche Übertragung anzeigt, dass das Signal nicht übertragen wird.
  13. Verfahren der Rauschunterdrückung gemäß irgendeinem der Ansprüche 8 bis 12, in dem eine Anzeige eines Kanalfehlerdetektors verwendet wird, um den Schritt des Abschätzens des Hintergrundrauschspektrums zu steuern und weiter den Schritt des Aussetzens einer Aktualisierung des abgeschätzten Hintergrundrauschspektrums während Perioden umfasst, in denen die Einheit zur diskontinuierlichen Übertragung anzeigt, dass das Signal nicht übertragen wird.
  14. Verfahren zur Rauschunterdrückung gemäß Anspruch 13, umfassend den Schritt des Erzeugens eines Hintergrundrauschens, mittels eines Hintergrundrauschgenerators während Zeitperioden, in denen das Signal nicht übertragen wird.
  15. Verfahren zur Rauschunterdrückung gemäß irgendeinem der Ansprüche 8-14, welches in einem Übertragungsweg in einem kabellosen Kommunikationssystem benutzt wird.
  16. Verfahren zur Rauschunterdrückung gemäß Anspruch 15, welches in einer kabellosen Abwärtsstrecke, von einem Kommunikationsnetz zu einem Kommunikationsendgerät stattfindet.
  17. Mobilendgerät (10), welches einen Rauschunterdrücker gemäß einem der Ansprüche 1 bis 7, eine Einheit zur diskontinuierlichen Übertragung und einen Kanalfehlerdetektor umfasst.
  18. Mobilkommunikationssystem (600), umfassend ein Mobilkommunikationsnetzwerk (602) und eine Vielzahl von Mobilendgeräten (604), gemäß Anspruch 17.
  19. Mobilkommunikationssystem umfassend einen Rauschunterdrücker gemäß irgendeinem der Ansprüche 1 bis 7, eine Einheit zur diskontinuierlichen Übertragung und einen Kanalfehlerdetektor.
DE60032797T 1999-11-15 2000-11-13 Geräuschunterdrückung Expired - Lifetime DE60032797T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI992452 1999-11-15
FI992452A FI116643B (fi) 1999-11-15 1999-11-15 Kohinan vaimennus
PCT/FI2000/000989 WO2001037265A1 (en) 1999-11-15 2000-11-13 Noise suppression

Publications (2)

Publication Number Publication Date
DE60032797D1 DE60032797D1 (de) 2007-02-15
DE60032797T2 true DE60032797T2 (de) 2007-11-08

Family

ID=8555598

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60032797T Expired - Lifetime DE60032797T2 (de) 1999-11-15 2000-11-13 Geräuschunterdrückung

Country Status (11)

Country Link
US (2) US6810273B1 (de)
EP (1) EP1232496B1 (de)
JP (1) JP4897173B2 (de)
CN (2) CN1171202C (de)
AT (1) ATE350747T1 (de)
AU (1) AU1526601A (de)
CA (1) CA2384963C (de)
DE (1) DE60032797T2 (de)
ES (1) ES2277861T3 (de)
FI (1) FI116643B (de)
WO (1) WO2001037265A1 (de)

Families Citing this family (161)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
EP1241600A1 (de) * 2001-03-13 2002-09-18 Siemens Schweiz AG Verfahren und Kommunikationssystem zur Generierung von Antwortmeldungen
FR2824978B1 (fr) * 2001-05-15 2003-09-19 Wavecom Sa Dispositif et procede de traitement d'un signal audio
DE10138650A1 (de) * 2001-08-07 2003-02-27 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verschlüsseln eines diskreten Signals sowie Verfahren und Vorrichtung zur Entschlüsselung
DE10150519B4 (de) * 2001-10-12 2014-01-09 Hewlett-Packard Development Co., L.P. Verfahren und Anordnung zur Sprachverarbeitung
GB2382748A (en) * 2001-11-28 2003-06-04 Ipwireless Inc Signal to noise plus interference ratio (SNIR) estimation with corection factor
JP3561261B2 (ja) * 2002-05-30 2004-09-02 株式会社東芝 データ通信装置及び通信制御方法
DE10251603A1 (de) * 2002-11-06 2004-05-19 Dr.Ing.H.C. F. Porsche Ag Verfahren zur Störgeräuschunterdrückung
US7103729B2 (en) * 2002-12-26 2006-09-05 Intel Corporation Method and apparatus of memory management
US20040125965A1 (en) * 2002-12-27 2004-07-01 William Alberth Method and apparatus for providing background audio during a communication session
US7738848B2 (en) 2003-01-14 2010-06-15 Interdigital Technology Corporation Received signal to noise indicator
US20040235423A1 (en) * 2003-01-14 2004-11-25 Interdigital Technology Corporation Method and apparatus for network management using perceived signal to noise and interference indicator
EP1443498B1 (de) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Rauschreduzierung und audiovisuelle Sprachaktivitätsdetektion
CN1757060B (zh) * 2003-03-15 2012-08-15 曼德斯必德技术公司 Celp语音编码的话音指数控制
KR100506224B1 (ko) * 2003-05-07 2005-08-05 삼성전자주식회사 이동 통신 단말기에서 노이즈 제어장치 및 방법
US7245878B2 (en) * 2003-10-28 2007-07-17 Spreadtrum Communications Corporation Method and apparatus for silent frame detection in a GSM communications system
US20050091049A1 (en) * 2003-10-28 2005-04-28 Rongzhen Yang Method and apparatus for reduction of musical noise during speech enhancement
CN1617606A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
US20060018457A1 (en) * 2004-06-25 2006-01-26 Takahiro Unno Voice activity detectors and methods
FI20045315L (fi) * 2004-08-30 2006-03-01 Nokia Corp Ääniaktiivisuuden havaitseminen äänisignaalissa
US10004110B2 (en) * 2004-09-09 2018-06-19 Interoperability Technologies Group Llc Method and system for communication system interoperability
FR2875633A1 (fr) * 2004-09-17 2006-03-24 France Telecom Procede et dispositif d'evaluation de l'efficacite d'une fonction de reduction de bruit destinee a etre appliquee a des signaux audio
SE0402372D0 (sv) * 2004-09-30 2004-09-30 Ericsson Telefon Ab L M Signal coding
US7917562B2 (en) * 2004-10-29 2011-03-29 Stanley Pietrowicz Method and system for estimating and applying a step size value for LMS echo cancellers
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US20070116300A1 (en) * 2004-12-22 2007-05-24 Broadcom Corporation Channel decoding for wireless telephones with multiple microphones and multiple description transmission
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20060136201A1 (en) * 2004-12-22 2006-06-22 Motorola, Inc. Hands-free push-to-talk radio
BRPI0607247B1 (pt) 2005-01-31 2019-10-29 Skype método para gerar uma seqüência de saída de amostras em resposta a uma primeira e uma segunda subseqüências de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
US8102872B2 (en) * 2005-02-01 2012-01-24 Qualcomm Incorporated Method for discontinuous transmission and accurate reproduction of background noise information
FR2882458A1 (fr) * 2005-02-18 2006-08-25 France Telecom Procede de mesure de la gene due au bruit dans un signal audio
EP1861846B1 (de) * 2005-03-24 2011-09-07 Mindspeed Technologies, Inc. Adaptive stimmenmodus-erweiterung für einen stimmenaktivitäts-detektor
KR101168466B1 (ko) * 2005-04-21 2012-07-26 에스알에스 랩스, 인크. 오디오 잡음을 감소시키는 시스템 및 방법
NO324318B1 (no) * 2005-04-29 2007-09-24 Tandberg Telecom As Fremgangsmate og anordning for stoydeteksjon.
JP4551817B2 (ja) * 2005-05-20 2010-09-29 Okiセミコンダクタ株式会社 ノイズレベル推定方法及びその装置
EP1897085B1 (de) * 2005-06-18 2017-05-31 Nokia Technologies Oy System und verfahren zur adaptiven übertragung von komfortrauschparametern während einer nicht durchgehenden sprachübertragung
JP2007124048A (ja) * 2005-10-25 2007-05-17 Ntt Docomo Inc 通信制御装置及び通信制御方法
GB2432758B (en) * 2005-11-26 2008-09-10 Wolfson Ltd Auto device and method
JP4863713B2 (ja) * 2005-12-29 2012-01-25 富士通株式会社 雑音抑制装置、雑音抑制方法、及びコンピュータプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
EP1814109A1 (de) 2006-01-27 2007-08-01 Texas Instruments Incorporated Sprachsignalverstärker zur Modellierung des Lombard-Effekts
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
ATE553607T1 (de) 2006-02-16 2012-04-15 Imerj Ltd Verfahren und systeme zum umwandeln einer sprachnachricht in eine textnachricht
US7953069B2 (en) * 2006-04-18 2011-05-31 Cisco Technology, Inc. Device and method for estimating audiovisual quality impairment in packet networks
GB2437559B (en) * 2006-04-26 2010-12-22 Zarlink Semiconductor Inc Low complexity noise reduction method
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
JP2009539306A (ja) * 2006-05-31 2009-11-12 アギア システムズ インコーポレーテッド 非呼状況での移動体通信デバイスによる雑音低減
US20090287479A1 (en) * 2006-06-29 2009-11-19 Nxp B.V. Sound frame length adaptation
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
CN101193139B (zh) * 2006-11-20 2011-11-30 鸿富锦精密工业(深圳)有限公司 一种可滤除环境音的方法及其手机
US9058819B2 (en) * 2006-11-24 2015-06-16 Blackberry Limited System and method for reducing uplink noise
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
JP2008148179A (ja) * 2006-12-13 2008-06-26 Fujitsu Ltd 音声信号処理装置および自動利得制御装置における雑音抑圧処理方法
US8352257B2 (en) * 2007-01-04 2013-01-08 Qnx Software Systems Limited Spectro-temporal varying approach for speech enhancement
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
EP1995722B1 (de) 2007-05-21 2011-10-12 Harman Becker Automotive Systems GmbH Verfahren zur Verarbeitung eines akustischen Eingangssignals zweck Sendung eines Ausgangssignals mit reduzierter Lautstärke
CN101321201B (zh) * 2007-06-06 2011-03-16 联芯科技有限公司 回声消除装置、通信终端及确定回声时延的方法
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8194871B2 (en) * 2007-08-31 2012-06-05 Centurylink Intellectual Property Llc System and method for call privacy
US8538492B2 (en) * 2007-08-31 2013-09-17 Centurylink Intellectual Property Llc System and method for localized noise cancellation
JP2009063928A (ja) * 2007-09-07 2009-03-26 Fujitsu Ltd 補間方法、情報処理装置
EP2191465B1 (de) * 2007-09-12 2011-03-09 Dolby Laboratories Licensing Corporation Spracherweiterung mit anpassung von geräuschpegelschätzungen
EP2191466B1 (de) * 2007-09-12 2013-05-22 Dolby Laboratories Licensing Corporation Spracherweiterung mit stimmklarheit
WO2009038136A1 (ja) * 2007-09-19 2009-03-26 Nec Corporation 雑音抑圧装置、その方法及びプログラム
US8656415B2 (en) * 2007-10-02 2014-02-18 Conexant Systems, Inc. Method and system for removal of clicks and noise in a redirected audio stream
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
US8335308B2 (en) * 2007-10-31 2012-12-18 Centurylink Intellectual Property Llc Method, system, and apparatus for attenuating dual-tone multiple frequency confirmation tones in a telephone set
US7856252B2 (en) * 2007-11-02 2010-12-21 Agere Systems Inc. Method for seamless noise suppression on wideband to narrowband cell switching
CN100555414C (zh) * 2007-11-02 2009-10-28 华为技术有限公司 一种dtx判决方法和装置
US20090150144A1 (en) * 2007-12-10 2009-06-11 Qnx Software Systems (Wavemakers), Inc. Robust voice detector for receive-side automatic gain control
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
CN100550133C (zh) * 2008-03-20 2009-10-14 华为技术有限公司 一种语音信号处理方法及装置
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
KR101335417B1 (ko) * 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8275136B2 (en) 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8611556B2 (en) 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US20090281803A1 (en) * 2008-05-12 2009-11-12 Broadcom Corporation Dispersion filtering for speech intelligibility enhancement
US8300801B2 (en) * 2008-06-26 2012-10-30 Centurylink Intellectual Property Llc System and method for telephone based noise cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
ES2955669T3 (es) * 2008-07-11 2023-12-05 Fraunhofer Ges Forschung Decodificador de audio, procedimiento para decodificar una señal de audio y programa de ordenador
EP2151822B8 (de) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Verarbeitung eines Audiosignals zur Sprachverstärkung unter Anwendung einer Merkmalsextraktion
US20100082339A1 (en) * 2008-09-30 2010-04-01 Alon Konchitsky Wind Noise Reduction
US8914282B2 (en) * 2008-09-30 2014-12-16 Alon Konchitsky Wind noise reduction
DE102009007245B4 (de) 2009-02-03 2010-11-11 Innovationszentrum für Telekommunikationstechnik GmbH IZT Funksignalempfang
CN102668411B (zh) * 2009-02-09 2014-07-09 华为技术有限公司 Dtx比特的映射方法和设备
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
GB2473266A (en) * 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
JP5395960B2 (ja) * 2009-10-08 2014-01-22 ヴェーデクス・アクティーセルスカプ 補聴器におけるフィードバック抑制の適応制御方法および補聴器
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
CN101859569B (zh) * 2010-05-27 2012-08-15 上海朗谷电子科技有限公司 数字音频信号处理降噪的方法
CN102576543B (zh) * 2010-07-26 2014-09-10 松下电器产业株式会社 多输入噪声抑制装置、多输入噪声抑制方法以及集成电路
US9263049B2 (en) * 2010-10-25 2016-02-16 Polycom, Inc. Artifact reduction in packet loss concealment
US8311817B2 (en) * 2010-11-04 2012-11-13 Audience, Inc. Systems and methods for enhancing voice quality in mobile device
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
US8983833B2 (en) * 2011-01-24 2015-03-17 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise
EP2686846A4 (de) * 2011-03-18 2015-04-22 Nokia Corp Vorrichtung zur audiosignalverarbeitung
CN103765511B (zh) * 2011-07-07 2016-01-20 纽昂斯通讯公司 嘈杂语音信号中的脉冲干扰的单信道抑制
WO2013079763A1 (en) 2011-11-30 2013-06-06 Nokia Corporation Quality enhancement in multimedia capturing
CN103177728B (zh) * 2011-12-21 2015-07-29 中国移动通信集团广西有限公司 语音信号降噪处理方法及装置
ES2991004T3 (es) 2011-12-22 2024-12-02 Harvard College Métodos para la detección de analitos
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP2943954B1 (de) * 2013-01-08 2018-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verbesserung der sprachverständlichkeit bei hintergrungeräusch durch sprachverständlichkeits-abhängige verstärkung
CN105378831B (zh) 2013-06-21 2019-05-31 弗朗霍夫应用科学研究促进协会 针对切换式音频编码系统在错误隐藏过程中的改善信号衰落的装置及方法
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) * 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
US9502028B2 (en) * 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
GB2519379B (en) 2013-10-21 2020-08-26 Nokia Technologies Oy Noise reduction in multi-microphone systems
US9437212B1 (en) * 2013-12-16 2016-09-06 Marvell International Ltd. Systems and methods for suppressing noise in an audio signal for subbands in a frequency domain based on a closed-form solution
CN110265058B (zh) * 2013-12-19 2023-01-17 瑞典爱立信有限公司 估计音频信号中的背景噪声
WO2015130283A1 (en) 2014-02-27 2015-09-03 Nuance Communications, Inc. Methods and apparatus for adaptive gain control in a communication system
JP2015206874A (ja) * 2014-04-18 2015-11-19 富士通株式会社 信号処理装置、信号処理方法、及び、プログラム
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression
DE112015004185T5 (de) 2014-09-12 2017-06-01 Knowles Electronics, Llc Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten
US9886966B2 (en) 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
US10133702B2 (en) * 2015-03-16 2018-11-20 Rockwell Automation Technologies, Inc. System and method for determining sensor margins and/or diagnostic information for a sensor
US9749746B2 (en) * 2015-04-29 2017-08-29 Fortemedia, Inc. Devices and methods for reducing the processing time of the convergence of a spatial filter
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US11483663B2 (en) 2016-05-30 2022-10-25 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10861478B2 (en) * 2016-05-30 2020-12-08 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
US10433076B2 (en) * 2016-05-30 2019-10-01 Oticon A/S Audio processing device and a method for estimating a signal-to-noise-ratio of a sound signal
CN107123419A (zh) * 2017-05-18 2017-09-01 北京大生在线科技有限公司 Sphinx语速识别中背景降噪的优化方法
EP3416167B1 (de) * 2017-06-16 2020-05-13 Nxp B.V. Signalprozessor zur einkanal-geräuschunterdrückung von periodischen geräuschen
JP7155531B2 (ja) * 2018-02-14 2022-10-19 株式会社島津製作所 磁気浮上制御装置および真空ポンプ
AU2019287569A1 (en) 2018-06-14 2021-02-04 Pindrop Security, Inc. Deep neural network based speech enhancement
WO2020023856A1 (en) 2018-07-27 2020-01-30 Dolby Laboratories Licensing Corporation Forced gap insertion for pervasive listening
KR102280692B1 (ko) * 2019-08-12 2021-07-22 엘지전자 주식회사 지능적 음성 인식 방법, 음성 인식 장치 및 지능형 컴퓨팅 디바이스
CN114097031A (zh) * 2020-06-23 2022-02-25 谷歌有限责任公司 智能背景噪声估计器
TWI756817B (zh) * 2020-09-08 2022-03-01 瑞昱半導體股份有限公司 語音活動偵測裝置與方法
CN112259125B (zh) * 2020-10-23 2023-06-16 江苏理工学院 基于噪声的舒适度评价方法、系统、设备及可存储介质
US11915715B2 (en) 2021-06-24 2024-02-27 Cisco Technology, Inc. Noise detector for targeted application of noise removal
CN113421595B (zh) * 2021-08-25 2021-11-09 成都启英泰伦科技有限公司 一种利用神经网络的语音活性检测方法
WO2023028018A1 (en) 2021-08-26 2023-03-02 Dolby Laboratories Licensing Corporation Detecting environmental noise in user-generated content
WO2025106430A1 (en) * 2023-11-17 2025-05-22 Qualcomm Incorporated Context-based noise reduction during voice call

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5047930A (en) * 1987-06-26 1991-09-10 Nicolet Instrument Corporation Method and system for analysis of long term physiological polygraphic recordings
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
EP0707763B1 (de) * 1993-07-07 2001-08-29 Picturetel Corporation Verringerung des hintergrundrauschens zur sprachverbesserung
DE19520353A1 (de) * 1995-06-07 1996-12-12 Thomson Brandt Gmbh Verfahren und Schaltungsanordnung zur Verbesserung des Empfangsverhaltens bei der Übertragung von digitalen Signalen
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5771440A (en) * 1996-05-31 1998-06-23 Motorola, Inc. Communication device with dynamic echo suppression and background noise estimation
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US5835486A (en) * 1996-07-11 1998-11-10 Dsc/Celcore, Inc. Multi-channel transcoder rate adapter having low delay and integral echo cancellation
US5881373A (en) * 1996-08-28 1999-03-09 Telefonaktiebolaget Lm Ericsson Muting a microphone in radiocommunication systems
US5867574A (en) * 1997-05-19 1999-02-02 Lucent Technologies Inc. Voice activity detection system and method
KR100234330B1 (ko) * 1997-09-30 1999-12-15 윤종용 Ofdm 시스템 수신기의 보호 구간 종류 검출장치 및 그 방법
NO306027B1 (no) 1997-10-27 1999-09-06 Testtech Services As Apparat for å fjerne sand i en undervannsbrönn
WO1999030315A1 (fr) * 1997-12-08 1999-06-17 Mitsubishi Denki Kabushiki Kaisha Procede et dispositif de traitement du signal sonore
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6282176B1 (en) * 1998-03-20 2001-08-28 Cirrus Logic, Inc. Full-duplex speakerphone circuit including a supplementary echo suppressor
DE19822957C1 (de) * 1998-05-22 2000-05-25 Deutsch Zentr Luft & Raumfahrt Verfahren zur Detektion und Unterdrückung von Störsignalen in SAR-Daten und Einrichtung zur Durchführung des Verfahrens
CN1313017A (zh) * 1998-06-08 2001-09-12 艾利森电话股份有限公司 用于消除切换的可听效应的系统
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus
CA2390200A1 (en) * 1999-11-03 2001-05-10 Charles W. K. Gritton Integrated voice processing system for packet networks
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
JP3566197B2 (ja) * 2000-08-31 2004-09-15 松下電器産業株式会社 雑音抑圧装置及び雑音抑圧方法
DE10222628B4 (de) * 2002-05-17 2004-08-26 Siemens Ag Verfahren zum Auswerten eines Zeitsignals, das eine spektroskopische Information beinhaltet

Also Published As

Publication number Publication date
ATE350747T1 (de) 2007-01-15
CA2384963A1 (en) 2001-05-25
FI116643B (fi) 2006-01-13
US7171246B2 (en) 2007-01-30
CN1390349A (zh) 2003-01-08
CN1303585C (zh) 2007-03-07
ES2277861T3 (es) 2007-08-01
EP1232496A1 (de) 2002-08-21
CA2384963C (en) 2010-01-12
WO2001037265A1 (en) 2001-05-25
FI19992452A7 (fi) 2001-05-16
JP2003514473A (ja) 2003-04-15
CN1171202C (zh) 2004-10-13
EP1232496B1 (de) 2007-01-03
JP4897173B2 (ja) 2012-03-14
AU1526601A (en) 2001-05-30
US20050027520A1 (en) 2005-02-03
DE60032797D1 (de) 2007-02-15
CN1567433A (zh) 2005-01-19
US6810273B1 (en) 2004-10-26

Similar Documents

Publication Publication Date Title
DE60032797T2 (de) Geräuschunterdrückung
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE69830721T2 (de) Verfahren und vorrichtung zur bestimmung der übertragungsrate in einem kommunikationssystem
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE19681070C2 (de) Verfahren und Vorrichtung zum Betreiben eines Kommunikationssystems mit Rauschunterdrückung
DE60020317T2 (de) Rauschunterdrückung unter verwendung eines externen sprach-aktivitäts-detektors
DE69925168T2 (de) Erkennung der aktivität komplexer signale für verbesserte sprach-/rauschklassifizierung von einem audiosignal
DE69839260T2 (de) Verfahren und gerät zum gebrauchen von zustandsbestimmung zum steuern von funktionsteilen in digitalen telefonsystemen
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
US7873114B2 (en) Method and apparatus for quickly detecting a presence of abrupt noise and updating a noise estimate
DE69331223T2 (de) Netzwerkechokompensator
DE69633936T2 (de) Unterdrückung eines akustischen echos in einem digitalen mobilkommunikationssystem
DE69630580T2 (de) Rauschunterdrücker und Verfahren zur Unterdrückung des Hintergrundrauschens in einem verrauschten Sprachsignal und eine Mobilstation
US7996215B1 (en) Method and apparatus for voice activity detection, and encoder
EP2008379B1 (de) Einstellbares rauschunterdrückungssystem
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE60129072T2 (de) Multimodale Sprachkodierung und Geräuschunterdrückung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE19935808A1 (de) Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
DE112014000945B4 (de) Sprachbetonungsgerät
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE60220995T2 (de) Netzwerk-echounterdrückung in mobilstationen
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition