[go: up one dir, main page]

DE60117558T2 - Verfahren zur rauschrobusten klassifikation in der sprachkodierung - Google Patents

Verfahren zur rauschrobusten klassifikation in der sprachkodierung Download PDF

Info

Publication number
DE60117558T2
DE60117558T2 DE60117558T DE60117558T DE60117558T2 DE 60117558 T2 DE60117558 T2 DE 60117558T2 DE 60117558 T DE60117558 T DE 60117558T DE 60117558 T DE60117558 T DE 60117558T DE 60117558 T2 DE60117558 T2 DE 60117558T2
Authority
DE
Germany
Prior art keywords
signal
parameters
speech
parameter
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60117558T
Other languages
English (en)
Other versions
DE60117558D1 (de
Inventor
Jes Laguna Niguel THYSSEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mindspeed Technologies LLC
Original Assignee
Mindspeed Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mindspeed Technologies LLC filed Critical Mindspeed Technologies LLC
Publication of DE60117558D1 publication Critical patent/DE60117558D1/de
Application granted granted Critical
Publication of DE60117558T2 publication Critical patent/DE60117558T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Mobile Radio Communication Systems (AREA)

Description

  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf ein Verfahren für eine verbesserte Sprach-Klassifizierung und insbesondere auf ein Verfahren für eine stabile Sprach-Klassifizierung bei einer Sprachcodierung.
  • Hintergrund der Erfindung
  • In Bezug auf eine Sprach-Kommunikation kann ein Hintergrundrauschen vorbeifahrende Autofahrer, darüber fliegende Flugzeuge, Klapper-Geräusche wie z.B. Restaurant-/Cafe-typische Geräusche, Musik und viele andere hörbare Geräusche beinhalten. Die zellulare Telefontechnologie ermöglicht das einfache Kommunizieren an jedem beliebigen Ort, bei dem ein drahtloses Signal empfangen und gesendet werden kann. Nachteilig ist jedoch im sogenannten „zellularen Zeitalter" dass Telefonunterhaltungen nicht länger privat bleiben oder in einem Bereich stattfinden, bei dem eine Kommunikation überhaupt möglich ist. Wenn beispielsweise ein zellulares Telefon klingelt und der Benutzer antwortet, so wird die Sprach-Kommunikation davon beeinflusst, ob sich der Benutzer in einem ruhigen Park oder in der Nähe eines geräuschvollen Presslufthammers befindet. Daher stellen die Effekte eines Hintergrundrauschens ein besonderes Anliegen für Benutzer und Dienstanbieter von zellularen Telefonen dar.
  • Die Klassifizierung stellt ein wichtiges Werkzeug bei der Sprachverarbeitung dar. Üblicherweise wird das Sprachsignal in eine Vielzahl von unterschiedlichen Klassen klassifiziert, um unter anderem die wichtigen Wahrnehmungsmerkmale des Signals während der Codierung zu betonen. Sofern die Sprache sauber oder frei von Hintergrundgeräuschen ist, kann eine stabile Klassifizierung (d.h. geringe Wahrscheinlichkeit einer Fehlklassifizierung von Rahmen des Sprachsignals) leichter durchgeführt werden. Sobald jedoch der Pegel des Hintergrundgeräusches zunimmt wird ein effizientes und genaues Klassifizieren des Sprachsignals zum Problem.
  • In der Telekommunikationsindustrie wird Sprache gemäß dem ITU-Standard (International Telecommunication Union) oder gemäß anderer Standards wie z.B. dem drahtlosen GSM-Standard (Global System for Mobile Communications) digitalisiert und komprimiert. Abhängig vom Betrag der Komprimierung und den Anwendungs-Notwendigkeiten existieren eine Vielzahl von Standards. Vorteilhafterweise wird das Signal vor der Übertragung stark komprimiert, da mit steigender Komprimierung sich die Bitrate verringert. Dies erlaubt die Übertragung von mehr Informationen für den gleichen Wert einer Bandbreite, wodurch eine Bandbreite, Leistung und Speicher gespart werden können. Mit der sich verringernden Bitrat wird jedoch eine getreue Nachbildung des Sprachsignals zunehmend schwieriger. Für eine Telefonanwendung (bei dem das Sprachsignal eine Frequenz-Bandbreite von ca. 3,3 kHz aufweist) ist das Sprachsignal üblicherweise 16 Bit linear oder 128 kBit/s. Der ITU-T-Standard G.711 arbeitet bei 64 kBit/s oder der Hälfte des linearen PCM-digitalen Sprachsignals (Puls Code in Modulation). Mit der Anforderung nach steigenden Bandbreiten verringern die Standards zunehmend die Bitraten (z.B. G.726 besitzt 32 kBit/s; G.728 besitzt 16 kBit/s; G.729 besitzt 8 kBit/s). Derzeit wird ein Standard entwickelt, der die Bitrate sogar unter 4 kBit/s verringert.
  • Üblicherweise wird Sprache basierend auf einem Satz von Parametern klassifiziert und für diese Parameter ein Schwellwert gesetzt, um die geeignete Klasse festzulegen. Wenn in der Umgebung ein Hintergrundgeräusch vorhanden ist (z.B. zur gleichen Zeit zusätzliche Sprache und Geräusche), überlagern oder addieren sich üblicherweise auf Grund des Geräusches die für die Klassifizierung abgeleiteten Parameter. Derzeitige Lösun gen schätzen daher den Wert des Hintergrundgeräusches in einer vorgegebenen Umgebung und variieren abhängig von diesem Wert die Schwellwerte. Ein Problem bei diesen Verfahren besteht darin, dass die Steuerung der Schwellwerte zusätzlich eine weitere Dimension dem Klassifizierer hinzufügt. Dies erhöht die Komplexität für das Einstellen der Schwellwerte, weshalb ein Finden einer optimalen Einstellung für alle Rauschpegel im Allgemeinen nicht durchführbar ist.
  • Beispielsweise ist ein allgemein abgeleiteter Parameter eine Pitchkorrelation (pitch correlation), die angibt wie periodisch das Sprachsignal ist. Selbst in ein stark stimmhaftes Sprachsignal, wie beispielsweise dem Vokal „a", erscheint, sofern ein Hintergrundrauschen vorhanden ist, die Periodizität auf Grund des zufälligen Charakters des Rauschsignals wesentlich geringer.
  • Gemäß dem Stand der Technik sind komplexe Algorithmen bekannt, die vorgeben Parameter auf der Grundlage eines reduzierten Rauschsignals abschätzen zu können. In einem dieser Algorithmen wird beispielsweise eine vollständige Rauschkompression auf ein rausch-behaftetes Signal angewendet. Die Parameter werden daraufhin aus dem reduzierten Rauschsignal geschätzt. Diese Algorithmen sind jedoch sehr komplex und verbrauchen Leistung und Speicher im digitalen Signalprozessor (DSP).
  • Demzufolge besteht die Notwendigkeit für ein weniger kompliziertes Verfahren für eine Sprach-Klassifizierung, welche für niedrige Bitraten geeignet ist. Insbesondere besteht ein Bedarf für ein verbessertes Verfahren zur Sprach-Klassifizierung, wobei die Parameter nicht von einem Hintergrund-Rauschen beeinflusst werden.
  • Ferner sei die Aufmerksamkeit auf das Dokument mit dem Titel „Multi-mode variable rate speech coder for CDMA cellular systems", von Kanaka et al., IEEE 46th vehicular Technology Con ference, 1996, Seiten 198 bis 202 gelenkt. Das Dokument offenbart einen Multimode-Sprachcodierer mit variabler Rate, der auf dem CELP-Algorithmus basiert. Der Decodierer besteht aus fünf Codiermodi, welche auf verschiedene Sprachmerkmale angewendet werden. Einer der fünf Codiermodi wird für jeden Rahmen unter Verwendung einer Mode-Auswahleinheit ausgewählt, die ein neues Verkehrsnetz und eine Sprachsignal-Leistungsvariation-Erfassungseinheit aufweist. Zum Verbessern der Codier-Leistungsmerkmale wird ein prediktiver Zwischenrahmen-LSP-Quantisierer und eine Codier-Strategie für Sprach-Anfänge verwendet. Bei einer Sprachcodierung mit niedrigen Bitraten wird die decodierte Sprachqualität ernsthaft von hohem Hintergrundrauschen verschlechtert. Eine Rauschunterdrückung, welche auf spektralen Subtraktionsalgorithmen basiert, wird zum Verringern der Hintergrundgeräusche eingesetzt.
  • Gemäß der vorliegenden Erfindung wird ein Verfahren zum Erhalten eines Satzes von Parametern gemäß Patentanspruch 1 vorgeschlagen, der für eine Klassifizierung einer Sprachcodierung verwendet wird. Bevorzugte Ausführungsbeispiele der Erfindung sind in den abhängigen Patentansprüchen offenbart.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung beseitigt die vorstehend genannten Probleme und liefert ein Verfahren für eine verbesserte Sprachkommunikation. Insbesondere liefert die vorliegende Erfindung ein weniger kompliziertes Verfahren für eine verbesserte Sprach-Klassifizierung bei Anwesenheit von Hintergrundgeräuschen. In besonderem Maße liefert die vorliegende Erfindung ein stabiles Verfahren für eine verbesserte Sprach-Klassifizierung in eine Sprachcodierung, wobei die Auswirkungen eines Hintergrundrauschens auf die Parameter verringert sind.
  • Gemäß einem Teilaspekt der vorliegenden Erfindung erhält man einen homogenen Satz von Parametern unabhängig von der Höhe des Hintergrundrauschens durch Abschätzen der Parameter der einwandfreien Sprache.
  • Kurzbeschreibung der Zeichnungen
  • Diese und weitere Merkmale, Teilaspekte und Vorteile der vorliegenden Erfindung werden anhand der nachfolgenden Beschreibung, der anliegenden Patentansprüche und der begleitenden Zeichnungen besser verstanden, wobei:
  • 1 in einer Blockdarstellung eine vereinfachte Darstellung von typischen Stufen einer Sprachverarbeitung gemäß dem Stand der Technik zeigt;
  • 2 in einer detaillierten Blockdarstellung ein beispielhaftes Codiersystem gemäß der vorliegenden Erfindung zeigt;
  • 3 in einer detaillierten Blockdarstellung eine beispielhafte Entscheidungs-Logik gemäß 2 zeigt; und
  • 4 ein Flussdiagramm eines beispielhaften Verfahrens gemäß der vorliegenden Erfindung zeigt.
  • Detaillierte Beschreibung von bevorzugten Ausführungsformen
  • Die vorliegende Erfindung bezieht sich auf ein verbessertes Verfahren zur Sprach-Klassifizierung bei Anwesenheit von Hintergrundgeräuschen. Obwohl die Verfahren für eine Sprachkommunikation und insbesondere die vorliegend offenbarten Verfahren zur Klassifizierung besonders für zellulare Telefon-Kommunikation geeignet sind, ist die Erfindung nicht darauf beschränkt. Beispielsweise kann das erfindungsgemäße Verfahren zum Klassifizieren für eine Vielzahl von Sprachkommunikations-Kontexten geeignet sein, wie z.B. das PSTN (Public Switched Telephone Network), eine drahtlose Kommunikation, voice over IP (Internetprotokoll) und dergleichen.
  • Im Gegensatz zu den herkömmlichen Verfahren offenbart die vorliegende Erfindung ein Verfahren, das die wichtigen Wahrnehmungsmerkmale des Eingangssignals darstellt und eher einen Wahrnehmungsabgleich als einen Wellenform-Abgleich durchführt. Die vorliegende Erfindung sollte dahin gehend verstanden werden, dass sie ein Verfahren zur Sprach-Klassifizierung darstellt, welcher ein Teil eines größeren Sprachcodier-Algorithmus sein kann. Algorithmen zur Sprachcodierung sind in der Industrie allgemein bekannt. Selbstverständlich wird ein Fachmann erkennen, dass die verschiedenen Verfahrensschritte sowohl vor als auch nach der Implementierung der vorliegenden Erfindung durchgeführt werden können (z.B. kann das Sprachsignal vor der tatsächlichen Sprachcodierung vorverarbeitet werden; es kann eine auf einem gemeinsamen Rahmen basierte Verarbeitung durchgeführt werden; es kann eine Mode-abhängige Verarbeitung durchgeführt werden; und es kann eine Decodierung durchgeführt werden).
  • Einleitend zeigt 1 in einer allgemeinen Blockdarstellung die typischen Stufen einer Sprachverarbeitung gemäß dem Stand der Technik. Im Allgemeinen weist das Sprachsystem 100 einen Codierer 102, einen Übertrager oder Speicher 104 des Bitstroms und einen Decodierer 106 auf. Der Codierer 102 spielt insbesondere bei sehr niedrigen Bitraten eine kritische Rolle im System. Die Vor-Übertragungsprozesse werden vom Codierer 102 durchgeführt, wie z.B. Unterscheiden der Sprache von Nicht-Sprache, Ableiten der Parameter, Einstellen der Schwellwerte und Klassifizieren des Sprachrahmens. Für eine qualitativ hochwertige Sprachkommunikation ist es üblicherweise von Bedeutung, dass der Codierer (normalerweise durch einen Algorithmus) die Art des Signals berücksichtigt und basierend auf der Art des Signals das Signal entsprechend verarbeitet. Die spezifischen Funktionen des Codierers der vorliegenden Erfindung werden nachfolgend im Einzelnen diskutiert, wobei jedoch im Allgemeinen der Codierer den Sprachrahmen in eine Anzahl von Klassen klassifiziert. Die in der Klasse enthaltenen Information hilft hierbei die Sprache weiter zu verarbeiten.
  • Der Codierer komprimiert das Signal und der resultierende Bitstrom wird zum empfangenden Ende übertragen 104. Eine (drahtlose oder drahtgebundene) Übertragung stellt den Träger des Bitstroms vom Sende-Codierer 102 zum Empfangs-Decodierer 106 dar. Alternativ kann der Bitstrom für eine verzögerte Reproduktion oder eine Wiedergabe in einem Gerät wie beispielsweise einem Anrufbeantworter oder einer Sprach-Email vor der Decodierung zeitweise gespeichert werden.
  • Zum Zurückgewinnen einer Probe des ursprünglichen Sprachsignals wird der Bitstrom im Decodierer 106 decodiert. Üblicherweise ist es nicht möglich ein Sprachsignal zurückzugewinnen, welches identisch zum ursprünglichen Signal ist, aber mit erweiterten Fähigkeiten (wie sie von der vorliegenden Erfindung geschaffen werden) kann jedoch eine sehr ähnliche Probe erhalten werden. Bis zu einem gewissen Grad kann der Decodierer 106 als Umkehrung des Codierers 102 betrachtet werden. Im Allgemeinen können viele der vom Codierer 102 durchgeführten Funktionen auch im Decodierer 106, jedoch umgekehrt, durchgeführt werden.
  • Obwohl dies nicht dargestellt ist, kann das Sprachsystem 100 selbstverständlich ein Mikrofon aufweisen, welches ein Sprachsignal in Echtzeit empfängt. Das Mikrofon liefert das Sprachsignal an einen A/D-Wandler (analog/digital) in dem die Sprache in digitale Form umgewandelt und anschließend dem Codierer 102 zugeführt wird. Zusätzlich liefert der Decodierer 106 das digitalisierte Signal an einen D/A-Wandler (digital/analog), in dem das Sprachsignal in eine analoge Form zurückgewandelt und einem Lautsprecher zugeführt wird.
  • Wie der Stand der Technik weist auch die vorliegende Erfindung einen Codierer oder ein ähnliches Gerät auf, welches einen Algorithmus basierend auf einem CELP-Modell (Code Excited Linear Prediction) aufweist. Zum Erreichen einer Qualität wie sie der von herkömmlichen Fernsprechsystemen entspricht (toll quality) weicht jedoch der Algorithmus bei niedrigen Bitraten (z.B. 4 kBit/s) etwas von dem strengen Kurvenform-Abgleichkriterium ab, wie es von CELP-Algorithmen bekannt ist, und bemüht sich die wichtigen Wahrnehmungsmerkmale des Eingangssignals einzufangen. Während die vorliegende Erfindung ein vorletzter Teil eines eX-CELP-Algorithmus (extended CELP) sein kann, ist es hilfreich die Gesamtfunktionen des Algorithmus allgemein einzuführen.
  • Entsprechend bestimmter Merkmale wie beispielsweise dem Ausmaß eines rausch-ähnlichen Inhaltes, dem Ausmaß eines spitzenähnlichen Inhaltes, dem Ausmaß eines stimmhaften Inhaltes, dem Ausmaß eines stimmlosen Inhaltes, einer Entwicklung eines Größenspektrums, einer Entwicklung eines Energie-Umrisses und einer Entwicklung einer Periodizität wird das Eingangssignal analysiert. Diese Information wird dazu verwendet, um eine Gewichtung während des Codier-/Quantisierungs-Prozesses zu steuern. Die allgemeine Philosophie des vorliegenden Verfahrens kann dadurch gekennzeichnet werden, dass die wichtigen Wahrnehmungsmerkmale durch Durchführen eines Wahrnehmungsabgleichs an Stelle eines Wellenform-Abgleichs sehr genau dargestellt werden. Dies basiert zum Teil auf der Annahme, dass ein Wellenform-Abgleich bei niedrigen Bitraten nicht ausreichend genau ist, um alle Informationen im Eingangssignal getreu einzufangen. Der Algorithmus mit dem erfindungsgemäßen Abschnitt kann in C-Code oder jeder geeigneten Computer- oder Gerätesprache implementiert sein, wie sie in der Industrie bekannt ist, wie z.B. Assembler. Während die vorliegende Erfindung in geeigneter Weise anhand des eX-CELP-Algorithmus beschrieben wird, kann das hier offenbarte Verfahren zur verbesserten Sprach-Klassifizierung selbstverständlich auch einen vorletzten Algorithmus aufweisen und kann in ähnlich bekannten oder noch zu entdeckenden Algorithmen verwendet werden.
  • Gemäß einer Ausführungsform ist eine Stimm-Einsatz-Erfassungseinheit VAD (voice activity detection) im Codierer eingebettet, wodurch man Informationen hinsichtlich der Eigenschaften des Eingangssignals erhält. Die VAD-Information wird zum Steuern mehrerer Teilaspekte des Codierers verwendet, einschließlich einer Abschätzung eines Signal-zu-Rausch-Verhältnis (SNR, signal to noise ratio), einer Pitch-Abschätzung, einiger Klassifizierungen, einer spektralen Glättung, einer Energieglättung und einer Verstärkungsnormalisierung. Im Allgemeinen unterscheidet der VAD zwischen einem Sprach- und einem Nicht-Sprache-Eingangssignal. Nicht-Sprachsignale können Hintergrundrauschen, Musik, Stille oder dergleichen enthalten. Auf der Grundlage dieser Informationen können einige der Parameter geschätzt werden.
  • Bezug nehmend auf 2 zeigt ein Codierer 202 in einer Blockdarstellung einen Klassifizierer 204 gemäß einer Ausführungsform der vorliegenden Erfindung. Der Klassifizierer 204 besitzt in geeigneter Weise ein Parameter-Ableitmodul 206 und eine Entscheidungs-Logik 208. Die Klassifizierung kann zum Hervorheben der wichtigen Wahrnehmungs-Merkmale während der Codierung verwendet werden. Beispielsweise kann eine Klassifizierung zum Anwenden einer unterschiedlichen Gewichtung an einem Signalrahmen verwendet werden. Die Klassifizierung muss nicht notwendigerweise die Bandbreite beeinflussen, aber sie liefert Informationen zum Verbessern der Qualität des rekonstruierten Signals im Decodierer (Empfangsende). In einigen Ausführungsformen beeinflusst sie jedoch die Bandbreite (Bitrate) durch Variieren von ebenfalls der Bitrate entsprechend der Klassen-Information und nicht nur des Codier-Verfahrens. Wenn der Rahmen Hintergrundrauschen darstellt, so kann er als solcher klassifiziert werden, wobei es wünschenswert sein kann die zufälligen Eigenschaften des Signals zu erhalten. Wenn jedoch der Rahmen ein Sprachsignal darstellt, so kann es von Bedeutung sein die Periodizität des Signals beizubehalten. Die Klassifizierung des Sprachrahmens liefert dem verbleibenden Teil des Codierers Informationen, wodurch eine Betonung an der Stelle der wichtigen Merkmale des Signals ermöglicht wird (d.h. „Gewichtung").
  • Die Klassifizierung basiert auf einem Satz von abgeleiteten Parametern. In der vorliegenden Ausführungsform weist der Klassifizierer 204 ein Parameter-Ableit-Modul 206 auf. Sobald der Satz von Parametern für einen bestimmten Rahmen eines Sprachsignals abgeleitet wurde, werden die Parameter entweder allein oder in Kombination mit anderen Parametern durch die Entscheidungs-Logik 208 gemessen. Die Einzelheiten der Entscheidungs-Logik 208 werden nachfolgend beschrieben, wobei jedoch im Allgemeinen die Entscheidungs-Logik 208 einen Vergleich der Parameter mit einem Satz von Schwellwerten durchführt.
  • Beispielsweise kann ein Benutzer eines zellularen Telefons eine Kommunikation in einer besonders geräuschvollen Umgebung durchführen. Mit ansteigendem Wert des Hintergrundrauschens können sich die abgeleiteten Parameter verändern. Die vorliegende Erfindung schlägt ein Verfahren vor, welches auf der Parameterebene den auf Grund des Hintergrundrauschens entstehenden Beitrag entfernt, wodurch ein Satz von Parametern erzeugt wird, die zum Niveau des Hintergrundrauschens unveränderlich sind. Mit anderen Worten werden gemäß einer Ausführungsform der vorliegenden Erfindung an Stelle der Verwendung von Parametern, die mit dem Niveau der Hintergrundgeräusche variieren, ein Satz von homogenen Parametern abgeleitet.
  • Dies ist insbesondere von Bedeutung, wenn zwischen unterschiedlichen Arten von Sprache unterschieden werden soll, z.B. zwischen stimmhafter Sprache, stimmloser Sprache und Einsatz der Sprache in Anwesenheit von Hintergrundrauschen. Um dies zu erreichen werden die Parameter des rauschbehafteten Signals weiterhin geschätzt aber nunmehr auf Grund von den Parametern und den Informationen des Hintergrundrauschens, der Komponente, die wegen des Rauschbeitrags entfernt wurde. Somit erhält man eine Abschätzung der Parameter des reinen Signals (ohne Rauschen).
  • Weiterhin Bezug nehmend auf die 2 wird das digitale Sprachsignal im Codierer 202 zur Verarbeitung empfangen. Es können Gründe vorliegen, bei denen eher weitere Module 210 innerhalb des Codierers in geeigneter Weise einige der Parameter ableiten als der Klassifizierer 204 die Parameter erneut ableitet. Insbesondere kann ein vor-verarbeitetes Sprachsignal (dies kann z.B. eine Geräuschlosigkeit-Anhebung, eine Hochpassfilterung und eine Hintergundrauschen-Dämpfung beinhalten), die Pitch-Verzögerung und -Korrelation des Rahmens und die VAD-Information für den Klassifizierer 204 als Eingangsparameter verwendet werden. Alternativ kann das digitalisierte Sprachsignal oder eine Kombination von sowohl dem Signal als auch anderen Modul-Parametern dem Klassifizierer 204 zugeführt werden. Auf der Grundlage dieser Eingangs-Parameter und/oder der Sprachsignale leitet das Parameter-Ableitmodul 206 einen Satz von Parametern ab, der zur Klassifizierung des Rahmens verwendet wird.
  • Gemäß einer Ausführungsform weist das Parameter-Ableitmodul 206 ein Basis-Parameter-Ableitmodul 212, ein Rauschkomponenten-Abschätzmodul 214, ein Rauschkomponenten-Entfernungsmodul 216 und ein optionales Parameter-Ableitmodul 218 auf. Gemäß einem Teilaspekt der vorliegenden Ausführungsform leitet das Basis-Parameter-Ableitmodul 212 drei Parameter, den spektralen Tilt, das absolute Maximum und die Pitch-Korrelation ab, welche die Basis für die Klassifizierung darstellen können. Es sollte jedoch erkannt werden, dass eine aussagekräftige Verarbeitung und Analyse der Parameter vor der endgültigen Entscheidung durchgeführt werden kann. Diese ersten wenigen Parameter stellen Abschätzungen des Signals dar, welches sowohl eine Sprach- als auch eine Rausch-Komponente aufweist. Die nachfolgende Beschreibung des Parameter-Ableitmoduls 206 beinhaltet ein Beispiel für bevorzugte Parameter, wobei sie jedoch in keinster Weise als beschränkend betrachtet werden soll. Die Beispiele für die Parameter in den begleitenden Gleichungen sind lediglich zu Demonstrationszwecken offenbart und stellen nicht notwendigerweise die einzig verfügbaren Parameter und/oder mathematischen Berechnungen dar. Tatsächlich ist der Fachmann mit den nachfolgenden Parametern und/oder Gleichungen ausreichend vertraut und kennt ähnliche oder äquivalente Ersatzmöglichkeiten, welche innerhalb des Schutzes der vorliegenden Erfindung fallen, der lediglich durch die anliegenden Patentansprüche begrenzt ist.
  • Der spektrale Tilt stellt eine Abschätzung des ersten vierfachen Reflexionskoeffizienten pro Rahmen dar und ist gegeben durch:
    Figure 00120001
    , wobei L = 80 das Fenster darstellt, über dem der Reflexionskoeffizient in geeigneter Weise berechnet werden kann, und sk(n) das kte-Segment darstellt, gegeben durch: sk(n) = s(k·40 – 20 + n)· wh(n), n = 0, 1, ... 79 (2), wobei wh(n) ein 80-Abtast-Hamming-Fenster darstellt, welches in der Industrie bekannt ist, und s(0), s(1), ..., s(159) den augenblicklichen Rahmen des vor-verarbeiteten Sprachsignals darstellt.
  • Das absolute Maximum ist die Verfolgung des absoluten Signal-Maximums acht mal pro Rahmen, gegeben durch: χ(k) = max{|s(n)|, n = ns(k), ns(k) + 1, ..., ne(k) – 1}, k = 0, 1, ..., 7 (3), wobei ns(k) und ne(k) der Startpunkt und Endpunkt für jeweils das kte-Maximum zum Zeitpunkt des k160/8 ten Abtastpunktes des Rahmens darstellt. Im Allgemeinen entspricht die Länge des Abschnitts 1,5 mal der Pitch-Periode und des Abschnitts-Überlappungsbereichs. Auf diese Weise kann eine glatte Kontur der Amplituden-Einhüllenden erhalten werden.
  • Die normalisierte Standardabweichung der Pitch-Verzögerung gibt die Pitch-Periode an. Bei einem stimmhaften Sprachsignal ist beispielsweise die Pitch-Periode stabil, während sie für ein stimmloses Sprachsignal unstabil ist:
    Figure 00130001
    , wobei Lp(m) die Eingangs-Pitch-Verzögerung und μLp(m) den Mittelwert der Pitch-Verzögerung über die letzten drei Rahmen darstellt, gegeben durch:
    Figure 00130002
  • Gemäß einer Ausführungsform wird das Rausch-Komponenten-Abschätzmodul 214 durch den VAD gesteuert. Wenn beispielsweise der VAD anzeigt, dass der Rahmen ein Kein-Sprachsignal (d.h. Hintergrundrauschen) darstellt, so werden die vom Rausch-Komponenten-Abschätzmodul 214 festgelegten Parameter aktualisiert. Wenn jedoch der VAD anzeigt, dass der Rahmen ein Sprachsignal darstellt, so wird das Modul 214 nicht aktualisiert. Die von den nachfolgenden beispielhaften Gleichungen festgelegten Parameter werden in geeigneter Weise acht mal pro Rahmen geschätzt/abgetastet, wodurch eine feine Zeitauflösung der Parameterabstände geschaffen wird.
  • Der gleitende Mittelwert der Rauschenergie stellt eine Abschätzung der Energie des Rauschens dar, gegeben durch: <EN,p(k)> = α1·<EN,p(k – 1)> + (1 – α1)·Ep'(k), (6), wobei EN,p(k) die normalisierte Energie der Pitch-Periode zum Zeitpunkt kθ160/8 Abtastwerte des Rahmens darstellt. Es sei darauf hingewiesen, dass die Abschnitte über denen die Energie berechnet wird, sich überlappen können, da die Pitch-Periode üblicherweise 20 Abtastwerte (160 Abtastwerte/8) überschreitet.
  • Der gleitende Mittelwert des spektralen Tilts des Rauschens, ist gegeben durch: N(k)> = α1·<κN(k – 1)> + (1 – α1)·κ(kmod2). (7)
  • Der gleitende Mittelwert des absoluten Maximums des Rauschens ist gegeben durch: N(k)> = α1·<χN(k – 1)> + (1 – α1)·χ(k). (8)
  • Der gleitende Mittelwert der Pitch-Korrelation des Rauschens ist gegeben durch: <RN,p(k)> = α3·<RN,p(k – 1)> + (1 – α1)·Rp, (9) , wobei Rp die Eingangs-Pitch-Korrelation des Rahmens darstellt. Die Adaptions-Konstante V ist vorzugsweise adaptiv, obwohl ein typischer Wert bei V = 0,99 liegt.
  • Das Hintergrundrauschen zum Signalverhältnis kann wie nachfolgend berechnet werden:
    Figure 00140001
  • Die parametrische Rauschdämpfung wird in geeigneter Weise auf einen akzeptablen Wert begrenzt, z.B. auf ca. 30 dB, d.h. γ(k) = {γ(k) > 0.968?0.968:γ(k)} (11)
  • Das Rausch-Entfernungsmodul 216 führt eine Gewichtung auf die drei Basisparameter gemäß den nachfolgenden beispielhaften Gleichungen durch. Die Gewichtung entfernt die Hintergrundrauschen-Komponente in den Parametern durch Subtrahieren der Anteile vom Hintergrundrauschen. Dies liefert einen rauschfreien Satz von Parametern (gewichtete Parameter), die unabhängig von jedwedem Hintergrundrauschen und die einheitlicher sind sowie die eine Robustheit der Klassifizierung in Anwesenheit eines Hintergrundrauschens verbessern.
  • Der gewichtete spektrale Tilt wird geschätzt durch: κw(k) = κ(kmod2) – γ(k)·<κN(k)>. (12)
  • Das gewichtete absolute Maximum wird geschätzt durch: χw(k) = χ(k) – γ(k)·<χN(k)>. (13)
  • Die gewichtete Pitch-Korrelation wird geschätzt durch: Rw,p(k) = Rp – γ(k)·<RN,p(k)>. (14)
  • Die abgeleiteten Parameter können daraufhin in der Entscheidungs-Logik 208 verglichen werden. Optional kann es wünschenswert sein, einen oder mehrere der nachfolgenden Parameter in Abhängigkeit von einer bestimmten Anwendung abzuleiten. Das optionale Modul 218 beinhaltet eine Anzahl von zusätzlichen Parametern, die als weitere Hilfe bei der Klassifizierung des Rahmens verwendet werden können. Wiederum sind die nachfolgenden Parameter und/oder Gleichungen lediglich beispielhaft beschrieben und stellen keinesfalls eine Beschränkung dar.
  • Gemäß einer Ausführungsform kann es wünschenswert sein, die Entwicklung des Rahmens entsprechend einem oder mehrerer der vorhergehenden Parameter abzuschätzen. Die Entwicklung ist eine Abschätzung über ein Zeitintervall (z.B. 8mal/Rahmen) und stellt eine lineare Näherung dar.
  • Die Entwicklung des gewichteten Tilts als Steigung der Näherung erster Ordnung ist gegeben durch:
    Figure 00160001
  • Die Entwicklung des gewichteten Maximums als die Steigung der Näherung erster Ordnung ist gegeben durch:
    Figure 00160002
  • Gemäß einer noch weiteren Ausführungsform können die nachfolgenden rahmenbasierten Parameter wie folgt berechnet werden, sobald die Parameter der Gleichungen 6 bis 16 für die beispielhaften acht Abtastpunkte des Rahmens aktualisiert wurden:
    Maximale gewichtete Pitch-Korrelation (Maximum des Rahmens) gegeben durch: Rmaxw,p = max{Rw,p(k – 7 + l), l = 0, 1, ..., 7}. (17)
  • Die gemittelte gewichtete Pitch-Korrelation ist gegeben durch:
    Figure 00170001
  • Der gleitende Mittelwert der gemittelten gewichteten Pitch-Korrelation ist gegeben durch: <Ravgw,p (m)> = α2·<Ravgw,p (m – 1)> + (1 – α2)·Ravgw,p , (19), wobei m die Rahmenanzahl und α2 = 0,75 eine beispielhafte Adaptionskonstante darstellt.
  • Der minimale gewichtete spektrale Tilt ist gegeben durch: κminw = min{κw(k – 7 + l), l = 0, 1, ..., 7}. (20)
  • Der gleitende Mittelwert des minimalen gewichteten spektralen Tilts ist gegeben durch: minw (m)> = α2·<κminw (m – 1)> + (1 – α2minw . (21)
  • Der gemittelte gewichtete spektrale Tilt ist gegeben durch:
    Figure 00170002
  • Die minimale Steigung des gewichteten Tilts (zeigt die maximale Entwicklung in der Richtung des negativen spektralen Tilts im Rahmen an) ist gegeben durch: ∂κminw = min{∂κw(k – 7 + l), l = 0, 1, ..., 7}. (23)
  • Die akkumulierte Steigung des gewichteten spektralen Tilts (zeigt die Gesamt-Konsistenz der spektralen Entwicklung an) ist gegeben durch:
    Figure 00180001
  • Die maximale Steigung des gewichteten Maximums ist gegeben durch: ∂χmaxw = max{χmaxw (k – 7 + l), l = 0, 1, ..., 7}. (25)
  • Die akkumulierte Steigung des gewichteten Maximums ist gegeben durch:
    Figure 00180002
  • Im Allgemeinen können die durch die Gleichungen 23, 25 und 26 gegebenen Parameter dazu verwendet werden, um einen Rahmen zu markieren, sofern die Wahrscheinlichkeit besteht, dass dieser einen Einsatz (d.h. einen Punkt, bei dem eine stimmhafte Sprache startet) enthält. Die durch die Gleichungen 4 und 18 bis 22 gegebenen Parameter können zum Markieren von Rahmen verwendet werden, welche eine hohe Wahrscheinlichkeit aufweisen, dass sie von einer stimmhaften Sprache dominiert werden.
  • Bezugnehmend auf 3 ist nunmehr eine Entscheidungs-Logik 208 gemäß einer Ausführungsform der vorliegenden Erfindung in einer Blockdarstellung dargestellt. Die Entscheidungs-Logik 208 stellt ein Modul dar, das zum Vergleichen aller Parameter mit einem Satz von Schwellwerten entworfen wurde. Jede Anzahl von gewünschten Parametern, wie sie allgemein als (1, 2, ..., k) dargestellt sind, kann in der Entscheidungs-Logik 208 verglichen werden. Üblicherweise wird jeder Parameter oder eine Gruppe von Parametern eine besondere Eigenschaft des Rahmens identifizieren. Beispielsweise kann die Eigenschaft#1 302 eine Erfassung zwischen Sprache und Nicht-Sprache darstellen. Gemäß einer Ausführungsform kann der VAD die beispielhafte Eigenschaft#1 anzeigen. Wenn der VAD festlegt, das der Rahmen Sprache darstellt, so wird die Sprache üblicherweise ferner als stimmhaft (vokal) gegenüber stimmlos (z.B. „s") identifiziert. Die Eigenschaft#2 304 kann beispielsweise eine Erfassung zwischen stimmhafter und stimmloser Sprache darstellen. Jede Anzahl von Eigenschaften kann enthalten sein und kann einen oder mehrere der abgeleiteten Parameter aufweisen. Beispielsweise kann die allgemein identifizierte Eigenschaft#M 306 eine Einsatz-Erfassung darstellen und abgeleitete Parameter der Gleichungen 23, 25 und 26 enthalten. Jede Eigenschaft kann ein Markierungszeichen oder dergleichen setzen, wodurch angezeigt wird, dass die Eigenschaft identifiziert oder nicht identifiziert wurde.
  • Die endgültige Entscheidung, zu welcher Klasse der Rahmen gehört, wird vorzugsweise in einem endgültigen Entscheidungsmodul 308 durchgeführt. Alle Markierungszeichen werden empfangen und prioritätsbedingt verglichen, z.B. besitzt der VAD die höchste Priorität im Modul 308. Gemäß der vorliegenden Erfindung werden die Parameter unmittelbar von der Sprache abgeleitet und sind frei vom Einfluss eines Hintergrundrauschens; daher sind die Schwellwerte üblicherweise unbeeinflusst selbst bei einer Änderung der Hintergrundgeräusche. Im Allgemeinen können Serien von „wenn-dann"-Bedingungen jedes Markierungszeichen oder eine Gruppe von Markierungszeichen vergleichen. Unter der Annahme, dass beispielsweise jede Eigenschaft (Markierungszeichen) durch einen Parameter dargestellt wird, kann gemäß einer Ausführungsform eine „wenn"-Bedingung folgendermaßen lauten: „Wenn Parameter 1 kleiner ist als ein Schwellwert, dann platziere ihn in Klasse X". gemäß einer weiteren Ausführungsform kann die Bedingung wie folgt lauten: „Wenn der Parameter 1 kleiner ist als ein Schwellwert und der Parameter 2 kleiner ist als ein Schwell wert usw., dann platziere ihn in Klasse X". Gemäß einer weiteren Ausführungsform kann die Bedingung folgendermaßen lauten: „Wenn Parameter 1 mal Parameter 2 kleiner ist als ein Schwellwert, dann platziere ihn in Klasse X". Ein Fachmann wird leicht erkennen, dass jede Anzahl von Parametern sowohl alleine als auch in Kombination in einer geeigneten „wenn-dann"-Bedingung enthalten sein kann. Selbstverständlich können auch gleichermaßen effektive Verfahren zum Vergleichen der Parameter vorhanden sein, welche alle innerhalb den Schutzbereich der vorliegenden Erfindung fallen sollen, der nur durch die anliegenden Patentansprüche begrenzt ist.
  • Zusätzlich kann das endgültige Entscheidungsmodul 308 einen Überhang aufweisen. Der Überhang, wie er hier verwendet wird, soll die in der Industrie allgemein bekannte Bedeutung haben. Im Allgemeinen bedeutet der Überhang, dass die Geschichte der Signalklasse berücksichtigt wird, d.h. nach bestimmten Signalklassen wird in gewisser Weise die gleiche Signalklasse favorisiert, z.B. bei einem graduellen Übergang von stimmhaft zu stimmlos wird die stimmhafte Klasse etwas favorisiert, um die Abschnitte mit einem geringen Ausmaß einer stimmhaften Sprache nicht zu früh als stimmlos zu klassifizieren.
  • Zu Demonstrationszwecken wird nachfolgend eine kurze Beschreibung von einigen beispielhaften Klassen durchgeführt. Wünschenswerterweise kann die vorliegende Erfindung zum Klassifizieren von Sprache in eine Anzahl oder Kombination von Klassen verwendet werden, wobei die nachfolgende Beschreibung dem Leser nur einen möglichen Satz von Klassen näher bringen soll.
  • Der beispielhafte eX-CELP-Algorithmus klassifiziert den Rahmen in einen von sechs Klassen entsprechend den dominierenden Merkmalen des Rahmens. Die Klassen werden wie folgt beschriftet:
  • 0.
    Stille/Hintergrundrauschen
    1.
    geräuschähnliche stimmlose Sprache
    2.
    stimmlos
    3.
    Einsatz
    4.
    Verschlusslaut, nicht verwendet
    5.
    Nicht-stationär stimmhaft
    6.
    Stationär stimmhaft
  • In der dargestellten Ausführungsform wird die Klasse vier nicht verwendet, weshalb die Anzahl der Klassen 6 ist. Zum wirkungsvollen Verwenden der verfügbaren Information im Codierer kann das Klassifizierungs-Modul derart konfiguriert sein, dass es zu Beginn nicht zwischen den Klassen 5 und 6 unterscheidet. Diese Unterscheidung wird stattdessen während eines weiteren Moduls außerhalb des Klassifizierers durchgeführt, wobei zusätzliche Informationen verfügbar sein können. Ferner kann das Klassifizierungs-Modul zu Beginn die Klasse 1 nicht erkennen, sondern kann während eines weiteren Moduls auf der Grundlage von zusätzlichen Informationen und der Erfassung von rausch-ähnlicher stimmloser Sprache eingeführt werden. Folglich kann gemäß einer Ausführungsform das Klassifizierungs-Modul zwischen Stille/Hintergrundrauschen, stimmlos, Einsatz und stimmhaft unter Verwendung der jeweiligen Klassifizierungsnummern 0, 2, 3 und 5 unterscheiden.
  • Unter Bezugnahme auf 4 ist nunmehr ein beispielhaftes Modul-Flussdiagramm gemäß einer Ausführungsform der vorliegenden Erfindung dargestellt. Das beispielhafte Flussdiagramm kann unter Verwendung eines C-Codes oder jeder anderen dem Stand der Technik bekannten und geeigneten Computersprache implementiert sein. Im Allgemeinen sind die in 4 dargestellten Schritte ähnlich zu der vorstehenden Beschreibung.
  • Ein digitalisiertes Sprachsignal wird einem Codierer zum Verarbeiten und Komprimieren in einen Bitstrom oder einem Bitstrom in einem Decodierer für eine Rekonstruktion (Schritt 400) zugeführt. Das Signal kann (üblicherweise Rahmen für Rahmen) beispielsweise von einem zellularen Telefon drahtlos, dem Internet (voice over IP) oder einem herkömmlichen Telefon (PSTN) erzeugt werden. Das vorliegende System ist besonders für Anwendungen mit niedrigen Bitraten (4 kBit/s) geeignet, kann jedoch auch für andere Bitraten verwendet werden.
  • Der Codierer kann mehrere Module aufweisen, die unterschiedliche Funktionen durchführen. Beispielsweise kann ein VAD anzeigen, ob das Eingangssignal ein Sprachsignal oder ein Nicht-Sprachsignal darstellt (Schritt 405). Nicht-Sprachsignale beinhalten üblicherweise Hintergrundrauschen, Musik und Stille. Das Nicht-Sprachsignal wie beispielsweise Hintergrundrauschen ist stationär und bleibt stationär. Andererseits hat das Sprachsignal einen Pitch und somit variiert die Pitch-Korrelation zwischen den Klängen. Beispielsweise besitzt ein „s" eine sehr geringe Pitch-Korrelation, wo hingegen ein „a" eine hohe Pitch-Korrelation aufweist. während 4 einen VAD darstellt, kann selbstverständlich in bestimmten Ausführungsformen ein VAD nicht erforderlich sein. Einige Parameter konnten vor dem Entfernen der Rauschkomponente abgeleitet werden, wobei es basierend auf diesen Parametern möglich ist abzuschätzen, ob der Rahmen ein Hintergrundrauschen oder eine Sprache darstellt. Daraufhin werden die Basis-Parameter hergeleitet (Schritt 415), wobei es jedoch willkommen wäre, dass einige für die Codierung verwendete Parameter in unterschiedlichen Modulen innerhalb des Codierers berechnet werden können. Zur Vermeindung einer Redundanz werden diese Parameter im Schritt 415 (oder den nachfolgenden Schritten 425 und 430) nicht erneut berechnet, können jedoch zum Herleiten von weiteren Parametern verwendet oder direkt auf die Klassifizierung angewendet werden. Während dieses Schrittes kann jede Anzahl von Basis-Parametern hergeleitet werden, wobei jedoch z.B. die in den vorstehenden Gleichungen 1 bis 5 geeignet sind.
  • Die vom VAD (oder seinem Äquivalent) kommende Information zeigt an, ob der Rahmen ein Sprachsignal oder ein Nicht-Sprachsignal darstellt. Wenn der Rahmen ein Nicht- Sprachsignal darstellt, so können die Rauschparameter (z.B. der Mittelwert der Rauschparameter) aktualisiert werden (410). Es können eine Vielzahl von Variationen der Gleichungen für die Parameter gemäß Schritt 410 hergeleitet werden, wobei jedoch beispielsweise die vorstehend offenbarten Gleichungen 6 bis 11 geeignet sind. Die vorliegende Erfindung offenbart ein Verfahren zum Klassifizieren, bei dem die Parameter für reine Sprache geschätzt werden. Neben anderen Gründen ist dies vorteilhaft, da das sich immer ändernde Hintergrundrauschen die optimalen Schwellwerte nicht signifikant beeinflussen wird. Der rauschfreie Satz von Parametern wird beispielsweise durch Schätzen und Entfernen der Rauschkomponente von den Parametern (Schritt 425) erhalten. Wiederum sind beispielsweise die vorstehend beschriebenen Gleichungen 12 bis 14 geeignet. Auf der Grundlage der vorhergehenden Schritte können zusätzliche Parameter hergeleitet werden oder auch nicht (Schritt 430). Bei der Betrachtung können eine Vielzahl von Variationen von zusätzlichen Parametern enthalten sein, wobei jedoch beispielsweise die vorstehend offenbarten Gleichungen 15 bis 26 geeignet sind.
  • Sobald die gewünschten Parameter hergeleitet sind, werden die Parameter gegen einen Satz von vorbestimmten Schwellwerten verglichen (Schritt 435). Die Parameter können einzeln oder in Kombination mit anderen Parametern verglichen werden. Es sind eine Vielzahl von Verfahren zum Vergleichen der Parameter denkbar, wobei jedoch die vorstehend beschriebenen Serien von „wenn-dann"-Bedingungen geeignet sind.
  • Es kann wünschenswert sein einen Überhang anzuwenden (Schritt 440). Dies ermöglicht dem Klassifizierer auf einfache Weise bestimmte Klassen auf der Grundlage des Wissens der Signalgeschichte zu favorisieren. Hierbei besteht die Möglichkeit in vorteilhafter Weise das Wissen über die Entwicklung von Sprachsignalen in einem etwas längeren Zeitraum zu berücksichtigen. Der Rahmen kann nun in eine oder eine Vielzahl unterschiedlicher Klassen in Abhängigkeit von der Anwendung klassifiziert werden (Schritt 445). Beispielsweise sind die vorstehend beschriebenen Klassen (0 bis 6) geeignet, wobei sie jedoch keinesfalls die Anwendungsfälle der vorliegenden Erfindung beschränken.
  • Die Informationen vom klassifizierten Rahmen können zum weiteren Verarbeiten des Sprachsignals verwendet werden (Schritt 450). Gemäß einer Ausführungsform wird die Klassifizierung dazu verwendet, um eine Gewichtung des Rahmens (z.B. Schritt 450) durchzuführen, wobei gemäß einer anderen Ausführungsform die Klassifizierung dazu verwendet wird die Bitrate festzulegen (nicht dargestellt). Oft ist es beispielsweise wünschenswert die Periodizität der stimmhaften Sprache beizubehalten (Schritt 460), wobei jedoch die Zufälligkeit (Schritt 465) des Rauschens und der stimmlosen Sprache (Schritt 455) beibehalten werden soll. Eine Vielzahl weiterer Verwendungen für die Klassen-Information ist für den Fachmann augenscheinlich. Sobald alle Verarbeitungsschritte innerhalb des Codierers abgeschlossen sind, ist die Codierfunktion vorbei (Schritt 470) und die den Signalrahmen darstellenden Bits können zu einem Decodierer zur Wiederherstellung übertragen werden. Alternativ kann die vorstehend beschriebene Klassifizierungs-Verarbeitung im Decodierer auf der Grundlage von decodierten Parametern und/oder dem rekonstruierten Signal durchgeführt werden.
  • Die vorliegende Erfindung wird hier anhand von Funktionsblock-Komponenten und verschiedenen Verarbeitungsschritten beschrieben. Selbstverständlich können derartige Funktionsblöcke durch eine beliebige Anzahl von Hardwarekomponenten realisiert werden, die derart konfiguriert sind, dass sie die spezifizierten Funktionen durchführen. Beispielsweise kann die vorliegende Erfindung verschiedene integrierte Schaltungskomponenten wie z.B. Speicherelemente, digitale Signalprozessoren, Logikelemente, Nachschlagetabellen und dergleichen verwenden, die eine Vielzahl von Funktionen unter der Steuerung von einem oder mehreren Mikroprozessoren oder ande ren Steuergräten durchführen können. Selbstverständlich wird der Fachmann erkennen, dass die vorliegende Erfindung in Verbindung mit jeder Anzahl von Datenübertragungsprotokollen durchgeführt werden kann und dass das hier beschriebene System lediglich einen beispielhaften Anwendungsfall der Erfindung darstellt.
  • Es sei darauf hingewiesen, dass die besonderen hier gezeigten und beschriebenen Implementierungen für die Erfindung und seine beste Ausführungsform beispielhaft sind und den Schutzbereich der vorliegenden Erfindung in keinster Weise beschränken sollen. Tatsächlich sind zu Gunsten der Kürze herkömmliche Verfahren für eine Signalprozessierung, Datenübertragung, Signalisierung und Netzwerksteuerung sowie andere funktionelle Aspekte der Systeme (und Komponenten der einzelnen Arbeitskomponenten des Systems) hier nicht im Detail beschrieben. Ferner sind die in den hier enthaltenen verschiedenen Figuren dargestellten Verbindungslinien lediglich als beispielhafte funktionelle Beziehungen und/oder physikalische Kopplungen zwischen den verschiedenen Elementen zu sehen. Es sei darauf hingewiesen, dass eine Vielzahl von alternativen oder zusätzlichen funktionellen Beziehungen oder physikalischen Verbindungen in einem tatsächlichen Kommunikationssystem vorliegen können.
  • Die vorliegende Erfindung wurde vorstehend unter Bezugnahme auf die bevorzugten Ausführungsformen beschrieben. Jedoch wird der Fachmann nach dem Lesen der Offenbarung erkennen, dass Änderungen und Modifikationen auf die bevorzugten Ausführungsformen angewendet werden können ohne vom Schutzbereich der vorliegenden Erfindung abzuweichen. Beispielsweise können ähnliche Formen ohne Abweichung vom Schutzbereich der vorliegenden Erfindung hinzugefügt werden, wie sie in den anliegenden Patentansprüchen definiert sind. Diese und andere Änderungen oder Modifikationen sollen innerhalb des Schutzbereichs der vorliegenden Erfindung liegen, der in den nachfolgenden Patentansprüchen zum Ausdruck kommt.

Claims (23)

  1. Verfahren zum Erhalten eines Satzes von Parametern, die für eine Klassifizierung einer Sprachcodierung verwendet wird, mit den Schritten: (a) Empfangen eines Signals an einer Verarbeitungseinheit; (b) Bereitstellen von zumindest einem Basisparameter, der dem Signal entspricht; (c) Abschätzen einer Rauschkomponente des Parameters, sofern vorhanden; (d) Entfernen der Rauschkomponente aus dem Parameter, sofern vorhanden; wobei der Basisparameter zumindest einen Parameter aus dem nachfolgenden Satz von Parametern aufweist: gleitender Mittelwert des spektralen Tilts der geschätzten Rauschkomponente des Signals; gleitender Mittelwert des absoluten Maximums der geschätzten Rauschkomponente des Signals; gleitender Mittelwert der Pitchkorrelation der geschätzten Rauschkomponente des Signals; und wobei die Rauschkomponente im Basisparameter durch eine Gewichtung entfernt wird.
  2. Verfahren nach Patentanspruch 1, gekennzeichnet durch den weiteren Schritt des Bestimmens, ob das Signal ein Sprachsignal oder kein Sprachsignal ist.
  3. Verfahren nach Patentanspruch 1, gekennzeichnet durch den weiteren Schritt des Bereitstellens von zumindest einem zusätzlichen Parameter.
  4. Verfahren nach Patentanspruch 3, wobei die Rauschkomponente anwesend ist und der Schritt des Bereitstellens von zumindest einem zusätzlichen Parameter in Abhängigkeit von der Rauschkomponente durchgeführt wird.
  5. Verfahren nach Patentanspruch 2, gekennzeichnet durch den weiteren Schritt des Aktualisierens der Rauschparameter, sofern das Signal kein Sprachsignal ist.
  6. Verfahren nach Patentanspruch 1, wobei der Schritt des Bereitstellens ein Ableiten von zumindest einem Basisparameter entsprechend dem Signal aufweist.
  7. Verfahren nach Patentanspruch 1, wobei der Schritt des Bereitstellens ein Empfangen von zumindest einem Basisparameter entsprechend dem Signal aufweist.
  8. Verfahren nach Patentanspruch 1 zum Klassifizieren von Sprache mit den weiteren Schritten: Bereitstellen des zumindest einen Parameters, der für die Klassifizierung des Signals verwendet wird; (e) Vergleichen des Parameters mit einem Satz von zumindest einem Schwellwert; und (f) Assoziieren des Signals mit einer Klasse in Abhängigkeit vom Vergleichsschritt.
  9. Verfahren nach Patentanspruch 8, gekennzeichnet durch den weiteren Schritt eines Bestimmens, ob das Signal ein Sprachsignal oder kein Sprachsignal ist.
  10. Verfahren nach Patentanspruch 9, gekennzeichnet durch den weiteren Schritt eines Aktualisierens einer Rauschkomponente, sofern das Signal kein Sprachsignal ist.
  11. Verfahren nach Patentanspruch 8, wobei zumindest ein Parameter abgeleitet wird, um das Signal zu klassifizieren.
  12. Verfahren nach Patentanspruch 11, wobei ein Satz von Basisparametern und zumindest ein Rauschkomponentenparameter abgeleitet wird.
  13. Verfahren nach Patentanspruch 8, wobei der Vergleichsschritt die Schritte aufweist: (a) Identifizieren von zumindest einem charakteristischen Wert des Signals mit zumindest einem der Parameter; (b) Setzen eines Markierungszeichens, wodurch die Anwesenheit des charakteristischen Wertes angezeigt wird; c) Empfangen von zumindest einem Markierungszeichen in einem endgültigen Entscheidungsmodul; und d) Assoziieren einer Klasse mit zumindest einem Markierungszeichen.
  14. Verfahren nach Patentanspruch 8, wobei zumindest ein Parameter zum Klassifizieren des Signals empfangen wird.
  15. Verfahren nach Patentanspruch 1 zum Wahrnehmungsabgleich eines Sprachsignals in einer Sprachcodiervorrichtung mit zumindest einem Verarbeitungsmodul, gekennzeichnet durch die weiteren Schritte: Empfangen des Signals an der Sprachcodiervorrichtung; Ableiten einer Vielzahl von Signalparametern im Verarbeitungsmodul; wobei der Basisparameter in der Vielzahl von Signalparametern enthalten ist; Gewichtung der Parameter; Assoziieren eines speziellen charakteristischen Signalwertes mit den Signalparametern; Setzen eines Markierungszeichens im Verarbeitungsmodul, wenn der charakteristische Wert identifiziert wird; Vergleichen der Markierungszeichen; und Klassifizieren des Signals in Abhängigkeit vom Vergleichsschritt oder vom Ableitungsschritt.
  16. Verfahren nach Patentanspruch 15, wobei der Ableitungsschritt ein Ableiten eines Satzes von Basisparametern und ein Ableiten eines Satzes von rauschbezogenen Parametern aufweist.
  17. Verfahren nach Patentanspruch 15, wobei der Gewichtungsschritt die Schritte aufweist: a) Abschätzen einer Rauschkomponente des Parameters in den Verarbeitungsmodulen; und b) Entfernen der Rauschkomponente des Parameters im Verarbeitungsmodul.
  18. Verfahren nach Patentanspruch 17, wobei der Gewichtungsschritt einen Satz von Rausch-Abschätzungsgleichungen aufweist.
  19. Verfahren nach Patentanspruch 1, zum Durchführen einer Sprachcodierung, wobei ein Satz von homogenen Parametern zum Klassifizieren eines Signals bereitgestellt wird, wobei der Satz der Parameter von einem Hintergrundrauschen unbeeinflusst ist.
  20. Verfahren nach Patentanspruch 1 zum Durchführen einer Sprachkommunikation, wobei der Einfluss von sprachbezogenem Rauschen verringert ist, mit den Schritten: Empfangen eines digitalen sprachbezogenen Signals an einer Sprachverarbeitungsvorrichtung; Ausbilden eines Satzes von homogenen Parametern; Vergleichen der Parameter mit einem Schwellwert; und Klassifizieren des Signals.
  21. Verfahren nach Patentanspruch 20, wobei der Ausbildeschritt ein Ausbilden eines Satzes von „rauschfreien" Parametern aufweist.
  22. Verfahren nach Patentanspruch 21, wobei der Ausbildeschritt die Schritt aufweist: Abschätzen einer Rauschkomponente; und Entfernen der Rauschkomponente.
  23. Verfahren nach Patentanspruch 20, wobei der Vergleichsschritt einen Vergleich mit einem Satz von Schwellwerten darstellt.
DE60117558T 2000-08-21 2001-08-17 Verfahren zur rauschrobusten klassifikation in der sprachkodierung Expired - Lifetime DE60117558T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/643,017 US6983242B1 (en) 2000-08-21 2000-08-21 Method for robust classification in speech coding
US643017 2000-08-21
PCT/IB2001/001490 WO2002017299A1 (en) 2000-08-21 2001-08-17 Method for noise robust classification in speech coding

Publications (2)

Publication Number Publication Date
DE60117558D1 DE60117558D1 (de) 2006-04-27
DE60117558T2 true DE60117558T2 (de) 2006-08-10

Family

ID=24579015

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60117558T Expired - Lifetime DE60117558T2 (de) 2000-08-21 2001-08-17 Verfahren zur rauschrobusten klassifikation in der sprachkodierung

Country Status (8)

Country Link
US (1) US6983242B1 (de)
EP (1) EP1312075B1 (de)
JP (2) JP2004511003A (de)
CN (2) CN1210685C (de)
AT (1) ATE319160T1 (de)
AU (1) AU2001277647A1 (de)
DE (1) DE60117558T2 (de)
WO (1) WO2002017299A1 (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4178319B2 (ja) * 2002-09-13 2008-11-12 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理におけるフェーズ・アライメント
US7698132B2 (en) * 2002-12-17 2010-04-13 Qualcomm Incorporated Sub-sampled excitation waveform codebooks
GB0321093D0 (en) * 2003-09-09 2003-10-08 Nokia Corp Multi-rate coding
KR101008022B1 (ko) * 2004-02-10 2011-01-14 삼성전자주식회사 유성음 및 무성음 검출방법 및 장치
KR100735246B1 (ko) * 2005-09-12 2007-07-03 삼성전자주식회사 오디오 신호 전송 장치 및 방법
CN100483509C (zh) * 2006-12-05 2009-04-29 华为技术有限公司 声音信号分类方法和装置
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
ATE474312T1 (de) * 2007-02-12 2010-07-15 Dolby Lab Licensing Corp Verbessertes verhältnis von sprachlichen zu nichtsprachlichen audio-inhalten für ältere oder hörgeschädigte zuhörer
KR100930584B1 (ko) * 2007-09-19 2009-12-09 한국전자통신연구원 인간 음성의 유성음 특징을 이용한 음성 판별 방법 및 장치
JP5377167B2 (ja) * 2009-09-03 2013-12-25 株式会社レイトロン 悲鳴検出装置および悲鳴検出方法
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
WO2011044848A1 (zh) * 2009-10-15 2011-04-21 华为技术有限公司 信号处理的方法、装置和系统
CN102467669B (zh) * 2010-11-17 2015-11-25 北京北大千方科技有限公司 一种在激光检测中提高匹配精度的方法和设备
US9240191B2 (en) 2011-04-28 2016-01-19 Telefonaktiebolaget L M Ericsson (Publ) Frame based audio signal classification
US8990074B2 (en) * 2011-05-24 2015-03-24 Qualcomm Incorporated Noise-robust speech coding mode classification
CN102314884B (zh) * 2011-08-16 2013-01-02 捷思锐科技(北京)有限公司 语音激活检测方法与装置
CN103177728B (zh) * 2011-12-21 2015-07-29 中国移动通信集团广西有限公司 语音信号降噪处理方法及装置
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN113571036B (zh) * 2021-06-18 2023-08-18 上海淇玥信息技术有限公司 一种低质数据的自动化合成方法、装置及电子设备

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8911153D0 (en) * 1989-05-16 1989-09-20 Smiths Industries Plc Speech recognition apparatus and methods
US5491771A (en) * 1993-03-26 1996-02-13 Hughes Aircraft Company Real-time implementation of a 8Kbps CELP coder on a DSP pair
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
CA2136891A1 (en) * 1993-12-20 1995-06-21 Kalyan Ganesan Removal of swirl artifacts from celp based speech coders
JP2897628B2 (ja) * 1993-12-24 1999-05-31 三菱電機株式会社 音声検出器
AU724111B2 (en) * 1995-09-14 2000-09-14 Ericsson Inc. System for adaptively filtering audio signals to enhance speech intelligibility in noisy environmental conditions
JPH09152894A (ja) * 1995-11-30 1997-06-10 Denso Corp 有音無音判別器
SE506034C2 (sv) * 1996-02-01 1997-11-03 Ericsson Telefon Ab L M Förfarande och anordning för förbättring av parametrar representerande brusigt tal
JPH1020891A (ja) * 1996-07-09 1998-01-23 Sony Corp 音声符号化方法及び装置
JPH10124097A (ja) * 1996-10-21 1998-05-15 Olympus Optical Co Ltd 音声記録再生装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
AU4661497A (en) * 1997-09-30 1999-03-22 Qualcomm Incorporated Channel gain modification system and method for noise reduction in voice communication
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames

Also Published As

Publication number Publication date
JP2008058983A (ja) 2008-03-13
JP2004511003A (ja) 2004-04-08
CN1447963A (zh) 2003-10-08
EP1312075B1 (de) 2006-03-01
EP1312075A1 (de) 2003-05-21
CN1210685C (zh) 2005-07-13
US6983242B1 (en) 2006-01-03
AU2001277647A1 (en) 2002-03-04
WO2002017299A1 (en) 2002-02-28
CN1624766A (zh) 2005-06-08
CN1302460C (zh) 2007-02-28
ATE319160T1 (de) 2006-03-15
DE60117558D1 (de) 2006-04-27

Similar Documents

Publication Publication Date Title
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60120734T2 (de) Vorrichtung zur erweiterung der bandbreite eines audiosignals
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE69535723T2 (de) Verfahren und vorrichtung zur sprachkodierung mit reduzierter, variabler bitrate
DE102008016502B4 (de) Verfahren zur Datenübermittlung über einen Sprachkanal eines drahtlosen Kommunikationsnetzes unter Verwendung einer kontinuierlichen Signalmodulation
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE69923079T2 (de) Kodierung von stimmlosen sprachsegmenten mit niedriger datenrate
DE60012760T2 (de) Multimodaler sprachkodierer
DE60128479T2 (de) Verfahren und vorrichtung zur bestimmung eines synthetischen höheren bandsignals in einem sprachkodierer
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
JP5881791B2 (ja) 符号器の量子化ノイズを復号化中に低減するための後処理方法及び装置
WO2007073949A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE60131766T2 (de) Wahrnehmungsbezogen verbesserte codierung akustischer signale
DE112014000945B4 (de) Sprachbetonungsgerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition