[go: up one dir, main page]

DE60018690T2 - Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung - Google Patents

Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung Download PDF

Info

Publication number
DE60018690T2
DE60018690T2 DE60018690T DE60018690T DE60018690T2 DE 60018690 T2 DE60018690 T2 DE 60018690T2 DE 60018690 T DE60018690 T DE 60018690T DE 60018690 T DE60018690 T DE 60018690T DE 60018690 T2 DE60018690 T2 DE 60018690T2
Authority
DE
Germany
Prior art keywords
voicing
speech signal
speech
threshold
subsegments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60018690T
Other languages
English (en)
Other versions
DE60018690D1 (de
Inventor
Ari Heikkinen
Samuli Pietila
Vesa Ville Mont-Royal Ruoppila
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Inc filed Critical Nokia Inc
Application granted granted Critical
Publication of DE60018690D1 publication Critical patent/DE60018690D1/de
Publication of DE60018690T2 publication Critical patent/DE60018690T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Communication Control (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

  • Die vorliegende Erfindung betrifft Sprachverarbeitung und insbesondere eine Stimmhaftigkeitsbestimmung des Sprachsignals, die eine bestimmte, aber nicht ausschließliche Anwendung im Feld der Mobiltelefone findet.
  • In bekannten Sprachcodecs ist die gängigste phonetische Klassifikation eine Stimmhaftigkeitsentscheidung, die einen Sprachrahmen als stimmhaft oder stimmlos klassifiziert. Allgemein gesagt gehen stimmhafte Segmente typischerweise mit hoher lokaler Energie einher und weisen eine deutliche Periodizität auf, die der Grundfrequenz oder äquivalent der Tonhöhe des Sprachsignals entspricht, wohingegen stimmlose Segmente Rauschen ähneln. Ein Sprachsignal enthält jedoch auch Segmente, die als eine Mischung stimmhafter und stimmloser Sprache klassifiziert werden können, wobei beide Komponenten gleichzeitig vorhanden sind. Diese Kategorie beinhaltet stimmhafte Reibelaute sowie rauchige und quietschige Stimmen. Die geeignete Klassifikation gemischter Segmente als entweder stimmhaft oder stimmlos hängt von den Eigenschaften des Sprachcodecs ab.
  • In einem typischen bekannten Analyse-durch-Synthesebasierten Sprachcodec (Analysis-by-Synthesis, A-b-S) wird die Periodizität der Sprache mit einem Tonhöhen-Prädiktorfilter modelliert, der auch als ein LTP-Filter (Long-Term Prediction Filter, Langzeit-Vorhersagefilter) bezeichnet wird. Er charakterisiert die harmonische Struktur des Spektrums basierend auf der Ähnlichkeit benachbarter Tonhöhenperioden in einem Sprachsignal. Das gängigste Verfahren, das für die Tonhöhenextraktion verwendet wird, ist die Autokorrelationsanalyse, die die Ähnlichkeit zwischen den gegenwärtigen und verzögerten Sprachsegmenten anzeigt. Bei diesem Ansatz wird der Verzögerungswert, der der Hauptspitze der Autokorrelationsfunktion entspricht, als die Tonhöhenperiode interpretiert. Es ist typisch, dass für stimmhafte Sprachsegmente mit einer deutlichen Tonhöhenperiode die Stimmhaftigkeitsbestimmung in enger Beziehung zur Tonhöhenextraktion steht.
  • Die Veröffentlichung US5734789 beschreibt ein Verfahren zur Codierung von Sprache durch Benutzen eines linearen Prädiktors. Das Sprachsignal wird in mehrere Rahmen geteilt, die in Unterrahmen mit variierenden Größen analysiert werden, die von der jeweiligen Analyse abhängen, die im Augenblick ausgeführt wird. Der „Modus" eines Rahmens, der entweder A (stimmhaft und stationär), B (stimmlos/Übergang) oder C (Hintergrundrauschen) ist, wird auf der Grundlage z.B. von Werten bestimmt, die für jeden Unterrahmen berechnet werden.
  • Die Veröffentlichung US4074069 beschreibt eine Lösung zur Beurteilung stimmhafter und stimmloser Bedingungen von Sprachsignalen durch Benutzen einer Autokorrelationsfunktion des Sprachsignals zu unterschiedlichen Zeitpunkten.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Bestimmen der Stimmhaftigkeit eines Sprachsignalsegments bereitgestellt, umfassend die folgenden Schritte: Teilen eines Sprachsignalsegments in Untersegmente, Bestimmen eines Werts bezüglich der Stimmhaftigkeit von jeweiligen Sprachsignaluntersegmenten, Vergleichen der Werte mit einer vorgegebenen Schwelle und Treffen einer Entscheidung über die Stimmhaftigkeit des Sprachsegments basierend auf der Anzahl der Werte auf einer Seite der Schwelle, wobei die letzten, ein oder mehrere, Untersegmente des Segments in der Klassifikationslogik hervorgehoben werden.
  • Gemäß einem zweiten Aspekt der vorliegenden Erfindung wird ein Verfahren zum Bestimmen der Stimmhaftigkeit eines Sprachsignalsegments bereitgestellt, umfassend Mittel (106) zum Teilen eines Sprachsignalsegments in Untersegmente, Mittel (110) zum Bestimmen eines Werts bezüglich der Stimmhaftigkeit von jeweiligen Sprachsignaluntersegmenten, Mittel (112) zum Vergleichen der Werte mit einer vorgegebenen Schwelle und Mittel (112) zum Treffen einer Entscheidung über die Stimmhaftigkeit des Sprachsegments basierend auf der Anzahl der Werte auf einer Seite der Schwelle, wobei die letzten, ein oder mehrere, Untersegmente des Segments in der Klassifikationslogik hervorgehoben werden.
  • Die Erfindung stellt ein Verfahren zur Stimmhaftigkeitsbestimmung für die Verwendung insbesondere, aber nicht ausschließlich in einem Schmalband-Sprachcodiersystem bereit. Ein Ziel der Erfindung ist die Behandlung der Probleme des Standes der Technik durch Bestimmen der Stimmhaftigkeit des Sprachsegments basierend auf der Periodizität seiner Untersegmente. Die Ausführungsformen der vorliegenden Erfindung erzielen eine Verbesserung im Betrieb in einer Situation, in der die Eigenschaften des Sprachsignals schnell variieren, sodass der einzelne, über ein langes Fenster errechnete Parametersatz keine zuverlässige Basis zur Stimmhaftigkeitsbestimmung bereitstellt.
  • Eine bevorzugte Ausführungsform der Stimmhaftigkeitsbestimmung der vorliegenden Erfindung teilt ein Segment eines Sprachsignals weiter in Untersegmente auf. Typischerweise umfasst das Sprachsignalsegment einen Sprachrahmen. Außerdem kann es optional einen möglichen Vorgriff (Lookahead) beinhalten, der ein gewisser Abschnitt des Sprachsignals vom nächsten Sprachrahmen ist. Für jedes Untersegment wird eine normierte Autokorrelation berechnet. Die normierten Autokorrelationswerte dieser Untersegmente werden zur Klassifikationslogik weitergeleitet, die sie mit den vordefinierten Schwellenwert vergleicht. Wenn in dieser Ausführungsform ein bestimmter Prozentsatz normierter Autokorrelationswerte eine Schwelle überschreitet, wird das Segment als stimmhaft klassifiziert.
  • In einer Ausführungsform der vorliegenden Erfindung wird für jedes Untersegment eine normierte Autokorrelation anhand eines Fensters berechnet, dessen Länge zur geschätzten Tonhöhenperiode proportional ist. Dies stellt sicher, dass eine geeignete Anzahl von Tonhöhenperioden im Fenster enthalten ist.
  • Zusätzlich zu obigem liegt ein kritisches Entwurfsproblem bei Stimmhaftigkeitsbestimmungs-Algorithmen in der korrekten Klassifikation von Übergangsrahmen. Die trifft besonders auf Übergänge von stimmloser zu stimmhafter Sprache zu, da die Energie des Sprachsignals üblicherweise wächst. Wird kein separater Algorithmus zum Klassifizieren der Übergangsrahmen konzipiert, ist der Stimmhaftigkeitsbestimmungs-Algorithmus stets ein Kompromiss zwischen der Fehlklassifikationsrate und der Empfindlichkeit zum zutreffenden Erkennen von Übergangsrahmen.
  • Um die Leistung des Stimmhaftigkeitsbestimmungs-Algorithmus im Verlauf von Übergangsrahmen zu verbessern, ohne die Fehlklassifikationsrate praktisch überhaupt zu erhöhen, stellt eine Ausführungsform der vorliegenden Erfindung Regeln zum Klassifizieren des Sprachrahmens als stimmhaft bereit. Dies erfolgt durch Hervorheben der Stimmhaftigkeitsentscheidungen der letzten Untersegmente in einem Rahmen, um die Übergänge von stimmloser zu stimmhafter Sprache zu erkennen. Das heißt, dass der Rahmen zusätzlich dazu, dass er eine bestimmte Anzahl von Untersegmenten aufweist, die einen normierten Autokorrelationswert aufweisen, der einen Schwellenwert überschreitet, auch dann als stimmhaft klassifiziert wird, wenn alle einer vorher festgelegten Anzahl der letzten Untersegmente einen normierten Autokorrelationswert aufweisen, der denselben Schwellenwert überschreitet. Die Erkennung von Übergängen von stimmlos nach stimmhaft wird somit weiter verbessert, indem die letzten Untersegmente in der Klassifikationslogik hervorgehoben werden.
  • Der Rahmen kann als stimmhaft klassifiziert werden, wenn nur das letzte Untersegment einen normierten Autokorrelationswert aufweist, der den Schwellenwert überschreitet.
  • Alternativ kann der Rahmen als stimmhaft klassifiziert werden, wenn ein Abschnitt der Untersegmente aus dem gesamten Sprachrahmen einen normierten Autokorrelationswert aufweist, der den Schwellenwert überschreitet. Dieser Abschnitt kann beispielsweise im Wesentlichen eine Hälfte oder im Wesentlichen ein Drittel der Untersegmente des Sprachrahmens sein.
  • Die Stimmhaft/Stimmlos-Entscheidung kann zwei Zwecken dienen. Eine Option ist es, Bits innerhalb des Sprachcodecs unterschiedlich für stimmhafte und stimmlose Rahmen zuzuordnen. Im Allgemeinen sind stimmhafte Sprachsegmente von der Wahrnehmung her wichtiger als stimmlose Segmente, und deshalb ist es besonders wichtig, dass ein Sprachrahmen korrekt als stimmhaft klassifiziert wird. Im Falle eines Codecs des Analyse-durch-Synthese-Typs kann dies z.B. durch Neuzuweisung von Bits vom adaptiven Code-Lexikon (z.B. von LTP-Verstärkungs- und LTP-Verzögerungsparametern) zum Erregersignal erfolgen, wenn der Sprachrahmen als stimmlos klassifiziert ist, um die Codierung des Erregersignals zu verbessern. Andererseits kann das adaptive Code-Lexikon in einem Sprachcodec dann sogar während des stimmlosen Sprachrahmens ausgeschaltet werden, was zu einer verringerten Gesamtbitrate führt. Wegen dieses Ein- und Ausschaltens von LTP-Parametern ist es besonders wichtig, dass ein Sprachrahmen korrekt als stimmhaft klassifiziert wird. Es wurde beobachtet, dass es am Empfangsende zu einer verminderten Klangqualität führt, wenn ein stimmhafter Sprachrahmen fälschlicherweise als stimmlos klassifiziert wird und die LTP-Parameter ausgeschaltet werden. Dementsprechend stellt die vorliegende Erfindung ein Verfahren und ein Gerät für eine Stimmhaft/Stimmlos-Entscheidung bereit, um eine zuverlässige Entscheidung zu fällen, insbesondere so, dass stimmhafte Sprachrahmen nicht fälschlicherweise als stimmlos beurteilt werden.
  • Ausführungsbeispiele der Erfindung sind nachstehend unter Bezug auf die beiliegenden Zeichnungen beschrieben, wobei
  • 1 ein Blockschaltbild einer Vorrichtung der vorliegenden Erfindung zeigt,
  • 2 eine Sprachsignal-Rahmenanordnung der vorliegenden Erfindung zeigt,
  • 3 Ein Flussdiagramm gemäß der vorliegenden Erfindung zeigt,
  • 4 ein Blockschaltbild eines Funktelefons zeigt, das die Erfindung nutzt.
  • 1 zeigt ein Gerät 1 zur Stimmhaftigkeitsbestimmung gemäß der ersten Ausführungsform der vorliegenden Erfindung. Das Gerät umfasst ein Mikrofon 101 zum Empfangen eines akustischen Signals 102, typischerweise eines Sprachsignals, das von einem Benutzer generiert wird, und zum Umwandeln desselben in ein analoges elektrisches Signal an Leitung 103. Ein A/D-Wandler 104 empfängt das analoge elektrische Signal an Leitung 103 und erzeugt ein digitales elektrisches Signal y(t) der Stimme des Benutzers an Leitung 105. Ein Segmentierungsblock 106 teilt danach das Sprachsignal in vordefinierte Untersegmente an Leitung 107. Ein Rahmen von 20 ms (160 Abtastungen) kann beispielsweise in 4 Untersegmente von 5 ms geteilt werden. Nach der Segmentierung extrahiert ein Tonhöhenextraktionsblock 108 die optimale Open-Loop-Tonhöhenperiode für jedes Sprach-Untersegment. Die optimale Open-Loop-Tonhöhe wird durch Minimieren der Summe der quadrierten Fehler zwischen dem Sprachsegment und dessen verzögerter und verstärkungsskalierter Variante wie folgt geschätzt:
    Figure 00070001
    wobei y(t) die erste Sprachabtastung ist, die zum Fenster der Länge N gehört, τ die ganzzahlige Tonhöhenperiode und g(t) die Verstärkung.
  • Den Optimalwert von g(t) erhält man durch Setzen der partiellen Ableitung der Kostenfunktion (1) bezogen auf die Verstärkung zu null. Dies ergibt
    Figure 00080001
    wobei
    Figure 00080002
    die Autokorrelation von y(t) mit Verzögerung τ und
    Figure 00080003
    ist. Durch Substituieren der optimalen Verstärkung in Gleichung (1) wird die Tonhöhenperiode durch Maximieren des letzteren Ausdrucks von
    Figure 00080004
    bezogen auf Verzögerung τ geschätzt. Der Tonhöhenextraktionsblock 108 ist auch angeordnet, um die oben bestimmte geschätzte Open-Loop-Tonhöhenschätzung τ an Leitung 113 zum Segmentierungsblock 106 und zu einem Wertbestimmungsblock 110 zu senden. Ein Beispiel für die Arbeitsweise des Segmentierung ist in 2 gezeigt, die später beschrieben wird.
  • Der Wertbestimmungsblock 110 empfängt auch das Sprachsignal y(t) vom Segmentierungsblock 106 an Leitung 107. Der Wertbestimmungsblock 110 ist angeordnet, um wie folgt zu arbeiten:
    Zur Beseitigung der Effekte der negativen Werte der Autokorrelationfunktion beim Maximieren der Funktion wird eine Quadratwurzel des letzteren Ausdrucks von Gleichung (5) genommen. Somit ist der zu maximierende Ausdruck C0(t,τ) = R(t,τ)/√R(t – τ) (6)
  • Im Verlauf von stimmhaften Segmenten neigt die Verstärkung g(t) dazu, nahe der Einheit zu sein, und wird somit oft zur Stimmhaftigkeitsbestimmung benutzt. Jedoch schwankt die Verstärkung g(t) im Verlauf von stimmlosen und Übergangsbereichen und erreicht ebenfalls Werte nahe der Einheit. Eine robustere Stimmhaftigkeitsbestimmung wird durch Beobachten der Werte von Gleichung (6) erreicht. Um den Leistungsvariationen des Signals gerecht zu werden, wird R(t,τ) normiert, um einen Maximalwert der Einheit aufzuweisen, resultierend in
  • Figure 00090001
  • Gemäß einem Aspekt der Erfindung wird die Fensterlänge (7) auf die ermittelte Tonhöhenperiode τ plus einem Offset M gesetzt, um die Probleme bezüglich eines Fensters fester Länge zu überwinden. Das verwendete Periodizitätsmaß ist somit
    Figure 00090002
    wobei
    Figure 00090003
    und
  • Figure 00100001
  • Der Parameter M kann z.B. auf 10 Abtastungen gesetzt werden. Aufgabe eines Stimmhaftigkeitsentscheidungsblock 112 ist es, das oben bestimmte Periodizitätsmaß C2(t,τ) an Leitung 111 vom Wertbestimmungsblock 110 und Parameter K, Ktr, Ctr zu empfangen, um die Stimmhaftigkeitsentscheidung zu fällen. Die Entscheidungslogik der Stimmhaft/Stimmlos-Entscheidung wird unten in 3 weiter beschrieben.
  • Es muss betont werden, dass die Tonhöhenperiode, die in (8) verwendet wird, auch auf anderen Wegen geschätzt werden kann als oben in den Gleichungen (1) – (6) beschrieben. Eine gängige Modifikation ist die Verwendung von Tonhöhenverfolgung, um Tonhöhenvielfache zu vermeiden, beschrieben in einer finnischen Patentanmeldung FI 971976 . Eine weitere optionale Funktion für die Open-Loop-Tonhöhenextraktion ist, dass der Effekt der Formantfrequenzen aus dem Sprachsignal vor der Tonhöhenextraktion entfernt wird. Die kann zum Beispiel durch einen Gewichtungsfilter erfolgen.
  • Modifizierte Signale, z.B. Restsignal, gewichtetes Restsignal oder gewichtetes Sprachsignal, können auch statt des ursprünglichen Sprachsignals zur Stimmhaftigkeitsbestimmung verwendet werden. Das Restsignal erhält man durch Filtern des ursprünglichen Sprachsignals durch lineare Vorhersage-Analyse-Filter.
  • Es kann auch vorteilhaft sein, die Tonhöhenperiode aus dem Restsignal des linearen Vorhersagefilters statt aus dem Sprachsignal zu schätzen, weil das Restsignal oft deutlicher periodisch ist.
  • Der Rest kann ferner vor obiger Prozedur durch einen Tiefpass gefiltert und heruntergetastet werden (Downsampling). Die Heruntertastung reduziert die Komplexität von Korrelationsberechnungen. In einem weiteren Beispiel wird das Sprachsignal zuerst durch einen Gewichtungsfilter gefiltert, bevor die Berechnung der Autokorrelation wie oben beschrieben angewendet wird.
  • 2 zeigt ein Beispiel für das Teilen eines Sprachrahmens in vier Untersegmente, deren Startpositionen t1, t2, t3 und t4 sind. Die Fensterlängen N1, N2, N3 und N4 sind proportional zur Tonhöhenperiode, die wie oben geschrieben ermittelt wurde. Der Vorgriff wird ebenfalls für die Segmentierung benutzt. In diesem Beispiel ist die Anzahl der Untersegmente fest. Alternativ kann die Anzahl von Untersegmenten basierend auf der Tonhöhenperiode variabel sein. Dies kann beispielsweise durch Auswählen der Untersegmente nach t2 = t1 + τ + L, t3 = t2 + τ + L, usw. erfolgen, bis alle verfügbaren Daten genutzt werden. In diesem Beispiel ist L konstant und kann z.B. zu. –10 gesetzt werden, resultierend in überlappenden Untersegmenten.
  • 3 zeigt ein Flussdiagramm des Verfahrens gemäß einer Ausführungsform der vorliegenden Erfindung. Die Prozedur wird durch Schritt 301 gestartet, in dem die Open-Loop-Tonhöhenperiode τ extrahiert wird, wie oben in den Gleichungen (1) – (6) beispielhaft gezeigt. In Schritt 302 wird C2(t,τ) für jedes Untersegment der Sprache wie in Gleichung (8) beschrieben berechnet. Als Nächstes wird in Schritt 303 die Anzahl der Untersegmente n berechnet, bei denen C2(t,τ) oberhalb eines gewissen ersten Schwellenwerts Ctr liegt. Der Komparator 304 bestimmt, ob die Anzahl Untersegmente n, die in Schritt 303 bestimmt wurde, einen gewissen zweiten Schwellenwert K überschreitet. Wird der zweite Schwellenwert K überschritten, wird der Sprachrahmen als stimmhaft klassifiziert. Anderenfalls fährt die Prozedur mit Schritt 305 fort. In dieser Ausführungsform bestimmt der Komparator in Schritt 305, ob eine gewisse Anzahl Ktr letzter Untersegmente einen Wert C, (t,τ) aufweist, der die Schwelle Ctr überschreitet. Wird die Schwelle überschritten, wird der Sprachrahmen als ein stimmhafter Rahmen klassifiziert. Anderenfalls wird der Sprachrahmen als stimmloser Rahmen klassifiziert.
  • Die oben vorgestellten, exakten Parameterwerte Ctr, Ktr und K sind nicht auf gewisse Werte begrenzt, sondern abhängig vom vorgegebenen System und können mithilfe einer umfangreichen Sprachdatenbank empirisch ausgewählt werden. Wenn beispielsweise das Sprachsegment in 9 Untersegmente geteilt ist, können geeignete Werte z.B. Ctr = 0.6, Ktr = 4 und K = 6 sein. Ein angemessener Wert von K und Ktr ist proportional zur Anzahl Untersegmente.
  • Alternativ wird gemäß vorliegender Erfindung der Rahmen als stimmhaft klassifiziert, wenn nur das letzte Untersegment (d.h, Ktr = 1) einen normierten Autokorrelationswert aufweist, der den Schwellenwert überschreitet. Gemäß noch einer Modifikation wird der Rahmen als stimmhaft klassifiziert, wenn im Wesentlichen die Hälfte der Untersegmente aus dem gesamten Sprachrahmen (d.h. 4 oder 5 Untersegmente von 9) einen normierten Autokorrelationswert aufweisen, der die Schwelle überschreitet.
  • 4 ist eine Blockabbildung eines Funktelefons, die die relevanten Teile für die vorliegende Erfindung beschreibt. Das Funktelefon umfasst ein Mikrofon 61, eine Tastatur 62, eine Anzeige 63, einen Lautsprecher 64 und eine Antenne 71 mit Schalter für Duplexbetrieb. Ferner eingeschlossen ist eine Steuereinheit 65, die beispielsweise in einer ASIC-Schaltung implementiert ist, zum Steuern des Betriebs des Funktelefons. 4 zeigt außerdem die Sende- und Empfangsblöcke 67, 68 einschließlich der Sprachcodier- und -decodierblöcke 69, 70. Das Gerät zur Stimmhaftigkeitsbestimmung 1 ist vorzugsweise im Sprachcodierer 69 enthalten. Alternativ kann die Stimmhaftigkeitsbestimmung separat implementiert sein, nicht innerhalb des Sprachcodierers 69. Die Sprachcodier-/-decodierblöcke 69, 70 und die Stimmhaftigkeitsbestimmung 1 können durch eine DSP-Schaltung implementiert sein, die Elemente, die als solche bekannt sind, z.B. interne und externe Speicher und Register, zur Implementierung der vorliegenden Erfindung beinhaltet. Der Sprachcodierer/-decodierer kann auf einem beliebigen Standard bzw. einer beliebigen Technologie basieren, und die vorliegende Erfindung bildet somit ein Teil für den Betrieb eines derartigen Codecs. Das Funktelefon selbst kann in unter beliebigen vorhandenen oder zukünftigen Telekommunikationsstandards betrieben werden, die auf digitaler Technologie basieren.
  • Im Anbetracht voranstehender Beschreibung ist es für einen Fachmann offensichtlich, dass innerhalb des Umfangs der vorliegenden Erfindung mannigfaltige Modifikationen vorgenommen werden können.

Claims (12)

  1. Verfahren zum Bestimmen der Stimmhaftigkeit eines Sprachsignalsegments, umfassend die folgenden Schritte: Teilen eines Sprachsignalsegments in Untersegmente, Bestimmen eines Werts bezüglich der Stimmhaftigkeit von jeweiligen Sprachsignaluntersegmenten (302), Vergleichen der Werte mit einer vorgegebenen Schwelle (303) und Treffen einer Entscheidung über die Stimmhaftigkeit des Sprachsegments basierend auf der Anzahl der Werte auf einer Seite der Schwelle (304) und Hervorheben der letzten, ein oder mehrere, Untersegmente in der Klassifikationslogik (305).
  2. Verfahren nach Anspruch 1, wobei der Schritt des Entscheidungstreffens darauf basiert, ob der Wert bezüglich der Stimmhaftigkeit des letzten Untersegments auf der einen Seite der Schwelle ist.
  3. Verfahren nach Anspruch 1, wobei der Schritt des Entscheidungstreffens darauf basiert, ob die Werte bezüglich der Stimmhaftigkeit von letzten Ktr-Untersegmenten auf der einen Seite der Schwelle sind.
  4. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Schritt des Entscheidungstreffens darauf basiert, ob die Werte bezüglich der Stimmhaftigkeit von im Wesentlichen der Hälfte der Untersegmente des Sprachsignalsegments auf der einen Seite der Schwelle sind.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei der Wert bezüglich der Stimmhaftigkeit von jeweiligen Sprachsignaluntersegmenten einen Autokorrelationswert umfasst.
  6. Verfahren nach Anspruch 5, wobei der Autokorrelationswert basierend auf der geschätzten Tonhöhenperiode bestimmt wird.
  7. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Bestimmen der Stimmhaftigkeit eines Sprachsignalsegments eine Stimmhaft/Stimmlos-Entscheidung umfasst.
  8. Gerät zum Bestimmen der Stimmhaftigkeit eines Sprachsignalsegments, umfassend Mittel (106) zum Teilen eines Sprachsignalsegments in Untersegmente, Mittel (110) zum Bestimmen eines Werts bezüglich der Stimmhaftigkeit von jeweiligen Sprachsignaluntersegmenten, Mittel (112) zum Vergleichen der Werte mit einer vorgegebenen Schwelle und Mittel (112) zum Treffen einer Entscheidung über die Stimmhaftigkeit des Sprachsegments basierend auf der Anzahl der Werte, die auf eine Seite der Schwelle fallen, und Hervorheben der letzten, ein oder mehrere, Untersegmente in der Klassifikationslogik.
  9. Gerät nach Anspruch 8, wobei das Mittel zum Entscheidungstreffen Mittel zum Bestimmen, ob der Wert des letzten Untersegments auf der einen Seite der Schwelle ist, umfasst.
  10. Gerät nach Anspruch 8, wobei das Mittel zum Entscheidungstreffen Mittel zum Bestimmen, ob die Werte von letzten Ktr-Untersegmenten auf der einen Seite der Schwelle sind, umfasst.
  11. Gerät nach einem der Ansprüche 8 bis 10, wobei das Mittel zum Entscheidungstreffen Mittel zum Bestimmen, ob die Werte bezüglich der Stimmhaftigkeit von im Wesentlichen der Hälfte der Untersegmente des Sprachsignalsegments auf der einen Seite der Schwelle sind, umfasst.
  12. Gerät nach Anspruch 8, wobei das Mittel zum Bestimmen eines Werts bezüglich der Stimmhaftigkeit von jeweiligen Sprachsignaluntersegmenten Mittel zum Bestimmen des Autokorrelationswerts umfasst.
DE60018690T 1999-12-24 2000-12-08 Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung Expired - Lifetime DE60018690T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB9930712A GB2357683A (en) 1999-12-24 1999-12-24 Voiced/unvoiced determination for speech coding
GB9930712 1999-12-24

Publications (2)

Publication Number Publication Date
DE60018690D1 DE60018690D1 (de) 2005-04-21
DE60018690T2 true DE60018690T2 (de) 2006-05-04

Family

ID=10867090

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60018690T Expired - Lifetime DE60018690T2 (de) 1999-12-24 2000-12-08 Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung

Country Status (5)

Country Link
US (1) US6915257B2 (de)
EP (1) EP1111586B1 (de)
AT (1) ATE291268T1 (de)
DE (1) DE60018690T2 (de)
GB (1) GB2357683A (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI241557B (en) * 2003-07-21 2005-10-11 Ali Corp Method for estimating a pitch estimation of the speech signals
US7603275B2 (en) * 2005-10-31 2009-10-13 Hitachi, Ltd. System, method and computer program product for verifying an identity using voiced to unvoiced classifiers
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
JP5404418B2 (ja) * 2007-12-21 2014-01-29 パナソニック株式会社 符号化装置、復号装置および符号化方法
CN102789785B (zh) 2008-03-10 2016-08-17 弗劳恩霍夫应用研究促进协会 操纵具有瞬变事件的音频信号的方法和设备
CN101599272B (zh) * 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8473287B2 (en) 2010-04-19 2013-06-25 Audience, Inc. Method for jointly optimizing noise reduction and voice quality in a mono or multi-microphone system
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9454976B2 (en) 2013-10-14 2016-09-27 Zanavox Efficient discrimination of voiced and unvoiced sounds
WO2016033364A1 (en) 2014-08-28 2016-03-03 Audience, Inc. Multi-sourced noise suppression

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2334459C3 (de) * 1973-07-06 1982-03-25 Siemens AG, 1000 Berlin und 8000 München Unterscheidung zwischen stimmhaften und stimmlosen Lauten bei der Sprachsignalauswertung
US4074069A (en) * 1975-06-18 1978-02-14 Nippon Telegraph & Telephone Public Corporation Method and apparatus for judging voiced and unvoiced conditions of speech signal
US4230906A (en) * 1978-05-25 1980-10-28 Time And Space Processing, Inc. Speech digitizer
EP0076233B1 (de) * 1981-09-24 1985-09-11 GRETAG Aktiengesellschaft Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
FR2729247A1 (fr) * 1995-01-06 1996-07-12 Matra Communication Procede de codage de parole a analyse par synthese
JP2000514207A (ja) * 1996-07-05 2000-10-24 ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター 音声合成システム
JP3618217B2 (ja) * 1998-02-26 2005-02-09 パイオニア株式会社 音声のピッチ符号化方法及び音声のピッチ符号化装置並びに音声のピッチ符号化プログラムが記録された記録媒体

Also Published As

Publication number Publication date
EP1111586A2 (de) 2001-06-27
GB2357683A (en) 2001-06-27
DE60018690D1 (de) 2005-04-21
ATE291268T1 (de) 2005-04-15
EP1111586A3 (de) 2002-10-16
US20020156620A1 (en) 2002-10-24
EP1111586B1 (de) 2005-03-16
US6915257B2 (en) 2005-07-05
GB9930712D0 (en) 2000-02-16

Similar Documents

Publication Publication Date Title
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE60023517T2 (de) Klassifizierung von schallquellen
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69421911T2 (de) Spracherkennung mit pausedetektion
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE69613646T2 (de) Verfahren zur Sprachdetektion bei starken Umgebungsgeräuschen
DE112009000805B4 (de) Rauschreduktion
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69412913T2 (de) Verfahren und Vorrichtung für digitale Sprachkodierung mit Sprachsignalhöhenabschätzung und Klassifikation in digitalen Sprachkodierern
DE69814517T2 (de) Sprachkodierung
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE60018690T2 (de) Verfahren und Vorrichtung zur Stimmhaft-/Stimmlos-Entscheidung
EP1168305A2 (de) Verfahren zur mehrkanaligen Merkmalextraktion für die Spracherkennung
DE3236834A1 (de) Verfahren und geraet zur sprachanalyse
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung
DE102013111784B4 (de) Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
DE2326517A1 (de) Verfahren und schaltungsanordnung zum erkennen von gesprochenen woertern
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE69614937T2 (de) Verfahren und System zur Spracherkennung mit verringerter Erkennungszeit unter Berücksichtigung von Veränderungen der Hintergrundgeräusche
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne

Legal Events

Date Code Title Description
8364 No opposition during term of opposition