EP0987680B1

EP0987680B1 - Audiosignalverarbeitung

Info

Publication number: EP0987680B1
Application number: EP19990202980
Authority: EP
Inventors: David Frank Marston
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 1998-09-17
Filing date: 1999-09-13
Publication date: 2008-07-16
Anticipated expiration: 2019-09-13
Also published as: EP0987680A1

Claims

Verfahren zum Extrahieren einer aus einer übereinstimmenden Komponente und einer nicht übereinstimmenden Komponente eines vorgegebenen Segments eines Audiosignals, wobei eine übereinstimmende Komponente eine Komponente ist, deren Phase sich langsam ändert im Vergleich zu einer nicht übereinstimmenden Komponente, deren Phase sich schneller ändert, wobei das Verfahren die Schritte aufweist:
Bilden einer anfänglichen Entwicklungsoberfläche aus einer Reihe von kombinierten Amplituden- und Phasen-Spektren, die Segmente des Signals um das vorgegebene Segment darstellen; Modifizieren der anfänglichen Entwicklungsoberfläche, um eine modifizierte Entwicklungsoberfläche zu erhalten, die eine der übereinstimmenden Komponente oder der nicht übereinstimmenden Komponente des Signals darstellt; und

Extrahieren der einen aus der übereinstimmenden Komponente oder der nicht übereinstimmenden Komponente des vorgegebenen Segments aus der modifizierten Entwicklungsoberfläche;

wobei der Modifizieren-Schritt umfasst:
eine Vielzahl von Komponenten-Filter-Schritte und, vor zumindest einem der Filter-Schritte, die Substitution einer Phaseninformation, die von der anfänglichen Entwicklungsoberfläche oder einem früheren der Komponenten-Schritte für die Phaseninformation abgeleitet ist, die von dem letzten Komponenten-Schritt abgeleitet ist.
Verfahren gemäß Anspruch 1, wobei die Komponenten-Schritte jeweilige Tiefpass-Filter-Schritte aufweisen, wobei der Modifizierungs-Schritt eine modifizierte Entwicklungsoberfläche vorsieht, welche die übereinstimmende Komponente des vorgegebenen Segments darstellt.
Verfahren gemäß Anspruch 2, wobei jeder Tiefpass-Filter-Schritt die Anwendung eines identischen Tiefpass-Filters umfasst.
Verfahren gemäß einem vorhergehenden Anspruch, wobei eine Phaseninformation, die von der anfänglichen Entwicklungsoberfläche abgeleitet ist, in allen Komponenten-Schritten verwendet wird.
Verfahren gemäß einem vorhergehenden Anspruch, das weiter aufweist den Schritt eines Berechnens der anderen der übereinstimmenden Komponente und der nicht übereinstimmenden Komponente durch Subtrahieren der einen der zwei Komponenten von der anfänglichen Entwicklungsoberfläche.
Verfahren gemäß Anspruch 1, wobei die Komponenten-Schritte jeweilige Hochpass-Filter-Schritte aufweisen, wobei der Modifizierungs-Schritt eine modifizierte Entwicklungsoberfläche vorsieht, welche die nicht übereinstimmende Komponente des vorgegebenen Segments darstellt.
Verfahren gemäß Anspruch 1, wobei das Audiosignal im Wesentlichen periodisch ist und jedes vorgegebene Segment eine andere Tonhöhe bzw. Pitch-Periode darstellt.
Verfahren zum Trennen von stimmhafter Sprache von stimmloser Sprache und Rauschen, wobei das Verfahren die Schritte eines vorhergehenden Anspruchs aufweist, wobei das Audiosignal Sprache darstellt und die stimmhafte Sprache der übereinstimmenden Komponente entspricht und die stimmlose Sprache und das Rauschen der nicht übereinstimmenden Komponenten entsprechen.
Verfahren zur Sprachcodierung, welches das Trennverfahren von Anspruch 8 aufweist, wobei mehr Information verwendet wird, um die stimmhafte Sprache zu codieren, als verwendet wird, um die stimmlose Sprache und Rauschen zu codieren.
Audiosignal-Prozessor, der betriebsfähig ist, eine aus einer übereinstimmenden Komponente und einer nicht übereinstimmenden Komponente eines vorgegebenen Segments eines Audiosignals zu extrahieren, wobei eine übereinstimmende Komponente eine Komponente ist, deren Phase sich langsam ändert im Verglich zu einer nicht übereinstimmenden Komponente, deren Phase sich schneller ändert, wobei die Vorrichtung aufweist:
Mittel, die betriebsfähig sind, eine anfängliche

Entwicklungsoberfläche aus einer Reihe von kombinierten Amplituden- und Phasen-Spektren zu bilden, die Segmente des Signals um das vorgegebene Segment darstellen;

Mittel, die betriebsfähig sind, die anfängliche Entwicklungsoberfläche zu modifizieren, um eine modifizierte Entwicklungsoberfläche zu erhalten, die eine der übereinstimmenden Komponente oder der nicht übereinstimmenden Komponente des Signals darstellt; und

Mittel, die betriebsfähig sind, die eine aus der übereinstimmenden Komponente oder der nicht übereinstimmenden Komponente des vorgegebenen Segments von der modifizierten Entwicklungsoberfläche zu extrahieren;

wobei die Vorrichtung weiter aufweist:
Mittel, die betriebsfähig sind, eine Vielzahl von Filter-Schritten auszuführen und, vor zumindest einem der Filter-Schritte, eine Phaseninformation zu ersetzen, die von der anfänglichen Entwicklungsoberfläche oder einem früheren der Komponenten-Schritte für die Phaseninformation abgeleitet ist, die von dem letzten Komponenten-Schritt abgeleitet ist.
Sprachcodiervorrichtung, die aufweist:
ein Speichermedium, das einen Prozessor-lesbaren Code gespeichert hat, der verarbeitbar ist, um eingegebene Sprachdaten zu codieren, wobei der Code umfasst:
einen "anfängliche Entwicklungsoberfläche"-Erzeugungscode, der verarbeitbar ist, um "anfängliche Entwicklungsoberfläche"-Daten zu erzeugen, die kombinierte Amplituden- und Phasen-Daten für Segmente der eingegebenen Sprachdaten aufweisen; einen Trennungscode, der verarbeitbar ist, um getrennte Phasen-Daten und Amplituden-Daten von den eingegebenen Sprachdaten abzuleiten;

einen Entwicklungsoberfläche-Modifizierungscode, der verarbeitbar ist, um eine modifizierte Entwicklungsoberfläche zu erzeugen, die eine aus einer stimmhaften Komponente oder einer stimmlosen/Rauschen-Komponente der eingegebenen Sprachdaten darstellt; und

einen Komponenten-Extraktionscode, der verarbeitbar ist, um die eine der stimmhaften Komponente oder

stimmlosen/Rauschen-Komponente aus den eingegebenen Sprachdaten zu extrahieren;

wobei der Entwicklungsoberfläche-Modifizierungscode aufweist:
einen Entwicklungsoberfläche-Filter-Code, der verarbeitbar ist, um die "anfängliche Entwicklungsoberfläche"-Daten mehrere Male zu filtern;

einen Entwicklungsoberfläche-Dekompositionscode, der verarbeitbar ist, um Amplituden-Daten und Phasen-Daten nachfolgend auf einen oder mehrere der Filter-Schritte abzuleiten; und

einen "frühere Phase"-Wiedereinsetzungscode, der verarbeitbar ist, um die Phase-Daten zu ersetzen, die erlangt wurden bei der Verarbeitung des Entwicklungsoberfläche-Dekompositionscode mit einer früheren Version der Phasen-Daten.
Verfahren einer Wellenform-Interpolations-Sprachcodierung, das aufweist:
Bilden einer anfänglichen Entwicklungsoberfläche aus einer Reihe von kombinierten charakteristischen Wellenformen oder Spektren, die jeweilige Segmente der Sprache darstellen;

wobei die Bildung umfasst ein Ausrichten jeder der charakteristischen Wellenformen oder Spektren mit einer früheren charakteristischen Wellenform oder eines Spektrums der Reihe; und

die frühere Wellenform oder das Spektrum getrennt ist von der charakteristischen Wellenform oder dem Spektrum, mit dem es ausgerichtet wird, durch eine variable Anzahl von Mitgliedern der Reihe, wobei die variable Anzahl gemäß der Tonhöhe des Signals variiert.