DE2811454A1

DE2811454A1 - Verfahren zur verbesserung der wiedergabequalitaet bandbegrenzt verfuegbarer sprache

Info

Publication number: DE2811454A1
Application number: DE19782811454
Authority: DE
Inventors: Hans Dietrich Dr Ing Hoehne
Original assignee: Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Current assignee: Fraunhofer Institut fuer Nachrichtentechnik Heinrich Hertz Institute HHI
Priority date: 1978-03-14
Filing date: 1978-03-14
Publication date: 1979-09-20

Description

Verfahren zur Verbesserung der Wiedergabequalität bandbegrenzt verfügbarer
Sprache Die Erfindung bezieht sich auf ein Verfahren zur Verbesserung der Wiedergabequalität bandbegrenzt verfügbarer Sprache unter Verwendung von Zusatzinformation, die mit Hilfe des verfügbaren Signals bestimmt wird. Mit fortschreitender technischer Entwicklung wachsen die Qualitätsanforderungen, so auch an Medien, mit denen übertragene Sprache wiedergegeben wird. Darüberhinaus ist es wirtschaftlich bedeutsam, wenn Bandbreite bei der fibertragung von Sprache ohne wesentlichen Qualitätsverlust bei der Wiedergabe eingespart werden kann, weil sich bei gegebener Breite eines Dbertragungsbandes die dort unterzubringende Kanalzahl entsprechend erhöhen läßt. In manchen Fällen, z.B. beim beweglichen Landfunk, liegt hierin eine vorteilhafte Möglichkeit für eine Kapazitätsausweitung.
Die Einsparung von Bandbreite ohne wesentliche Minderung der Wiedergabequalität wird allgemein durch jeweils gegensinnig wirkende Maßnahmen auf der Sende-und auf der Empfangsseite herbeigeführt. Dazu wird senderseitig die Redundanz reduziert und z.B. mit Vocoderverfahren, mit adaptiver Differenz-Puls-Code-Modulation (ADPCM), mit Subbandcodierung oder auch mit Modulationsverfahren im analogen Bereich gearbeitet. Voraussetzung hierbei ist der Zugriff auf den Sender, so daß derartige Verfahren - falls nicht ein ausgewähltes Verfahren in sehr großem Umfang Einführung findet - auf regional und/oder anwendungstechnisch eng begrenzte Gebiete beschränkt bleiben müssen.
Bei der der Erfindung zugrundeliegenden Aufgabenstellung wird davon ausgegangen, daß ein solcher Zugriff zur Sendeseite nicht besteht, die Verbesserung der Wiedergabequalität bandbegrenzt verfügbarer Sprache also allein empfangsseitig erfolgen muß. Das bedeutet, die Grenzen des Bandes beim empfangenen Signal können in weiten Bereichenvariieren, die für die Verbesserung der Wiedergabequalität zu treffenden Maßnahmen also in mehr oder weniger großem Umfang erforderlich sein, um insgesamt einen möglichst geringen Verlust an Silbenverständlichkeit und auch an Natürlichkeit zu erzielen.
Ein Teil dieser Problemstellungen ist bekannt (RLE Progress Report Nr. 119 (MIT, 1977),Seiten 100, 101). Der dort angegebene Weg sieht vor, tiefpaßgefilterte Sprache zu verbessern, indem fehlende spektrale Information allein empfangsseitig wieder eingesetzt wird. Wenn nur der niedrigfrequente Teil des Signals verfügbar ist, soll es danach möglich sein, einen großen Teil des fehlenden höherfrequenten Anteils aus der verfügbaren spektralen Energie zu bestimmen und damit die natürliche Sprache zu rekonstruieren. Ein wesentlicher Vorbehalt besteht darin, daß dieses bekannte Verfahren insbesondere für stimmhafte Sprache befriedigend arbeitet, bei der diskrete Frequenzen und Amplituden von Formanten gut ausgebildet sind. Ein den Frequenzgang formendes Filter soll dazu mit Harmonischen der aus dem verfügbaren Signal gewonnenen Grundfrequenz angeregt werden. Das erhaltene Signal mag zwar im Langzeitspektrum einem nicht bandbegrenzten Signal entsprechen; da jedoch der Vokal trakt für jeden Menschen individuell ist und sich zudem bei jedem Laut ändert, sind überzeugende Ergebnisse dann nicht zu erwarten, wenn höhere zu ergänzende Formanten laut- und sprecherunabhängig zuzufügen sind.
Das Verfahren gemäß der Erfindung ist durch folgende Verfahrensabschnitte gekennzeichnet: - aus Mustern des verfügbaren Sprachsignals werden Parameter X gewonnen; - von diesen Parametern X werden Abständeqkzu ParametennAk bestimmt - die Parameter Ak liegen von jeweils einem eine Aquivalenzklasse von Lauten bandbegrenzter Sprache charakterisierenden Prototyp abgespeichert vor; - den Parametern Ak entsprechende Parameter Bk werden abgerufen - auch die Parameter Bk liegen von jeweils einem eine Squivalenzklasse von Lauten charakterisierenden Prototyp abgespeichert vor, jedoch von Sprache mit dem für die vorgesehene Wiedergabe erforderlichen Spektrum; - unter Berücksichtigung der Abstände k zwischen den Parametern X und den Paramtern Ak werden die Parameter Bk zur Bildung der im verfügbaren Sprachsignal fehlenden spektralen Information herangezogen.
Diese Verfahrensabschnitte können auch als ein Erkennungs- und ein Syntheseabschnitt angesehen werden, bei denen auf abgespeicherte Information zurückgegriffen wird. Die Speichertechniken, die in engem Zusammenhang mit der Art des Syntheseverfahrens stehen, insbesondere jedoch die Informationsinhalte sind flach folgenden Gesichtspunkte zu bestimmen. = Die Verwendung abgespeichert vorliegender Information, passend zum verfügbaren Sprachsignal, kommt mit einer Filterung gemäß der Langzeitstatistik des Sprachsignals vieler Sprecher nicht aus. Deshalb wird - ähnlich wie bei der Spracherkennung, obwohl bei der Erfindung kein Spracherkennungsproblem im eigentlichen Sinne vorliegt - für die charakteristischen Laute und Lautgruppen der Sprache eine Klassifizierung vorgenommen. Prototypen solcher Aquivalenzklassen lassen sich als Vektoren genügend genau festlegen, also speichern. An sich wären technisch unrealistisch viele Squivalenzklassen vorzusehen, um bei der Erkennungsphase die jeweils zutreffenden abgespeicherten Parameter bestimmen zu können.
Das ist jedoch nicht erforderlich, d.h. die Zahl der Aquivalenzklassen kann auf weniger als 20, evtl. weniger als 10, beschränkt bleiben, weil die für das erfindungsgemäße Verfahren kennzeichnende Abstandsbestimmung der Parameter des Sprachmusters von den abgespeicherten Parametern von Prototypen einer Zerlegung in Parameter-Komponenten gleichkommt bzw. als Erkennung resultierender abgespeicherter Parameter anzusehen ist. Sodann ergibt sich die Synthese vom Grundsatz her aus einer Assoziation aufgrund der Erkennung, bei der die verwendeten abgespeicherten Parameter durch eine fesX Zuordnung zu den erkannten vorgegeben werden und die Qualität der wiederzugebenden Sprache verbessern, weil von ihnen Laute bzw. Lautgruppen charakterisiert werden, die das für die vorgesehene Wiedergabe erforderliche Spektrum besitzen.
Sowohl für den Abschnitt der Erkennung als auch den der Synthese ist eine einfache Minimum-Maximum-Entscheidung denkbar. Der technische Aufwand für eine entsprechende Schaltung ist verhältnismäßig gering, erfordert jedoch - wie uben bereits erwähnt - bei hohen Qualitätsanforderungen an die wiederzugebende Sprache eine große Zahl von Squivalenzklassen und damit große Speicher. Bevorzugte Ausführungsformen der Erfindung beruhen dagegen auf einem Mischen der durch die Erkennung bestimmten Anteile, aus denen sich die zur Qualitätsverbesserung verwendete Zusatzinformation zusammensetzt. Diese Zusatzinformation kann sowohl bezüglich der Quantität ihrer Anteile als auch im Verhältnis zum Anteil des in die Wiedergabe einbezogenen ursprünglich verfügbaren Sprachsignals bestimmt werden. Ein Fehlersignal, das bei der Gewinnung der Parameter aus dem Muster des verfügbaren Sprachsignals gebildet wird, ermöglicht eine einfache und wirkungsvolle Synthese der Zusatzinformation.
Von ebenfalls wesentlicher Bedeutung für Ausführungsformen der Erfindung ist die Möglichkeit, den Anteil von Zusatzinformation in der wiederzugebenden Sprache in Abhängigkeit von der Qualität des verfügbaren Sprachsignals bestimmen zu können. Sofern nämlich im verfügbaren Sprachsignal bereits spektrale Anteile enthalten sind, die durch abgespeicherte Parameter von Squivalenzklassen von Lauten bandbegrenzter Sprache nicht oder nicht genügend Berücksichtigung finden würden, kann abhängig vom Verhältnis der Energien des verfügbaren Sprachsignals die wiederzugebende Sprache zusammengesetzt werden.
Die Mischungsverhältnisse, mit denen die abgespeicherten Prototypen zur Bildung der Zusatzinformation herangezogen werden, richten sich nicht nur schlechthin nach den Abständen zwischen den in der Erkennungsphase miteinander verglichenen Parametern, es ist vorteilhaft, wenn mit wachsenden Abständen die zur Bildung der Zusatzinformation heranzuziehenden Anteile überproportional abnehmen. Diese Maßnahme wirkt sich qualitativ in Richtung einer Minimum-Maximum-Entscheidung aus, ohne jedoch wirklich eine solche Entscheidung zu sein.
Insbesondere im Hinblick auf neue Technologien elektronischer Bauelemente (VLSI = Very Large Scale Integration) sind die wirtschaftlich-technischen Randbedingungen für Ausführungsformen der Erfindung günstig. Das Verfahren zur Verbesserung der Wiedergabequalität bandbegrenzt verfügbarer Sprache kann dann nicht nur z.B. bei Rundfunksendern o.ä. erfolgen, bei denen über Telefon empfangene Sprache aufgenommen, in ihrer Qualität verbessert und sodann ausgesendet wird, es kann vor allem in Echtzeit und am Ort des Teilnehmers erfolgen.
Im Zusammenhang mit dem in der Zeichnung dargestellten Blockschaltbild wird schematisch der Ablauf des Verfahrens gemäß der Erfindung näher erläutert: Das verfügbare bandbegrenzte Sprachsignal ist mit s1(t) bezeichnet. Es wird außer zu einem Addierer (10) zu einem Filter (1) geführt. Dort erfolgt eine Parameterabschätzung, wobei es sich bei diesen - und den noch folgenden - Parametern jeweils um Energien in spektralen Kanälen oder um Prädiktorkoeffizienten handelt. Diese Parameter X, die aus Mustern des verfügbaren bandbegrenzten Signals s1(t) gewonnen wurden, werden in einem Abstandsbildner (2) mit Paramtern A kverglichen, die aus einem Speicher (3a) über einen Datenbus (4) zugeführt werden. Für die einzelnen Abstände der Parameter X zu den Prototypen von Aquivalenzklassen ergeben sich damit Werte fflk9 von denen abhängig ein betreffender Multiplizierer (5) mit den aus einem Speicher (3b) abgerufenen Parametern Bk, die bezüglich der Squivalenzklassen, nicht jedoch hinsichtlich ihrer Vektorkomponenten übereinstimmen, die einzelnen Anteile für die an einem Addierer (6) passend gebildete Zusatzinformation bestimmt wird. In einem Synthetisator (7) wird aus dieser Zusatzinformation ein Analogsignal gebildet, das entweder (- nicht dargestellt -) direkt oder über einen Regel verstärker (9) zum oben bereits erwähnten Addierer (10) gelangt, an dessen Ausgang das in der Qualität verbesserte wiederzugebende Signal s2(t) vorliegt.
Ist ein Regelverstärker (9) vorgesehen, wird in einem Mittelwertbestimmer (8) vom Signal s1(t) z.B. das Verhältnis der Energien im "Restband" zur Gesamtenergie bestimmt und der Regelverstärker (9) entsprechend eingestellt. Unter "Restband" werden die spektralen Anteile verstanden, die nach der Dimensionierung der Squivalenzklassen wiederzugebender und bandbegrenzter Sprache im ungünstigsten Fall zuzufügen sind.
Im Blockschaltbild ist außerdem eine Verbindung zwischen dem Fitler (1) und dem Synthetisator (7) eingezeichnet. Diese Verbindung dient zur Obertragung eines Fehlersignals, das zur Erzeugung der Zusatzinformation benötigt wird.
Begnügt man sich mit Zusatzinformation, die nicht völlig sprecherunabhängig ist, kann noch eine zusätzliche grobe Klassifizierung - männliche/weibliche Stimme - vorgesehen werden.
Handelt es sich bei den Parametern X, Ak und Bk um Pakorkoeffizienten, werden diese mit dem Eintreffen des Signals s1(t) z.B. blockweise berechnet. Das kann sukzessiv aus den Korrelationskoeffizienten der Fehl erfol gen bei Vorwärts- und Rückwärtsprädiktion mit einem Prädiktionsfehlerfilter in Kaskadenform durchgeführt werden. Sodann werden die Abstände als Shnlichkeitsmaß des empfangenen Signals zu den vorhandenen Squivalenzklassen ermittelt. Aus den wird dann gemäß ein Parkorkoeffizientensatz für das Restbandsignal erstellt, der dem Synthetisator zugeführt wird. Im Falle der Benützung eines Prädiktionsverfahrens empfiehlt sich die Verwendung der Parkorkoeffizienten, weil sich hierbei die Stabilität der Synthese leicht gewährleisten läßt. Der Synthetisator wird ebenfalls als Filter in Kaskadenform aufgebaut. Die Anregung erfolgt mit dem im Prädiktionsfehlerfilter gewonnenen Fehlersignal. Dieses Beispiel zeigt eine Verwertung der bei der Erkennung gewonnenen Abstandsmaße zur Berechnung der Parameter für die Synthese von Zusatzinformation.
Bei einer Parametergewinnung im Frequenzbereich wird das Sprachsignal durch Bandpässe in z.B. 10 Unterbänder aufgeteilt und die Energie in diesen Kanälen wird nach Gleichrichten und weiterer Tiefpaßtfilterung z.B. mit 25 Hz als Parameter betrachtet. Als Fehlersignal ist (wie beim Voice-Excited-Vocoder) das Basisband z.B. bis ca. 1000 Hz verwendbar. Zur Synthese werden Bandpaßfilter mit dem Restbandsignal angeregt und nach Spitzenbegrenzung zur Vermeidung von Amplitudenschwankungen mit den Vocoder-Kanal-Signalen moduliert. Der Unterschied zum reinen Voice-Excited-Vocoder besteht darin, daß die Vocoder-Kanal-Signale nicht übertragen werden, sondern als Parameter im folgenden Mustererkennungsprozeß dienen. Dabei werden wiederum Abstände cel ... °*k zu gespeicherten Parametern für Lautprototypen in bandbegrenztem Signal berechnet und daraus und aus gespeicherten Prototypen des breitbandigen oder des Restbandsignals neue Vocoder-Kanal-Signale entwickelt.

Claims

HEINRICH-HERTZ-INSTITUT FUR NACHRICHTENTECHNIK BERLIN GMBH Patentansprüche 1.) Verfahren zur Verbesserung der Wiedergabequalität bandbegrenzt verfügbarer Sprache unter Verwendung von Zusatzinformation, die mit Hilfe des verfügbaren Signals bestimmt wird, gekennzeichnet durch folgende Verfahrensabschnitte: - aus Mustern des verfügbaren Sprachsignals werden Parameter X gewonnen; - von diesen Parametern X werden Abstände wk zu Parametern Ak bestimmt - die Parameter Ak liegen von jeweils einem eine .4quivalenzklasse von Lauten bandbegrenzter Sprache charakterisierenden Prototyp abgespeichert vor; - den Parametern Ak entsprechende Parameter Bk werden abgerufen - auch die Parameter Bk liegen von jeweils einem eine Aquivalenzklasse von Lauten charakterisierenden Prototyp abgespeichert vor, jedoch von Sprache mit dem für die vorgesehene Wiedergabe erforderlichen Spektrum; - unter Berücksichtigung der Abstände zk zwischen den Parametern X und den Parametern Ak werden die Parameter Bk zur Bildung der im verfügbaren Sprachsignal fehlenden spektralen Information herangezogen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei der Gewinnung der Parameter X ein zusätzliches Fehlersignal gebildet und dieses Fehlersignal bei der Bildung der im verfügbaren Sprachsignal fehlenden spektralen Information mitherangezogen wird.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß abhängig von dem Verhältnis der Energien in Spektralbereichen des verfügbaren Sprachsignals die gebildete spektrale Information und das verfügbare Sprachsignal für die wiederzugebende Sprache zusammengefaßt werden.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Parameter X, Ak und Bk der Sprachsignale Energien in spektralen Kanälen sind.
5. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die Parameter X, Ak und Bk der Sprachsignale Prädiktor- oder Reflexionskoeffizienten sind.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die abgerufenen Parameter Bk mit zunehmenden Abständen « für die Bildung der im verfügbaren Sprachsignal fehlenden spektralen Information mit überproportional abnehmenden Anteilen herangezogen werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Verbesserung der Wiedergabequalität der bandbegrenzt verfügbaren Sprache in Echtzeit erfolgt.