-
Die vorliegende Erfindung betrifft
ein Verfahren zur Erweiterung der Brandbreite eines schmalbandig
gefilterten Sprachsignals, insbesondere eines von einem Telekommunikationsgerät gesendeten Sprachsignals
gemäß dem Oberbegriff
des Patentanspruches 1.
-
Sprachcodierverfahren sind durch
ihre unterschiedlichen Bandbreiten charakterisiert. So gibt es beispielsweise
Schmalband-Codierer (engl.: narrow-band coder), welche Sprachsignale,
die im Frequenzbereich bis 4000 Hz liegen, in codierte Sprachsignale
umsetzen und Breitband-Codierer (engt.: wideband coder), welche
Sprachsignale, die typischerweise zwischen 50 und 7000 Hz liegen,
in codierte Sprachsignale umsetzen. Die Sprachsignale, die dem Schmalband-Codierer
zugeführt
werden, werden dabei in der Regel mit einer geringeren Abtastrate
abgetastet als die Sprachsignale, die dem Breitband-Codierer zugeführt werden.
Dafür ist
die Nettobitrate des Schmalband-Codierers in der Regel niedriger
als die Nettobitrate des Breitband-Codierers.
-
Werden die codierten Sprachsignale
verschiedener Bandbreite innerhalb des gleichen Kanalmodus übertragen,
so ermöglicht
dies die Anwendung verschiedener Raten bei der Kanalcodierung, was
zu unterschiedlichem Fehlerschutz führt. So ist es bei Anwendung
des gleichen Kanalmodus möglich,
bei schlechten Übertragungsbedingungen über den Übertragungskanal
den schmalbandigen codierten Sprachsignalen im Zuge der Kanalcodierung mehr
redundante Fehlerschutzbits hinzuzufügen als den breitbandigen codierten
Sprachsignalen. Daher bietet sich bei variierenden Übertragungsbedingungen
die Übertragung
von Sprachsignalen über
einen Übertragungskanal
an, bei der ab hängig
von den Übertragungsbedingungen
die Sprachcodierung zwischen einer breitbandigen und einer schmalbandigen Sprachcodierung
umgeschaltet ["Wide-Band" to Narrow-Band"-Switching ("WB/NB"-Switching)] und
die Kanalcodierung, insbesondere die Rate der Kanalcodierung, daran
angepaßt
wird. Empfangsseitig erfolgt eine an die Codierung angepaßte Decodierung
der codierten Sprachsignale.
-
Bei dem neuen Telekommunikationssystem zur
drahtlosen Telekommunikation UMTS (Universal Mobile Telecommunications
System") ist beispielsweise
eine Breitband-Codierung standardisiert worden, um mit den zukünftigen
UMTS-Endgeräten
eine sehr gute Sprachqualität
zu gewährleisten.
-
Nachteilig bei einem derartigen Ansatz
ist, dass ein empfangender Teilnehmer insbesondere das plötzliche
Umschalten von Breitband-Codierung auf Schmalband-Codierung und
den damit verbundenen Qualitätsverlust
als äußerst störend empfindet.
-
Dieses sogenannte "WB/NB-Switching"-Problem kann auch
bei der Handover-Situation in Telekommunikationssystemen zur drahtlosen
Telekommunikation mit mehreren Basisstationen und Mobilteilen, wobei
die Basisstationen unterschiedlichen Telekommunikationsteilsystemen
zugeordnet sind und die Mobilteilen innerhalb des Systems für ein teilsystemübergreifendes
Roaming als Dual-Mode-Mobilteilen ausgebildet sind, auftreten: Ausgangspunkt der
Betrachtungen ist eine bestehende breitbandige Gesprächsverbindung
zwischen einer Basisstation und einem Mobilteil. Wenn nun für das Mobilteil
bzw. den Gesprächsteilnehmer
eine Übergabe
(Handover) an eine andere Basisstation durchgeführt wird, kann der Fall eintreten,
dass die übernehmende
Basisstation zu einem Teilsystem gehört, welches den breitbandigen
Sprachservice nicht unterstützt.
Aus diesem Grunde wird dann auf die schmalbandige Codierung und
Decodierung zurückgeschaltet.
-
Auch in diesem Szenario wird der
empfangende Teilnehmer insbesondere das plötzliche Umschalten von Breitband-Codierung
auf Schmalband-Codierung und den damit verbundenen Qualitätsverlust
als äußerst störend empfinden.
-
Basisstationen, die wie oben beschrieben keine
breitbandige Gesprächsverbindung
unterstützen,
sowie andere Telekommunikationsendgeräte, welche lediglich Schmalband-Codierung
oder analoge Sprachsignalübertragung
im Bereich von typisch 300 bis 3400 Hz ermöglichen, sind noch weit verbreitet,
da die bisher bekannten Telekommunikationssysteme Sprachsignale
bisher im Allgemeinen mit einer Bandbreite von etwa 3,1 kHz zwischen
3400 Hz und 300 Hz übertragen,
da die Verständlichkeit
der Kommunikation trotz der damit gegebenen Bandbegrenzung der Sprache
ausreichend ist. Zur Übertragung der
Sprachsignale verwenden die bisher bekannten Telekommunikationssysteme
dabei verschiedene digitale und analoge Codierverfahren.
-
Um eine Qualitätsverbesserung derart zu erzielen,
dass eine Sprachqualität
in Telekommunikationssystemen mit der Sprachqualität bei Radio-
und Fernsehsignalen vergleichbar ist, wird es erforderlich, Frequenzanteile
der Sprache, die über
die Bandbreite von 300 Hz bis 3400 Hz hinausgehen, empfängerseitig
abzuschätzen
und zu synthetisieren.
-
Im Stand der Technik sind verschiedene
Verfahren bekannt, die eine Erweiterung der Bandbreite eines schmalbandigen
Sprachsignals ermöglichen.
-
In vielen Verfahren der digitalen
Sprachcodierung wird das digitale Sprachsignal zur Weiterverarbeitung
und Übertragung
in Koeffizienten, welche die spektrale Grobstruktur eines Signalabschnitts
beschreiben, und ein sogenanntes Restsignal (auch Prädiktionsfehlersignal
genannt) aufgespalten, welches die spektrale Feinstruktur bildet. Dieses
Restsignal enthält
nicht mehr die spektrale Einhüllende
des Sprachsignals, wel the durch die Koeffizienten, die die spektrale
Grobstruktur beschreiben, repräsentiert
wird.
-
Auf der Decoderseite werden diese
beiden – meist
quantisiert übertragenen – Teile,
welche die spektrale Grob- und Feinstruktur beschrieben, wieder
zusammengefügt
und bilden das decodierte Sprachsignal.
-
Eine typische Repräsentation
für die
spektrale Grobstruktur bilden die LPC-Koeffizienten, welche ein
rekursives Filter (sogenanntes Synthesefilter) beschreiben, dessen übertragungsfunktion
der spektralen Grobstruktur entspricht. Diese Koeffizienten werden
in ihrer eigentlichen oder einer transformierten Form in vielen
Sprachcodern verwendet. Hierbei wird auf Empfängerseite das empfangene Restsignal
als Eingangssignal für
das Synthesefilter verwendet, so dass am Ausgang des Filters das
rekonstruierte Sprachsignal verfügbar
ist. Die LPC-Koeffizienten sind folglich eine Repräsentation
der spektralen Grobstruktur eines Sprachsignalsabschnitts und können unter
Verwendung eines passenden Anregungssignals zur Synthese von Sprachsignalen
verwendet werden.
-
Aus der Druckschrift – Carl,
H.; Heute, U.: „Bandwidth
Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh, 1994,
pp. 1178-1181 – ist
ein Verfahren zur Erweiterung der Bandbreite im oberen Frequenzbereich
bekannt, das zur Auswertung der statistischen Eigenschaften eines
schmalbandigen Sprachsignals auf besondere Sprachdatenbücher, den
sogenannten Codebüchern
(Codebooks) basiert, die eine Relation zwischen den LPC-Koeffizienten
(Linear Predictive Coding, lineare Prädiktionscodierung) eines schmalbandigen
Sprachsignalabschnitts und denen eines breitbandigen Sprachsignalabschnitts
bilden. Das hat zur Folge, dass die Codebücher gleichzeitig mit schmalbandiger
und breitbandiger Sprache trainiert und im Kommunikationsendgerät abgespeichert
werden müssen.
-
Außerdem wird aus dem schmalbandigen Restsignal,
das durch die lineare Prädiktionsanalyse des
schmalbandigen Sprachsignals erzeugt wurde, ein breitbandiges Anregungssignal
erzeugt, welches Frequenzkomponenten oberhalb der Bandbreite des schmalbandigen
Sprachsignals enthält.
-
Versuche haben gezeigt, dass die
aus den Codebüchern
mittels LPC-Koeffizienten erhaltenen spektralen Grobstrukturen für das abzuschätzende Frequenzband
häufig
fehlerhaft sind, also z.B. bei stimmhaften Lauten zu viel Energie
für das
obere Frequenzband abschätzen,
was zu einer schlechten Qualität
der Bandbreitenerweiterung führt.
-
Aus der nachveröffentlichten Internationalen Anmeldung
PCT/DE01/01826 ist ein alternatives Verfahren zur Erweiterung der
Bandbreite eines schmalbandigen Sprachsignals bekannt. Bei diesem
Verfahren wird auf Basis des schmalbandigen Sprachsignals detektiert,
ob das schmalbandige Sprachsignal einem stimmhaften Laut, einem
stimmlosen Laut oder einer Kombination stimmhaft/stimmlos entspricht,
und aufgrund der detektierten Lautart wird eine Auswahl getroffen,
wie das schmalbandige Sprachsignal spektral erweitert wird. Hierbei
wird auf Basis der getroffenen stimmhaft/stimmlos-Unterscheidung mindestens
ein Parameter berechnet, der die Form der spektralen Struktur der
oberen Erweiterung bestimmt, so dass schließlich eine Verknüpfung auf
Basis des schmalbandigen Sprachsignals und der gewählten Ergänzung derart
erfolgt, dass ein im oberen Frequenzbereich erweitertes Sprachsignal erzeugt
wird oder auf Basis der Ergänzung
ein breitbandiges Sprachsignal in voller Bandbreite erzeugt wird.
-
Nach dem Detektieren eines stimmhaften Lautes
wird eine Ergänzung
gewählt,
die den typischen Verlauf der spektralen Struktur eines stimmhaften
Lautes – mit
einer vernachlässigbar
geringen Signalenergie in Frequenzanteilen oberhalb einer Frequenzfrequenz – aufweist.
-
Diese Ergänzung kann stets die gleiche
sein, unabhängig
davon um welchen stimmhaften Laut – z.B. „a", „e" oder „i" – es sich handelt, so dass
eine Bestimmung des Lautes sowie die Anwendung eines Codebuchs für stimmhafte
Laute entfällt.
-
Nach dem Detektieren eines stimmlosen Lautes
wird eine Ergänzung
gewählt,
die den typischen Verlauf der spektralen Grobstruktur eines stimmlosen
Lautes aufweist, d.h. ein wesentlicher Teil der Signalenergie befindet
sich oberhalb der oberen Grenzfrequenz des schmalbandigen Sprachsignals.
Auf diese Weise kann einfach ohne genaue Kenntnis des Lautes eine
Erweiterung des schmalbandigen Sprachsignals durchgeführt werden.
-
Zwei alternative Ausführungsbeispiele,
die auf dem oben beschriebenen Verfahren basieren, werden in der
genannten PCT-Anmeldung
auf den Seiten 7-8, Seiten 15-25 iVm den 1-2 beschrieben.
-
Die der Erfindung zugrundeliegende
Aufgabe besteht darin, die Bandbreite eines schmalbandig gefilterten
Sprachsignals auf einfache und kostengünstige Weise ohne Qualitätseinbußen zu erweitern und
dabei die Nachteile aus dem vorstehend gewürdigten Stand der Technik zu
vermeiden.
-
Diese Aufgabe wird ausgehend von
dem im Oberbegriff des Anspruchs 1 definierten Verfahren durch die
im Kennzeichen des Anspruchs 1 angegebenen Merkmale gelöst.
-
Die der Erfindung zugrundeliegende
Idee besteht in der Kombination der aus dem vorstehend gewürdigten
Stand der Technik bekannten Verfahren. Diese Kombination behebt
die Nachteile beider Verfahren und ermöglicht das Erreichen eines
optimalen Qualität
des erweiterten Signals.
-
So wird das schmalbandig gefilterte
Sprachsignal in bezug auf Frequenzanteile oberhalb der Grenzfrequenz
derart geschätzt,
dass zunächst
das schmalbandige Sprachsignal in Sprachsignalzeitabschnitte unterteilt
wird, jeweils eine spektrale Struktur aus den schmalbandigen Sprachsignalzeitabschnitten
berechnet wird, jeder schmalbandige Sprachsignalzeitabschnitt als
ein stimmhafter und/oder stimmloser Laut klassifiziert wird, erste
eine spektrale Struktur aufweisende Ergänzungen zur Erweiterung des
schmalbandigen Sprachsignals in bezug auf die vorgenommene lautartbezogene
Klassifizierung erzeugt werden, wobei zumindest für den Fall
des stimmhaften Lautes die Ergänzung
unabhängig
von dem jeweiligen Laut ist, zweite eine spektrale Struktur aufweisende
Ergänzungen
zur Erweiterung des schmalbandigen Sprachsignals basierend auf allgemein
bekannten Methoden zur Auswertung der statistischen Eigenschaften
des schmalbandigen Sprachsignals erzeugt werden, wobei die Ergänzung abhängig von
dem jeweiligen Laut ist, die beiden Ergänzungen, z.B durch Multiplikation
gemäß Anspruch
8, verknüpft
werden und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise
derart verknüpft
werden, dass jeweils eine erweiterte spektrale Struktur entsteht
sowie anschließend
auf der Basis der erweiterten spektralen Struktur jeweils ein breitbandiger
erweiterter Sprachsignalzeitabschnitt erzeugt wird, bevor abschließend aus
den einzelnen breitbandigen erweiterten Sprachsignalzeitabschnitten
ein breitbandiges erweitertes Sprachsignal erzeugt wird.
-
Der Hauptvorteil des erfindungsgemäßen Verfahrens
liegt darin, dass mögliche
Fehler in der Schätzung
der erweiterten Spektralstruktur der aus der Druckschrift – Carl,
H.; Heute, U.: „Bandwidth
Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh,
1994, pp. 1178-1181 bekannten Methode durch die aus der aus der
nachveröffentlichten
Internationalen Anmeldung PCT/DE01/01826 bekannten Methode korrigiert
werden. Falls mit der erstgenannten Methode ei ne Spektralstruktur
für einen
stimmhaften Laut geschätzt wird,
die zu viel Energie im oberen Frequenzbereich hat, wird die durch
Kombination der beiden Methoden verknüpfte Spektralstruktur mit der
gemäß der PCT-Anmeldung
geschätzten
Spektralstruktur berichtigt.
-
Da es mit der Kombination beider
Methoden möglich
ist, die Fehler bei der Schätzung
der Spektralstruktur von stimmhaften Lauten zu korrigieren, brauchen
bei der erstgenannten Methode nur stimmlose Laute trainiert zu werden.
Dies erlaubt eine verbesserte Schätzung für stimmlose Laute und daher eine
verbesserte Qualität
des erweiterten Sprachsignals.
-
Die Weiterbildung der Erfindung gemäß Anspruch
zeichnet sich dadurch aus, dass durch eine Fouriertransformation
die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes
berechnet und durch eine inverse Fouriertransformation aus der erweiterten
spektralen Struktur der breitbandige erweiterte Sprachsignalzeitabschnitt
erzeugt werden kann, ohne dass dabei das Sprachsignal in eine Grobstruktur
und Feinstruktur aufgespaltet werden muss.
-
Bei der Weiterbildung gemäß Anspruch
4 wird die für
die als stimmhafte Laute klassifizierten schmalbandigen Sprachsignalzeitabschnitte
jeweils erzeugte erste Ergänzung
derart erzeugt, dass die Energie dieser Ergänzung in Bezug auf die Gesamtenergie
des schmalbandigen Sprachsignalabschnittes vernachlässigbar
ist.
-
Diese Ergänzung kann stets die gleiche
sein, unabhängig
davon, um welchen stimmhaften Laut – z.B.: "a", "e" oder "i" – es sich
handelt, so dass eine Bestimmung des Lautes sowie die Anwendung
eines Codebuchs zu diesem Zweck für stimmhafte Laute entfällt.
-
Durch die Weiterbildung gemäß Anspruch
4 ist eine Qualitätsverbesserung
des breitbandigen erweiterten Sprachsignals ge währleistet, da durch diese Art
der Weiterbildung berücksichtigt
wird, dass bei stimmlosen Lauten im oberen Frequenzbereich ein wesentlicher
Teil der Signalenergie fortgesetzt wird, so dass eine Vernachlässigung
des genauen Verlaufs dieses Teils verhindert wird, die dadurch erfolgt, daß stets
die gleiche Ergänzung
vorgenommen wird und somit das synthetisierte Sprachsignals verfälscht würde.
-
Bei der Weiterbildung gemäß Anspruch
5 wird die für
die als stimmlose Laute klassifizierten schmalbandigen Sprachsignalabschnitte
jeweils erzeugte erste Ergänzung
derart erzeugt, daß die
Energie dieser Ergänzung
in bezug auf die Gesamtenergie des schmalbandigen Sprachsignalabschnittes nicht
vernachlässigbar
ist. Auf diese Weise kann einfach ohne genaue Kenntnis des stimmlosen
Lautes ein Erweiterung des schmalbandig gefilterten Sprachsignals
durchgeführt
werden.
-
Um die Qualität des breitbandigen erweiterten
Sprachsignals gemäß der Ansprüche 1 bis
5 zu verbessern, ist es von Vorteil, wenn gemäß Anspruch 7 der aus der erweiterten
spektralen Struktur jeweils erzeugte breitbandige erweiterte Sprachsignalzeitabschnitt
hochpassgefiltert wird, der hochpassgefilterte Sprachsignalzeitabschnitt
mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt
verknüpft wird
und aus den einzelnen verknüpften
Sprachsignalzeitabschnitten das breitbandige erweiterte Sprachsignal
erzeugt wird.
-
Weitere Einzelheiten, Merkmale und
Vorteile der Erfindung werden nachfolgend anhand der in den Figuren
dargestellten Ausführungsbeispiele
näher erläutert. Dabei
zeigen:
-
1 als
ein erstes Ausführungsbeispiel
ein Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem
Telekommunikationsgerät
gesendeten Sprachsignals in Richtung der oberen Frequenzen oberhalb
ei ner Grenzfrequenz des schmalbandig gefilterten Sprachsignals im
Frequenzbereich,
-
2 als
ein zweites Ausführungsbeispiel ein
Ablaufdiagramm zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten
Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz
des schmalbandig gefilterten Sprachsignals im Frequenzbereich,
-
3a das
Spektrum eines stimmhaften Lautes (Vokals),
-
3b das
Spektrum eines stimmlosen Lautes (Frikativs),
-
4a eine
mögliche
Erweiterung des Spektrums eines Vokals,
-
4b eine
mögliche
Erweiterung des Spektrums eines Frikativs,
-
1 zeigt
anhand eines Ablaufdiagramms einen ersten Prozess (eine erste Methode)
zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten
Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz – z.B. 4
kHz – des
schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß einem Ausgangszustand
AZ des dargestellten Prozesses wird von dem Telekommunikationsgerät das Sprachsignal
gesendet. Es liegt somit ein schmalbandig gefiltertes Sprachsignal
vor.
-
In einem ersten Prozessschritt P0.1
wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige
Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden
Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.1 die Spektralstruktur
z.B. durch eine „Fourier-Transformation" berechnet und in
einem dritten Prozessschritt P2.1 eine Klassi fizierung derart durchgeführt, dass der
jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut – wie beispielsweise "a", "e" oder "i", deren Aussprache ein in 3a dargestelltes Spektrum
aufweist – und/oder
als ein stimmloser Laut - wie beispielsweise "s", "sch" oder "f", deren Aussprache ein in 3b dargestelltes Spektrum
aufweist – eingestuft
bzw. definiert wird.
-
Diese Unterscheidung wird beispielsweise anhand
der Position der ersten Formanten oder anhand des Verhältnisses
von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz
- beispielsweise 2 kHz – geschehen.
Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach
durchzuführen,
da wie ein Vergleich des in 3a dargestellten
Spektrum eines stimmhaften Lautes mit dem in 3b dargestellten Spektrum eines stimmlosen
Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche
Spektren haben.
-
Alternativ dazu wird eine Kurzzeitsignalenergie
eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes
sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender
zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte
ermittelt und anschließend
das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie
zu Langzeitsignalenergie mit einem Schwellwert realisiert.
-
Alternativ dazu kann die Unterscheidung durch
Vergleich der Kurzzeitsignalenergie – d.h. der Signalenergie in
einem kurzen Zeitausschnitt des Schmalband-Sprachsignals – und der
Langzeitsignalenergie – d.h.
der Signalenergie über
einen längeren Zeitausschnitt
betrachtet – und
anschließendem
Vergleich des Verhältnis
Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.
-
Im Anschluss daran wird in einem
vierten Prozessschritt P3.1 im Rahmen einer ersten Spektralstrukturerweiterung
in bezug auf die im dritten Prozessschritt P2.1 vorgenommene lautartbezogene Klassifizierung
die im zweiten Prozessschritt P1.1 berechnete Spektralstruktur durch
eine „Inverse
Fourier-Transformation" erweitert. Dies
geschieht derart, dass zeitabschnittsweise in Bezug auf die im dritten Prozessschritt
P2.1 vorgenommene lautartbezogene Klassifizierung erste Ergänzungen
EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale Struktur
aufweisen, erzeugt werden, wobei beispielsweise (insbesondere) für den Fall
des stimmhaften Lautes die erste Ergänzung EG1 unabhängig von dem
jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes – stimmhaft/stimmlos
(stimmhaft und/oder stimmlos) – wird
auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt), die
spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes
und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu
einer erweiterten spektralen Struktur verknüpft werden und aus dieser erweiterten
spektralen Struktur jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt erzeugt
wird.
-
Parallel dazu werden in einem fünften Prozessschritt
P4.1 im Rahmen einer zweiten Spektralstrukturerweiterung z.B. gemäß der Druckschrift – Carl,
H.; Heute, U.: „Bandwidth
Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994, Edinburgh,
1994, pp. 1178-1181 – zur
Auswertung der statistischen Eigenschaften eines schmalbandigen
Sprachsignals basierend auf besondere Sprachdatenbücher, den
sogenannten Codebüchern (Codebooks)
zweite eine spektrale Struktur aufweisende Ergänzungen EG2 erzeugt, wobei
die Ergänzung
abhängig
von dem jeweiligen Laut ist.
-
In einem sich daran anschließenden sechsten
Prozessschritt P5.1 wird die erste Ergänzung EG1 mit der zweiten Ergänzung EG2
verknüpft,
bevor in einem siebten Prozessschritt P6.1 eine erweiterte Spektralstruktur
erzeugt und in einem achten Prozessschritt P7.1 ein erweiterter
Sprachsignalzeitabschnitt erzeugt wird. Diese Verknüpfung geschieht vorzugsweise
durch eine Multiplikation.
-
Daran anschließend gibt es zwei Möglichkeiten,
das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal
zu erhalten.
-
Um eine gewisse Qualitätsverbesserung
des breitbandigen erweiterten Sprachsignals zu erzielen, ist es
möglich,
den jeweiligen im vierten Prozessschritt P3.1 erzeugten breitbandigen
erweiterten Sprachsignalzeitabschnitt in einem neunten Prozessschritt
P8.1 mittels eines Hochpassfilters zu filtern, danach in einem zehnten
Prozessschritt P9.1 diesen gefilterten Sprachsignalzeitabschnitt
mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt
aus dem ersten Prozessschritt P0.1 zu verknüpfen, bevor abschließend in
einem elften Prozessschritt P10.1 aus den einzelnen verknüpften Sprachsignalzeitabschnitten
durch Zusammenfügen dieser
Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen
erweiterte Sprachsignal erzeugt wird.
-
Kann auf eine derartige Qualitätsverbesserung
des breitbandigen erweiterten Sprachsignals verzichtet werden, so
ist es stattdessen auch möglich,
unmittelbar nach dem achten Prozessschritt P7.1 aus den in diesem
Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten
in dem elften Prozessschritt P10.1 durch Zusammenfügen dieser
Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen
erweiterte Sprachsignal zu erzeugen.
-
Anhand der 2 soll zunächst die erfindungsgemäße Erweiterung
eines schmalbandig gefilterten Sprachsignals in die Richtung der
oberen Frequenzen gemäß eines
zweiten Prozesses (einer zweiten Methode) erläutert werden.
-
Im Allgemeinen wird ein Sprachsignal
durch lineare Prädiktion
analysiert. Dabei werden unter der Annahme, dass ein Sprach abtastwert
durch die lineare Kombination von vorherigen Sprachabtastwerten angenähert werden
kann, lineare Prädiktionskoeffizienten,
sogenannte LPC-Koeffizienten, die die Filterkoeffizienten eines
Sprachsynthesefilters darstellen, sowie ein Anregungssignal für dieses
Synthesefilter berechnet. Durch Anwenden der zu einem Sprachsignalabschnitt
gehörenden
LPC-Koeffizienten auf diesen Sprachsignalabschnitt mittels Filterung
des Abschnitts mit einem durch diese Koeffizienten definierten nichtrekursiven
Digitalfilter entsteht das sogenannte Prädiktionsfehlersignal. Dieses
Signal beschreibt die Differenz zwischen dem durch die lineare Prädiktion
geschätztem
Signalwert und dem tatsächlichem
Signalwert. Es stellt auch gleichzeitig das Anregungssignal für das durch
die LPC-Koeffizienten definierte
rein rekursive Synthesefilter dar, mit dem der Original-Sprachsignalabschnitt
durch Filtern des Prädiktionsfehler-
bzw. Anregungssignals wiedergewonnen wird. Um ein Sprachsignal in
die Richtung der oberen Frequenzen zu erweitern, ist die Kenntnis eines
breitbandigen Anregungssignals und der Filterkoeffizienten, die
das (breitbandige) Sprachsignal im Sinne der linearen Prädiktion
beschreiben erforderlich.
-
Da beispielsweise in Telekommunikationssystemen
in denen schmalbandig übertragen
wird, das Sprachsignal schmalbandig vorliegt, wird erfindungsgemäß anhand
des mittels linearer Prädiktion aus
dem Sprachsignal berechneten schmalbandigen Anregungssignal ein
breitbandiges Anregungssignal ermittelt.
-
Dies erfolgt beispielweise durch
Frequenzspiegelung des schmalbandigen Anregungssignals, bei dem
die Frequenzanteile zwischen 0 kHz und 4 kHz an der 4 kHz – Spektrallinie
in einen Bereich von 4 kHz bis 8 kHz gespiegelt werden.
-
Alternativ kann die Berechnung auch
durch Addition des schmalbandigen Signals mit Gauß'schem (weißen) oder
begrenzten (gefärbtem) Rauschen
realisiert werden.
-
2 zeigt
anhand eines Ablaufdiagramms den zweiten Prozess (die zweite Methode)
zur Erweiterung der Brandbreite eines von einem Telekommunikationsgerät gesendeten
Sprachsignals in Richtung der oberen Frequenzen oberhalb einer Grenzfrequenz – z.B. 4
kHz – des
schmalbandig gefilterten Sprachsignals im Frequenzbereich. Gemäß dem Ausgangszustand
AZ des dargestellten Prozesses wird wieder von dem Telekommunikationsgerät das Sprachsignal
gesendet. Es liegt somit wider ein schmalbandig gefiltertes Sprachsignal
vor.
-
In einem ersten Prozessschritt P0.2
wird dieses Sprachsignal in vorzugsweise gleich große schmalbandige
Sprachsignalzeitabschnitte unterteilt. Anschließend werden für jeden
Sprachsignalzeitabschnitt in einem zweiten Prozessschritt P1.2 in
bekannter Weise im Rahmen einer Prädiktionsanalyse LPC-Koeffizienten und
ein schmalbandiges Prädiktionsfehlersignal
berechnet, in einem dritten Prozessschritt P2.2 auf der Basis der
LPC-Koeffizienten und des schmalbandigen Prädiktionsfehlersignals die Spektralstruktur
der schmalbandigen Sprachsignalzeitabschnitte berechnet und in einem
vierten Prozessschritt P3.2 eine Klassifizierung derart durchgeführt, dass
der jeweilige Sprachsignalzeitabschnitt als ein stimmhafter Laut – wie beispielsweise "a", "e" oder "i", deren Aussprache ein in 3a dargestelltes Spektrum
aufweist – und/oder
als ein stimmloser Laut – wie
beispielsweise "s", "sch" oder "f", deren Aussprache ein in 3b dargestelltes Spektrum aufweist – eingestuft
bzw. definiert wird.
-
Diese Unterscheidung wird beispielsweise anhand
der Position der ersten Formanten oder anhand des Verhältnisses
von Spektralanteilen oberhalb und unterhalb einer bestimmten Frequenz
- beispielsweise 2 kHz – geschehen.
Eine Unterscheidung anhand des schmalbandigen Spektrums ist einfach
durchzuführen,
da wie ein Vergleich des in 3a dargestellten
Spektrum eines stimmhaften Lautes mit dem in 3b dargestellten Spektrum eines stimmlosen
Lautes zeigt, stimmhafte und stimmlose Laute in der Regel sehr unterschiedliche
Spektren haben.
-
Alternativ dazu wird eine Kurzzeitsignalenergie
eines ersten schmalbandig gefilterten Sprachsignalzeitabschnittes
sowie eine Langzeitsignalenergie anhand weiterer aufeinanderfolgender
zum ersten Signal korrelierender schmalbandig gefilterter Sprachsignalzeitabschnitte
ermittelt und anschließend
das Detektieren durch Vergleich eines Verhältnisses von Kurzeitsignalenergie
zu Langzeitsignalenergie mit einem Schwellwert realisiert.
-
Alternativ dazu kann die Unterscheidung durch
Vergleich der Kurzzeitsignalenergie – d.h. der Signalenergie in
einem kurzen Zeitausschnitt des Schmalband-Sprachsignals – und der
Langzeitsignalenergie – d.h.
der Signalenergie über
einen längeren Zeitausschnitt
betrachtet – und
anschließendem
Vergleich des Verhältnis
Kurzzeit- zu Langzeitenergie mit einem festen Schwellwert durchgeführt werden.
-
Im Anschluss daran wird in einem
fünften Prozessschritt
P4.2 in Bezug auf die im dritten Prozessschritt P2.1 vorgenommene
1autartbezogene Klassifizierung die im dritten Prozessschritt P2.2
berechnete Spektralstruktur erweitert. Dies geschieht derart, dass
zeitabschnittsweise in Bezug auf die im vierten Prozessschritt P3.2
vorgenommene lautartbezogene Klassifizierung erste Ergänzungen
EG1 zur Erweiterung des Sprachsignals, die jeweils eine spektrale
Struktur aufweisen, erzeugt werden, wobei für den Fall des stimmhaften
Lautes die Ergänzung unabhängig von
dem jeweiligen Laut ist (mit Feststellung der Art des Sprachlautes – stimmhaft/stimmlos (stimmhaft
und/oder stimmlos) – wird
auch die zur Erweiterung der Bandbreite notwendige Ergänzung bestimmt),
die spektrale Struktur des schmalbandigen Sprachsignalzeitabschnittes
und die spektrale Struktur der erzeugten Ergänzung zeitabschnittsweise zu einer
erweiterten spektralen Struktur verknüpft werden.
-
Handelt es sich in dem fünften Prozessschritt P4.2
bei dem untersuchten schmalbandigen Sprachsignal um einen stimmhaften Laut,
so wird die schmalbandige spektrale Struktur, wie in 4a dargestellt, derart durch
eine Ergänzung
erweitert, dass die erweiterte breitbandige spektrale Struktur oberhalb
von 4 kHz wesentlich weniger Energie als unterhalb von 4 kHz besitzt.
Es ist z.B. ein Abfall, ein exponentieller Abfall, ein Anstieg,
ein gleichbleibendes Nullniveau oder ein gleichbleibendes Niveau
der spektralen Struktur zu höheren
Frequenzen hin denkbar.
-
Alternativ kann auch ganz von einer
Erweiterung abgesehen werden, weil in der Regel die Signalenergie
eines stimmhaften Lautes oberhalb der oberen Grenzfrequenz des Schmalband-Sprachsignals (z.B.
4 kHz) vernachlässigbar
ist (vgl. 3a). Der erzeugte
breitbandige Frequenzgang entspricht für diesen Fall dem schmalbandigen
Frequenzgang des zugrundeliegenden schmalbandigen Sprachsignals.
-
Es ist auch möglich, dass die Erweiterung, die
nach Detektion eines stimmhaften Lautes vorgenommen wird, unabhängig von
der genauen Kenntnis der Laute stets die gleiche ist (angepasst
lediglich an die Energie des Schmalband-Sprachsignals), so dass
eine einfache, kostengünstige
und schnelle Umsetzung dieser Erweiterung erzielt wird.
-
Handelt es sich in dem fünften Prozessschritt P9.2
bei dem untersuchten schmalbandigen Sprachsignal um einen stimmlosen
Laut, so wird der schmalbandige Frequenzgang, wie in 4b dargestellt, derart erweitert,
dass er – im
Gegensatz zur Erweiterung bei stimmhaften Lauten – im Bereich
oberhalb der ersten Grenzfrequenz des Schmalband-Sprachsignals (z.B.
4 kHz) einen nicht vernachlässigbaren Teil
seiner Gesamtenergie besitzt.
-
Auch hierbei kann die Erweiterung
stets, unabhängig
von der genauen Kenntnis der Laute, durch eine gleichartige spektrale
Erweiterung erfolgen (angepasst lediglich an die Energie des Schmalband-Sprachsignals),
so dass hierdurch ebenso eine ein fache, kostengünstige und schnelle Umsetzung dieser
Erweiterung erzielt wird.
-
Als Ergebnis der ersten bis fünften Prozessschritte
P0.2...P4.2 in 2 wird
also eine neue erweiterte breitbandige spektrale Struktur in Abhängigkeit
von dem Laut, der der vorhandenen schmalbandigen spektralen Struktur
zugrundeliegt, generiert.
-
Außerdem wird in einem sechsten
Prozessschritt P5.2 das in dem zweiten Prozessschritt P1.2 berechnete
schmalbandige Prädiktionsfehlersignal zum
einem breitbandigen Prädiktionsfehlersignal
erweitert, so dass bezüglich
der Zeitabschnittdauer den schmalbandigen Sprachsignalzeitabschnitten
entsprechende Pürädiktionsfehlersignalabschnitte
des breitbandigen Prädiktionsfehlersignales
erzeugt werden.
-
Parallel dazu werden wieder in einem
siebten Prozessschritt P6.2 im Rahmen einer zweiten Spektralstrukturerweiterung
z.B. gemäß der Druckschrift – Carl,
H.; Heute, U.: „Bandwidth
Enhancement of Narrow-Band Speech Signals", Proceedings EUSIPCO 1994,
Edinburgh, 1994, pp. 1178-1181 – zur
Auswertung der statistischen Eigenschaften eines schmalbandigen
Sprachsignals basierend auf besondere Sprachdatenbücher, den
sogenannten Codebüchern
(Codebooks) zweite eine spektrale Struktur aufweisende Ergänzungen
EG2 erzeugt, wobei die Ergänzung
abhängig
von dem jeweiligen Laut ist.
-
In einem sich daran anschließenden achten Prozessschritt
P7.2 wird die erste Ergänzung
EG1 mit der zweiten Ergänzung
EG2 verknüpft,
bevor in einem neunten Prozessschritt P8.2 eine erweiterte Spektralstruktur
erzeugt wird. Diese Verknüpfung
geschieht vorzugsweise durch eine Multiplikation.
-
Daran anschließend wird aus der im neunten Prozessschritt
P8.2 erzeugten erweiterten spektralen Struktur durch die Berechnung
von breitbandigen Filterkoeffizienten in einem zehn ten Prozessschritt
P9.2 und dem im sechsten Prozessschritt P5.2 jeweils erzeugten breitbandigen
Prädiktionsfehlersignalabschnitt
in einem elften Prozessschritt P10.2 mittels eines sogenannten Synthesefilters
jeweils ein breitbandiger erweiterter Sprachsignalzeitabschnitt
erzeugt.
-
Daran anschließend gibt es wieder zwei Möglichkeiten,
das breitbandige in Richtung der oberen Frequenzen erweiterte Sprachsignal
zu erhalten.
-
Um eine gewisse Qualitätsverbesserung
des breitbandigen erweiterten Sprachsignals zu erzielen, ist es
möglich,
den jeweiligen im elften Prozessschritt P10.2 erzeugten breitbandigen
erweiterten Sprachsignalzeitabschnitt in einem zwölften Prozessschritt P11.2
mittels eines Hochpassfilters zu filtern, danach in einem dreizehnten
Prozessschritt P12.2 diesen gefilterten Sprachsignalzeitabschnitt
mit dem entsprechenden schmalbandigen Sprachsignalzeitabschnitt
aus dem ersten Prozessschritt P0.2 zu verknüpfen, bevor abschließend in
einem vierzehnten Prozessschritt P13.2 aus den einzelnen verknüpften Sprachsignalzeitabschnitten
durch Zusammenfügen dieser
Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen
erweiterte Sprachsignal erzeugt wird.
-
Kann auf eine derartige Qualitätsverbesserung
des breitbandigen erweiterten Sprachsignals verzichtet werden, so
ist es stattdessen auch möglich,
unmittelbar nach dem elften Prozessschritt P10.2 aus den in diesem
Prozessschritt jeweils erzeugten breitbandigen erweiterten Sprachsignalzeitabschnitten
in dem vierzehnten Prozessschritt P13.2 durch Zusammenfügen dieser
Zeitabschnitte das breitbandige in Richtung der oberen Frequenzen
erweiterte Sprachsignal zu erzeugen.