DE69625874T2

DE69625874T2 - Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät

Info

Publication number: DE69625874T2
Application number: DE69625874T
Authority: DE
Inventors: Kazuyuki Iijima; Jun Matsumoto; Masayuki Nishiguchi; Shiro Omori
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-10-26
Filing date: 1996-10-25
Publication date: 2003-10-30
Anticipated expiration: 2016-10-26
Also published as: JPH09190196A; CN1152776A; KR19980028284A; CN1264138C; EP0770987A3; CN1591575A; EP0770987A2; DE69625874D1; JP4132109B2; US5873059A; EP0770987B1; TW332889B; KR100427753B1; CN1307614C; SG43426A1

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Wiedergabe von Sprachsignalen mit einer kontrollierten Geschwindigkeit und ein Verfahren und eine Vorrichtung zum Dekodieren der Sprache sowie ein Verfahren und eine Vorrichtung zum Synthetisieren der Sprache, wobei eine Tonhöhenumwandlung mit Hilfe einer vereinfachten Struktur realisierbar ist. Die Erfindung bezieht sich außerdem auf ein tragbares Funkendgerät zum Senden und Empfangen von tonhöhengewandelten Sprachsignalen.
Es sind bereits zahlreiche Kodierverfahren zum Kodieren von Audiosignalen (einschließlich von Sprach- und akustischen Signalen) bekannt, bei denen für die Komprimierung statistische Eigenschaften der Signale in der Zeitdomäne und in der Frequenzdomäne sowie psychoakustische Eigenschaften des menschlichen Ohrs ausgenutzt werden. Die Kodierverfahren lassen sich grob klassifizieren in Zeitdomänen-Kodierung, Frequenzdomänen-Kodierung und Analyse-/Synthese-Kodierung.
Zu den Beispielen für eine hocheffiziente Kodierung von Sprachsignalen gehören die Sinus- Analyse-Kodierung, wie die harmonische Kodierung, die Multiband-Erregungs-Kodierung (MBE-Kodierung), die Teilband-Kodierung (SBC), die lineare prädiktive Kodierung (LPC), die diskrete Cosinustransformation (DCT), die modifizierte DCT (MDCT) und die schnelle Fourier-Transformation.
Ein Beispiel für die Tonhöhenmodifizierung eines Sprachsignals ist beschrieben in Quatieri et al.: "Shape Invariant Time-Scale and Pitch Modification of Speech", IEEE Trans. of Signal Processing, Band 40, März 1992, Seiten 497-510.
Nun bringen hocheffiziente Sprachkodierverfahren mit Verarbeitung auf der Zeitachse, für die die codeerregte lineare Prädiktionskodierung (CELP) ein typisches Beispiel ist, Schwierigkeiten bei der raschen Zeitachsen-Umwandlung (Modifizierung) mit sich, weil im Anschluß an die Ausgabe des Dekodierers umfangreiche Verarbeitungen durchzuführen sind. Außerdem läßt sich das Verfahren nicht für die Bitratenwandlung benutzen, weil die Geschwindigkeitssteuerung im Anschluß an die Dekodierung in der Zeitdomäne durchgeführt wird.
Andererseits besteht bei dem Versuch, Sprachsignale, die nach den obigen Kodierverfahren kodiert wurden, zu dekodieren, häufig der Wunsch, lediglich die Tonhöhe zu variieren, ohne das Phonem der Sprache zu ändern. Bei dem üblichen Sprachkodierverfahren muß die dekodierte Sprache jedoch einer Tonhöhenwandlung mit Hilfe der Tonhöhensteuerung unterzogen werden, so daß die Struktur komplizierter wird und die Kosten steigen.
Es ist ein Ziel der vorliegenden Erfindung, wie sie in den Ansprüchen 1 bis 9 beansprucht wird, ein Verfahren und eine Vorrichtung zum Dekodieren der Sprache und ein Verfahren und eine Vorrichtung zum Synthetisieren der Sprache zur Verfügung zu stellen, die eine Tonhöhenwandlung oder Tonhöhensteuerung mit einer vereinfachten Struktur ermöglichen.
Es ist ein weiteres Ziel der Erfindung, die tonhöhengewandelten oder tonhöhengesteuerten Sprachsignale mit Hilfe einer vereinfachten Struktur zu senden oder zu empfangen.
Nach einem Aspekt der Erfindung ist ein Sprachsignaldekodierverfahren vorgesehen mit den Verfahrensschritten:
Empfangen eines Werts, der eine Grundfrequenz eines Sprachsignals bei einer ersten Tonhöhe identifiziert,
Empfangen eines Satzes von Amplitudenwerten, die eine spektrale Hüllkurve von Resten einer linearen prädiktiven Kodierung des Sprachsignals bei der ersten Tonhöhe identifizieren, indem sie die Amplituden eines vorbestimmten Bandes von Harmonischen definieren,
Modifizieren des die genannte Grundfrequenz identifizierenden Werts, um einen modifizierten Grundfrequenzwert zu bilden,
Interpolieren von zusätzlichen Amplitudenwerten, die eine modifizierte spektrale Hüllkurve von LPC-Resten identifizieren, die dem modifizierten Grundfrequenzwert entsprechen, um interpolierte Amplitudenwerte zu bilden, und
Synthetisieren des Sprachsignals bei einer zweiten Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und der interpolierten Amplitudenwerte.
Nach einem anderen Aspekt der Erfindung ist ein Sprachsignaldekodiergerät vorgesehen mit einer ersten Empfangseinrichtung zum Empfangen eines Werts, der die Grundfrequenz eines Sprachsignals bei einer ersten Tonhöhe identifiziert,
mit einer zweiten Empfangseinrichtung zum Empfangen eines Satzes von Amplitudenwerten, die eine spektrale Hüllkurve von LPC-Resten des Sprachsignals bei der ersten Tonhöhe identifizieren, indem sie die Amplituden eines vorbestimmten Bandes von Harmonischen definieren,
mit einer mit der ersten Empfangseinrichtung verbundenen Modifiziereinrichtung zum Modifizieren des die genannte Grundfrequenz identifizierenden Werts und zur Bildung eines modifizierten Grundfrequenzwerts,
mit einer mit der zweiten Empfangseinrichtung verbundenen Interpoliereinrichtung zum Interpolieren von zusätzlichen Amplitudenwerten, die eine modifizierte spektrale Hüllkurve von LPC-Resten identifizieren, die dem modifizierten Grundfrequenzwert entsprechen, um interpolierte Amplitudenwerte zu bilden, und
mit einer Synthetisiereinrichtung zum Synthetisieren des Sprachsignals in einer zweite Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.
Ein weiterer Aspekt der Erfindung liefert ein Sprachsyntheseverfahren mit den Verfahrensschritten:
Speichern eines Werts, der der Grundfrequenz eines Sprachsignals bei einer ersten Tonhöhe entspricht,
Speichern eines Satzes von Amplitudenwerten eines vorbestimmten Bandes von Harmonischen, die einer spektralen Hüllkurve von LPC-Resten des Sprachsignals bei der ersten Tonhöhe entsprechen,
Abrufen des Grundfrequenzwerts und der Amplitudenwerte,
Modifizieren des Grundfrequenzwerts, um einen modifizierten Grundfrequenzwert zu bilden,
Interpolieren von zusätzlichen Amplitudenwerten, die einer modifizierten spektralen Hüllkurve von LPC-Resten entsprechen, auf der Basis des modifizierten Grundfrequenzwerts, um einen Satz von interpolierten Amplitudenwerten zu bilden, und
Synthetisieren des Sprachsignals bei der zweiten Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.
Die vorliegende Erfindung sieht außerdem ein Sprachsynthetisiergerät vor
mit einer Speichereinrichtung zum Speichern eines Werts, der der Grundfrequenz eines Sprachsignals entspricht, und von Amplitudenwerten eines vorbestimmten Bandes von Harmonischen, die einer spektralen Hüllkurve von LPC-Resten des Sprachsignals bei einer ersten Tonhöhe entsprechen,
mit einer mit der Speichereinrichtung verbundenen Modifiziereinrichtung zum Abrufen des Grundfrequenzwerts und zum Modifizieren des Grundfrequenzwerts, um einen modifizierten Grundfrequenzwert zu bilden,
mit einer mit der Speichereinrichtung verbundenen Interpoliereinrichtung zum Abrufen der Amplitudenwerte und zum Interpolieren von zusätzlichen Amplitudenwerten, die einer modifizierten spektralen Hüllkurve von LPC-Resten entsprechen, auf der Basis des modifizierten Grundfrequenzwerts, um einen Satz von interpolierten Amplitudenwerten zu bilden, und
mit einer Synthetisiereinrichtung zum Synthetisieren des Sprachsignals bei einer zweiten Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.
Das Ergebnis besteht darin, daß die Tonhöhe mit Hilfe einer vereinfachten Struktur in einen gewünschten Wert geändert werden kann.
Die Tonhöhenfrequenz wird bei der Kodierung durch Dimensionsumwandlung modifiziert, bei der die Zahl der Harmonischen auf einen vorgegebenen Wert eingestellt wird.
In diesem Fall kann der Dekodierer für die Sprachkomprimierung gemäß der Erfindung gleichzeitig als Sprachsynthetisierer für die Textsprachsynthese benutzt werden. Für eine Routine-Aussprache erreicht man eine klare Sprachwiedergabe durch Kompression und Expansion, während für spezielle Sprachsynthese Textsynthese oder Synthese unter der vorgegebenen Regel benutzt wird, um ein effizientes Sprachausgabesystem aufzubauen.
Die Erfindung sieht auch ein tragbares Funkendgerät vor, bei dem die tonhöhengewandelten oder tonhöhengesteuerten Signale mit einer vereinfachten Struktur gesendet oder empfangen werden können.
Die folgende Beschreibung, die nur als Beispiel dient und auf die anliegenden Zeichnungen Bezug nimmt, soll das Verständnis der Erfindung weiter vertiefen.
Fig. 1 zeigt ein Blockdiagramm der Grundstruktur eines Sprachsignal-Wiedergabeverfahrens und eines Sprachsignalwiedergabegeräts zur Durchführung des Sprachsignal-Wiedergabeverfahrens gemäß der Erfindung,
Fig. 2 zeigt ein schematisches Blockdiagramm einer Kodiereinheit in dem Sprachsignalwiedergabegerät von Fig. 1,
Fig. 3 zeigt ein Blockdiagramm mit der detaillierten Struktur der Kodiereinheit,
Fig. 4 zeigt ein schematisches Blockdiagramm der Struktur einer Dekodiereinheit in dem Sprachsignalwiedergabegerät von Fig. 1,
Fig. 5 zeigt ein Blockdiagramm, aus dem die detaillierte Struktur der Dekodiereinheit hervorgeht,
Fig. 6 zeigt ein Flußdiagramm zur Erläuterung der Funktion einer Einheit zur Berechnung von modifizierten Kodierparametern in der Dekodiereinheit,
Fig. 7 zeigt schematisch die modifizierten Kodierparameter, die mit Hilfe der Einheit zur Berechnung der modifizierten Kodierparameter auf der Zeitachse gewonnen werden,
Fig. 8 zeigt ein Flußdiagramm zur detaillierten Erläuterung der Interpolation, die von der Einheit zur Berechnung der modifizierten Kodierparameter ausgeführt wird,
Fig. 9A bis 9D zeigen die Interpolationsoperation,
Fig. 10A bis 10C zeigen typische Operationen, die in der Einheit zur Berechnung der modifizierten Kodierparameter ausgeführt werden,
Fig. 11A bis 11 C zeigen weitere typische Operationen, die von der Einheit zur Berechnung der modifizierten Kodierparameter ausgeführt werden,
Fig. 12 zeigt eine Operation für den Fall, daß die Rahmenlänge zur raschen Steuerung der Geschwindigkeit in der Dekodiereinheit variabel gemacht wird,
Fig. 13 zeigt eine Operation für den Fall, daß die Rahmenlänge für die langsame Steuerung in der Dekodiereinheit variabel gemacht wird,
Fig. 14 zeigt ein detailliertes Blockdiagramm für eine andere Struktur der Dekodiereinheit,
Fig. 15 zeigt ein Blockdiagramm eines Beispiels für die Anwendung auf ein Sprachsynthetisiergerät,
Fig. 16 zeigt ein Blockdiagramm eines Beispiels für die Anwendung auf ein Text-Sprachsynthetisiergerät,
Fig. 17 zeigt ein Blockdiagramm der Struktur eines Senders in einem tragbaren Endgerät, das die Kodiereinheit benutzt,
Fig. 18 zeigt ein Blockdiagramm der Struktur eines Empfängers eines tragbaren Endgeräts, das die Dekodiereinheit benutzt.
Anhand der Zeichnungen wird nun das Sprachsignalwiedergabeverfahren und -gerät nach einem bevorzugten Ausführungsbeispiel der Erfindung erläutert. Das vorliegende Ausführungsbeispiel ist auf ein Sprachsignalwiedergabegerät 1 zur Wiedergabe von Sprachsignalen auf der Basis von Kodierparametern gerichtet, die dadurch ermittelt werden, daß die Eingangssprachsignale auf der Zeitachse in eine vorgegebene Anzahl von Rahmen als Kodiereinheiten unterteilt und die unterteilen Spracheingangssignale kodiert werden, wie dies in Fig. 1 dargestellt ist.
Das Sprachsignalwiedergabegerät 1 besitzt eine Kodiereinheit 2 zum Kodieren der an einem Eingang 101 anliegenden Sprachsignale in Rahmen als Einheiten zur Ausgabe von kodierten Parametern, wie Parametern für die lineare Prädiktionskodierung (LPC-Parameter), Parameter für Linienspektrumpaare (LSP-Parameter), Tonhöhe, stimmhaft/stimmlos V)/(UV) oder spektrale Amplituden Am. Das Gerät 1 besitzt ferner eine Periodenmodifizierungseinheit 3 zum Modifizieren der Ausgangsperiode der Kodierparameter durch Zeitachsen-Kompandierung. Das Sprachsignalwiedergabegerät besitzt weiter eine Dekodiereinheit 4 zum Interpolieren der kodierten Parameter, die mit der von der Periodenmodifiziereinheit 3 modifizierten Periode ausgegeben werden, zur Ermittlung der modifizierten, kodierten Parameter für gewünschte Zeitpunkte und zum Synthetisieren der Sprachsignale auf der Basis der modifizierten, kodierten Parameter für die Ausgabe der synthetisierten Sprachsignale an einem Ausgang 201.
Die Kodiereinheit 2 wird anhand von Fig. 2 und 3 erläutert. Die Kodiereinheit 2 entscheidet auf der Basis der Diskriminierungsergebnisse, ob das Eingangssprachsignal stimmhaft oder stimmlos ist, und führt für einen Signalteil, der als stimmhaft identifiziert wurde, eine sinusförmige, synthetische Kodierung durch, während sie für einen Signalteil, der als stimmlos identifiziert wurde, eine Vektorquantisierung durch Suche des optimalen Vektors in einer geschlossenen Schleife unter Verwendung einer Analyse-Synthese-Methode durchführt, um die kodierten Parameter zu ermitteln. Das heißt, die Kodiereinheit 2 besitzt eine erste Kodiereinheit 110 zur Ermittlung von Kurzzeit-Prädiktionsresten des Eingangssprachsignals, z. B. von Resten linearer Prädiktionskodierung (LPC-Resten), um eine sinusförmige Analyse-Kodierung, z. B. eine harmonische Kodierung, durchzuführen, sowie eine zweite Kodiereinheit 120 zur Durchführung einer Wellenformkodierung durch das Übertragen von Phasenkomponenten des Eingangssprachsignals. Die erste Kodiereinheit 110 und die zweite Kodiereinheit 120 dienen zur Kodierung des stimmhaften (V)-Anteils bzw. des stimmlosen (UV)-Anteils.
In dem Ausführungsbeispiel von Fig. 2 wird das an dem Eingang 101 anliegende Sprachsignal einem inversen LPC-Filter 111 und einer LPC-Analyse-/Quantisiereinheit 113 der ersten Kodiereinheit 110 zugeführt. Der in der LPC-Analyse-/Quantisiereinheit 113 gewonnene LPC-Koeffizient oder der sog. α-Parameter wird dem inversen LPC-Filter 111 zugeführt, um mit Hilfe des inversen LPC-Filters 111 die linearen Prädiktionsreste (LPC-Reste) des Eingangssprachsignals herauszugreifen. Die LPC-Analyse-/Quantisiereinheit 113 gibt ein quantisiertes Ausgangssignal der Linienspektrumpaare (LSP) aus, wie dies weiter unten erläutert wird, die einem Ausgang 102 zugeführt werden. Die LPC-Reste aus dem inversen LPC-Filter 111 werden einer Sinus-Analyse-Kodiereinheit 114 zugeführt. Die Sinus-Analyse-Kodiereinheit 114 führt mit Hilfe einer Einheit 115 zur Unterscheidung von stimmhaften/stimmlosen (V)/(UV)-Anteilen eine Tonhöhendetektierung, ferner Berechnungen der spektralen Hüllkurvenamplitude und eine U/UV-Diskriminierung durch. Die spektralen Hüllkurvenamplitudendaten aus der Sinus-Analyse-Kodiereinheit 114 werden der Vektorquantisiereinheit 116 zugeführt. Der Codebuchindex aus der Vektorquantisiereinheit 116 wird als vektorquantisiertes Ausgangssignal der spektralen Hüllkurve über einen Schalter 117 einem Ausgang 103 zugeführt, während das Ausgangssignal der Sinus-Analyse-Kodiereinheit 114 über einen Schalter 118 einem Ausgang 104 zugeführt wird. Das V/UV-Diskriminierungs-Ausgangssignal der U/UV-Diskriminatoreinheit 115 wird einem Ausgang 105 sowie den Schaltern 117, 118 als Schaltsteuersignal zugeführt. Für das stimmhafte (V)-Signal werden der Index und die Tonhöhe ausgewählt, wie sie an den Ausgängen 103, 104 entnommen werden. Für die Vektorquantisierung in dem Vektorquantisierer 116 wird eine geeignete Anzahl von Blinddaten zum Interpolieren von Amplitudendaten eines effektiven Bandblocks auf der Frequenzachse von den letzten Amplitudendaten in dem Block bis zu den ersten Amplitudendaten in dem Block oder von Blinddaten, die die letzten Daten und die ersten Daten in dem Block erweitern, an das hintere Ende und das vordere Ende des Blocks angehängt, um die Datenzahl auf NF zu vergrößern. Dann wird durch Os-fache Überabtastung mit Bandbegrenzung, z. B. durch achtfache Überabtastung, eine Os-fache Zahl von Amplitudendaten ermittelt. Die Osfache Zahl der Amplitudendaten ((mMx + 1) · Os Zahl von Daten) wird durch lineare Interpolation weiter auf eine größere Zahl NM, z. B. 21048 erweitert. Diese Datenzahl NM wird durch Dezimation in die vorgegebene Zahl M (z. B. 44) umgewandelt, und dann wird die vorgegebene Zahl von Daten der Vektorquantisierung unterzogen.
In dem vorliegenden Ausführungsbeispiel ist die zweite Kodiereinheit 120 so ausgebildet, daß sie eine codeerregte, lineare, prädiktive Kodierung (CELP-Kodierung) ausführt und die Zeitdomänen-Wellenform durch Suche in einer geschlossenen Schleife unter Verwendung eines Analyse-Synthese-Verfahrens einer Vektorquantisierung unterzieht. Das Ausgangssignal eines Geräusch-Codebuchs 121 wird in einem gewichteten Synthesefilter 122 synthetisiert, um eine gewichtete, synthetisierte Sprache zu erzeugen, die einem Subtrahierer 123 zugeführt wird, in dem der Fehler zwischen der gewichteten, synthetisierten Sprache und der dem Eingang 101 zugeführten und anschließend durch ein wahrnehmungsgerecht gewichtetes Filter 125 verarbeiteten Sprache ermittelt wird. Eine Abstandsberechnungsschaltung 124 berechnet den Abstand, und in dem Geräusch-Codebuch 121 wird ein Vektor ermittelt, der den Fehler minimiert. Die CELP-Kodierung wird, wie oben beschrieben, für die Kodierung des stimmlosen Teils benutzt. Der Codebuch-Index als UV-Daten aus dem Geräusch-Codebuch 121 wird über einen Schalter 127, der eingeschaltet wird, wenn die Ergebnisse der U/UV-Diskriminierung in der U/UV-Diskriminatoreinheit 115 einen stimmlosen (UV)-Ton anzeigen, an einem Ausgang 107 ausgegeben.
Anhand von Fig. 3 wird nun die detaillierte Struktur des Sprachsignalkodierers von Fig. 1 erläutert. In Fig. 3 sind die Teile oder Komponenten, die denjenigen von Fig. 1 entsprechen, mit den gleichen Bezugszeichen versehen wie dort.
In dem Sprachsignalkodierer 2 von Fig. 3 werden die dem Eingang 101 zugeführten Sprachsignale in einem Hochpaßfilter 109 gefiltert, um Signale eines nicht benötigten Bereichs zu entfernen, und dann einer LPC-Analyseschaltung 132 der LPC-Analyse-/Quantisiereinheit 113 und dem inversen LPC-Filter 111 zugeführt.
Die LPC-Analysierschaltung 132 der LPC-Analyse-/Quantisiereinheit 113 wendet ein Hamming-Fenster an mit einer Länge der Eingangssignalwellenform in der Größenordnung von 256 Abtastproben als Block und ermittelt durch ein Autokorrelationsverfahren einen linearen Prädiktionskoeffizienten, d. h. einen sog. α-Parameter. Das Rahmenintervall als Datenausgabeeinheit ist auf etwa 160 Abtastproben gesetzt. Wenn die Abtastfrequenz fs z. B. 8 kHz beträgt, umfaßt ein Rahmenintervall 20 ms oder 160 Abtastproben.
Die α-Parameter aus der LPC-Analysierschaltung 132 werden einer α/LSP-Wandlerschaltung 133 zur Umwandlung in Linienspektrumpaar-(LSP)-Parameter zugeführt. Diese wandelt den α-Parameter, wie er durch die Koeffizienten des Filters vom Direkttyp ermittelt wurde, in beispielsweise 10, d. h. fünf Paare, LSP-Parameter um. Diese Umwandlung wird z. B. nach dem Newton-Rhapson-Verfahren durchgeführt. Der Grund für die Umwandlung der α-Parameter in LSP-Parameter besteht darin, daß der LSP-Parameter bessere Interpolationseigenschaften aufweist als die α-Parameter.
Die LSP-Parameter aus der α/LSP-Wandlerschaltung 133 werden in dem LSP-Quantisierer 134 matrix- oder vektorquantisiert. Es ist möglich, vor der Vektorquantisierung eine Rahmen-zu-Rahmen-Differenz herauszugreifen oder mehrere Rahmen zusammenzufassen, um eine Matrixquantisierung durchzuführen. Im vorliegenden Fall werden die LSP-Parameter, die alle 20 ms berechnet werden, mit 20 ms als einem Rahmen vektorquantisiert.
Das quantisierte Ausgangssignal des Quantisierers 134, d. h. die Indexdaten der LSP-Quantisierung, werden an einem Ausgang 102 an die Dekodiereinheit 103 ausgegeben, während der quantisierte LSP-Vektor einer LSP-Interpolationsschaltung 136 zugeführt wird.
Die LSP-Interpolationsschaltung 136 interpoliert die LSP-Vektoren, die alle 20 ms oder alle 40 ms quantisiert werden, um eine achtfache Rate zu erzeugen. Das heißt, der LSP-Vektor wird alle 2,5 ms aktualisiert. Der Grund hierfür besteht darin, daß dann, wenn die Restwellenform nach dem harmonischen Kodier-/Dekodierverfahren mit Analyse-/Synthese verarbeitet wird, die Hüllkurve der synthetischen Wellenform eine extrem glatte Wellenform besitzt, so daß die Gefahr besteht, daß ein fremdartiges Geräusch auftritt, wenn die LPC-Koeffizienten alle 20 ms abrupt geändert werden. Das heißt, wenn der LPC-Koeffizient alle 2,5 ms allmählich geändert wird, kann verhindert werden, daß ein solches fremdartiges Geräusch auftritt.
Für die inverse Filterung des Eingangssprachsignals unter Verwendung der interpolierten LSP-Vektoren, die alle 2,5 ms erzeugt werden, werden die LSP-Parameter von einer LSP/α- Wandlerschaltung 137 in α-Parameter als Koeffizienten z. B. eines Direktfilters 10. Ordnung umgewandelt. Das Ausgangssignal der LSP/α-Wandlerschaltung 137 wird der inversen LPC- Filterschaltung 111 zugeführt, die dann unter Verwendung eines α-Parameters, der alle 2,5 ms aktualisiert wird, eine inverse Filterung durchführt, um ein glattes Ausgangssignal zu erzeugen. Das Ausgangssignal des inversen LPC-Filters 111 wird einer orthogonalen Transformationsschaltung 145, z. B. einer DCT-Schaltung, in der Sinus-Analyse-Kodiereinheit 114 zugeführt, die z. B. eine harmonische Kodierschaltung ist.
Der α-Parameter aus der LPC-Analysierschaltung 132 der LPC-Analyse-/Quantisiereinheit 113 wird einer Schaltung 134 zur Berechnung eines Filters mit wahrnehmungsgerechter Gewichtung zugeführt, in der die Daten für die wahrnehmungsgerechte Gewichtung ermittelt werden. Diese Gewichtungsdaten werden einem Vektorquantisierer 116 mit wahrnehmungsgerechter Gewichtung, ferner einem Filter 125 mit wahrnehmungsgerechter Gewichtung in der zweiten Kodiereinheit 120 und dem Synthesefilter 122 mit wahrnehmungsgerechter Gewichtung zugeführt.
Die Sinus-Analyse-Kodiereinheit 114 der harmonischen Kodierschaltung analysiert das Ausgangssignal des inversen LPC-Filters 111 durch ein harmonisches Kodierverfahren. Das heißt, es werden eine Tonhöhendetektierung, Berechnungen der Amplituden Am der jeweiligen Harmonischen und eine Stimmhaft/Stimmlos-(V/UV)-Diskriminierung durchgeführt, und die Zahlen der Amplituden Am oder die Hüllkurven der betreffenden Harmonischen, die sich mit der Tonhöhe ändern, werden durch Dimensionsumwandlung konstant gemacht.
In einem illustrativen Beispiel der Sinus-Analyse-Kodiereinheit 114, das in Fig. 3 dargestellt ist, wird eine ganz normale harmonische Kodierung benutzt. Speziell bei der Multiband-Erregungs-(MBE)-Kodierung wird bei der Modellierung davon ausgegangen, daß im gleichen Zeitpunkt (in dem selben Block oder Rahmen) stimmhafte Anteile und stimmlose Anteile in dem Frequenzbereich oder -band vorhanden sind. Bei anderen harmonischen Kodierverfahren wird nur geprüft, ob die Sprache in einem Block oder Rahmen stimmhaft oder stimmlos ist. In der folgenden Beschreibung wird ein gegebener Rahmen als stimmlos (UV) beurteilt, wenn das Band insgesamt UV ist, soweit die MBE-Kodierung betroffen ist.
Der Einheit 141 zur Tonhöhensuche mit offener Schleife und dem Nulldurchgangszähler 142 der Sinus-Analyse-Kodiereinheit 114 von Fig. 3 werden das Eingangssprachsignal von dem Eingang 101 bzw. das Signal aus dem Hochpaßfilter 109 zugeführt. Der orthogonalen Transformationsschaltung 145 der Sinus-Analyse-Kodiereinheit 114 werden die LPC-Reste oder die linearen Prädiktionsreste aus dem inversen LPC-Filter 111 zugeführt. Die Einheit 141 zur Tonhöhensuche mit offener Schleife übernimmt die LPC-Reste der Eingangssignale und führt eine relativ grobe Tonhöhensuche mit offener Schleife durch. Die extrahierten groben Tonhöhendaten werden einer Einheit 146 zur Tonhöhen-Feinsuche mit geschlossener Schleife zugeführt, wie dies weiter unten erläutert wird. Der Maximalwert der normierten Autokorrelation r(p) aus der Einheit 141 zur Tonhöhensuche mit offener Schleife, der durch Normieren des Maximalwerts der Autokorrelation der LPC-Reste gewonnen wird, wird zusammen mit den groben Tonhöhendaten entnommen und der V/UV-Diskriminatoreinheit 115 zugeführt.
Die orthogonale Transformationsschaltung 145 führt eine orthogonale Transformation, z. B. eine diskrete Fourier-Transformation (DFT), durch, um die LPC-Reste auf der Zeitachse in spektrale Amplitudendaten auf der Frequenzachse umzuwandeln. Das Ausgangssignal der orthogonalen Transformationsschaltung 145 wird der Einheit 146 für die Tonhöhen-Feinsuche sowie einer spektralen Bewertungseinheit 148 für die Bewertung der spektralen Amplitude oder Hüllkurve zugeführt.
Der Einheit 146 zur Tonhöhen-Feinsuche werden die relativ groben Tonhöhendaten, die von der Einheit 141 zur Tonhöhensuche mit offener Schleife extrahiert werden, sowie Frequenzdomänendaten zugeführt, die die orthogonale Transformationsschaltung 145 mittels DFT gewinnt. Die Einheit 146 für die Tonhöhen-Feinsuche verändert die Tonhöhendaten um +/- einige Abtastproben mit einer Rate von 0,2 bis 0,5, zentriert um die Daten des groben Tonhöhenwerts, um letztlich bei dem Wert der Tonhöhenfeindaten anzukommen, die ein optimales Dezimalkomma (Fließkomma) haben. Das Analye-Synthese-Verfahren wird als Feinsuchverfahren eingesetzt, um die Tonhöhe so auszuwählen, daß das Leistungsspektrum so nahe wie möglich bei dem Leistungsspektrum des Originaltons liegt. Die Tonhöhendaten aus der Einheit 146 zur Tonhöhen-Feinsuche mit geschlossener Schleife wird über einen Schalter 118 einem Ausgang 104 zugeführt.
In der Spektralbewertungseinheit 148 werden die Amplituden der einzelnen Harmonischen und die spektrale Hüllkurve als Summe der Harmonischen auf der Basis der spektralen Amplitude und der Tonhöhe als Ausgangssignal der orthogonalen Transformation der LPC- Reste bewertet und der Einheit 146 zur Tonhöhen-Feinsuche, der V/UV-Diskriminatoreinheit 115 und der Vektorquantisiereinheit 116 mit wahrnehmungsgerechter Gewichtung zugeführt.
Die V/UV-Diskriminatoreinheit 115 diskriminiert das Verhältnis V/UV eines Rahmens auf der Basis des Ausgangssignals der orthogonalen Transformationsschaltung 145, der optimalen Tonhöhe aus der Einheit 146 zur Tonhöhen-Feinsuche, der Spektralamplitudendaten aus der Spektralbewertungseinheit 148, des Maximalwerts der normierten Autokorrelation r(p) aus der Einheit 141 zur Tonhöhensuche mit offener Schleife und des Nulldurchgangs-Zählwerts aus dem Nulldurchgangszähler 142. Zusätzlich kann auch die Grenzposition der bandbasierten V/UV-Diskriminierung für die MBE als Bedingung für die V/UV-Diskriminierung benutzt werden. Das Diskriminierungs-Ausgangssignal der V/UV-Diskriminatoreinheit 115 wird an einem Ausgang 105 ausgegeben.
Eine Ausgabeeinheit der Spektralbewertungseinheit 148 oder eine Eingabeeinheit der Vektorquantisiereinheit 116 ist mit einer Datenzahl-Wandlereinheit (einer Einheit, die eine Art von Abtastratenwandlung durchführt) ausgestattet. Die Datenzahl-Wandlereinheit dient zum Einstellen der Amplitudendaten Am einer Hüllkurve, wobei die Tatsache berücksichtigt wird, daß die Zahl der Bänder, in die die Frequenzachse aufgeteilt wird, und die Zahl der Daten mit der Tonhöhe differieren. Das heißt, wenn das effektive Band bis 3400 kHz reicht, kann das effektive Band in Abhängigkeit von der Tonhöhe in 8 bis 63 Bänder zerlegt werden. Die Zahl mMX + 1 der Amplitudendaten Am , die von Band zu Band gewonnen werden, ändert sich in einem Bereich von 8 bis 63. Somit wandelt die Datenzahl-Wandlereinheit die Amplitudendaten der variablen Zahl mMX + 1 in eine vorgegebene Datenzahl M, z. B. in 44 Daten, um.
Die Amplitudendaten oder die Hüllkurvendaten in der vorgegebenen Anzahl M, z. B. 44, aus der Datenzahl-Wandlereinheit, die in einer Ausgabeeinheit der Spektralbewertungseinheit 148 oder in einer Eingabeeinheit der Vektorquantisiereinheit 116 angeordnet ist, werden von der Vektorquantisiereinheit 116 in Einheiten mit jeweils einer vorgegebenen Anzahl von Daten, z. B. 44 Daten, gesammelt, indem eine gewichtete Vektorquantisierung durchgeführt wird. Das Gewicht wird über einen Ausgang der Filterrechenschaltung 139 mit wahrnehmungsgerechter Gewichtung zugeführt. Der Index der Hüllkurve aus dem Vektorquantisierer 116 wird über einen Schalter 117 an einem Ausgang 103 ausgegeben. Es ist ratsam, vor der gewichteten Vektorquantisierung die Interframe-Differenz zu ermitteln, wobei ein geeigneter Dämpfungskoeffizient für einen aus einer vorgegebenen Zahl von Daten gebildeten Vektor benutzt wird.
Im folgenden wird die zweite Kodiereinheit 120 erläutert. Die zweite Kodiereinheit 120 besitzt eine sog. CELP-Kodierstruktur und dient speziell zum Kodieren des stimmlosen Anteils des Eingangssprachsignals. Bei der CELP-Kodierstruktur für den stimmlosen Anteil des Eingangssprachsignals wird ein Rausch-Ausgangssignal, das den LPC-Resten des stimmlosen Lauts als repräsentativer Ausgangswert des Geräusch-Codebuchs, das ist das sog. stochastische Codebuch 121, über die Verstärkerschaltung 126 dem wahrnehmungsgerecht gewichteten Synthesefilter 122 zugeführt. Das von dem Eingang 101 über das Hochpaßfilter 109 zugeführte und von dem wahrnehmungsgerecht gewichtenden Filter 125 wahrnehmungsgerecht gewichtete Sprachsignal wird dem Subtrahierer 123 zugeführt, in dem die Differenz oder der Fehler des wahrnehmungsgerecht gewichteten Sprachsignals gegenüber dem Signal aus dem Synthesefilter 122 ermittelt wird. Dieser Fehler wird einer Abstandsberechnungsschaltung 124 zugeführt, um den Abstand zu ermitteln, und mit Hilfe des Geräusch-Codebuchs 121 wird ein repräsentativer Vektorwert gesucht, der den Fehler minimiert. Das obige bildet die Zusammenfassung der Vektorquantisierung der Zeitdomänen- Wellenform, wobei eine Suche in geschlossener Schleife benutzt wird, die ihrerseits mit dem Analyse-Synthese-Verfahren arbeitet.
Als Daten für den stimmlosen (UV)-Anteil aus dem zweiten Dekodierer 120 mit der CELP- Kodierstruktur werden der Formindex des Codebuchs aus dem Geräusch-Codebuch 121 und der Verstärkungsindex des Codebuchs aus der Verstärkerschaltung 126 herangezogen. Der Formindex, der die UV-Daten aus dem Geräusch-Codebuch 121 darstellt, wird über einen Schalter 127s einem Ausgang 107s zugeführt, während der Verstärkungsindex, der die UV-Daten der Verstärkerschaltung 126 darstellt, über einen Schalter 127g einem Ausgang 107g zugeführt wird.
Diese Schalter 127s und 127g sowie die Schalter 117, 118 werden in Abhängigkeit von den Ergebnissen der U/UV-Entscheidung aus der V/UV-Diskriminatoreinheit 115 ein- und ausgeschaltet. Und zwar werden die Schalter 117, 118 eingeschaltet, wenn die Ergebnisse der V/UV-Diskriminierung anzeigen, daß das Sprachsignal des zu übertragenden Rahmens stimmhaft (V) ist, während die Schalter 127s, 127g eingeschaltet werden, wenn das Sprachsignal des zu übertragenden Rahmens stimmlos (UV) ist.
Die von der Kodiereinheit 2 ausgegebenen kodierten Parameter werden der Periodenmodifizierungseinheit 3 zugeführt. Die Periodenmodifizierungseinheit 3 modifiziert die Ausgangsperiode der kodierten Parameter durch Zeitachsen-Kompression/Expansion. Die kodierten Parameter, die von der Periodenmodifizierungseinheit 3 mit modifizierter Periode ausgegeben werden, werden der Dekodiereinheit 4 zugeführt.
Die Dekodiereinheit 4 enthält eine Parametermodifizierungseinheit 5 zum Interpolieren der kodierten Parameter, die von der Periodenmodifizierungseinheit 3 entlang der Zeitachse z. B. komprimiert werden, um modifizierte, kodierte Parameter zu erzeugen, die Zeitpunkten von vorgegebenen Rahmen zugeteilt werden, sowie eine Sprachsynthetisiereinheit 6 zum Synthetisieren des stimmhaften Anteils des Sprachsignals und des stimmlosen Anteils des Sprachsignals auf der Basis der modifizierten, kodierten Parameter.
Anhand von Fig. 4 und 5 wird nun die Dekodiereinheit 4 erläutert. In Fig. 4 werden die Codebuch-Indexdaten als quantisierte Ausgangsdaten der Linienspektrumpaare (LSPs) aus der Periodenmodifizierungseinheit 3 einem Eingang 202 zugeführt. Die Ausgangssignale der Periodenmodifizierungseinheit 3, d. h. Indexdaten, werden als quantisierte Hüllkurvendaten, Tonhöhendaten und Ausgangsdaten der V/UV-Diskriminierung Eingängen 203, 204 bzw. 205 zugeführt. Die Indexdaten aus der Periodenmodifizierungseinheit 3 werden als Daten für einen stimmlosen Sprachanteil auch einem Eingang 207 zugeführt.
Die Indexdaten werden von dem Eingang 203 als quantisiertes Hüllkurven-Ausgangssignal einem inversen Vektorquantisierer 212 zur inversen Quantisierung zugeführt, um die spektrale Hüllkurve der LPC-Reste zu ermitteln. Die spektrale Hüllkurve der LPC-Reste wird, bevor sie einer Synthetisiereinheit 211 für stimmhafte Sprache zugeführt wird, in der Nähe eines in Fig. 4 durch einen Pfeil P1 gekennzeichneten Punkts von dem Parameterprozessor 5 für eine Parametermodifizierung transient entnommen, wie dies im folgenden erläutert wird. Die Indexdaten werden dann der Synthetisiereinheit 211 für stimmhafte Sprache zugeführt.
Die Synthetisiereinheit 211 für stimmhafte Sprache synthetisiert die LPC-Reste des stimmhaften Sprachsignalanteils durch Sinussynthese. Die Tonhöhendaten und die Daten der V/UV-Diskriminierung, die an den Eingängen 204 bzw. 205 anliegen und von der Parameter- Modifiziereinheit 5 für die Parametermodifizierung an den Punkten P2 bzw. P3 in Fig. 4 transient entnommen werden, werden in ähnlicher Weise der Synthetisiereinheit 211 für stimmhafte Sprache zugeführt. Die LPC-Reste der stimmhaften Sprache aus der Synthetisiereinheit 211 für stimmhafte Sprache werden einem LPC-Synthesefilter 214 zugeführt.
Die Indexdaten der UV-Daten werden von dem Eingang 207 einer Synthetisiereinheit 220 für stimmlose Sprache zugeführt. Die Synthetisiereinheit 220 für stimmlose Sprache wandelt die Indexdaten der UV-Daten unter Bezugnahme auf das Geräusch-Codebuch in LPC- Reste des stimmlosen Sprachanteils um. Die Indexdaten der UV-Daten werden von der Parameter-Modifiziereinheit 5 zur Parametermodifizierung, wie in Fig. 4 an dem Punkt P4 angedeutet, aus der Synthetisiereinheit 220 für stimmlose Sprache transient entnommen. Die auf diese Weise mit Parametermodifizierung verarbeiteten LPC-Reste werden auch dem LPC-Synthesefilter 214 zugeführt.
Das LPC-Synthesefilter 214 führt eine unabhängige LPC-Synthese an den LPC-Resten des stimmhaften Sprachsignalanteils und an den LPC-Resten des stimmlosen Sprachsignalanteils durch. Alternativ kann die LPC-Synthese an den summierten LPC-Resten des stimmhaften Sprachsignalanteils und den LPC-Resten des stimmlosen Sprachsignalanteils durchgeführt werden.
Die LSP-Indexdaten an dem Eingang 202 werden einer LPC-Parameter-Regeneriereinheit 213 zugeführt. Obwohl die α-Parameter der LPC letztlich von der LPC-Parameter-Regeneriereinheit 213 erzeugt werden, werden die einer inversen Vektorquantisierung unterzogenen Daten der LSP für die Parametermodifizierung teilweise von der Parameter-Modifiziereinheit 5 herausgezogen, wie dies durch den Pfeil P5 angedeutet ist.
Die auf diese Weise durch Parametermodifizierung verarbeiteten, dequantisierten Daten werden der LPC-Parameter-Regeneriereinheit 213 zur LPC-Interpolation zugeführt. Die dequantisierten Daten werden dann in α-Parameter der LPC umgewandelt, die dem LPC-Synthesefilter 214 zugeführt werden. Die von dem LPC-Synthesefilter 214 durch LPC-Synthese gewonnenen Sprachsignale werden an dem Ausgang 201 ausgegeben. Die in Fig. 4 dargestellte Sprachsynthetisiereinheit 6 nimmt die von der Parameter-Modifiziereinheit 5 berechneten, modifizierten, kodierten Parameter auf und gibt die synthetisierte Sprache aus. Der praktische Aufbau der Sprachsynthetisiereinheit ist in Fig. 5 dargestellt, in der Teile oder Komponenten, die Teilen und Komponenten von Fig. 4 entsprechen, mit den gleichen Bezugszeichen versehen sind wie dort.
In der Anordnung von Fig. 5 werden die an dem Eingang 202 anliegenden LSP-Indexdaten einem inversen Vektorquantisierer 231 für LSPs in der LPC-Parameter-Regeneriereinheit 213 zugeführt und einer inversen Vektorquantisierung in LSPs (Linienspektrumpaare) unterzogen, die der Parameter-Modifiziereinheit 5 zugeführt werden.
Die vektorquantisierten Indexdaten der spektralen Hüllkurve Am werden von dem Eingang dem inversen Vektorquantisierer 212 zur inversen Vektorquantisierung zugeführt und in Daten der spektralen Hüllkurve umgewandelt, die der Parameter-Modifiziereinheit 5 zugeführt werden.
Die Tonhöhendaten und die Daten der V/UV-Diskriminierung, die an den Eingängen 204 bzw. 205 anliegen, werden ebenfalls der Parameter-Modifiziereinheit 5 zugeführt.
Den Eingängen 207s und 207g in Fig. 5 werden Formindexdaten und Verstärkungsindexdaten als UV-Daten von Ausgängen 107s und 107g in Fig. 3 über die Periodenmodifizierungseinheit 3 zugeführt. Die Formindexdaten und die Verstärkungsindexdaten werden dann der Synthetisiereinheit 220 für stimmlose Sprache zugeführt. Die Formindexdaten an dem Eingang 207s und die Verstärkungsindexdaten an dem Eingang 207g werden einem Geräusch- Codebuch 221 bzw. einer Verstärkerschaltung 222 der Synthetisiereinheit 220 für stimmlose Sprache zugeführt. Ein repräsentativer Ausgangswert, der aus dem Geräusch-Codebuch 221 ausgelesen wird, ist die Geräuschsignalkomponente, die den LPC-Resten der stimmlosen Sprache entspricht und in der Verstärkerschaltung 22 zu einer Amplitude mit einer vorgegebenen Verstärkung wird. Das resultierende Signal wird der Parameter-Modifiziereinheit 5 zugeführt.
Die Parameter-Modifiziereinheit 5 interpoliert die kodierten Parameter, die von der Kodiereinheit 2 ausgegeben werden und deren Ausgangsperiode von der Periodenmodifizierungseinheit 3 modifiziert wurde, um modifizierte, kodierte Parameter zu erzeugen, die der Sprachsynthetisiereinheit 6 zugeführt werden. Die Periodenmodifizierungseinheit 3 bewirkt eine Geschwindigkeitsmodifizierung der kodierten Parameter. Dadurch wird die Geschwindigkeitsmodifizierung nach der Ausgabe des Dekodierers eliminiert, so daß das Sprachsignalwiedergabegerät 1 unterschiedliche feste Raten mit ähnlichen Algorithmen verarbeiten kann.
Anhand der Flußdiagramme von Fig. 6 und 8 wird die Arbeitsweise der Periodenmodifiziereinheit 3 und der Parameter-Modifiziereinheit 5 erläutert.
In dem Schritt S1 von Fig. 6 nimmt die Periodenmodifiziereinheit 3 kodierte Parameter, z. B. LSPs, Tonhöhe, stimmhaft/stimmlos (V/UV), die spektrale Hüllkurve Am oder LPC-Reste auf. Die LSPs, die Tonhöhe, V/UV, Am und die LPC-Reste sind mit Isp[n][p], Pch[n],vuv[n], am[n][k] bzw. res[n][i][j] bezeichnet.
Die modifizierten, kodierten Parameter, die letztlich von der Parameter-Modifiziereinheit 5 berechnet werden, sind mit mod_Isp[m][p], mod_pch[m], mod_vuv[m], mod_am[m][k] und mod_res[m][i][j] bezeichnet, wobei k und p die Zahl der Harmonischen bzw. die Zahl der LSP- Ordnungen bezeichnen. Die Größen n und m bezeichnen jeweils Rahmennummern, die Zeitdomänen-Indexdaten vor bzw. nach der Zeitachsenumwandlung entsprechen. Jede der Größen n und m bezeichnet einen Index eines Rahmens, der ein Intervall von 20 ms hat, während i und j eine Unterrahmennummer bzw. eine Abtastprobennummer bezeichnen.
Die Periodenmodifiziereinheit 3 setzt dann die Zahl der Rahmen, die die originale Zeitdauer repräsentiert, und die Zahl der Rahmen, die die Zeitdauer nach der Modifizierung repräsentiert, auf N&sub1; bzw. N&sub2;, wie dies in dem Schritt S2 dargestellt ist. Die Periodenmodifiziereinheit unternimmt dann eine Zeitachsenkomprimierung der Sprache N&sub1; in die Sprache N&sub2;, wie dies in dem Schritt S3 dargestellt ist. Das Zeitachsen-Kompressionsverhältnis spd in der Periodenmodifiziereinheit 3 wird ermittelt als spd = N&sub2;/N&sub1;, wobei 0 ≤ n ≤ N&sub1; und 0 m < N&sub2;.
Die Parameter-Modifiziereinheit 5 setzt dann den Wert m, der der Rahmennummer entspricht, die ihrerseits den Index der Zeitachse nach der Zeitachsenmodifizierung entspricht, auf 2.
Die Parameter-Modifiziereinheit 5 ermittelt dann zwei Rahmen fr&sub0; und fr&sub1; und die Differenzen links und rechts zwischen den zwei Rahmen fr&sub0; und fr&sub1; und das Verhältnis m/spd.
Wenn die Parameter Isp, pch, vuv, am und res mit * bezeichnet werden, kann mod_*[m] durch die folgende allgemeine Formel dargestellt werden
mod_*[m] = *[m/spd]
worin 0 = m < N&sub2;. Da m/spd jedoch keine ganze Zahl ist, wird der modifizierte, kodierte Parameter bei m/spd durch Interpolation aus zwei Rahmen
fr&sub0; = m/spd
und
fr&sub1; = f&sub0; + 1
erzeugt.
Zwischen dem Rahmen fr&sub0;, m/spd und dem Rahmen fr&sub1; gilt die in Fig. 7 dargestellte Beziehung, nämlich
links = m/spd - fr&sub0;
rechts = fr&sub1; - m/spd.
Die kodierten Parameter für m/spd in Fig. 7, d. h. die modifizierten, kodierten Parameter können durch Interpolation ermittelt werden, wie dies in dem Schritt S6 dargestellt ist.
Der modifizierte, kodierte Parameter wird einfach durch lineare Interpolation ermittelt:
mod_*[m] = *[fr&sub0;] · rechts + *[fr&sub1;] · links
Mit der Interpolation zwischen den beiden Rahmen fr&sub0; und fr&sub1; kann die obige allgemeine Formel jedoch nicht benutzt werden, wenn die beiden Rahmen bezüglich V/UV unterschiedlich sind, d. h., wenn einer der beiden Rahmen V und der andere UV ist. Deshalb variiert die Parameter-Modifiziereinheit 5 die Methode zur Ermittlung der kodierten Parameter in Abhängigkeit von der Eigenschaft stimmhaft (V) oder stimmlos (UV) der beiden Rahmen fr&sub0; und fr1, wie dies durch die Schritte S11 ff. von Fig. 8 angedeutet ist.
Zuerst wird der stimmhafte (V) oder stimmlose (UV) Charakter der beiden Rahmen fr&sub0; und fr&sub1; festgestellt, wie dies in dem Schritt S11 dargestellt ist. Wenn die beiden Rahmen fr&sub0; und fr&sub1; beide als stimmhaft (V) identifiziert werden, geht die Verarbeitung weiter zu dem Schritt S12, in welchem alle Parameter linear interpoliert und durch die folgenden Ausdrücke dargestellt werden:
mod_pch[m] = pch[fr&sub0;] · rechts + pch[fr&sub1;] · links
mod_am[m][k] = am[fr&sub0;][k] · rechts + am[fr&sub1;][k] · links
worin 0 ≤ k < 1, wobei L die maximal mögliche Zahl der Harmonischen bedeutet. Für am[n][k] wird Null an solchen Positionen eingefügt, an denen sich keine Harmonischen befinden. Wenn die Zahl der Harmonischen zwischen den Rahmen fr&sub0; und fr&sub1; differiert, werden an vakanten Positionen Nullen eingefügt. Alternativ kann eine feste Zahl wie 0 = k < L benutzt werden, wobei L = 43, wenn vor den Durchgang durch eine Anzahl von Datenwandlern auf der Dekodiererseite
mod_Isp[m][p] = Isp[fr&sub0;][p] · rechts + Isp[fr&sub1;][p] · links
worin 0 = p < P, wobei P die Zahl der Ordnungen der LSPs bezeichnet, die üblicherweise gleich 10 ist.
mod_vuv[m] = 1
Bei der V/UV-Diskriminierung bedeuten 1 und 0 stimmhaft (V) bzw. stimmlos (UV).
Wenn in dem Schritt S11 keiner der beiden Rahmen fr&sub0; und fr&sub1; als stimmhaft (V) identifiziert wird, wird in dem Schritt S13 geprüft, ob beide Rahmen fr&sub0; und fr&sub1; stimmlos (UV) sind. Wenn das Ergebnis der Prüfung in dem Schritt S13 JA lautet, d. h. wenn beide Rahmen stimmlos sind, schneidet die Interpoliereinheit 5 80 Abtastproben vor und hinter res, mit m/spd als Zentrum und mit pch als Maximalwert aus, wie dies in dem Schritt S14 dargestellt ist.
Falls in dem Schritt S14 links < rechts ist, werden 80 Abtastproben vor und hinter res, um m/spd zentriert, abgeschnitten und in mod_res eingefügt, wie dies in Fig. 9A dargestellt ist. Das heißt
für (j = 0; j < FRM · (1/2 - m/spd + fr&sub0;); j++ {mod_res[m][0][j] = res[fr&sub0;][0][j + (m/spd - fr&sub0;) · FRM]; };
für j = FRM · (1/2 - m/spd + fr&sub0;); j < FRM/2; j++) {mod_res[m][0][j] = res[m][0][j] = res[fr&sub0;][1][j - FRM · (1/2 - m/spd + fr&sub0;)];};
für (j = 0; j < FRM · (1/2 - m/spd + fr&sub0;); j++) {mod_res[m][1][j] = res[fr&sub0;][1][j + (m/spd - fr0) · FRM];};
für (j = FRM · (1/2 - m/spd + fr&sub0;); j = FRM/2; j++) {mod_res[m][1][j] = res[fr&sub0;][0][j + FRM · (1/2 - m/spd + fr&sub0;)];};
worin FRM z. B. gleich 160 ist.
Wenn in dem Schritt S14 hingegen links ≥ rechts ist, schneidet die Interpoliereinheit 5 80 Abtastproben vor und hinter res, um m/spd zentriert, heraus, um mod_res zu erzeugen, wie dies in Fig. 9B dargestellt ist.
Wenn die Bedingung von Schritt S13 nicht erfüllt ist, geht die Verarbeitung weiter zu dem Schritt S15, in welchem geprüft wird, ob der Rahmen fr&sub0; stimmhaft (V) und der Rahmen fr&sub1; stimmlos (UV) ist. Wenn das Ergebnis der Prüfung JA lautet, d. h. wenn der Rahmen fr&sub0; stimmhaft (V) und der Rahmen fr&sub1; stimmlos (UV) ist, geht die Verarbeitung weiter zu dem Schritt S16. Wenn das Ergebnis der Prüfung NEIN lautet, d. h. wenn der Rahmen fr&sub0; stimmlos (UV) und der Rahmen fr&sub1; stimmhaft (V) ist, geht die Verarbeitung weiter zu dem Schritt S17.
In der Verarbeitung nach dem Schritt S15 ff. sind die beiden Rahmen fr&sub0; und fr&sub1; bezüglich V/UV, d. h. stimmhaft (V) zu stimmlos (UV), unterschiedlich. Dies berücksichtigt die Tatsache, daß das Interpolationsergebnis bedeutungslos wird, wenn Parameter zwischen zwei Rahmen fr&sub0; und fr&sub1; interpoliert werden, die bezüglich V/UV unterschiedlich sind.
In dem Schritt S16 werden die Größe von links (= m/spd - fr&sub0;) und von rechts (= fr&sub1; - m/spd) miteinander verglichen, um zu prüfen, ob der Rahmen fr&sub0; näher an m/spd liegt.
Falls der Rahmen fr&sub0; näher an m/spd liegt, werden die modifizierten, kodierten Parameter unter Verwendung der Parameter des Rahmens fr&sub0; so gesetzt, daß
mod_pch[m] = pth[fr&sub0;]
mod_am[m][k) = am[fr&sub0;][k], worin 0 ≤ k < L;
mod_Isp[m][p] = Isp[fr&sub0;][p] worin 0 ≤ p < I; und
mod_vuu[m] = 1
wie dies in dem Schritt S18 dargestellt ist.
Falls das Ergebnis in dem Schritt S16 NEIN lautet, d. h. links ≥ rechts ist, so daß der Rahmen fr&sub1; näher liegt, geht die Verarbeitung weiter zu dem Schritt S19, um die Tonhöhe zu maximieren. Außerdem wird res des Rahmens fr&sub1; direkt benutzt, wie dies in Fig. 9C dargestellt ist, und als mod_res gesetzt. Das heißt, mod_resm][I][j] = resfr&sub1;[I][j]. Der Grund hierfür liegt darin, daß die LPC-Reste res für einen stimmhaften Rahmen fr&sub0; nicht übertragen werden.
In dem Schritt S17 wird auf der Basis der Prüfung von Schritt S15 in ähnlicher Weise wie in dem Schritt S16 geprüft, ob die beiden Rahmen fr&sub0; und fr&sub1; stimmlos (UV) bzw. stimmhaft (V) sind. Das heißt die Größen links (= m/spd - fr&sub0;) und rechts (= fr&sub1; - m/spd) werden miteinander verglichen, um festzustellen, ob der Rahmen fr&sub0; näher an m/spd) liegt oder nicht.
Falls der Rahmen fr&sub0; näher liegt, geht die Verarbeitung weiter zu dem Schritt S18, um die Tonhöhe zu maximieren. Außerdem wird res des Rahmens fr&sub0; direkt benutzt und als mod_res gesetzt. Das heißt, mod_resm][I][j] = resfr&sub0;[I][j]. Der Grund hierfür liegt darin, daß die LPC- Reste res für einen stimmhaften Rahmen fr&sub1; nicht übertragen werden.
Wenn das Ergebnis der Prüfung in dem Schritt S17 NEIN lautet, ist links ≥ rechts, und deshalb liegt der Rahmen fr&sub0; näher an m/spd, so daß die Verarbeitung zu dem Schritt S21 fortschreitet und die modifizierten, kodierten Parameter unter Verwendung der Parameter des Rahmens fr&sub1; gesetzt werden, so daß
mod_pch[m] = pch[fr&sub1;]
mod_am[m][k] = am[fr&sub1;][k], worin 0 = k < L;
mod_Isp[m][p] = Isp[fr&sub1;][p], worin 0 = p < I; und
mod_vuu[m] = 1
Auf diese Weise sieht die Interpoliereinheit 5 in Abhängigkeit von dem V/UV-Charakter der beiden Rahmen fr&sub0; und fr&sub1; unterschiedliche Operationen für die Interpolation von Schritt S6 in Fig. 6 vor, die in Fig. 8 im Detail dargestellt sind. Nach dem Ende der Interpolation in dem Schritt S6 geht die Verarbeitung weiter zu dem Schritt S7, in welchem der Wert m inkrementiert wird. Die Operationen der Schritte S5 und S6 werden solange wiederholt, bis der Wert von m gleich N&sub2; wird.
Die Operationen in der Periodenmodifiziereinheit 3 und in der Parameter-Modifiziereinheit 5 werden anhand von Fig. 10 kollektiv erläutert. Nach der Darstellung in Fig. 10A wird die Periode der Kodierparameter, die alle 20 ms einer Periode von der Kodiereinheit 2 extrahiert werden, von der Periodenmodifiziereinheit 5 durch Zeitachsenkompression auf 15 ms modifiziert, wie dies in Fig. 10A dargestellt ist. Durch die Interpolation in Abhängigkeit von dem Zustand V/UV der beiden Rahmen fr&sub0; und fr&sub1; berechnet die Parameter-Modifiziereinheit 5 die modifizierten, kodierten Parameter alle 20 ms, wie dies in Fig. 10C dargestellt ist.
Die Operationen der Periodenmodifiziereinheit 3 und der Parameter-Modifiziereinheit 5 können in ihrer Reihenfolge umgekehrt werden, d. h. die in Fig. 11A dargestellten kodierten Parameter werden zunächst interpoliert, wie dies in Fig. 11B dargestellt ist, und anschließend komprimiert, wie dies in Fig. 11 C dargestellt ist, um die modifizierten, kodierten Parameter zu berechnen.
Es sei noch einmal auf Fig. 5 Bezug genommen. Die modifizierten, kodierten Parameter mod_Isp[m][p] an den LSP-Daten, die von der Parameter-Modifiziereinheit 5 berechnet werden, werden LSP-Interpolierschaltungen 232v, 232u für die LSP-Interpolation zugeführt. Die resultierenden Daten werden von LSP/α-Wandlerschaltungen 234v, 234uv zur Umwandlung in einen α-Parameter für die lineare prädiktive Kodierung (LPC) umgewandelt, der dem LPC- Synthesefilter 214 zugeführt wird. Die LSP-Interpolationsschaltung 232v und die LSP/α- Wandlerschaltung 234v werden für den stimmhaften (V)-Signalanteil benutzt, während die LSP-Interpolationsschaltung 232u und die LSP/α-Wandlerschaltung 234u für den stimmlosen (UV)-Signalanteil benutzt werden. Das LPC-Synthesefilter 214 besteht aus einem LPC- Filter 236 für den stimmhaften Anteil und einem LPC-Synthesefilter 237 für den stimmlosen Anteil. Das heißt, die Interpolation der LPC-Koeffizienten für den stimmhaften Anteil und den stimmlosen Anteil wird unabhängig durchgeführt, um nachteilige Auswirkungen zu verhindern, die andernfalls durch die Interpolation von LSPs mit völlig unterschiedlichem Charakter in einer Übergangsregion von einem stimmhaften Anteil zu einem stimmlosen Anteil oder in einer Übergangsregion von einem stimmhaften Anteil zu einem stimmlosen Anteil erzeugt werden.
Der modifizierte, kodierte Parameter für die spektralen Hüllkurvendaten mod_am[m][k], der von der Parameter-Modifiziereinheit 5 ermittelt wurde, wird einer Sinussyntheseschaltung 215 der Synthetisiereinheit 211 für stimmhafte Sprache zugeführt. Außerdem wird der Synthetisiereinheit 211 für stimmhafte Sprache der modifizierte, kodierte Parameter zur Tonhöhe mod_pch[m] und der modifizierte, kodierte Parameter mod_vuv[m] zu den V/UV-Entscheidungsdaten zugeführt, wie sie von der Parameter-Modifiziereinheit 5 berechnet werden. Aus der Sinussyntheseschaltung 215 werden die dem Ausgangssignal des inversen LPC-Filters 111 von Fig. 3 entsprechenden Daten der LPC-Reste entnommen und einem Addierer 218 zugeführt.
Der modifizierte, kodierte Parameter zu den spektralen Hüllkurvendaten mod_am[m][k], der modifizierte, kodierte Parameter zur Tonhöhe mod_pch[m] und der modifizierte, kodierte Parameter zu den V/UV-Entscheidungsdaten mod_vuu[m], die von der Parameter-Modifiziereinheit 5 ermittelt werden, werden einer Geräusch-Syntheseschaltung 216 zur Geräuschaddition für den stimmhaften (V)-Anteil zugeführt. Das Ausgangssignal der Geräusch-Syntheseschaltung 216 wird dem Addierer 218 über eine gewichtete Überlappungs- und Addierschaltung 217 zugeführt. Das Geräusch, das die Parameter berücksichtigt, die aus den kodierten Sprachdaten, wie Tonhöhe, Amplituden der spektralen Hüllkurve, maximale Amplitude in dem Rahmen oder restlicher Signalpegel, abgeleitet werden, wird zu dem stimmhaften Anteil des LPC-Restsignal des Eingangssignals des LPC-Synthesefilters, d. h. der Erregung, hinzugefügt, wobei berücksichtigt wird, daß dann, wenn das Eingangssignal des LPC-Synthesefilters für stimmhafte Sprache, d. h. die Erregung, durch Sinussynthese erzeugt wird, bei einem Klang mit niedriger Tonhöhe, wie der Sprache eines männlichen Sprechers, ein dumpfer Höreindruck entsteht, während die Tonqualität in den V- und UV- Sprachanteilen abrupt wechselt und so einen unnatürlichen Höreindruck erzeugt.
Das Summenausgangssignal des Addierers 218 wird dem Synthesefilter 236 für stimmhafte Sprache zugeführt, das die Zeitwellenformdaten durch LPC-Synthese erzeugt. Die resultierenden Zeitwellenformdaten werden in einem Nachfilter 238v gefiltert und dann einem Addierer 239 zugeführt.
Es ist zu beachten, daß das LPC-Synthesefilter 214 in das Synthesefilter 236 für stimmhafte Sprache und das Synthesefilter 237 für stimmlose Sprache unterteilt ist, wie dies oben erläutert wurde. Wenn das Synthesefilter nicht in dieser Weise unterteilt ist, d. h. wenn die LSPs kontinuierlich alle 20 Abtastproben oder alle 2,5 ms interpoliert werden, ohne daß eine Unterscheidung zwischen V- und UV-Signalanteilen getroffen wird, werden die LSPs mit total unterschiedlichem Charakter in den Übergangsbereichen von U nach UV und von UV nach V interpoliert, so daß ein fremdartiger Klang erzeugt wird. Um diese nachteiligen Auswirkungen zu vermeiden, ist das LPC-Synthesefilter in das Filter für stimmhafte Sprache und das Filter für stimmlose Sprache unterteilt, so daß die LPC-Koeffizienten unabhängig für V und UV interpoliert werden.
Die modifizierten, kodierten Parameter zu den LPC-Resten mod_resm][i][j], wie sie von der Parameter-Modifiziereinheit 5 berechnet werden, werden der Fensterschaltung 223 zur Fensterung zugeführt, um die Verbindungsbereiche zu dem stimmhaften Sprachanteil zu glätten.
Das Ausgangssignal der Fensterschaltung 223 wird dem UV-Synthesefilter 237 des LPC- Synthesefilters 214 als Ausgangssignal der Synthetisiereinheit 220 für stimmlose Sprache zugeführt. Das Synthesefilter 237 unterzieht die Daten einer LPC-Synthese, um Zeitwellenformdaten für den stimmlosen Anteil zu erzeugen, die in einem Nachfilter 238u für stimmlose Sprache gefiltert und dann dem Addierer 239 zugeführt werden.
Der Addierer 239 addiert das Zeitwellenformsignal des stimmhaften Anteils aus dem Nachfilter 238v für den stimmhaften Sprachanteil zu den Zeitwellenformdaten für den stimmlosen Sprachanteil aus dem Nachfilter 238u für den stimmlosen Sprachanteil und gibt die resultierenden Daten an einem Ausgang 201 aus.
Auf diese Weise wird in dem vorliegenden Sprachsignalwiedergabegerät 1 ein Array von modifizierten, kodierten Parametern mod_*[m] mit 0 = m < N&sub2; anstelle des eigentlichen Arrays *[n], mit 0 = n < N&sub1;, dekodiert. Das Rahmenintervall während der Dekodierung kann, wie üblich, auf 20 ms festgelegt sein. In diesem Fall kann für N&sub2; < N&sub1; eine Zeitachsenkomprimierung und die resultierende Beschleunigung der Wiedergaberate realisiert werden, während für N&sub2; > N&sub1; eine Zeitachsenexpandierung und eine resultierende Verringerung der Wiedergaberate realisiert werden kann.
Bei dem vorliegenden System wird die letztlich gewonnene Parameterreihe in einem inhärenten Abstand von 20 ms für die Dekodierung angeordnet, so daß leicht eine optionale Beschleunigung erreicht werden kann. Darüber lassen sich eine Beschleunigung und eine Verzögerung unterschiedslos durch die gleiche Verarbeitungsoperation realisieren.
Infolgedessen können die Inhalte einer Festkörperaufzeichnung mit einer Geschwindigkeit wiedergegeben werden, die doppelt so groß ist wie die Echtzeitgeschwindigkeit. Da trotz der erhöhten Wiedergabegeschwindigkeit Tonhöhe und Phoneme unverändert bleiben, kann der Aufzeichnungsinhalt trotz der Wiedergabe mit signifikant höherer Wiedergabegeschwindigkeit erkannt werden.
Wenn N&sub2; < N&sub1;, d. h. wenn die Wiedergabegeschwindigkeit verringert wird, wird der Klang bei der Wiedergabe tendenziell unnatürlich, da im Falle eines stimmlosen Rahmens aus den gleichen LPC-Resten res mehrere Parameter mod_res erzeugt werden. In diesem Fall kann den Parametern mod_res eine geeignete Menge an Geräusch hinzugefügt werden, um eine solche Unnatürlichkeit bis zu einem gewissen Grad zu eliminieren. Statt das Geräusch zuzusetzen, können die Parameter mod_res auch durch ein in geeigneter Weise erzeugtes Gaußsches Rauschen ersetzt werden, oder es kann der Erregungsvektor benutzt werden, der in einer Zufallsfolge aus dem Codebuch ausgewählt wird.
Bei dem oben beschriebenen Sprachsignalwiedergabegerät 1 wird die Zeitachse der Ausgangsperiode der kodierten Parameter aus der Kodiereinheit 2 durch die Periodenmodifiziereinheit 3 komprimiert, um die Wiedergabegeschwindigkeit zu erhöhen. Zur Steuerung der Wiedergabegeschwindigkeit kann die Rahmenlänge jedoch mit Hilfe der Dekodiereinheit 4 variabel gemacht werden.
Da die Rahmenlänge variabel gemacht wird, wird die Rahmenzahl n vor und nach der Parametererzeugung in der Parameter-Modifiziereinheit 5 der Dekodiereinheit 4 in einem solchen Fall nicht geändert.
Unabhängig davon, ob der jeweilige Rahmen stimmhaft oder stimmlos ist, modifiziert die Parameter-Modifiziereinheit 5 die Parameter Isp[n][p] und vuv[n] in mod_Isp[n][p] bzw. in mod_vuv[n].
Wenn mod_vuv[n] gleich 1 ist, d. h. wenn der betreffende Rahmen stimmhaft (V) ist, werden die Parameter pch[n] und am[n][k] in mod_pch[n] bzw. in mod_am[n][k] modifiziert.
Wenn mod_vuv[n] gleich 0 ist, d. h. wenn der betreffende Rahmen stimmlos (UV) ist, wird der Parameter resn][i][j] in mod_resn][i][j] modifiziert.
Die Parameter-Modifiziereinheit 5 modifiziert Isp[n][p], pch[n], vuv[n] und am[n][k] direkt in mod_Isp[n][p], pch[n], mod_vuv[n] bzw. in mod_am[n][k]. Die Parameter-Modifiziereinheit variiert das Restsignal mod_resn][i][j] jedoch in Abhängigkeit von der Geschwindigkeit spd.
Wenn die Geschwindigkeit spd < 1,0, d. h. wenn die Geschwindigkeit größer ist, werden die Restsignale des Originalsignals in der Mitte geteilt, wie dies in Fig. 12 dargestellt ist. Wenn die originale Rahmenlänge gleich orgFrmL ist, wird (orgFrmL - frmL)/2 ≤ j ≤ (orgFrmL + frmL)/2 aus dem originalen Rahmen resn][i] herausgeschnitten und ergibt mod_resn][i]. Es ist auch möglich, das Ausschneiden an dem vorderen Ende des originalen Rahmens ausführen.
Wenn die Geschwindigkeit spd > 1,0, d. h. wenn die Geschwindigkeit niedriger ist, wird der Originalrahmen benutzt, und für einen fehlenden Teil wird ein originaler Rahmen mit Geräuschkomponenten hinzugefügt. Es kann auch ein dekodierter Erregungsvektor benutzt werden, dem ein in geeigneter Weise erzeugtes Geräusch zugesetzt ist. Das Gaußsche Rauschen kann als Erregungsvektor erzeugt und benutzt werden, um den fremdartigen Eindruck zu reduzieren, der durch eine Aufeinanderfolge von Rahmen mit gleicher Wellenform erzeugt wird. Die oben genannten Geräuschkomponenten können auch an beiden Enden des originalen Rahmens zugesetzt werden.
Im Fall des Sprachsignalwiedergabegeräts 1, das so konfiguriert ist, daß die Geschwindigkeitssteuerung durch Variieren der Rahmenlänge geändert wird, ist die Sprachsyntheseeinheit 6 so aufgebaut und ausgebildet, daß die LSP-Interpolationseinheiten 232v und 232u, die Sinus-Synthetisiereinheit 115 und die Fenstereinheit 223 unterschiedliche Operationen zur Steuerung der Geschwindigkeit durch Kompandierung der Zeitachse ausführen.
Die LSP-Interpolationseinheit 232v ermittelt die kleinste ganze Zahl p, die die Beziehung frmL/p ≤ 20 erfüllt, wenn der in Rede stehende Rahmen stimmhaft (V) ist. Die LSP-Interpolationseinheit 232u ermittelt die kleinste ganze Zahl p, die die Beziehung frmL/p 80 erfüllt, wenn der in Rede stehende Rahmen stimmlos (UV) ist. Der Bereich des Teilrahmen subl[i][j] für die LSP-Interpolation wird durch die folgende Gleichung bestimmt:
nint(frmL/p · i) ≤ j ≤ nint(frmL/p · (I+j), worin 0 ≤ I ≤ p-1.
In dieser Gleichung ist nint(x) eine Funktion, die durch Runden der ersten Dezimalstelle einen ganzzahligen Wert liefert, der x am nächsten liegt. Sowohl für stimmhafte als auch für stimmlose Laute ist p = 1, wenn frmL kleiner als 20 bzw. 80 ist.
Für den i-ten Teilrahmen werden beispielsweise die LSPs mit einer Rate von frmL · (2p - 2i - 1)/(20:frmL · (2i + 1)/2p interpoliert, da das Zentrum des Teilrahmens frmL · (2i + 1)/2p ist, wie dies in unserer anhängigen JP-Patentanmeldung Nr. 6-198451 offenbart ist.
Alternativ kann die Zahl der Teilrahmen festgelegt werden, und die LSPs jedes Teilrahmens können jederzeit in dem gleichen Verhältnis interpoliert werden. Die Sinus-Synthetisiereinheit 223 modifiziert die Fensterlänge, um sie an die Rahmenlänge frmL anzupassen.
Bei dem oben beschriebenen Sprachsignalwiedergabegerät 1 werden die kodierten Parameter, deren Ausgangsperiode auf der Zeitachse kompandiert wurde, mit Hilfe der Periodenmodifiziereinheit 3 und der Parameter-Modifiziereinheit 5 modifiziert, um die Wiedergabegeschwindigkeit ohne Änderung der Tonhöhe oder Phoneme zu variieren. Es ist jedoch auch möglich, die Periodenmodifiziereinheit 3 wegzulassen und die kodierten Daten aus der Kodiereinheit 2 durch eine Datenzahl-Wandlereinheit 270 der in Fig. 14 dargestellten Dekodiereinheit 8 zu verarbeiten, um die Tonhöhe ohne Änderung der Phoneme zu variieren. In Fig. 14 sind Teile und Komponenten, die Teilen und Komponenten von Fig. 4 entsprechen, mit den gleichen Bezugszeichen versehen wie dort.
Das Grundkonzept der Dekodiereinheit 8 besteht darin, die Grundfrequenz der Harmonischen der kodierten Sprachdaten, die aus der Kodiereinheit 2 zugeführt werden, und die Zahl der Amplitudendaten in einem vorgegebenen Band durch eine Datenzahl-Wandlereinheit 270 umzuwandeln, die als Datenwandlereinrichtung arbeitet, welche nur die Tonhöhe variiert, ohne die Phoneme zu ändern. Die Datenzahl-Wandlereinheit 270 variiert die Tonhöhe durch Modifizieren der Datenzahl, die die Größe der spektralen Komponenten in jeder Eingangs-Harmonischen spezifiziert.
In der Anordnung von Fig. 14 werden ein vektorquantisiertes Ausgangssignal von LSPs, das dem Ausgangssignal an dem Ausgang 102 von Fig. 2 und 3 entspricht, oder Codebuch-Indizes dem Eingang 202 zugeführt.
Die LSP-Indexdaten werden einem inversen Vektorquantisierer 231 in der LPC-Parameterreproduktionseinheit 213 zur inversen Vektorquantisierung in Linienspektrumpaare (LSPs) zugeführt. Die LSPs werden LSP-Interpolationsschaltungen 232, 233 für die Interpolation und anschließend LSP/α-Wandlerschaltungen, 234, 235 für die Umwandlung in α-Parameter von linearen Prädiktionscodes zugeführt. Diese α-Parameter werden dem LPC-Synthesefilter 214 zugeführt. Die LSP-Interpolationsschaltung 232 und die LSP/α-Wandlerschaltung 234 werden für den stimmhaften (V)-Signalanteil benutzt, während die LSP-Interpolationsschaltung 233 und die LSP/α-Wandlerschaltung 235 für den stimmlosen (UV)-Signalanteil benutzt werden. Das LPC-Synthesefilter 214 besteht aus einem LPC-Synthesefilter 236 für den stimmhaften Anteil und einem LPC-Synthesefilter 237 für den stimmlosen Anteil. Das heißt, die LPC-Koeffizienten für den stimmhaften Anteil und den stimmlosen Anteil werden unabhängig interpoliert, um nachteilige Auswirkungen zu verhindern, die andernfalls durch Interpolation von LSPs total unterschiedlichen Charakters an einer Übergangsregion von dem stimmhaften Anteil zu dem stimmlosen Anteil oder an einer Übergangsregion von dem stimmlosen Anteil zu dem stimmhaften Anteil erzeugt werden.
Einem Eingang 203 in Fig. 14 werden gewichtete, vektorquantisierte Codeindexdaten der spektralen Hüllkurve Am zugeführt, die dem Ausgangssignal an dem Ausgang 103 des in Fig. 2 und 3 dargestellten Kodierers entsprechen. Einem Eingang 205 werden V/UV-Entscheidungsdaten von dem Ausgang 105 von Fig. 2 und 3 zugeführt.
Die vektorquantisierten Indexdaten der spektralen Hüllkurve Am von dem Eingang 203 werden dem inversen Vektorquantisierer 212 für die inverse Vektorquantisierung zugeführt. Die Zahl der Amplitudendaten der invers vektorquantisierten Hüllkurve ist auf einen vorgegebenen Wert von beispielsweise 44 festgelegt. Im Grunde wird die Datenzahl so umgewandelt, daß sie die Zahl der Harmonischen ergibt, die den Tonhöhendaten entspricht. Wenn gewünscht wird, die Tonhöhe zu ändern, wie dies in dem vorliegenden Ausführungsbeispiel der Fall ist, werden die Hüllkurvendaten aus dem inversen Vektorquantisierer 212 der Datenzahl-Wandlerschaltung 270 zugeführt, um die Zahl der Amplitudendaten, z. B. durch Interpolation, in Abhängigkeit von dem gewünschten Tonhöhenwert zu variieren.
Der Datenzahl-Wandlereinheit 270 werden auch Tonhöhendaten von dem Eingang 204 zugeführt, so daß die Tonhöhe bei der Kodierung auf eine gewünschte Tonhöhe geändert wird, die dann ausgegeben wird. Die Amplitudendaten und die modifizierten Tonhöhendaten werden der Sinussyntheseschaltung 215 der Synthetisiereinheit 211 für stimmhafte Sprache zugeführt. Die Zahl der Amplitudendaten, die der Syntheseschaltung 215 zugeführt werden, entspricht der modifizierten Tonhöhe der spektralen Hüllkurve der LPC-Reste aus der Datenzahl-Wandlereinheit 270.
Es gibt verschiedene Interpolationsverfahren zur Umwandlung der Zahl von Amplitudendaten der spektralen Hüllkurve der LPC-Reste in der Datenzahl-Wandlereinheit 270. So wird z. B. eine geeignete Zahl von Blinddaten zum Interpolieren der Amplitudendaten eines effektiven Bandblocks auf der Frequenzachse von den letzten Amplitudendaten in dem Block bis zu den ersten Amplitudendaten in dem Block oder Blinddaten, die das linke Ende (erste Daten) und das rechte Ende (letzte Daten) in dem Block erweitern, an die Amplitudendaten in dem Block angehängt, um die Datenzahl auf NF zu vergrößern. Dann wird eine Os-fache Zahl von Amplitudendaten durch Os-faches Überabtasten, z. B. durch achtfaches Überabtasten, mit Bandbegrenzung ermittelt. Die Os-fache Zahl der Amplitudendaten ((mMx + 1) · Os Datenzahl) wird ferner durch lineare Interpolation auf eine größere Zahl NM, z. B. 2048, erweitert. Diese Datenzahl NM wird durch Dezimation in die vorgegebene Zahl M (z. B. 44) umgewandelt, und diese vorgegebene Datenzahl wird dann einer Vektorquantisierung unterzogen.
Als beispielhafte Operation in der Datenzahl-Wandlereinheit 270 wird der Fall erläutert, daß die Frequenz F&sub0; fs/L für eine Tonhöhenverschiebung L nach Fx ermittelt wird, wobei fs eine Abtastfrequenz ist, z. B. fs = 8 kHz = 8000 Hz.
In diesem Fall ist die Tonhöhenfrequenz F&sub0; = 8000/L, wobei n = L/2 Harmonische bis 4000 Hz gebildet werden. In dem üblichen Sprachbereich von 3400 Hz ist die Zahl der Harmonischen gleich (L/2) · (3400/4000). Diese wird durch die obige Datenzahlumwandlung oder Dimensionsumwandlung z. B. in 44 umgewandelt, bevor die Vektorquantisierung durchgeführt wird. Eine Quantisierung ist nicht erforderlich, wenn nur die Tonhöhe variiert werden soll.
Nach der inversen Vektorquantisierung kann die Zahl 44 der Harmonischen mit Hilfe der Datenzahl-Wandlereinheit 270 durch Dimensionsumwandlung in eine beliebige Zahl, d. h. in eine gewünschte Tonhöhenfrequenz Fx, umgewandelt werden. Die Tonhöhenverschiebung Lx, die der Tonhöhenfrequenz Fx(Hz) entspricht, ist Lx = 8000/Fx, so daß die Zahl der Harmonischen bis 3400 Hz = (Lx/2) · (3400/4000) = (4000/Fx) · (3400/4000) = 3400/Fx, d. h. 3400/Fx ist. Es genügt also, in der Datenaufzeichnung-Wandlereinheit 270 eine Umwandlung von 44 auf 3400/Fx durch Dimensionsumwandlung oder Datenzahlumwandlung vorzunehmen.
Wenn bei der Dekodierung vor der Vektorquantisierung der Spektraldaten die Rahmen-zu- Rahmen-Differenz ermittelt wird, wird diese Rahmen-zu-Rahmen-Differenz nach der inversen Vektorquantisierung dekodiert. Die Datenzahlumwandlung wird dann vorgenommen, um spektrale Hüllkurvendaten zu erzeugen.
Der Sinussyntheseschaltung 215 werden nicht nur Tonhöhendaten und Amplitudendaten der spektralen Hüllkurve von LPC-Resten aus der Datenzahl-Wandlerschaltung 270 zugeführt, sondern auch die V/UV-Entscheidungsdaten von dem Eingang 205. Aus der Sinussyntheseschaltung 215 werden die LPC-Restdaten entnommen und dem Addierer 218 zugeführt.
Die Hüllkurvendaten aus dem inversen Vektorquantisierer 212, die Tonhöhendaten von dem Eingang 204 und die V/UV-Entscheidungsdaten von dem Eingang 205 werden der Geräuschaddierschaltung 216 zur Geräuschaddition für den stimmhaften (V)-Anteil zugeführt. Das Geräusch, das die Parameter berücksichtigt, die aus den kodierten Sprachdaten, wie Tonhöhe, Amplituden der spektralen Hüllkurve, maximale Amplitude in dem Rahmen oder restlicher Signalpegel, abgeleitet werden, wird zu dem stimmhaften Anteil des LPC-Restsignal des Eingangssignals des LPC-Synthesefilters, d. h. der Erregung, hinzugefügt, wobei berücksichtigt wird, daß dann, wenn das Eingangssignal des LPC-Synthesefilters für stimmhafte Sprache, d. h. die Erregung, durch Sinussynthese erzeugt wird, bei einem Klang mit niedriger Tonhöhe, wie der Sprache eines männlichen Sprechers, ein dumpfer Höreindruck entsteht, während die Tonqualität in den V- und UV-Sprachanteilen abrupt wechselt und so einen unnatürlichen Höreindruck erzeugt.
Das Summenausgangssignal des Addierers 218 wird dem Synthesefilter 236 für stimmhafte Sprache zugeführt, das die Zeitwellenformdaten durch LPC-Synthese erzeugt. Die resultierenden Zeitwellenformdaten werden in einem Nachfilter 238v für stimmhafte Sprache gefiltert und dann dem Addierer 239 zugeführt.
Den Eingängen 207s und 207g in Fig. 14 werden über die Periodenmodifiziereinheit 5 Formindexdaten und Verstärkungsindexdaten als UV-Daten von den Ausgängen 107s bzw. 107g von Fig. 3 zugeführt. Die Formindexdaten und die Verstärkungsindexdaten werden dann der Synthetisiereinheit 220 für stimmlose Sprache zugeführt. Die Formindexdaten an dem Eingang 207s und die Verstärkungsindexdaten an dem Eingang 207g werden einem Geräusch- Codebuch 221 bzw. einer Verstärkerschaltung 222 in der Synthetisiereinheit 220 für stimmlose Sprache zugeführt. Ein repräsentativer Ausgangswert, der aus dem Geräusch- Codebuch 221 ausgelesen wird, ist die Geräuschsignalkomponente, die den LPC-Resten der stimmlosen Sprache entspricht und die in der Verstärkerschaltung 222 zu einer Amplitude mit einem vorgegebenen Verstärkungsgrad wird. Der repräsentative Ausgangswert der vorgegebenen Verstärkungsamplitude wird einer Fensterschaltung 223 zur Fensterung zugeführt, um den Übergangsbereich zu dem stimmhaften Signalanteil zu glätten.
Das Ausgangssignal der Fensterschaltung 223 wird als Ausgangssignal der Synthetisiereinheit 220 für stimmlose Sprache einem Synthesefilter 237 für den stimmlosen (UV)-Anteil in dem LPC-Synthesefilter 214 zugeführt. Das Ausgangssignal der Fensterschaltung 223 wird von dem Synthesefilter 237 durch LPV-Synthese verarbeitet und ergibt Zeitdomänen-Wellenformsignale des stimmlosen Sprachsignalanteils, der dann von einem Nachfilter 238u für den stimmlosen Sprachanteil gefiltert und anschließend dem Addierer 239 zugeführt wird.
Der Addierer 239 addiert das Zeitdomänen-Wellenformsignal für den stimmhaften Sprachsignalanteil aus dem Nachfilter 238v für stimmhafte Sprache zu den Zeitdomänen-Wellenformdaten für den stimmlosen Sprachsignalanteil aus dem Nachfilter 238u für stimmlose Sprache. Das resultierende Summensignal wird an dem Ausgang 201 ausgegeben.
Aus den vorangehenden Ausführungen ist ersichtlich, daß die Tonhöhe ohne Änderung der Phoneme der Sprache variiert werden kann, indem die Zahl der Harmonischen geändert wird, ohne die Form der spektralen Hüllkurve zu verändern. Falls kodierte Daten eines Sprachmusters, d. h. ein kodierter Bitstrom, verfügbar sind, kann so die Tonhöhe für die Synthese nach Wunsch variiert werden.
In der Anordnung von Fig. 15 werden ein kodierter Bitstrom oder kodierte Daten, die durch Kodierung in dem Kodierer von Fig. 2 und 3 gewonnen werden, von einer Ausgabeeinheit 301 für kodierte Daten ausgegeben. Von diesen Daten werden zumindest die Tonhöhendaten und die spektralen Hüllkurvendaten über eine Datenwandlereinheit 302 an eine Wellenform-Synthetisiereinheit 303 geliefert. Die für die Tonhöhenumwandlung irrelevanten Daten, wie z. B. die Stimmhaft/Stimmlos-(V/UV)-Entscheidungsdaten, werden der Wellenform-Synthetisiereinheit 303 direkt zugeführt.
Die Wellenform-Synthetisiereinheit 303 synthetisiert die Sprachwellenform auf der Basis der spektralen Hüllkurvendaten oder der Tonhöhendaten. Bei der in Fig. 4 oder 5 dargestellten Synthetisiervorrichtung werden natürlich auch LSP-Daten oder CELP-Daten aus der Ausgabeeinheit 301 entnommen und, wie oben beschrieben, zugeführt.
In der Konfiguration von Fig. 15 werden zumindest Tonhöhendaten oder spektrale Hüllkurvendaten von der Datenwandlereinheit 302 in Abhängigkeit von der gewünschten Tonhöhe umgewandelt, wie dies oben beschrieben wurde, und dann der Wellenform-Synthetisiereinheit 303 zugeführt, in der die Sprachwellenform aus den umgewandelten Daten synthetisiert wird. Auf diese Weise können an einem Ausgang 304 Sprachsignale entnommen werden, deren Tonhöhe ohne Änderung der Phoneme geändert wurde.
Das oben beschriebene Verfahren kann benutzt werden, um Sprache durch eine Regel oder durch Text zu synthetisieren.
Fig. 16 zeigt ein Beispiel für die Anwendung der Erfindung auf die Sprachtext-Synthese. In dem vorliegenden Ausführungsbeispiel kann der oben beschriebene Dekodierer zur Sprachkodierung für die Komprimierung gleichzeitig als Textsprachsynthetisierer benutzt werden. In dem Beispiel von Fig. 16 wird die Regenerierung von Sprachdaten in Kombination benutzt.
In Fig. 16 sind der Sprachregelsynthetisierer und der Sprachsynthetisierer mit Datenumwandlung zur Tonhöhenmodifizierung, wie sie oben beschrieben wurde, in einer Speech-by- rule-Synthetisiereinheit 300 zusammengefaßt. Daten aus einer Textanalyseeinheit 310 werden der Speech-by-rule-Synthetisiereinheit 300 zugeführt, die die synthetisierte Sprache mit der gewünschten Tonhöhe ausgibt und einem festen Kontakt eines Umschalters 330 zuführt. Eine Sprachwiedergabeeinheit 320 liest Sprachdaten die für diese Gelegenheit komprimierten und in einem Speicher, wie einem ROM, gespeichert wurden, aus und dekodiert die Daten für die Expandierung. Die dekodierten Daten werden dem anderen festen Kontakt b des Umschalters 330 zugeführt. Der Umschalter 330 wählt aus den synthetisierten Sprachsignalen und den reproduzierten Sprachsignalen eines aus und liefert es an einen Ausgang 340.
Die in Fig. 16 dargestellte Vorrichtung kann z. B. in einem Fahrzeug-Navigationssystem verwendet werden. In einem solchen Fall kann die reproduzierte Sprache, die hohe Qualität und große Klarheit besitzt, aus dem Sprachregenerator 320 für Routineansagen, wie "Bitte nach rechts abbiegen" als Unterstützung der Anzeige benutzt werden, während die synthetisierte Sprache aus dem Speech-by-rule-Generator 300 für die Sprache zur Benennung von speziellen Ziele, z. B. für ein Gebäude oder ein Territorium, benutzt werden kann, die nicht als Sprachinformation in einem ROM gespeichert werden kann, weil sie umfangreich ist.
Die vorliegende Erfindung hat den zusätzlichen Vorteil, daß für den Computer-Sprachsynthetisierer 300 und den Sprachregenerator 320 die gleiche Hardware benutzt werden kann.
Die Erfindung ist nicht auf die oben beschriebenen Ausführungsbeispiele beschränkt. So kann z. B. die Konstruktion auf der Sprachanalyseseite (Kodierer) von Fig. 1 und 3 oder der Sprachsyntheseseite (Dekodierer) von Fig. 14, die oben als Hardware beschrieben wurde, auch durch ein Softwareprogramm realisiert werden, wobei z. B. ein digitaler Signalprozessor (DSP) verwendet wird. Die Daten mehrerer Rahmen können zusammen behandelt und statt durch Vektorquantisierung durch Matrixquantisierung quantisiert werden. Die Erfindung ist auch auf verschiedene Verfahren zur Sprachanalyse/-synthese anwendbar. Außerdem ist die Erfindung nicht auf die Übertragung oder Aufzeichnung/Wiedergabe beschränkt, sondern vielfältig einsetzbar, z. B. bei der Tonhöhenumwandlung, bei der der Geschwindigkeits- oder Ratenumwandlung, bei der der Speech-by-rule-Synthese oder bei der Geräuschunterdrückung.
Die oben beschriebene Signalkodier- und Signaldekodiervorrichtung kann als Sprachcodec z. B. in einem tragbaren Kommunikationsendgerät oder einem tragbaren Telefongerät benutzt werden, wie es in Fig. 14 dargestellt ist.
Fig. 17 zeigt die Sendeseite eines tragbaren Endgeräts mit einer Sprachkodiereinheit 160, die den in Fig. 2 und 3 dargestellten Aufbau hat. Die von einem Mikrofon 161 aufgenommenen Sprachsignale werden in einem Verstärker 162 verstärkt und in einem Analog-/Digitaf-Wandler (A/D-Wandler) 163 in digitale Signale umgewandelt, die der Sprachkodiereinheit zugeführt werden, die den in Fig. 1 und 3 dargestellten Aufbau hat. Die digitalen Signale aus dem A/D-Wandler werden dem Eingang 101 zugeführt. Die Sprachkodiereinheit 160 führt eine Kodierung durch, wie sie in Verbindung mit Fig. 1 und 3 erläutert wurde. Die Ausgangssignale an den Ausgängen von Fig. 1 und 2 werden als Ausgangssignale der Sprachkodiereinheit 160 einer Übertragungskanalkodiereinheit 164 zugeführt, die die zugeführten Signale einer Kanalkodierung unterzieht. Die Ausgangssignale der Übertragungskanalkodiereinheit 164 werden einer Modulationsschaltung 165 zugeführt, in dieser moduliert und dann über einen Digital-/Analog-Wandler (D/A-Wandler) 166 und einen HF-Verstärker 167 einer Antenne 168 zugeführt.
Fig. 18 zeigt die Empfangsseite eines tragbaren Endgeräts mit einer Sprachdekodiereinheit 260, die den in Fig. 5 und 14 dargestellten Aufbau hat. Die von der Antenne 261 in Fig. 14 empfangenen Sprachsignale werden in einem HF-Verstärker 262 verstärkt und über einen Analog-/Digital-Wandler (A/D-Wandler) 263 einer Demodulatorschaltung 264 zugeführt, die das Signal demoduliert und einer Übertragungskanaldekodiereinheit 265 zuführt. Das Ausgangssignal der Dekodiereinheit 265 wird einer Sprachdekodiereinheit 260 zugeführt, die den in Fig. 5 und 14 dargestellten Aufbau hat. Die Sprachdekodiereinheit 260 dekodiert die Signale, wie dies in Verbindung mit Fig. 5 und 14 erläutert wurde. Das Ausgangssignal an dem Ausgang 201 von Fig. 2 und 4 wird als Ausgangssignal der Sprachdekodiereinheit 260 einem Digital-/Analog-Wandler 266 zugeführt. Das analoge Sprachsignal aus dem D/A-Wandlers 266 wird einem Lautsprecher 268 zugeführt.

Claims

1. Sprachsignaldekodierverfahren mit den Verfahrensschritten:

Empfangen eines Werts, der eine Grundfrequenz eines Sprachsignals bei einer ersten Tonhöhe identifiziert,

Empfangen eines Satzes von Amplitudenwerten, die eine spektrale Hüllkurve von Resten einer linearen prädiktiven Kodierung (LPC-Reste) des Sprachsignals bei der ersten Tonhöhe identifizieren, indem sie die Amplituden eines vorbestimmten Bandes von Harmonischen definieren,

Modifizieren des die genannte Grundfrequenz identifizierenden Werts, um einen modifizierten Grundfrequenzwert zu bilden,

Interpolieren von zusätzlichen Amplitudenwerten, die eine modifizierte spektrale Hüllkurve von LPC-Resten identifizieren, die dem modifizierten Grundfrequenzwert entsprechen, um interpolierte Amplitudenwerte zu bilden, und

Synthetisieren des Sprachsignals bei einer zweiten Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und der interpolierten Amplitudenwerte.

2. Sprachsignaldekodierverfahren nach Anspruch 1, bei dem der Verfahrensschritt des Interpolierens durch bandbegrenztes Überabtasten durchgeführt wird.

3. Sprachsignaldekodiergerät

mit einer ersten Empfangseinrichtung (204) zum Empfangen eines Werts, der die Grundfrequenz eines Sprachsignals bei einer ersten Tonhöhe identifiziert,

mit einer zweiten Empfangseinrichtung (203) zum Empfangen eines Satzes von Amplitudenwerten, die eine spektrale Hüllkurve von LPC-Resten des Sprachsignals bei der ersten Tonhöhe identifizieren, indem sie die Amplituden eines vorbestimmten Bandes von Harmonischen definieren,

mit einer mit der ersten Empfangseinrichtung verbundenen Modifiziereinrichtung (270; 302) zum Modifizieren des die genannte Grundfrequenz identifizierenden Werts und zur Bildung eines modifizierten Grundfrequenzwerts,

mit einer mit der zweiten Empfangseinrichtung verbundenen Interpoliereinrichtung (270; 302) zum Interpolieren von zusätzlichen Amplitudenwerten, die eine modifizierte spektrale Hüllkurve von LPC-Resten identifizieren, die dem modifizierten Grundfrequenzwert entsprechen, um interpolierte Amplitudenwerte zu bilden, und

mit einer Synthetisiereinrichtung (211, 213, 214; 303) zum Synthetisieren des Sprachsignals in einer zweite Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.

4. Sprachsignaldekodiergerät nach Anspruch 3, bei dem die Interpoliereinrichtung ein Überabtastfilter mit Bandbegrenzung aufweist.

5. Sprachsignalsynthetisierverfahren mit den Verfahrensschritten:

Speichern eines Werts, der der Grundfrequenz eines Sprachsignals bei einer ersten Tonhöhe entspricht,

Speichern eines Satzes von Amplitudenwerten eines vorbestimmten Bandes von Harmonischen, die einer spektralen Hüllkurve von LPC-Resten des Sprachsignals bei der ersten Tonhöhe entsprechen,

Abrufen des Grundfrequenzwerts und der Amplitudenwerte,

Modifizieren des Grundfrequenzwerts, um einen modifizierten Grundfrequenzwert zu bilden,

Interpolieren von zusätzlichen Amplitudenwerten, die einer modifizierten spektralen Hüllkurve von LPC-Resten entsprechen, auf der Basis des modifizierten Grundfrequenzwerts, um einen Satz von interpolierten Amplitudenwerten zu bilden, und

Synthetisieren des Sprachsignals bei der zweiten Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.

6. Sprachsignalsynthetisierverfahren nach Anspruch 5, bei dem der Verfahrensschritt des Interpolierens durch bandbegrenztes Überabtasten durchgeführt wird.

7. Sprachsignalsynthetisiergerät

mit einer Speichereinrichtung zum Speichern eines Werts, der der Grundfrequenz eines Sprachsignals entspricht, und von Amplitudenwerten eines vorbestimmten Bandes von Harmonischen, die einer spektralen Hüllkurve von LPC-Resten des Sprachsignals bei einer ersten Tonhöhe entsprechen,

mit einer mit der Speichereinrichtung verbundenen Modifiziereinrichtung (270; 302) zum Abrufen des Grundfrequenzwerts und zum Modifizieren des Grundfrequenzwerts, um einen modifizierten Grundfrequenzwert zu bilden,

mit einer mit der Speichereinrichtung verbundenen Interpoliereinrichtung (270; 202)

zum Abrufen der Amplitudenwerte und zum Interpolieren von zusätzlichen Amplitudenwerten, die einer modifizierten spektralen Hüllkurve von LPC-Resten entsprechen, auf der Basis des modifizierten Grundfrequenzwerts, um einen Satz von interpolierten Amplitudenwerten zu bilden, und

mit einer Synthetisiereinrichtung (211, 213, 214; 303) zum Synthetisieren des Sprachsignals bei einer zweiten Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.

8. Sprachsignalsynthetisiergerät nach Anspruch 7, bei dem die Interpoliereinrichtung ein Überabtastfilter mit Bandbegrenzung aufweist.

9. Tragbares Funkendgerät

mit einer Verstärkereinrichtung (262) zum Verstärken eines empfangenen analogen Funksignals zur Bildung eines verstärkten analogen Signals,

mit einer mit der Verstärkereinrichtung (262) verbundenen A/D-Wandlereinrichtung (263) zur Umwandlung des verstärkten analogen Signals in ein digitales Signal,

mit einer mit der Wandlereinrichtung (263) verbundenen Demodulatoreinrichtung (264) zum Demodulieren des digitalen Signals zur Bildung eines demodulierten Signals,

mit einer mit der Demodulatoreinrichtung (264) verbundenen Übertragungsweg-Dekodiereinrichtung (265) für die Kanaldekodierung des demodulierten Signals, um ein kodiertes Sprachsignal zu erzeugen,

mit einer mit der Übertragungsweg-Dekodiereinrichtung (265) verbundenen Sprachdekodiereinrichtung (260) zum Dekodieren des kodierten Sprachsignals, um ein dekodiertes Sprachsignal zu erzeugen, und

mit einer mit der Sprachdekodiereinrichtung (260) verbundenen D/A-Wandlereinrichtung (266) zur Umwandlung des dekodierten Sprachsignals, um ein analoges Ausgangssprachsignal zu erzeugen,

wobei die Sprachdekodiereinrichtung (260) aufweist:

eine erste Empfangseinrichtung (204) zum Empfangen einer ersten Komponente des kodierten Sprachsignals, die einem Grundfrequenzwert des Sprachsignals bei einer ersten Tonhöhe entspricht,

eine zweite Empfangseinrichtung (203) zum Empfangen einer zweiten Komponente des kodierten Sprachsignals, die einem Satz von Amplitudenwerten eines vorbestimmten Bandes von Harmonischen entspricht, die eine spektrale Hüllkurve von LPC-Resten des Sprachsignals bei der ersten Tonhöhe definieren,

eine mit der ersten Empfangseinrichtung verbundene Modifiziereinrichtung (270; 302) zum Modifizieren der dem Grundfrequenzwert entsprechenden ersten Komponente, um einen modifizierten Grundfrequenzwert zu erzeugen,

eine mit der zweiten Empfangseinrichtung und der Modifiziereinrichtung verbundene Interpoliereinrichtung (270; 302) zum Interpolieren von zusätzlichen Amplitudenwerten, die einer modifizierten spektralen Hüllkurve von LPC-Resten entsprechen, auf der Basis des Satzes von Amplitudenwerten und des modifizierten Grundfrequenzwerts, um einen Satz von interpolierten Amplitudenwerten zu bilden, und

eine Synthetisiereinrichtung (211, 213, 214; 303) zum Synthetisieren des dekodierten Sprachsignals bei einer zweite Tonhöhe auf der Basis des modifizierten Grundfrequenzwerts und des Satzes von interpolierten Amplitudenwerten.