DE69325237T2

DE69325237T2 - Verfahren zum Kodieren eines Sprachsignales

Info

Publication number: DE69325237T2
Application number: DE69325237T
Authority: DE
Inventors: Olli Ali-Yrkko; Kari Juhani Jarvinen
Original assignee: Nokia Mobile Phones Ltd; Nokia Telecommunications Oy
Current assignee: Nokia Oyj
Priority date: 1992-11-26
Filing date: 1993-11-22
Publication date: 1999-12-16
Anticipated expiration: 2013-11-23
Also published as: FI95086B; US5596677A; EP0599569B1; DE69325237D1; EP0599569A3; FI925376A0; FI95086C; AU665283B2; JPH06222798A; AU5189793A; FI925376A7; EP0599569A2

Description

Die Erfindung betrifft ein Verfahren zum Codieren eines Sprachsignals.
Beim digitalen Codieren von Sprache wird häufig ein zweiteiliges Modell beruhend auf der menschlichen Spracherzeugung verwendet, das erstens die Erzeugung einer Erregung (beim Menschen: die Schwingung der Stimmbänder oder ein Verengungspunkt im Vokaltrakt) sowie die Formung des Erregungssignals bei einem Filtervorgang (beim Menschen: die im Vokaltrakt auftretende Formung) umfasst. Der in einem Sprachcodierer zum Modellieren der Form des Vokaltrakts verwendete Filtervorgang wird allgemein als sogenannte Kurzzeitfilterung oder Kurzzeitmodellierung bezeichnet. Für ein wirkungsvolles Codieren eines Erregungssignals wurden verschiedene Verfahren und Modelle entwickelt, die darin Erfolg hatten, die Bitrate zu verringern, die dazu erforderlich ist, das Erregungssignal zu übertragen, ohne jedoch die Qualität des Sprachsignals deutlich zu beeinträchtigen. Derzeit haben sich die wirkungsvollsten Sprachcodierverfahren als solche Sprachcodierer erwiesen, die das Analyse durch-Synthese-Verfahren bei der Suche nach einer Wiedergabe des Erregungssignals verwenden, wobei diese Wiedergabe mit der kleinstmöglichen Bitrate übertragen werden kann, wozu ein anmerkenswertes Beispiel das Verfahren der Code-erregten linearen Vorhersage ist, siehe z. B. US- 4,817,157. Es wurden auch wirkungsvolle Verfahren zum Codieren der Parameter eines Kurzzeit-Filtermodells entwickelt, wie z. B. eine Übertragung im Linienspektrumspaar-Format (siehe die Veröffentlichung "Optimal quantization of LSP parameters using delayed decisions" von F. K. Soong, B. H. Juang in Proceedings of the 1990 International Conference on Acoustics, Speech and Signal Processing).
Obwohl zum Übertragen sowohl eines Erregungssignals als auch eines Filtermodells wirkungsvolle Verfahren entwickelt wurden, haben die zuvor angegebenen Verfahren die Tatsache nicht berücksichtigt, dass die an verschiedenen Tönen im Vokaltrakt ausgeführte Formung hinsichtlich des Typs für verschiedene Typen von Tönen verschieden ist und so in einem Kurzzeitfilter auf verschiedene Arten modelliert werden kann. Aus diesem Grund sollte, um eine Sprachcodierung zu erzielen, die so wirkungsvoll wie möglich ist, die Ordnung des Filtervorgangs entsprechend dem zu codierenden Sprachsignal angepasst werden. Bei auf diesem Gebiet bereits bekannten Verfahren bedeutete Modellierung mit einem Filter fester Ordnung, dass eine Modellierungsordnung in Gebrauch war, die für stimmlose Töne (Konsonanten) überflüssig groß ist, um ihre relativ gleichmäßig verteilte Spektralkurve zu transportieren, wobei die für diese Modellierungsordnung verwendeten Ressourcen besser zum Codieren des Erregungssignals oder zur Abweichungskorrekturcodierung verwendet werden könnte. Andererseits führt, wenn stimmhafte Töne beteiligt sind, die Verwendung einer festen Ordnung leicht zur Verwendung eines Filtermodells mit übermäßig niedriger Ordnung, obwohl die Modellierung der Formantenstruktur des Spektrums stimmhafter Töne unter Verwendung einer größeren Ordnung der Modellierung wesentlich wirkungsvoller gemacht werden könnte.
Gemäß der Erfindung ist ein Verfahren zum Codieren eines Eingangssignals mit einer Reihe von Sprachsignalblöcken geschaffen, das die folgenden Schritte umfasst:
a) Entwickeln, in einem Kurzzeitanalysator, einer Gruppe von Vorhersageparametern, die Eigenschaften des Eingangssignals entsprechen und die in jedem zu codierenden Sprachsignalblock charakteristisch für das Kurzzeitspektrum des Sprachsignals sind;
b) Erzeugen eines Erregungssignals, das dann, wenn es einem entsprechend den Vorhersageparametern arbeitenden Synthesefilter zugeführt wird, zur Synthese eines codierten Sprachsignals führt, das dem ursprünglichen Eingangssignal entspricht;
dadurch gekennzeichnet, dass
c) ein Kurzzeit-Filtermodell aus zwei Komponenten erzeugt wird, nämlich einer Komponente fester, niedriger Ordnung und einer Komponente mit variabler Ordnung, die eine hohe Modellierungsordnung ermöglicht;
d) die Kurzzeit-Vorhersageparameter für beide Komponenten berechnet werden;
e) die Gesamtordnung des Kurzzeitmodells in jedem zu codierenden Sprachblock entsprechend dem Sprachsignal adaptiert wird; und
f) die zum Codieren der Parameter des Filtermodells zu verwendende Bitrate und die zum Codieren des Erregungssignals zu verwendende Bitrate auf solche Weise adaptiert werden, dass ein Erhöhen der beim Modellieren zu verwendenden Ordnung die Bitrate der Modellparameter erhöht und entsprechend die Bitrate verringert, die zum Codieren der Erregung zu verwenden ist.
Gemäß einer weiteren Erscheinungsform der Erfindung ist ein digitaler Sprachcodierer geschaffen, wie er durch Anspruch 10 definiert ist.
Ein Vorteil der Erfindung ist die Schaffung eines Verfahrens digitaler Codierung eines Sprachsignals, durch das die oben angegebenen Mängel und Probleme überwunden werden können. So wird die Ordnung der Kurzzeitmodellierung als erstes adaptierend gemäß dem Sprachsignal eingestellt, und andererseits wird das gegenseitige Verhältnis der Bitraten der das Erregungssignal beschreibenden Parameter und der Kurzzeitfilterung entsprechend dem Sprachsignal adaptiert. Vom Standpunkt des Codierungswirkungsgrads aus kann durch Verringern einer nutzlos großen Ordnung des Filtermodells die zum Codieren des Erregungssignals verwendete Bitrate erhöht werden, oder die so freigesetzten Bitratenressourcen können bei der Abweichungskorrekturcodierung in Gebrauch genommen werden. Andererseits kann die Ordnung des Filtervorgangs, der den Vokaltrakt modelliert, erhöht werden, falls erforderlich, wenn dies von wesentlichem Nutzen bei der Codierung ist, und demgemäß kann die beim Codieren des Erregungssignals verwendete Bitrate gesenkt werden. Das Verfahren kann sowohl für Codierverfahren, die den Modellierungsfehler unmittelbar codieren, als auch zur Analyse durch Syntheseverfahren verwendet werden, die eine Optimierung mit geschlossener Schleife für das Erregungssignal bei der Codierung verwenden. Bei den letztgenannten Verfahren ist es möglich, die Verwendung einer übermäßig großen Ordnung bei der Modellierung des zu modellierenden Tons dadurch zu vermeiden, dass die Ordnung entsprechend der Erfindung adaptiert wird, was es ermöglicht, die Rechenbelastung wesentlich zu senken. Die Verwendung des Verfahrens liefert eine Gesamtmodellierung des Sprachsignals, die besser als bei Modellen ist, die eine Filterung des Vokaltrakts verwenden, die auf einem Modell fester Ordnung beruhen, was zu wirkungsvoller Sprachcodierung führt.
Nachfolgend werden Ausführungsformen der Erfindung beispielhaft unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
Fig. 1 veranschaulicht die Modellierungsfunktion des Kurzzeit-Vorhersagefilters bei verschiedenen Modellierungsordnungen für zwei verschiedene Typen von Tönen, nämlich die Phoneme /s/ (Fig. 1a) und /o/ (Fig. 1b);
Fig. 2 zeigt einen Codierer, wie er bei einem erfindungsgemäßen Verfahren wie folgt verwendet wird: Adaption der Ordnung der Gesamtmodellierung auf Grundlage der Koeffizienten einer Modellierung niedriger Ordnung (Fig. 2a), Adaption der Modellierungsordnung mittels des Fehlers bei der Gesamtmodellierung (Fig. 2b) und Adaption der Bitrate der Abweichungskorrekturcodierung entsprechend der Modellierungsordnung (Fig. 2c);
Fig. 3 zeigt ein Blockdiagramm eines Decodierers, der dem Codierer von Fig. 2a oder 2b entspricht, die ein erfindungsgemäßes Verfahren verwenden;
Fig. 4a ist ein schematisches Diagramm des in der Technik bekannten Analyse-durch-Synthese-Verfahrens, bei dem Optimierung mit geschlossener Schleife bei der Modellierung des Erregungssignals verwendet wird, und die Fig. 4b und 4c zeigen eine Anwendung der Modellierung, d. h. eines erfindungsgemäßen Verfahrens, auf Sprachcodierer, die gemäß dem Analyse durch-Synthese- Prinzip arbeiten.
Detaillierter gesagt, wird beim erfindungsgemäßen Verfahren ein Kurzzeit- Filtermodell verwendet, das aus zwei Teilen besteht, nämlich einer Komponente fester Ordnung niedrigen Grads sowie einer Komponente mit adaptierbarer Ordnung. Die letztgenannte Komponente adaptierbarer Ordnung ermöglicht es, falls erforderlich, eine hohe Ordnung der Gesamtmodellierung zu erzielen. Für beide Vorhersagemodelle werden die Kurzzeit-Vorhersageparameter gesondert berechnet, und die Berechnung der Filterkoeffizienten beider Modelle kann mit jedem in der Technik bekannten Verfahren ausgeführt werden, z. B. in Verbindung mit linearer Modellierung mit einem Rechenalgorithmus auf Grundlage linearer Vorhersagecodierung, LPC (Linear Predicitve Coding). Die Werte der Modellierungsparameter gemäß beiden Modellen werden adaptiert, d. h., sie werden aus dem Sprachsignal mit Intervallen von ungefähr 10-40 ms berechnet. Die Berechnung der Filterkoeffizienten des Kurzzeit-Filtermodells fester Ordnung erfolgt unmittelbar aus dem zur Codierung eingegebenen Sprachsignal, wohingegen die Filterkoeffizienten des Kurzzeitmodells adaptierbarer Ordnung aus dem Signal berechnet werden, das durch Filterung des zur Codierung eingegebenen Sprachsignals durch das inverse Filter des Modells fester Ordnung erhalten wurde. Das Modell fester, niedriger Ordnung wirkt so als Vorfilterfunktion für die Modellierung adaptierbarer Ordnung. Da die Modellierung ein gesondertes Filter niedriger Ordnung nutzt, können verschiedene Arten von Adaptionshäufigkeiten für die Parameter des Modells in den Filtern fester Ordnung und adaptierbarer Ordnung verwendet werden. Die Filterparameter für die genannten zwei Kurzzeitmodelle können so mit verschiedenen Intervallen an den Empfänger geliefert werden. Mittels einer Modellierung mit fester Ordnung ist es so möglich, dass spektrale Eigenschaften, die auf dem Sprecher und dem Mikrofon beruhen, sich langsam ändern und ziemlich gut für Modellierung niedriger Ordnung geeignet sind, auf wirkungsvolle Weise übertragen werden, was auf solche Weise ausgeführt wird, dass die Koeffizienten der Modellierung weniger häufig als die Koeffizienten der Modellierung adaptierbarer Ordnung, die sich schnell ändernde Toninformation enthalten, angepasst werden.
Bei einer anderen Ausführungsform der Erfindung, die mit einer Abtastfrequenz von 8 kHz arbeitet, wird die Ordnung der Kurzzeitmodellierung adaptierbarer Ordnung entsprechend den Ergebnissen der Modellierung fester Ordnung wie folgt eingestellt: die Ordnung im Filter mit adaptierbarer Filterordnung wird auf einen kleinen Wert eingestellt (ungefähr zweite Ordnung), wenn das meiste der Energie im zu codierenden Signalblock bei hohen Frequenzen liegt, d. h., wenn das bei der Modellierung fester Ordnung erhaltene Frequenzansprechverhalten vom Hochpasstyp ist (stimmloser Typ von Tönen, der leicht in ein Modell klassifizierbar ist). Die Ordnung der Modellierung adaptierbarer Ordnung wird ihrerseits auf einen großen Wert (ungefähr zwölfte Ordnung) eingestellt, wenn das Frequenzansprechverhalten des bei der Modellierung fester Ordnung erhaltenen Signals vom Tiefpasstyp ist (stimmhafter Typ von Tönen, der so klassifiziert wird, dass er eine bedeutungstragende Formantenstruktur enthält). Die Ordnung der Modellierung fester Ordnung ist konstant und von zweiter Ordnung. Bei den in diesem Beispiel angegebenen Ordnungen ist die Gesamtordnung für die Gesamtmodellierung entweder 4 oder 14.
Bei noch einer anderen Ausführungsform wird die Ordnung der Filtermodellierung entsprechend dem Modellierungserfolg mittels Rückkopplung auf Grundlage des Modellierungs-Fehlersignals adaptiert. Bei dieser Ausführungsform kann das Einstellen der Ordnung stufenlos ausgeführt werden, ohne dass eine Grobentscheidung auf Grundlage der zwei verschiedenen Modellierungsordnungen erfolgt.
Fig. 1 veranschaulicht den Betrieb der Kurzzeitmodellierung mit verschiedenen Modellierungsgraden für zwei verschiedene Typen von Tönen, d. h. für das stimmlose Phonem /s/ sowie das stimmhafte Phonem /o/. Die verwendete Abtastfrequenz betrug 8 kHz. Fig. 1a zeigt den Signalverlauf und die Spektralkurve (gestrichelte Linie) des zum stimmlosen Typ von Tönen gehörigen Phonems /s/, wie durch das FFT-Verfahren (Fast Fourier Transform = schnelle Fourier-Transformation) berechnet. Fig. 1a zeigt auch das Frequenzansprechverhalten der Kurzzeit-LPC-Modellierung bei zwei verschiedenen Modellierungsordnungen, nämlich 4 und 10 (LPC 4 und LPC 10). Entsprechend zeigt Fig. 1b den Signalverlauf und die FFT-Spektralkurve des stimmhaften Phonems /o/ wie auch das Frequenzansprechverhalten der Kurzzeit-LPC-Modellierung mit zwei Modellierungsordnungen, nämlich 4 und 10 (LPC 4 und LPC 10). Das verwendete Modell 4. Ordnung (LPC 4) kann den relativ gleichmäßigen darge botenen Frequenzgehalt, wie er für einen stimmlosen Ton typisch ist, ziemlich gut modellieren. Andererseits gelingt es nur mit einer größeren Modellierungsordnung, dass die Resonanzpunkte des Spektrums, die bei der Interpretation stimmhafter Töne von Bedeutung sind, gut transportiert werden können. Z. B. kann die Spektralkurve des Phonems /o/, die mit 4 Resonanzspitzen ausgebildet ist, nur mit einem Modell höherer Ordnung, z. B. einem solchen 10. Ordnung (LPC 10), geeignet modelliert werden, wie es in Fig. 1b dargestellt ist. Resonanzspitzen, oder sogenannte Formanten, können bei Frequenzen von ungefähr 500 Hz, 1000 Hz, 2400 Hz und 3400 Hz deutlich aus der LPC-10-Kurve erkannt werden. Beim Modellieren des in der Fig. 1a angegebenen Phonems /s/ führt eine Erhöhung der Modellierungsordnung auf 10 zu keiner entsprechenden wesentlichen Verbesserung der Modellierung.
Fig. 2 zeigt einen Codierer gemäß dem Codierverfahren, der unmittelbar aus dem Fehlersignal bei der Kurzzeitmodellierung ein Erregungssignal erzeugt, wobei er eine Adaption der Ordnung der Modellierung durch Kurzzeitfilterung gemäß der Erfindung verwendet. Fig. 2a zeigt ein Ausführungsbeispiel des Codierers, bei dem die Adaption der Ordnung auf Grundlage der Koeffizienten des Modells fester Ordnung ausgeführt wird. Ein Sprachsignal 206 durchläuft zunächst die Kurzzeitmodellierung 204 niedriger Ordnung, bei der die Filterkoeffizienten a(i) mit i = 1, 2, ..., M&sub1;, entsprechend dem Modell erzeugt werden. Dies können entweder Koeffizienten des direkt erzeugenden Filters oder sogenannte Reflexionskoeffizienten sein, wie sie bei Gitterfiltern verwendet werden. Der im Block 204 auszuführende Vorgang kann durch jedes bekannte Rechenverfahren für die Filterkoeffizienten eines Modells mit linearer Vorhersage bewerkstelligt werden. M&sub1; hat konstanten Wert, und die Größe ist typischerweise von zweiter Ordnung. Das Sprachsignal 206 wird in das inverse Filter 201 gegeben, das in Übereinstimmung mit dem berechneten Modell steht und die Ordnung M&sub1; hat.
Das vom inversen Filter fester Ordnung erhaltene Signal (d. h. die Vorhersageabweichung des Modells fester Ordnung) wird dann an das inverse Filter 202 adaptierbarer Ordnung gegeben. Beim Ausführungsbeispiel der Figur erfolgt eine Entscheidung, auf Grundlage der Filterkoeffizienten a(i), mit i = 1, 2, ..., M&sub1;, im Block 207, zur Größe der Ordnung M&sub2; der Modellierung 205 adaptierbarer Ordnung mittels des oben beschriebenen Verfahrens. Die Filterkoeffizienten b(j) = 1, 2, ..., M&sub2; des Filters 202 adaptierbarer Ordnung werden in einem Block 205 berechnet. Die Suche nach einem geeignet codierten Format für die Vorhersageabweichung bei der Gesamtmodellierung wird im Codierungsblock 203 ausgeführt. Die so erzeugten Erregungsimpulse, die die Vorhersageabweichung transportieren, werden an den Decodierer geliefert, um als Erregungssignale verwendet zu werden. Neben den Erregungsimpulsen werden auch die Filterkoeffizienten sowohl der Modellierung niedriger, fester Ordnung als auch der Modellierung adaptierbarer Ordnung an den Empfänger geliefert. Wenn im Block 207 eine Entscheidung zum Verwenden einer Modellierung kleiner Ordnung bei der Modellierung 205 adaptierbarer Ordnung getroffen wird, werden die bei dieser Modellierung freigesetzten Ressourcen zur Codierung der Abweichung bei der Gesamtmodellierung verwendet, die im Block 203 auszuführen ist. Im Block 203 kann das Codieren der Modellierungsabweichung mit jedem auf diesem Gebiet bekannten Verfahren ausgeführt werden, z. B. durch ein Verfahren auf Grundlage einer Begrenzung der Menge von Abtastwerten (siehe z. B. die Veröffentlichung "Speech codes for the European Mobile radio system" von P. Vary, K. Hellwig, R. Hofmann, R. J. Sluyter, C. Galand, M. Rosso in Proceedings of the 1988 International Conference on Acoustics, Speech, and Signal Processing). Wenn andererseits beobachtet wird, dass eine Modellierung hoher Ordnung für die Kurzzeitmodellierung erforderlich ist, kann ein Teil der Ressourcen, der andernfalls zum Codieren des Erregungssignals erforderlich ist, unmittelbar darauf gerichtet werden, Parameter für das Kurzzeitmodell zu liefern, in welchem Fall die Ordnung der Kurzzeitmodellierung erhöht werden kann. Dies erfolgt durch Erhöhen der bei der Modellierung adaptierbarer Ordnung verwendeten Ordnung.
Beim in Fig. 2a dargestellten Ausführungsbeispiel erfolgt die Entscheidung zur zu verwendenden Ordnung im Filtermodell im Adaptionsblock 207 entsprechend dem folgenden Ablauf: wenn die ausgeführte Modellierung fester Ordnung zeigt, dass der größte Teil der Energie, die das Eingangssignal 206 enthält, bei niedrigen Frequenzen liegt, verwendet das Verfahren bei der Kurzzeitmodellierung eine höhere Ordnung. Wenn andererseits die Energie im Signal um die hohen Frequenzen herum aufgebaut wurde, wird Modellierung niedriger Ordnung verwendet. In seiner einfachsten Form interpretiert, beruht das Modell auf der Tatsache, dass die Spektrumshüllkurve stimmloser Töne, die zu hohen Frequenzen hin gewichtet sind, keine deutlichen spektralen Spitzenwerte, die wesentliche Information transportieren, in der Art stimmhafter Töne, enthält, in welchem Fall für stimmlose Töne eine niedrigere Kurzzeitmodellierung verwendet werden kann und ein größerer Teil der Übertragungskapazität auf das Codieren des Erregungssignals ausgerichtet werden kann. Andererseits besteht im Fall stimmhafter Töne Grund zur Verwendung eines Filtermodells hoher Ordnung zum Transportieren der Spektrumseinhüllenden, so dass die für sie wichtige Formantenstruktur beim Codier verfahren so genau wie möglich transportiert werden kann. Beim in Fig. 2a dargestellten Verfahren können zwei verschiedene Gesamtmodellierungsordnungen verwendet werden, nämlich eine niedrige für als stimmlos klassifizierte Töne (der Ordnung 4) sowie eine für als stimmhaft klassifizierte Töne (der Ordnung 12).
Fig. 2b zeigt eine andere beispielhafte Ausführungsform zum Realisieren des erfindungsgemäßen Ablaufs bei einem digitalen Sprachcodierer. Im Vergleich mit Fig. 2a liegt der Unterschied in der Adaption der Modellierungsordnung unmittelbar auf Grundlage des Vorhersagefehlers bei der Gesamtmodellierung durch Rückkopplung und nicht auf Grundlage der Filterkoeffizienten niedriger Ordnung. Die Adaption der Ordnung M&sub2; wird im Block 227 der Figur auf Grundlage des tatsächlichen Vorhersagefehlers ausgeführt, während im Block 206 die Adaption auf Filterkoeffizienten der Modellierung fester Ordnung durch den bereits erörterten Ablauf beruht. Beim Beispiel der Fig. 2 wird die Adaption der Ordnung der im Block 227 auszuführenden Modellierung entsprechend dem Vorhersagefehler dadurch ausgeführt, dass die Wirkung einer Erhöhung der Modellierungsordnung auf den Vorhersagefehler verglichen wird. Das Verfahren umfasst ein Erhöhen der Modellierungsordnung bis die Erhöhung eine Verringerung der Stärke des vorhergesagten Fehlersignals erzeugt, die kleiner als ein vorbestimmter Schwellenwert PTH ist. In diesem Fall kann hergeleitet werden, dass es nicht erforderlich ist, die Modellierungsordnung weiter zu erhöhen, und die Modellierungsordnung in diesem Moment wird zur Verwendung ausgewählt. Bei diesem Verfahren wird das im inversen Filter fester Ordnung verarbeitete Sprachsignal auf solche Weise an das inverse Filter adaptierbarer Ordnung gegeben, dass die Ordnung des Filters mit adaptierbarer Ordnung einem Erhöhungsprozess ausgehend vom zulässigen Minimalwert unterzogen wird, bis eine Abnahme des Fehlersignals, die kleiner als der Schwellenwert ist, beobachtet wird, oder bis die größtzulässige Gesamtmodellierungsordnung DMAX, wie sie bei diesem Verfahren eingestellt wurde, erreicht ist. Der zu codierende Sprachblock wird mit jedem inversen Filter anderer Ordnung gefiltert, und die Ausgangsstärke des Modellierungsfehlers, d. h. des inversen Filters, wird für jede verschiedene Filterordnung berechnet. Wenn die verwendete Filterstruktur ein Gitterfilter ist, das Reflexionskoeffizienten verwendet, ändert ein Erhöhen der Ordnung die vorigen Werte der Filterkoeffizienten nicht, d. h., dass ein Erhöhen der Ordnung lediglich bewirkt, dass ein neuer Filtervorgang am Filterausgangssignal der kleineren Modellierungsordnung hinzugefügt wird. Bei den Berechnungen können unmittelbar diejenigen Berechnungen verwendet werden, die im Filter kleinerer Ordnung ausgeführt wurden. Die Funktionen der Blöcke 207 und 227, die die Adaption der Ordnung ausführen, unterscheiden sich wesentlich voneinander. Da beim Verfahren gemäß Fig. 2d keine Filterkoeffizienten beim Adaptieren der Modellierungsordnung verwendet werden, muss der Betriebsmodus des Codierers dem Empfänger als zusätzlicher Parameter zugeführt werden, und dieser Betriebsmodus zeigt dem Decodierer die Modellierungsordnung an, die im zu verarbeitenden Sprachrahmen verwendet wurde.
Fig. 2c zeigt ein vereinfachtes Blockdiagramm 241 des erfindungsgemäßen Verfahrens in Kombination mit der Fehlerkorrektur-Codiereinheit 242. Gemäß der Figur unterliegt das Sprachsignal 243 einer Berechnung der Koeffizienten des Modells fester Ordnung auf die zuvor beschriebene Weise sowie eine inverse Filterung im Block 249 wie auch eine entsprechende Verarbeitung adaptierbarer Ordnung im Block 245. Die Auswahl der Ordnung der Modellierung adaptierbarer Ordnung kann entweder auf Grundlage des Frequenzansprechverhaltens oder der Modellierung niedriger Ordnung (in der Art des Ausführungsbeispiels von Fig. 2a) oder auf Grundlage des Gesamtmodellierungsfehlers (beim Modell des Ausführungsbeispiels von Fig. 2b) ausgeführt werden. Das Adaptionsverfahren für die Ordnung wird in einem Schalter 248 entsprechend davon ausgewählt, ob das Verfahren gemäß Fig. 2a (der Schalter 248 befindet sich in der Stellung a) oder gemäß Fig. 2b (der Schalter 248 befindet sich in der Stellung b) in Gebrauch genommen wurde. Die Ordnung wird im Block 250 oder 251 ausgewählt. Das Verfahren kann mit der Fehlerkorrekturcodierung auf die in Fig. 2c angegebene Weise auf solche Art verbunden werden, dass die ausgewählte Modellierungsordnung M&sub2; nicht nur an den Block 246 geliefert wird, der die Codierung des Erregungssignals ausführt, sondern auch an die Fehlerkorrektureinheit 247. In diesem Fall ist es möglich, nicht nur die Bitrate der Codierung des Erregungssignals innerhalb der Grenzen der ausgewählten Gesamtmodellierung zu ändern, sondern auch die Bitrate anzupassen, die für die Fehlerkorrekturcodierung im Block 242 zu verwenden ist. Der dem Decodierer zuzuführende Bitstrom 244 enthält die Parameter des Sprachcodierers (Filterkoeffizienten und Erregungssignal) wie auch den Fehlerkorrekturcode und Daten zum Betriebsmodus, d. h. zur Ordnung des Kurzzeit-Filtermodells. Insoweit eine Adaption der Ordnung unmittelbar auf Grundlage der Koeffizienten a(i), mit i = 1, 2, ..., M&sub1;, der Modellierung fester Ordnung ausgeführt wurde (auf die Art des in Fig. 2a dargestellten Ausführungsbeispiels), können diese dazu verwendet werden, die Adaptionsordnung für die Codierung des Erregungssignals und die Fehlerkorrekturcodierung anzuzeigen, und das bedeutet, dass es nicht erforderlich ist, gesonderte Modusdaten zu liefern. Fig. 3 zeigt das Blockdiagramm eines erfindungsgemäßen Decodierers. Der Decodierer empfängt Daten zur Größe der beim Codieren verwendeten Ordnung bei der Kurzzeitmodellierung. Die Modellierungsordnung kann aus einem speziellen, gesondert übertragenen Modus- Einzeldatenwert bestimmt werden, der die Modellierungsordnung anzeigt (Decodierer, der dem Codierer von Fig. 2b entspricht), oder unmittelbar aus den Filterkoeffizienten der Modellierung niedriger Ordnung (Decodierer, der dem Codierer von Fig. 2a entspricht). Fig. 3 zeigt einen dem Codierer von Fig. 2b entsprechenden Decodierer, an den ein Signal geliefert wird, das die Modellierungsordnung anzeigt. Im dem Codierer von Fig. 2a entsprechenden Decodierer kann die Modellierungsordnung aus den Koeffizienten der Modellierung fester Ordnung dadurch hergeleitet werden, dass eine Adaption des Modellierungsgrads auch im Decodierer entsprechend dem in Fig. 207 dargestellten Ablauf ausgeführt wird. Dieser Ablauf wurde in Fig. 3 mit gestrichelter Linie eingezeichnet. Die Daten zur verwendeten Ordnung, d. h. zum Betriebsmodus, werden nicht nur an das Kurzzeit-Synthesefilter 302 sondern auch an einen Block 301 geliefert, der eine Decodierung des Erregungssignals ausführt, da die gleichzeitig ausgeführte Operation die zu verwendende Bitrate für die Übertragung der Erregung adaptiert. Bei diesem Verfahren wird das decodierte Sprachsignal 304 aus dem Ausgangssignal des Kurzzeit-Synthesefilters niedriger Ordnung 303 erhalten. Das Verfahren sorgt ferner für das Zuführen der Modellierungskoeffizienten für sowohl die Kurzzeitmodellierung adaptierbarer Ordnung als auch die Kurzzeitmodellierung fester Ordnung zu Synthesefiltern 302 und 303.
Bei den oben beschriebenen beispielhaften Ausführungsformen ist erörtert, wie ein erfindungsgemäßes Verfahren bei Codierverfahren angewandt werden kann, bei denen das Erregungssignal unmittelbar aus dem Fehlersignal der Kurzzeitmodellierung gebildet wird. Diese werden hinsichtlich der Wirksamkeit durch Sprachcodierverfahren übertroffen, die auf filternder Modellierung beruhen, bei der die Codierung des Erregungssignals entsprechend dem sogenannten Analyse durch-Synthese-Verfahren ausgeführt wird. Ein erfindungsgemäßes Verfahren kann auch auf Codierverfahren dieses Typs angewandt werden, wie dies im folgenden erläutert wird.
Fig. 4a zeigt ein schematisches Blockdiagramm eines auf diesem Gebiet bekannten Sprachcodierers, bei dem ein Analyse durch-Synthese-Verfahren zum Codieren des Erregungssignals verwendet wird. Bei einem Codierverfahren dieser Art erfolgt in jedem Block des zu codierenden Sprachsignals eine Suche nach einem leicht transportierbaren Format für das Erregungssignal, was dadurch erfolgt, dass eine große Menge von Sprachsignalen entsprechend leicht codierbaren Erregungssignalen synthetisiert wird und die beste Erre gung dadurch ausgewählt wird, dass das Syntheseergebnis mit dem zu codierenden Sprachsignal verglichen wird. Bei diesem Verfahren wird überhaupt kein Vorhersagefehlersignal erzeugt, sondern stattdessen wird das als Erregung zu verwendende Signal in einem Erregungs-Erzeugungsblock 400 gebildet. In einem Kurzzeitanalyse-Block 406 werden die Kurzzeit-Filterkoeffizienten aus dem Sprachsignal 407 berechnet, und diese werden im Kurzzeit-Synthesefilter 402 verwendet. Das Erregungssignal wird dadurch erzeugt, dass das ursprüngliche Sprachsignal und das synthetisierte Sprachsignal in einem Differenzberechnungsblock 403 miteinander verglichen werden. Ein synthetisiertes Sprachsignal für alle möglichen Erregungsalternativen wird dadurch erhalten, dass die vom Erregungs-Erzeugungsblock 400 erhaltenen Erregungsalternativen jeweils im Langzeitsynthese-Filter 401 und im Kurzzeitsynthese-Filter 402 geformt werden. Das vom Differenzberechnungsblock 403 erhaltene Differenzsignal wird in einem Gewichtungsblock 404 so gewichtet, dass es, vom Standpunkt menschlicher Hörwahrnehmung aus, ein deutlicheres Maß für die subjektive Sprachqualität wird, und zwar dadurch, dass bei starken Signalfrequenzen ein relativ größerer Fehlerbereich zugelassen ist, und bei schwachen Signalfrequenzen ein kleinerer. Im Fehlerberechnungsblock 405 erfolgt auf Grundlage des Differenzsignals eine Berechnung eines Messwerts für die Güte des Syntheseergebnisses, wie es durch jede Erregungsalternative erzielt wurde, und dieser wird dazu verwendet, die Erregungserzeugung zu lenken und das bestmögliche Erregungssignal auszuwählen.
Fig. 4b zeigt ein Blockdiagramm zu einer Anwendung des Verfahrens auf Sprachcodierer, die eine Codierung des Erregungssignals ausführen. Die Figur zeigt die Struktur eines Codierers für ein Ausführungsbeispiel, bei dem die Adaption der Ordnung, in ähnlicher Weise wie beim in Fig. 2a dargestellten Ausführungsbeispiel, auf dem Modellierungsfehlersignal beruht, das als Ausgangssignal des inversen Filters fester Ordnung erhalten wurde. Die im Modell mit adaptierbarer Ordnung zu verwendende Ordnung wird vom Block 420 erhalten. Im Block 419 wird am Sprachsignal 417 eine Kurzzeitmodellierung fester Ordnung ausgeführt. Im Block 418 wird eine inverse Filterung niedriger Ordnung mit der festen Modellierungsordnung entsprechend den Modellierungskoeffizienten a(i), mit i = 1, 2, ..., M&sub1;, des Blocks 419 ausgeführt. Dann wird das invers gefilterte Sprachsignal zum Modellierblock 416 mit adaptierbarer Ordnung geliefert, von dem die Filterkoeffizienten b(j), mit j = 1, 2, ..., M&sub2;, des Filters adaptierbarer Ordnung entnommen werden. Diese Filterkoeffizienten werden an das Kurzzeitsynthese-Filter 412 geliefert, das im Zweig der Sucheinheit mit geschlossener Schleife liegt. Außerdem empfängt die Analyse durch-Synthese-Struktur eine Angabe zur Ordnung M&sub2; der ausgewählten Kurzzeitmodellierung, wobei diese Ordnung dazu verwendet wird, die geeignete Modellierungsordnung im Filterblock 412 auszuwählen. Die zur Modellierungsordnung eingegebenen Daten werden auch an diejenige Einheit geliefert, die die Erregung modelliert, wo sie anzeigen, wieviel der Bitrate dazu verwendet wurde, die Koeffizienten des Kurzzeit-Filtermodells zu übertragen, und entsprechend, wieviel der Bitrate zur Verwendung bei der Erzeugung des Erregungssignals im Block 410 zur Verfügung steht. Das System nutzt ferner ein sogenanntes Langzeit-Filtermodell durch Ausführen, im Block 411, einer Langzeitfilterung, die die Feinstruktur des Spektrums modelliert, und die Bitrate dieser Filterung kann auch entsprechend der Stärke der Kurzzeitmodellierung, die zur Verwendung ausgewählt wurde, adaptiert werden. Blöcke 413, 414 und 415 führen dieselben Funktionen wie die Blöcke 403, 404 und 405 in Fig. 4a aus.
Ein erfindungsgemäßes Verfahren kann auch auf Analyse durch-Synthese-Codierer gemäß einem anderen Ausführungsbeispiel in solcher Weise angewandt werden, dass das Sprachsignal unmittelbar an das Signaldifferenzelement 413 geliefert wird, ohne dass als erstes die inverse Filterung 418 an ihm ausgeführt wird. In diesem Fall sollte zur Kurzzeitsynthese-Filterung adaptierbarer Ordnung, die im Block 412 auszuführen ist, eine im Block 418 auszuführende Synthesefilterung fester Ordnung hinzugefügt werden. Das Kurzzeitmodell mit fester Ordnung und adaptierbarer Ordnung kann so mit dem Sprachcodierer entweder in solcher Weise kombiniert werden, dass bei der Optimierung der Erregungsparameter nur die Synthesefilterung adaptierbarer Ordnung ausgeführt wurde, wie im Ausführungsbeispiel von Fig. 4b angegeben), wodurch die inverse Filterung, die der zur Kurzzeitmodellierung gehörigen festen Modellierung entspricht, am ursprünglichen Sprachsignal vor dem Vergleich mit dem Syntheseergebnis ausgeführt wird, oder derart, dass das gesamte Kurzzeitsynthese-Modell im Codiererzweig mit geschlossener Schleife ausgeführt wird, d. h. zusätzlich zur Synthesefilterung gemäß dem Modell mit adaptierbarer Ordnung auch die Kurzzeit-Synthesefilterung fester Ordnung. Der Ablauf gemäß Fig. 4b liegt hinsichtlich seiner Rechenbelastung niedriger. Mit dem erfindungsgemäßen Verfahren kann bei diesem Ausführungsbeispiel eine verringerte Rechenbelastung erzielt werden, wenn Analysedurch-Synthese-Verfahren verwendet werden, da nur eine Filterung der Größe der Ordnung, die ausgehend vom Standpunkt der Modellierung erforderlich ist, ausgeführt werden muss. Bei den Analyse durch-Synthese-Verfahren sind es genau die Filtervorgänge, die die große Rechenbelastung bilden, die sich aus dem Verfahren ergibt.
Der Adaptionsblock 420 für die Modellierungsordnung, der innerhalb der Fig. 4b liegt, führt denselben Vorgang wie der Adaptionsblock 207 für die Modellierungsordnung in Fig. 2a aus. Wie in Fig. 2b kann beim Analyse durch- Synthese-Suchprozess eine Adaption der Ordnung der Filtermodellierung mittels des tatsächlichen Fehlersignals unter Verwendung einer Rückkopplung ausgeführt werden. Diese Anordnung ist in Fig. 4c angegeben. Hinsichtlich des Betriebs entspricht der Adaptionsblock 440 für die Modellierungsordnung, wie in Fig. 4c dargestellt, dem Adaptionsblock 227 von Fig. 2b. Die Adaption der Ordnung bei der Kurzzeitfilterung gemäß Fig. 4c auf Grundlage von Signalen, die mit verschiedenen Erregungssignalkandidaten synthetisiert wurden, erhöht in natürlicher Weise die Rechenbelastung des Verfahrens im Vergleich zur Verwendung eines Filtermodells fester Ordnung oder eines Modells gemäß Fig. 4b, bei dem die Auswahl der Modellierungsordnung vor der Erregungsoptimierung erfolgt. Der Codierer von Fig. 4c unterscheidet sich vom Codierer von Fig. 4b im wesentlichen dahingehend, dass im Codierer gemäß Fig. 4c eine Adaptierung der Ordnung des Filtermodells als Teil der Codierung gewählt ist, die durch das Analyse durch-Synthese-Verfahren auszuführen ist. Gemäß Fig. 4c wird die Filterordnung so ebenfalls unter Verwendung des Analyse durch-Synthese-Prinzips ausgewählt, und der Prozess, um den es im Codierer geht, ist so eine Erweiterung der Ausführung der Suche mit geschlossener Schleife von der Codierung des Erregungssignals auf die Codierung der Filterkoeffizienten. Jedoch wurde dies auf sehr einfache Form ausgeführt, wobei eine Beschränkung nur auf die Adaption der Filterordnung existiert. Auch bei diesem Ausführungsbeispiel werden die Filterkoeffizienten noch im Block 446 durch eine Suche mit offener Schleife aus dem zu verarbeitenden Signal erzeugt. Beim Ausführungsbeispiel von Fig. 4c kann das Analyse durch-Synthese-Verfahren beim Codieren des Kurzzeitmodells verwendet werden, aber gleichzeitig kann die sich aus dem Verfahren ergebende Rechenbelastung auf einem mäßigen Niveau gehalten werden.
Angesichts des vorstehenden ist es deutlich, dass Modifizierungen eingeschlossen werden können, ohne vom Schutzumfang der Erfindung abzuweichen.

Claims

1. Verfahren zum Codieren eines Eingangssignals mit einer Reihe von Sprachsignalblöcken, das die folgenden Schritte umfasst:

a) Entwickeln, in einem Kurzzeitanalysator, einer Gruppe von Vorhersageparametern, die Eigenschaften des Eingangssignals entsprechen und die in jedem zu codierenden Sprachsignalblock charakteristisch für das Kurzzeitspektrum des Sprachsignals sind;

b) Erzeugen eines Erregungssignals, das dann, wenn es einem entsprechend den Vorhersageparametern arbeitenden Synthesefilter zugeführt wird, zur Synthese eines codierten Sprachsignals führt, das dem ursprünglichen Eingangssignal entspricht;

dadurch gekennzeichnet, dass

c) ein Kurzzeit-Filtermodell aus zwei Komponenten erzeugt wird, nämlich einer Komponente fester, niedriger Ordnung und einer Komponente mit variabler Ordnung, die eine hohe Modellierungsordnung ermöglicht;

d) die Kurzzeit-Vorhersageparameter für beide Komponenten berechnet werden;

e) die Gesamtordnung des Kurzzeitmodells in jedem zu codierenden Sprachblock entsprechend dem Sprachsignal adaptiert wird; und

f) die zum Codieren der Parameter des Filtermodells zu verwendende Bitrate und die zum Codieren des Erregungssignals zu verwendende Bitrate auf solche Weise adaptiert werden, dass ein Erhöhen der beim Modellieren zu verwendenden Ordnung die Bitrate der Modellparameter erhöht und entsprechend die Bitrate verringert, die zum Codieren der Erregung zu verwenden ist.

2. Verfahren nach Anspruch 1, bei dem die Berechnung der Filterkoeffizienten des Kurzzeit-Filtermodells fester Ordnung unmittelbar aus dem zur Codierung eingegebenen Sprachsignal ausgeführt wird, wohingegen die Filterkoeffizienten des Kurzzeitmodells adaptierbarer Ordnung aus einem Signal berechnet werden, das dadurch erhalten wird, dass das zur Codierung eingegebene Sprachsignal durch ein inverses Filter des Modells fester Ordnung gefiltert wird.

3. Verfahren nach Anspruch 1 oder 2, bei dem das Ergebnis der Modellierung niedriger, fester Ordnung dazu verwendet wird, die Ordnung der Modellierung adaptierbarer Ordnung so zu adaptieren, dass die Ordnung der Kurzzeitmodellierung adaptierbarer Ordnung auf einen niedrigen Wert verringert ist, wenn der größte Teil der Energie im zu codierenden Signalblock entsprechend der Modellierung fester Ordnung bei den hohen Frequenzen liegt.

4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die für die Modellierungsordnung auszuführende Adaption entsprechend dem Vorhersagefehler bei der Gesamtmodellierung unter Verwendung von Rückkopplung dadurch ausgeführt wird, dass die Wirkung einer Erhöhung der Modellierungsordnung mit dem Vorhersagefehler verglichen wird.

5. Verfahren nach Anspruch 4, bei dem die Modellierungsordnung erhöht wird, bis die Erhöhung eine Verringerung der Stärke des Fehlersignals erzeugt, die kleiner als ein vorgegebener Schwellenwert ist, oder bis die Modellierungsordnung die größtzulässige Modellierungsordnung erreicht.

6. Verfahren nach einem der vorstehenden Ansprüche, bei dem ein Filter fester Ordnung mit niedrigerer Adaptionshäufigkeit der Modellparameter als bei der Modellierung mit adaptierbarer Ordnung verwendet wird, und es zum Transportieren spektraler Eigenschaften verwendet wird, die sich durch den Sprecher und das Mikrofon ergeben und sich langsamer ändern als die tatsächliche Toninformation, die in der Modelliereinheit adaptierbarer Ordnung zu modellieren ist.

7. Verfahren nach einem der vorstehenden Ansprüche, das in Sprachcodierern verwendet wird, die die Codierung gemäß dem Analyse durch-Synthese- Prinzip dadurch ausführen, dass das Kurzzeitmodell fester Ordnung und adaptierbarer Ordnung mit dem Sprachcodierer entweder so kombiniert wird, dass bei der Optimierung der Erregungsparameter durch eine geschlossene Schleife eine Synthesefilterung mit adaptierbarer Ordnung alleine ausgeführt wird, in welchem Fall die der zur Kurzzeitmodellierung gehörenden Modellierung fester Ordnung entsprechende inverse Filterung am ursprünglichen Sprachsignal ausgeführt wird, bevor ein Vergleich mit dem Syntheseergebnis erfolgt, oder dass das gesamte Kurzzeitsynthese-Modell, oder zusätzlich zur Synthesefilterung gemäß dem Modell mit adaptierbarer Ordnung, und die Kurzzeitsynthese-Filterung fester Ordnung im Codiererzweig ausgeführt werden, der die Auswahl des Erregungssignals ausführt.

8. Verfahren nach einem der vorstehenden Ansprüche, bei dem die Adaption der Ordnung des Filtermodells als Teil des durch das Analyse durch-Synthese-Verfahren ausgeführten Codierverfahrens unter Verwendung des Analysedurch-Synthese-Verfahrens zum Suchen nach einer Filterordnung ausgeführt wird, von deren Niveau aus weitere Erhöhungen der Ordnung die Qualität des Sprachsignals nicht wesentlich verbessern.

9. Verfahren nach einem der vorstehenden Ansprüche, bei dem die Ordnung der ausgewählten Gesamtmodellierung nicht nur an einen Block übertragen wird, der die Codierung des Erregungssignals ausführt, sondern auch an einen Block, der die Fehlerkorrekturcodierung ausführt, wodurch zusätzlich zur Bitrate bei der Codierung des Erregungssignals die zur Fehlerkorrekturcodierung zu verwendende Bitrate adaptiert werden kann.

10. Digitaler Sprachcodierer zum Codieren eines Eingangssignals, das eine Reihe von Sprachsignalblöcken umfasst, mit:

a) einem Kurzzeitanalysator zum Entwickeln einer Gruppe von dem Eingangssignal entsprechenden Vorhersageparametern, die, in jedem zu codierenden Sprachsignalblock, für das Kurzzeitspektrum des Sprachsignals charakteristisch sind;

b) einer Einrichtung zum Erzeugen eines Erregungssignals, das dann, wenn es dem entsprechend den Vorhersageparametern arbeitenden Synthesefilter zugeführt wird, zur Synthese eines dem ursprünglichen Eingabesignal entsprechenden codierten Sprachsignals führt;

dadurch gekennzeichnet, dass Einrichtungen für folgendes vorhanden sind:

c) Erzeugen eines Kurzzeit-Filtermodells aus zwei Komponenten mit fester Ordnung, einer Komponente niedriger Ordnung und einer Komponente mit variabler Ordnung, die eine hohe Modellierungsordnung ermöglicht;

d) Berechnen der Kurzzeit-Vorhersageparameter für beide Komponenten;

e) Adaptieren der Gesamtordnung des Kurzzeitmodells in jedem zu codierenden Sprachblock entsprechend dem Sprachsignal; und

f) Adaptieren der zum Codieren der Parameter des Filtermodells zu verwendenden Bitrate und der zum Codieren des Erregungssignals zu verwendenden Bitrate auf solche Weise, dass ein Erhöhen der beim Modellieren zu verwendenden Ordnung die Bitrate der Modellparameter erhöht und entsprechend die zum Codieren der Erregung zu verwendende Bitrate verringert.