DE69325237T2 - Verfahren zum Kodieren eines Sprachsignales - Google Patents
Verfahren zum Kodieren eines SprachsignalesInfo
- Publication number
- DE69325237T2 DE69325237T2 DE69325237T DE69325237T DE69325237T2 DE 69325237 T2 DE69325237 T2 DE 69325237T2 DE 69325237 T DE69325237 T DE 69325237T DE 69325237 T DE69325237 T DE 69325237T DE 69325237 T2 DE69325237 T2 DE 69325237T2
- Authority
- DE
- Germany
- Prior art keywords
- order
- short
- term
- modeling
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 74
- 230000005284 excitation Effects 0.000 claims description 58
- 238000003786 synthesis reaction Methods 0.000 claims description 33
- 230000015572 biosynthetic process Effects 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 30
- 230000006978 adaptation Effects 0.000 claims description 28
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 238000012937 correction Methods 0.000 claims description 11
- 238000001308 synthesis method Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000003595 spectral effect Effects 0.000 claims description 7
- 230000007423 decrease Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 238000007493 shaping process Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- GZPBVLUEICLBOA-UHFFFAOYSA-N 4-(dimethylamino)-3,5-dimethylphenol Chemical compound CN(C)C1=C(C)C=C(O)C=C1C GZPBVLUEICLBOA-UHFFFAOYSA-N 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011045 prefiltration Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
- Die Erfindung betrifft ein Verfahren zum Codieren eines Sprachsignals.
- Beim digitalen Codieren von Sprache wird häufig ein zweiteiliges Modell beruhend auf der menschlichen Spracherzeugung verwendet, das erstens die Erzeugung einer Erregung (beim Menschen: die Schwingung der Stimmbänder oder ein Verengungspunkt im Vokaltrakt) sowie die Formung des Erregungssignals bei einem Filtervorgang (beim Menschen: die im Vokaltrakt auftretende Formung) umfasst. Der in einem Sprachcodierer zum Modellieren der Form des Vokaltrakts verwendete Filtervorgang wird allgemein als sogenannte Kurzzeitfilterung oder Kurzzeitmodellierung bezeichnet. Für ein wirkungsvolles Codieren eines Erregungssignals wurden verschiedene Verfahren und Modelle entwickelt, die darin Erfolg hatten, die Bitrate zu verringern, die dazu erforderlich ist, das Erregungssignal zu übertragen, ohne jedoch die Qualität des Sprachsignals deutlich zu beeinträchtigen. Derzeit haben sich die wirkungsvollsten Sprachcodierverfahren als solche Sprachcodierer erwiesen, die das Analyse durch-Synthese-Verfahren bei der Suche nach einer Wiedergabe des Erregungssignals verwenden, wobei diese Wiedergabe mit der kleinstmöglichen Bitrate übertragen werden kann, wozu ein anmerkenswertes Beispiel das Verfahren der Code-erregten linearen Vorhersage ist, siehe z. B. US- 4,817,157. Es wurden auch wirkungsvolle Verfahren zum Codieren der Parameter eines Kurzzeit-Filtermodells entwickelt, wie z. B. eine Übertragung im Linienspektrumspaar-Format (siehe die Veröffentlichung "Optimal quantization of LSP parameters using delayed decisions" von F. K. Soong, B. H. Juang in Proceedings of the 1990 International Conference on Acoustics, Speech and Signal Processing).
- Obwohl zum Übertragen sowohl eines Erregungssignals als auch eines Filtermodells wirkungsvolle Verfahren entwickelt wurden, haben die zuvor angegebenen Verfahren die Tatsache nicht berücksichtigt, dass die an verschiedenen Tönen im Vokaltrakt ausgeführte Formung hinsichtlich des Typs für verschiedene Typen von Tönen verschieden ist und so in einem Kurzzeitfilter auf verschiedene Arten modelliert werden kann. Aus diesem Grund sollte, um eine Sprachcodierung zu erzielen, die so wirkungsvoll wie möglich ist, die Ordnung des Filtervorgangs entsprechend dem zu codierenden Sprachsignal angepasst werden. Bei auf diesem Gebiet bereits bekannten Verfahren bedeutete Modellierung mit einem Filter fester Ordnung, dass eine Modellierungsordnung in Gebrauch war, die für stimmlose Töne (Konsonanten) überflüssig groß ist, um ihre relativ gleichmäßig verteilte Spektralkurve zu transportieren, wobei die für diese Modellierungsordnung verwendeten Ressourcen besser zum Codieren des Erregungssignals oder zur Abweichungskorrekturcodierung verwendet werden könnte. Andererseits führt, wenn stimmhafte Töne beteiligt sind, die Verwendung einer festen Ordnung leicht zur Verwendung eines Filtermodells mit übermäßig niedriger Ordnung, obwohl die Modellierung der Formantenstruktur des Spektrums stimmhafter Töne unter Verwendung einer größeren Ordnung der Modellierung wesentlich wirkungsvoller gemacht werden könnte.
- Gemäß der Erfindung ist ein Verfahren zum Codieren eines Eingangssignals mit einer Reihe von Sprachsignalblöcken geschaffen, das die folgenden Schritte umfasst:
- a) Entwickeln, in einem Kurzzeitanalysator, einer Gruppe von Vorhersageparametern, die Eigenschaften des Eingangssignals entsprechen und die in jedem zu codierenden Sprachsignalblock charakteristisch für das Kurzzeitspektrum des Sprachsignals sind;
- b) Erzeugen eines Erregungssignals, das dann, wenn es einem entsprechend den Vorhersageparametern arbeitenden Synthesefilter zugeführt wird, zur Synthese eines codierten Sprachsignals führt, das dem ursprünglichen Eingangssignal entspricht;
- dadurch gekennzeichnet, dass
- c) ein Kurzzeit-Filtermodell aus zwei Komponenten erzeugt wird, nämlich einer Komponente fester, niedriger Ordnung und einer Komponente mit variabler Ordnung, die eine hohe Modellierungsordnung ermöglicht;
- d) die Kurzzeit-Vorhersageparameter für beide Komponenten berechnet werden;
- e) die Gesamtordnung des Kurzzeitmodells in jedem zu codierenden Sprachblock entsprechend dem Sprachsignal adaptiert wird; und
- f) die zum Codieren der Parameter des Filtermodells zu verwendende Bitrate und die zum Codieren des Erregungssignals zu verwendende Bitrate auf solche Weise adaptiert werden, dass ein Erhöhen der beim Modellieren zu verwendenden Ordnung die Bitrate der Modellparameter erhöht und entsprechend die Bitrate verringert, die zum Codieren der Erregung zu verwenden ist.
- Gemäß einer weiteren Erscheinungsform der Erfindung ist ein digitaler Sprachcodierer geschaffen, wie er durch Anspruch 10 definiert ist.
- Ein Vorteil der Erfindung ist die Schaffung eines Verfahrens digitaler Codierung eines Sprachsignals, durch das die oben angegebenen Mängel und Probleme überwunden werden können. So wird die Ordnung der Kurzzeitmodellierung als erstes adaptierend gemäß dem Sprachsignal eingestellt, und andererseits wird das gegenseitige Verhältnis der Bitraten der das Erregungssignal beschreibenden Parameter und der Kurzzeitfilterung entsprechend dem Sprachsignal adaptiert. Vom Standpunkt des Codierungswirkungsgrads aus kann durch Verringern einer nutzlos großen Ordnung des Filtermodells die zum Codieren des Erregungssignals verwendete Bitrate erhöht werden, oder die so freigesetzten Bitratenressourcen können bei der Abweichungskorrekturcodierung in Gebrauch genommen werden. Andererseits kann die Ordnung des Filtervorgangs, der den Vokaltrakt modelliert, erhöht werden, falls erforderlich, wenn dies von wesentlichem Nutzen bei der Codierung ist, und demgemäß kann die beim Codieren des Erregungssignals verwendete Bitrate gesenkt werden. Das Verfahren kann sowohl für Codierverfahren, die den Modellierungsfehler unmittelbar codieren, als auch zur Analyse durch Syntheseverfahren verwendet werden, die eine Optimierung mit geschlossener Schleife für das Erregungssignal bei der Codierung verwenden. Bei den letztgenannten Verfahren ist es möglich, die Verwendung einer übermäßig großen Ordnung bei der Modellierung des zu modellierenden Tons dadurch zu vermeiden, dass die Ordnung entsprechend der Erfindung adaptiert wird, was es ermöglicht, die Rechenbelastung wesentlich zu senken. Die Verwendung des Verfahrens liefert eine Gesamtmodellierung des Sprachsignals, die besser als bei Modellen ist, die eine Filterung des Vokaltrakts verwenden, die auf einem Modell fester Ordnung beruhen, was zu wirkungsvoller Sprachcodierung führt.
- Nachfolgend werden Ausführungsformen der Erfindung beispielhaft unter Bezugnahme auf die beigefügten Zeichnungen beschrieben.
- Fig. 1 veranschaulicht die Modellierungsfunktion des Kurzzeit-Vorhersagefilters bei verschiedenen Modellierungsordnungen für zwei verschiedene Typen von Tönen, nämlich die Phoneme /s/ (Fig. 1a) und /o/ (Fig. 1b);
- Fig. 2 zeigt einen Codierer, wie er bei einem erfindungsgemäßen Verfahren wie folgt verwendet wird: Adaption der Ordnung der Gesamtmodellierung auf Grundlage der Koeffizienten einer Modellierung niedriger Ordnung (Fig. 2a), Adaption der Modellierungsordnung mittels des Fehlers bei der Gesamtmodellierung (Fig. 2b) und Adaption der Bitrate der Abweichungskorrekturcodierung entsprechend der Modellierungsordnung (Fig. 2c);
- Fig. 3 zeigt ein Blockdiagramm eines Decodierers, der dem Codierer von Fig. 2a oder 2b entspricht, die ein erfindungsgemäßes Verfahren verwenden;
- Fig. 4a ist ein schematisches Diagramm des in der Technik bekannten Analyse-durch-Synthese-Verfahrens, bei dem Optimierung mit geschlossener Schleife bei der Modellierung des Erregungssignals verwendet wird, und die Fig. 4b und 4c zeigen eine Anwendung der Modellierung, d. h. eines erfindungsgemäßen Verfahrens, auf Sprachcodierer, die gemäß dem Analyse durch-Synthese- Prinzip arbeiten.
- Detaillierter gesagt, wird beim erfindungsgemäßen Verfahren ein Kurzzeit- Filtermodell verwendet, das aus zwei Teilen besteht, nämlich einer Komponente fester Ordnung niedrigen Grads sowie einer Komponente mit adaptierbarer Ordnung. Die letztgenannte Komponente adaptierbarer Ordnung ermöglicht es, falls erforderlich, eine hohe Ordnung der Gesamtmodellierung zu erzielen. Für beide Vorhersagemodelle werden die Kurzzeit-Vorhersageparameter gesondert berechnet, und die Berechnung der Filterkoeffizienten beider Modelle kann mit jedem in der Technik bekannten Verfahren ausgeführt werden, z. B. in Verbindung mit linearer Modellierung mit einem Rechenalgorithmus auf Grundlage linearer Vorhersagecodierung, LPC (Linear Predicitve Coding). Die Werte der Modellierungsparameter gemäß beiden Modellen werden adaptiert, d. h., sie werden aus dem Sprachsignal mit Intervallen von ungefähr 10-40 ms berechnet. Die Berechnung der Filterkoeffizienten des Kurzzeit-Filtermodells fester Ordnung erfolgt unmittelbar aus dem zur Codierung eingegebenen Sprachsignal, wohingegen die Filterkoeffizienten des Kurzzeitmodells adaptierbarer Ordnung aus dem Signal berechnet werden, das durch Filterung des zur Codierung eingegebenen Sprachsignals durch das inverse Filter des Modells fester Ordnung erhalten wurde. Das Modell fester, niedriger Ordnung wirkt so als Vorfilterfunktion für die Modellierung adaptierbarer Ordnung. Da die Modellierung ein gesondertes Filter niedriger Ordnung nutzt, können verschiedene Arten von Adaptionshäufigkeiten für die Parameter des Modells in den Filtern fester Ordnung und adaptierbarer Ordnung verwendet werden. Die Filterparameter für die genannten zwei Kurzzeitmodelle können so mit verschiedenen Intervallen an den Empfänger geliefert werden. Mittels einer Modellierung mit fester Ordnung ist es so möglich, dass spektrale Eigenschaften, die auf dem Sprecher und dem Mikrofon beruhen, sich langsam ändern und ziemlich gut für Modellierung niedriger Ordnung geeignet sind, auf wirkungsvolle Weise übertragen werden, was auf solche Weise ausgeführt wird, dass die Koeffizienten der Modellierung weniger häufig als die Koeffizienten der Modellierung adaptierbarer Ordnung, die sich schnell ändernde Toninformation enthalten, angepasst werden.
- Bei einer anderen Ausführungsform der Erfindung, die mit einer Abtastfrequenz von 8 kHz arbeitet, wird die Ordnung der Kurzzeitmodellierung adaptierbarer Ordnung entsprechend den Ergebnissen der Modellierung fester Ordnung wie folgt eingestellt: die Ordnung im Filter mit adaptierbarer Filterordnung wird auf einen kleinen Wert eingestellt (ungefähr zweite Ordnung), wenn das meiste der Energie im zu codierenden Signalblock bei hohen Frequenzen liegt, d. h., wenn das bei der Modellierung fester Ordnung erhaltene Frequenzansprechverhalten vom Hochpasstyp ist (stimmloser Typ von Tönen, der leicht in ein Modell klassifizierbar ist). Die Ordnung der Modellierung adaptierbarer Ordnung wird ihrerseits auf einen großen Wert (ungefähr zwölfte Ordnung) eingestellt, wenn das Frequenzansprechverhalten des bei der Modellierung fester Ordnung erhaltenen Signals vom Tiefpasstyp ist (stimmhafter Typ von Tönen, der so klassifiziert wird, dass er eine bedeutungstragende Formantenstruktur enthält). Die Ordnung der Modellierung fester Ordnung ist konstant und von zweiter Ordnung. Bei den in diesem Beispiel angegebenen Ordnungen ist die Gesamtordnung für die Gesamtmodellierung entweder 4 oder 14.
- Bei noch einer anderen Ausführungsform wird die Ordnung der Filtermodellierung entsprechend dem Modellierungserfolg mittels Rückkopplung auf Grundlage des Modellierungs-Fehlersignals adaptiert. Bei dieser Ausführungsform kann das Einstellen der Ordnung stufenlos ausgeführt werden, ohne dass eine Grobentscheidung auf Grundlage der zwei verschiedenen Modellierungsordnungen erfolgt.
- Fig. 1 veranschaulicht den Betrieb der Kurzzeitmodellierung mit verschiedenen Modellierungsgraden für zwei verschiedene Typen von Tönen, d. h. für das stimmlose Phonem /s/ sowie das stimmhafte Phonem /o/. Die verwendete Abtastfrequenz betrug 8 kHz. Fig. 1a zeigt den Signalverlauf und die Spektralkurve (gestrichelte Linie) des zum stimmlosen Typ von Tönen gehörigen Phonems /s/, wie durch das FFT-Verfahren (Fast Fourier Transform = schnelle Fourier-Transformation) berechnet. Fig. 1a zeigt auch das Frequenzansprechverhalten der Kurzzeit-LPC-Modellierung bei zwei verschiedenen Modellierungsordnungen, nämlich 4 und 10 (LPC 4 und LPC 10). Entsprechend zeigt Fig. 1b den Signalverlauf und die FFT-Spektralkurve des stimmhaften Phonems /o/ wie auch das Frequenzansprechverhalten der Kurzzeit-LPC-Modellierung mit zwei Modellierungsordnungen, nämlich 4 und 10 (LPC 4 und LPC 10). Das verwendete Modell 4. Ordnung (LPC 4) kann den relativ gleichmäßigen darge botenen Frequenzgehalt, wie er für einen stimmlosen Ton typisch ist, ziemlich gut modellieren. Andererseits gelingt es nur mit einer größeren Modellierungsordnung, dass die Resonanzpunkte des Spektrums, die bei der Interpretation stimmhafter Töne von Bedeutung sind, gut transportiert werden können. Z. B. kann die Spektralkurve des Phonems /o/, die mit 4 Resonanzspitzen ausgebildet ist, nur mit einem Modell höherer Ordnung, z. B. einem solchen 10. Ordnung (LPC 10), geeignet modelliert werden, wie es in Fig. 1b dargestellt ist. Resonanzspitzen, oder sogenannte Formanten, können bei Frequenzen von ungefähr 500 Hz, 1000 Hz, 2400 Hz und 3400 Hz deutlich aus der LPC-10-Kurve erkannt werden. Beim Modellieren des in der Fig. 1a angegebenen Phonems /s/ führt eine Erhöhung der Modellierungsordnung auf 10 zu keiner entsprechenden wesentlichen Verbesserung der Modellierung.
- Fig. 2 zeigt einen Codierer gemäß dem Codierverfahren, der unmittelbar aus dem Fehlersignal bei der Kurzzeitmodellierung ein Erregungssignal erzeugt, wobei er eine Adaption der Ordnung der Modellierung durch Kurzzeitfilterung gemäß der Erfindung verwendet. Fig. 2a zeigt ein Ausführungsbeispiel des Codierers, bei dem die Adaption der Ordnung auf Grundlage der Koeffizienten des Modells fester Ordnung ausgeführt wird. Ein Sprachsignal 206 durchläuft zunächst die Kurzzeitmodellierung 204 niedriger Ordnung, bei der die Filterkoeffizienten a(i) mit i = 1, 2, ..., M&sub1;, entsprechend dem Modell erzeugt werden. Dies können entweder Koeffizienten des direkt erzeugenden Filters oder sogenannte Reflexionskoeffizienten sein, wie sie bei Gitterfiltern verwendet werden. Der im Block 204 auszuführende Vorgang kann durch jedes bekannte Rechenverfahren für die Filterkoeffizienten eines Modells mit linearer Vorhersage bewerkstelligt werden. M&sub1; hat konstanten Wert, und die Größe ist typischerweise von zweiter Ordnung. Das Sprachsignal 206 wird in das inverse Filter 201 gegeben, das in Übereinstimmung mit dem berechneten Modell steht und die Ordnung M&sub1; hat.
- Das vom inversen Filter fester Ordnung erhaltene Signal (d. h. die Vorhersageabweichung des Modells fester Ordnung) wird dann an das inverse Filter 202 adaptierbarer Ordnung gegeben. Beim Ausführungsbeispiel der Figur erfolgt eine Entscheidung, auf Grundlage der Filterkoeffizienten a(i), mit i = 1, 2, ..., M&sub1;, im Block 207, zur Größe der Ordnung M&sub2; der Modellierung 205 adaptierbarer Ordnung mittels des oben beschriebenen Verfahrens. Die Filterkoeffizienten b(j) = 1, 2, ..., M&sub2; des Filters 202 adaptierbarer Ordnung werden in einem Block 205 berechnet. Die Suche nach einem geeignet codierten Format für die Vorhersageabweichung bei der Gesamtmodellierung wird im Codierungsblock 203 ausgeführt. Die so erzeugten Erregungsimpulse, die die Vorhersageabweichung transportieren, werden an den Decodierer geliefert, um als Erregungssignale verwendet zu werden. Neben den Erregungsimpulsen werden auch die Filterkoeffizienten sowohl der Modellierung niedriger, fester Ordnung als auch der Modellierung adaptierbarer Ordnung an den Empfänger geliefert. Wenn im Block 207 eine Entscheidung zum Verwenden einer Modellierung kleiner Ordnung bei der Modellierung 205 adaptierbarer Ordnung getroffen wird, werden die bei dieser Modellierung freigesetzten Ressourcen zur Codierung der Abweichung bei der Gesamtmodellierung verwendet, die im Block 203 auszuführen ist. Im Block 203 kann das Codieren der Modellierungsabweichung mit jedem auf diesem Gebiet bekannten Verfahren ausgeführt werden, z. B. durch ein Verfahren auf Grundlage einer Begrenzung der Menge von Abtastwerten (siehe z. B. die Veröffentlichung "Speech codes for the European Mobile radio system" von P. Vary, K. Hellwig, R. Hofmann, R. J. Sluyter, C. Galand, M. Rosso in Proceedings of the 1988 International Conference on Acoustics, Speech, and Signal Processing). Wenn andererseits beobachtet wird, dass eine Modellierung hoher Ordnung für die Kurzzeitmodellierung erforderlich ist, kann ein Teil der Ressourcen, der andernfalls zum Codieren des Erregungssignals erforderlich ist, unmittelbar darauf gerichtet werden, Parameter für das Kurzzeitmodell zu liefern, in welchem Fall die Ordnung der Kurzzeitmodellierung erhöht werden kann. Dies erfolgt durch Erhöhen der bei der Modellierung adaptierbarer Ordnung verwendeten Ordnung.
- Beim in Fig. 2a dargestellten Ausführungsbeispiel erfolgt die Entscheidung zur zu verwendenden Ordnung im Filtermodell im Adaptionsblock 207 entsprechend dem folgenden Ablauf: wenn die ausgeführte Modellierung fester Ordnung zeigt, dass der größte Teil der Energie, die das Eingangssignal 206 enthält, bei niedrigen Frequenzen liegt, verwendet das Verfahren bei der Kurzzeitmodellierung eine höhere Ordnung. Wenn andererseits die Energie im Signal um die hohen Frequenzen herum aufgebaut wurde, wird Modellierung niedriger Ordnung verwendet. In seiner einfachsten Form interpretiert, beruht das Modell auf der Tatsache, dass die Spektrumshüllkurve stimmloser Töne, die zu hohen Frequenzen hin gewichtet sind, keine deutlichen spektralen Spitzenwerte, die wesentliche Information transportieren, in der Art stimmhafter Töne, enthält, in welchem Fall für stimmlose Töne eine niedrigere Kurzzeitmodellierung verwendet werden kann und ein größerer Teil der Übertragungskapazität auf das Codieren des Erregungssignals ausgerichtet werden kann. Andererseits besteht im Fall stimmhafter Töne Grund zur Verwendung eines Filtermodells hoher Ordnung zum Transportieren der Spektrumseinhüllenden, so dass die für sie wichtige Formantenstruktur beim Codier verfahren so genau wie möglich transportiert werden kann. Beim in Fig. 2a dargestellten Verfahren können zwei verschiedene Gesamtmodellierungsordnungen verwendet werden, nämlich eine niedrige für als stimmlos klassifizierte Töne (der Ordnung 4) sowie eine für als stimmhaft klassifizierte Töne (der Ordnung 12).
- Fig. 2b zeigt eine andere beispielhafte Ausführungsform zum Realisieren des erfindungsgemäßen Ablaufs bei einem digitalen Sprachcodierer. Im Vergleich mit Fig. 2a liegt der Unterschied in der Adaption der Modellierungsordnung unmittelbar auf Grundlage des Vorhersagefehlers bei der Gesamtmodellierung durch Rückkopplung und nicht auf Grundlage der Filterkoeffizienten niedriger Ordnung. Die Adaption der Ordnung M&sub2; wird im Block 227 der Figur auf Grundlage des tatsächlichen Vorhersagefehlers ausgeführt, während im Block 206 die Adaption auf Filterkoeffizienten der Modellierung fester Ordnung durch den bereits erörterten Ablauf beruht. Beim Beispiel der Fig. 2 wird die Adaption der Ordnung der im Block 227 auszuführenden Modellierung entsprechend dem Vorhersagefehler dadurch ausgeführt, dass die Wirkung einer Erhöhung der Modellierungsordnung auf den Vorhersagefehler verglichen wird. Das Verfahren umfasst ein Erhöhen der Modellierungsordnung bis die Erhöhung eine Verringerung der Stärke des vorhergesagten Fehlersignals erzeugt, die kleiner als ein vorbestimmter Schwellenwert PTH ist. In diesem Fall kann hergeleitet werden, dass es nicht erforderlich ist, die Modellierungsordnung weiter zu erhöhen, und die Modellierungsordnung in diesem Moment wird zur Verwendung ausgewählt. Bei diesem Verfahren wird das im inversen Filter fester Ordnung verarbeitete Sprachsignal auf solche Weise an das inverse Filter adaptierbarer Ordnung gegeben, dass die Ordnung des Filters mit adaptierbarer Ordnung einem Erhöhungsprozess ausgehend vom zulässigen Minimalwert unterzogen wird, bis eine Abnahme des Fehlersignals, die kleiner als der Schwellenwert ist, beobachtet wird, oder bis die größtzulässige Gesamtmodellierungsordnung DMAX, wie sie bei diesem Verfahren eingestellt wurde, erreicht ist. Der zu codierende Sprachblock wird mit jedem inversen Filter anderer Ordnung gefiltert, und die Ausgangsstärke des Modellierungsfehlers, d. h. des inversen Filters, wird für jede verschiedene Filterordnung berechnet. Wenn die verwendete Filterstruktur ein Gitterfilter ist, das Reflexionskoeffizienten verwendet, ändert ein Erhöhen der Ordnung die vorigen Werte der Filterkoeffizienten nicht, d. h., dass ein Erhöhen der Ordnung lediglich bewirkt, dass ein neuer Filtervorgang am Filterausgangssignal der kleineren Modellierungsordnung hinzugefügt wird. Bei den Berechnungen können unmittelbar diejenigen Berechnungen verwendet werden, die im Filter kleinerer Ordnung ausgeführt wurden. Die Funktionen der Blöcke 207 und 227, die die Adaption der Ordnung ausführen, unterscheiden sich wesentlich voneinander. Da beim Verfahren gemäß Fig. 2d keine Filterkoeffizienten beim Adaptieren der Modellierungsordnung verwendet werden, muss der Betriebsmodus des Codierers dem Empfänger als zusätzlicher Parameter zugeführt werden, und dieser Betriebsmodus zeigt dem Decodierer die Modellierungsordnung an, die im zu verarbeitenden Sprachrahmen verwendet wurde.
- Fig. 2c zeigt ein vereinfachtes Blockdiagramm 241 des erfindungsgemäßen Verfahrens in Kombination mit der Fehlerkorrektur-Codiereinheit 242. Gemäß der Figur unterliegt das Sprachsignal 243 einer Berechnung der Koeffizienten des Modells fester Ordnung auf die zuvor beschriebene Weise sowie eine inverse Filterung im Block 249 wie auch eine entsprechende Verarbeitung adaptierbarer Ordnung im Block 245. Die Auswahl der Ordnung der Modellierung adaptierbarer Ordnung kann entweder auf Grundlage des Frequenzansprechverhaltens oder der Modellierung niedriger Ordnung (in der Art des Ausführungsbeispiels von Fig. 2a) oder auf Grundlage des Gesamtmodellierungsfehlers (beim Modell des Ausführungsbeispiels von Fig. 2b) ausgeführt werden. Das Adaptionsverfahren für die Ordnung wird in einem Schalter 248 entsprechend davon ausgewählt, ob das Verfahren gemäß Fig. 2a (der Schalter 248 befindet sich in der Stellung a) oder gemäß Fig. 2b (der Schalter 248 befindet sich in der Stellung b) in Gebrauch genommen wurde. Die Ordnung wird im Block 250 oder 251 ausgewählt. Das Verfahren kann mit der Fehlerkorrekturcodierung auf die in Fig. 2c angegebene Weise auf solche Art verbunden werden, dass die ausgewählte Modellierungsordnung M&sub2; nicht nur an den Block 246 geliefert wird, der die Codierung des Erregungssignals ausführt, sondern auch an die Fehlerkorrektureinheit 247. In diesem Fall ist es möglich, nicht nur die Bitrate der Codierung des Erregungssignals innerhalb der Grenzen der ausgewählten Gesamtmodellierung zu ändern, sondern auch die Bitrate anzupassen, die für die Fehlerkorrekturcodierung im Block 242 zu verwenden ist. Der dem Decodierer zuzuführende Bitstrom 244 enthält die Parameter des Sprachcodierers (Filterkoeffizienten und Erregungssignal) wie auch den Fehlerkorrekturcode und Daten zum Betriebsmodus, d. h. zur Ordnung des Kurzzeit-Filtermodells. Insoweit eine Adaption der Ordnung unmittelbar auf Grundlage der Koeffizienten a(i), mit i = 1, 2, ..., M&sub1;, der Modellierung fester Ordnung ausgeführt wurde (auf die Art des in Fig. 2a dargestellten Ausführungsbeispiels), können diese dazu verwendet werden, die Adaptionsordnung für die Codierung des Erregungssignals und die Fehlerkorrekturcodierung anzuzeigen, und das bedeutet, dass es nicht erforderlich ist, gesonderte Modusdaten zu liefern. Fig. 3 zeigt das Blockdiagramm eines erfindungsgemäßen Decodierers. Der Decodierer empfängt Daten zur Größe der beim Codieren verwendeten Ordnung bei der Kurzzeitmodellierung. Die Modellierungsordnung kann aus einem speziellen, gesondert übertragenen Modus- Einzeldatenwert bestimmt werden, der die Modellierungsordnung anzeigt (Decodierer, der dem Codierer von Fig. 2b entspricht), oder unmittelbar aus den Filterkoeffizienten der Modellierung niedriger Ordnung (Decodierer, der dem Codierer von Fig. 2a entspricht). Fig. 3 zeigt einen dem Codierer von Fig. 2b entsprechenden Decodierer, an den ein Signal geliefert wird, das die Modellierungsordnung anzeigt. Im dem Codierer von Fig. 2a entsprechenden Decodierer kann die Modellierungsordnung aus den Koeffizienten der Modellierung fester Ordnung dadurch hergeleitet werden, dass eine Adaption des Modellierungsgrads auch im Decodierer entsprechend dem in Fig. 207 dargestellten Ablauf ausgeführt wird. Dieser Ablauf wurde in Fig. 3 mit gestrichelter Linie eingezeichnet. Die Daten zur verwendeten Ordnung, d. h. zum Betriebsmodus, werden nicht nur an das Kurzzeit-Synthesefilter 302 sondern auch an einen Block 301 geliefert, der eine Decodierung des Erregungssignals ausführt, da die gleichzeitig ausgeführte Operation die zu verwendende Bitrate für die Übertragung der Erregung adaptiert. Bei diesem Verfahren wird das decodierte Sprachsignal 304 aus dem Ausgangssignal des Kurzzeit-Synthesefilters niedriger Ordnung 303 erhalten. Das Verfahren sorgt ferner für das Zuführen der Modellierungskoeffizienten für sowohl die Kurzzeitmodellierung adaptierbarer Ordnung als auch die Kurzzeitmodellierung fester Ordnung zu Synthesefiltern 302 und 303.
- Bei den oben beschriebenen beispielhaften Ausführungsformen ist erörtert, wie ein erfindungsgemäßes Verfahren bei Codierverfahren angewandt werden kann, bei denen das Erregungssignal unmittelbar aus dem Fehlersignal der Kurzzeitmodellierung gebildet wird. Diese werden hinsichtlich der Wirksamkeit durch Sprachcodierverfahren übertroffen, die auf filternder Modellierung beruhen, bei der die Codierung des Erregungssignals entsprechend dem sogenannten Analyse durch-Synthese-Verfahren ausgeführt wird. Ein erfindungsgemäßes Verfahren kann auch auf Codierverfahren dieses Typs angewandt werden, wie dies im folgenden erläutert wird.
- Fig. 4a zeigt ein schematisches Blockdiagramm eines auf diesem Gebiet bekannten Sprachcodierers, bei dem ein Analyse durch-Synthese-Verfahren zum Codieren des Erregungssignals verwendet wird. Bei einem Codierverfahren dieser Art erfolgt in jedem Block des zu codierenden Sprachsignals eine Suche nach einem leicht transportierbaren Format für das Erregungssignal, was dadurch erfolgt, dass eine große Menge von Sprachsignalen entsprechend leicht codierbaren Erregungssignalen synthetisiert wird und die beste Erre gung dadurch ausgewählt wird, dass das Syntheseergebnis mit dem zu codierenden Sprachsignal verglichen wird. Bei diesem Verfahren wird überhaupt kein Vorhersagefehlersignal erzeugt, sondern stattdessen wird das als Erregung zu verwendende Signal in einem Erregungs-Erzeugungsblock 400 gebildet. In einem Kurzzeitanalyse-Block 406 werden die Kurzzeit-Filterkoeffizienten aus dem Sprachsignal 407 berechnet, und diese werden im Kurzzeit-Synthesefilter 402 verwendet. Das Erregungssignal wird dadurch erzeugt, dass das ursprüngliche Sprachsignal und das synthetisierte Sprachsignal in einem Differenzberechnungsblock 403 miteinander verglichen werden. Ein synthetisiertes Sprachsignal für alle möglichen Erregungsalternativen wird dadurch erhalten, dass die vom Erregungs-Erzeugungsblock 400 erhaltenen Erregungsalternativen jeweils im Langzeitsynthese-Filter 401 und im Kurzzeitsynthese-Filter 402 geformt werden. Das vom Differenzberechnungsblock 403 erhaltene Differenzsignal wird in einem Gewichtungsblock 404 so gewichtet, dass es, vom Standpunkt menschlicher Hörwahrnehmung aus, ein deutlicheres Maß für die subjektive Sprachqualität wird, und zwar dadurch, dass bei starken Signalfrequenzen ein relativ größerer Fehlerbereich zugelassen ist, und bei schwachen Signalfrequenzen ein kleinerer. Im Fehlerberechnungsblock 405 erfolgt auf Grundlage des Differenzsignals eine Berechnung eines Messwerts für die Güte des Syntheseergebnisses, wie es durch jede Erregungsalternative erzielt wurde, und dieser wird dazu verwendet, die Erregungserzeugung zu lenken und das bestmögliche Erregungssignal auszuwählen.
- Fig. 4b zeigt ein Blockdiagramm zu einer Anwendung des Verfahrens auf Sprachcodierer, die eine Codierung des Erregungssignals ausführen. Die Figur zeigt die Struktur eines Codierers für ein Ausführungsbeispiel, bei dem die Adaption der Ordnung, in ähnlicher Weise wie beim in Fig. 2a dargestellten Ausführungsbeispiel, auf dem Modellierungsfehlersignal beruht, das als Ausgangssignal des inversen Filters fester Ordnung erhalten wurde. Die im Modell mit adaptierbarer Ordnung zu verwendende Ordnung wird vom Block 420 erhalten. Im Block 419 wird am Sprachsignal 417 eine Kurzzeitmodellierung fester Ordnung ausgeführt. Im Block 418 wird eine inverse Filterung niedriger Ordnung mit der festen Modellierungsordnung entsprechend den Modellierungskoeffizienten a(i), mit i = 1, 2, ..., M&sub1;, des Blocks 419 ausgeführt. Dann wird das invers gefilterte Sprachsignal zum Modellierblock 416 mit adaptierbarer Ordnung geliefert, von dem die Filterkoeffizienten b(j), mit j = 1, 2, ..., M&sub2;, des Filters adaptierbarer Ordnung entnommen werden. Diese Filterkoeffizienten werden an das Kurzzeitsynthese-Filter 412 geliefert, das im Zweig der Sucheinheit mit geschlossener Schleife liegt. Außerdem empfängt die Analyse durch-Synthese-Struktur eine Angabe zur Ordnung M&sub2; der ausgewählten Kurzzeitmodellierung, wobei diese Ordnung dazu verwendet wird, die geeignete Modellierungsordnung im Filterblock 412 auszuwählen. Die zur Modellierungsordnung eingegebenen Daten werden auch an diejenige Einheit geliefert, die die Erregung modelliert, wo sie anzeigen, wieviel der Bitrate dazu verwendet wurde, die Koeffizienten des Kurzzeit-Filtermodells zu übertragen, und entsprechend, wieviel der Bitrate zur Verwendung bei der Erzeugung des Erregungssignals im Block 410 zur Verfügung steht. Das System nutzt ferner ein sogenanntes Langzeit-Filtermodell durch Ausführen, im Block 411, einer Langzeitfilterung, die die Feinstruktur des Spektrums modelliert, und die Bitrate dieser Filterung kann auch entsprechend der Stärke der Kurzzeitmodellierung, die zur Verwendung ausgewählt wurde, adaptiert werden. Blöcke 413, 414 und 415 führen dieselben Funktionen wie die Blöcke 403, 404 und 405 in Fig. 4a aus.
- Ein erfindungsgemäßes Verfahren kann auch auf Analyse durch-Synthese-Codierer gemäß einem anderen Ausführungsbeispiel in solcher Weise angewandt werden, dass das Sprachsignal unmittelbar an das Signaldifferenzelement 413 geliefert wird, ohne dass als erstes die inverse Filterung 418 an ihm ausgeführt wird. In diesem Fall sollte zur Kurzzeitsynthese-Filterung adaptierbarer Ordnung, die im Block 412 auszuführen ist, eine im Block 418 auszuführende Synthesefilterung fester Ordnung hinzugefügt werden. Das Kurzzeitmodell mit fester Ordnung und adaptierbarer Ordnung kann so mit dem Sprachcodierer entweder in solcher Weise kombiniert werden, dass bei der Optimierung der Erregungsparameter nur die Synthesefilterung adaptierbarer Ordnung ausgeführt wurde, wie im Ausführungsbeispiel von Fig. 4b angegeben), wodurch die inverse Filterung, die der zur Kurzzeitmodellierung gehörigen festen Modellierung entspricht, am ursprünglichen Sprachsignal vor dem Vergleich mit dem Syntheseergebnis ausgeführt wird, oder derart, dass das gesamte Kurzzeitsynthese-Modell im Codiererzweig mit geschlossener Schleife ausgeführt wird, d. h. zusätzlich zur Synthesefilterung gemäß dem Modell mit adaptierbarer Ordnung auch die Kurzzeit-Synthesefilterung fester Ordnung. Der Ablauf gemäß Fig. 4b liegt hinsichtlich seiner Rechenbelastung niedriger. Mit dem erfindungsgemäßen Verfahren kann bei diesem Ausführungsbeispiel eine verringerte Rechenbelastung erzielt werden, wenn Analysedurch-Synthese-Verfahren verwendet werden, da nur eine Filterung der Größe der Ordnung, die ausgehend vom Standpunkt der Modellierung erforderlich ist, ausgeführt werden muss. Bei den Analyse durch-Synthese-Verfahren sind es genau die Filtervorgänge, die die große Rechenbelastung bilden, die sich aus dem Verfahren ergibt.
- Der Adaptionsblock 420 für die Modellierungsordnung, der innerhalb der Fig. 4b liegt, führt denselben Vorgang wie der Adaptionsblock 207 für die Modellierungsordnung in Fig. 2a aus. Wie in Fig. 2b kann beim Analyse durch- Synthese-Suchprozess eine Adaption der Ordnung der Filtermodellierung mittels des tatsächlichen Fehlersignals unter Verwendung einer Rückkopplung ausgeführt werden. Diese Anordnung ist in Fig. 4c angegeben. Hinsichtlich des Betriebs entspricht der Adaptionsblock 440 für die Modellierungsordnung, wie in Fig. 4c dargestellt, dem Adaptionsblock 227 von Fig. 2b. Die Adaption der Ordnung bei der Kurzzeitfilterung gemäß Fig. 4c auf Grundlage von Signalen, die mit verschiedenen Erregungssignalkandidaten synthetisiert wurden, erhöht in natürlicher Weise die Rechenbelastung des Verfahrens im Vergleich zur Verwendung eines Filtermodells fester Ordnung oder eines Modells gemäß Fig. 4b, bei dem die Auswahl der Modellierungsordnung vor der Erregungsoptimierung erfolgt. Der Codierer von Fig. 4c unterscheidet sich vom Codierer von Fig. 4b im wesentlichen dahingehend, dass im Codierer gemäß Fig. 4c eine Adaptierung der Ordnung des Filtermodells als Teil der Codierung gewählt ist, die durch das Analyse durch-Synthese-Verfahren auszuführen ist. Gemäß Fig. 4c wird die Filterordnung so ebenfalls unter Verwendung des Analyse durch-Synthese-Prinzips ausgewählt, und der Prozess, um den es im Codierer geht, ist so eine Erweiterung der Ausführung der Suche mit geschlossener Schleife von der Codierung des Erregungssignals auf die Codierung der Filterkoeffizienten. Jedoch wurde dies auf sehr einfache Form ausgeführt, wobei eine Beschränkung nur auf die Adaption der Filterordnung existiert. Auch bei diesem Ausführungsbeispiel werden die Filterkoeffizienten noch im Block 446 durch eine Suche mit offener Schleife aus dem zu verarbeitenden Signal erzeugt. Beim Ausführungsbeispiel von Fig. 4c kann das Analyse durch-Synthese-Verfahren beim Codieren des Kurzzeitmodells verwendet werden, aber gleichzeitig kann die sich aus dem Verfahren ergebende Rechenbelastung auf einem mäßigen Niveau gehalten werden.
- Angesichts des vorstehenden ist es deutlich, dass Modifizierungen eingeschlossen werden können, ohne vom Schutzumfang der Erfindung abzuweichen.
Claims (10)
1. Verfahren zum Codieren eines Eingangssignals mit einer Reihe von
Sprachsignalblöcken, das die folgenden Schritte umfasst:
a) Entwickeln, in einem Kurzzeitanalysator, einer Gruppe von
Vorhersageparametern, die Eigenschaften des Eingangssignals entsprechen und die in
jedem zu codierenden Sprachsignalblock charakteristisch für das
Kurzzeitspektrum des Sprachsignals sind;
b) Erzeugen eines Erregungssignals, das dann, wenn es einem entsprechend
den Vorhersageparametern arbeitenden Synthesefilter zugeführt wird, zur
Synthese eines codierten Sprachsignals führt, das dem ursprünglichen
Eingangssignal entspricht;
dadurch gekennzeichnet, dass
c) ein Kurzzeit-Filtermodell aus zwei Komponenten erzeugt wird, nämlich
einer Komponente fester, niedriger Ordnung und einer Komponente mit
variabler Ordnung, die eine hohe Modellierungsordnung ermöglicht;
d) die Kurzzeit-Vorhersageparameter für beide Komponenten berechnet werden;
e) die Gesamtordnung des Kurzzeitmodells in jedem zu codierenden
Sprachblock entsprechend dem Sprachsignal adaptiert wird; und
f) die zum Codieren der Parameter des Filtermodells zu verwendende Bitrate
und die zum Codieren des Erregungssignals zu verwendende Bitrate auf solche
Weise adaptiert werden, dass ein Erhöhen der beim Modellieren zu
verwendenden Ordnung die Bitrate der Modellparameter erhöht und entsprechend die
Bitrate verringert, die zum Codieren der Erregung zu verwenden ist.
2. Verfahren nach Anspruch 1, bei dem die Berechnung der
Filterkoeffizienten des Kurzzeit-Filtermodells fester Ordnung unmittelbar aus dem zur
Codierung eingegebenen Sprachsignal ausgeführt wird, wohingegen die
Filterkoeffizienten des Kurzzeitmodells adaptierbarer Ordnung aus einem Signal
berechnet werden, das dadurch erhalten wird, dass das zur Codierung
eingegebene Sprachsignal durch ein inverses Filter des Modells fester Ordnung
gefiltert wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem das Ergebnis der
Modellierung niedriger, fester Ordnung dazu verwendet wird, die Ordnung der
Modellierung adaptierbarer Ordnung so zu adaptieren, dass die Ordnung der
Kurzzeitmodellierung adaptierbarer Ordnung auf einen niedrigen Wert verringert
ist, wenn der größte Teil der Energie im zu codierenden Signalblock
entsprechend der Modellierung fester Ordnung bei den hohen Frequenzen liegt.
4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem die für die
Modellierungsordnung auszuführende Adaption entsprechend dem Vorhersagefehler
bei der Gesamtmodellierung unter Verwendung von Rückkopplung dadurch
ausgeführt wird, dass die Wirkung einer Erhöhung der Modellierungsordnung mit
dem Vorhersagefehler verglichen wird.
5. Verfahren nach Anspruch 4, bei dem die Modellierungsordnung erhöht
wird, bis die Erhöhung eine Verringerung der Stärke des Fehlersignals
erzeugt, die kleiner als ein vorgegebener Schwellenwert ist, oder bis die
Modellierungsordnung die größtzulässige Modellierungsordnung erreicht.
6. Verfahren nach einem der vorstehenden Ansprüche, bei dem ein Filter
fester Ordnung mit niedrigerer Adaptionshäufigkeit der Modellparameter als
bei der Modellierung mit adaptierbarer Ordnung verwendet wird, und es zum
Transportieren spektraler Eigenschaften verwendet wird, die sich durch den
Sprecher und das Mikrofon ergeben und sich langsamer ändern als die
tatsächliche Toninformation, die in der Modelliereinheit adaptierbarer Ordnung
zu modellieren ist.
7. Verfahren nach einem der vorstehenden Ansprüche, das in
Sprachcodierern verwendet wird, die die Codierung gemäß dem Analyse durch-Synthese-
Prinzip dadurch ausführen, dass das Kurzzeitmodell fester Ordnung und
adaptierbarer Ordnung mit dem Sprachcodierer entweder so kombiniert wird, dass
bei der Optimierung der Erregungsparameter durch eine geschlossene Schleife
eine Synthesefilterung mit adaptierbarer Ordnung alleine ausgeführt wird,
in welchem Fall die der zur Kurzzeitmodellierung gehörenden Modellierung
fester Ordnung entsprechende inverse Filterung am ursprünglichen
Sprachsignal ausgeführt wird, bevor ein Vergleich mit dem Syntheseergebnis erfolgt,
oder dass das gesamte Kurzzeitsynthese-Modell, oder zusätzlich zur
Synthesefilterung gemäß dem Modell mit adaptierbarer Ordnung, und die
Kurzzeitsynthese-Filterung fester Ordnung im Codiererzweig ausgeführt werden, der
die Auswahl des Erregungssignals ausführt.
8. Verfahren nach einem der vorstehenden Ansprüche, bei dem die Adaption
der Ordnung des Filtermodells als Teil des durch das Analyse
durch-Synthese-Verfahren ausgeführten Codierverfahrens unter Verwendung des
Analysedurch-Synthese-Verfahrens zum Suchen nach einer Filterordnung ausgeführt
wird, von deren Niveau aus weitere Erhöhungen der Ordnung die Qualität des
Sprachsignals nicht wesentlich verbessern.
9. Verfahren nach einem der vorstehenden Ansprüche, bei dem die Ordnung
der ausgewählten Gesamtmodellierung nicht nur an einen Block übertragen
wird, der die Codierung des Erregungssignals ausführt, sondern auch an
einen Block, der die Fehlerkorrekturcodierung ausführt, wodurch zusätzlich
zur Bitrate bei der Codierung des Erregungssignals die zur
Fehlerkorrekturcodierung zu verwendende Bitrate adaptiert werden kann.
10. Digitaler Sprachcodierer zum Codieren eines Eingangssignals, das eine
Reihe von Sprachsignalblöcken umfasst, mit:
a) einem Kurzzeitanalysator zum Entwickeln einer Gruppe von dem
Eingangssignal entsprechenden Vorhersageparametern, die, in jedem zu codierenden
Sprachsignalblock, für das Kurzzeitspektrum des Sprachsignals
charakteristisch sind;
b) einer Einrichtung zum Erzeugen eines Erregungssignals, das dann, wenn es
dem entsprechend den Vorhersageparametern arbeitenden Synthesefilter
zugeführt wird, zur Synthese eines dem ursprünglichen Eingabesignal
entsprechenden codierten Sprachsignals führt;
dadurch gekennzeichnet, dass Einrichtungen für folgendes vorhanden sind:
c) Erzeugen eines Kurzzeit-Filtermodells aus zwei Komponenten mit fester
Ordnung, einer Komponente niedriger Ordnung und einer Komponente mit
variabler Ordnung, die eine hohe Modellierungsordnung ermöglicht;
d) Berechnen der Kurzzeit-Vorhersageparameter für beide Komponenten;
e) Adaptieren der Gesamtordnung des Kurzzeitmodells in jedem zu codierenden
Sprachblock entsprechend dem Sprachsignal; und
f) Adaptieren der zum Codieren der Parameter des Filtermodells zu
verwendenden Bitrate und der zum Codieren des Erregungssignals zu verwendenden
Bitrate auf solche Weise, dass ein Erhöhen der beim Modellieren zu
verwendenden Ordnung die Bitrate der Modellparameter erhöht und entsprechend die
zum Codieren der Erregung zu verwendende Bitrate verringert.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI925376A FI95086C (fi) | 1992-11-26 | 1992-11-26 | Menetelmä puhesignaalin tehokkaaksi koodaamiseksi |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69325237D1 DE69325237D1 (de) | 1999-07-15 |
DE69325237T2 true DE69325237T2 (de) | 1999-12-16 |
Family
ID=8536280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69325237T Expired - Lifetime DE69325237T2 (de) | 1992-11-26 | 1993-11-22 | Verfahren zum Kodieren eines Sprachsignales |
Country Status (6)
Country | Link |
---|---|
US (1) | US5596677A (de) |
EP (1) | EP0599569B1 (de) |
JP (1) | JPH06222798A (de) |
AU (1) | AU665283B2 (de) |
DE (1) | DE69325237T2 (de) |
FI (1) | FI95086C (de) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2729246A1 (fr) * | 1995-01-06 | 1996-07-12 | Matra Communication | Procede de codage de parole a analyse par synthese |
JP2993396B2 (ja) * | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
EP0815555A1 (de) * | 1996-01-04 | 1998-01-07 | Koninklijke Philips Electronics N.V. | Verfahren und system zur kodierung und anschliessender wiedergabe menschlicher sprache |
US6170073B1 (en) | 1996-03-29 | 2001-01-02 | Nokia Mobile Phones (Uk) Limited | Method and apparatus for error detection in digital communications |
DE19613643A1 (de) * | 1996-04-04 | 1997-10-09 | Fraunhofer Ges Forschung | Verfahren zum Codieren eines mit einer niedrigen Abtastrate digitalisierten Audiosignals |
US5799272A (en) * | 1996-07-01 | 1998-08-25 | Ess Technology, Inc. | Switched multiple sequence excitation model for low bit rate speech compression |
GB2317788B (en) | 1996-09-26 | 2001-08-01 | Nokia Mobile Phones Ltd | Communication device |
GB2318029B (en) * | 1996-10-01 | 2000-11-08 | Nokia Mobile Phones Ltd | Audio coding method and apparatus |
FI112894B (fi) | 1997-04-10 | 2004-01-30 | Nokia Corp | Menetelmä kehysvirhetodennäköisyyden pienentämiseksi tietokehysmuotoisessa tiedonsiirrossa |
FI102647B1 (fi) * | 1997-04-22 | 1999-01-15 | Nokia Mobile Phones Ltd | Ohjelmoitava vahvistin |
US6286122B1 (en) * | 1997-07-03 | 2001-09-04 | Nokia Mobile Phones Limited | Method and apparatus for transmitting DTX—low state information from mobile station to base station |
US5966688A (en) * | 1997-10-28 | 1999-10-12 | Hughes Electronics Corporation | Speech mode based multi-stage vector quantizer |
US5999897A (en) * | 1997-11-14 | 1999-12-07 | Comsat Corporation | Method and apparatus for pitch estimation using perception based analysis by synthesis |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
US6799159B2 (en) | 1998-02-02 | 2004-09-28 | Motorola, Inc. | Method and apparatus employing a vocoder for speech processing |
FI105634B (fi) | 1998-04-30 | 2000-09-15 | Nokia Mobile Phones Ltd | Menetelmä videokuvien siirtämiseksi, tiedonsiirtojärjestelmä ja multimediapäätelaite |
FI981508A7 (fi) | 1998-06-30 | 1999-12-31 | Nokia Corp | Menetelmä, laite ja järjestelmä käyttäjän tilan arvioimiseksi |
GB9817292D0 (en) | 1998-08-07 | 1998-10-07 | Nokia Mobile Phones Ltd | Digital video coding |
FI105635B (fi) | 1998-09-01 | 2000-09-15 | Nokia Mobile Phones Ltd | Menetelmä taustakohinainformaation lähettämiseksi tietokehysmuotoisessa tiedonsiirrossa |
US6311154B1 (en) | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
FI116992B (fi) * | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
EP1580895B1 (de) * | 2002-11-21 | 2009-03-04 | Nippon Telegraph and Telephone Corporation | Verfahren zur digitalen signalverarbeitung, prozessor dafür, programm dafür und das programm enthaltendesaufzeichnungsmedium |
CN101009097B (zh) * | 2007-01-26 | 2010-11-10 | 清华大学 | 1.2kb/s SELP低速率声码器抗信道误码保护方法 |
US8831081B2 (en) * | 2010-09-01 | 2014-09-09 | Nec Corporation | Digital filter device, digital filtering method and control program for the digital filter device |
US8873615B2 (en) * | 2012-09-19 | 2014-10-28 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and controller for equalizing a received serial data stream |
US10251002B2 (en) * | 2016-03-21 | 2019-04-02 | Starkey Laboratories, Inc. | Noise characterization and attenuation using linear predictive coding |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3266042D1 (en) * | 1981-09-24 | 1985-10-10 | Gretag Ag | Method and apparatus for reduced redundancy digital speech processing |
NL8400728A (nl) * | 1984-03-07 | 1985-10-01 | Philips Nv | Digitale spraakcoder met basisband residucodering. |
IT1195350B (it) * | 1986-10-21 | 1988-10-12 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante estrazione di para metri e tecniche di quantizzazione vettoriale |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
EP0316112A3 (de) * | 1987-11-05 | 1989-05-31 | AT&T Corp. | Anwendung von statischen und dynamischen Spektralinformationen in Spracherkennungssystemen |
IT1224453B (it) * | 1988-09-28 | 1990-10-04 | Sip | Procedimento e dispositivo per la codifica decodifica di segnali vocali con l'impiego di un eccitazione a impulsi multipli |
JP3033060B2 (ja) * | 1988-12-22 | 2000-04-17 | 国際電信電話株式会社 | 音声予測符号化・復号化方式 |
CA2005115C (en) * | 1989-01-17 | 1997-04-22 | Juin-Hwey Chen | Low-delay code-excited linear predictive coder for speech or audio |
JPH02272500A (ja) * | 1989-04-13 | 1990-11-07 | Fujitsu Ltd | コード駆動音声符号化方式 |
EP0422232B1 (de) * | 1989-04-25 | 1996-11-13 | Kabushiki Kaisha Toshiba | Stimmenkodierer |
DE68914147T2 (de) * | 1989-06-07 | 1994-10-20 | Ibm | Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung. |
US5235669A (en) * | 1990-06-29 | 1993-08-10 | At&T Laboratories | Low-delay code-excited linear-predictive coding of wideband speech at 32 kbits/sec |
FI98104C (fi) * | 1991-05-20 | 1997-04-10 | Nokia Mobile Phones Ltd | Menetelmä herätevektorin generoimiseksi ja digitaalinen puhekooderi |
EP1239456A1 (de) * | 1991-06-11 | 2002-09-11 | QUALCOMM Incorporated | Vocoder mit veränderlicher Bitrate |
SE469764B (sv) * | 1992-01-27 | 1993-09-06 | Ericsson Telefon Ab L M | Saett att koda en samplad talsignalvektor |
FI92535C (fi) * | 1992-02-14 | 1994-11-25 | Nokia Mobile Phones Ltd | Kohinan vaimennusjärjestelmä puhesignaaleille |
FI90477C (fi) * | 1992-03-23 | 1994-02-10 | Nokia Mobile Phones Ltd | Puhesignaalin laadun parannusmenetelmä lineaarista ennustusta käyttävään koodausjärjestelmään |
-
1992
- 1992-11-26 FI FI925376A patent/FI95086C/fi active
-
1993
- 1993-11-19 US US08/155,574 patent/US5596677A/en not_active Expired - Lifetime
- 1993-11-22 EP EP93309264A patent/EP0599569B1/de not_active Expired - Lifetime
- 1993-11-22 DE DE69325237T patent/DE69325237T2/de not_active Expired - Lifetime
- 1993-11-25 AU AU51897/93A patent/AU665283B2/en not_active Ceased
- 1993-11-26 JP JP5296618A patent/JPH06222798A/ja not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
FI95086B (fi) | 1995-08-31 |
US5596677A (en) | 1997-01-21 |
EP0599569B1 (de) | 1999-06-09 |
DE69325237D1 (de) | 1999-07-15 |
EP0599569A3 (en) | 1994-09-07 |
FI925376A0 (fi) | 1992-11-26 |
FI95086C (fi) | 1995-12-11 |
AU665283B2 (en) | 1995-12-21 |
JPH06222798A (ja) | 1994-08-12 |
AU5189793A (en) | 1994-06-09 |
FI925376A7 (fi) | 1994-05-27 |
EP0599569A2 (de) | 1994-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69325237T2 (de) | Verfahren zum Kodieren eines Sprachsignales | |
DE69615839T2 (de) | Sprachkodierer | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE69604526T2 (de) | Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter | |
DE69132885T2 (de) | CELP-Kodierung niedriger Verzögerung und 32 kbit/s für ein Breitband-Sprachsignal | |
DE3856211T2 (de) | Verfahren zur adaptiven Filterung von Sprach- und Audiosignalen | |
DE60124274T2 (de) | Codebuchstruktur und suchverfahren für die sprachkodierung | |
DE60117144T2 (de) | Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69628103T2 (de) | Verfahren und Filter zur Hervorbebung von Formanten | |
DE69902233T2 (de) | Sprachkodierung unter verwendung einer weichen adaptation | |
DE19647298C2 (de) | Kodiersystem | |
DE69625874T2 (de) | Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät | |
DE60121405T2 (de) | Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE69932460T2 (de) | Sprachkodierer/dekodierer | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69727895T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE60201766T2 (de) | Verbesserung der Periodizität der CELP-Anregung für die Sprachkodierung und -dekodierung | |
DE69029120T2 (de) | Stimmenkodierer | |
DE60012760T2 (de) | Multimodaler sprachkodierer | |
DE69900786T2 (de) | Sprachkodierung | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE69825180T2 (de) | Audiokodier- und dekodierverfahren und -vorrichtung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |