DE4236315C1 - Verfahren zur Sprachcodierung - Google Patents
Verfahren zur SprachcodierungInfo
- Publication number
- DE4236315C1 DE4236315C1 DE19924236315 DE4236315A DE4236315C1 DE 4236315 C1 DE4236315 C1 DE 4236315C1 DE 19924236315 DE19924236315 DE 19924236315 DE 4236315 A DE4236315 A DE 4236315A DE 4236315 C1 DE4236315 C1 DE 4236315C1
- Authority
- DE
- Germany
- Prior art keywords
- speech
- quantized
- lsp
- coefficients
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 16
- 230000005540 biological transmission Effects 0.000 claims abstract description 11
- 238000003786 synthesis reaction Methods 0.000 claims abstract 3
- 230000006870 function Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000001308 synthesis method Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 claims 1
- 238000013139 quantization Methods 0.000 abstract description 14
- 230000009467 reduction Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung geht aus von einem Verfahren zur Sprachcodierung
unter Verwendung der Analyse-durch-Synthese-Methode gemäß
Oberbegriff des Anspruches 1. Solche Sprachcodierverfahren
sind bekannt, beispielsweise durch die deutsche Patentschrift
38 34 871.
Den Sprachcodierungsverfahren gemein ist eine
Prädiktionsanalyse des Eingangssignals (Linear Prediction-
Coder, LPC). Dabei wird das Sprachsignal am Eingang des
Encoders im Rahmen einer bestimmten Dauer von z. B. 20-30 ms
unterteilt. Jeder Sprachrahmen wird im Encoder einer linearen
Prädiktionsanalyse unterworfen, welche lineare Abhängigkeiten
im Sprachsignal entfernt. Die lineare Prädiktion wird mit
Hilfe von FIR-Filtern (Finite Impulse Response) durchgeführt.
Die Koeffizienten dieser linearen Filter werden in jedem
Rahmen neu ermittelt, d. h., es handelt sich hier um adaptive
Filter.
Die heutigen Sprachcodierer, welche bei Bitraten zwischen 4
und 16 kBit/sec arbeiten, benutzen in der Regel die Analyse-
durch-Synthese-Methode, wobei im Sender die oben angeführten
Filterkoeffizienten und eine dazu gehörige Anregung so
bestimmt werden, daß die Energie des gewichteten Fehlers e(n)
zwischen Originalsprache und der synthetisierten Sprache
möglichst klein wird.
Zum Empfänger übertragen werden müssen Parameter, welche die
Anregung beschreiben, und die schon weiter oben erwähnten
Koeffizienten des linearen Filters. Auf die Ermittlung der
Koeffizienten des linearen Filters soll hier nicht näher
eingegangen werden. Als Ergebnis erhält man ein
nichtrekursives Filter vom Grade P mit der
Übertragungsfunktion
Die inverse Übertragungsfunktion H(z)-1/A(z) wandelt das
Fehlersignal (die Anregung) in das (synthetisierte)
Sprachsignal um:
Das nach dieser Methode berechnete Filter H(z) ist ohne
Quantisierung der Filterkoeffizienten ai in jedem Fall stabil.
Die Filterkoeffizienten ai weisen jedoch eine große Dynamik
auf und sind deshalb für die Quantisierung und Übertragung
schlecht geeignet. Außerdem besteht nicht eine einfache
Möglichkeit, im Empfänger die Stabilität des rekursiven
Filters zu prüfen.
Bekannt ist es, daß die sogenannten Line-Spectrum-Parameter
LSP für die Quantisierung und Übertragung, also zur
Beschreibung des Prädikatorfilters H(z) geeignet sind. Man
erhält diese Parameter als Nullstellen eines symmetrischen
Polynoms
F₁(z) = A(z) + Z-(P+1) A(z-1)
und eines antisymmetrischen Polynoms
F₂(z) = A(z) - Z-(P+1) A(z-1).
Die Nullstellen z0i von F₁ und F₂ haben folgende Eigenschaften
- - alle Nullstellen liegen auf dem Einheitskreis, sind also durch die Angabe einer Phase ωi ausreichend beschrieben,
- - alle Nullstellen sind einfach,
- - auf dem Einheitskreis liegt abwechselnd eine Nullstelle von F₁ und F₂.
In Fig. 2 sind die Nullstellen von F₁(z) und F₂(z) für die
Fälle P=6 und P=5 dargestellt. Alle Nullstellen zi können
durch die Argumente ωi oder durch den daraus abgeleiteten
Frequenzwert
dargestellt werden.
Da die Nullstellen in konjugiert komplexen Paaren auftreten
und Nullstellen bei ±1 in jedem Fall vorliegen, sind die
Polynome F₁ und F₂ durch die Angabe von P Werten ωi
vollständig bestimmt.
Nach den oben beschriebenen Eigenschaften muß gelten
ω₁ < ω₂ < . . . < ωP.
Diese Monotonie-Eigenschaft ist zwingend notwendig, damit das
rekursive Filter H(z) stabil ist. Man hat damit ein Kriterium,
um die Stabilität des Filters zu überprüfen.
Bei Änderung der Charakteristik des Spektrums des
Eingangssignals ändert sich die Verteilung einzelner LSPs
stark. Als Beispiel ist in Fig. 1 die Verteilung der LSP für
Filtergrad P=10 dargestellt. Im oberen Bild, Fig. 1a, ist
die Eingangssprache nur tiefpaßgefiltert, im unteren Bild,
Fig. 1b, IRS gefiltert (bandbegrenzt) nach CCITT P.48.
Ein übliches Verfahren ist die skalare Quantisierung jedes
einzelnen LSP, beispielsweise werden in 4,8 kBit/sec CELP-
Sprachcode nach dem Federal Standard 1016 des US-
Verteidigungsministerium US die Line Spectrum Parameter
skalar mit insgesamt 34 Bit quantisiert.
Zu beachten ist bei der Quantisierung, daß auch nach der
Quantisierung die Monotonie-Eigenschaft erhalten werden muß,
damit das rekursive Filter stabil ist; d. h., es muß gelten:
Da sich die Werte-Bereiche der Quantisierer für ωi und 2i+1
überlappen, sind nach der Quantisierung von ωi alle
Quantisierungsstufen von ωi+1 ausgeschlossen, welche diese
strenge Monotonie verletzen (siehe Fig. 3). Umgekehrt sind
auch nach der Quantisierung von ωi+1 auch Werte aus dem
Quantisierer ωi nicht mehr zulässig. Dies bedeutet, daß
ein Teil der Bits, welche für die Quantisierung der Parameter
LSP zur Verfügung stehen, nicht vollständig genutzt werden.
Nach Fig. 3 werden von 8 möglichen Stufen für ωi+1
tatsächlich nur 5 benutzt.
Ein weiterer Nachteil dieses Verfahrens ist, daß eine Adaption
an unterschiedliche Eingangsspektren des Sprachsignals nicht
möglich ist. Soll der Quantisierer hierfür eingesetzt werden
können, so vergrößert sich der Wertebereich einzelner Line-
Spectrum-Paramter. Dies führt zu einer Erhöhung der Bitrate.
In den Literaturstellen [5] und [6] wird eine Reduzierung der
Bitrate für die Übertragung der Line-Spectrum-Parameter durch
Quantisierung deren Differenzen vorgeschlagen. Dabei wird der
erste LSP wie oben skalar quantisiert
Für alle weiteren LSP wird die Differenz zum vorangegangenen
Wert berechnet und diese dann quantisiert.
Dieses Verfahren adaptiert sich gut an unterschiedlichen
Eingangsspektren des Sprachsignals, da nur der Wertebereich
des ersten LSP ausreichend groß gewählt werden muß.
Ein Nachteil dieses Verfahrens besteht in der Fortpflanzung
von Fehlern. Tritt bei der Übertragung von x ein Fehler auf,
so werden alle i für i=x bis P falsch dekodiert.
Durch die europäische Patentanmeldung EP 0 483 882 A2 ist ein
Sprachparameter-Codierverfahren zum Codieren eines
Eingangssprachsignals in eine Sequenz von codierten Signalen
zur Übertragung von Spektrumparametern mit einer reduzierten
Anzahl von Bits bekanntgeworden. Dieses Verfahren benutzt
eine mehrstufige vektorielle Quantisierung der Line-Spectrum-
Parameter. Durch die Vektorquantisierung wird eine Reduzierung
der Bitrate erreicht, was allerdings auf Kosten einer
deutlichen Erhöhung des Speicher- und Rechenaufwandes geht.
Der vorliegenden Erfindung lag die Aufgabe zugrunde, ein
Verfahren der eingangs genannten Art anzugeben, welches in der
Lage ist bei gleichbleibender Bitrate eine Verbesserung der
Sprachqualität zu erreichen oder aber bei gleichbleibender
Sprachqualität eine Verringerung der Bitrate zu erzielen.
Außerdem soll eine Verringerung der Empfindlichkeit des
Sprachcodes gegenüber Sprachsignalen mit unterschiedlichen
Eingangscharakteristika erreicht werden. Der benötigte
Schaltungsaufwand soll dabei nicht allzu hoch sein.
Diese Aufgabe wurde gelöst durch die Merkmale des Anspruches
1. Vorteilhafte Ausgestaltungen ergeben sich durch die
Unteransprüche.
Das erfindungsgemäße Verfahren erzielt die Vorteile einer
Verbesserung der Sprachqualität bei gleichbleibender Bitrate
bzw. einer Verringerung der Bitrate bei gleichbleibender
Sprachqualität. Außerdem weist das erfindungsgemäße Verfahren
eine verringerte Empfindlichkeit des Sprachcodes gegenüber
Sprachsignalen mit sehr unterschiedlichen Eingangsspektren
auf. Ein weiterer Vorteil besteht darin, daß sich ein
Übertragungsfehler bei einem LSP nur auf maximal zwei weitere
LSP-Werte auswirkt.
Die Erfindung geht aus von der Idee, weder alle LSP-Parameter
skalar zu quantisieren noch nur einen einzigen der insgesamt P
Parameter skalar zu quantisieren, sondern nur jeden n-ten der
P Parameter skalar zu quantisieren und die dazwischenliegenden
Parameter zu transformieren bzw. abzubilden und
danach zu quantisieren.
Das Verfahren wird im folgenden anhand eines
Ausführungsbeispieles näher beschrieben, wobei angenommen
wird, daß P eine gerade Zahl ist.
In einem ersten Schritt wird jeder zweite LSP skalar
quantisiert.
Nun muß auf Grund der strengen Monotonie gelten
wobei der fiktive Wert ωP+1 auf den maximal möglichen Wert für
ωP gesetzt wird. Dieser Wertebereich für ωi ändert sich von
Rahmen zu Rahmen mit und . Ideal wäre es nun, für
jede Kombination von und einen eigenen
Quantisierer für ωi zu verwenden, was aus Gründen des
Realisierungsaufwandes nicht möglich ist. Stattdessen wird der
Wertebereich durch folgende Transformation auf das Intervall
[0, 1] abgebildet:
Jeder Wert xi kann nun mit einem Quantisierer quantisiert und
übertragen werden. Die Rücktransformation erfolgt gemäß
Das Verfahren funktioniert entsprechend, wenn man die
Parameter, die absolut quantisiert werden, mit denen
vertauscht, die nach Normierung quantisiert werden, d. h.
quantisiere absolut: | |
ωi i = 2, (2), P | |
quantisiere nach Transformation: | ωi i = 1, (2), P - 1 |
Statt der Transformation der LSP in den Bildbereich ist es
auch möglich, den Quantisierer aus dem Bildbereich nach (13)
in den ω-Bereich abzubilden.
In ähnlicher Weise wird bei dem zweiten Ausführungsbeispiel
jeder dritte LSP skalar quantisiert.
Die Abbildungsfunktion für die dazwischenliegenden Paramter
sind beispielsweise
oder
da ωi ja nun bekannt ist.
Diese Lösung erbringt noch eine weitere Reduzierung der
Bitrate bei gleichzeitiger Qualität oder eine höhere
Qualität bei gleichbleibender Bitrate; allerdings wirkt sich
ein Übertragungsfehler hier auf max. drei weitere LSP-Werte
aus.
In entsprechender Weise kann auch verfahren werden, indem nur
jeder vierte LSP skalar quantisiert und die dazwischenliegenden
LSP entsprechend transformiert und dann quantisiert
übertragen werden.
Claims (3)
1. Verfahren zur Sprachcodierung unter Verwendung der Analyse-
durch-Synthese-Methode, wobei das Sprachsignal abgetastet, aus
einer festgelegten Anzahl Abtastproben ein Rahmen gebildet und
aus den Abtastproben rahmenweise die Koeffizienten eines
Sprach-Synthese-Filters mit dem Grad P bestimmt werden, wobei
mittels dieser Koeffizienten eine Anzahl P sogenannter Line-
Spectrum-Parameter LSP ermittelt und quantisiert werden, zur
Übertragung über einen Kanal mit begrenzter
Übertragungskapazität, dadurch gekennzeichnet, daß jeder n-te
Line-Spectrum-Parameter LSP skalar (absolut) quantisiert wird
und daß die dazwischenliegenden Line-Spectrum-Parameter LSPωi für i=1, P und i m, (n), Ptransformiert (normiert)
und anschließend quantisiert werden.
2. Verfahren nach Anspruch 1 mit n=2, dadurch gekennzeichnet,
daß die Transformation nach der Funktion
erfolgt.
3. Verfahren nach Anspruch 1 mit n=3, dadurch gekennzeichnet,
daß die Transformation nach den Abbildungsfunktionen
oder
erfolgt.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19924236315 DE4236315C1 (de) | 1992-10-28 | 1992-10-28 | Verfahren zur Sprachcodierung |
AU51742/93A AU5174293A (en) | 1992-10-28 | 1993-10-20 | Method of encoding speech |
PCT/DE1993/000999 WO1994010682A1 (de) | 1992-10-28 | 1993-10-20 | Verfahren zur sprachcodierung |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19924236315 DE4236315C1 (de) | 1992-10-28 | 1992-10-28 | Verfahren zur Sprachcodierung |
Publications (1)
Publication Number | Publication Date |
---|---|
DE4236315C1 true DE4236315C1 (de) | 1994-02-10 |
Family
ID=6471507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19924236315 Expired - Fee Related DE4236315C1 (de) | 1992-10-28 | 1992-10-28 | Verfahren zur Sprachcodierung |
Country Status (3)
Country | Link |
---|---|
AU (1) | AU5174293A (de) |
DE (1) | DE4236315C1 (de) |
WO (1) | WO1994010682A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1388144A2 (de) * | 2001-05-16 | 2004-02-11 | Nokia Corporation | Verfahren und system zur linienspektralfrequenzvektorquantisierung in einem sprach-codec |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3834871C1 (en) * | 1988-10-13 | 1989-12-14 | Ant Nachrichtentechnik Gmbh, 7150 Backnang, De | Method for encoding speech |
EP0483882A2 (de) * | 1990-11-02 | 1992-05-06 | Nec Corporation | Verfahren zur Kodierung von Sprachparametern, das die Spektrumparameterübertragung mit einer verringerten Bitanzahl ermöglicht |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5012518A (en) * | 1989-07-26 | 1991-04-30 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US4975956A (en) * | 1989-07-26 | 1990-12-04 | Itt Corporation | Low-bit-rate speech coder using LPC data reduction processing |
US5097507A (en) * | 1989-12-22 | 1992-03-17 | General Electric Company | Fading bit error protection for digital cellular multi-pulse speech coder |
-
1992
- 1992-10-28 DE DE19924236315 patent/DE4236315C1/de not_active Expired - Fee Related
-
1993
- 1993-10-20 AU AU51742/93A patent/AU5174293A/en not_active Abandoned
- 1993-10-20 WO PCT/DE1993/000999 patent/WO1994010682A1/de active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3834871C1 (en) * | 1988-10-13 | 1989-12-14 | Ant Nachrichtentechnik Gmbh, 7150 Backnang, De | Method for encoding speech |
EP0483882A2 (de) * | 1990-11-02 | 1992-05-06 | Nec Corporation | Verfahren zur Kodierung von Sprachparametern, das die Spektrumparameterübertragung mit einer verringerten Bitanzahl ermöglicht |
Non-Patent Citations (10)
Title |
---|
F.K. Soong, B.H. Juang: "LSP and Speech Data Com- pression" * |
F.K. Soong, B.H. Juang: "Optimal Quantisation of LSP Parameters" Proc. ICASSP-88, April 88 * |
Gray, A.H.: Linear Prediction of Speech. Berlin, Heidelberg, New York: Springer Verlag, 1976 * |
J.P. Campbell, V.C. Welch, T.E. Tremain: "The DOD 4.8 kbps Standard", aus "Advances in Speech Co- ding", Kluwer, 1991 * |
Markel, J.D. * |
Müller, J.M. * |
N. Sugamura, F. Itakura: "Speech Analysis and Syn-thesis Methods Developed at ECL in NTT-Form LPC to LSP-. Speech Communication, Bd. 5, 1986, S. 199-215 * |
Proc. ICASSP-84, März 84 * |
Scheuermann, H. * |
Wächter, B.: Ein Beitrag zur Sprachcordierung für Bitraten unter 8 kbit/s, Frequenz, Bd. 43, 9/89, S. 242-252 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1388144A2 (de) * | 2001-05-16 | 2004-02-11 | Nokia Corporation | Verfahren und system zur linienspektralfrequenzvektorquantisierung in einem sprach-codec |
EP1388144A4 (de) * | 2001-05-16 | 2007-08-08 | Nokia Corp | Verfahren und system zur linienspektralfrequenzvektorquantisierung in einem sprach-codec |
Also Published As
Publication number | Publication date |
---|---|
AU5174293A (en) | 1994-05-24 |
WO1994010682A1 (de) | 1994-05-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69401514T2 (de) | Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und kodiereinrichtung | |
DE69618422T2 (de) | Verfahren zur Sprachdekodierung und tragbares Endgerät | |
DE3639753C2 (de) | ||
DE2818052C2 (de) | Quantisierung eines Signals mit einem sich über ein gegebenes Frequenzband erstreckendem Spetkrum | |
DE69225100T2 (de) | Reduzierung der Zusaztinformation bei Teilbandkodierungsverfahren | |
DE60019268T2 (de) | Breitbandiges audio-übertragungssystem | |
EP0193143B1 (de) | Verfahren zur Übertragung eines Audiosignals | |
EP1979901B1 (de) | Verfahren und anordnungen zur audiosignalkodierung | |
DE3710664C2 (de) | ||
EP0978172B1 (de) | Verfahren zum verschleiern von fehlern in einem audiodatenstrom | |
EP0287578B1 (de) | Digitales codierverfahren | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE69106580T2 (de) | Codieranordnung mit einem Unterbandcoder und Sender mit der Codieranordnung. | |
EP0414838A1 (de) | Verfahren zur übertragung eines signals. | |
DE60124079T2 (de) | Sprachverarbeitung | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
EP0962015A1 (de) | Verfahren und vorrichtungen zum codieren von diskreten signalen bzw. zum decodieren von codierten diskreten signalen | |
DE69420683T2 (de) | Kodierer für Sprachparameter | |
DE69206300T2 (de) | Verfahren und Einrichtung zur Bearbeitung von Vorechos eines mittels einer Frequenztransformation kodierten digitalen Audiosignals. | |
EP0464534B1 (de) | Transformationskodierer mit adaptiver Fensterfunktion | |
EP0635177B1 (de) | Verfahren zum übertragen und/oder speichern digitalisierter, datenreduzierter audiosignale | |
DE69401959T2 (de) | Vom rechenaufwand her effiziente adaptive bitzuteilung für kodierverfahren und einrichtung mit toleranz für dekoderspektralverzerrungen | |
DE69801536T2 (de) | Vorrichtung und Verfahren zur Signalcodierung | |
DE4236315C1 (de) | Verfahren zur Sprachcodierung | |
DE60210597T2 (de) | Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8100 | Publication of the examined application without publication of unexamined application | ||
D1 | Grant (no unexamined application published) patent law 81 | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |