DE69611607T2 - Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung - Google Patents
Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierungInfo
- Publication number
- DE69611607T2 DE69611607T2 DE69611607T DE69611607T DE69611607T2 DE 69611607 T2 DE69611607 T2 DE 69611607T2 DE 69611607 T DE69611607 T DE 69611607T DE 69611607 T DE69611607 T DE 69611607T DE 69611607 T2 DE69611607 T2 DE 69611607T2
- Authority
- DE
- Germany
- Prior art keywords
- matrix
- prediction
- quantized
- lpc
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000003595 spectral effect Effects 0.000 title claims abstract description 41
- 238000013139 quantization Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 title claims description 67
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000005236 sound signal Effects 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 21
- 238000001228 spectrum Methods 0.000 abstract description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0004—Design or structure of the codebook
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Spectrometry And Color Measurement (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
- Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
Description
- Die Erfindung betrifft eine verbesserte Methode zur Spektralparameter- Quantisierung, die in einer Reihe von Sprach- und/oder Audiokodiermethoden eingesetzt wird.
- Die Mehrzahl effizienter digitaler Sprachkodiermethoden mit guten subjektiven Qualitäts/Bitraten-Bilanzen macht Gebrauch von einem linearen Vorhersagemodell, um zeitvariable Spektralinformation zu übertragen.
- Eine derartige Methode, die sich in verschiedenen internationalen Normen einschließlich der G729 ITU-T findet, ist die ACELP-Methode [Algebraic Code Excited Linear Prediction (algebraische code-angeregte lineare Vorhersag) [1].
- Bei ACELP-älmlichen Methoden wird das abgetastete Sprachsignal in Blöcken von L-Proben verarbeitet, die als Rahmen bezeichnet werden. Eine beliebte Rahmenlänge in zahlreichen Sprachkodiersystemen beträgt z. B. 20 ms. Diese Dauer macht eine Umsetzung in L = 160 Proben bei Telefonsprache (8000 Probenls) oder in L = 320 Proben bei 7-kHz- Breitbandsprache (16 000 Proben/s).
- Spektralinformation wird für jeden Rahmen zur Bildung von quantisierten Spektralparameter übertragen, die von dem bekannten linearen Vorhersagemodell der Sprache abgeleitet werden [2, 3], häufig als LPC- Information bezeichnet.
- Im Stand der Technik bezüglich Rahmen zwischen 10 und 30 ms betrifft die pro Rahmen übertragene LPC-Information ein einzelnes Spektralmodell.
- Die Genauigkeit der Übertragung des zeitvariablen Spektrums innerhalb einer 10 ms betragenden Auffrischrate ist natürlich besser als bei einer 30 ms betragenden Auffrischrate, allerdings ist der Unterschied die Verdreifachung der Kodierrate nicht Wert.
- Die vorliegende Erfindung umgeht das die Dilemma der Spektralgenauigkeit/Kodierrate daduch, daß sie zwei Methoden miteinander kombiniert, nämlich: Matrixquantisierung, die bei Anwendungen mit sehr geringer Bitrate verwendet wird, bei denen LPC-Modelle aus mehreren Rahmen gleichzeitig quantisiert werden [4] und eine Erweiterung auf die Matrix der Zwischen-Rahmenvorhersage [5].
- [1] US Patent No. 5,444,816, vom 22. August 1995 unter dem Titel "Dynamic Codebook for Efficient Speech Coding Based on Algebraic Code", J-P. Adoul & C. Laflamme, als Erfinder.
- [2] J. D. Markel & A. H. Gray, Jr. "Linear Prediction of Speech", Springer Verlag, 1976.
- [3] S. Saito & K. Nakata "Fundamentals of Speech Signal Processing", Academic Press, 1985.
- [4] C. Tsao & R. Gray "Matrix Quantizer Design for LPC-Speech Using the Generalized Lloyd Algorithm", IFEEE Trans. ASSP Band 33, Nr. 3, Seiten 537-545, Juni 1985.
- [5] R. Salami, C. Laflamme, J-P. Adoul & D. Massaloux "A toll quantity 8Kb/s Speech Codec for the Personal Communications System (PCS)", IEEE Transactions on Vehicular Technology, Band 43, Nr. 3, Seiten 808-816, August 1994.
- Hauptziel der Erfindung ist ein Verfahren zum Quantisieren von mehr als einem Spektralmodell pro Rahmen ohne oder allenfalls nur mit geringer Steigerung der Kodierrate in Bezug auf die Einzelspektralmodell-Übertragung. Aus diesem Grund erreicht diese Erfindung eine genauere zeitvariable Spektraldarstellung ohne die Kosten einer signifikanten Steigerung der Kodierrate.
- Die vorliegende Erfindung schafft ein Verfahren zum effizienten Quantisieren von N LPC-Spektralmodellen pro Rahmen. Dieses Verfahren hat den Vorteil, daß es die Spektralgenauigkeit-/Kodierraten-Bilanz in einer Vielfalt von Methoden verbessert, die zur digitalen Kodierung von Sprach- und/oder Audiosignalen verwendet werden.
- Insbesondere schafft die Erfindung ein Verfahren zum gemeinsamen Quantisieren von N LPC-Spektralmodellen pro Rahmen eines abgetasteten Tonsignals, wobei N > 1, mit dem Ziel der Verbesserung einer Spektralgenauigkeit-/Kodierraten-Bilanz im Rahmen eines Verfahrens zum digitalen Kodieren des Tonsignals, umfassend folgende Schritte:
- (a) Bilden einer Matrix F mit N Reihen, die N Vektoren definieren, repräsentativ für die N LPC-Spektrahnodelle;
- (b) Entfernen einer zeitvariablen Vorhersagematrix P aus der Matrix F, basierend auf zumindest einem vorausgehenden Rahmen, um eine Restmatrix R zu erhalten; und
- (c) Vektorquantisieren der Restmatrix R.
- Die Verringerung der Komplexität der Vektrorquantisierung der Matrix R wird ermöglicht durch Unterteilen der Matrix R in q Teilmatritzen mit N Reihen und die unabhängige Vektorquantisierung jeder Teilmatrix.
- Die zeitvariable Vorhersagematrix P, die bei diesem Verfahren angewendet wird, läßt sich unter Verwendung eines nicht-rekursiven Vorhersageverfahrens gewinnen. Ein äußerst wirksamen Verfahren zum Berechnen der zeitvariablen Vorhersagematrix P wird durch folgende Formel ausgedrückt:
- P = A Rb'
- wobei A eine M·b-Matrix ist, deren Komponenten skalare Vorhersagekoeffizienten sind, und wobei Rb' die b·M-Matrix aus mindestens b Reihen der Matrix R' ist, resultierend aus der Vektorquantisierung der R-Matrix des vorausgehenden Rahmens.
- Man beachte, daß diese zeitvariable Vorhersagematrix P auch mit Hilfe eines rekursiven Vorhersageverfahrens gewonnen werden kann.
- Bei einer Variante des Verfahrens, die die Kodierrate und die Komplexität senkt, entsprechen die N LPC-Spektralmodelle pro Rahmen N Teilrahmen mit eingestreuten m-1 Teilrahmen, wobei die N (m-1) LPC- Spektralmodellvektoren entsprechend den eingestreuten Teilrahmen mit Hilfe linearer Interpolation gewonnen werden.
- Schließlich ergeben sich die N Spektralmodelle pro Rahmen aus der LPC-Analyse, die von verschiedenen Fensterformen Gebrauch machen kann, abhängig von der Reihenfolge des speziellen Spektralmodells innerhalb des Rahmens. Diese Maßnahme, beispielhaft dargestellt in Fig. 1, dient zur Bereitstellung des größten Teils der verfügbaren Information, insbesondere dann, wenn kein oder nur ein unzureichender "Vorgriff" auf zukünftige Proben (jenseits der Rahmengrenze) gestattet ist.
- In den begleitenden Zeichnungen zeigen:
- Fig. 1 eine typische Rahmen- und Fensterstruktur, wobei ein 20 ms dauernder Rahmen mit L = 180 Proben unterteilt ist in zwei Teilrahmen, denen Fenster verschiedener Formen zugeordnet sind;
- Fig. 2 ein schematisches Blockdiagramm der bevorzugten Ausführungsform.
- Die Erfindung beschreibt ein kodierraten-effizientes Verfahren zum gemeinsamen und differenzierten Kodieren von N (N > 1) Spektralmodellen pro verarbeitetem Rahmen aus L = N · K Proben; ein Rahmen ist in N Teilrahmen mit der Größe K unterteilt. Das Verfahren ist bei einer Vielfalt von Methoden nützlich, die zur digitalen Kodierung von Sprache und/oder Audiosignalen verwendet werden, so z. B. - allerdings ohne Beschränkung - stochastische Methoden oder algebraische kode-angeregte lineare Vorhersagemethoden, Wellenforminterpolation, harmonische/ stochastische Kodiermethoden.
- Das Verfahren zum Extrahieren linearer Vorhersagekodier-(LPC)-Spektralmodelle aus dem Sprachsignal ist auf dem Gebiet der Sprachkodierung bekannt [1, 2]. Bei der Telefonsprache werden typischerweise LPC- Modelle in der Größenordnung M = 10 verwendet, während Modelle der Ordnung M = 16 oder höher für breitbandige Sprachanwendungen bevorzugt werden.
- Um ein LPC-Spektralmodell der Ordnung M entsprechend einem gegebenen Teilrahmen zu gewinnen, wird auf die abgetastete Sprache ein um den gegebenen Teilrahmen herum zentriertes Analysefenster mit der Länge von LA Abtastungen angewendet. Die auf den Eingabeproben entsprechend den LA Fenstern basierende LPC-Analyse liefert einen Vektor f mit M reellen Komponenten, die das Sprachzentrum des Teilrahmens charakterisieren.
- Typischerweise wird ein um den Teilrahmen zentriertes Standard-Hamming-Fenster mit einer Fenstergröße LA verwendet, üblicherweise größer als die Teilrahmengröße K. In einigen Fällen ist es vorzuziehen, unterschiedliche Fenster zu verwenden, abhängig von der Lage des Teilrahmens innerhalb des Rahmens. Dieser Fall ist in Fig. 1 dargestellt. In dieser Figur ist ein 20 ms langer Rahmen aus L = 160 Stichproben in zwei Teilrahmen der Größe K = 80 unterteilt. Der Teilrahmen #1 verwendet ein Hamming-Fenster. Der Teilrahmen #2 verwendet ein asymmetrisches Fenster, da die jenseits der Rahmengrenze liegenden künftigen Sprachproben zur Zeit der Analyse nicht zugänglich sind, oder, in der Sprache der Sprachexperten ausgedrückt: es ist kein oder nur ein unzureichender "Vorgriff" ermöglicht. In Fig. 1 wird das Fenster #2 durch Kombinieren eines halben Hamming-Fensters mit einem viertel Cosinus-Fenster erhalten.
- In der Sprachkodierungsliteratur sind verschiedene äquivalente M-Dimensionaldarstellungen LPC-Spektalmodells f verwendet. Sie beinhalten die "Partial-Korrelationen", die "log-Flächenverhältnisse", das LPC- Cepstrum und die Linienspektrumfrequenzen (LSF; Line Spectrum Frequencies).
- In der bevorzugten Ausführungsform wird von der LSF-Darstellung ausgegangen, wenngleich das beschriebene erfindungsgemäße Verfahren auf jede äquivalente Darstellung des LPC-Spektralmodells anwendbar ist, einschließlich der bereits erwähnten Modelle, wobei jeweils minimale Anpassungen vorgenommen werden, die dem Fachmann auf dem Gebiet der Sprachkodierung geläufig sind.
- Fig. 2 zeigt die Schritte beim gemeinsamen Quantisieren von N Spektralmodellen eines Rahmens gemäß der bevorzugten Ausführungsform.
- SCHRITT 1: Es wird eine einen LSF-Vektor t liefernde LPC-Analyse für jeden Teilrahmen i (i = 1, ....N) durchgeführt (parallel oder sequentiell).
- SCHRITT 2: Aus den extrahierten LSF-Vektoren, die als Reihenvektoren hergenommen werden, wird ein Matrix F der Größe N · M gebildet.
- SCHRITT 3: Die mittlere Matrix wird aus F entfernt, um eine Matrix Z der Größe N · M zu bilden. Reihen der mittleren Matrix sind miteinander identisch, und das j-te Element in einer Reihe ist der erwartete Wert der j-ten Komponente von aus der LPC-Analyse resultierenden LSF-Vektoren.
- SCHRITT 4: Aus der Matrix Z wird eine Vorhersagematrix P entfernt, um eine Restmatrix R der Größe N · M zu erhalten. Die Matrix P liefert die wahrscheinlichsten Werte, die Z auf der Grundlage der vergangenen Rahmen annimmt. Die Prozedur zum Gewinnen von P wird in einem nachfolgenden Schritt detailliert ausgeführt.
- SCHRITT 5: Die Restmatrix R wird in q Teilmatritzen aufgeteilt, um die Quantisierungskomplexität zu verringern. Insbesondere wird R auf folgende Weise unterteilt:
- R : [V&sub1;, V&sub2; ... Vq]
- wobei Vi eine Teilmatrix der Größe N · m; in der Weise ist, daß ml + m&sub2; ... + mq = M ist.
- Jede als ein N x ml-Vektor betrachtete Teilmatrix Vi ist ein Vektor, der separat quantisiert ist, um sowohl den zu dem Dekodierer übertragenen Quantisierungsindex als auch die dem Index entsprechende quantisierte Teilmatrix Vi' zu bilden. Die quantisierte Restmatrix R' wird rekonstruiert als
- R' = [V&sub1;',V&sub2;' ...Vq'].
- Man beachte, daß diese Rekonstruktion ebenso wie die nachfolgenden Schritte im Dekodierer in der gleichen Weise ausgeführt werden.
- SCHRITT 6: Die Vorhersagematrix P wird auf R' zurückaddiert, um Z' zu bilden.
- SCHRITT 7: Die mittlere Matrix wird aufaddiert, um die quantisierte Matrix F' zu gewinnen. Die i-ten Reihen der Matrix F' bilden das (quantisierte) Spektralmodell fi' des Teilrahmens i, der von der zugehörigen Sprachkodiertechnik gewinnbringend genutzt werden kann. Man beachte, daß die Übertragung des Spektralmodells fi' deshalb eine minimale Kodierrate erfordert, weil es differenziert und gemeinsam mit den übrigen Teilrahmen quantisiert ist.
- SCHRITT 8: Der Zweck dieses abschließenden Schritts besteht darin, diejenige Vorhersagematrix P zu ermitteln, die bei der Verarbeitung des nachfolgenden Rahmens verwendet wird. Aus Gründen der Klarheit verwenden wir einen Rahmenindix n. Die Vorhersagmatrix Pn+1 läßt sich entweder auf rekursive oder auf nicht-rekursive Weise gewinnen.
- Das rekursive Verfahren, welches intuitiver ist, arbeitet als eine Funktion g der vergangenen Zn'Vektoren, nämlich
- Pn+1 = g(Zn', Zn-1' ...).
- Bei der in Fig. 2 gezeigten Ausführungsform wurde das nicht-rekursive Verfahren deshalb bevorzugt, weil es eine ihm eigene Widerstandsfähigkeit gegenüber Kanalfehlern hat. In diesem Fall läßt sich der allgemeine Fall mit Hilfe der Funktion h der vergangenen Rn'-Matrix ausdrücken:
- Rn+1 = h(Rn', Rn-1' ...).
- Die vorliegende Erfindung offenbart weiterhin, daß die nachfolgende einfache Ausführungsform der h-Funktion die umfassendste Vorhersageinformation erfaßt.
- Pn+1 = A Rb'
- P = A Rb'
- wobei A eine M · b-Matrix ist, deren Komponenten skalare Vorhersagekoeffizienten sind und wobei Rb' die b · M-Matrix aus den letzten b Reihen der Matrix R' ist. (d. h.: entsprechend den letzten b Teilrahmen des Rahmens n).
- Interpolierte Teilrahmen: wir beschreiben nun ein eine Variante des grundlegenden Verfahrens gemäß der Erfindung, die etwas Kodierrate einspart und Komplexität vereinfacht, wenn ein Rahmen in zahlreiche Teilrahmen unterteilt wird.
- Man betrachtet den Fall, daß Rahmen in Nm Teilrahmen unterteilt sind, wobei N und m ganze Zahlen sind (z. B.: 12 = 4 · 3 Teilrahmen).
- Um sowohl Kodierrate als auch Quantisierungskomplexität einzusparen, wird das oben beschriebene "vorausschauende Teilmatrixquantisierungs"- Verfahren angewendet auf lediglich N Teilrahmen mit eingestreutem m-1 Teilrahmen, für die von linearer Interpolation Gebrauch gemacht wird.
- Genauer gesagt: die Spektralmodelle, deren Index ein Vielfaches von m ist; werden mit Hilfe der Vorhersage-Teilmatrixquantisierung quantisiert.
- fm quantisiert zu fm'
- f2m quantisiert zu f2m
- fkm quantisiert zu fkm'
- ... ...
- fNm quantisiert zu fNm'.
- Man beachte, daß k = 1, 2 ... N ein natürlicher Index für diese Spektralmodelle ist, welche auf diese Weise quantisiert wurden.
- Wir wenden uns nun der "Quantisierung" der übrigen Spektralmodelle zu. Zu diesem Zweck bezeichnet wir mit f0' das quantisierte Spektralmodell des letzten Teilrahmens des vorausgehenden Rahmens (d. h. für den Fall k = 0). Spektralmodelle mit Index in der Form i = km + j (d. h. j ≠ 0) werden mit Hilfe der linearen Interpolation fkm' und f(k+1)m' folgendermaßen "quantisiert":
- fkm+j' = j/m fkm' + (m-j)/m f(k+1)m'
- wobei die Verhältnisse j/m und (m j)/m are Interpolationsfaktoren benutzt werden.
- Die Erfindung ist nicht auf die Behandlung eines Sprachsignals beschränkt, andere Arten von Tonsignalen können ebenfalls bearbeitet werden, so z. B. ein Audiosignal. Solche Abwandlungen, die an dem Grundprinzip festhalten, liegen offensichtlich in dem Schutzumfang der Erfindung, wie er durch die beigefügten Ansprüche definiert ist.
Claims (10)
1. Verfahren zum gemeinsamen Quantisieren von N
LPC-Spektralmodellen (f1,n; f2,n; ...; fN,n) pro Rahmen eines abgetasteten
Tonsignals, wobei N ≥ 1, um bei einer Methode zum digitalen Codieren
des Tonsignals eine Spektralgenauigkeits-/Codierratenbilanz zu
verbessern, umfassend folgende Schritte:
(a) Bilden (1, 2) einer Matrix F mit N Reihen, die N Vektoren
(f1,n; f2,N; ...; fN,n) definieren, repräsentativ für die N
LPC-Spektralmodelle;
(b) Entfernen einer zeitvariablen Vorhersagematrix P aus der
Matrix F, basierend auf zumindest einem vorausgehenden
Rahmen, um eine Restmatrix R zu erhalten; und
(c) Vektorquantisieren (3) der Restmatrix R.
2. Verfahren nach Anspruch 1, bei dem zum Verringern der
Komplexität der Vektorquantisierung (3) der Restmatrix R, der Schritt (c) die
Schritte des Aufteilens der Restmatrix R in eine Anzahl q
Teilmatritzen mit N Reihen, und der Vektorquantisierung jeder Teilmatrix
umfaßt.
3. Verfahren nach Anspruch 1 oder 2, umfassend den Schritt des
Erhaltens der zeitvariablen Vorhersagematrix P unter Verwendung
eines nicht-rekursiven Vorhersageverfahrens.
4. Verfahren nach Anspruch 3, bei dem das nicht-rekursive
Vorgersageverfahren besteht aus dem Berechnen (4) der zeitvariablen
Vorhersagematrix P entsprechend der Formel
P = A Rb'
wobei A eine M x b-Matrix, mit M und b als ganze Zahlen, ist,
deren Komponenten Skalar-Vorhersagekoeffizienten sind, und wobei
Rb' eine b · M-Matrix aus den letzten b Reihen einer Matrix R' ist,
resultierend aus der Vektorquantisierung der Restmatrix R des
vorausgehenden Rahmens.
5. Verfahren nach Anspruch 1 oder 2, umfassend den Schritt des
Erhaltens (4) der zeitvariablen Vorhersagematrix P unter Verwendung
eines rekursiven Vorhersageverfahrens.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die N LPC-
Spektralmodelle (f1,n; f2,n; ...; fN,n) pro Rahmen n Teilrahmen
mit m-1 eingestreuten Teilrahmen - m ist eine ganze Zahl -
entsprechen, und bei dem die Vektoren, die repräsentativ sind für die den
eingestreuten Teilrahmen entsprechenden LPC-Spaktralmodelle,
unter Einsatz linearer Interpolation erhalten werden.
7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die N LPC-
Spektralmodelle (f1,n; f2,n; ...; fN,n) pro Rahmen aus einer LPC-
Analyse unter Einsatz verschiedener Fensterformen nach Maßgabe
der Reihenfolge eines speziellen Spektralmodells innerhalb des
Rahmens resultieren.
8. Verfahren nach einem vorhergehenden Anspruch, weiterhin
umfassend den Schritt des Zurückaddierens der zeitvariablen
Vorhersagematrix P auf die vektorquantisierte Restmatrix R', um eine
quantisierte Matrix Z' zu erhalten.
9. Verfahren nach einem der Ansprüche 1 bis 7, bei dem
das Verfahren vor dem Schritt (b) den Schritt beinhaltet, bei dem
aus der Matrix F ein Konstantmatrixterm entfernt wird, um eine
Matrix Z zu erhalten; und
der Schritt (c) das Beseitigen der zeitvariablen Vorhersagematrix P
aus der Matrix Z beinhaltet, um die Restmatrix R zu erhalten.
10. Verfahren nach Anspruch 9, weiterhin umfassend die Schritte:
Zurückaddieren der zeitvariablen Vorhersagematrix P auf die
vektorquantisierte Matrix R', um eine quantisierte Matrix Z' zu erhalten;
und
Zurückaddieren des Konstantmatrixterms auf die quantisierte Matrix
Z', um eine Matrix F' zu erhalten, die repräsentativ ist für die N
quantisierten LPC-Spektralmodelle (f1,n; f2,n; ...; fN,n).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/416,019 US5664053A (en) | 1995-04-03 | 1995-04-03 | Predictive split-matrix quantization of spectral parameters for efficient coding of speech |
PCT/CA1996/000202 WO1996031873A1 (en) | 1995-04-03 | 1996-04-02 | Predictive split-matrix quantization of spectral parameters for efficient coding of speech |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69611607D1 DE69611607D1 (de) | 2001-02-22 |
DE69611607T2 true DE69611607T2 (de) | 2001-06-28 |
Family
ID=23648186
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69611607T Expired - Lifetime DE69611607T2 (de) | 1995-04-03 | 1996-04-02 | Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung |
Country Status (12)
Country | Link |
---|---|
US (1) | US5664053A (de) |
EP (1) | EP0819303B1 (de) |
JP (1) | JP3590071B2 (de) |
CN (1) | CN1112674C (de) |
AT (1) | ATE198805T1 (de) |
AU (1) | AU697256C (de) |
BR (1) | BR9604838A (de) |
CA (1) | CA2216315C (de) |
DE (1) | DE69611607T2 (de) |
DK (1) | DK0819303T3 (de) |
ES (1) | ES2156273T3 (de) |
WO (1) | WO1996031873A1 (de) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3067676B2 (ja) * | 1997-02-13 | 2000-07-17 | 日本電気株式会社 | Lspの予測符号化装置及び方法 |
US6161089A (en) * | 1997-03-14 | 2000-12-12 | Digital Voice Systems, Inc. | Multi-subframe quantization of spectral parameters |
FI113903B (fi) | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
TW408298B (en) * | 1997-08-28 | 2000-10-11 | Texas Instruments Inc | Improved method for switched-predictive quantization |
US6199037B1 (en) * | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
FI980132A (fi) | 1998-01-21 | 1999-07-22 | Nokia Mobile Phones Ltd | Adaptoituva jälkisuodatin |
US6256607B1 (en) * | 1998-09-08 | 2001-07-03 | Sri International | Method and apparatus for automatic recognition using features encoded with product-space vector quantization |
US6219642B1 (en) | 1998-10-05 | 2001-04-17 | Legerity, Inc. | Quantization using frequency and mean compensated frequency input data for robust speech recognition |
US6347297B1 (en) * | 1998-10-05 | 2002-02-12 | Legerity, Inc. | Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition |
GB2364870A (en) * | 2000-07-13 | 2002-02-06 | Motorola Inc | Vector quantization system for speech encoding/decoding |
US20100023575A1 (en) * | 2005-03-11 | 2010-01-28 | Agency For Science, Technology And Research | Predictor |
DE102007006084A1 (de) | 2007-02-07 | 2008-09-25 | Jacob, Christian E., Dr. Ing. | Verfahren zum zeitnahen Ermitteln der Kennwerte, Harmonischen und Nichtharmonischen von schnell veränderlichen Signalen mit zusätzlicher Ausgabe davon abgeleiteter Muster, Steuersignale, Ereignisstempel für die Nachverarbeitung sowie einer Gewichtung der Ergebnisse |
WO2009107469A1 (ja) * | 2008-02-28 | 2009-09-03 | シャープ株式会社 | 駆動回路および表示装置 |
KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2481026B1 (de) * | 1980-04-21 | 1984-06-15 | France Etat | |
US4536886A (en) * | 1982-05-03 | 1985-08-20 | Texas Instruments Incorporated | LPC pole encoding using reduced spectral shaping polynomial |
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
US5067158A (en) * | 1985-06-11 | 1991-11-19 | Texas Instruments Incorporated | Linear predictive residual representation via non-iterative spectral reconstruction |
IT1184023B (it) * | 1985-12-17 | 1987-10-22 | Cselt Centro Studi Lab Telecom | Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante analisi a sottobande e quantizzazione vettorariale con allocazione dinamica dei bit di codifica |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
DE3732047A1 (de) * | 1987-09-23 | 1989-04-06 | Siemens Ag | Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter |
US4964166A (en) * | 1988-05-26 | 1990-10-16 | Pacific Communication Science, Inc. | Adaptive transform coder having minimal bit allocation processing |
US5384891A (en) * | 1988-09-28 | 1995-01-24 | Hitachi, Ltd. | Vector quantizing apparatus and speech analysis-synthesis system using the apparatus |
US4956871A (en) * | 1988-09-30 | 1990-09-11 | At&T Bell Laboratories | Improving sub-band coding of speech at low bit rates by adding residual speech energy signals to sub-bands |
CA2027705C (en) * | 1989-10-17 | 1994-02-15 | Masami Akamine | Speech coding system utilizing a recursive computation technique for improvement in processing speed |
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
JP2770581B2 (ja) * | 1991-02-19 | 1998-07-02 | 日本電気株式会社 | 音声信号のスペクトル分析方法とその装置 |
US5351338A (en) * | 1992-07-06 | 1994-09-27 | Telefonaktiebolaget L M Ericsson | Time variable spectral analysis based on interpolation for speech coding |
-
1995
- 1995-04-03 US US08/416,019 patent/US5664053A/en not_active Expired - Lifetime
-
1996
- 1996-04-02 JP JP52981796A patent/JP3590071B2/ja not_active Expired - Lifetime
- 1996-04-02 WO PCT/CA1996/000202 patent/WO1996031873A1/en active IP Right Grant
- 1996-04-02 EP EP96908945A patent/EP0819303B1/de not_active Expired - Lifetime
- 1996-04-02 CA CA002216315A patent/CA2216315C/en not_active Expired - Lifetime
- 1996-04-02 DE DE69611607T patent/DE69611607T2/de not_active Expired - Lifetime
- 1996-04-02 CN CN96193827A patent/CN1112674C/zh not_active Expired - Lifetime
- 1996-04-02 BR BR9604838A patent/BR9604838A/pt not_active IP Right Cessation
- 1996-04-02 ES ES96908945T patent/ES2156273T3/es not_active Expired - Lifetime
- 1996-04-02 AT AT96908945T patent/ATE198805T1/de active
- 1996-04-02 AU AU52633/96A patent/AU697256C/en not_active Expired
- 1996-04-02 DK DK96908945T patent/DK0819303T3/da active
Also Published As
Publication number | Publication date |
---|---|
EP0819303A1 (de) | 1998-01-21 |
AU697256B2 (en) | 1998-10-01 |
CN1184548A (zh) | 1998-06-10 |
US5664053A (en) | 1997-09-02 |
JP3590071B2 (ja) | 2004-11-17 |
DK0819303T3 (da) | 2001-01-29 |
BR9604838A (pt) | 1998-06-16 |
CA2216315A1 (en) | 1996-10-10 |
ES2156273T3 (es) | 2001-06-16 |
AU5263396A (en) | 1996-10-23 |
CA2216315C (en) | 2002-10-22 |
ATE198805T1 (de) | 2001-02-15 |
WO1996031873A1 (en) | 1996-10-10 |
AU697256C (en) | 2003-01-30 |
JPH11503531A (ja) | 1999-03-26 |
DE69611607D1 (de) | 2001-02-22 |
EP0819303B1 (de) | 2001-01-17 |
CN1112674C (zh) | 2003-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69529356T2 (de) | Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE4492048C2 (de) | Vektorquantisierungs-Verfahren | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE69521164T2 (de) | System zum Kodieren und Dekodieren von Signalen | |
DE69618422T2 (de) | Verfahren zur Sprachdekodierung und tragbares Endgerät | |
DE69029232T2 (de) | System und Methode zur Sprachkodierung | |
DE69611607T2 (de) | Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung | |
DE69718234T2 (de) | Sprachkodierer | |
DE69329569T2 (de) | Digitale Kodierung von Sprachsignalen | |
DE69426860T2 (de) | Sprachcodierer und Verfahren zum Suchen von Codebüchern | |
DE69314389T2 (de) | Zweimoden langzeitprädiktion in sprechkodierung | |
DE69516522T2 (de) | Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer | |
DE69902480T2 (de) | Verfahren zur quantisierung der parameter eines sprachkodierers | |
DE69610915T2 (de) | Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese | |
DE69615870T2 (de) | Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen | |
DE19722705A1 (de) | Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung | |
DE69420683T2 (de) | Kodierer für Sprachparameter | |
DE69921066T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE3884839T2 (de) | Codierung von akustischen Wellenformen. | |
DE4491015C2 (de) | Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder | |
DE69624449T2 (de) | Vorrichtung zur Sprachkodierung | |
DE68914147T2 (de) | Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung. | |
DE60016305T2 (de) | Verfahren zum Betrieb eines Sprachkodierers | |
DE69630177T2 (de) | Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8363 | Opposition against the patent |