[go: up one dir, main page]

DE69611607T2 - Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung - Google Patents

Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung

Info

Publication number
DE69611607T2
DE69611607T2 DE69611607T DE69611607T DE69611607T2 DE 69611607 T2 DE69611607 T2 DE 69611607T2 DE 69611607 T DE69611607 T DE 69611607T DE 69611607 T DE69611607 T DE 69611607T DE 69611607 T2 DE69611607 T2 DE 69611607T2
Authority
DE
Germany
Prior art keywords
matrix
prediction
quantized
lpc
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69611607T
Other languages
English (en)
Other versions
DE69611607D1 (de
Inventor
Jean-Pierre Adoul
Claude Laflamme
Redwan Salami
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Universite de Sherbrooke
Original Assignee
Universite de Sherbrooke
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=23648186&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE69611607(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Universite de Sherbrooke filed Critical Universite de Sherbrooke
Application granted granted Critical
Publication of DE69611607D1 publication Critical patent/DE69611607D1/de
Publication of DE69611607T2 publication Critical patent/DE69611607T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)

Description

    Hintergrund der Erfindung 1. Gebiet der Erfindung
  • Die Erfindung betrifft eine verbesserte Methode zur Spektralparameter- Quantisierung, die in einer Reihe von Sprach- und/oder Audiokodiermethoden eingesetzt wird.
  • 2. Kurze Beschreibung des Stands der Technik
  • Die Mehrzahl effizienter digitaler Sprachkodiermethoden mit guten subjektiven Qualitäts/Bitraten-Bilanzen macht Gebrauch von einem linearen Vorhersagemodell, um zeitvariable Spektralinformation zu übertragen.
  • Eine derartige Methode, die sich in verschiedenen internationalen Normen einschließlich der G729 ITU-T findet, ist die ACELP-Methode [Algebraic Code Excited Linear Prediction (algebraische code-angeregte lineare Vorhersag) [1].
  • Bei ACELP-älmlichen Methoden wird das abgetastete Sprachsignal in Blöcken von L-Proben verarbeitet, die als Rahmen bezeichnet werden. Eine beliebte Rahmenlänge in zahlreichen Sprachkodiersystemen beträgt z. B. 20 ms. Diese Dauer macht eine Umsetzung in L = 160 Proben bei Telefonsprache (8000 Probenls) oder in L = 320 Proben bei 7-kHz- Breitbandsprache (16 000 Proben/s).
  • Spektralinformation wird für jeden Rahmen zur Bildung von quantisierten Spektralparameter übertragen, die von dem bekannten linearen Vorhersagemodell der Sprache abgeleitet werden [2, 3], häufig als LPC- Information bezeichnet.
  • Im Stand der Technik bezüglich Rahmen zwischen 10 und 30 ms betrifft die pro Rahmen übertragene LPC-Information ein einzelnes Spektralmodell.
  • Die Genauigkeit der Übertragung des zeitvariablen Spektrums innerhalb einer 10 ms betragenden Auffrischrate ist natürlich besser als bei einer 30 ms betragenden Auffrischrate, allerdings ist der Unterschied die Verdreifachung der Kodierrate nicht Wert.
  • Die vorliegende Erfindung umgeht das die Dilemma der Spektralgenauigkeit/Kodierrate daduch, daß sie zwei Methoden miteinander kombiniert, nämlich: Matrixquantisierung, die bei Anwendungen mit sehr geringer Bitrate verwendet wird, bei denen LPC-Modelle aus mehreren Rahmen gleichzeitig quantisiert werden [4] und eine Erweiterung auf die Matrix der Zwischen-Rahmenvorhersage [5].
  • Druckschriften
  • [1] US Patent No. 5,444,816, vom 22. August 1995 unter dem Titel "Dynamic Codebook for Efficient Speech Coding Based on Algebraic Code", J-P. Adoul & C. Laflamme, als Erfinder.
  • [2] J. D. Markel & A. H. Gray, Jr. "Linear Prediction of Speech", Springer Verlag, 1976.
  • [3] S. Saito & K. Nakata "Fundamentals of Speech Signal Processing", Academic Press, 1985.
  • [4] C. Tsao & R. Gray "Matrix Quantizer Design for LPC-Speech Using the Generalized Lloyd Algorithm", IFEEE Trans. ASSP Band 33, Nr. 3, Seiten 537-545, Juni 1985.
  • [5] R. Salami, C. Laflamme, J-P. Adoul & D. Massaloux "A toll quantity 8Kb/s Speech Codec for the Personal Communications System (PCS)", IEEE Transactions on Vehicular Technology, Band 43, Nr. 3, Seiten 808-816, August 1994.
  • Ziele der neuen Erfindung
  • Hauptziel der Erfindung ist ein Verfahren zum Quantisieren von mehr als einem Spektralmodell pro Rahmen ohne oder allenfalls nur mit geringer Steigerung der Kodierrate in Bezug auf die Einzelspektralmodell-Übertragung. Aus diesem Grund erreicht diese Erfindung eine genauere zeitvariable Spektraldarstellung ohne die Kosten einer signifikanten Steigerung der Kodierrate.
  • Offenbarung der Erfindung
  • Die vorliegende Erfindung schafft ein Verfahren zum effizienten Quantisieren von N LPC-Spektralmodellen pro Rahmen. Dieses Verfahren hat den Vorteil, daß es die Spektralgenauigkeit-/Kodierraten-Bilanz in einer Vielfalt von Methoden verbessert, die zur digitalen Kodierung von Sprach- und/oder Audiosignalen verwendet werden.
  • Insbesondere schafft die Erfindung ein Verfahren zum gemeinsamen Quantisieren von N LPC-Spektralmodellen pro Rahmen eines abgetasteten Tonsignals, wobei N > 1, mit dem Ziel der Verbesserung einer Spektralgenauigkeit-/Kodierraten-Bilanz im Rahmen eines Verfahrens zum digitalen Kodieren des Tonsignals, umfassend folgende Schritte:
  • (a) Bilden einer Matrix F mit N Reihen, die N Vektoren definieren, repräsentativ für die N LPC-Spektrahnodelle;
  • (b) Entfernen einer zeitvariablen Vorhersagematrix P aus der Matrix F, basierend auf zumindest einem vorausgehenden Rahmen, um eine Restmatrix R zu erhalten; und
  • (c) Vektorquantisieren der Restmatrix R.
  • Die Verringerung der Komplexität der Vektrorquantisierung der Matrix R wird ermöglicht durch Unterteilen der Matrix R in q Teilmatritzen mit N Reihen und die unabhängige Vektorquantisierung jeder Teilmatrix.
  • Die zeitvariable Vorhersagematrix P, die bei diesem Verfahren angewendet wird, läßt sich unter Verwendung eines nicht-rekursiven Vorhersageverfahrens gewinnen. Ein äußerst wirksamen Verfahren zum Berechnen der zeitvariablen Vorhersagematrix P wird durch folgende Formel ausgedrückt:
  • P = A Rb'
  • wobei A eine M·b-Matrix ist, deren Komponenten skalare Vorhersagekoeffizienten sind, und wobei Rb' die b·M-Matrix aus mindestens b Reihen der Matrix R' ist, resultierend aus der Vektorquantisierung der R-Matrix des vorausgehenden Rahmens.
  • Man beachte, daß diese zeitvariable Vorhersagematrix P auch mit Hilfe eines rekursiven Vorhersageverfahrens gewonnen werden kann.
  • Bei einer Variante des Verfahrens, die die Kodierrate und die Komplexität senkt, entsprechen die N LPC-Spektralmodelle pro Rahmen N Teilrahmen mit eingestreuten m-1 Teilrahmen, wobei die N (m-1) LPC- Spektralmodellvektoren entsprechend den eingestreuten Teilrahmen mit Hilfe linearer Interpolation gewonnen werden.
  • Schließlich ergeben sich die N Spektralmodelle pro Rahmen aus der LPC-Analyse, die von verschiedenen Fensterformen Gebrauch machen kann, abhängig von der Reihenfolge des speziellen Spektralmodells innerhalb des Rahmens. Diese Maßnahme, beispielhaft dargestellt in Fig. 1, dient zur Bereitstellung des größten Teils der verfügbaren Information, insbesondere dann, wenn kein oder nur ein unzureichender "Vorgriff" auf zukünftige Proben (jenseits der Rahmengrenze) gestattet ist.
  • Kurze Beschreibung der Zeichnungen
  • In den begleitenden Zeichnungen zeigen:
  • Fig. 1 eine typische Rahmen- und Fensterstruktur, wobei ein 20 ms dauernder Rahmen mit L = 180 Proben unterteilt ist in zwei Teilrahmen, denen Fenster verschiedener Formen zugeordnet sind;
  • Fig. 2 ein schematisches Blockdiagramm der bevorzugten Ausführungsform.
  • Detaillierte Beschreibung der bevorzugten Ausführungsform
  • Die Erfindung beschreibt ein kodierraten-effizientes Verfahren zum gemeinsamen und differenzierten Kodieren von N (N > 1) Spektralmodellen pro verarbeitetem Rahmen aus L = N · K Proben; ein Rahmen ist in N Teilrahmen mit der Größe K unterteilt. Das Verfahren ist bei einer Vielfalt von Methoden nützlich, die zur digitalen Kodierung von Sprache und/oder Audiosignalen verwendet werden, so z. B. - allerdings ohne Beschränkung - stochastische Methoden oder algebraische kode-angeregte lineare Vorhersagemethoden, Wellenforminterpolation, harmonische/ stochastische Kodiermethoden.
  • Das Verfahren zum Extrahieren linearer Vorhersagekodier-(LPC)-Spektralmodelle aus dem Sprachsignal ist auf dem Gebiet der Sprachkodierung bekannt [1, 2]. Bei der Telefonsprache werden typischerweise LPC- Modelle in der Größenordnung M = 10 verwendet, während Modelle der Ordnung M = 16 oder höher für breitbandige Sprachanwendungen bevorzugt werden.
  • Um ein LPC-Spektralmodell der Ordnung M entsprechend einem gegebenen Teilrahmen zu gewinnen, wird auf die abgetastete Sprache ein um den gegebenen Teilrahmen herum zentriertes Analysefenster mit der Länge von LA Abtastungen angewendet. Die auf den Eingabeproben entsprechend den LA Fenstern basierende LPC-Analyse liefert einen Vektor f mit M reellen Komponenten, die das Sprachzentrum des Teilrahmens charakterisieren.
  • Typischerweise wird ein um den Teilrahmen zentriertes Standard-Hamming-Fenster mit einer Fenstergröße LA verwendet, üblicherweise größer als die Teilrahmengröße K. In einigen Fällen ist es vorzuziehen, unterschiedliche Fenster zu verwenden, abhängig von der Lage des Teilrahmens innerhalb des Rahmens. Dieser Fall ist in Fig. 1 dargestellt. In dieser Figur ist ein 20 ms langer Rahmen aus L = 160 Stichproben in zwei Teilrahmen der Größe K = 80 unterteilt. Der Teilrahmen #1 verwendet ein Hamming-Fenster. Der Teilrahmen #2 verwendet ein asymmetrisches Fenster, da die jenseits der Rahmengrenze liegenden künftigen Sprachproben zur Zeit der Analyse nicht zugänglich sind, oder, in der Sprache der Sprachexperten ausgedrückt: es ist kein oder nur ein unzureichender "Vorgriff" ermöglicht. In Fig. 1 wird das Fenster #2 durch Kombinieren eines halben Hamming-Fensters mit einem viertel Cosinus-Fenster erhalten.
  • In der Sprachkodierungsliteratur sind verschiedene äquivalente M-Dimensionaldarstellungen LPC-Spektalmodells f verwendet. Sie beinhalten die "Partial-Korrelationen", die "log-Flächenverhältnisse", das LPC- Cepstrum und die Linienspektrumfrequenzen (LSF; Line Spectrum Frequencies).
  • In der bevorzugten Ausführungsform wird von der LSF-Darstellung ausgegangen, wenngleich das beschriebene erfindungsgemäße Verfahren auf jede äquivalente Darstellung des LPC-Spektralmodells anwendbar ist, einschließlich der bereits erwähnten Modelle, wobei jeweils minimale Anpassungen vorgenommen werden, die dem Fachmann auf dem Gebiet der Sprachkodierung geläufig sind.
  • Fig. 2 zeigt die Schritte beim gemeinsamen Quantisieren von N Spektralmodellen eines Rahmens gemäß der bevorzugten Ausführungsform.
  • SCHRITT 1: Es wird eine einen LSF-Vektor t liefernde LPC-Analyse für jeden Teilrahmen i (i = 1, ....N) durchgeführt (parallel oder sequentiell).
  • SCHRITT 2: Aus den extrahierten LSF-Vektoren, die als Reihenvektoren hergenommen werden, wird ein Matrix F der Größe N · M gebildet.
  • SCHRITT 3: Die mittlere Matrix wird aus F entfernt, um eine Matrix Z der Größe N · M zu bilden. Reihen der mittleren Matrix sind miteinander identisch, und das j-te Element in einer Reihe ist der erwartete Wert der j-ten Komponente von aus der LPC-Analyse resultierenden LSF-Vektoren.
  • SCHRITT 4: Aus der Matrix Z wird eine Vorhersagematrix P entfernt, um eine Restmatrix R der Größe N · M zu erhalten. Die Matrix P liefert die wahrscheinlichsten Werte, die Z auf der Grundlage der vergangenen Rahmen annimmt. Die Prozedur zum Gewinnen von P wird in einem nachfolgenden Schritt detailliert ausgeführt.
  • SCHRITT 5: Die Restmatrix R wird in q Teilmatritzen aufgeteilt, um die Quantisierungskomplexität zu verringern. Insbesondere wird R auf folgende Weise unterteilt:
  • R : [V&sub1;, V&sub2; ... Vq]
  • wobei Vi eine Teilmatrix der Größe N · m; in der Weise ist, daß ml + m&sub2; ... + mq = M ist.
  • Jede als ein N x ml-Vektor betrachtete Teilmatrix Vi ist ein Vektor, der separat quantisiert ist, um sowohl den zu dem Dekodierer übertragenen Quantisierungsindex als auch die dem Index entsprechende quantisierte Teilmatrix Vi' zu bilden. Die quantisierte Restmatrix R' wird rekonstruiert als
  • R' = [V&sub1;',V&sub2;' ...Vq'].
  • Man beachte, daß diese Rekonstruktion ebenso wie die nachfolgenden Schritte im Dekodierer in der gleichen Weise ausgeführt werden.
  • SCHRITT 6: Die Vorhersagematrix P wird auf R' zurückaddiert, um Z' zu bilden.
  • SCHRITT 7: Die mittlere Matrix wird aufaddiert, um die quantisierte Matrix F' zu gewinnen. Die i-ten Reihen der Matrix F' bilden das (quantisierte) Spektralmodell fi' des Teilrahmens i, der von der zugehörigen Sprachkodiertechnik gewinnbringend genutzt werden kann. Man beachte, daß die Übertragung des Spektralmodells fi' deshalb eine minimale Kodierrate erfordert, weil es differenziert und gemeinsam mit den übrigen Teilrahmen quantisiert ist.
  • SCHRITT 8: Der Zweck dieses abschließenden Schritts besteht darin, diejenige Vorhersagematrix P zu ermitteln, die bei der Verarbeitung des nachfolgenden Rahmens verwendet wird. Aus Gründen der Klarheit verwenden wir einen Rahmenindix n. Die Vorhersagmatrix Pn+1 läßt sich entweder auf rekursive oder auf nicht-rekursive Weise gewinnen.
  • Das rekursive Verfahren, welches intuitiver ist, arbeitet als eine Funktion g der vergangenen Zn'Vektoren, nämlich
  • Pn+1 = g(Zn', Zn-1' ...).
  • Bei der in Fig. 2 gezeigten Ausführungsform wurde das nicht-rekursive Verfahren deshalb bevorzugt, weil es eine ihm eigene Widerstandsfähigkeit gegenüber Kanalfehlern hat. In diesem Fall läßt sich der allgemeine Fall mit Hilfe der Funktion h der vergangenen Rn'-Matrix ausdrücken:
  • Rn+1 = h(Rn', Rn-1' ...).
  • Die vorliegende Erfindung offenbart weiterhin, daß die nachfolgende einfache Ausführungsform der h-Funktion die umfassendste Vorhersageinformation erfaßt.
  • Pn+1 = A Rb'
  • P = A Rb'
  • wobei A eine M · b-Matrix ist, deren Komponenten skalare Vorhersagekoeffizienten sind und wobei Rb' die b · M-Matrix aus den letzten b Reihen der Matrix R' ist. (d. h.: entsprechend den letzten b Teilrahmen des Rahmens n).
  • Interpolierte Teilrahmen: wir beschreiben nun ein eine Variante des grundlegenden Verfahrens gemäß der Erfindung, die etwas Kodierrate einspart und Komplexität vereinfacht, wenn ein Rahmen in zahlreiche Teilrahmen unterteilt wird.
  • Man betrachtet den Fall, daß Rahmen in Nm Teilrahmen unterteilt sind, wobei N und m ganze Zahlen sind (z. B.: 12 = 4 · 3 Teilrahmen).
  • Um sowohl Kodierrate als auch Quantisierungskomplexität einzusparen, wird das oben beschriebene "vorausschauende Teilmatrixquantisierungs"- Verfahren angewendet auf lediglich N Teilrahmen mit eingestreutem m-1 Teilrahmen, für die von linearer Interpolation Gebrauch gemacht wird.
  • Genauer gesagt: die Spektralmodelle, deren Index ein Vielfaches von m ist; werden mit Hilfe der Vorhersage-Teilmatrixquantisierung quantisiert.
  • fm quantisiert zu fm'
  • f2m quantisiert zu f2m
  • fkm quantisiert zu fkm'
  • ... ...
  • fNm quantisiert zu fNm'.
  • Man beachte, daß k = 1, 2 ... N ein natürlicher Index für diese Spektralmodelle ist, welche auf diese Weise quantisiert wurden.
  • Wir wenden uns nun der "Quantisierung" der übrigen Spektralmodelle zu. Zu diesem Zweck bezeichnet wir mit f0' das quantisierte Spektralmodell des letzten Teilrahmens des vorausgehenden Rahmens (d. h. für den Fall k = 0). Spektralmodelle mit Index in der Form i = km + j (d. h. j ≠ 0) werden mit Hilfe der linearen Interpolation fkm' und f(k+1)m' folgendermaßen "quantisiert":
  • fkm+j' = j/m fkm' + (m-j)/m f(k+1)m'
  • wobei die Verhältnisse j/m und (m j)/m are Interpolationsfaktoren benutzt werden.
  • Die Erfindung ist nicht auf die Behandlung eines Sprachsignals beschränkt, andere Arten von Tonsignalen können ebenfalls bearbeitet werden, so z. B. ein Audiosignal. Solche Abwandlungen, die an dem Grundprinzip festhalten, liegen offensichtlich in dem Schutzumfang der Erfindung, wie er durch die beigefügten Ansprüche definiert ist.

Claims (10)

1. Verfahren zum gemeinsamen Quantisieren von N LPC-Spektralmodellen (f1,n; f2,n; ...; fN,n) pro Rahmen eines abgetasteten Tonsignals, wobei N ≥ 1, um bei einer Methode zum digitalen Codieren des Tonsignals eine Spektralgenauigkeits-/Codierratenbilanz zu verbessern, umfassend folgende Schritte:
(a) Bilden (1, 2) einer Matrix F mit N Reihen, die N Vektoren (f1,n; f2,N; ...; fN,n) definieren, repräsentativ für die N LPC-Spektralmodelle;
(b) Entfernen einer zeitvariablen Vorhersagematrix P aus der Matrix F, basierend auf zumindest einem vorausgehenden Rahmen, um eine Restmatrix R zu erhalten; und
(c) Vektorquantisieren (3) der Restmatrix R.
2. Verfahren nach Anspruch 1, bei dem zum Verringern der Komplexität der Vektorquantisierung (3) der Restmatrix R, der Schritt (c) die Schritte des Aufteilens der Restmatrix R in eine Anzahl q Teilmatritzen mit N Reihen, und der Vektorquantisierung jeder Teilmatrix umfaßt.
3. Verfahren nach Anspruch 1 oder 2, umfassend den Schritt des Erhaltens der zeitvariablen Vorhersagematrix P unter Verwendung eines nicht-rekursiven Vorhersageverfahrens.
4. Verfahren nach Anspruch 3, bei dem das nicht-rekursive Vorgersageverfahren besteht aus dem Berechnen (4) der zeitvariablen Vorhersagematrix P entsprechend der Formel
P = A Rb'
wobei A eine M x b-Matrix, mit M und b als ganze Zahlen, ist, deren Komponenten Skalar-Vorhersagekoeffizienten sind, und wobei Rb' eine b · M-Matrix aus den letzten b Reihen einer Matrix R' ist, resultierend aus der Vektorquantisierung der Restmatrix R des vorausgehenden Rahmens.
5. Verfahren nach Anspruch 1 oder 2, umfassend den Schritt des Erhaltens (4) der zeitvariablen Vorhersagematrix P unter Verwendung eines rekursiven Vorhersageverfahrens.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die N LPC- Spektralmodelle (f1,n; f2,n; ...; fN,n) pro Rahmen n Teilrahmen mit m-1 eingestreuten Teilrahmen - m ist eine ganze Zahl - entsprechen, und bei dem die Vektoren, die repräsentativ sind für die den eingestreuten Teilrahmen entsprechenden LPC-Spaktralmodelle, unter Einsatz linearer Interpolation erhalten werden.
7. Verfahren nach einem der Ansprüche 1 bis 5, bei dem die N LPC- Spektralmodelle (f1,n; f2,n; ...; fN,n) pro Rahmen aus einer LPC- Analyse unter Einsatz verschiedener Fensterformen nach Maßgabe der Reihenfolge eines speziellen Spektralmodells innerhalb des Rahmens resultieren.
8. Verfahren nach einem vorhergehenden Anspruch, weiterhin umfassend den Schritt des Zurückaddierens der zeitvariablen Vorhersagematrix P auf die vektorquantisierte Restmatrix R', um eine quantisierte Matrix Z' zu erhalten.
9. Verfahren nach einem der Ansprüche 1 bis 7, bei dem
das Verfahren vor dem Schritt (b) den Schritt beinhaltet, bei dem aus der Matrix F ein Konstantmatrixterm entfernt wird, um eine Matrix Z zu erhalten; und
der Schritt (c) das Beseitigen der zeitvariablen Vorhersagematrix P aus der Matrix Z beinhaltet, um die Restmatrix R zu erhalten.
10. Verfahren nach Anspruch 9, weiterhin umfassend die Schritte:
Zurückaddieren der zeitvariablen Vorhersagematrix P auf die vektorquantisierte Matrix R', um eine quantisierte Matrix Z' zu erhalten; und
Zurückaddieren des Konstantmatrixterms auf die quantisierte Matrix Z', um eine Matrix F' zu erhalten, die repräsentativ ist für die N quantisierten LPC-Spektralmodelle (f1,n; f2,n; ...; fN,n).
DE69611607T 1995-04-03 1996-04-02 Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung Expired - Lifetime DE69611607T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US08/416,019 US5664053A (en) 1995-04-03 1995-04-03 Predictive split-matrix quantization of spectral parameters for efficient coding of speech
PCT/CA1996/000202 WO1996031873A1 (en) 1995-04-03 1996-04-02 Predictive split-matrix quantization of spectral parameters for efficient coding of speech

Publications (2)

Publication Number Publication Date
DE69611607D1 DE69611607D1 (de) 2001-02-22
DE69611607T2 true DE69611607T2 (de) 2001-06-28

Family

ID=23648186

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69611607T Expired - Lifetime DE69611607T2 (de) 1995-04-03 1996-04-02 Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung

Country Status (12)

Country Link
US (1) US5664053A (de)
EP (1) EP0819303B1 (de)
JP (1) JP3590071B2 (de)
CN (1) CN1112674C (de)
AT (1) ATE198805T1 (de)
AU (1) AU697256C (de)
BR (1) BR9604838A (de)
CA (1) CA2216315C (de)
DE (1) DE69611607T2 (de)
DK (1) DK0819303T3 (de)
ES (1) ES2156273T3 (de)
WO (1) WO1996031873A1 (de)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3067676B2 (ja) * 1997-02-13 2000-07-17 日本電気株式会社 Lspの予測符号化装置及び方法
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
FI113903B (fi) 1997-05-07 2004-06-30 Nokia Corp Puheen koodaus
TW408298B (en) * 1997-08-28 2000-10-11 Texas Instruments Inc Improved method for switched-predictive quantization
US6199037B1 (en) * 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
FI980132A (fi) 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6256607B1 (en) * 1998-09-08 2001-07-03 Sri International Method and apparatus for automatic recognition using features encoded with product-space vector quantization
US6219642B1 (en) 1998-10-05 2001-04-17 Legerity, Inc. Quantization using frequency and mean compensated frequency input data for robust speech recognition
US6347297B1 (en) * 1998-10-05 2002-02-12 Legerity, Inc. Matrix quantization with vector quantization error compensation and neural network postprocessing for robust speech recognition
GB2364870A (en) * 2000-07-13 2002-02-06 Motorola Inc Vector quantization system for speech encoding/decoding
US20100023575A1 (en) * 2005-03-11 2010-01-28 Agency For Science, Technology And Research Predictor
DE102007006084A1 (de) 2007-02-07 2008-09-25 Jacob, Christian E., Dr. Ing. Verfahren zum zeitnahen Ermitteln der Kennwerte, Harmonischen und Nichtharmonischen von schnell veränderlichen Signalen mit zusätzlicher Ausgabe davon abgeleiteter Muster, Steuersignale, Ereignisstempel für die Nachverarbeitung sowie einer Gewichtung der Ergebnisse
WO2009107469A1 (ja) * 2008-02-28 2009-09-03 シャープ株式会社 駆動回路および表示装置
KR101315617B1 (ko) * 2008-11-26 2013-10-08 광운대학교 산학협력단 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2481026B1 (de) * 1980-04-21 1984-06-15 France Etat
US4536886A (en) * 1982-05-03 1985-08-20 Texas Instruments Incorporated LPC pole encoding using reduced spectral shaping polynomial
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
US5067158A (en) * 1985-06-11 1991-11-19 Texas Instruments Incorporated Linear predictive residual representation via non-iterative spectral reconstruction
IT1184023B (it) * 1985-12-17 1987-10-22 Cselt Centro Studi Lab Telecom Procedimento e dispositivo per la codifica e decodifica del segnale vocale mediante analisi a sottobande e quantizzazione vettorariale con allocazione dinamica dei bit di codifica
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
DE3732047A1 (de) * 1987-09-23 1989-04-06 Siemens Ag Verfahren zur umcodierung von kanalvocoder-parameter in lpc-vocoder-parameter
US4964166A (en) * 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
US5384891A (en) * 1988-09-28 1995-01-24 Hitachi, Ltd. Vector quantizing apparatus and speech analysis-synthesis system using the apparatus
US4956871A (en) * 1988-09-30 1990-09-11 At&T Bell Laboratories Improving sub-band coding of speech at low bit rates by adding residual speech energy signals to sub-bands
CA2027705C (en) * 1989-10-17 1994-02-15 Masami Akamine Speech coding system utilizing a recursive computation technique for improvement in processing speed
CA2010830C (en) * 1990-02-23 1996-06-25 Jean-Pierre Adoul Dynamic codebook for efficient speech coding based on algebraic codes
JP2770581B2 (ja) * 1991-02-19 1998-07-02 日本電気株式会社 音声信号のスペクトル分析方法とその装置
US5351338A (en) * 1992-07-06 1994-09-27 Telefonaktiebolaget L M Ericsson Time variable spectral analysis based on interpolation for speech coding

Also Published As

Publication number Publication date
EP0819303A1 (de) 1998-01-21
AU697256B2 (en) 1998-10-01
CN1184548A (zh) 1998-06-10
US5664053A (en) 1997-09-02
JP3590071B2 (ja) 2004-11-17
DK0819303T3 (da) 2001-01-29
BR9604838A (pt) 1998-06-16
CA2216315A1 (en) 1996-10-10
ES2156273T3 (es) 2001-06-16
AU5263396A (en) 1996-10-23
CA2216315C (en) 2002-10-22
ATE198805T1 (de) 2001-02-15
WO1996031873A1 (en) 1996-10-10
AU697256C (en) 2003-01-30
JPH11503531A (ja) 1999-03-26
DE69611607D1 (de) 2001-02-22
EP0819303B1 (de) 2001-01-17
CN1112674C (zh) 2003-06-25

Similar Documents

Publication Publication Date Title
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69530442T2 (de) Vorrichtung zur Sprachkodierung
DE4492048C2 (de) Vektorquantisierungs-Verfahren
DE68912692T2 (de) Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.
DE69521164T2 (de) System zum Kodieren und Dekodieren von Signalen
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69029232T2 (de) System und Methode zur Sprachkodierung
DE69611607T2 (de) Quantisierung einer aufgeteilten vorhersagematrix mit spektralparametern zur wirksamen sprachkodierung
DE69718234T2 (de) Sprachkodierer
DE69329569T2 (de) Digitale Kodierung von Sprachsignalen
DE69426860T2 (de) Sprachcodierer und Verfahren zum Suchen von Codebüchern
DE69314389T2 (de) Zweimoden langzeitprädiktion in sprechkodierung
DE69516522T2 (de) Verfahren zur Synthetisierung eines Sprachsignalblocks in einem CELP-Kodierer
DE69902480T2 (de) Verfahren zur quantisierung der parameter eines sprachkodierers
DE69610915T2 (de) Verfahren zur quantisierung des verstärkungsfaktors für die linear-prädiktive sprachkodierung mittels analyse-durch-synthese
DE69615870T2 (de) Sprachkodierer mit aus aktuellen und vorhergehenden Rahmen extrahierten Merkmalen
DE19722705A1 (de) Verfahren zur Abschätzung der Verstärkung zur Sprachkodierung
DE69420683T2 (de) Kodierer für Sprachparameter
DE69921066T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE4491015C2 (de) Verfahren zum Erzeugen eines Spektralrauschbewertungsfilters zur Verwendung in einem Sprachcoder
DE69624449T2 (de) Vorrichtung zur Sprachkodierung
DE68914147T2 (de) Sprachcodierer mit niedriger Datenrate und niedriger Verzögerung.
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE69630177T2 (de) Sprachkodierer mit der Fähigkeit zur wesentlichen Vergrösserung der Codebuchgrösse ohne aber die Zahl der übertragenen Bits zu vergrössern

Legal Events

Date Code Title Description
8363 Opposition against the patent