[go: up one dir, main page]

DE3587251T2 - Anpassbares verfahren und vorrichtung fuer sprachkodierung. - Google Patents

Anpassbares verfahren und vorrichtung fuer sprachkodierung.

Info

Publication number
DE3587251T2
DE3587251T2 DE8686900480T DE3587251T DE3587251T2 DE 3587251 T2 DE3587251 T2 DE 3587251T2 DE 8686900480 T DE8686900480 T DE 8686900480T DE 3587251 T DE3587251 T DE 3587251T DE 3587251 T2 DE3587251 T2 DE 3587251T2
Authority
DE
Germany
Prior art keywords
coefficients
spectrum
subbands
transmitted
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE8686900480T
Other languages
English (en)
Other versions
DE3587251D1 (de
Inventor
Baruch Mazor
E Veeneman
Bernard Zibman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Verizon Laboratories Inc
Original Assignee
GTE Laboratories Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US06/798,174 external-priority patent/US4790016A/en
Application filed by GTE Laboratories Inc filed Critical GTE Laboratories Inc
Application granted granted Critical
Publication of DE3587251D1 publication Critical patent/DE3587251D1/de
Publication of DE3587251T2 publication Critical patent/DE3587251T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Die Erfindung betrifft einen Sprachcodierer, wie er im Oberbegriff des Anspruches 1 angegeben ist. Ein Sprachcodierer dieser Art ist aus WP-8-0 176 243 bekannt.
  • In der obengenannten Druckschrift ist ein Codierer für Sprachsignale geoffenbart, der umfaßt eine Trenneinrichtung zum Empfangen von Sprachsignalen und zum Erzeugen von Wertereihen, wobei jede Reihe entsprechende Bereiche des Frequenzspektrums des Eingangsignals darstellt, und eine Codiereinrichtung zum digitalen Codieren jeder Reihe, und eine Bit-Feststelleinrichtung zum Ändern der Anzahl von Bit, die zum Codieren der entsprechenden Reihen in Abhängigkeit von deren relativen Energieinhalt verwendet worden sind, wobei die Anzahl von Reihen, denen irgendeine gegebene Zahl von Bit zugeordnet ist, konstant ist und nur die Auswahl der Reihen, denen entsprechende Anzahlen von Bit zugeordnet sind, verändert wird.
  • Herkömmliche Analogtelefonsysteme werden durch digitale Systeme ersetzt. Bei digitalen Systemen werden die Analogsignale mit einer Geschwindigkeit von ungefähr dem Zweifachen der Bandbreite der Analogsignale oder ungefähr 8 Kilohertz abgetastet und die Abtastungen werden dann codiert. Bei einem einfachen Pulscode-Modulationssystem (PCN) wird jede Abtastung als ein Wert eines bestimmten Satzes von vorgewählten Werten quantisiert und als ein Digitalwort codiert, das dann über die Telefonleitungen übertragen wird. Beispielsweise wird bei Digitalwörtern von 8 Bit die Analogprobe zu 2&sup8; oder 256 Pegeln quantisiert, von denen jeder durch ein unterschiedliches Wort von 8 Bit bezeichnet ist. Wenn eine nichtlineare Quantisierung verwendet wird, kann Sprache ausgezeichneter Qualität mit nur 7 Bit pro Abtastung erhalten werden; da aber ein Wort mit 7 Bit weiterhin für jede Abtastung verlangt wird, sind Bitübertragungsraten von 56 Kilobit pro Sekunde notwendig.
  • Anstrengungen sind unternommen worden, um die Bitraten zu verringern, die benötigt werden, die Sprache zu codieren und ein klares, decodiertes Sprachsignal am Empfangsende des Systems zu erhalten. Die lineare prädiktive Codiertechnik (LPC) basiert auf dem Erkennen, daß die Spracherzeugung eine Anregung und einen Filtervorgang beinhaltet. Die Anregung wird durch die Stimmbandschwingung für gesprochene Sprache und durch Turbulenzen für sprachfreie Sprache bestimmt und dieses Betätigungssignal wird dann durch den Filtervorgang der Stimmresonanzkammern unter Einschluß des Mund- und Nasendurchlasses abgeändert. Für eine besondere Gruppe von Abtastungen kann ein Digitalfilter, das die Formant-Wirkungen der Resonanzkammern simuliert, definiert werden und die Definition kann codiert werden. Ein Restsignal, das die Anregung annähert, kann dann erhalten werden, indem das Sprachsignal durch ein umgekehrtes Formant-Filter hindurchgeschickt wird, und das Restsignal kann codiert werden. Da ausreichend Information in dem niederfrequenten Abschnitt des Restspektrums enthalten ist, ist es möglich, nur das niederfrequente Grundband zu codieren und trotzdem eine ausreichend klare Sprache zu erhalten. Beim Empfänger werden eine Definition des Formant-Filters und des Restgrundbandes decodiert. Das Grundband wird wiederholt, um das Spektrum des Restsignals zu vervollständigen. Indem das decodierte Filter auf das wiederholte Grundbandsignal angewendet wird, kann die Ausgangssprache rekonstruiert werden.
  • Ein bedeutendes Problem beim Ansatz der vorhersagenden Codiertechnik (LPC) liegt im Definieren des Formant-Filters, das mit jedem Fenster von oben redefiniert werden muß. Ein komplexer Codierer und ein komplexer Decodierer werden benötigt, um Übertragungsraten von so niedrig wie 16.000 Bit pro Sekunde zu erhalten. Ein anderes Problem bei solchen System ist, daß sie nicht immer eine zufriedenstellende Rekonstruktion gewisser Formant liefern, wie beispielsweise dasjenige, das sich aus der Nasalresonanz ergibt. Es ist die Zielsetzung der Erfindung, diese Schwierigkeiten zu lösen.
  • Diese Zielsetzung wird durch die kennzeichnenden Merkmale des Anspruches 1 bzw. 14 erreicht. Bevorzugte Ausführungsformen der Erfindung sind Gegenstand der Unteransprüche.
  • In einem System wird die ungefähre Einhüllende des Transformationsspektrums in jedem einer Mehrzahl von Unterbändern der Koeffizienten definiert und jede Definition der Einhüllenden wird zur Übertragung codiert. Jeder Spektralkoeffizient wird dann relativ zu der definierten Einhüllenden des entsprechenden Unterbandes skaliert, und jeder skalierte Koeffizient wird in einer Anzahl von Bit codiert, die durch die definierte Einhüllende ihres Unterbandes bestimmt ist.
  • Null-Bit können einer Anzahl von weniger bedeutenden Unterbändern zugeteilt werden, wie es durch die definierten einhüllenden angegeben ist; und veränderbare Anzahlen von Bit können für jeden codierten Koeffizienten in Abhängigkeit von der Größe der definierten Einhüllenden für das jeweilige Unterband verwendet werden. Somit werden die Unterbänder, die übertragen werden und die Auflösung, mit der die übertragenen Unterbänder codiert werden, für jedes Abtastungsfenster auf der Grundlage der definierten Einhüllenden der Unterbänder anpassungsmäßig bestimmt.
  • Beim Empfänger werden die Unterbänder, die übertragen worden sind, wiederholt, um Koeffizienten der Frequenzen zu definieren, die nicht übertragen worden sind. Einem ListenWiederholungsverfahren wird gefolgt, durch das ein n-ter Koeffizient, der übertragen worden ist, als ein n-ter Koeffizient wiederholt wird, der nicht übertragen worden ist. Nach der Wiederholung kann das Sprachsignal wieder erzeugt werden, indem die übertragenen Definitionen der Einhüllenden verwendet werden, um Koeffizienten der jeweiligen Unterbänder umgekehrt zu skalieren und indem eine umgekehrte Transformation durchgeführt wird.
  • Bei einem anderen System wird das Spektrum zuerst in bezug auf nur einige wenige Abschnitte normalisiert und nachfolgend in bezug auf eine größere Anzahl von Unterabschnitten. Die maximale Größe in jedem der Abschnitte und in jedem der Unterabschnitte wird codiert. Die Maxima werden logarithmisch codiert und nur ein Grundband des normalisierten Spektrums wird codiert.
  • Die vorgenannten und andere Zielsetzungen, Merkmale und Vorteile der Erfindung werden offensichtlich aus der folgenden, mehr ins einzelne gehenden Beschreibung einer bevorzugten Ausführungsform der Erfindung, wie sie in den beigefügten Zeichnungen dargestellt ist, in denen sich gleiche Bezugszeichen auf die gleichen Teile durchgehend bei den unterschiedlichen Darstellungen beziehen. Die Zeichnungen sind nicht notwendigerweise maßstabsgerecht, wobei statt dessen die Betonung auf die Darstellung der Grundsätze der Erfindung gelegt worden ist.
  • Fig. 1 ist eine Blockdiagrammdarstellung eines Codierers und eines Decodierers, die die Erfindung verkörpern;
  • Fig. 2 ist ein Blockdiagramm eines Sprachcodierers und eines entsprechenden Decodierers einer bevorzugten Ausführungsform des Systems der Fig. 1.
  • Fig. 3 ist ein Beispiel eines Größenspektrums der Fourier-Transformierten eines Sprachfensters, das die Grundgedanken des Systems der Fig. 2 darstellt;
  • Fig. 4 ist ein von der Fig. 3 normalisiertes Beispielsspektrum auf der Grundlage der Grundgedanken der vorliegenden Erfindung;
  • Fig. 5 zeigt schematisch eine Quantisierungseinrichtung für komplexe Werte des normalisierten Spektrums;
  • Fig. 6 ist eine Beispielsdarstellung von Koeffizientengruppen, die übertragen werden, und zeigt die Wiederholungstechnik des Systems der Fig. 2.
  • Fig. 7 ist ein Beispiel eines Größenspektrums eines Sprachfensters, wobei die Grundgedanken eines anderen Systems dargestellt sind, das die vorliegende Erfindung verkörpert;
  • Fig. 8 ist ein von dem Spektrum der Fig. 7 normalisiertes Beispielsspektrum, wobei vier Formant-Abschnitte verwendet werden;
  • Fig. 9 ist ein Beispielsspektrum, das von dem der Fig. 8 in Unterbändern normalisiert ist;
  • Fig. 10 stellt schematisch eine Quantisierungseinrichtung für komplexe Werte des normalisierten Spektrums dar;
  • Fig. 11 ist eine Blockdiagrammdarstellung des spektralen Entzerrungs-Codierkreises der Fig. 1 bei einer alternativen Ausführungsform.
  • Ein Blockdiagramm des Systems ist in Fig. 1 gezeigt. Die Sprache wird mit einem Telefonbandpaßfilter 20 gefiltert, das Bilden von Pseudonymen verhindert, wenn das Signal 8.000 mal pro Sekunde in einem Abtastkreis 22 abgetastet wird. Die Analogabtastungen werden digital in einem Analog/Digital-Codierer 24 codiert und bei 26 vorverarbeitet, bevor sie an eine diskrete Fourier-Transformationseinheit 28 gegeben werden.
  • Der Ausgang des Fourier-Transformationskreises 28 ist eine Reihe von Koeffizienten, die die Größe und Phase des Fourier-Transformationsspektrum bei jeder der 97 Frequenzen anzeigen, die 41.667 Hertz voneinander beabstandet sind. Das Größenspektrum des Fourier-Transformationsausgangs ist in Fig. 3 als eine fortlaufende Funktion dargestellt, aber man sieht, daß der Transformationskreis 28 tatsächlich nur 97 schrittmäßige Ausgänge liefert.
  • Gemäß der vorliegenden Erfindung wird das Fourier-Transformationsspektrum der vollen Sprache innerhalb eines ausgewählten Fensters ausgeglichen und in einem Kreis 30 auf eine Weise codiert, die unten erörtert werden wird. Das sich ergebende Digitalsignal kann mit 16.000 Bit pro Sekunde über eine Leitung 32 zu einem Empfänger übertragen werden. Beim Empfänger wird das volle Spektrum der Fig. 3 in dem Kreis 34 rekonstruiert. Die umgekehrte Fourier-Transformation wird in dem Kreis 36 ausgeführt und auf sie wird eine Nachbearbeitungseinrichtung 38 angewendet, die der Vorverarbeitungseinrichtung 26 entspricht. Dieses Signal wird dann in analoge Form in einem Digital/Analog-Umwandler 40 umgewandelt. Eine abschließende Filterung im Filter 42 liefert dem Hörer eine klare Sprache.
  • Bei einem bevorzugten System wird eine Mehrfachprozessor- Architektur mit Pipeline verwendet. Ein Mikrocomputer ist für die Analog/Digital-Umwandlung mit Vorverzerrungsfiltern vorgesehen, einer ist der Vorwärts-Fourier-Transformation gewidmet und ein dritter ist dem Spektralausgleich und dem Codieren gewidmet. Ähnlich ist in dem Empfänger ein Mikrocomputer der Spektralrekonstruktion gewidmet, ein anderer der umgekehrten Fourier-Transformation und ein dritter der Digital/Analog-Umwandlung mit Nachentzerrungsfiltern.
  • Die spektrale Ausgleichs- und Codiertechnik der vorliegenden Erfindung basiert auf dem Erkennen, das die Fourier-Transformierte des Gesamtsignals ein relativ flaches Spektrum der Tonlage einschließt, das in Fig. 4 dargestellt und durch die Formant-Signale geformt ist. Bei dem vorliegenden System wird das Signal der Fig. 4 erhalten, indem das Spektrum der Fig. 3 auf wenigstens eine Kurve normalisiert wird, die selbst von dem Restspektrum der Fig. 4 getrennt codiert werden kann.
  • Eine Ausführung des Codiersystems der Fig. 1 ist in Fig. 2 gezeigt. Vor der Komprimierung wird das analoge Sprachsignal in dem Filter 20 bei 3,4 Kilohertz tiefpaßgefiltert, in dem Abtaster 22 bei einer Rate von 8 Kilohertz abgetastet und unter Verwendung eines linearen 12-Bit-Analog/Digital-Umwandlers 24 digitalisiert. Man erkennt, daß der Eingang zu dem Codierer bereits in digitaler Form sein kann und eine Umwandlung in den Code verlangt, der von dem Codierer akzeptiert werden kann. Das digitale Sprachsignal in Rahmen von N-Abtastungen wird in einer Skalierungseinrichtung 26 zuerst aufskaliert, um seinen dynamischen Bereich in jedem Rahmen zu maximieren. Die skalierten Eingangsabtastungen werden dann in einer Einrichtung für eine schnelle Fourier- Transformation 28 fourier-transformiert, um ein entsprechendes, diskretes Spektrum zu erhalten, das durch (N/2)+1 komplexe Frequenzkoeffizienten dargestellt wird.
  • Bei einer besonderen Ausgestaltung gleicht die Eingangsrahmengröße 180 Abtastungen und entspricht einem Rahmen alle 22,5 Millisekunden. Jedoch wird die diskrete Fourier-Transformation bei 192 Abtastungen durchgeführt, wobei 12 mit dem vorhergehenden Rahmen überlappte Abtastungen eingeschlossen sind, wobei eine Trapezfensterbildung mit einer Neigung von 12 Punkten an jedem Ende vorausgeht. Der sich ergebende Ausgang der schnellen Fourier-Transformation schließt 97 komplexe Frequenzkoeffizienten ein, die 41.667 Hertz voneinander beabstandet sind.
  • Ein beispielhaftes Größenspektrum einer Fourier-Transformation, die von der schnellen Fourier-Transformation 28 ausgegeben wird, ist in Fig. 3 dargestellt. Obgleich sie als durchgehende Funktion dargestellt ist, erkennt man, daß der Transformationskreis 28 tatsächlich nur 97 schrittweise, komplexe Ausgänge liefert.
  • Das Größenspektrum des Fourier-Transformationsausgangs wird ausgeglichen und codiert. Hierfür wird das Spektrum in aneinanderangrenzende Unterbänder unterteilt und eine abgeschätzte, spektrale Einhüllende basiert auf einer stückweisen Annäherung dieser Unterbänder bei 44. Bei einer besonderen Ausführung wird das Spektrum in zwanzig Unterbänder unterteilt, von denen jedes vier komplex Koeffizienten einschließt. Frequenzen oberhalb von 3.291,67 Herz werden nicht codiert und beim Empfänger gleich null gesetzt. Um das Spektrum auszugleichen, wird die spektrale Einhüllende von jedem Unterband als konstant angenommen und wird durch die Spitzengröße in jedem Unterband definiert, wie es durch die horizontalen Linien in Fig. 3 dargestellt ist. Jede Größe, oder genauer das Umgekehrte von ihr, kann als ein Skalierungsfaktor für ihr jeweiliges Unterband behandelt werden. Jeder Skalierungsfaktor wird in einer Quantisierungseinrichtung 45 mit vier Bit quantisiert.
  • Indem dann bei 46 die Größe von jedem Koeffizienten des Spektrums mit dem diesem Koeffizienten zugeordneten Skalierungsfaktor multipliziert wird, wird das flachgemachte Restspektrum der Fig. 4 erhalten. Dieses Planieren des Spektrums ist dem umgekehrten Filtern des Signals auf der Grundlage der stückweise-konstanten Abschätzung der spektralen Einhüllenden äquivalent.
  • Nur ausgewählte Unterbänder des flachgemachten Spektrums der Fig. 4 werden quantisiert und übertragen. Die Auswahl bei 48 der zu übertragenden Unterbänder basiert auf dem Skalierungsfaktor der Unterbänder. Bei einer besonderen Ausführung werden die zwölf Unterbänder, die die kleinsten Skalierungsfaktoren, das heißt die größte Energie haben, codiert und übertragen. Für die 8 Energiebänder niederer Energie werden nur die Skalierungsfaktoren übertragen.
  • Eine ungleichförmige Bit-Zuordnung wird für die komplexen Koeffizienten verwendet, die übertragen werden. Drei getrennte, zweidimensionale Quantisierungseinrichtungen 50 werden für die übertragenen 12 Unterbänder verwendet. Die sechzehn komplexen Koeffizienten für die vier Unterbänder, die die kleinsten Skalierungsfaktoren haben, werden jeweils mit sieben Bit quantisiert. Die Koeffizienten der vier Unterbänder, die die nächstkleinsten Skalierungsfaktoren haben, werden jeweils mit 6 Bit quantisiert, und die Koeffizienten der übrigen vier der übertragenen Untergruppen werden jeweils mit 4 Bit quantisiert. Tatsächlich werden die Koeffizienten der acht Unterbänder, die nicht übertragen werden, mit Null-Bit quantisiert.
  • Jede der zweidimensionalen Quantisiereinrichtungen ist unter Verwendung eines Ansatzes entworfen, der angegeben ist von Linde u. a. "An Algorithm for Vector Quantizer Design", IEEE Trans on Commun, Vol COM-28, S. 84-95, Januar 1980. Das Ergebnis für die Quantisierungseinrichtung mit 7 Bit ist in Fig. 5 gezeigt. Die zwei Dimensionen der Quantisierungseinrichtung sind der Real- und der Imaginärteil jedes komplexen Koeffizienten. Jedes Bündel hat eine Darstellung von 7 Bit, auf die jeder komplexe Punkt in dem Bündel quantisiert ist. Die aktuelle Quantisierung kann durch eine Nachsehtabelle in einem Nur-Lesespeicher erfolgen.
  • Die Bit-Zuordnung für einen einzelnen Rahmen kann wie folgt zusammengefaßt werden:
  • Skalierungsfaktoren 20 · jeweils 4 Bit = 80 Bit
  • 16 · 7 Bit = 112 Bit
  • 16 · 6 Bit = 96 Bit
  • 16 · 4 Bit = 64 Bit
  • Zeitskalierung = 4 Bit
  • Synchronisierung = 4 Bit
  • Gesamt = 360 Bit
  • Beim Empfänger werden die übertragenen zwölf Koeffizientengruppen auf entsprechende umgekehrte Quantisierungseinrichtungen von sieben Bit, sechs Bit und vier Bit bei 52 angewendet. Die Frequenzunterbänder, denen die sich ergebenden Koeffizienten entsprechen, werden durch die Skalierungsfaktoren bestimmt, die der Reihe nach für alle Unterbänder übertragen werden. Somit werden die Koeffizienten von der umgekehrten Quantisierungseinrichtung mit sieben Bit in den Unterbändern angeordnet, von denen die Skalierungsfaktoren angeben, welches die größte Größe aufweist.
  • Die Koeffizienten der acht Unterbänder, die nicht übertragen worden sind, werden durch die Wiederholung der übertragenen Unterbänder bei 54 angenähert. Hierfür wird eine Listenwiederholungsannäherung verwendet. Diese Annäherung ist durch die Fig. 6 dargestellt. In der Fig. 6 sind die Koeffizienten für jedes Unterband durch einen einzelnen Vektor angegeben. Die übertragenen Unterbänder sind mit T1, T2, T3,... Tn,... bezeichnet, und die Unterbänder, die durch Wiederholung in dem Empfänger erzeugt werden müssen, sind mit R1, R2, R3,... Rn,... bezeichnet. Gemäß der Wiederholungstechnik des vorliegenden Systems werden die Koeffizienten des Unterbandes Tn sowohl für Tn als auch für Rn verwendet. Somit werden die skalierten Koeffizienten für das Unterband T1 bei dem Unterband R1 wiederholt, jene des Unterbandes T2 werden bei R2 wiederholt, und jene beim Unterband T3 werden bei R3 wiederholt. Der Grund für diese Listenwiederholungstechnik ist, daß die Unterbänder selbst üblicherweise in Blöcke übertragener Unterbänder und Blöcke nichtübertragener Unterbänder gruppiert sind. Somit werden große Blöcke von Koeffizienten typischerweise wiederholt, wobei dieses Verfahren verwendet wird, und die Sprachharmonischen werden bei dem Wiederholungsverfahren aufrechterhalten.
  • Sobald das gleichgemachte Spektrum der Fig. 4 durch Wiederholung der Unterbänder wiedererzeugt worden ist, kann eine Wiederherstellung des Spektrums der Fig. 3 bei 56 erzeugt werden, indem die Skalierungsfaktoren auf das gleichgemachte Spektrum angewendet werden. Aus dieser Wiederherstellung der Fourier-Transformierten der ursprünglichen Fourier-Transformierten kann die Sprache durch eine umgekehrte, schnelle Fourier-Transformationseinrichtung 36, einen umgekehrten Zähler 38, einen Digital/Analog-Umwandler 40 und ein Wiederherstellungsfilter 42 erhalten werden.
  • Ein hervorragender Vorteil der vorliegenden Erfindung ist, daß der Codierer nicht auf einem angenommenen, festen Tiefpaß-Spektralmodell basiert, das sprachspezifisch ist. Sprachband-Daten und Sprachband-Signalisierung nehmen die Form von Sinuswellen einiger Bandbreite an, die bei irgendeiner Frequenz auftreten kann. Wo nur ein unteres und ein oberes Grundband von Koeffizienten übertragen wird, können Sprachband-Daten verloren werden. Bei dem vorliegenden System sind die Unterbänder, in denen die digitalen Informationen übertragen werden, wegen ihrer höheren Energie natürlich ausgewählt.
  • Ein anderes anziehendes Merkmal des Codiersystems ist seine integrierte Datenraten-Codefähigkeit. Integriertes Codieren, das als ein Verfahren zur Überlastungssteuerung bei Telefonanwendungen von Bedeutung ist, gestattet, daß die Daten den Codierer mit einer konstanten Bitrate verlassen, jedoch beim Decodierer mit einer niedrigeren Bitrate empfangen werden, da einige Bit auf dem Weg entfernt werden. Integriertes Codieren schließt ein Paket oder einen Block von Bit ein, in dem es eine Hierarchie von Unterblöcken gibt. Die am wenigsten kritischen Unterblöcke können zuerst entfernt werden, wenn der Kanal überlastet wird. Dieses hierarchische Prinzip ist bei dem vorliegen-den System ein natürliches, bei dem die Teilbandinformation, die durch einen Satz von Frequenzkoeffizienten beschrieben ist, mit abnehmender Bedeutung geordnet wird und die fehlenden Koeffizienten stets durch die empfangenen angenähert werden können. Je mehr Koeffizienten in dem Satz vorhanden sind, desto größer ist die Rate und desto besser ist die Qualität. Jedoch nimmt die Sprachqualität sehr sanft mit geringer Abnahme der Rate ab. Die Eingliederung eines integrierten Codiersystems in Verbindung mit diesem Verfahren ist deshalb recht einfach und sehr attraktiv.
  • Die vorstehend beschriebene Codiertechnik liefert eine ausgezeichnete Sprachcodierung und Wiedergabe bei 16 Kilobit pro Sekunde. Ausgezeichnete Ergebnisse, so niedrig wie 8,0 Kilobit pro Sekunde, können erhalten werden, indem diese Technik in Verbindung mit einer Frequenzskalierungstechnik verwendet wird, die als harmonische Skalierung des Zeitbereiches bekannt und beschrieben ist von D. Malah, "Time Domain Algorithmus for Harmonic Bandwidth Reduction and Time Scaling of Speech, Signals", IEEE Trans. Acoust., Speech, Signal Processing, Bd. ASSP-27, S. 121-133, April 1979. Bei diesem Verfahren wird vor der Durchführung der schnellen Fourier-Transformation Sprache mit der doppelten Rate der ursprünglichen Sprache aber mit der ursprünglichen Tonhöhe durch Kombination benachbarter Tonhöhenzyklen erzeugt. Die frequenzskalierte Sprache kann dann schneller in der obenbeschriebenen Technik Fourier-transformiert werden.
  • Obgleich jeder der Schritte der Restgewinnung, der Unterbandauswahl und der Quantisierung und die Schritte der umgekehrten Quantisierung, der Wiederholung und der Erregung der Einhüllenden als einzelne Elemente des Systems gezeigt sind, erkennt man, daß sie in ein aktuelles System integriert werden können. Beispielsweise muß das Restspektrum für Unterbänder, die nicht übertragen werden, nicht erhalten werden. Das System dann ausgeführt werden, indem eine Kombination aus Software und Hardware verwendet wird.
  • Bei einem anderen Codiersystem wird die Form des Spektrums durch ein zweistufiges Verfahren bestimmt. Dieses Verfahren codiert auch die Form des gesamten Spektrums von 100 bis 3.800 Hz, da dieses bei der Grundbandcodierung zweckmäßig ist. Beim ersten Schritt wird das Spektrum in vier Abschnitte unterteilt, die in Fig. 7 gezeigt sind.
  • 125 - 583 Hz
  • 625 - 1959 Hz
  • 2000 - 3416 Hz
  • 3468 - 3833 Hz
  • Diese Abschnitt entsprechen grob der Lage der ersten vier Formants. Der dynamische Bereich der Größen der Spektralkoeffizienten ist innerhalb eines jeden dieser Abschnitte viel kleiner als in dem Spektrum als Ganzes. Für Tonlagenphänomene kann die Spitzengröße nahe 250 Hz um 30 dB oberhalb der Größen nahe von 3.800 Hz sein. Der erste Schritt der spektralen Normalisierung wird durchgeführt, indem die Spitzengrößen innerhalb jeden Abschnittes gefunden werden, diese Spitzen jeweils zu 5 Bit mit einer logarithmischen Quantisiereinrichtung quantisiert werden und jeder Spektralkoeffizient durch die quantisierte Spitze in diesem Abschnitt dividiert wird. Das Ergebnis ist ein Vektor spektraler Koeffizienten mit maximaler Größe gleich der Einheit. Die Unterteilung in Abschnitte sollte ergeben, daß die Spektralkoeffizienten vernünftig gleichförmig innerhalb der komplexen Scheibe mit dem Radius eins verteilt sind.
  • Der zweite Schritt gewinnt eine detailliertere Struktur. Das Spektrum wird in gleiche Bänder von jeweils ungefähr 165 Hz unterteilt. Die Spitzengröße innerhalb eines jeden Bandes wird festgestellt und zu 3 Bit quantisiert. Die komplexen Spektralkoeffizienten innerhalb des Bandes werden durch die quantisierte Größe dividiert und jeweils zu 6 Bit unter Verwendung einer hexagonalen Quantisierungseinrichtung codiert. Diese Codierung bewahrt die Phaseninformation, die für die Wiederherstellung von Rahmengrenzen bedeutend ist.
  • Die Einzelheiten dieser alternativen Methode sind unter Bezugnahme auf die Fig. 7 bis 11 dargestellt. In diesem System ist der Vorprozessor 26 ein einpoliges Vorverzerrungsfilter. Niedere Frequenzen werden um ungefähr 5 dB abgeschwächt. Hohe Frequenzen werden angehoben. Die höchste Frequenz (4 kHz) wird um ungefähr 24 dB hervorgehoben. Das Filter ist beim Gleichmachen des Spektrums zweckmäßig, indem die Tiefpaßwirkungen des Anfangsfilters und die Hochfrequenzabschwächung der Lippen verringert werden. Das Hervorheben hilft die numerische Genauigkeit bei der nachfolgenden Berechnung der Fourier-Transformierten aufrechtzuerhalten.
  • In jedem der vier Formant-Abschnitte wird das Spektrum auf eine Kurve normalisiert, die in diesem Fall als eine horizontale Linie durch die Spitzengröße des Spektrums in jedem Bereich ausgewählt ist. Diese Kurven sind als Linien 58, 60, 62 und 64 in Fig. 7 gezeigt. Die Spitzengröße der komplexen Zahlen in jedem Abschnitt wird bestimmt und zu fünf Bit bei der Einheit 66 der Fig. 11 codiert, indem ein Wert k gefunden wird, der so codiert wird, daß der Spitzenwert zwischen 162 · 212(k-1)/32 und 162 · 212k/32 ist. Dies ergibt eine logarithmische Codierung der Spitzengröße. Die vier k-Werte, von denen jeder zu 5 Bit codiert ist, ergeben insgesamt 20 Bit von dem Formant-Codierer, die die signifikantesten Bit des übertragenen Codes für das Fenster sind. Alle Spektralkoeffizienten in jedem der vier Bereiche werden dann durch 162 · 212k/32 in der spektralen Normalisierungseinheit 68 dividiert. Mit diesem Verfahren werden alle sich ergebenden Größen, die in Fig. 8 dargestellt sind, kleiner als 1.
  • Als nächstes werden die normalisierten Koeffizienten, die von der Einheit 68 ausgegeben werden, in zwanzig Bereiche zu vier und zwei Unterbereiche zu fünf gruppiert, die in Fig. 8 dargestellt sind. Die Spitzengröße in jedem dieser Unterbereiche wird bestimmte und zu 3 Bit mit einer logarithmischen Quantisierungseinrichtung in der Einheit 70 codiert. Die Spitze wird immer auf den nächstgrößten Wert codiert. Die drei Bit von jedem der 22 Unterbereiche liefern zusätzliche 66 Bit des Endsignals für das Fenster. Jeder Ausgang innerhalb eines Unterbereichs wird mit dem Reziproken der quantisierten Größe in der Abtastungsnormalisierungseinheit 72 multipliziert, wodurch sichergestellt wird, daß alle Ausgänge, wie es in Fig. 9 dargestellt ist, kleiner als 1 bleiben.
  • Jeder komplexe Ausgang von dem Grundband von 125 Hz bis 1959 Hz des normalisierten Spektrums der Fig. 9 wird zu 6 Bit mit der zweidimensionalen Quantisierungs- und Codiereinrichtung 74 codiert. Die zweidimensionale Quantisierungseinrichtung wird gebildet, indem eine komplexe Scheibe mit dem Radius eins in Sechsecke unterteilt wird, wie es in Fig. 10 gezeigt ist. Die x, y-Koordinaten werden radial durch eine Exponentialfunktion deformiert, um eine logarithmische Codierung der Größe anzunähern. Alle Punkte innerhalb eines Sechsecks werden auf die Koordinaten der Mitte des Sechsecks quantisiert. Als Ergebnis werden Koeffizienten größerer Größe mit besserer Phasenauflösung als Koeffizienten kleiner Größe codiert. Die tatsächliche Quantisierung wird durch eine Nachsehtabelle durchgeführt, aber wirkungsvolle Rechen-Algorithmen sind möglich.
  • Die Bitzuordnung für einen einzelnen Rahmen kann in der folgenden Weise zusammengefaßt werden:
  • Formant-Bereichsskalierungsfaktoren 4 · je 5 Bit = 20 Bit
  • Unterband-Skalierungsfaktoren 22 · je 3 Bit = 66 Bit
  • Grundband-Komponenten 45 · je 6 Bit = 270 Bit
  • Gesamtsumme 356 Bit
  • Bei einem praktischen 16-Kb/s-Übertragungssystem erlaubt dies 4 Bit pro Rahmen für zusätzliche Funktionen, wie Rahmensynchronisierung. Die aktuellen Codiertransformationen, Bit-Zuordnungen und Unterbandgrößen können geändert werden, wenn der Codierer für unterschiedliche Anwendungen optimiert wird.
  • Alle Normalisierungsfaktoren (vier mit jeweils 5 Bit, 22 mit je drei Bit) und die codierten, normalisierten Grundbandkoeffizienten (45 zu 6 Bit) werden übertragen. Beim Empfänger wird das Grundband decodiert und zu dem oberen Frequenzbereich kopiert. Die Normalisierungsfaktoren werden auf das Spektrum angewendet, um die ursprüngliche Form wiederherzustellen. Insbesondere werden in dem Empfänger die Eingaben 0 bis 2 und 92 bis 96 zur umgekehrten Fourier-Transformation auf null gesetzt. Die normalisierten, komplexen Koeffizienten für die Eingänge 3 bis 47 werden aus den Quantisierungscoden durch Tabellennachsehen rekonstruiert. Sie werden in die Stellen 48 bis 92 kopiert. Dieses Kopieren ist der nichtlineare Wiederherstellungsschritt. Die Skalierungsfaktoren für die Unterbereiche und die größeren Bereiche werden dann angewendet.
  • Die umgekehrte Transformierte wird in der Einheit 36 berechnet. Die Wirkungen der Fensterbildung werden entfernt, indem die letzten zwölf Punkte der vorhergehenden, umgekehrten Transformierten zu den ersten zwölf Punkten der gegenwärtigen, umgekehrten Transformierten addiert werden. Die Sprache geht nun durch das Filter 38 hindurch, das ein zu dem Vorverzerrungsfilter umgekehrtes ist und das die hohen Frequenzen abschwächt, die Wirkungen der Anhebung der hohen Tonlage entfernt und hochfrequentes Quantisierungsrauschen verringert. Die Ausgänge werden mit einem linearen 12-Bit-Analog/Digital-Umwandler 40 ins Analoge umgewandelt.
  • Das Grundband, das in der Spektrums-Wiederherstellung wiederholt wird, wurde als ein Band niederer Frequenzen beschrieben. Jedoch kann das Grundband irgendeinen Frequenzbereich innerhalb des Spektrums einschließen. Für einige Töne, wo sich höhere Energiepegel bei den höheren Frequenzen gefunden haben, wird ein Grundband höherer Frequenzen bevorzugt.
  • Es sollte beachtet werden, daß das Grundband Verschlechterungen nur von Quantisierungsfehlern erleidet. Die Wiederherstellung der oberen Frequenzen ist nur so gut wie das Modell und die Formungsinformation. Indem jedoch sichergestellt wird, daß wenigstens irgendein Koeffizient in jedem 165 Hz Band des normalisierten Grundbandes seine natürliche Größe aufweist, wird jeder Formant bei ungefähr der richtigen Frequenz erregt. Dies ist eine Verbesserung gegenüber einer Grundband-Resterregung, bei der einige Teile des Spektrums eine zu geringe Energie haben können. Die Verringerung der Rechenkomplexität aufgrund des Findens und Skalierens der Spitze statt der linearen Vorhersageanalyse und des Filterns ist sehr bedeutend.
  • Diese Methode ist ein Breitbandansatz, da der gesamte Tonlagen-Frequenzbereich codiert wird. Die Hauptschwierigkeit bei anderen Breitbandsystemen bei 16 kb/s ist, daß dort kaum genügend Bit zur Verfügung stehen, um eine grobe Beschreibung der Wellenform zu geben. Grundband-Anregungssysteme, wie das vorliegende System, werden dieser Schwierigkeit gerecht, indem die meisten Bit dem Grundband gewidmet werden und das Anregungssignal für höhere Frequenzen wiederhergestellt wird. Bei einer Abänderung der gerade beschriebenen Unterband-Codiertransformation könnte man das Grundband, wie vorstehend beschrieben, codieren, aber nur einige Energiewerte für die höheren Frequenzen codieren. Eine Frequenzübersetzung des Grundbandes erzeugt wieder die Feinstruktur des oberen Spektrums.
  • Während die Erfindung insbesondere unter Bezugnahme auf eine bevorzugte Ausführungsform dargestellt und beschrieben worden ist, erkennt der Durchschnittsfachmann auf dem Gebiet, daß verschiedene Änderungen in der Form und in Einzelheiten durchgeführt werden können, ohne von dem Umfang der Erfindung abzuweichen, wie sie durch die beigefügten Ansprüche abgegrenzt ist.

Claims (18)

1. Sprachcodierer, enthaltend:
eine Fourier-Transformationseinrichtung (28) zur Ausführung einer diskreten Fourier-Transformation eines ankommenden Sprachsignals zur Erzeugung eines diskreten Transformationsspektrums von Koeffizienten;
eine Normierungseinrichtung (30) zum Modifizieren des Transformationsspektrums zur Erzeugung eines normierten, flacheren Spektrums und zum Codieren einer Funktion, durch die das diskrete Spektrum modifiziert wird; und
eine Einrichtung (30) zum Codieren wenigstens eines Teils des Spektrums, dadurch gekennzeichnet, daß
die Normierungseinrichtung (30) eine Einrichtung (44) zum Definieren der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und zum Codieren der definierten Einhüllenden eines jedes Unterbandes von Koeffizienten und Einrichtungen zum Skalieren jedes Spektrumkoeffizienten relativ zur definierten Einhüllenden des betreffenden Unterbandes von Koeffizienten aufweist; und
die Einrichtung (30) zum Codieren, die die skalierten Spektrumkoeffizienten innerhalb jedes Unterbandes in eine Anzahl von Bits codiert, die durch die definierte Einhüllende des Unterbandes bestimmt wird.
2. Sprachcodiersystem nach Anspruch 1, bei der die Anzahl von Bits, die für mehrere Unterbänder bestimmt wird, gleich Null ist, so daß die skalierten Koeffizienten für jene Unterbänder nicht übertragen werden.
3. Sprachcodiersystem nach Anspruch 2, bei dem die Skalierkoeffizienten verschiedener Unterbänder in verschiedene Anzahlen von Bits codiert werden, die von Null verschieden sind.
4. Sprachcodiersystem nach Anspruch 2, bei dem die codierte Sprache durch Wiederholung von Unterbändern übertragener Koeffizienten als Ersatz für Unterbänder nicht-übertragener Koeffizienten decodiert wird, wobei die übertragenen Koeffizienten derart wiederholt werden, daß das übertragene nte Unterband als das nicht-übertragene n-te Unterband wiederholt wird.
5. Sprachcodiersystem nach Anspruch 1, bei dem die Koeffizienten unterschiedlicher Unterbänder in verschiedene Anzahlen von Bits codiert werden, die ungleich Null sind.
6. Sprachcodiersystem nach Anspruch 1, bei dem die Einrichtungen (30) zum Codieren die skalierten Koeffizienten von weniger als allen Unterbändern codieren, wobei die codierten skalierten Koeffizienten jene sind, die den definierten Einhüllenden größerer Amplitude entsprechen, wobei die skalierten Koeffizienten von Unterbändern, die den definierten Einhüllenden größter Amplituden entsprechen, in mehr Bits codiert werden als die Koeffizienten von Unterbändern, die den definierten Einhüllenden kleinerer Amplituden entsprechen.
7. Sprachcodiersystem nach Anspruch 6, bei dem die codierte Sprache durch Wiederholen von Unterbändern übertragener Koeffizienten als Ersatz für Unterbänder nicht-übertragener Koeffizienten decodiert werden, wobei die übertragenen Koeffizienten derart wiederholt werden, daß das übertragene nte Unterband als das nicht-übertragene n-te Unterband wiederholt wird.
8. Sprachcodiersystem nach Anspruch 6, bei dem die Transformatinseinrichtung (28) eine diskrete Fouriertransformation ausführt.
9. Sprachcodiersystem nach Anspruch 1, bei dem die Normierungseinrichtung enthält:
eine Einrichtung (44) zur Bestimmung der maximalen Amplitude des diskreten Spektrums innerhalb jedes an mehreren Bereichen des Spektrums; und
eine Einrichtung zum digitalen Codieren der maximalen Amplitude jedes Bereichs; und
eine Einrichtung (45) zum Skalieren jedes Koeffizienten des diskreten Spektrums in jedem Bereich auf die maximale Amplitude eines jeden Bereiches zur Erzeugung eines ersten Satzes normierter Koeffizienten.
10. Sprachcodiersystem nach Anspruch 9, bei dem die Normierungseinrichtung weiterhin enthält:
Einrichtung zum Bestimmen der maximalen Amplitude des ersten Satzes normierter Ausgänge in jedem von mehreren Unterbereichen des Spektrums;
Einrichtung zum digitalen Codieren der maximalen Amplitude jedes Unterbereichs; und
Einrichtung zum Skalieren jedes Ausgangs des ersten Satzes normierter Ausgänge zur Maximalamplitude jedes Unterbereiches zur Erzeugung eines zweiten Satzes normierter Ausgänge.
11. Sprachcodierer nach Anspruch 10, bei dem jede der maximalen Amplituden logarithmisch codiert wird.
12. Sprachcodierer nach Anspruch 10, bei dem die maximale Amplitude für jeden von vier Bereichen entsprechend der ersten vier Formate bestimmt wird.
13. Sprachcodierer nach Anspruch 10, bei dem nur ein Basisband des normierten Spektrums codiert wird.
14. Verfahren zur Sprachcodierung, enthaltend:
Ausführen einer diskreten Fouriertransformation eines Sprachfensters zur Erzeugung eines diskreten Transformationsspektrums;
Erzeugen eines normierten Spektrums durch Definition wenigstens einer Kurve, die die Amplitude des diskreten Spektrums approximiert, digitales Codieren der definierten Kurve und Definition des diskreten Spektrums bezüglich der definierten Kurve; und
Codieren wenigstens eines Teils des normierten Spektrums, dadurch gekennzeichnet, daß
das normierte Spektrum durch Definition der approximierten Einhüllenden des diskreten Spektrums in jedem von mehreren Unterbändern von Koeffizienten und digitales Codieren der definierten Einhüllenden jedes Unterbandes von Koeffizienten und Skalieren jedes Koeffizienten bezüglich der definierten Amplitude des betreffenden Unterbandes von Koeffizienten erzeugt wird; und
die skalierten Koeffizienten innerhalb jedes Unterbandes in eine Anzahl von Bits codiert werden, die durch die definierte Einhüllende des Unterbandes bestimmt wird.
15. Verfahren nach Anspruch 14, bei dem die Anzahl von Bits, die für mehrere Unterbänder bestimmt wird, gleich Null ist, so daß die skalierten Koeffizienten für jene Unterbänder nicht übertragen werden.
16. Verfahren nach Anspruch 15, bei dem die skalierten Koeffizienten verschiedener Unterbänder in verschiedene Anzahlen von Bits codiert werden, die ungleich Null sind.
17. Verfahren nach Anspruch 15, bei dem die codierte Sprache durch Wiederholen von Unterbändern übertragener Koeffizienten als Ersatz für Unterbänder nicht-übertragener Koeffizienten decodiert wird, wobei die übertragenen Koeffizienten derart wiederholt werden, daß das übertragene n-te Unterband durch das nicht-übertragene n-te Unterband wiederholt wird.
18. Verfahren nach Anspruch 14, bei dem das normierte Spektrum erzeugt wird durch:
Bestimmen einer Maximalamplitude des diskreten Spektrums innerhalb jedes von mehreren Bereichen des Spektrums;
digitales Codieren der Maximalamplitude jedes Bereiches; und
Skalieren jedes Koeffizienten des diskreten Spektrums in jedem Bereich zur Maximalamplitude jedes Bereiches zur Erzeugung eines Satzes normierter Koeffizienten.
DE8686900480T 1984-12-20 1985-12-11 Anpassbares verfahren und vorrichtung fuer sprachkodierung. Expired - Lifetime DE3587251T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US68438284A 1984-12-20 1984-12-20
US06/798,174 US4790016A (en) 1985-11-14 1985-11-14 Adaptive method and apparatus for coding speech
PCT/US1985/002448 WO1986003872A1 (en) 1984-12-20 1985-12-11 Adaptive method and apparatus for coding speech

Publications (2)

Publication Number Publication Date
DE3587251D1 DE3587251D1 (de) 1993-05-13
DE3587251T2 true DE3587251T2 (de) 1993-07-15

Family

ID=27103309

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8686900480T Expired - Lifetime DE3587251T2 (de) 1984-12-20 1985-12-11 Anpassbares verfahren und vorrichtung fuer sprachkodierung.

Country Status (3)

Country Link
EP (1) EP0208712B1 (de)
DE (1) DE3587251T2 (de)
WO (1) WO1986003872A1 (de)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924060A (en) * 1986-08-29 1999-07-13 Brandenburg; Karl Heinz Digital coding process for transmission or storage of acoustical signals by transforming of scanning values into spectral coefficients
DE3629434C2 (de) * 1986-08-29 1994-07-28 Karlheinz Dipl Ing Brandenburg Digitales Codierverfahren
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
DE102004059979B4 (de) * 2004-12-13 2007-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals
US12002476B2 (en) 2010-07-19 2024-06-04 Dolby International Ab Processing of audio signals during high frequency reconstruction
BR112012024360B1 (pt) 2010-07-19 2020-11-03 Dolby International Ab sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5857758B2 (ja) * 1979-09-28 1983-12-21 株式会社日立製作所 音声ピッチ周期抽出装置
US4330689A (en) * 1980-01-28 1982-05-18 The United States Of America As Represented By The Secretary Of The Navy Multirate digital voice communication processor
DE3102822C2 (de) * 1981-01-28 1984-02-16 Siemens AG, 1000 Berlin und 8000 München Verfahren zur frequenzbandkomprimierten Sprachübertragung
US4535472A (en) * 1982-11-05 1985-08-13 At&T Bell Laboratories Adaptive bit allocator
US4667340A (en) * 1983-04-13 1987-05-19 Texas Instruments Incorporated Voice messaging system with pitch-congruent baseband coding
GB8421498D0 (en) * 1984-08-24 1984-09-26 British Telecomm Frequency domain speech coding

Also Published As

Publication number Publication date
EP0208712B1 (de) 1993-04-07
EP0208712A4 (de) 1988-01-28
DE3587251D1 (de) 1993-05-13
WO1986003872A1 (en) 1986-07-03
EP0208712A1 (de) 1987-01-21

Similar Documents

Publication Publication Date Title
DE69125909T2 (de) Verfahren und Einrichtung zur Transformationskodierung mit Teilbandanregung und dynamischer Bitzordnung
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE69133458T2 (de) Verfahren zur Sprachquantisierung und Fehlerkorrektur
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
EP2022043B1 (de) Informationssignalcodierung
US4790016A (en) Adaptive method and apparatus for coding speech
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
US4914701A (en) Method and apparatus for encoding speech
DE60207061T2 (de) Audiokompression
DE60319590T2 (de) Verfahren zur codierung und decodierung von audio mit variabler rate
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE602004003610T2 (de) Halbrätiger Vocoder
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE69620967T2 (de) Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69620560T2 (de) Kodierverfahren eines Sprach- oder Musiksignals mittels Quantisierung harmonischer Komponenten sowie im Anschluss daran Quantisierung der Residuen
DE60017825T2 (de) Verfahren und Vorrichtung zur Kodierung und Dekodierung von Audiosignalen und Aufzeichnungsträger mit Programmen dafür
DE69708191T2 (de) Vorrichtung zur Signalkodierung
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE60124079T2 (de) Sprachverarbeitung
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE60102975T2 (de) Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
DE69720527T2 (de) Verfahren zur kodierung eines sprachsignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: VERIZON LABORATORIES INC., WILMINGTON, DEL., US