[go: up one dir, main page]

DE60027573T2 - Quantisierung der spektralen amplitude in einem sprachkodierer - Google Patents

Quantisierung der spektralen amplitude in einem sprachkodierer Download PDF

Info

Publication number
DE60027573T2
DE60027573T2 DE60027573T DE60027573T DE60027573T2 DE 60027573 T2 DE60027573 T2 DE 60027573T2 DE 60027573 T DE60027573 T DE 60027573T DE 60027573 T DE60027573 T DE 60027573T DE 60027573 T2 DE60027573 T2 DE 60027573T2
Authority
DE
Germany
Prior art keywords
vector
speech
spectral information
speech coder
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60027573T
Other languages
English (en)
Other versions
DE60027573D1 (de
Inventor
Lun Eddie San Diego CHOY
Sharath Vijayanagar Bangalore MANJUNATH
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of DE60027573D1 publication Critical patent/DE60027573D1/de
Publication of DE60027573T2 publication Critical patent/DE60027573T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Interface Circuits In Exchanges (AREA)
  • Spectrometry And Color Measurement (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Description

  • Hintergrund der Erfindung
  • I. Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft im Allgemeinen das Gebiet von Sprachverarbeitung und insbesondere eine Parameterquantisierung in Sprachcodierern.
  • II. Hintergrund
  • Eine Übertragung von Sprache durch digitale Techniken ist mittlerweile weit verbreitet, insbesondere bei Fern- und digitalen Funktelefonanwendungen. Dies hat wiederum Interesse geweckt an der Bestimmung der geringsten Menge an Information, die über einen Kanal gesendet werden kann, während die wahrgenommene Qualität der rekonstruierten Sprache beibehalten wird. Wenn Sprache durch einfaches Abtasten und Digitalisieren übertragen wird, ist eine Datenrate in dem Bereich von vierundsechzig Kilobits pro Sekunde (kbps) erforderlich, um eine Sprachqualität eines herkömmlichen analogen Telefons zu erzielen. Durch die Verwendung von Sprachanalyse jedoch, gefolgt von der geeigneten Codierung, Übertragung und Resynthese an dem Empfänger, kann eine signifikante Reduzierung der Datenrate erzielt werden.
  • Vorrichtungen zur Komprimierung von Sprache finden eine Verwendung in vielen Bereichen der Telekommunikation. Ein beispielhafter Bereich ist die drahtlose Kommunikation. Der Bereich der drahtlosen Kommunikation hat viele Anwendungen, einschließlich zum Beispiel schnurlose Telefone, Paging, drahtlose Teilnehmeranschlussleitungen, drahtloses Fernsprechwesen, wie zellulare und PCS-Telefonsysteme, ein mobiles Internetprotokoll(IP)-Fernsprechwesen und Satellitenkommunikationssysteme. Eine besonders wichtige Anwendung ist das drahtlose Fernsprechwesen für mobile Teilnehmer.
  • Es wurden verschiedene über-die-Luft-Schnittstellen für drahtlose Kommunikationssysteme entwickelt, einschließlich zum Beispiel FDMA (frequency division multiple access), TDMA (time division multiple access) und CDMA (code division multiple access). In Verbindung damit wurden verschiedene inländische und internationale Standards aufgebaut, einschließlich zum Beispiel AMPS (Advanced Mobile Phone Service), GSM (Global System for Mobile Communications) und Interim-Standard 95 (IS-95). Ein beispielhaftes drahtloses Telefonkommunikationssystem ist ein CDMA(code division multiple access)-System. Der IS-95-Standard und seine Derivate, IS-95A, ANSI JSTD-008, IS-95B, die vorgeschlagenen Standards der dritten Generation IS-95C und IS-2000, usw. (hier kollektiv als IS-95 bezeichnet) werden von der TIA (Telecommunication Industry Association) und anderen weithin bekannten Standardinstitutionen veröffentlicht, um die Verwendung einer CDMA-über-die-Luft-Schnittstelle für zellulare oder PCS-Telefonkommunikationssysteme zu spezifizieren. Beispielhafte drahtlose Kommunikationssysteme, die im Wesentlichen gemäß der Verwendung des IS-95-Standards konfiguriert sind, werden beschrieben in U.S.-Patent Nr. 5,103,459 und 4,901,307, die der Anmelderin der vorliegenden Erfindung erteilt wurden.
  • Vorrichtungen, die Techniken einsetzen, um Sprache durch Extrahieren von Parametern zu komprimieren, die einem Modell einer menschlichen Spracherzeugung entsprechen, werden als Sprachcodierer bezeichnet. Ein Sprachcodierer teilt das eingehende Sprachsignal in zeitliche Blöcke oder Analyserahmen. Sprachcodierer weisen typischerweise einen Codierer und einen Decodierer auf. Der Codierer analysiert den eingehenden Sprachrahmen, um bestimmte relevante Parameter zu extrahieren, und quantisiert dann die Parameter in eine binäre Darstellung, d.h. in einen Satz von Bits oder ein binäres Datenpaket. Die Datenpakete werden über den Kommunikationskanal an einen Empfänger und einen Decodierer übertragen. Der Decodierer verarbeitet die Datenpakete, dequantisiert sie, um die Parameter zu erzeu gen, und resynthetisiert die Sprachrahmen unter Verwendung der dequantisierten Parameter.
  • Die Funktion des Sprachcodierers liegt darin, das digitalisierte Sprachsignal in ein Signal geringer Bitrate durch Entfernen aller in der Sprache inhärenten natürlichen Redundanzen zu komprimieren. Die digitale Komprimierung wird erreicht durch Darstellen des Eingangssprachrahmens mit einem Satz von Parametern und durch Einsatz einer Quantisierung, um die Parameter mit einem Satz von Bits darzustellen. Wenn der Eingangssprachrahmen eine Anzahl Ni von Bits aufweist und das von dem Sprachcodierer erzeugte Datenpaket eine Anzahl No von Bits aufweist, beträgt der von dem Sprachcodierer erzielte Komprimierungsfaktor Cr = Ni/No. Die Herausforderung liegt darin, eine hohe Sprachqualität der decodierten Sprache während einer Erzielung des Soll-Komprimierungsfaktors beizubehalten. Die Leistung eines Sprachcodierers hängt ab davon, (1) wie gut das Sprachmodell oder die Kombination des oben beschriebenen Analyse- und Synthesevorgangs arbeitet, und (2) wie gut der Parameterquantisierungsvorgang bei der Soll-Bitrate von No Bits pro Rahmen durchgeführt wird. Das Ziel des Sprachmodells ist somit, die Essenz des Sprachsignals oder die Soll-Sprachqualität mit einem kleinen Satz von Parametern für jeden Rahmen zu erfassen.
  • Vielleicht am wichtigsten bei der Gestaltung eines Sprachcodierers ist die Suche nach einem guten Satz von Parametern (einschließlich Vektoren), um das Sprachsignal zu beschreiben. Ein guter Satz von Parametern erfordert eine geringe Systembandbreite für die Rekonstruktion eines wahrnehmbar genauen Sprachsignals. Pitch, Signalleistung, spektrale Hülle (oder Formanten), Amplitude-Spektren und Phasen-Spektren sind Beispiele der Sprachcodierparameter.
  • Sprachcodierer können als Zeitbereichs-Codierer implementiert werden, die versuchen, die Zeitbereichs-Sprachwellenform zu erfassen durch Einsatz einer Verarbeitung mit hoher Zeitauflösung, um jeweils kleine Segmente von Sprache (typischerweise 5 Millisekunden (ms) Teilrahmen) zu codieren. Für jeden Teilrahmen wird ein hochgenauer Repräsentant aus einem Codebuchraum mittels verschiedener in der Technik bekannter Suchalgorithmen gefunden. Alternativ können Sprachcodierer als Frequenzbereichs-Codierer implementiert werden, die versuchen, das Kurzzeit-Sprachspektrum des Eingangssprachrahmens mit einem Satz von Parametern zu erfassen (Analyse), und einen entsprechenden Syntheseprozess einsetzen, um die Sprachwellenform aus den spektralen Parametern wiederherzustellen. Der Parameter-Quantisierer erhält die Parameter, indem er sie durch gespeicherte Darstellungen von Code-Vektoren gemäß bekannten Quantisierungstechniken darstellt, die von A. Gersho & R. M. Gray in „Vector Quantization and Signal Compression" (1992) beschrieben werden.
  • Ein weithin bekannter Zeitbereichs-Sprachcodierer ist der CELP(Code Excited Linear Predictive)-Codierer, der von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben wird. In einem CELP-Codierer werden die Kurzzeit-Korrelationen oder Redundanzen in dem Sprachsignal von einer LP(linear prediction)-Analyse entfernt, welche die Koeffizienten eines Kurzzeit-Formant-Filters findet. Ein Anwenden des Kurzzeit-Voraussage(prediction)-Filters auf den eingehenden Sprachrahmen erzeugt ein LP-Restsignal, das weiter mit Langzeit-Voraussage(bzw. Vorhersage)-Filter-Parametern und einem nachfolgenden stochastischem Codebuch modelliert und quantisiert wird. Somit teilt eine CELP-Codierung die Aufgabe einer Codierung der Zeitbereichs-Sprachwellenform in die getrennten Aufgaben einer Codierung der LP-Kurzzeit-Filter-Koeffizienten und einer Codierung des LP-Rests. Eine Zeitbereichs-Codierung kann mit einer festen Rate (d.h. unter Verwendung derselben Anzahl von Bits, No, für jeden Rahmen) oder mit einer variablen Rate (in der unterschiedliche Bitraten für unterschiedliche Typen von Rahmeninhalten verwendet werden) durchgeführt werden. Codierer mit variabler Rate versuchen, nur die Menge von Bits zu verwenden, die erforderlich ist, um die Codec-Parameter auf einen Level zu codieren, der ausreichend ist, um eine Soll-Qualität zu erhalten. Ein beispielhafter CELP-Codierer mit variabler Rate wird in dem U.S.-Patent Nr. 5,414,796 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde.
  • Zeitbereichs-Codierer, wie der CELP-Codierer, stützen sich typischerweise auf eine hohe Anzahl von Bits, No, pro Rahmen, um die Genauigkeit der Zeitbereichs-Sprachwellenform zu bewahren. Derartige Codierer liefern typischerweise eine exzellente Sprachqualität, vorausgesetzt, die Anzahl von Bits, No, pro Rahmen ist relativ groß (z.B. 8 kbps oder höher). Bei niedrigen Bitraten (4 kbps und darunter) jedoch scheitern Zeitbereichs-Codierer aufgrund der begrenzten Anzahl von verfügbaren Bits, eine hohe Qualität und robuste Leistung aufrechtzuerhalten. Bei niedrigen Bitraten beschneidet (clips) der begrenzte Codebuchraum die Wellenformübereinstimmungs-Fähigkeit von herkömmlichen Zeitbereichs-Codierern, die so erfolgreich in kommerziellen Anwendungen mit höherer Rate eingesetzt werden. Demzufolge leiden trotz Verbesserungen mit der Zeit viele CELP-Codiersysteme, die bei niedrigen Bitraten arbeiten, unter einer wahrnehmbar signifikanten Verzerrung, die typischerweise als Rauschen charakterisiert wird.
  • Momentan gibt es einen Anstieg eines Forschungsinteresses und eine hohe kommerzielle Notwendigkeit, einen hochwertigen Sprachcodierer zu entwickeln, der bei mittleren bis geringen Bitraten arbeitet (d.h. in dem Bereich von 2.4 bis 4 kbps und darunter). Die Anwendungsgebiete umfassen ein drahtloses Fernsprechwesen, Satellitenkommunikation, Internettelephonie, verschiedene Multimedia- und Sprach-Streaming-Anwendungen, Voice-Mail und andere Sprachspeichersysteme. Die treibenden Kräfte sind die Notwendigkeit einer hohen Kapazität und die Nachfrage nach robuster Leistung in Paketverlustsituationen. Verschiedene Sprachcodier-Standardisierungsversuche der letzten Zeit sind eine weitere direkte Antriebskraft, die Forschung und Entwicklung von Sprachcodieralgorithmen niedriger Rate antreiben. Ein Sprachcodierer mit niedriger Rate ergibt mehr Kanäle oder Benutzer pro zulässiger Anwendungsbandbreite und ein Sprachcodierer niedriger Rate verbunden mit einer zusätzlichen Ebene einer geeigneten Kanalcodie rung kann für das gesamte Bit-Budget von Codierer-Spezifikationen geeignet sein und eine robuste Leistung unter Kanalfehlerbedingungen liefern.
  • Eine erfolgreiche Technik, um Sprache effizient bei niedrigen Bitraten zu codieren, ist eine Multimode-Codierung. Eine beispielhafte Multimode-Codierungstechnik wird in dem U.S.-Patent Nr. 6,691,084 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde. Herkömmliche Multimode-Codierer wenden unterschiedliche Modi oder Codierungs-Decodierungs-Algorithmen auf unterschiedliche Typen von Eingangssprachrahmen an. Jeder Modus oder Codierungs-Decodierungs-Prozess ist individuell angepasst, um optimal einen bestimmten Typ eines Sprachsegments, wie z.B. stimmhafte Sprache, stimmlose Sprache, Übergangssprache (z.B. zwischen stimmhaft und stimmlos) und Hintergrundrauschen (keine Sprache), auf die effizienteste Weise darzustellen. Ein externer Modus-Entscheidungsmechanismus ohne Rückkopplung (open-loop) untersucht den Eingangssprachrahmen und fällt eine Entscheidung hinsichtlich welcher Modus auf den Rahmen anzuwenden ist. Die Modus-Entscheidung ohne Rückkopplung wird typischerweise durch Extrahieren einer Anzahl von Parametern aus dem Eingangsrahmen, Evaluieren der Parameter, um zeitliche und spektrale Charakteristiken zu bestimmen, und Basieren einer Modus-Entscheidung auf der Evaluierung durchgeführt.
  • Codiersysteme, die mit Raten in dem Bereich von 2.4 kbps arbeiten, sind im Allgemeinen parametrisch. Das heißt, derartige Codiersysteme arbeiten durch Übertragung von Parametern, welche die Pitch-Periode und die spektrale Hülle (oder Formanten) des Sprachsignals in regelmäßigen Intervallen beschreiben. Das LP-Vocoder-System veranschaulicht zum Beispiel diese so genannten parametrischen Codierer.
  • LP-Vocoder modellieren ein stimmhaftes Sprachsignal mit einem einzelnen Puls pro Pitch-Periode. Diese grundlegende Technik kann erweitert werden, um unter anderem eine Übertragungsinformation über die spektrale Hülle zu umfassen. Obwohl LP-Vocoder im Allgemeinen eine vernünftige Leistung bieten, können sie eine wahrnehmbar signifikante Verzerrung einführen, typischerweise als Brummen bzw. Summen (buzz) charakterisiert.
  • In den letzten Jahren sind Codierer entstanden, die Hybriden aus sowohl Wellenformcodierern als auch parametrischen Codieren sind. Das Prototyp-Wellenform-Interpolations(PWI – prototype waveform interpolation)-Sprachcodiersystem veranschaulicht beispielsweise diese so genannten hybriden Codierer. Das PWI-Codiersystem kann auch als ein PPP(prototype pitch period)-Sprachcodierer bekannt sein. Ein PWI-Codiersystem liefert ein effizientes Verfahren zur Codierung stimmhafter Sprache. Das grundlegende Konzept von PWI liegt darin, einen repräsentativen Pitch-Zyklus (die Prototyp-Wellenform) in festen Abständen zu extrahieren, seine Beschreibung zu übertragen und das Sprachsignal durch eine Interpolation zwischen den Prototyp-Wellenformen zu rekonstruieren. Das PWI-Verfahren kann entweder auf dem LP-Rest-Signal oder auf dem Sprachsignal arbeiten. Ein beispielhafter PWI- oder PPP-Sprachcodierer wird indem U.S.-Patent Nr. 6,456,964 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde. Andere PWI- oder PPP-Sprachcodierer werden in dem U.S.-Patent Nr. 5,884,253, in W. Bastiaan Kleijn & Wolfgang Granzow in „Methods for Waveform Interpolation in Speech Coding" in 1 Digital Signal Processing, 215–230 (1991) und in EP-A-0 666 557 beschrieben.
  • Es ist weithin bekannt, dass eine in Sprache eingebettete spektrale Information von großer wahrnehmbarer Wichtigkeit ist, insbesondere in stimmhafter Sprache. Viele Sprachcodierer nach dem Stand der Technik, wie der PWI(prototype waveform interpolation)-Codierer oder der PPP(prototype pitch period)-Codierer, der MBE(multiband excitation)-Codierer und der STC(sinusoidal transform)-Codierer verwenden eine spektrale Größe als einen expliziten Codierparameter. Jedoch ist eine effiziente Codierung derartiger spektraler Information eine herausfordernde Aufgabe. Dies ist hauptsächlich so, da der spektrale Vektor, der üblicherweise durch einen Satz von harmonischen Amplituden dargestellt wird, eine Dimension hat, die proportional zu der geschätzten Pitch-Periode ist. Da der Pitch von Rahmen zu Rahmen variiert, variiert auch die Dimension des Amplitudenvektors. Somit ist ein VQ-Verfahren erforderlich, das Eingangsvektoren mit variabler Dimension handhabt, um einen Spektralvektor zu codieren. Noch existiert noch kein effektives VQ-Verfahren mit variabler Dimension (mit weniger Verbrauch von Bits und Speicher).
  • Wie für Fachleute offensichtlich ist, ist die Frequenzauflösung von menschlichen Ohren eine nichtlineare Funktion der Frequenz (z.B. Mel-Skala und Bark-Skala) und menschliche Ohren sind weniger empfindlich für spektrale Details bei höheren Frequenzen als bei niedrigeren Frequenzen. Es ist wünschenswert, dass ein derartiges Wissen hinsichtlich der menschlichen Wahrnehmung bei der Gestaltung eines effizienten Amplitudenquantisierers vollständig ausgeschöpft wird.
  • In herkömmlichen Sprachcodierern mit niedriger Bitrate können die Amplitude und die Phasenparameter für jeden Prototyp jedes Rahmens individuell quantisiert und übertragen werden. Als eine Alternative können die Parameter direkt Vektor-quantisiert werden, um die erforderliche Anzahl von Bits zu reduzieren, die notwendig sind, um die Parameter darzustellen. Es ist jedoch wünschenswert, die erforderliche Anzahl von Bits zur Quantisierung der Rahmenparameter weiter zu reduzieren. Es wäre somit vorteilhaft, ein effizientes Quantisierungsschema vorzusehen, um die Amplitudenspektren eines Sprachsignals oder eine Linearprädiktions-Restsignals wahrnehmbar darzustellen. Somit gibt es eine Notwendigkeit für einen Sprachcodierer, der Amplitudenspektren mit einem Bitstrom mit niedriger Rate effizient quantisiert, um eine Kanalkapazität zu verbessern.
  • Zusammenfassung der Erfindung
  • Die vorliegende Erfindung betrifft einen Sprachcodierer, der Amplitudenspektren mit einem Bitstrom mit niedriger Rate effizient quantisiert, um eine Kanalkapazität zu verbessern. Demgemäß umfasst in einem Aspekt der Erfindung ein Verfahren zur Quantisierung von Spektralinformation für einen Sprachcodierer vorteilhafterweise die Schritte Extrahieren eines Vektors mit Spektralinformation mit variabler Dimension aus einem Rahmen, wobei der Vektor einen Vektorenergiewert hat; Normalisieren des Vektors mit Spektralinformation, um einen normalisierten Vektor mit Spektralinformation zu erzeugen, wobei die Normalisierung aufweist ein getrenntes Normalisieren des Vektors in erste und zweite Sub-Bänder bzw. Teil-Bänder, um eine Komponente der Spektralinformation für jedes der Teilbänder zu bestimmen, Bestimmen eines Verstärkungsfaktors für jedes der Teilbänder und Multiplizieren jeder der Komponenten der Spektralinformation mit ihren jeweiligen Verstärkungsfaktoren; differenzielles Vektor-quantisieren der Verstärkungsfaktoren; nicht-gleichförmiges Dezimieren bzw. Heruntertasten (downsampling) des normalisierten Vektors mit Spektralinformation, um einen Vektor mit fester Dimension zu erzeugen, der eine Vielzahl von Elementen aufweist, die zu einer entsprechenden Vielzahl von nicht-gleichförmigen Frequenzbändern gehören; Aufteilen bzw. Splitten des Vektors mit fester Dimension in einen Teilvektor für jedes der Teilbänder; und differenzielles Quantisieren der Vielzahl von Teilvektoren.
  • In einem weiteren Aspekt der Erfindung umfasst ein Sprachcodierer vorteilhafterweise Mittel zum Extrahieren eines Vektors mit Spektralinformation mit variabler Dimension aus einem Rahmen, wobei der Vektor einen Vektorenergiewert hat; Mittel zum Normalisieren des Vektors mit Spektralinformation, um einen normalisierten Vektor mit Spektralinformation zu erzeugen, wobei das Mittel zur Normalisierung aufweist Mittel zum getrennten Normalisieren des Vektors in erste und zweite Teilbänder, um eine Komponente der Information für jedes der Teilbänder zu bestimmen, Mittel zum Bestimmen eines Verstärkungsfaktors für jedes der Teilbänder und Mittel zum Multiplizieren jede der Komponenten mit ihrem jeweiligen Verstärkungsfaktor; Mittel zum differenziellen Vektor-quantisieren der Vielzahl von Verstärkungsfaktoren; Mittel zum nicht-gleichförmigen Dezimieren bzw. Heruntertasten (downsampling) der Vielzahl von normalisierten Verstärkungsfaktoren, um einen Vektor mit fester Dimension zu erzeugen, der eine Vielzahl von Elementen aufweist, die zu einer entsprechenden Vielzahl von nicht-gleichförmigen Fre quenzbändern gehören; Mittel zum Aufteilen bzw. Splitten des Vektors mit fester Dimension in eine Vielzahl von Teilvektoren; und Mittel zum differenziellen Quantisieren der Vielzahl von Teilvektoren.
  • Vorzugsweise ist das Mittel zum Aufteilen betriebsfähig, den Vektor mit fester Dimension in einen Hochband-Teilvektor und einen Tiefband-Teilvektor zu teilen; und das Mittel zum differenziellen Quantisieren ist konfiguriert, den Hochband-Teilvektor und den Tiefband-Teilvektor differenziell zu quantisieren.
  • Kurze Beschreibung der Zeichnungen
  • 1 ist eine Blockdarstellung eines drahtlosen Telefonsystems.
  • 2 ist eine Blockdarstellung eines Kommunikationskanals, der an jedem Ende von Sprachcodierern begrenzt wird.
  • 3 ist eine Blockdarstellung eines Codierers.
  • 4 ist eine Blockdarstellung eines Decodierers.
  • 5 ist ein Ablaufdiagramm, das einen Sprachcodierentscheidungsprozess darstellt.
  • 6A ist ein Graph einer Sprachsignalamplitude gegenüber der Zeit, und 6B ist ein Graph einer LP(linear prediction)-Rest-Amplitude gegenüber der Zeit.
  • 7 ist eine Blockdarstellung eines Sprachcodierers mit einem Amplitudenspektrum als einen Codierparameter.
  • 8 ist eine Blockdarstellung eines Amplitudenquantisierungsmoduls, das in dem Sprachcodierer von 7 verwendet werden kann.
  • 9 ist eine Blockdarstellung eines Amplitudendequantisierungsmoduls, das in dem Sprachcodierer von 7 verwendet werden kann.
  • 10 zeigt eine nicht-gleichförmige Bandaufteilung, die von einer spektralen Heruntertastvorrichtung bzw. Downsampler in dem Amplitudenquantisierungsmodul von 8 oder von einer spektralen Aufwärtstastvorrichtung bzw. Upsampler in dem Amplituden-Upsampler von 9 durchgeführt werden kann.
  • 11A ist ein Graph eines Restsignalamplitudespektrums gegenüber der Frequenz, wobei die Frequenzachse gemäß der Einteilung von 9 eingeteilt ist, 11B ist ein Graph des Energie-normalisierten Spektrums von 11A und 11C ist ein Graph des nicht-gleichförmig heruntergetasteten und linear aufwärtsgetasteten Spektrums von 11B.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Die im Folgenden hier beschriebenen beispielhaften Ausführungsbeispiele befinden sich in einem drahtlosen Fernsprechkommunikationssystem, das konfiguriert ist, eine CDMA-über-die-Luft-Schnittstelle einzusetzen. Gleichwohl ist für Fachleute offensichtlich, dass ein Teil-Abtasten-Verfahren und eine Vorrichtung, die Merkmale der vorliegenden Erfindung aufweisen, sich in beliebigen verschiedenen Kommunikationssystemen befinden können, die einen weiten Bereich von Fachleuten bekannten Technologien einsetzen.
  • Wie in 1 dargestellt wird, umfasst ein drahtloses CDMA-Telefonsystem im Allgemeinen eine Vielzahl von mobilen Teilnehmereinheiten 10, eine Vielzahl von Basisstationen 12, Basisstation-Steuereinrichtungen (BSCs – base station controllers) 14 und eine mobile Vermittlungsstelle (MSC – mobile switching center) 16. Die MSC 16 ist konfiguriert, eine Schnittstelle mit einem herkömmlichen öffentlichen Telefonnetz (PSTN – public switch telephone network) 18 zu haben. Die MSC 16 ist auch konfiguriert, mit den BSCs 14 verbunden zu sein. Die BSCs 14 sind mit den Basisstationen 12 über Backhaul-Leitungen verbunden. Die Backhaul-Leitungen können konfiguriert sein, jede von mehreren bekannten Schnittstellen zu unterstützen, einschließlich zum Beispiel E1/T1, ATM, IP, PPP, Frame Relay, HDSL, ADSL oder xDSL. Es sollte angemerkt werden, dass es mehr als zwei BSCs 14 in dem System geben kann. Jede Basisstation 12 umfasst vorteilhafterweise zumindest einen Sektor (nicht gezeigt), wobei jeder Sektor eine omnidirektionale Antenne oder eine Antenne aufweist, die in eine bestimmte Richtung radial weg von der Basisstation 12 gerichtet ist. Alternativ kann jeder Sektor zwei Antennen für einen Diversity-Empfang aufweisen. Jede Basisstation 12 kann vorteilhafterweise gestaltet sein, eine Vielzahl von Frequenzzuteilungen zu unterstützen. Die Schnittstelle eines Sektors und einer Frequenzzuteilung kann als ein CDMA-Kanal bezeichnet werden. Die Basisstationen 12 können auch als Basisstation-Transceiver-Teilsysteme (BTSs – base station transceiver subsystems) 12 bekannt sein. Alternativ kann „Basisstation" in der Industrie verwendet werden, um kollektiv eine BSC 14 und ein oder mehrere BTSs 12 zu bezeichnen. Die BTSs 12 können auch als „Zellenstandorte" 12 bezeichnet werden. Alternativ können individuelle Sektoren eines bestimmten BTS 12 als Zellenstandorte bezeichnet werden. Die mobilen Teilnehmereinheiten 10 sind typischerweise zellulare oder PCS-Telefone 10. Das System ist vorteilhafterweise konfiguriert zur Verwendung gemäß dem IS-95-Standard.
  • Während eines typischen Betriebs des zellularen Telefonsystems empfangen die Basisstationen 12 Sätze von Rückwärtsverbindungssignalen von Sätzen von mobilen Einheiten 10. Die mobilen Einheiten 10 führen Telefonanrufe oder eine andere Kommunikation durch. Jedes von einer beliebigen Basisstation 12 empfangene Rückwärtsverbindungssignal wird in dieser Basisstation 12 verarbeitet. Die resultierenden Daten werden an die BSCs 14 weitergeleitet. Die BSCs 14 sehen eine Anrufressourcenzuteilung und eine Mobilitätsverwaltungsfunktionalität vor, einschließlich der Instrumentation von weichen Übergaben bzw. Handovers (handoffs) zwischen den Basisstationen 12. Die BSCs 14 leiten auch die empfangenen Daten an die MSC 16, die zusätzliche Routing-Dienste zur Verbindung mit dem PSTN 18 vorsieht. Ähnlich ist das PSTN 18 mit der MSC 16 verbunden und die MSC 16 ist mit den BSCs 14 verbunden, die wiederum die Basisstationen 12 steuern, um Sätze von Vorwärtsverbindungssignalen an Sätze von mobilen Einheiten 10 zu übertragen.
  • In 2 empfängt ein erster Codierer 100 digitalisierte Sprachabtastwerte s(n) und codiert die Abtastwerte s(n) zur Übertragung auf einem Übertragungsmittel 102 oder einem Kommunikationskanal 102 an einen ersten Decodierer 104. Der Decodierer 104 decodiert die codierten Sprachabtastwerte und synthetisiert ein Ausgabesprachsignal sSYNTH(n). Zur Übertragung in die entgegengesetzte Richtung codiert ein zweiter Codierer 106 digitalisierte Sprachabtastwerte s(n), die auf einem Kommunikationskanal 108 übertragen werden. Ein zweiter Decodierer 110 empfängt und decodiert die codierten Sprachabtastwerte und erzeugt ein synthetisiertes Ausgabesprachsignal sSYNTH(n).
  • Die Sprachabtastwerte s(n) stellen Sprachsignale dar, die gemäß verschiedenen in dem Stand der Technik bekannten Verfahren digitalisiert und quantisiert wurden, z.B. Pulscode-Modulation (PCM – pulse code modulation), kompandiertes μ-Gesetz (μ-law) oder A-Gesetz (A-law). Wie in der Technik bekannt ist, werden die Sprachabtastwerte s(n) in Rahmen von Eingangsdaten organisiert, wobei jeder Rahmen eine vorgegebene Anzahl von digitalisierten Sprachabtastwerten s(n) aufweist. In einem beispielhaften Ausführungsbeispiel wird eine Abtastrate von 8 kHz eingesetzt, wobei jeder 20-ms-Rahmen 160 Abtastwerte aufweist. In den im Folgenden beschriebenen Ausführungsbeispielen kann die Rate einer Datenübertragung vorteilhafterweise auf einer Rahmen-zu-Rahmen-Basis von 13.2 kbps (volle Rate) zu 6.2 kbps (halbe Rate) zu 2.6 kbps (viertel Rate) zu 1 kbps (achtel Rate) variiert werden. Ein Variieren der Datenübertragungsrate ist vorteilhaft, da niedrigere Bitraten selektiv für Rahmen eingesetzt werden können, die relativ wenig Sprachinformation enthalten. Wie für Fachleute offensichtlich ist, können andere Abtastraten, Rahmengrößen und Datenübertragungsraten verwendet werden.
  • Der erste Codierer 100 und der zweite Decodierer 110 weisen zusammen einen ersten Sprachcodierer oder Sprachcodec auf. Der Sprachcodierer kann in jeder Kommunikationsvorrichtung zur Übertragung von Sprachsignalen verwendet werden, einschließlich zum Beispiel die Teilnehmereinheiten, BTSs oder BSCs, die oben unter Bezugnahme auf 1 beschrieben werden. Ähnlich weisen der zweite Codierer 106 und der erste Decodierer 104 zusammen einen zweiten Sprachcodierer auf. Es ist Fachleuten bekannt, dass Sprachcodierer implementiert werden können mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gatter-Logik, einer Firmware oder einem herkömmlichen programmierbaren Softwaremodul und einem Mikroprozessor. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines beschreibbaren Speichermittels befinden. Alternativ kann jeder herkömmliche Prozessor, jede Steuereinrichtung oder Zustandsmaschine für den Mikroprozessor eingesetzt werden. Beispielhafte ASICs, die spezifisch für eine Sprachcodierung gestaltet sind, werden in den U.S.-Patenten Nr. 5,727,123 und 5,784,532 beschrieben, die beide der Anmelderin der vorliegenden Erfindung erteilt wurden.
  • In 3 umfasst ein Codierer 200, der in einem Sprachcodierer verwendet werden kann, ein Modus-Entscheidungs-Modul 202, ein Pitch-Schätz-Modul 204, ein LP-Analyse-Modul 206, einen LP-Analyse-Filter 208, ein LP-Quantisierungs-Modul 210 und ein Rest-Quantisierungs-Modul 212. Eingangssprachrahmen s(n) werden an das Modus-Entscheidungs-Modul 202, das Pitch-Schätz-Modul 204, das LP-Analyse-Modul 206 und den LP-Analyse-Filter 208 geliefert. Das Modus-Entscheidungs-Modul 202 erzeugt einen Modusindex IM und einen Modus M basierend auf der Periodizität, der Energie, des Rauschabstands (SNR – signal-to-noise ratio) oder einer Nulldurchgangsrate, unter anderen Merkmalen, jedes Eingangssprachrahmens s(n). Verschiedene Verfahren einer Klassifizierung von Sprachrahmen gemäß einer Periodizität werden in dem U.S.-Patent Nr. 5,911,128 beschrieben, das der Anmelderin der vorliegenden Erfindung erteilt wurde. Derartige Verfahren sind auch in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten. Ein beispielhaftes Modus-Entscheidungs-Schema wird auch in dem oben erwähnten U.S.-Patent Nr. 6,691,084 beschrieben.
  • Das Pitch-Schätz-Modul 204 erzeugt einen Pitch-Index Ip und einen Verzögerungs(lag)wert P0 basierend auf jedem Eingangssprachrahmen s(n). Das LP-Analyse-Modul 206 führt eine Lineare-Prädiktions-Analyse auf jedem Eingangssprachrahmen s(n) durch, um einen LP-Parameter α zu erzeugen. Der LP-Parameter α wird an das LP-Quantisierungs-Modul 210 geliefert. Das LP-Quantisierungs-Modul 210 empfängt auch den Modus M, wodurch es den Quantisierungsprozess auf eine Modus-abhängige Weise durchführt. Das LP-Quantisierungs-Modul 210 erzeugt einen LP-Index ILP und einen quantisierten LP-Parameter α ^. Der LP-Analyse-Filter 208 empfängt den quantisierten LP-Parameter α ^ zusätzlich zu dem Eingangssprachrahmen s(n). Der LP-Analyse-Filter 208 erzeugt ein LP-Rest-Signal R[n], das den Fehler zwischen den Eingangssprachrahmen s(n) und der rekonstruierten Sprache basierend auf den quantisierten LP-Parametern α ^ darstellt. Der LP-Rest R[n], der Modus M und der quantisierte LP-Parameter α ^ werden an das Rest-Quantisierungs-Modul 212 geliefert. Basierend auf diesen Werten erzeugt das Rest-Quantisierungs-Modul 212 einen Rest-Index IR und ein quantisiertes Rest-Signal R ^[n].
  • In 4 umfasst ein Decodierer 300, der in einem Sprachcodierer verwendet werden kann, ein LP-Parameter-Decodierungs-Modul 302, ein Rest-Decodierungs-Modul 304, ein Modus-Decodierungs-Modul 306 und einen LP-Synthese-Filter 308. Das Modus-Decodierungs-Modul 306 empfängt und decodiert einen Modus-Index IM, aus dem es einen Modus M erzeugt. Das LP-Parameter-Decodierungs-Modul 302 empfängt den Modus M und einen LP-Index ILP. Das LP-Parameter-Decodierungs-Modul 302 decodiert die empfangenen Werte, um einen quantisierten LP-Parameter α ^ zu erzeugen. Das Rest-Decodierungs-Modul 304 empfängt einen Rest-Index IR, einen Pitch-Index IP und den Modus-Index IM. Das Rest-Decodierungs-Modul 304 decodiert die empfangenen Werte, um ein quantisiertes Rest-Signal R ^[n] zu erzeugen. Das quantisierte Rest-Signal R ^[n] und der quantisierte LP-Parameter α ^ werden an den LP-Synthese-Filter 308 geliefert, der daraus ein decodiertes Sprachsignal ŝ[n] synthetisiert.
  • Betrieb und Implementierung der verschiedenen Module des Codierers 200 von 3 und des Decodiertes 300 von 4 sind in der Technik bekannt und werden in dem oben erwähnten U.S.-Patent Nr. 5,414,796 und von L. B. Rabiner & R. W. Schafer in „Digital Processing of Speech Signals", 396–453, (1978) beschrieben.
  • Wie in dem Ablaufdiagramm von 5 dargestellt wird, folgt ein Sprachcodierer gemäß einem Ausführungsbeispiel bei der Verarbeitung von Sprachabtastwerten zur Übertragung einer Reihe von Schritten. In Schritt 400 empfängt der Sprachcodierer digitale Abtastwerte eines Sprachsignals in aufeinander folgenden Rahmen. Bei Empfang eines bestimmten Rahmens geht der Sprachcodierer zu Schritt 402 weiter. In Schritt 402 erfasst der Sprachcodierer die Energie des Rahmens. Die Energie ist ein Maß der Sprachaktivität des Rahmens. Eine Spracherfassung wird durchgeführt durch Summieren der Quadrate der Amplituden der digitalisierten Sprachabtastwerte und Vergleichen der resultierenden Energie mit einem Schwellenwert. In einem Ausführungsbeispiel passt sich der Schwellenwert basierend auf dem sich ändernden Pegel von Hintergrundrauschen an. Ein beispielhafter Detektor einer Sprachaktivität mit variabler Schwelle wird in dem oben erwähnten U.S.-Patent Nr. 5,414,796 beschrieben. Einige stimmlose Sprachlaute können Abtastwerte mit extrem niedriger Energie sein, die irrtümlicherweise als Hintergrundrauschen codiert werden. Um dies zu verhindern, kann die spektrale Neigung (spectral tilt) von Abtastwerten mit niedriger Energie verwendet werden, um die stimmlose Sprache von einem Hintergrundrauschen zu un terscheiden, wie in dem oben erwähnten U.S.-Patent Nr. 5,414,796 beschrieben wird.
  • Nach der Erfassung bzw. Detektierung der Energie des Rahmens geht der Sprachcodierer zu Schritt 404 weiter. In Schritt 404 bestimmt der Sprachcodierer, ob die erfasste Rahmenenergie ausreichend ist, um den Rahmen als eine Sprachinformation enthaltend zu klassifizieren. Wenn die erfasste Rahmenenergie unter einen vordefinierten Schwellenpegel fällt, geht der Sprachcodierer zu Schritt 406. In Schritt 406 codiert der Sprachcodierer den Rahmen als Hintergrundrauschen (d.h. keine Sprache oder Schweigen). In einem Ausführungsbeispiel wird der Rahmen des Hintergrundrauschens mit einer 1/8-Rate oder 1 kbps codiert. Wenn in Schritt 404 die erfasste Rahmenenergie den vordefinierten Schwellenpegel erreicht oder übersteigt, wird der Rahmen als Sprache klassifiziert und der Sprachcodierer geht zu Schritt 408.
  • In Schritt 408 bestimmt der Sprachcodierer, ob der Rahmen eine stimmlose Sprache ist, d.h. der Sprachcodierer untersucht die Periodizität des Rahmens. Verschiedene bekannte Verfahren einer Periodizitätsbestimmung umfassen z.B. die Verwendung von Nulldurchgängen und die Verwendung von normalisierten Autokorrelationsfunktionen (NACFs – normalized autocorrelation functions). Insbesondere wird die Verwendung von Nulldurchgängen und NACFs zur Erfassung von Periodizität in dem oben erwähnten U.S.-Patent Nr. 5,911,128 und in U.S.-Patent Nr. 6,691,084 beschrieben. Zusätzlich sind die obigen Verfahren, die verwendet werden, um stimmhafte Sprache von stimmloser Sprache zu unterscheiden, in den „Telecommunication Industry Association Industry Interim Standards" TIA/EIA IS-127 und TIA/EIA IS-733 enthalten. Wenn in Schritt 408 bestimmt wird, dass der Rahmen eine stimmlose Sprache ist, geht der Sprachcodierer zu Schritt 410. In Schritt 410 codiert der Sprachcodierer den Rahmen als stimmlose Sprache. In einem Ausführungsbeispiel werden stimmlose Sprachrahmen mit einer viertel Rate oder 2.6 kbps codiert. Wenn in Schritt 408 der Rahmen nicht als stimmlose Sprache bestimmt wird, geht der Sprachcodierer zu Schritt 412 weiter.
  • In Schritt 412 bestimmt der Sprachcodierer unter Verwendung von Periodizitätserfassungsverfahren, die in der Technik bekannt sind, wie z.B. in dem oben erwähnten U.S.-Patent 5,911,128 beschrieben wird, ob der Rahmen eine Übergangssprache ist. Wenn bestimmt wird, dass der Rahmen eine Übergangssprache ist, geht der Sprachcodierer zu Schritt 414. In Schritt 414 wird der Rahmen als eine Übergangssprache (d.h. ein Übergang von stimmloser Sprache zu stimmhafter Sprache) codiert. In einem Ausführungsbeispiel wird der Übergangssprachrahmen gemäß einem Mehrfachpuls-Interpolations-Codierungsverfahren codiert, das in dem U.S.-Patent Nr. 6,260,017 beschrieben wird und der Anmelderin der vorliegenden Erfindung erteilt wurde. In einem weiteren Ausführungsbeispiel wird der Übergangssprachrahmen mit einer vollen Rate oder 13.2 kbps codiert.
  • Wenn in Schritt 412 der Sprachcodierer bestimmt, dass der Rahmen keine Übergangssprache ist, geht der Sprachcodierer zu Schritt 416 weiter. In Schritt 416 codiert der Sprachcodierer den Rahmen als stimmhafte Sprache. In einem Ausführungsbeispiel können stimmhafte Sprachrahmen mit halber Rate oder 6.2 kbps codiert werden. Es ist auch möglich, stimmhafte Sprachrahmen mit voller Rate oder 13.2 kbps (oder volle Rate, 8 kbps in einem 8k-CELP-Codierer) zu codieren. Für Fachleute ist jedoch offensichtlich, dass eine Codierung von stimmhaften Rahmen mit halber Rate dem Codierer ermöglicht, wertvolle Bandbreite zu sparen durch Ausnutzen des Merkmals eines stabilen Zustands von stimmhaften Rahmen. Ferner wird, ungeachtet der verwendeten Rate zur Codierung der stimmhaften Sprache, die stimmhafte Sprache vorteilhafterweise unter Verwendung von Information von früheren Rahmen codiert und wird somit als prädiktiv codiert bezeichnet.
  • Fachleute werden verstehen, dass entweder das Sprachsignal oder der entsprechende LP-Rest durch Folgen der in 5 gezeigten Schritte codiert werden kann. Die Wellenform-Charakteristiken von Rauschen, stimmloser Sprache, Übergangssprache und stimmhafter Sprache können als eine Funktion der Zeit in dem Graph von 6A betrachtet werden. Die Wellen form-Charakteristiken von Rauschen, stimmloser Sprache, Übergangssprache und stimmhaftem LP-Rest können als eine Funktion der Zeit in dem Graph von 6B betrachtet werden.
  • In einem Ausführungsbeispiel umfasst ein Sprachcodierer einen sendenden oder Codierungs-Abschnitt und einen empfangenden oder Decodierungs-Abschnitt, wie in 7 gezeigt wird. Der Codierer-Abschnitt umfasst ein stimmhaft/stimmlos-Trennungsmodul 1101, einen Pitch/Spektral-Hülle-Quantisierer 1102, ein stimmlos-Quantisierungsmodul 1103, ein Amplitude- und Phasen-Extraktionsmodul 1104, ein Amplituden-Quantisierungsmodul 1105 und ein Phasen-Quantisierungsmodul 1106. Der Decodierer-Abschnitt umfasst ein Amplituden-Dequantisierungsmodul 1107, ein Phasen-Dequantisierungsmodul 1108, ein stimmlos-Dequantisierungs- und Synthese-Modul 1109, ein stimmhaft-Segment-Synthesemodul 1110, ein Sprache/Rest-Synthesemodul 1111 und einen Pitch/Spektral-Hülle-Deguantisierer 1112. Der Sprachcodierer kann vorteilhafterweise als Teil eines DSPs implementiert werden und kann sich zum Beispiel in einer Teilnehmereinheit oder Basisstation in einem PCS- oder zellularen Telefonsystem oder in einer Teilnehmereinheit oder einem Gateway in einem Satellitensystem befinden.
  • In dem Sprachcodierer von 7 wird ein Sprachsignal oder ein LP-Restsignal an den Eingang des stimmhaft/stimmlos-Trennungsmoduls 1101 geliefert, das vorteilhafterweise ein herkömmlicher stimmhaft/stimmlos-Klassifizierer ist. Ein derartiger Klassifizierer ist vorteilhaft, da sich die menschliche Wahrnehmung von stimmhafter und stimmloser Sprache beträchtlich unterscheidet. Insbesondere ist ein Großteil der Information, die in der stimmlosen Sprache eingebettet ist, wahrnehmbar irrelevant für menschliche Ohren. Als ein Ergebnis sollte das Amplitudenspektrum der stimmhaften und stimmlosen Segmente getrennt quantisiert werden, um eine maximale Codierungseffizienz zu erzielen. Es sollte angemerkt werden, dass, während die hier beschriebenen Ausführungsbeispiele die Quantisierung des stimmhaften Amplitudenspektrums betreffen, die Merkmale der vorliegenden Erfindung auch auf die Quantisierung von stimmloser Sprache angewendet werden können.
  • Der Pitch/Spektral-Hülle-Quantisierer 1102 berechnet den Pitch und die Spektral-Hülleninformation entsprechend herkömmlicher Techniken, wie die Techniken, die unter Bezugnahme auf die Elemente 204, 206 und 210 von 3 beschrieben werden, und überträgt die Information an den Decodierer. Der stimmlose Teil wird auf eine herkömmliche Weise jeweils in dem stimmlos-Quantisierungsmodul 1103 und dem stimmlos-Dequantisierungsmodul 1109 codiert und decodiert. Andererseits wird der stimmhafte Teil zuerst an das Amplitude- und Phasen-Extraktionsmodul 1104 zur Amplitude- und Phasen-Extraktion gesendet. Ein derartiges Extraktionsverfahren kann auf eine Vielzahl von herkömmlichen Arten erreicht werden, die Fachleuten bekannt sind. Zum Beispiel ist ein bestimmtes Verfahren einer Amplitude- und Phasen-Extraktion eine Prototyp-Wellenform-Interpolation, wie in dem U.S.-Patent Nr. 5,884,253 beschrieben wird. In diesem bestimmten Verfahren werden die Amplitude und die Phase in jedem Rahmen aus einer Prototyp-Wellenform extrahiert, die eine Länge einer Pitch-Periode hat. Andere Verfahren, wie die in dem MBE(multiband excitation)-Codierer und in dem harmonischen Sprachcodierer verwendeten, können ebenfalls von dem Amplitude- und Phasen-Extraktionsmodul 1104 eingesetzt werden. Das stimmhaft-Segment-Analysemodul 1110 führt vorteilhafterweise die umgekehrten Abläufe des Amplitude- und Phasen-Extraktionsmoduls 1104 aus.
  • Das Phasen-Quantisierungsmodul 1106 und das Phasen-Dequantisierungsmodul 1108 können vorteilhafterweise auf herkömmliche Weise implementiert werden. Die folgende Beschreibung unter Bezugnahme auf die 810 dient dazu, detaillierter das Amplituden-Quantisierungsmodul 1105 und das Amplituden-Dequantisierungsmodul 1107 zu beschreiben.
  • I. Energienormalisierung
  • Wie in 8 gezeigt, umfasst ein Amplituden-Quantisierungsmodul gemäß einem Ausführungsbeispiel einen Band-Energie-Normalisierer 1301, einen Leistungs-Differential-Quantisierer 1302, einen nicht-gleichförmigen spektralen Downsampler 1303, einen Tiefband-Amplitude-Differential-Quantisierer 1304, einen Hochband-Amplitude-Differential-Quantisierer 1305, einen Tiefband-Amplitude-Differential-Dequantisierer 1306, einen Hochband-Amplitude-Differential-Dequantisierer 1307, einen Leistungs-Differential-Dequantisierer 1308 und ein harmonisches Klon-Modul 1309 (zweimal gezeigt zum Zweck der Übersichtlichkeit in der Zeichnung). Vier Einheitsverzögerungselemente sind ebenfalls in dem Amplituden-Quantisierungsmodul enthalten. Wie in 9 gezeigt, umfasst ein Amplituden-Dequantisierungsmodul gemäß einem Ausführungsbeispiel einen Tiefband-Amplitude-Differential-Dequantisierer 1401, einen Hochband-Amplitude-Differential-Dequantisierer 1402, einen Spektralintegrator 1403, einen nicht-gleichförmigen spektralen Upsampler 1404, einen Band-Energie-Denormalisierer 1405, einen Leistungs-Differential-Dequantisierer 1406 und ein harmonisches Klon-Modul 1407 (zweimal gezeigt zum Zweck der Übersichtlichkeit in der Zeichnung). Vier Einheitsverzögerungselemente sind ebenfalls in dem Amplituden-Dequantisierungsmodul enthalten.
  • Der erste Schritt in dem Amplitudequantisierungsprozess ist das Bestimmen der Verstärkungsnormalisierungsfaktoren, die in dem Band-Energie-Normalisierer 1301 arbeiten. Typischerweise kann die Form der Amplitudenspektren in dem Tiefband-Amplitude-Differential-Quantisierer 1304 und dem Hochband-Amplitude-Differential-Quantisierer 1305 effizienter codiert werden, wenn die Amplitudenspektren zuerst normalisiert werden. In dem Band-Energie-Normalisierer 1301 wird die Energie-Normalisierung getrennt in dem Tiefband und dem Hochband durchgeführt. Die Beziehung zwischen einem nichtnormalisierten Spektrum (als {Ãk} bezeichnet) und einem normalisierten Spektrum (als {Ãk} bezeichnet) wird hinsichtlich zweier Verstärkungsfaktoren, α und β, ausgedrückt. Genauer,
    Figure 00220001
    wobei Ãk = αAk ∀ k ∊ K1 Ãk = βAk ∀ k ∊ K2
  • K1 stellt einen Satz von harmonischen Werten dar, die dem Tiefband entsprechen, und K2 stellt einen Satz von harmonischen Werten dar, die dem Hochband entsprechen. Die Grenze, die das Tiefband und das Hochband trennt, wird in dem illustrativen Ausführungsbeispiel bei 1104 Hz gewählt. (Wie hier im Folgenden beschrieben wird, entspricht dieser bestimmte Frequenzpunkt tatsächlich dem rechten Rand des Bands #11, wie in 10 gezeigt). Der Graph von 11B zeigt ein Beispiel des normalisierten Amplitudenspektrums. Das ursprüngliche Amplitudenspektrum wird in dem Graph von 11A gezeigt.
  • II. Nicht-gleichförmiges spektrales Downsampling
  • Das von dem Band-Energie-Normalisierer 1301 erzeugte normalisierte Spektrum {Ãk} wird an den nicht-gleichförmigen spektralen Downsampler 1303 geliefert, dessen Operation auf einem Satz von vorgegebenen nicht-gleichförmigen Bändern basiert, wie in 10 dargestellt. Es gibt vorteilhafterweise zweiundzwanzig nicht-gleichförmige Bänder (auch als Frequenz-Bins bekannt) in dem gesamten Frequenzbereich und die Bin-Ränder entsprechen festen Punkten auf der Frequenzskala (Hz). Es sollte angemerkt werden, dass die Größe der ersten acht Bänder vorteilhafterweise bei ungefähr fünfundneunzig Hz fest ist, während die Größen der verbleibenden Bänder logarithmisch mit der Frequenz zunehmen. Es sollte offensichtlich sein, dass die Anzahl der Bänder und die Bandgrößen nicht auf die hier beschriebenen Ausführungsbeispiele beschränkt werden müssen und verändert wer den können, ohne von den zugrunde liegenden Prinzipien der vorliegenden Erfindung abzuweichen.
  • Der Downsampling-Vorgang läuft wie folgt ab. Jede Harmonische {Ãk} wird zuerst einem Frequenz-Bin zugewiesen. Dann wird eine mittlere Größe der Harmonischen in jedem Bin berechnet. Das resultierende Spektrum wird ein Vektor von zweiundzwanzig spektralen Werten, als B(i) bezeichnet, i = 1, 2, ..., 22. Es sollte angemerkt werden, dass einige Bins leer sein können, insbesondere für kleine Verzögerungswerte. Die Anzahl von Harmonischen in einem Spektrum hängt von der Grundfrequenz ab. Der kleinste zulässige Pitch-Wert in typischen Sprachcodiersystemen wird vorteilhafterweise auf zwanzig gesetzt (unter Annahme einer Abtastfrequenz von acht kHz), was nur elf Harmonischen bzw. Oberschwingungen entspricht. Somit sind leere Bins unvermeidlich.
  • Um die Codebuch-Gestaltung und -Suche bei einem Vorhandensein von leeren Bins zu erleichtern, wird ein Parameter bestimmt, der als Bin-Gewichtung, W(i), i = 1, 2, ..., 22, bezeichnet wird, um die Positionen der leeren Bins zu verfolgen. Der Parameter W(i) wird vorteilhafterweise auf Null für leere Bins und auf eine Einheit für besetzte Bins gesetzt. Diese Bin-Gewichtungsinformation kann in herkömmlichen VQ-Routinen verwendet werden, um leere Bins während einer Codebuch-Suche und -Training zu entfernen bzw. verwerfen. Es sollte angemerkt werden, dass {W(i)} eine Funktion nur der Grundfrequenz ist. Somit muss keine Bin-Gewichtungsinformation an den Decodierer übertragen werden.
  • Der nicht-gleichförmige spektrale Downsampler 1303 dient zwei wichtigen Aufgaben. Erstens wird der Amplitudenvektor mit variabler Dimension in einen Vektor mit fester Dimension mit den entsprechenden Bin-Gewichtungen abgebildet. Somit können herkömmliche VQ-Techniken angewendet werden, um den heruntergetasteten Vektor zu quantisieren. Zweitens nützt der nicht-gleichförmige-Bin-Ansatz die Tatsache aus, dass ein menschliches Ohr eine Frequenzauflösung hat, die eine nichtlineare Funktion der Frequenzskala ist (ähnlich der Bark-Skala). Vieles der für die Wahrnehmung irrelevanten Information wird während des Downsampling-Vorgangs verworfen, um eine Codiereffizienz zu verbessern.
  • III. Quantisierung von Verstärkungsfaktoren
  • Wie in der Technik weithin bekannt ist, ist der Logarithmus der Signalleistung wahrnehmbar wichtiger als die Signalleistung selbst. Somit wird die Quantisierung der zwei Verstärkungsfaktoren α und β in der logarithmischen Domäne in einer differentiellen Weise durchgeführt. Aufgrund der Kanalfehler ist es vorteilhaft, eine geringe Menge an Verlust bzw. eine Leckage (leakage) in den Differentialquantisierer einzuführen. Somit können α und β von dem Leistungs-Differential-Quantisierer 1302 und dem Leistungs-Differential-Dequantisierer 1308 jeweils quantisiert und dequantisiert werden gemäß dem folgenden Ausdruck: [log(α ^N)log(β ^N)] = ρ[log(α ^N-1)log(β ^N-1)] + Q[log(αN) – ρlog(α ^N-1)log(βN) – ρlog(β ^N-1)]wobei N – 1 und N die Zeiten von zwei aufeinander folgend extrahierten Verstärkungsfaktoren bezeichnen und Q(·) stellt die Differentialquantisierungsoperation dar. Der Parameter ρ arbeitet als ein Verlustfaktor, um eine unendliche Ausbreitung von Kanalfehlern zu verhindern. In typischen Sprachcodiersystemen liegt der Wert ρ zwischen 0.6 und 0.99. Die oben gezeigte Gleichung veranschaulicht einen autoregressiven (AR) Vorgang. Ähnlich kann auch ein Schema mit gleitendem Durchschnitt (MA – moving average) angewendet werden, um eine Empfindlichkeit gegenüber Kanalfehlern zu reduzieren. Im Gegensatz zu dem AR-Vorgang wird die Fehlerausbreitung in einem MA-Schema von der nichtrekursiven Decodiererstruktur begrenzt.
  • Ein Codebuch der Größe vierundsechzig oder 128 ist ausreichend, um α und β mit exzellenter Qualität zu quantisieren. Der resultierende Codebuchindex Ipower wird an den Decodierer übertragen. Unter Bezugnahme auch auf 9 ist der Leistungs-Differential-Dequantisierer 1406 in dem Decodierer vorteilhafterweise identisch zu dem Leistungs-Differential-Dequantisierer 1308 in dem Codierer und der Band-Energie-Denormalisierer 1405 in dem Decodierer führt vorteilhafterweise die umkehrte Operation des Band-Energie-Normalisierers 1301 in dem Codierer durch.
  • III. Quantisierung der spektralen Form
  • Nachdem ein spektrales Downsampling von dem nicht-gleichförmigen spektralen Downsampler 1303 durchgeführt wurde, wird {B(i)} in zwei Sätze aufgeteilt, bevor es quantisiert wird. Das Tiefband {B(i = 1, 2, ..., 11)} wird an den Tiefband-Amplitude-Differential-Quantisierer 1304 geliefert. Das Hochband {B(i = 12, ..., 22)} wird an den Hochband-Amplitude-Differential-Quantisierer 1305 geliefert. Das Hochband und das Tiefband werden jeweils auf eine differentielle Weise quantisiert. Der Differentialvektor wird gemäß der folgenden Gleichung berechnet: ΔBN = BN – B ^N-1 wobei B ^N-1 die quantisierte Version des vorherigen Vektors darstellt. Wenn es eine Diskrepanz zwischen den beiden entsprechenden Gewichtungsvektoren gibt (d.h. WN ≠ WN-1, verursacht durch eine Verzögerungsdiskrepanz zwischen dem vorherigen und dem aktuellen Spektrum), kann das resultierende ΔBN fehlerhafte Werte enthalten, welche die Leistung des Quantisierers mindern würden. Wenn zum Beispiel die vorherige Verzögerung Lprev dreiundvierzig ist und die aktuelle Verzögerung Lcurr ist vierundvierzig, wären die entsprechende Gewichtungsvektoren, die gemäß dem in 10 gezeigten Zuweisungsschema berechnet werden: WN-1 = {0, 0, 1, 0, 1, 0, 1, 1, 0, 1, ...} WN = {0, 1, 0, 1, 0, 1, 0, 1, 0, 1, ...}
  • In diesem Fall würden fehlerhafte Werte auftreten bei i = 2, 4, 6 in ΔBN(i), wobei der folgende Boolesche Ausdruck wahr ist: WN(i) = 1 ∩ WN-1(i) = 0
  • Es sollte angemerkt werden, dass die andere Art einer fehlerhaften Übereinstimmung, WN(i) = 0 ∩ WN-1(i) = 1, die in diesem Beispiel bei i = 3, 5, 7 auftritt, die Quantisiererleistung nicht beeinträchtigen würde. Da diese Bins sowieso null Gewichtungen haben (d.h. WN(i) = 0), werden diese Bins bei den herkömmlichen gewichteten Suchverfahren automatisch ignoriert.
  • In einem Ausführungsbeispiel wird eine Technik, die als harmonisches Klonen bezeichnet wird, verwendet, um nicht-übereinstimmende Gewichtungsvektoren zu handhaben. Die harmonische Klontechnik modifiziert {B ^N-1} in {B ^'N-1 }, so dass alle leeren Bins in {B ^'N-1 } temporär von Harmonischen gefüllt sind, bevor ΔBN berechnet wird. Die Harmonischen bzw. Oberschwingungen werden von den Nachbarn der rechten Seite geklont, wenn Lprev < Lcurr. Die Harmonischen werden von den Nachbarn der linken Seite geklont, wenn Lprev > Lcurr. Der Harmonischen-Klonprozess wird von dem folgenden Beispiel veranschaulicht. Angenommen, {B ^N-1} hat spektrale Werte W, X, Y, Z, ... für die ersten nicht-leeren Bins. Unter Verwendung desselben Beispiels wie oben (Lprev = 43 und Lcurr = 44) kann {B ^'N-1 } berechnet werden durch Klonen von den Nachbarn der rechten Seite (da Lprev < Lcurr): Klone von rechts
    Figure 00260001
    wobei 0 ein leerer Bin bedeutet.
  • Wenn der Vektor BN BN = {0, A, 0, B, 0, C, 0, D, 0, ....}ist,
    dann ΔBN = {0, A-W, 0, B-X, 0, C-Y, 0, D-Z, 0, ....}
  • Harmonisches Klonen wird sowohl indem Codierer als auch dem Decodierer implementiert, insbesondere in den harmonischen Klon-Modulen 1309, 1407. Ähnlich zu dem Fall des Verstärkungsquantisierers 1302 kann ein Verlustfaktor ρ auf die spektrale Quantisierung angewendet werden, um eine unendliche Fehlerausbreitung bei Auftreten von Kanalfehlern zu verhindern. Zum Beispiel kann ΔBN erreicht werden durch ΔBN = BN – ρB ^'N-1
  • Um eine bessere Leistung zu erzielen, können der Tiefband-Amplitude-Differential-Quantisierer 1304 und der Hochband-Amplitude-Differential-Quantisierer 1305 auch eine spektrale Gewichtung bei der Berechnung des Fehlerkriteriums auf eine Weise einsetzen, die ähnlich ist zu der herkömmlich verwendeten Weise, um das Restsignal in einem CELP-Codierer zu quantisieren.
  • Die Indizes Iamp1 und Iamp2 sind die Tiefband- und Hochband-Codebuch-Indizes, die an den Decodierer übertragen werden. In einem bestimmten Ausführungsbeispiel erfordern die beiden Amplitude-Differential-Quantisierer 1304, 1305 eine Gesamtmenge von ungefähr zwölf Bits (600 bps), um eine Ausgabe mit Fernsprech-Qualität zu liefern.
  • In dem Decodierer tastet der nicht-gleichförmige spektrale Upsampler 1401 die zweiundzwanzig spektralen Werte auf ihre ursprünglichen Dimensionen hinauf (die Anzahl der Elemente in dem Vektor ändert sich auf zweiundzwanzig beim Heruntertasten bzw. downsampling und kehrt auf die ursprüngliche Anzahl zurück beim upsampling). Ohne die Berechnungskomplexität signifikant zu erhöhen, kann ein derartiges Upsampling von her kömmlichen linearen Interpolationstechniken ausgeführt werden. Die Graphen der 11A–C veranschaulichen ein aufwärtsgetastetes Spektrum. Es sollte angemerkt werden, dass der Tiefband-Amplitude-Differential-Dequantisierer 1401 und der Hochband-Amplitude-Differential-Dequantisierer 1402 in dem Decodierer vorteilhafterweise identisch sind zu ihren jeweiligen Gegenstücken in dem Codierer, dem Tiefband-Amplitude-Differential-Dequantisierer 1306 und dem Hochband-Amplitude-Differential-Dequantisierer 1307.
  • Die oben beschriebenen Ausführungsbeispiele entwickeln eine neue Amplitudenquantisierungstechnik, die sich die nicht-lineare Frequenzauflösung der menschlichen Ohren voll zunutze macht und gleichzeitig die Verwendung einer VQ mit variabler Dimension erleichtert. Eine Codiertechnik, die Merkmale der vorliegenden Erfindung aufnimmt, wurde erfolgreich auf ein PWI-Sprachcodiersystem angewendet, wobei eine so geringe Anzahl von achtzehn Bits/Rahmen (900 bps) erforderlich ist, um das Amplitudenspektrum einer Prototyp-Wellenform darzustellen, um eine Ausgabe mit Fernsprech-Qualität zu liefern (mit nicht-quantisierten Phasenspektren). Wie für Fachleute offensichtlich ist, kann eine Quantisierungstechnik, die Merkmale der vorliegenden Erfindung enthält, auf jede Form einer spektralen Information angewendet werden und muss nicht auf die Amplitudespektralinformation beschränkt sein. Wie für Fachleute weiter offensichtlich ist, sind die Prinzipien der vorliegenden Erfindung nicht auf PWI-Sprachcodiersysteme beschränkt, sondern können auch auf viele andere Sprachcodieralgorithmen mit einem Amplitudenspektrum als ein expliziter Codierungsparameter angewendet werden, wie z.B. MBE und STC.
  • Während eine Anzahl von spezifischen Ausführungsbeispielen hier gezeigt und beschrieben wurden, sollte angemerkt werden, dass diese Ausführungsbeispiele nur illustrativ sind für die vielen möglichen spezifischen Anordnungen, die bei der Anwendung der Prinzipien der vorliegenden Erfindung entwickelt werden können. Eine Vielzahl von verschiedenen anderen Anordnungen kann gemäß diesen Prinzipien von Fachleuten entwickelt wer den, ohne von dem Umfang der Erfindung abzuweichen. Zum Beispiel kann eine geringfügige Modifizierung der Bandränder (oder der Bin-Größe) in der nicht-gleichförmigen Band-Darstellung, die in 10 gezeigt wird, keinen signifikanten Unterschied der resultierenden Sprachqualität verursachen. Ebenso kann die Trennungsfrequenz, die das Tiefband- und Hochbandspektrum in dem Tiefband-Amplitude-Differential-Quantisierer und dem Hochband-Amplitude-Differential-Quantisierer trennt, in 8 gezeigt (die in einem Ausführungsbeispiel auf 1104 Hz gesetzt ist), ohne große Auswirkung auf die resultierende Wahrnehmungsqualität verändert werden. Ferner ist, obwohl die oben beschriebenen Ausführungsbeispiele ein Verfahren zur Verwendung bei der Codierung von Amplituden in Sprach- oder Rest-Signalen betreffen, für Fachleute offensichtlich, dass die Techniken der vorliegenden Erfindung auch auf die Codierung von Audiosignalen angewendet werden können.
  • Somit wurde ein neues Amplitudenquantisierungsschema für einen Sprachcodierer mit geringer Bitrate beschrieben. Für Fachleute ist offensichtlich, dass die verschiedenen erläuternden logischen Blöcke und Algorithmus-Schritte, die in Verbindung mit den hier offenbarten Ausführungsbeispielen beschrieben werden, mit einem digitalen Signalprozessor (DSP – digital signal processor), einem anwendungsspezifischen Schaltkreis (ASIC – application-specific integrated circuit), einer diskreten Gatter- oder Transistor-Logik, diskreten Hardware-Komponenten, wie z.B. Register und FIFO, einem Prozessor, der einen Satz von Firmware-Anweisungen ausgeführt, oder jedem herkömmlichen programmierbaren Softwaremodul und einem Prozessor implementiert oder durchgeführt werden können. Der Prozessor kann vorteilhafterweise ein Mikroprozessor sein, aber als Alternative kann der Prozessor jeder herkömmliche Prozessor, jede Steuereinrichtung, Mikro-Steuereinrichtung oder Zustandsmaschine sein. Das Softwaremodul kann sich in einem RAM-Speicher, einem Flash-Speicher, Registern oder jeder anderen in der Technik bekannten Form eines beschreibbaren Speichermittels befinden. Für Fachleute ist weiter offensichtlich, dass die Daten, Anweisungen, Befehle, Information, Signale, Bits, Symbole und Chips, auf die in der obigen Beschreibung Bezug genommen wird, vorteilhafterweise von Spannungen, Strom, elektromagnetischen Wellen, magnetischen Feldern oder Teilchen, optischen Feldern oder Teilchen oder jeder Kombination daraus dargestellt werden können.
  • Bevorzugte Ausführungsbeispiele der vorliegenden Erfindung wurden somit gezeigt und beschrieben. Es ist jedoch für Fachleute offensichtlich, dass zahlreiche Änderungen an den hier offenbarten Ausführungsbeispielen gemacht werden können, ohne vom Umfang der Erfindung abzuweichen. Somit soll die vorliegende Erfindung nicht eingeschränkt sein, außer gemäß den folgenden Ansprüchen.

Claims (29)

  1. Verfahren zur Quantisierung von Spektralinformation für einen Sprachkodierer, wobei das Verfahren Folgendes vorsieht: Extrahieren bzw. Herausziehen eines Vektors von Spektralinformation mit variabler Dimension aus einem Rahmen, wobei der Vektor einen Vektorenergiewert besitzt; Normalisieren (1301) des Vektors mit der Spektralinformation zur Erzeugung eines normalisierten Vektors mit Spektralinformation, wobei die Normalisierung (1301) folgendes aufweist: gesonderte Normalisierung des Vektors mit Spektralinformation in ersten und zweiten Sub-Bänder bzw. Teil-Bänder zur Bestimmung einer Komponente der Spektralinformation für jedes der Sub-Bänder; Bestimmung eines Verstärkungsfaktors für jedes der Subbänder; und Multiplizieren jeder der Komponenten der Spektralinformation mit ihren entsprechenden Verstärkungsfaktoren; differenzielle Vektorquantisierung (1302) der Verstärkungsfaktoren; nicht-gleichförmiges Herabtasten (downsampling) (1303) des normalisierten Vektors mit Spektralinformation zur Erzeugung eines eine feste Dimension besitzenden Vektors mit einer Vielzahl von Elementen assoziiert mit einer entsprechenden Vielzahl von nicht-gleichförmigen Frequenzbändern; Aufteilen bzw. Splitten des eine feste Dimension besitzenden Vektors in einen Sub-Vektor für jedes der Subbänder; und Differenzielles Quantisieren (1304, 1305) der Vielzahl von Sub-Vektoren.
  2. Verfahren nach Anspruch 1, wobei ferner folgendes vorgesehen ist: Formen eines Frequenzband-Gewichts-Vektors zur Verfolgung bzw. Nachführung der Orte und Lagen von Elementen entsprechend leeren Frequenzbändern.
  3. Verfahren nach Anspruch 1, wobei das Extrahieren oder Herausziehen das Herausziehen eines Vektors mit Amplituden-Spektralinformation umfasst.
  4. Verfahren nach Anspruch 1, wobei der Rahmen ein Sprachrahmen ist.
  5. Verfahren nach Anspruch 1, wobei der Rahmen ein Linear-Vorhersagerestrahmen (linear prediction residue frame) ist.
  6. Verfahren nach Anspruch 1, wobei die differenzielle Vektorquantisierung (1302) in dem logarithmischen Bereich bzw. der logarithmischen Domäne ausgeführt wird.
  7. Verfahren nach Anspruch 1, wobei das differenzielle Vektorquantisieren (1302) ferner Folgendes aufweist: Minimieren des Lecks während der Quantisierung zur Verhinderung einer unendlichen Ausbreitung der Kanalfehler.
  8. Verfahren nach Anspruch 1, wobei die Vielzahl von nicht-gleichförmigen Frequenzbändern zweiundzwanzig nicht-gleichförmige Frequenzbänder aufweist.
  9. Verfahren nach Anspruch 1, wobei das nicht-gleichförmige Herabtasten (1303) folgendes aufweist: Assoziieren einer Vielzahl von Harmonischen bzw. Oberschwingungen mit der Vielzahl von nicht-gleichförmigen Frequenzbändern und Berechnen einer durchschnittlichen Größe der Harmonischen in jedem Frequenzband und wobei die Elemente des eine feste Dimension besitzenden Vektors die gemittelten harmonischen Größenwerte für jedes Frequenzband sind.
  10. Verfahren nach Anspruch 1, wobei das differenzielle Quantisieren 1304, 1305) das harmonische Klonen (1309) aufweist.
  11. Verfahren nach Anspruch 1, wobei das differenzielle Quantisieren (1304, 1305) ferner das Minimieren des Lecks während der Quantisierung aufweist, um eine unendliche Ausbreitung von Kanalfehlern zu verhindern.
  12. Verfahren nach Anspruch 1, wobei das differenzielle Quantisieren (1304, 1305) ferner Folgendes aufweist: Berechnen von Fehlerkriterien mit einem Spektralgewichtungsverfahren.
  13. Verfahren nach Anspruch 1, wobei ferner Folgendes vorgesehen ist: Decodieren der Verstärkungsfaktoren zur Erzeugung von dekodierten Verstärkungsfaktoren, Decodieren quantisierter Werte, die sich aus der differenziellen Quantisierung ergeben, um decodierte normalisierte Spektralinformation zu erzeugen, Herauftasten (upsampling) (1404) der decodierten normalisierten Spektralinformation und Denormalisierung (1405) der heraufgetasteten, decodierten, normalisierten Spektralinformation mit den dekodierten Verstärkungsfaktoren.
  14. Verfahren nach Anspruch 1, wobei sich der Sprachkodierer in einer Teilnehmer-Einheit (10) eines drahtlosen Kommunikationssystems befindet.
  15. Ein Sprachkodierer, der Folgendes aufweist: Mittel zum Herausziehen eines Vektors von Spektralinformation mit variabler Dimension aus einem Rahmen, wobei der Vektor einen Vektorenergiewert besitzt; Mittel (1301) zur Normalisierung des Vektors von Spektralinformation zur Erzeugung eines normalisierten Vektors von Spektralinformation, wobei die Mittel zur Normalisierung folgendes aufweisen: Mittel zur gesonderten Normalisierung des Vektors von Spektralinformation in ersten und zweiten Sub-Bänder zur Bestimmung einer Komponente der Spektralinformation für jedes der Sub-Bänder; Mittel zur Bestimmung eines Verstärkungsfaktors für jedes der Sub-Bänder; und Mittel zum Multiplizieren jeder der Komponenten der Spektralinformation durch ihre entsprechenden Verstärkungsfaktoren; Mittel (1302) zur differenziellen Vektorquantisierung der Verstärkungsfaktoren; Mittel (1303) zur nicht-gleichförmigen Herabtastung (downsampling) des normalisierten Vektors der Spektralinformation zur Erzeugung eines eine feste Dimension besitzenden Vektors mit einer Vielzahl von Elementen assoziiert mit einer entsprechenden Vielzahl von nicht-gleichförmigen Frequenzbändern; Mittel zum Aufteilen bzw. Splitten des eine feste Dimension besitzenden Vektors in einen Sub-Vektor für jedes der Sub-Bänder; und Mittel (1304, 1305) zum differenziellen Quantisieren der Vielzahl von Sub-Vektoren.
  16. Ein Sprachkodierer gemäß Anspruch 15, wobei ferner Mittel vorgesehen sind zum Formen eines Frequenzband-Gewichts-Vektors zur Verfolgung der Orte der Elemente entsprechend den leeren Frequenzbändern.
  17. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zum Herausziehen Mittel aufweisen, zum Herausziehen eines Vektors von Amplituden-Spektrum-Information.
  18. Ein Sprachkodierer gemäß Anspruch 15, wobei der Rahmen ein Sprachrahmen ist.
  19. Ein Sprachkodierer gemäß Anspruch 15, wobei der Rahmen ein linearer Vorhersagerestrahmen (linear prediction residue frame) ist.
  20. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zur differenziellen Vektorquantisierung (1302) Mittel aufweisen zum differenziellen Vektorquantisieren in der logarithmischen Domäne.
  21. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zur differenziellen Vektorquantisierung (1302) ferner Mittel aufweisen zur Minimierung des Lecks während der Quantisierung zur Verhinderung unendlicher Ausbreitung von Kanalfehlern.
  22. Ein Sprachkodierer gemäß Anspruch 15, wobei die Vielzahl von nicht-gleichförmigen Frequenzbändern zweiundzwanzig nicht-gleichförmige Frequenzbänder aufweist.
  23. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zur nicht-gleichförmigen Herabtastung (downsampling) (1303) Mittel aufweisen zur Assoziierung einer Vielzahl von Harmonischen mit der Vielzahl von nicht-gleichförmigen Frequenzbändern und Mittel zum Berechnen einer durchschnittlichen Größe der Harmonischen in jedem Frequenzband und wobei die Elemente des eine feste Dimension besitzenden Vektors die gemittelten harmonischen Größenwerte für jedes Frequenzband sind.
  24. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zum differenziellen Quantisieren (1304, 1305) Mittel (1309) aufweisen zur Durchführung harmonischen Klonens.
  25. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zum differenziellen Quantisieren (1304, 1305) ferner Mittel aufweisen zur Minimierung des Lecks während der Quantisierung zur Verhinderung unendlicher Ausbreitung von Kanalfehlern.
  26. Ein Sprachkodierer gemäß Anspruch 15, wobei die Mittel zum differenziellen Quantisieren (1304, 1305) ferner Mittel aufweisen zum Berechnen von Fehlerkriterien mit einer spektralen Gewichtungstechnik.
  27. Ein Sprachkodierer gemäß Anspruch 15, wobei ferner Mittel vorgesehen sind zum Decodieren der Verstärkungsfaktoren zur Erzeugung dekodierter Verstärkungsfaktoren und zum Decodieren quantisierter Werte, erzeugt durch die Mittel zum differenziellen Quantisieren, zur Erzeugung decodierter normalisierter Spektralinformation, Mittel zum Herauftasten (upsampling) (1404) der decodierten normalisierten Spektralinformation, Mittel zum Denormalisieren (1405) der heraufgetasteten, decodierten, normalisierten Spektralinformation mit der Vielzahl von dekodierten Verstärkungsfaktoren.
  28. Ein Sprachkodierer gemäß Anspruch 15, wobei sich der Sprachkodierer in einer Teilnehmer-Einheit (10) eines drahtlosen Nachrichtensystems befindet.
  29. Ein Sprachkodierer nach irgendeinem der Ansprüche 15 bis 28, wobei die Sub-Vektoren einen Hochband-Sub-Vektor und einen Tiefband-Sub-Vektor aufweisen.
DE60027573T 1999-07-19 2000-07-18 Quantisierung der spektralen amplitude in einem sprachkodierer Expired - Lifetime DE60027573T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US09/356,756 US6324505B1 (en) 1999-07-19 1999-07-19 Amplitude quantization scheme for low-bit-rate speech coders
US356756 1999-07-19
PCT/US2000/019602 WO2001006493A1 (en) 1999-07-19 2000-07-18 Spectral magnitude quantization for a speech coder

Publications (2)

Publication Number Publication Date
DE60027573D1 DE60027573D1 (de) 2006-06-01
DE60027573T2 true DE60027573T2 (de) 2007-04-26

Family

ID=23402824

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60027573T Expired - Lifetime DE60027573T2 (de) 1999-07-19 2000-07-18 Quantisierung der spektralen amplitude in einem sprachkodierer

Country Status (13)

Country Link
US (1) US6324505B1 (de)
EP (1) EP1204969B1 (de)
JP (1) JP4659314B2 (de)
KR (2) KR100898324B1 (de)
CN (1) CN1158647C (de)
AT (1) ATE324653T1 (de)
AU (1) AU6353600A (de)
BR (1) BRPI0012542B1 (de)
CY (1) CY1106119T1 (de)
DE (1) DE60027573T2 (de)
ES (1) ES2265958T3 (de)
HK (1) HK1047817A1 (de)
WO (1) WO2001006493A1 (de)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456964B2 (en) * 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6493664B1 (en) * 1999-04-05 2002-12-10 Hughes Electronics Corporation Spectral magnitude modeling and quantization in a frequency domain interpolative speech codec system
KR100434538B1 (ko) * 1999-11-17 2004-06-05 삼성전자주식회사 음성의 천이 구간 검출 장치, 그 방법 및 천이 구간의음성 합성 방법
US7260523B2 (en) * 1999-12-21 2007-08-21 Texas Instruments Incorporated Sub-band speech coding system
GB0005515D0 (en) * 2000-03-08 2000-04-26 Univ Glasgow Improved vector quantization of images
ES2318820T3 (es) * 2000-04-24 2009-05-01 Qualcomm Incorporated Procedimiento y aparatos de cuantificacion predictiva del habla de voces.
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US7606703B2 (en) * 2000-11-15 2009-10-20 Texas Instruments Incorporated Layered celp system and method with varying perceptual filter or short-term postfilter strengths
US7013269B1 (en) * 2001-02-13 2006-03-14 Hughes Electronics Corporation Voicing measure for a speech CODEC system
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
US20050234712A1 (en) * 2001-05-28 2005-10-20 Yongqiang Dong Providing shorter uniform frame lengths in dynamic time warping for voice conversion
KR100841096B1 (ko) * 2002-10-14 2008-06-25 리얼네트웍스아시아퍼시픽 주식회사 음성 코덱에 대한 디지털 오디오 신호의 전처리 방법
US7272557B2 (en) * 2003-05-01 2007-09-18 Microsoft Corporation Method and apparatus for quantizing model parameters
WO2005112001A1 (ja) * 2004-05-19 2005-11-24 Matsushita Electric Industrial Co., Ltd. 符号化装置、復号化装置、およびこれらの方法
JP5038899B2 (ja) * 2004-11-08 2012-10-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 無線センサーネットワーク及び無線センサーネットワーク方法
KR100851970B1 (ko) * 2005-07-15 2008-08-12 삼성전자주식회사 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치
KR101019936B1 (ko) * 2005-12-02 2011-03-09 퀄컴 인코포레이티드 음성 파형의 정렬을 위한 시스템, 방법, 및 장치
KR101244310B1 (ko) * 2006-06-21 2013-03-18 삼성전자주식회사 광대역 부호화 및 복호화 방법 및 장치
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
CA2663904C (en) * 2006-10-10 2014-05-27 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
CN101483495B (zh) * 2008-03-20 2012-02-15 华为技术有限公司 一种背景噪声生成方法以及噪声处理装置
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN101630509B (zh) * 2008-07-14 2012-04-18 华为技术有限公司 一种编解码方法、装置及系统
KR101301245B1 (ko) * 2008-12-22 2013-09-10 한국전자통신연구원 스펙트럼 계수의 서브대역 할당 방법 및 장치
CN102483916B (zh) * 2009-08-28 2014-08-06 国际商业机器公司 声音特征量提取装置和声音特征量提取方法
US8898057B2 (en) * 2009-10-23 2014-11-25 Panasonic Intellectual Property Corporation Of America Encoding apparatus, decoding apparatus and methods thereof
US8990094B2 (en) * 2010-09-13 2015-03-24 Qualcomm Incorporated Coding and decoding a transient frame
WO2014165032A1 (en) * 2013-03-12 2014-10-09 Aawtend, Inc. Integrated sensor-array processor
US10049685B2 (en) 2013-03-12 2018-08-14 Aaware, Inc. Integrated sensor-array processor
US10204638B2 (en) 2013-03-12 2019-02-12 Aaware, Inc. Integrated sensor-array processor
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
US10320413B2 (en) * 2013-11-07 2019-06-11 Telefonaktiebolaget Lm Ericsson (Publ) Methods and devices for vector segmentation for coding
US9628266B2 (en) * 2014-02-26 2017-04-18 Raytheon Bbn Technologies Corp. System and method for encoding encrypted data for further processing
JP6724932B2 (ja) * 2018-01-11 2020-07-15 ヤマハ株式会社 音声合成方法、音声合成システムおよびプログラム
US20230290370A1 (en) * 2022-03-08 2023-09-14 Cisco Technology, Inc. Audio automatic mixer with frequency weighting

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0815261B2 (ja) * 1991-06-06 1996-02-14 松下電器産業株式会社 適応変換ベクトル量子化符号化法
EP1126437B1 (de) * 1991-06-11 2004-08-04 QUALCOMM Incorporated Vorrichtung und Methode zur Maskierung von Fehlern in Datenrahmen
JP3237178B2 (ja) * 1992-03-18 2001-12-10 ソニー株式会社 符号化方法及び復号化方法
US5884253A (en) 1992-04-09 1999-03-16 Lucent Technologies, Inc. Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
US5517595A (en) 1994-02-08 1996-05-14 At&T Corp. Decomposition in noise and periodic signal waveforms in waveform interpolation
TW295747B (de) * 1994-06-13 1997-01-11 Sony Co Ltd
JP3353266B2 (ja) * 1996-02-22 2002-12-03 日本電信電話株式会社 音響信号変換符号化方法

Also Published As

Publication number Publication date
EP1204969B1 (de) 2006-04-26
BRPI0012542B1 (pt) 2015-07-07
CN1158647C (zh) 2004-07-21
ATE324653T1 (de) 2006-05-15
CY1106119T1 (el) 2011-06-08
KR100898323B1 (ko) 2009-05-20
JP4659314B2 (ja) 2011-03-30
KR20020013965A (ko) 2002-02-21
EP1204969A1 (de) 2002-05-15
KR20070087222A (ko) 2007-08-27
AU6353600A (en) 2001-02-05
BR0012542A (pt) 2002-11-26
JP2003505724A (ja) 2003-02-12
WO2001006493A1 (en) 2001-01-25
ES2265958T3 (es) 2007-03-01
HK1047817A1 (en) 2003-03-07
CN1375096A (zh) 2002-10-16
DE60027573D1 (de) 2006-06-01
KR100898324B1 (ko) 2009-05-20
US6324505B1 (en) 2001-11-27

Similar Documents

Publication Publication Date Title
DE60027573T2 (de) Quantisierung der spektralen amplitude in einem sprachkodierer
DE60128677T2 (de) Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60129544T2 (de) Kompensationsverfahren bei rahmenauslöschung in einem sprachkodierer mit veränderlicher datenrate
DE60012760T2 (de) Multimodaler sprachkodierer
DE60011051T2 (de) Celp-transkodierung
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE69910058T2 (de) Verbesserung der periodizität eines breitbandsignals
DE60123651T2 (de) Verfahren und vorrichtung zur robusten sprachklassifikation
DE60024123T2 (de) Lpc-harmonischer sprachkodierer mit überrahmenformat
DE60028579T2 (de) Verfahren und system zur sprachkodierung bei ausfall von datenrahmen
DE69932593T2 (de) Dekodierungsverfahren und system mit einem adaptiven postfilter
DE60133757T2 (de) Verfahren und vorrichtung zur kodierung von stimmloser sprache
DE60027012T2 (de) Verfahren und vorrichtung zur verschachtelung der quantisierungsverfahren der spektralen frequenzlinien in einem sprachkodierer
DE60037286T2 (de) Verfahren und Vorrichtung zur Unterabtastung der im Phasenspektrum erhaltenen Information
DE60032006T2 (de) Prädiktionssprachkodierer mit musterauswahl für kodierungsshema zum reduzieren der empfindlichkeit für rahmenfehlern
EP1738355A1 (de) Signalkodierung
DE60024080T2 (de) Kodierung von sprachsegmenten mit signalübergängen durch interpolation von mehrimpulsanregungssignalen
DE60030997T2 (de) Verteilung des Frequenzspektrums einer Prototypwellenform
DE60023851T2 (de) Verfahren und vorrichtung zur erzeugung von zufallszahlen für mit 1/8 bitrate arbeitenden sprachkodierer
DE60032068T2 (de) Sprachdekodierung
DE69808339T2 (de) Verfahren zur sprachkodierung bei hintergrundrauschen
DE60025471T2 (de) Verfahren und vorrichtung zum nachführen der phase eines fast periodischen signals