[go: up one dir, main page]

DE69816810T2 - Systeme und verfahren zur audio-kodierung - Google Patents

Systeme und verfahren zur audio-kodierung Download PDF

Info

Publication number
DE69816810T2
DE69816810T2 DE69816810T DE69816810T DE69816810T2 DE 69816810 T2 DE69816810 T2 DE 69816810T2 DE 69816810 T DE69816810 T DE 69816810T DE 69816810 T DE69816810 T DE 69816810T DE 69816810 T2 DE69816810 T2 DE 69816810T2
Authority
DE
Germany
Prior art keywords
signal
subband
audio
coding
band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69816810T
Other languages
English (en)
Other versions
DE69816810D1 (de
Inventor
Cecil Roger Chepstow TUCKER
William Carl SEYMOUR
John Anthony Robinson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Application granted granted Critical
Publication of DE69816810D1 publication Critical patent/DE69816810D1/de
Publication of DE69816810T2 publication Critical patent/DE69816810T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

  • Gebiet der Erfindung
  • Diese Erfindung bezieht sich auf Audiocodierungs-Systeme und -Verfahren und genauer gesagt, aber nicht ausschließlich, auf solche Systeme und Verfahren zum Codieren von Audiosignalen bei niedrigen Bitraten.
  • Hintergrund der Erfindung
  • In einem breiten Bereich von Anwendungen ist es wünschenswert, eine Einrichtung für die effiziente Speicherung von Audiosignalen bei einer niedrigen Bitrate bereitzustellen, so daß dieselben keine großen Speicherbeträge einnehmen, z. B. in Computern, tragbarem Diktiergerät, Personalcomputeranwendungen etc. Auf gleiche Weise, wo ein Audiosignal übertragen werden soll, z. B. um eine Videokonferenz, eine Audioströmung oder eine Telefonkommunikation über das Internet etc. zu ermöglichen, ist eine niedrige Bitrate höchst erwünscht. In beiden Fällen jedoch sind hohe Verständlichkeit und Qualität wichtig, und diese Erfindung bezieht sich auf eine Lösung für das Problem zum Liefern einer Codierung bei sehr niedrigen Bitraten, während eine hohe Ebene von Verständlichkeit und Qualität bewahrt wird, und ferner zum Liefern eines Codierungssystems, das bei niedrigen Bitraten sowohl bei Sprache als auch Musik gut funktioniert.
  • Um eine sehr niedrige Bitrate bei Sprachsignalen zu erreichen, ist es allgemein anerkannt, daß ein parametrischer Codierer oder ein „Vocoder" anstelle eines Signalverlaufcodierers verwendet werden sollte. Ein Vocoder codiert nur Parameter des Signalverlaufs und nicht den Signalverlauf selbst, und erzeugt ein Signal, das wie Sprache klingt, aber mit einem potentiell sehr unterschiedlichen Signalverlauf.
  • Ein typisches Beispiel ist der LPC-10-Vocoder (Landesstandard 1015), wie in T. E. Tremaine „The Government Standard Linear Predictive Coding Algorithm: LPC10"; Speech Technology, S. 40–49 (1982) beschrieben ist, überholt durch einen ähnlichen Algorithmus LPC10e. Der LPC10 und andere Vocoder wurden bislang in der Telephoniebandbreite (0–4 kHz) betrieben, da angenommen wird, daß diese Bandbreite alle Informationen enthält, die notwendig sind, um Sprache verständlich zu machen. Es hat sich jedoch herausgestellt, daß die Qualität und Verständlichkeit von Sprache, die bei Bitraten von bis zu 2,4 KBit/s codiert ist, auf diese Weise für viele aktuelle Handelsanwendungen nicht angemessen ist.
  • Das Problem ist, daß mehr Parameter in dem Sprachmodell benötigt werden, um die Qualität zu verbessern, aber ein Codieren dieser zusätzlichen Parameter bedeutet, daß weniger Bits für die existierenden Parameter verfügbar sind. Verschiedene Verbesserungen an dem LPC10e-Modell wurden z. B. in A. V. McCree und T. P. Barnwell III „A Mixed Excitation LPC Vocoder Model for Low Bit Rate Speech Coding"; IEEE-Trans. Speech and Audio Processing, Bd. 3, Nr. 4, Juli 1995, vorgeschlagen, aber sogar mit all diesen ist die Qualität kaum angemessen.
  • Bei einem Versuch, das Modell weiter zu verbessern, wurde das Codieren einer breiteren Bandbreite (0–8 kHz) betrachtet. Dies wurde für Vocoder nie betrachtet, da die zusätzlichen Bits, die benötigt werden, um das obere Band zu codieren, einen Vorteil beim Codieren desselben weitgehend aufwiegen würden. Eine Breitbandcodierung wird üblicherweise nur für Codierer guter Qualität betrachtet, wo dieselbe verwendet wird, um eine größere Natürlichkeit zu der Sprache hinzuzufügen, und nicht, um die Verständlichkeit zu erhöhen, und viele zusätzliche Bits erfordert.
  • Ein üblicher Weg zum Implementieren eines Breitbandsystems ist das Spalten des Signals in ein unteres und ein oberes Teilband, um zu ermöglichen, daß das obere Teilband mit weniger Bits codiert wird. Die zwei Bänder werden separat decodiert und dann zusammenaddiert, wie in dem ITU-Standard G722 beschrieben ist (X. Maitre, „7 kHz audio coding within 64 kbit/s", IEEE Journal on Selected Areas in Comm., Bd. 6, Nr. 2, S. 283–298, Februar 1988). Das Anwenden dieses Lösungsansatzes an einen Vocoders schlägt vor, daß das obere Band mit einem LPC niedrigerer Ordnung analysiert werden sollte als das untere Band (zweiter Ordnung hat sich als angemessen herausgestellt). Es hat sich herausgestellt, daß dasselbe einen separaten Energiewert benötigt, aber keine Pitch- und Sprach-Entscheidung, da die aus dem unteren Band verwendet werden können. Leider erzeugte die Rekombination der zwei synthetisierten Bänder Artefakte, aus denen gefolgert wurde, daß dieselben durch eine Phasenfehlanpassung zwischen den zwei Bändern verursacht wurden. Dieses Problem wurde bei dem Decodierer durch Kombinieren der LPC- und Energie-Parameter jedes Bandes gelöst, um einen einzelnen Breitbandfilter hoher Ordnung zu erzeugen und denselben mit einem Breitbanderregungssignal zu treiben.
  • Überraschenderweise war die Verständlichkeit des Breitband-LPC-Vocoders für saubere Sprache bedeutend höher im Vergleich zu der Telefonbandbreitenversion bei der gleichen Bitrate, wodurch eine DRT-Einstufung (wie beschrieben in W. D. Voiers, „Diagnostic evaluation of speech intelligibility" in Speech Intelligibility and Speaker Recognition (M. E. Hawley, cd.), S. 374–387, Dowden, Hutchinson & Ross, Inc., 1977) von 86,8 im Gegensatz zu 84,4 für den Schmalbandcodierer erzeugt wurde.
  • Für Sprache jedoch mit sogar einem kleinen Betrag von Hintergrundrauschen klang das synthetisierte Signal surrend und enthielt Artefakte in dem oberen Band. Unsere Analyse hat gezeigt, daß der Grund dafür war, daß die Energie des codierten oberen Bandes durch das Hintergrundrauschen verstärkt wurde, das während der Synthese von stimmhafter Sprache die Harmonischen des oberen Bandes verstärkte, wodurch eine Surrwirkung erzeugt wurde.
  • Bei einer weiteren detaillierten Untersuchung hat sich herausgestellt, daß die Erhöhung der Verständlichkeit hauptsächlich ein Ergebnis einer besseren Codierung der nichtstimmhaften Reibelaute und Verschlußlaute war, nicht der stimmhaften Abschnitte. Dies führte zu einem unterschiedlichen Lösungsansatz beim Decodieren des oberen Bandes, wo nur Rauschen synthetisiert wurde, was die Harmonischen der stimmhaften Sprache nur auf das untere Band beschränkte. Dies entfernte das Surren, konnte jedoch statt dessen ein Zischen hinzufügen, wenn die Energie des codierten oberen Bandes hoch war, aufgrund der Harmonischen des oberen Bandes in dem Eingangssignal. Dies konnte durch Verwenden der Sprachentscheidung überwunden werden, aber es hat sich herausgestellt, daß der zuverlässigste Weg war, das Eingangssignal des oberen Bandes in Rausch- und Harmonische- (periodische) Komponenten zu unterteilen und nur die Energie der Rauschkomponente zu codieren.
  • Dieser Lösungsansatz weist zwei unerwartete Vorteile auf, die die Leistung der Technik bedeutend verbessern. Erstens, da das obere Band nur Rauschen enthält, bestehen keine Probleme mehr beim Anpassen der Phase des unteren und oberen Bandes, was bedeutet, daß dieselben vollständig separat synthetisiert werden können, sogar für einen Vocoder. Tatsächlich kann der Codierer für das untere Band vollständig separat sein, und sogar eine serienmäßige Komponente. Zweitens ist das Codieren des oberen Bandes nicht mehr sprachspezifisch, da ein Signal in Rausch- und Harmonische-Komponenten aufgeteilt werden kann, und von der Reproduktion der Rauschkomponente profitieren kann, wo anderweitig das Frequenzband überhaupt nicht reproduziert werden würde. Dies gilt insbesondere für Rockmusik, die ein starkes Perkussionselement aufweist.
  • Das System ist ein im wesentlichen unterschiedlicher Lösungsansatz für andere Breitbanderweiterungstechniken, die auf einer Signalverlaufcodierung basieren, wie bei McElroy u. a.: Wideband Speech Coding in 7.2 KB/s, ICASSP 93, Seiten 11–620 – II-623. Das Problem des Signalverlaufcodierens ist, daß es entweder eine große Anzahl von Bits erfordert, wie bei G722 (oben), oder anderweitig das Signal des oberen Bandes schlecht reproduziert (McElroy u. a.), wodurch ein großer Teil von Quantisierungsrauschen zu den Harmonische-Komponenten hinzugefügt wird.
  • Bei dieser Spezifizierung wird der Ausdruck „Vocoder" umfassend verwendet, um einen Sprachcodierer zu definieren, der ausgewählte Modellparameter codiert und bei dem keine explizite Codierung des Restsignalverlaufs vorliegt, und der Ausdruck umfaßt Codierer, wie z. B. Mehrfachbanderregungscodierer (MBE; MBE = multi-band excitation), bei denen die Codierung durch Aufspalten des Sprachspektrums in eine Anzahl von Bändern und durch Extrahieren eines Basissatzes von Parametern für jedes Band ausgeführt wird.
  • Der Ausdruck Vocoderanalyse wird verwendet, um einen Prozeß zu beschreiben, der Vocoderkoeffizienten bestimmt, die zumindest LPC-Koeffizienten und einen Energiewerts umfassen. Zusätzlich dazu können die Vocoderkoeffizienten für ein unteres Teilband ferner eine Sprachentscheidung und für stimmhafte Sprache einen Pitchwert umfassen.
  • Zusammenfassung der Erfindung
  • Gemäß einem Aspekt dieser Erfindung wird ein Audiocodierungssystem zum Codieren und Decodieren eines Audiosignals geschaffen, wobei das System einen Codierer und einen Decodierer umfaßt, wobei der Codierer folgende Merkmale aufweist:
    eine Filtereinrichtung zum Zerlegen des Audiosignals in ein oberes und ein unteres Teilbandsignal;
    eine Codierungseinrichtung für das untere Teilband zum Codieren des unteren Teilbandsignals;
    eine Codierungseinrichtung für das obere Teilband zum parametrischen Codieren von zumindest der nichtperiodischen Komponente des oberen Teilbandsignals gemäß einem Quellfiltermodell;
    wobei die Decodiereinrichtung eine Einrichtung zum Decodieren des codierten unteren Teilbandsignals und des codierten oberen Teilbandsignals und zum Rekonstruieren eines Audioausgangssignals aus denselben aufweist,
    wobei die Decodierereinrichtung eine Filtereinrichtung aufweist und eine Erregungseinrichtung zum Erzeugen eines Erregungssignals, um durch die Filtereinrichtung durchgeleitet zu werden, um ein synthetisiertes oberes Teilbandsignal zu erzeugen, wobei die verwendete Erregungseinrichtung ein Erregungssignal erzeugt, das eine wesentliche Komponente von synthetisiertem Rauschen in einem Frequenzband umfaßt, das dem oberen Teilband des Audiosignals entspricht, und wobei das synthetisierte obere Teilbandsignal und das decodierte untere Teilbandsignal rekombiniert werden, um das Audioausgangssignal zu bilden.
  • Obwohl die Decodierereinrichtung eine einzelne Decodiereinrichtung aufweisen kann, die sowohl das obere als auch das untere Teilband des Codierers abdeckt, ist es bevorzugt, daß die Decodierereinrichtung eine Decodierungseinrichtung für das untere Teilband und eine Decodierungseinrichtung für das obere Teilband aufweist, zum Empfangen und Decodieren der codierten Signale des unteren bzw. oberen Teilbandes.
  • Bei einem bestimmten bevorzugten Ausführungsbeispiel weist das obere Frequenzband des Erregungssignals im wesentlichen vollständig ein synthetisiertes Rauschsignal auf, obwohl das Erregungssignal bei anderen Ausführungsbeispielen eine Mischung einer synthetisierten Rauschkomponente und einer weiteren Komponente aufweisen kann, die einer oder mehreren Harmonischen des Audiosignals des unteren Teilbands entspricht.
  • Vorteilhafterweise weist die Codierungseinrichtung des oberen Teilbands eine Einrichtung zum Analysieren und Codieren des Signals des oberen Teilbands auf, um einen Energie- oder Gewinnwert des oberen Teilbands und einen oder mehrere Spektralparameter des oberen Teilbands zu erhalten. Der eine oder die mehreren Spektralparameter des oberen Teilbandes weisen vorzugsweise LPC-Koeffizienten zweiter Ordnung auf.
  • Vorzugsweise umfaßt die Codierereinrichtung eine Einrichtung zum Messen der Rauschenergie in dem oberen Teilband, um dadurch den Energie- oder Gewinnwert des oberen Teilbandes abzuleiten. Alternativ kann die Codierereinrichtung eine Einrichtung zum Messen der Gesamtenergie in dem Oberen Teilbandsignal umfassen, um dadurch den Energie- oder Gewinnwert des oberen Teilbandes abzuleiten.
  • Um eine unnötige Verwendung der Bitrate einzusparen, umfaßt das System vorzugsweise eine Einrichtung zum Überwachen der Energie in dem oberen Teilbandsignal und zum Vergleichen derselben mit einer Schwelle, die aus zumindest entweder der Energie des oberen oder des unteren Teilbandes hergeleitet wird, und zum Verursachen, daß die Codierungseinrichtung des oberen Teilbandes eine Minimalcodeausgabe liefert, wenn die überwachte Energie unter der Schwelle liegt.
  • Bei Anordnungen, die primär für eine Sprachcodierung vorgesehen sind, kann die Codierungseinrichtung des unteren Teilbands einen Sprachcodierer aufweisen, der eine Einrichtung zum Bereitstellen einer Sprachentscheidung umfaßt. In diesen Fällen kann die Decodierereinrichtung eine Einrichtung umfassen, die auf die Energie in dem codierten Signal des oberen Bandes und die Sprachentscheidung anspricht, um die Rauschenergie in dem Erregungssignal abhängig davon anzupassen, ob das Audiosignal stimmhaft oder nicht stimmhaft ist.
  • Wenn das System primär für Musik vorgesehen ist, kann die Codierungseinrichtung des unteren Teilbands einen einer Anzahl von geeigneten Signalverlaufcodierern aufweisen, z. B. einen MPEG-Audiocodierer.
  • Die Unterteilung zwischen dem oberen und dem unteren Teilband kann gemäß den bestimmten Anforderungen ausgewählt werden, und kann somit ungefähr 2,75 kHz, ungefähr 4 kHz, ungefähr 5,5 kHz etc. sein.
  • Die Codierungseinrichtung des oberen Teilbandes codiert vorzugsweise die Rauschkomponente mit einer sehr niedrigen Bitrate von weniger als 800 bps und vorzugsweise ungefähr 300 bps.
  • Wo das obere Teilband analysiert wird, um einen Energiegewinnwert und einen oder mehrere Spektralparameter zu erhalten, wird das obere Teilbandsignal vorzugsweise mit relativ langen Rahmenperioden analysiert, um die Spektralparameter zu bestimmen, und mit relativ kurzen Rahmenperioden, um den Energie- oder Gewinnwert zu bestimmen.
  • Bei einem anderen Aspekt schafft diese Erfindung ein Audiocodierungsverfahren zum Codieren und Decodieren eines Audiosignals, wobei das Verfahren folgende Schritte aufweist:
    Zerlegen des Audiosignals in ein oberes und ein unteres Teilbandsignal;
    Codieren des unteren Teilbandsignals;
    parametrisches Codieren von zumindest der nichtperiodischen Komponente des oberen Teilbandsignals gemäß einem Quellfiltermodell; und
    Decodieren des codierten unteren Teilbandsignals und des codierten oberen Teilbandsignals, um ein Audioausgangssignal zu rekonstruieren;
    wobei der Decodierungsschritt das Liefern eines Erregungssignals umfaßt, das eine wesentliche Komponente von synthetisiertem Rauschen in einem oberen Frequenzband umfaßt, das dem oberen Teilband des Audiosignals entspricht, das das Erregungssignals durch eine Filtereinrichtung leitet, um ein synthetisiertes oberes Teilbandsignal zu erzeugen, und das Rekombinieren des synthetisierten oberen Teilbandsignals und des decodierten unteren Teilbandsignals, um das Audioausgangssignal zu bilden.
  • Bei einem anderen Aspekt schafft die Erfindung ein System und ein zugeordnetes Verfahren für eine sehr niedrige Bitratencodierung, wobei das Eingangssignal in Teilbänder aufgespalten ist, wobei jeweilige Vocoderkoeffizienten erhalten und dann miteinander zu einem LPC-Filter rekombiniert werden.
  • Gemäß diesem Aspekt schafft die Erfindung ein Codierersystem zum Codieren und Decodieren eines Sprachsignals, wobei das System eine Codierereinrichtung und eine Decodierereinrichtung aufweist, wobei die Codierereinrichtung folgende Merkmale umfaßt:
    eine Filtereinrichtung zum Aufteilen des Sprachsignals in ein unteres und ein oberes Teilband, die zusammen eine Bandbreite von zumindest 5,5 kHz definieren;
    eine Vocoderanalyseeinrichtung für das untere Teilband zum Durchführen einer Vocoderanalyse hoher Ordnung an dem unteren Teilband, um Vocoderkoeffizienten zu erhalten, die LPC-Koeffizienten umfassen, die das untere Teilband darstellen;
    eine Vocoderanalyseeinrichtung für das obere Teilband, zum Durchführen einer Vocoderanalyse niedriger Ordnung an dem oberen Teilband, um Vocoderkoeffizienten zu erhalten, die das obere Teilband darstellen;
    eine Codierungseinrichtung zum Codieren von Vocoderparametern, die die unteren und die oberen Teilbandkoeffizienten umfassen, um ein komprimiertes Signal für eine Speicherung und/oder Übertragung zu liefern, und wobei die Decodierereinrichtung folgende Merkmale umfaßt:
    eine Decodiereinrichtung zum Decodieren des komprimierten Signals, um einen Satz von Vocoderparametern zu erhalten, die die unteren und die oberen Teilbandvocoderkoeffizienten kombinieren;
    eine Synthetisierungseinrichtung zum Erzeugen eines LPC-Filters aus dem Satz von Vocoderparametern und zum Resynthetisieren des Sprachsignals aus dem Filter und aus einem Erregungssignal.
  • Vorzugsweise wendet die Analyseeinrichtung des unteren Teilbandes die LPC-Analyse zehnter Ordnung an und die Analyseeinrichtung des oberen Teilbandes wendet die LPC-Analyse zweiter Ordnung an.
  • Die Erfindung erstreckt sich ferner auf Audiocodierer und Audiodecodierer zur Verwendung mit den obigen Systemen und auf entsprechende Verfahren.
  • Kurze Beschreibung der Zeichnungen
  • Die Erfindung kann auf verschiedene Weisen ausgeführt werden und ausschließlich beispielhaft werden zwei Ausführungsbeispiele und verschiedene Modifikationen derselben nun detailliert beschrieben, wobei Bezug auf die beiliegenden Zeichnungen genommen wird, in denen:
  • 1 ein Blockdiagramm eines Codierers eines ersten Ausführungsbeispiels ein Breitbandcodecs gemäß dieser Erfindung ist;
  • 2 ein Blockdiagramm eines Decodierers des ersten Ausführungsbeispiels ein Breitbandcodec gemäß dieser Erfindung ist;
  • 3 Spektren sind, die das Ergebnis des Codierungs-/Decodierungs-Prozesses zeigen, der bei dem ersten Ausführungsbeispiel implementiert ist;
  • 4 ein Spektrogramm eines männlichen Sprechers ist;
  • 5 ein Blockdiagramm des Sprachmodells ist, das durch einen typischen Vocoder angenommen wird;
  • 6 ein Blockdiagramm eines Codierers eines zweiten Ausführungsbeispiels eines Codecs gemäß dieser Erfindung ist;
  • 7 zwei Teilbandkurzzeitspektren für einen nichtstimmhaften Sprachrahmen, abgetastet bei 16 kHz, zeigt;
  • 8 zwei Teilband-LPC-Spektren für den nichtstimmhaften Sprachrahmen aus 7 zeigt;
  • 9 das kombinierte LPC-Spektrum für den nichtstimmhaften Sprachrahmen aus 7 und 8 zeigt;
  • 10 ein Blockdiagramm eines Decodierers des zweiten Ausführungsbeispiels eines Codecs gemäß dieser Erfindung ist;
  • 11 ein Blockdiagramm eines LPC-Parametercodierungsschemas ist, das bei dem zweiten Ausführungsbeispiel dieser Erfindung verwendet wird; und
  • 12 ein bevorzugtes Gewichtungsschema für den LSP-Prädiktor zeigt, der bei dem zweiten Ausführungsbeispiel dieser Erfindung verwendet wird.
  • Bei dieser Beschreibung werden zwei unterschiedliche Ausführungsbeispiele der Erfindung beschrieben, wobei beide derselben eine Teilbandcodierung verwenden. Bei dem ersten Ausführungsbeispiel ist ein Codierungsschema implementiert, bei dem nur die Rauschkomponente des oberen Bandes in dem Decodierer codiert und resynthetisiert wird.
  • Das zweite Ausführungsbeispiel verwendet ein LPC-Vocoderschema für sowohl das untere als auch das obere Teilband, um Parameter zu erhalten, die kombiniert werden, um einen kombinierten Satz von LPC-Parametern zum Steuern eines Allpolfilters zu erzeugen.
  • Mittels der Einführung des ersten Ausführungsbeispiels begrenzen aktuelle Audio- und Sprachcodierer, wenn ein Eingangssignal mit einer erweiterten Bandbreite gegeben ist, einfach das Eingangssignal vor dem Codieren. Die hier beschriebene Technik ermöglicht, daß die erweiterte Bandbreite bei einer Bitrate codiert wird, die unbedeutend im Vergleich zu dem Hauptcodierer ist. Sie versucht nicht, das obere Teilband vollständig zu reproduzieren, liefert jedoch trotzdem ein Codieren, das die Qualität (und Verständlichkeit der Sprache) des bandbegrenzten Hauptsignals bedeutend verbessert.
  • Das obere Band wird auf die übliche Weise als ein Allpolfilter modelliert, getrieben durch ein Erregungssignal. Nur einer oder zwei Parameter werden benötigt, um das Spektrum zu beschreiben. Das Erregungssignal wird betrachtet, um eine Kombination aus Weißrauschen und periodischen Komponenten zu sein, wobei letztere möglicherweise sehr komplexe Beziehungen zueinander aufweisen (gilt für einen Großteil der Musik). Bei der allgemeinsten Form des Codecs, die nachfolgend beschrieben wird, werden die periodischen Komponenten effektiv verworfen. Alles, was übertragen wird, ist die geschätzte Energie der Rauschkomponente und der Spektralparameter; an dem Decodierer wird Weißrauschen allein verwendet, um das Allpolfilter zu treiben.
  • Das Schlüssel- und Originalkonzept ist, daß die Codierung des oberen Bandes vollständig parametrisch ist – es wird kein Versuch unternommen, das Erregungssignal selbst zu codieren. Die einzigen codierten Parameter sind die Spektralparameter und ein Energieparameter.
  • Dieser Aspekt der Erfindung kann entweder als eine neue Form eines Codierers oder als eine Breitbanderweiterung für einen existierenden Codierer implementiert sein. Ein solcher existierender Codierer kann durch eine dritte Partei geliefert werden oder ist vielleicht bereits auf demselben System verfügbar (z. B. ACM-Codecs bei Windows 95/NT). In diesem Sinn wirkt derselbe als ein Parasit für diesen Codec und verwendet denselben, um das Codieren des Hauptsignals durchzuführen, erzeugt jedoch ein Signal besserer Qualität als der Schmalbandcodec dies allein kann. Eine wichtige Charakteristik des Verwendens von ausschließlich Weißrauschen, um das obere Band zu synthetisieren, ist, daß es trivial ist, die zwei Bänder zusammenzuaddieren – sie müssen nur auf innerhalb wenige Millisekunden ausgerichtet werden, und es liegen keine Phasenkontinuitätsfragen zu lösen vor. Tatsächlich wurden zahlreiche Demonstrationen unter Verwendung unterschiedlicher Codecs erzeugt und es bestand keine Schwierigkeit beim Ausrichten der Signale.
  • Die Erfindung kann auf zwei Weisen verwendet werden. Eine ist das Verbessern der Qualität eines existierenden Schmalbandcodierers (4 kHz) durch Erweitern der Eingangsbandbreite mit einer sehr geringen Erhöhung der Bitrate. Die andere ist das Erzeugen eines Codierers einer niedrigeren Bitrate durch Betreiben des Codierers des unteren Bandes auf einer kleineren Eingangsbandbreite (üblicherweise 2,75 kHz) und dann Erweitern derselben, um für die verlorene Bandbreite auszugleichen (üblicherweise auf 5,5 kHz).
  • 1 und 2 stellen einen Codierer 10 und einen Decodierer 12 jeweils für ein erstes Ausführungsbeispiel des Codecs dar. Anfänglich Bezug nehmend auf 1 wird das Eingangsaudiosignal zu einem Tiefpaßfilter 14 geleitet, wo es tiefpaßgefiltert wird, um unteres Teilbandsignal zu bilden, und dezimiert wird, und dann zu einem Hochpaßfilter 16, wo es hochpaßgefiltert wird, um ein oberes Teilbandsignal zu bilden, und dezimiert wird.
  • Die Filter müssen sowohl eine scharfe Grenzfrequenz als auch eine gute Sperrdämpfung aufweisen. Um dies zu erreichen, werden entweder 73 Abriff-FIR-Filter oder elliptische Filter achter Ordnung verwendet, abhängig davon, welche schneller auf dem verwendeten Prozessor laufen können. Die Sperrdämpfung sollte zumindest 40 dB und vorzugsweise 60 dB sein, und die Welligkeit im Durchlaßbereich gering – 0,2 dB höchstens. Der 3-dB-Punkt für die Filter sollte der Zielspaltpunkt sein (üblicherweise 4 kHz).
  • Das untere Teilbandsignal wird zu einem Schmalbandcodierer 18 geliefert. Der Schmalbandcodierer kann ein Vocoder oder ein Wellenbandcodierer sein. Das obere Teilbandsignal wird zu einem Analysator 20 des oberen Teilbands geliefert, der das Spektrum des oberen Teilbandes analysiert, um parametrische Koeffizienten und deren Rauschkomponente zu bestimmen, wie unten beschrieben ist.
  • Die Spektralparameter und das Protokoll des Rauschenergiewerts werden quantisiert, von ihren vorherigen Werten abgezogen (d. h. differentialcodiert) und zu einem Rice-Codierer 22 zum Codieren geliefert und dann mit dem codierten Ausgangssignal von dem Schmalbandcodierer 18 kombiniert.
  • Bei dem Decodierer 12 werden die Spektralparameter aus den codierten Daten erhalten und an ein Spektralformfilter 23 angewendet. Das Filter 23 wird durch ein synthetisches Weißrauschsignal erregt, um ein synthetisiertes nichtharmonisches Oberes Teilbandsignal zu erzeugen, dessen Gewinn gemäß dem Rauschenergiewert bei 24 angepaßt ist. Das synthetisierte Signal wird dann zu einem Prozessor 25 weitergeleitet, der das Signal interpoliert und dasselbe zu dem oberen Teilband reflektiert. Die codierten Daten, die das untere Teilbandsignal darstellen, werden zu einem Schmalbanddecodierer 30 weitergeleitet, der das untere Teilbandsignal decodiert, das bei 32 interpoliert wird und dann bei 34 rekombiniert wird, um das synthetisierte Ausgangssignal zu bilden.
  • Bei dem obigen Ausführungsbeispiel ist ein Rice-Codieren nur angemessen, wenn der Speicherungs-/Übertragungsmechanismus eine variable Bitratencodierung unterstützen kann oder eine Latenz toleriert, die groß genug ist, um zu ermöglichen, daß die Daten in Festgrößenpakete blockiert werden. Anderweitig kann ein herkömmliches Quantisierungsschema verwendet werden, ohne die Bitrate zu sehr zu beeinträchtigen.
  • Das Ergebnis des gesamten Codierungs-/Decodierungsprozesses ist in den Spektren in 3 dargestellt, wo das obere ein Rahmen ist, der sowohl Rauschen als auch starke harmonische Komponenten von Nakita von Elton John enthält, und das untere derselbe Rahmen mit der 4- bis 8-kHz-Region ist, die unter Verwendung der oben beschriebenen Breitbanderweiterung codiert ist.
  • Bezug nehmend nun detaillierter auf die Spektral- und Rauschkomponentenanalyse des oberen Teilbandes leitet die Spektralanalyse zwei LPC-Koeffizienten her, unter Verwendung des standardmäßigen Autokorrelationsverfahrens, das garantiert ein stabiles Filter erzeugt. Für eine Quantisierung werden die LPC-Koeffizienten in Reflexionskoeffizienten umgewandelt und mit jeweils neun Pegeln quantisiert. Diese LPC-Koeffizienten werden dann verwendet, um den Signalverlauf umgekehrt zu filtern, um ein weiß gewordenes Signal für die Rauschkomponentenanalyse zu erzeugen.
  • Die Rauschkomponentenanalyse kann auf eine Anzahl von Weisen durchgeführt werden. Zum Beispiel kann das obere Teilband vollwellenrektifiziert, geglättet und nach Periodizität analysiert werden, wie in McCree u. a. beschrieben ist. Die Messung wird jedoch einfacher durch eine direkte Messung in der Frequenzdomäne ausgeführt. Dementsprechend wird bei dem vorliegenden Ausführungsbeispiel eine 256-Punkt-FFT an dem weiß gemachten oberen Teilbandsignal ausgeführt. Die Rauschkomponentenenergie wird als der Medianwert der FFT-Behälterenergien genommen. Dieser Parameter weist die wichtige Eigenschaft auf, daß der erwartete Wert des Medianwerts nur die Energie des Signals ist, wenn das Signal vollständig Rauschen ist. Wenn aber das Signal periodische Komponenten aufweist, dann fällt der Medianwert zwischen die Spitzen in dem Spektrum, solange die durchschnittliche Beabstandung größer als zweimal die Frequenzauflösung der FFT ist. Wenn aber die Beabstandung sehr eng ist, nimmt das Ohr wenig Unterschied wahr, wenn statt dessen Weißrauschen verwendet wird.
  • Für Sprache (und einige Audiosignale) ist es notwendig, die Rauschenergieberechnung über ein kürzeres Intervall auszuführen als die LPC-Analyse. Der Grund dafür ist der scharfe Angriff auf Verschlußlaute und daß sich stimmlose Spektren nicht sehr schnell bewegen. In diesem Fall wird das Verhältnis des Medianwerts zu der Energie der FFT gemessen, d. h. der gebrochenen Bruchkomponente. Dies wird dann verwendet, um alle gemessenen Energiewerte für diese Analyseperiode zu skalieren.
  • Die Rausch-/periodische Unterscheidung ist fehlerhaft und die Rauschkomponentenanalyse selbst ist fehlerhaft. Um dies zu ermöglichen, kann die Analysevorrichtung 20 des oberen Teilbandes die Energie in dem oberen Band durch einen festen Faktor von ungefähr 50% skalieren. Ein Vergleichen des Originalsignals mit dem decodierten erweiterten Signal klingt, als ob der Höhenregler etwas heruntergedreht ist. Aber die Differenz ist vernachlässigbar im Vergleich zu der vollständigen Entfernung der hohen Töne in dem nichterweiterten decodierten Signal.
  • Es ist üblicherweise nicht wert, die Rauschkomponente zu reproduzieren, wenn dieselbe klein im Vergleich zu der Harmonische-Energie in dem oberen Band oder sehr klein im Vergleich zu der Energie in dem unteren Band ist. In dem ersten Fall ist es auf jeden Fall hart, die Rauschkomponente genau zu messen, aufgrund des Signalleckens zwischen FFT-Behältern bzw. FFT-Bins. Zu einem bestimmten Grad gilt dies ebenfalls in dem zweiten Fall, aufgrund der finiten Dämpfung in dem Stoppband des Tiefbandfilters. So kann bei einer Modifizierung dieses Ausführungsbeispiels die Analysevorrichtung 20 des oberen Teilbandes die gemessene Rauschenergie des oberen Teilbands mit einer Schwelle vergleichen, die aus zumindest einer der Energie des oberen und des unteren Teilbands hergeleitet wird, und wenn dieselbe unter der Schwelle liegt, kann der Grundrauschenergiewert statt dessen übermittelt werden. Die Grundrauschenergie ist eine Schätzung des Hintergrundrauschpegels in dem oberen Band und würde normalerweise gleich zu der niedrigsten Energie des oberen Bandes eingestellt werden, die seit dem Start des Ausgangssignals gemessen wurde.
  • Bezug nehmend nun auf das Verhalten dieses Ausführungsbeispiels ist 4 ein Spektrogramm eines männlichen Spre chers. Die vertikale Achse, die Frequenz, erstreckt sich bis zu 8.000 Hz, zweimal dem Bereich von Standardtelephoniecodierern (4 kHz). Die Dunkelheit auf der Skizze zeigt die Signalstärke bei dieser Frequenz an. Die horizontale Achse ist die Zeit.
  • Es wird darauf hingewiesen, daß das Signal über 4 kHz hauptsächlich Rauschen aus Reibelauten oder Verschlußlauten ist oder überhaupt nicht vorhanden ist. In diesem Fall erzeugt die Breitbanderweiterung eine fast perfekte Reproduktion des oberen Bandes.
  • Für manche weibliche und Kinder-Stimmen ist die Frequenz, bei der die stimmhafte Sprache den Großteil ihrer Energie verloren hat, höher als 4 kHz. Idealerweise sollte in diesem Fall die Bandspaltung ein wenig höher ausgeführt werden (5,5 kHz wäre eine gute Wahl). Aber auch wenn dies nicht ausgeführt wird, ist die Qualität immer noch besser als ein nichterweiterter Codec während einer nichtstimmhaften Sprache, und für stimmhafte Sprachen ist dies exakt das gleiche. Ferner erfolgt der Gewinn bei der Verständlichkeit durch eine gute Reproduktion der Reiblaute und Verschlußlaute, nicht durch eine bessere Reproduktion der Vokale, so daß der Spaltpunkt nur die Qualität beeinträchtigt, nicht die Verständlichkeit.
  • Für eine Reproduktion von Musik hängt die Effektivität der Breitbanderweiterung zu einem gewissen Ausmaß von der Art von Musik ab. Für Rock/Pop, wo die meisten erkennbaren Komponenten des oberen Bandes aus der Perkussion stammen, oder aus der „Weichheit" der Stimme (insbesondere für Frauen), funktioniert die Ausschließlich-Rauschen-Synthese sehr gut, sogar beim Verbessern des Klangs an Orten. Andere Musikarten weisen nur Harmonische-Komponenten in dem oberen Band auf – z. B. Klavier. In diesem Fall wird nichts in dem oberen Band reproduziert. Subjektiv jedoch scheint das Fehlen von höheren Frequenzen für Klänge weniger wichtig, wo viele Harmonische niedrigerer Frequenz vorliegen.
  • Bezug nehmend nun auf das zweite Ausführungsbeispiel des Codecs, das Bezug nehmend auf die 512 beschrieben wird, basiert dieses Ausführungsbeispiel auf denselben Prinzipien wie der bekannte LPC10-Vocoder (wie in T. E. Tremain „The Government Standard Linear Predictive Coding Algorithm: LPC10"; Speech Technology, S. 40–49, 1982, beschrieben ist), und das Sprachmodell, das durch den LPC10-Vocoder angenommen wird, ist in 5 gezeigt. Der Vokaltrakt, der als ein Allpolfilter 110 modelliert ist, wird durch ein periodisches Erregungssignal 112 für stimmhafte Sprache und Zufallsweißrauschen 114 für nichtstimmhafte Sprache getrieben.
  • Der Vocoder besteht aus zwei Teilen, dem Codierer 116 und dem Decodierer 118. Der Codierer 116, der in 6 gezeigt ist, spaltet die Eingangssprache in Rahmen auf, die gleichmäßig in der Zeit beabstandet sind. Jeder Rahmen wird dann in Bänder aufgespalten, die den 0–4 kHz und 4–8 kHz Regionen des Spektrums entsprechen. Dies wird auf eine rechentechnisch effiziente Weise unter Verwendung von elliptischen Filtern achter Ordnung erreicht. Hochpaß- und Tiefpaßfilter 120 bzw. 122 werden angewendet und die resultierenden Signale werden dezimiert, um die zwei Teilbänder zu bilden. Das obere Teilband enthält eine gespiegelte Form des 4-8-kHz-Spektrums. Zehn lineare Präkonditionierungskoeffizienten (LPC-Koeffizienten) werden bei 124 aus dem unteren Teilband berechnet und zwei LPC-Koeffizienten werden bei 126 aus dem Hochband berechnet, sowie ein Gewinnwert für jedes Band. 7 und 8 zeigen die zwei Teilbandkurzzeitspektren bzw. die zwei Teilband-LPC-Spektren für ein typisches stimmloses Signal bei einer Abtastrate von 16 kHz, und 9 zeigt das kombinierte LPC-Spektrum. Eine Sprachentscheidung 128 und ein Pitchwert 130 für stimmhafte Rahmen werden ebenfalls aus dem unteren Teilband berechnet. (Die Sprachentscheidung kann optional ebenfalls Informationen des oberen Teilbandes verwenden.) Die zehn Tiefband-LPC-Parameter werden in Linienspektral paare (LSPs) bei 132 transformiert, und dann werden alle Parameter unter Verwendung eines Prädiktionsquantisierers 134 codiert, um den Niedrigbitratendatenstrom zu ergeben.
  • Der Decodierer 118, der in 10 gezeigt ist, decodiert die Parameter bei 136 und interpoliert während der stimmhaften Sprache zwischen Parametern von benachbarten Rahmen am Start jeder Pitchperiode. Die zehn LSPs des unteren Teilbandes werden dann in LPC-Koeffizienten bei 138 umgewandelt, bevor dieselben bei 140 mit den zwei Koeffizienten des oberen Teilbands kombiniert werden, um einen Satz von 18 LPC-Koeffizienten zu erzeugen. Dies wird unter Verwendung einer Autokorrelationsbereichskombinationstechnik oder einer Leistungsspektralbereichskombinationstechnik durchgeführt, die nachfolgend beschrieben wird. Die LPC-Parameter steuern einen Allpolfilter 142, der entweder mit Weißrauschen oder einem impulsähnlichen Signalverlauf periodisch an der Pitchperiode von einem Erregungssignalgenerator 144 erregt wird, um das Modell zu emulieren, das in 5 gezeigt ist. Details des stimmhaften Erregungssignals werden nachfolgend gegeben.
  • Die bestimmte Implementierung des zweiten Ausführungsbeispiels des Vocoders wird nun beschrieben. Für eine detaillierte Erörterung verschiedener Aspekte wird die Aufmerksamkeit auf L. Rabiner und R. W. Schafer gelenkt, „Digital Processing of Speech Signals", Prentice Hall, 1978.
  • LPC-Analyse
  • Ein Standardautokorrelationsverfahren wird verwendet, um die LPC-Koeffizienten und Gewinn für sowohl das untere als auch das obere Teilband herzuleiten. Dies ist ein einfacher Lösungsansatz, der garantiert einen stabilen Allpolfilter ergibt; er weist jedoch eine Tendenz zum überschätzen von Formantenbandbreiten auf. Dieses Problem wird durch den Decodierer durch eine adaptive Formantenverbesserung ge löst, wie in A. V. McCree und T. P. Barnwell III beschrieen ist, „A mixed excitation lpc vocoder model for low bit rate speech coding"; IEEE-Trans. Speech and Audio Processing, Bd. 3, S. 242–250, Juli 1995, was das Spektrum um die Formanten herum verbessert, durch Filtern der Erregungssequenz mit einer bandbreitenerweiterten Version des LPC-Synthese- (Allpol-) Filters. Um die resultierende spektrale Neigung zu reduzieren, wird ebenfalls ein schwächeres All-Null-Filter angewendet. Das Gesamtfilter weist eine Übertragungsfunktion H(z) = A(z/0,5)/A(z/0,8) auf, wobei A(z) die Übertragungsfunktion des Allpolfilters ist.
  • Resynthese-LPC-Modell
  • Um potentielle Probleme aufgrund einer Diskontinuität zwischen den Leistungsspektren der zwei Teilband-LPC-Modellen und ferner aufgrund der Diskontinuität der Phasenantwort zu verhindern, wird ein einzelnes Resynthese-LPC-Modell hoher Ordnung aus den Teilbandmodellen erzeugt. Aus diesem Modell, für das eine Ordnung von 18 als geeignet erachtet wurde, kann Sprache wie bei einem standardmäßigen LPC-Vocoder synthetisiert werden. Zwei Lösungsansätze sind hier beschrieben, wobei der zweite das rechentechnisch einfachere Verfahren ist.
  • Nachfolgend werden die Tiefstellungen L bzw. H verwendet, um Merkmale von hypothetisierten, tiefpaßgefilterten Versionen des Breitbandsignals zu bezeichnen (angenommen, die Filter weisen Grenzfrequenzen bei 4 kHz auf, mit einer Einheitsantwort innerhalb des Durchlaßbandes und Null außerhalb), und die Tiefstellungen l und h werden verwendet, um Merkmale der Signale des oberen bzw. unteren Teilbandes zu bezeichnen.
  • Leistungsspektralbereichskombination
  • Die Leistungsspektraldichten der gefilterten Breitbandsignale PL(ω) und PH(ω) können wie folgt berechnet werden:
    Figure 00220001
    wobei al(n), ah(n) und gl, gh die LPC-Parameter bzw. der Gewinn aus einem Sprachrahmen sind und pl, ph die LPC-Modellordnungen sind. Der Ausdruck π – ω/2 tritt auf, da das obere Teilbandspektrum gespiegelt ist.
  • Die Leistungsspektraldichte des Breitbandsignals, PW(ω), ist gegeben durch PW(ω) – PL(ω) + PH(ω). (3)
  • Die Autokorrelation des Breitbandsignals ist gegeben durch die inverse zeitdiskrete Fourier-Transformation von PW(ω), und daraus kann das (18. Ordnung) LPC-Modell berechnet werden, das einem Rahmen des Breitbandsignals entspricht. Für eine praktische Implementierung wird die inverse Transformation unter Verwendung einer inversen diskreten Fourier-Transformation (DFT) ausgeführt. Dies führt jedoch zu dem Problem, daß eine große Anzahl von Spektralwerten benötigt wird (üblicherweise 512), um eine angemessene Frequenzauflösung zu ergeben, was zu übermäßigen rechentechnischen Anforderungen führt.
  • Autokorrelationsbereichskombination
  • Für diesen Lösungsansatz werden anstatt des Berechnens der Leistungsspektraldichten von Tiefpaß- und Hochpaß-Versionen des Breitbandsignals die Autokorrelationen, rL(τ) und rH(τ) erzeugt. Das tiefpaßgefilterte Breitbandsignal ist äquivalent zu dem unteren Teilband, aufwärts abgetastet um einen Faktor von 2. In dem Zeitbereich besteht dieses Aufwärtsabtasten aus dem Einfügen von alternativen Nullen (Interpolieren), gefolgt durch ein Tiefpaßfiltern. Daher umfaßt das Aufwärtsabtasten in dem Autokorrelationsbereich die Interpolation gefolgt durch das Filtern durch die Autokorrelation der Tiefpaßfilterimpulsantwort.
  • Die Autokorrelationen der zwei Teilbandsignale können effizient aus den Teilband-LPC-Modellen berechnet werden (siehe z. B. R. A. Roberts und C. T. Mullis, „Digital Signal Processing", Kapitel 11, S. 527, Addison-Wesley, 1987). Wenn rl(m) die Autokorrelation des unteren Teilbandes bezeichnet, dann ist die interpolierte Autokorrelation
    Figure 00230001
    gegeben durch:
    Figure 00230002
  • Die Autokorrelation des tiefpaßgefilterten Signals rL(m) ist.
    Figure 00230003
    wobei h(m) die Tiefpaßfilterimpulsantwort ist. Die Autokorrelation des hochpaßgefilterten Signals rH(m) stellt sich als ähnlich heraus, außer daß ein Hochpaßfilter angewendet wird.
  • Die Autokorrelation des Breitbandsignals rW(m) kann wie folgt ausgedrückt werden: rW(m) – rL(m) + rH(m), (6)und somit wird das Breitband-LPC-Modell berechnet. 5 zeigt das resultierende LPC-Spektrum für den Rahmen von nichtstimmhafter Sprache, der oben betrachtet wurde.
  • Im Vergleich zu der Kombination in dem Leistungsspektralbereich hat dieser Lösungsansatz den Vorteil, daß er rechentechnisch einfacher ist. FIR-Filter der Ordnung 30 haben sich als ausreichend herausgestellt, um das Aufwärtsabtasten auszuführen. In diesem Fall ist die schlechte Frequenzauflösung, die durch die Filter niedriger Ordnung impliziert wird, angemessen, da dies einfach zu einem Spektrallecken an der Überkreuzung zwischen den zwei Teilbändern führt. Die Lösungsansätze führen beide zu einer Sprache, die in der Wahrnehmung sehr ähnlich zu der ist, die unter Verwendung eines Analysemodells hoher Ordnung an der Breitbandsprache erhalten wird.
  • Aus den Skizzen für einen Rahmen einer nichtstimmhaften Sprache, die in 7, 8 und 9 gezeigt sind, ist der Effekt des Einschließens der Spektralinformationen des oberen Bandes hier besonders offensichtlich, da ein Großteil der Signalenergie innerhalb dieser Region des Spektrums enthalten ist.
  • Pitch-/Sprach-Analyse
  • Ein Pitch wird unter Verwendung einer standardmäßigen Pitchverfolgungseinrichtung bestimmt. Für jeden Rahmen, der bestimmt ist, um stimmhaft zu sein, wird eine Pitchfunktion, von der erwartet wird, daß dieselbe ein Minimum an der Pitchperiode aufweist, über einen Bereich von Zeitintervallen berechnet. Drei unterschiedliche Funktionen wurden implementiert, basierend auf der Autokorrelation, der Gemittelte-Größe-Differenz-Funktion (AMDF; AMDF = Averaged Magnitude Difference Function) und dem negativen Cepstrum.
  • Sie verhalten sich alle gut; die rechentechnisch effizienteste Funktion zum Verwenden hängt von der Architektur des Prozessors des Codierers ab. Über jede Sequenz von einem oder mehreren stimmhaften Rahmen werden die Minima der Pitchfunktion als die Pitchkandidaten ausgewählt. Die Sequenz von Pitchkandidaten, die eine Kostenfunktion minimiert, wird als die geschätzte Pitchkontur ausgewählt. Die Kostenfunktion ist die gewichtete Summe der Pitchfunktion und ändert sich im Pitch entlang des Weges. Der beste Weg kann auf eine rechentechnisch effiziente Weise unter Verwendung einer dynamischen Programmierung gefunden werden.
  • Der Zweck des Sprachklassifizierers ist es, zu bestimmen, ob jeder Sprachrahmen als das Ergebnis eines impulserregten oder rauscherregten Modells erzeugt wurde. Es besteht ein großer Bereich von Verfahren, die verwendet werden können, um eine Sprachentscheidung zu treffen. Das Verfahren, das bei diesem Ausführungsbeispiel angenommen wird, verwendet eine lineare Diskriminanzfunktion, die an die Energie des unteren Bandes, den ersten Autokorrelationskoeffizienten des unteren (und optional des oberen) Bandes und den Kostenwert aus der Pitchanalyse angewendet wird. Damit die Sprachentscheidung bei hohen Pegeln von Hintergrundrauschen gut funktionieren kann, kann eine Rauschverfolgungseinrichtung (wie sie z. B. in A. Varga und K. Ponting, „Control Experiments on Noise Compensation in Hidden Markov Model based Continuous Word Recognition", S. 167–170, Eurospeech 89 beschrieben ist) verwendet werden, um die Wahrscheinlichkeit des Rauschens zu berechnen, die dann in der linearen Diskriminanzfunktion umfaßt ist.
  • Parametercodieren
  • Sprachentscheidung
  • Die Sprachentscheidung wird einfach bei einem Bit pro Rahmen codiert. Es ist möglich, dies dadurch zu reduzieren, daß die Korrelation zwischen aufeinanderfolgenden Sprachentscheidungen berücksichtigt wird, aber die Reduktion der Bitrate ist gering.
  • Pitch
  • Für stimmlose Rahmen sind keine Pitchinformationen codiert. Für stimmhafte Rahmen wird der Pitch zuerst in den Protokollbereich transformiert und durch eine Konstante (z. B. 20) skaliert, um eine für die Wahrnehmung annehmbare Auflösung zu ergeben. Die Differenz zwischen transformiertem Pitch an dem aktuellen und vorangehenden stimmhaften Rahmen wird auf die nächste ganze Zahl gerundet und dann codiert.
  • Gewinne
  • Das Verfahren zum Codieren des Protokollpitches wird ebenfalls auf den Protokollgewinn angewendet, wobei angemessene Skalierungsfaktoren 1 und 0,7 für das niedrige bzw. hohe Band sind.
  • LPC-Koeffizienten
  • Die LPC-Koeffizienten erzeugen den Großteil der codierten Daten. Die LPC-Koeffizienten werden zuerst in eine Darstellung umgewandelt, die einer Quantisierung widerstehen kann, d. h. einer mit garantierter Stabilität und niedriger Verzerrung der zugrundeliegenden Formanten-Frequenzen und – Bandbreiten. Die LPC-Koeffizienten des oberen Teilbandes werden als Reflexionskoeffizienten codiert und die LPC-Koeffizienten des unteren Teilbandes werden in Linienspektralpaare (LSPs) umgewandelt, wie in F. Itakura, „Line spectrum representation of linear predictor coefficients of speech signals", J. Acoust. Soc. Ameri., Bd. 57, S35(A), 1975, beschrieben ist. Die Koeffizienten des oberen Teil bandes werden auf exakt die gleiche Weise codiert wie Protokollpitch und Protokollgewinn, d. h. Codieren der Differenz zwischen aufeinanderfolgenden Werten, wobei ein angemessener Skalierungsfaktor 5,0 ist. Die Codierung der Koeffizienten des unteren Bandes wird nachfolgend beschrieben.
  • Rice-Codierung
  • Bei diesem bestimmten Ausführungsbeispiel werden Parameter mit einer festen Schrittgröße quantisiert und dann unter Verwendung eines verlustlosen Codierens codiert. Das Verfahren des Codierens ist ein Rice-Code (wie in R. F. Rice & J. R. Plaunt, „Adaptive variable-length coding for efficient compression of spacecraft television data", IEEE Transactions on Communication Technology, Bd. 19, Nr. 6, S. 889–897, 1971, beschrieben ist), der eine Laplace-Dichte der Differenzen annimmt. Dieser Code weist eine Anzahl von Bits zu, die sich mit der Größe der Differenz erhöht. Dieses Verfahren ist geeignet für Anwendungen, die nicht erfordern, daß eine feste Anzahl von Bits pro Rahmen erzeugt wird, aber ein festes Bitratenschema ähnlich zu dem LPC10e-Schema könnte verwendet werden.
  • Stimmhafte Erregung
  • Die stimmhafte Erregung ist ein gemischtes Erregungssignal, das aus Rauschen und periodischen Komponenten besteht, die miteinander addiert werden. Die periodische Komponente ist die Impulsantwort eines Pulsdispersionsfilters (wie in McCree u. a. beschrieben ist), weitergeleitet durch ein periodisches Gewichtungsfilter. Die Rauschkomponente ist ein zufälliges Rauschen, das durch ein Rauschgewichtungsfilter weitergeleitet wird.
  • Das periodische Gewichtungsfilter ist ein FIR-Filter (FIR = Finite Impulse Response = finite Impulsantwort) 20. Ordnung, entworfen mit Übergangspunkten (in kHz) und Amplituden:
    Figure 00280001
  • Das Rauschgewichtungsfilter ist ein FIR-Filter 20. Ordnung mit entgegengesetzter Antwort, so daß dieselben zusammen eine einheitliche Antwort über das gesamte Frequenzband erzeugen.
  • LPC-Parametercodierung
  • Bei diesem Ausführungsbeispiel wird eine Prädiktion für das Codieren der Linienspektralpaarfrequenzen (LSFs) verwendet, und die Prädiktion kann adaptiv sein. Obwohl eine Vektorquantisierung verwendet werden könnte, wurde ein skalares Codieren verwenden, um sowohl Berechnung als auch Speicherung zu speichern. 11 zeigt das Gesamtcodierungsschema. Bei dem LPC-Parametercodierer 146 wird der Eingang li(t) an einen Addierer 148 angewendet, zusammen mit dem Negativwert einer Schätzung l ^i(t) aus dem Prädiktor 150, um einen Prädiktionsfehler zu liefern, der durch einen Quantisierer 152 quantisiert wird. Der quantisierte Prädiktionsfehler wird bei 154 Rice-codiert, um eine Ausgabe zu liefern, und wird ferner zu einem Addierer 156 zusammen mit der Ausgabe aus dem Prädiktor 150 geliefert, um die Eingabe zu dem Prädiktor 150 zu liefern.
  • Bei dem LPC-Parameterdecodierer 158 wird das Fehlersignal bei 160 Rice-decodiert und zu einem Addierer 162 zusammen mit der Ausgabe aus einem Prädiktor 164 geliefert. Die Summe aus dem Addierer 162, die einer Schätzung der aktuel len LSF-Komponente entspricht, wird ausgegeben und ferner zu dem Eingang des Prädiktors 164 geliefert.
  • LSF-Prädiktion
  • Die Prädiktionsstufe schätzt die aktuelle LSF-Komponente aus Daten, die aktuell für den Decodierer verfügbar sind. Es wird erwartet, daß die Abweichung des Prädiktionsfehlers geringer ist als die der Originalwerte, und somit sollte es möglich sein, dies bei einer niedrigeren Bitrate für einen gegebenen Durchschnittsfehler zu codieren.
  • Das LSF-Element i zu der Zeit t sei li(t) und das LSF-Element, wiedergewonnen durch den Decodierer, sei li(t). Wenn die LSFs sequentiell zeitlich und in der Reihenfolge eines steigenden Indexes innerhalb eines gegebenen Zeitrahmens codiert werden, dann sind folgende Werte verfügbar, um li(t) vorherzusagen: {l j(t)|1 ≤ j < i}und {l j(τ)|τ < t und 1 ≤ j < 10}.
  • Daher kann ein allgemeiner linearer LSF-Prädiktor wie folgt geschrieben werden
    Figure 00290001
    wobei aij(T) die Gewichtung ist, die der Prädiktion von l ^i(t) aus l j(t – τ) zugeordnet ist.
  • Allgemein sollte nur ein kleiner Satz von Werten von aij(τ) verwendet werden, da ein Prädiktor hoher Ordnung rechentechnisch weniger effizient ist, sowohl anzuwenden als auch zu schätzen. Experimente wurden an nichtquantisierten LSF-Vektoren durchgeführt (d. h. Vorhersagen von lj(τ) und nicht l j(τ), um das Verhalten von verschiedenen Prädiktorkonfigurationen zu schätzen, deren Ergebnisse sind:
    Figure 00300001
    Tabelle 1
  • Das System D (gezeigt in 12) wurde ausgewählt, da es den besten Kompromiß zwischen Effizienz und Fehler liefert. Ein Schema wurde implementiert, wo der Prädiktor adaptiv modifiziert wurde. Die adaptive Aktualisierung wird ausgeführt gemäß:
    Figure 00300002
    wo ρ die Adaptionsrate bestimmt (ein Wert von ρ = 0,005 wurde als geeignet befunden, der eine Zeitkonstante von 4,5 Sekunden ergibt). Die Ausdrücke Cxx und Cxy werden aus Trainingsdaten initialisiert, wie
    Figure 00300003
    Figure 00310001
  • Hier ist yi ein Wert, der vorhergesagt werden soll (li(t)) und xi ist ein Vektor von Prädiktoreingaben (der l, li(t – 1) etc. enthält). Die in Gleichung 8 definierten Aktualisierungen werden nach jedem Rahmen angewendet und neue Prädiktorkoeffizienten, p, eines minimalen mittleren quadratischen Fehlers (MMSE) werden berechnet durch Auflösen von Cxxp = Cxy.
  • Der adaptive Prädiktor wird nur benötigt, wenn große Differenzen zwischen Trainings- und Betriebszuständen vorliegen, die z. B. durch Sprecherabweichungen, Kanaldifferenzen oder Hintergrundrauschen verursacht werden.
  • Quantisierung und Codierung
  • Wenn eine Prädiktorausgabe l ^i(t) gegeben ist, wird der Prädiktionsfehler berechnet als ei(t) = li(t) – l ^i(t). Dies wird einheitlich quantisiert durch Skalieren, um einen Fehler e i(t) zu ergeben, der dann verlustfrei auf dieselbe Weise wie alle anderen Parameter codiert wird. Ein geeigneter Skalierungsfaktor ist 160,0. Eine gröbere Quantisierung kann für Rahmen verwendet werden, die als stimmlos klassifiziert sind.
  • Ergebnisse
  • Diagnostische Reimtests (DRTs) (wie in W. D. Voiers, „Diagnostic evaluation of speech intelligibility", in Speech Intelligibility and Speaker Recognition (M. E. Hawley, cd.), S. 374–387, Dowden, Hutchinson & Ross, Inc., 1977, be schrieben ist) wurden durchgeführt, um die Verständlichkeit eines Breitband-LPC-Vocoders unter Verwendung des Autokorrelationsbereichskombinationsverfahrens mit dem eines 4.800-bps-CELP-Codierers (Federal Standard 1016) (betrieben bei Schmalbandsprechen) zu vergleichen. Für den LPC-Vocoder wurde der Pegel der Quantisierung und die Rahmenperiode eingestellt, um eine durchschnittliche Bitrate von ungefähr 2.400 bps zu ergeben. Aus den Ergebnissen, die in Tabelle 2 gezeigt sind, ist ersichtlich, daß die DRT-Einstufung für den Breitband-LPC-Codierer die für den CELP-Codierer überschreitet.
  • Figure 00320001
    Tabelle 2
  • Dieses oben beschriebene zweite Ausführungsbeispiel umfaßt zwei neue Verbesserungen für LPC-Vocoder, nämlich ein Pulsdispersionsfilter und eine adaptive Spektralverbesserung.

Claims (32)

  1. Ein Audiocodierungssystem zum Codieren und Decodieren eines Audiosignals, wobei das System einen Codierer und einen Decodierer umfaßt, wobei der Codierer folgende Merkmale aufweist: eine Filtereinrichtung zum Zerlegen des Audiosignals in ein oberes und ein unteres Teilbandsignal; eine Codierungseinrichtung für das untere Teilband zum Codieren des unteren Teilbandsignals; eine Codierungseinrichtung für das obere Teilband zum parametrischen Codieren von zumindest der nichtperiodischen Komponente des oberen Teilbandsignals gemäß einem Quellfiltermodell; wobei die Decodereinrichtung eine Einrichtung zum Decodieren des codierten unteren Teilbandsignals und des codierten oberen Teilbandsignals und zum Rekonstruieren eines Audioausgangssignals aus denselben aufweist, wobei die Decodereinrichtung eine Filtereinrichtung und eine Erregungseinrichtung zum Erzeugen eines Erregungssignals aufweist, um durch die Filtereinrichtung durchgeleitet zu werden, um ein synthetisiertes oberes Teilbandsignal zu erzeugen, wobei die Erregungseinrichtung in Verwendung ein Erregungssignal erzeugt, das eine wesentliche Komponente von synthetisiertem Rauschen in einem oberen Frequenzband umfaßt, das dem oberen Teilband des Audiosignals entspricht, und wobei das synthetisierte obere Teilbandsignal und das decodierte untere Teilbandsignal in Verwendung rekombiniert werden, um das Audioausgangssignal zu bilden.
  2. Ein Audiocodierungssystem gemäß Anspruch 1, bei dem die Decodereinrichtung eine Decodiereinrichtung für das untere Teilband und eine Decodiereinrichtung für das obere Teilband aufweist, zum Empfangen und Decodieren des codierten oberen bzw. unteren Teilbandsignals.
  3. Ein Audiocodierungssystem gemäß Anspruch 1 oder 2, bei dem das obere Frequenzband des Erregungssignals ein synthetisiertes Rauschsignal im wesentlichen vollständig aufweist.
  4. Ein Audiocodierungssystem gemäß Anspruch 1 oder 2, bei dem das Erregungssignal eine Mischung aus einer synthetisierten Rauschkomponente und einer weiteren Komponente aufweist, die einer oder mehreren Harmonischen des unteren Teilbandaudiosignals entspricht.
  5. Ein Audiocodierungssystem gemäß einem der vorangehenden Ansprüche, bei dem die obere Teilbandcodierungseinrichtung eine Einrichtung zum Analysieren und Codieren des oberen Teilbandsignals aufweist, um eine untere Teilbandenergie oder einen Verstärkungswert und einen oder mehrere Oberes-Teilband-Spektralparameter zu erhalten.
  6. Ein Audiocodierungssystem gemäß Anspruch 5, bei dem der eine oder die mehreren Oberes-Teilband-Spektralparameter LPC-Koeffizienten zweiter Ordnung aufweisen.
  7. Ein Audiocodierungssystem gemäß Anspruch 5 oder 6, bei dem die Codierungseinrichtung eine Einrichtung zum Messen der Energie in dem oberen Teilband umfaßt, um dadurch die obere Teilbandenergie oder den Verstärkungswert herzuleiten.
  8. Ein Audiocodierungssystem gemäß Anspruch 5 oder 6, bei dem die Codierungseinrichtung eine Einrichtung zum Messen der Energie einer Rauschkomponente in dem oberen Bandsignal umfaßt, um dadurch die obere Teilbandenergie oder den Verstärkungswert herzuleiten.
  9. Ein Audiocodierungssystem gemäß Anspruch 7 oder Anspruch 8, das eine Einrichtung zum Überwachen der Energie in dem oberen Teilbandsignal, das Vergleichen derselben mit einer Schwelle, die aus zumindest entweder der oberen oder der unteren Teilbandenergie hergeleitet wird, und zum Verursachen, daß die obere Teilbandcodierungseinrichtung eine Minimalcodeausgabe liefert, ob die überwachte Energie unter der Schwelle liegt.
  10. Ein Audiocodierungssystem gemäß einem der vorangehenden Ansprüche, bei dem die Codierungseinrichtung für das untere Teilband einen Sprachcodierer aufweist und eine Einrichtung zum Bereitstellen einer Stimmentscheidung umfaßt.
  11. Ein Audiocodierungssystem gemäß Anspruch 10, bei dem die Decodereinrichtung eine Einrichtung umfaßt, die auf die Energie in dem oberen bandcodierten Signal und die Stimmentscheidung anspricht, um die Rauschenergie in dem Erregungssignal abhängig davon anzupassen, ob das Audiosignal stimmhaft oder stimmlos ist.
  12. Ein Audiocodierungssystem gemäß einem der Ansprüche 1 bis 9, bei dem die Codierungseinrichtung für das untere Teilband einen MPEG-Audiocodierer aufweist.
  13. Ein Audiocodierungssystem gemäß einem der vorangehenden Ansprüche, bei dem das obere Teilband Frequenzen über 2,75 kHz und das untere Teilband Frequenzen unter 2,75 kHz enthält.
  14. Ein Audiocodierungssystem gemäß der Ansprüche 1 bis 12, bei dem das obere Teilband Frequenzen über 4 kHz aufweist und das untere Teilband Frequenzen unter 4 kHz enthält.
  15. Ein Audiocodierungssystem gemäß der Ansprüche 1 bis 12, bei dem das obere Teilband Frequenzen über 5,5 kHz aufweist und das untere Teilband Frequenzen unter 5,5 kHz enthält.
  16. Ein Audiocodierer gemäß einem der vorangehenden Ansprüche, bei dem die Codierungseinrichtung für das obere Teilband die Rauschkomponente mit einer Bitrate von weniger als 800 bps und vorzugsweise ungefähr 300 bps codiert.
  17. Ein Audiocodierungssystem gemäß Anspruch 5 oder einem davon abhängigen Anspruch, wobei das obere Teilbandsignal mit langen Rahmenperioden analysiert wird, um die Spektralparameter zu bestimmen, und mit kurzen Rahmenperioden, um den Energie- oder Verstärkungs-Wert zu bestimmen.
  18. Ein Audiocodierungsverfahren zum Codieren und Decodieren eines Audiosignals, wobei das Verfahren folgende Schritte aufweist: Zerlegen eines Audiosignals in ein oberes und ein unteres Teilbandsignal; Codieren des unteren Teilbandsignals; parametrisches Codieren von zumindest der nichtperiodischen Komponente des oberen Teilbandsignals gemäß einem Quellfiltermodell; und Decodieren des codierten unteren Teilbandsignals und des codierten oberen Teilbandsignals, um ein Audioausgangssignal zu rekonstruieren; wobei der Decodierungsschritt das Bereitstellen eines Erregungssignals, das eine wesentliche Komponente von synthetisiertem Rauschen in einem oberen Frequenzband umfaßt, das dem oberen Frequenzband des Audiosignals entspricht, ein Durchleiten des Erregungssignals durch eine Filtereinrichtung, um ein synthetisiertes oberes Teilbandsignal zu erzeugen, und ein Rekombinieren des synthetisierten oberen Teilbandsignals und des decodierten unteren Teilbandsignals umfaßt, um das Audioausgangssignal zu bilden.
  19. Ein Audiocodierer zum Codieren eines Audiosignals, wobei der Codierer folgende Merkmale aufweist: eine Einrichtung zum Zerlegen des Audiosignals in ein oberes und ein unteres Teilbandsignal; eine untere Teilbandcodierungseinrichtung zum Codieren des unteren Teilbandsignals; und eine obere Teilbandcodierungseinrichtung zum parametrischen Codieren von zumindest einer Rauschkomponente des oberen Teilbandsignals gemäß einem Quellfiltermodell.
  20. Ein Verfahren zum Codieren eines Audiosignals, das das Aufteilen des Audiosignals in ein oberes und ein unteres Teilbandsignal, das Codieren des unteren Teilbandsignals und das parametrische Codieren von zumindest einer Rauschkomponente des oberen Teilbandsignals gemäß einem Quellfiltermodell aufweist.
  21. Ein Audiodecodierer, der zum Decodieren eines Audiosignals angepaßt ist, das gemäß dem Verfahren von An spruch 20 codiert ist, wobei der Decodierer eine Filtereinrichtung und eine Erregungseinrichtung zum Erzeugen eines Erregungssignals aufweist, das durch die Filtereinrichtung durchgeleitet werden soll, um ein synthetisiertes Audiosignal zu erzeugen, wobei die Erregungseinrichtung in Verwendung ein Erregungssignal erzeugt, das eine wesentliche Komponente von synthetisiertem Rauschen in einem oberen Frequenzband umfaßt, das den oberen Teilbändern des Audiosignals entspricht.
  22. Ein Verfahren zum Decodieren eines Audiosignals, das gemäß dem Verfahren von Anspruch 20 codiert ist, das das Bereitstellen eines Erregungssignals, das eine wesentliche Komponente von synthetisiertem Rauschen in einer oberen Frequenzbandbreite umfaßt, die dem oberen Teilband des Eingangsaudiosignals entspricht, und das Durchleiten des Erregungssignals durch eine Filtereinrichtung aufweist, um ein synthetisiertes Audiosignal zu erzeugen.
  23. Ein Codierungssystem zum Codieren und Decodieren eines Sprachsignals, wobei das System eine Codierereinrichtung und eine Decodierereinrichtung aufweist, wobei die Codierereinrichtung folgende Merkmale aufweist: eine Filtereinrichtung zum Aufteilen des Sprachsignals in ein oberes und ein unteres Teilband, die zusammen eine Bandbreite von zumindest 5,5 kHz definieren; eine Vocoderanalyseeinrichtung für das untere Teilband zum Durchführen einer Vocoderanalyse hoher Ordnung an dem unteren Teilband, um Vocoderkoeffizienten zu erhalten, die LPC-Koeffizienten umfassen, die das untere Teilband darstellen; eine Vocoderanalyseeinrichtung für das obere Teilband, zum Durchführen einer Vocoderanalyse niedriger Ordnung an dem oberen Teilband, um Vocoderkoeffizienten zu erhalten, die LPC-Koeffizienten umfassen, die das obere Teilband darstellen; eine Codierungseinrichtung zum Codieren von Vocoderparametern, die die unteren und die oberen Teilbandkoeffizienten umfassen, um ein codiertes Signal für eine Speicherung und/oder Übertragung zu liefern, und wobei die Decodereinrichtung folgende Merkmale umfaßt: eine Decodiereinrichtung zum Decodieren des codierten Signals, um einen Satz von Vocoderparametern zu erhalten, die die unteren und die oberen Teilbandvocoderkoeffizienten kombinieren; eine Synthetisierungseinrichtung zum Erzeugen eines LPC-Filters aus dem Satz von Vocoderparametern und zum Synthetisieren des Sprachsignals aus dem Filter und aus einem Erregungssignal.
  24. Ein Stimmcodierersystem gemäß Anspruch 23, bei dem die Vocoderanalyseeinrichtung für das untere Teilband und die Vocoderanalyseeinrichtung für das obere Teilband LPC-Vocoderanalyseeinrichtungen sind.
  25. Ein Stimmcodierersystem gemäß Anspruch 24, bei dem die LPC-Analyseeinrichtung des unteren Teilbands eine Analyse zehnter Ordnung oder höher durchführt.
  26. Ein Stimmcodierersystem gemäß Anspruch 24 oder Anspruch 25, bei dem die LPC-Analyseeinrichtung des hohen Bandes eine Analyse zweiter Ordnung durchführt.
  27. Ein Stimmcodierersystem gemäß einem der Ansprüche 23 bis 26, bei dem die Synthetisierungseinrichtung eine Einrichtung zum Resynthetisieren des unteren Teilbandes und des oberen Teilbandes und zum Kombinieren des resynthetisierten unteren und oberen Teilbandes umfaßt.
  28. Ein Stimmcodierersystem gemäß Anspruch 27, bei dem die Synthetisierungseinrichtung eine Einrichtung zum Bestimmen der Leistungsspektraldichten des unteren Teilbandes bzw. des oberen Teilbandes und eine Einrichtung zum Kombinieren der Leistungsspektraldichten umfaßt, um ein LPC-Modell hoher Ordnung zu erhalten.
  29. Ein Stimmcodierersystem gemäß Anspruch 28, bei dem die Einrichtung zum Kombinieren eine Einrichtung zum Bestimmen der Autokorrelationen der kombinierten Leistungsspektraldichten umfaßt.
  30. Ein Stimmcodierersystem gemäß Anspruch 29, bei dem die Einrichtung zum Kombinieren eine Einrichtung zum Bestimmen der Autokorrelationen der Leistungsspektraldichtefunktionen der unteren bzw. oberen Teilbänder und dann das Kombinieren der Autokorrelationen umfaßt.
  31. Eine Stimmcodierervorrichtung zum Codieren eines Stimmsignals, wobei die Codierervorrichtung folgende Merkmale umfaßt: eine Filtereinrichtung zum Zerlegen des Sprachsignals in ein unteres und ein oberes Teilband; eine Niedrigband-Vocoderanalyseeinrichtung zum Durchführen einer Vocoderanalyse hoher Ordnung an dem unteren Teilbandsignal, um Vocoderkoeffizienten zu erhalten, die das untere Teilband darstellen; eine Vocoderanalyseeinrichtung des oberen Bandes zum Durchführen einer Vocoderanalyse niedriger Ordnung an dem oberen Teilbandsignal, um Vocoderkoeffizienten zu erhalten, die das obere Teilband darstellen; und eine Codierungseinrichtung zum Codieren der niedrigen und hohen Teilbandvocoderkoeffizienten, um ein codiertes Signal für eine Speicherung und/oder Übertragung zu liefern.
  32. Ein Stimmdecodervorrichtung, die zum Synthetisieren eines Sprachsignals angepaßt ist, das durch einen Codierer gemäß Anspruch 31 codiert ist, und wobei das codierte Sprachsignal Parameter aufweist, die LPC-Koeffizienten für ein unteres Teilband und ein oberes Teilband umfassen, wobei die Decodervorrichtung folgende Merkmale umfaßt: eine Decodiereinrichtung zum Decodieren des codierten Signals, um einen Satz von LPC-Parametern zu erhalten, die die unteren und oberen Teilband-LPC-Koeffizienten kombinieren; und eine Synthetisierungseinrichtung zum Erzeugen eines LPC-Filters aus dem Satz von LPC-Parametern für das obere und das untere Teilband, und zum Synthetisieren des Sprachsignals aus dem Filter und aus einem Erregungssignal.
DE69816810T 1997-05-15 1998-05-15 Systeme und verfahren zur audio-kodierung Expired - Lifetime DE69816810T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP97303321A EP0878790A1 (de) 1997-05-15 1997-05-15 Sprachkodiersystem und Verfahren
EP97303321 1997-05-15
PCT/GB1998/001414 WO1998052187A1 (en) 1997-05-15 1998-05-15 Audio coding systems and methods

Publications (2)

Publication Number Publication Date
DE69816810D1 DE69816810D1 (de) 2003-09-04
DE69816810T2 true DE69816810T2 (de) 2004-11-25

Family

ID=8229331

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69816810T Expired - Lifetime DE69816810T2 (de) 1997-05-15 1998-05-15 Systeme und verfahren zur audio-kodierung

Country Status (5)

Country Link
US (2) US6675144B1 (de)
EP (2) EP0878790A1 (de)
JP (1) JP4843124B2 (de)
DE (1) DE69816810T2 (de)
WO (1) WO1998052187A1 (de)

Families Citing this family (82)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6505152B1 (en) 1999-09-03 2003-01-07 Microsoft Corporation Method and apparatus for using formant models in speech systems
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
JP4465768B2 (ja) * 1999-12-28 2010-05-19 ソニー株式会社 音声合成装置および方法、並びに記録媒体
FI119576B (fi) * 2000-03-07 2008-12-31 Nokia Corp Puheenkäsittelylaite ja menetelmä puheen käsittelemiseksi, sekä digitaalinen radiopuhelin
US7136810B2 (en) * 2000-05-22 2006-11-14 Texas Instruments Incorporated Wideband speech coding system and method
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
EP1199812A1 (de) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Kodierung der akustischen Signale mit Verbesserung der Wahrnehmung
US6836804B1 (en) * 2000-10-30 2004-12-28 Cisco Technology, Inc. VoIP network
US6829577B1 (en) * 2000-11-03 2004-12-07 International Business Machines Corporation Generating non-stationary additive noise for addition to synthesized speech
US6889182B2 (en) 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
EP1356454B1 (de) * 2001-01-19 2006-03-01 Koninklijke Philips Electronics N.V. Breitband-signalübertragungssystem
JP4008244B2 (ja) * 2001-03-02 2007-11-14 松下電器産業株式会社 符号化装置および復号化装置
AUPR433901A0 (en) * 2001-04-10 2001-05-17 Lake Technology Limited High frequency signal construction method
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
EP1271772B1 (de) * 2001-06-28 2007-08-15 STMicroelectronics S.r.l. Ein Prozess zur Rauschreduzierung insbesondere für Audiosysteme und zugehörige Vorrichtung und Computerprogrammprodukt
CA2359544A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time speech recognition system using an oversampled filterbank
JP4317355B2 (ja) * 2001-11-30 2009-08-19 パナソニック株式会社 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) * 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
CN1328707C (zh) * 2002-07-19 2007-07-25 日本电气株式会社 音频解码设备以及解码方法
US8254935B2 (en) * 2002-09-24 2012-08-28 Fujitsu Limited Packet transferring/transmitting method and mobile communication system
US7379866B2 (en) * 2003-03-15 2008-05-27 Mindspeed Technologies, Inc. Simple noise suppression model
US7318035B2 (en) * 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US7577259B2 (en) 2003-05-20 2009-08-18 Panasonic Corporation Method and apparatus for extending band of audio signal using higher harmonic wave generator
US7548852B2 (en) * 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
US7619995B1 (en) * 2003-07-18 2009-11-17 Nortel Networks Limited Transcoders and mixers for voice-over-IP conferencing
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
EP1939862B1 (de) * 2004-05-19 2016-10-05 Panasonic Intellectual Property Corporation of America Kodiervorrichtung, Dekodiervorrichtung und Verfahren dafür
JP4318119B2 (ja) * 2004-06-18 2009-08-19 国立大学法人京都大学 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム
CN101023472B (zh) * 2004-09-06 2010-06-23 松下电器产业株式会社 可扩展编码装置和可扩展编码方法
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
DE102005000830A1 (de) * 2005-01-05 2006-07-13 Siemens Ag Verfahren zur Bandbreitenerweiterung
US8082156B2 (en) * 2005-01-11 2011-12-20 Nec Corporation Audio encoding device, audio encoding method, and audio encoding program for encoding a wide-band audio signal
WO2006085244A1 (en) * 2005-02-10 2006-08-17 Koninklijke Philips Electronics N.V. Sound synthesis
US7970607B2 (en) * 2005-02-11 2011-06-28 Clyde Holmes Method and system for low bit rate voice encoding and decoding applicable for any reduced bandwidth requirements including wireless
EP1866914B1 (de) * 2005-04-01 2010-03-03 Qualcomm Incorporated Vorrichtung und Verfahren für die Teilband-Sprachkodierung
US7813931B2 (en) * 2005-04-20 2010-10-12 QNX Software Systems, Co. System for improving speech quality and intelligibility with bandwidth compression/expansion
US8249861B2 (en) * 2005-04-20 2012-08-21 Qnx Software Systems Limited High frequency compression integration
US8086451B2 (en) * 2005-04-20 2011-12-27 Qnx Software Systems Co. System for improving speech intelligibility through high frequency compression
TWI317933B (en) 2005-04-22 2009-12-01 Qualcomm Inc Methods, data storage medium,apparatus of signal processing,and cellular telephone including the same
US7852999B2 (en) * 2005-04-27 2010-12-14 Cisco Technology, Inc. Classifying signals at a conference bridge
KR100803205B1 (ko) * 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
US7546237B2 (en) * 2005-12-23 2009-06-09 Qnx Software Systems (Wavemakers), Inc. Bandwidth extension of narrowband speech
US7924930B1 (en) * 2006-02-15 2011-04-12 Marvell International Ltd. Robust synchronization and detection mechanisms for OFDM WLAN systems
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US9159333B2 (en) 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101390188B1 (ko) * 2006-06-21 2014-04-30 삼성전자주식회사 적응적 고주파수영역 부호화 및 복호화 방법 및 장치
US8010352B2 (en) 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
JP4660433B2 (ja) * 2006-06-29 2011-03-30 株式会社東芝 符号化回路、復号回路、エンコーダ回路、デコーダ回路、cabac処理方法
US8275323B1 (en) 2006-07-14 2012-09-25 Marvell International Ltd. Clear-channel assessment in 40 MHz wireless receivers
US9454974B2 (en) * 2006-07-31 2016-09-27 Qualcomm Incorporated Systems, methods, and apparatus for gain factor limiting
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
US8639500B2 (en) * 2006-11-17 2014-01-28 Samsung Electronics Co., Ltd. Method, medium, and apparatus with bandwidth extension encoding and/or decoding
KR101379263B1 (ko) * 2007-01-12 2014-03-28 삼성전자주식회사 대역폭 확장 복호화 방법 및 장치
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
US8108211B2 (en) * 2007-03-29 2012-01-31 Sony Corporation Method of and apparatus for analyzing noise in a signal processing system
US8711249B2 (en) * 2007-03-29 2014-04-29 Sony Corporation Method of and apparatus for image denoising
US8566107B2 (en) * 2007-10-15 2013-10-22 Lg Electronics Inc. Multi-mode method and an apparatus for processing a signal
US8326617B2 (en) * 2007-10-24 2012-12-04 Qnx Software Systems Limited Speech enhancement with minimum gating
ES2678415T3 (es) * 2008-08-05 2018-08-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
JP5459688B2 (ja) * 2009-03-31 2014-04-02 ▲ホア▼▲ウェイ▼技術有限公司 復号信号のスペクトルを調整する方法、装置、および音声復号システム
EP2309777B1 (de) * 2009-09-14 2012-11-07 GN Resound A/S Hörgerät mit Mitteln für die Dekorrelation von Eingangs- und Ausgangssignalen
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
WO2011086923A1 (ja) * 2010-01-14 2011-07-21 パナソニック株式会社 符号化装置、復号装置、スペクトル変動量算出方法及びスペクトル振幅調整方法
US20120143604A1 (en) * 2010-12-07 2012-06-07 Rita Singh Method for Restoring Spectral Components in Denoised Speech Signals
WO2012108798A1 (en) * 2011-02-09 2012-08-16 Telefonaktiebolaget L M Ericsson (Publ) Efficient encoding/decoding of audio signals
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
US9025779B2 (en) 2011-08-08 2015-05-05 Cisco Technology, Inc. System and method for using endpoints to provide sound monitoring
US8982849B1 (en) 2011-12-15 2015-03-17 Marvell International Ltd. Coexistence mechanism for 802.11AC compliant 80 MHz WLAN receivers
CN103366751B (zh) * 2012-03-28 2015-10-14 北京天籁传音数字技术有限公司 一种声音编解码装置及其方法
US9336789B2 (en) 2013-02-21 2016-05-10 Qualcomm Incorporated Systems and methods for determining an interpolation factor set for synthesizing a speech signal
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
CN108172239B (zh) 2013-09-26 2021-01-12 华为技术有限公司 频带扩展的方法及装置
US9697843B2 (en) 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10089989B2 (en) 2015-12-07 2018-10-02 Semiconductor Components Industries, Llc Method and apparatus for a low power voice trigger device
CN113113032B (zh) * 2020-01-10 2024-08-09 华为技术有限公司 一种音频编解码方法和音频编解码设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2412987A1 (fr) * 1977-12-23 1979-07-20 Ibm France Procede de compression de donnees relatives au signal vocal et dispositif mettant en oeuvre ledit procede
WO1987002816A1 (en) * 1985-10-30 1987-05-07 Central Institute For The Deaf Speech processing apparatus and methods
DE3683767D1 (de) * 1986-04-30 1992-03-12 Ibm Sprachkodierungsverfahren und einrichtung zur ausfuehrung dieses verfahrens.
JPH05265492A (ja) * 1991-03-27 1993-10-15 Oki Electric Ind Co Ltd コード励振線形予測符号化器及び復号化器
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
IT1257065B (it) * 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
DE69326431T2 (de) * 1992-12-28 2000-02-03 Kabushiki Kaisha Toshiba, Kawasaki Spracherkennungs-Schnittstellensystem, das als Fenstersystem und Sprach-Postsystem verwendbar ist
JPH07160299A (ja) * 1993-12-06 1995-06-23 Hitachi Denshi Ltd 音声信号帯域圧縮伸張装置並びに音声信号の帯域圧縮伝送方式及び再生方式
FI98163C (fi) * 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US5797120A (en) * 1996-09-04 1998-08-18 Advanced Micro Devices, Inc. System and method for generating re-configurable band limited noise using modulation
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置

Also Published As

Publication number Publication date
JP4843124B2 (ja) 2011-12-21
EP0878790A1 (de) 1998-11-18
US6675144B1 (en) 2004-01-06
DE69816810D1 (de) 2003-09-04
EP0981816B9 (de) 2004-08-11
WO1998052187A1 (en) 1998-11-19
EP0981816A1 (de) 2000-03-01
JP2001525079A (ja) 2001-12-04
EP0981816B1 (de) 2003-07-30
US20040019492A1 (en) 2004-01-29

Similar Documents

Publication Publication Date Title
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
EP1825461B1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60225381T2 (de) Verfahren zur Kodierung von Sprach- und Musiksignalen
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE60011051T2 (de) Celp-transkodierung
DE69615302T2 (de) Maskierung des wahrnehmbaren Rauschens auf der Basis der Frequenzantwort eines Synthesefilters
AU2007206167B8 (en) Apparatus and method for encoding and decoding signal
US7257535B2 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
DE60124274T2 (de) Codebuchstruktur und suchverfahren für die sprachkodierung
DE602004007786T2 (de) Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE69604526T2 (de) Verfahren zur Anpassung des Rauschmaskierungspegels in einem Analyse-durch-Synthese-Sprachkodierer mit einem wahrnehmunggebundenen Kurzzeitfilter
DE60316396T2 (de) Interoperable Sprachkodierung
DE69620967T2 (de) Synthese von Sprachsignalen in Abwesenheit kodierter Parameter
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
US20150095039A1 (en) Enhancing Performance of Spectral Band Replication and Related High Frequency Reconstruction Coding
DE69729527T2 (de) Verfahren und Vorrichtung zur Kodierung von Sprachsignalen
US8812327B2 (en) Coding/decoding of digital audio signals
DE3884839T2 (de) Codierung von akustischen Wellenformen.
DE60118627T2 (de) Vorrichtung und Verfahren zur Breitbandcodierung von Sprachsignalen
DE69703233T2 (de) Verfahren und Systeme zur Sprachkodierung
DE60109111T2 (de) Sprachdekoder zum hochqualitativen Dekodieren von Signalen mit Hintergrundrauschen

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: HEWLETT-PACKARD DEVELOPMENT CO., L.P., HOUSTON, TE