[go: up one dir, main page]

DE69518454T2 - Abschätzung von Anregungsparametern - Google Patents

Abschätzung von Anregungsparametern

Info

Publication number
DE69518454T2
DE69518454T2 DE69518454T DE69518454T DE69518454T2 DE 69518454 T2 DE69518454 T2 DE 69518454T2 DE 69518454 T DE69518454 T DE 69518454T DE 69518454 T DE69518454 T DE 69518454T DE 69518454 T2 DE69518454 T2 DE 69518454T2
Authority
DE
Germany
Prior art keywords
frequency band
signal
modified
band signal
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69518454T
Other languages
English (en)
Other versions
DE69518454D1 (de
Inventor
Daniel Wayne Griffin
Jae S. Lim
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Voice Systems Inc
Original Assignee
Digital Voice Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Voice Systems Inc filed Critical Digital Voice Systems Inc
Application granted granted Critical
Publication of DE69518454D1 publication Critical patent/DE69518454D1/de
Publication of DE69518454T2 publication Critical patent/DE69518454T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Description

  • Die Erfindung betrifft die Abschätzung von Erregungsparametern bei der Sprachanalyse und -synthese.
  • Sprachanalyse und -synthese werden in Anwendungen, wie z. B. Telekommunikation und Spracherkennung, umfangreich verwendet. Ein Vocoder, der eine Art Sprach-Analyse/Synthese-System ist, modelliert die Sprache als Antwort eines Systems auf die Erregung über kurze Zeitintervalle. Beispiele von Vocodersystemen umfassen Vocoder mit linearer Vorhersage, homomorphe Vocoder, Kanalvocoder, Sinustransformationscodierer ("STC"), Vocoder mit Mehrbandanregung ("MBE") und Vocoder mit verbesserter Mehrbandanregung ("IMBE").
  • Vocoder synthetisieren Sprache typischerweise auf der Basis von Erregungsparametern und Systemparametern. Typischerweise wird ein Eingangssignal unter Verwendung von beispielsweise einem Hamming-Fenster in Segmente unterteilt. Dann werden für jedes Segment Systemparameter und Erregungsparameter ermittelt. Die Systemparameter beinhalten die Spektralhüllkurve oder die Impulsantwort des Systems. Die Erregungsparameter beinhalten eine Entscheidung mit Sprache belegt/unbelegt, die angibt, ob das Eingangssignal eine Tonhöhe aufweist, und eine Grundfrequenz (oder Tonhöhe) angibt. In Vocodern, die die Sprache in Frequenzbänder unterteilen, wie z. B. IMBE- (TM) Vocoder, können die Erregungsparameter auch eine Entscheidung mit Sprache belegt/unbelegt für jedes Frequenzband anstelle einer einzelnen Entscheidung mit Sprache belegt/unbelegt umfassen. Genaue Erregungsparameter sind für eine Sprachsynthese mit hoher Qualität wesentlich.
  • Die Erregungsparameter können auch in Anwendungen wie z. B. Spracherkennung verwendet werden, wo keine Sprachsynthese erforderlich ist. Wiederum wirkt sich die Genauigkeit der Erregungsparameter direkt auf die Leistung eines solchen Systems aus.
  • Das US-Patent 4 091 237 von Wolnowsky et al. offenbart eine Vorrichtung und ein Verfahren zum Ermitteln der Tonhöhenfrequenz von menschlicher Sprache in einem digitalen Sprachsignal. Wolnowsky et al. verwenden eine Reihe von aktiven Filtern, die ein Eingangssignal in eine Vielzahl von Kanälen unterteilen, wobei jeder Kanal einem anderen Frequenzband entspricht. Das Signal für jeden Kanal wird zu einer entsprechenden Rechteckformungsschaltung mit niedriger Schwelle geliefert, die als Vergleicherschaltung bezeichnet wird und die eine Rechteckwellenfrequenz erzeugt, die der vorherrschenden Frequenz des Kanals entspricht. Die Impulsfolgen aus den jeweiligen Kanälen werden summiert, um ein Zweiphasen-Oberwellenhistogramm zu bilden, aus dem die Tonhöhenfrequenz oder Grundfrequenz abgeleitet wird.
  • Das Anwenden eines nichtlinearen Vorgangs auf ein Sprachsignal, um die Grundfrequenz des Sprachsignals zu betonen, kann die Genauigkeit, mit der die Grundfrequenz und weitere Erregungsparameter ermittelt werden, verbessern. Ein analoges Sprachsignal s(t) kann abgetastet werden, um ein Sprachsignal s(n) zu erzeugen. Das Sprachsignal s(n) wird dann mit einem Fenster w(n) multipliziert, um ein ausschnittweise dargestelltes Signal sw(n) zu erzeugen, das allgemein als Sprachsegment oder Sprachrahmen bezeichnet wird. Dann wird eine Fourier- Transformation am ausschnittweise dargestellten Signal sw(n) durchgeführt, um ein Frequenzspektrum Sw(ω) zu erzeugen, aus dem die Erregungsparameter ermittelt werden.
  • Wenn das Sprachsignal s(n) periodisch mit einer Grundfrequenz ω&sub0; oder einer Tonhöhenperiode n&sub0; ist (wobei n&sub0; gleich 2π/ω&sub0; ist), sollte das Frequenzspektrum des Sprachsignals s(n) ein Linienspektrum mit einer Energie bei ω&sub0; und deren Oberwellen (ganzzahlige Vielfache von ω&sub0;) sein. Wie erwartet, weist Sw(ω) spektrale Spitzen auf, die um ω&sub0; und ihre Oberwellen zentriert sind. Aufgrund des Fen sterfestlegungsvorgangs weisen die spektralen Spitzen jedoch eine gewisse Breite auf, wobei die Breite von der Länge und Form des Fensters w(n) abhängt und gewöhnlich abnimmt, wenn die Länge des Fensters w(n) zunimmt. Dieser durch das Fenster erzeugte Fehler verringert die Genauigkeit der Erregungsparameter. Um die Breite der spektralen Spitzen zu verringern, und um dadurch die Genauigkeit der Erregungsparameter zu erhöhen, sollte folglich die Länge des Fensters w(n) so lang wie möglich gemacht werden.
  • Die maximale brauchbare Länge des Fensters w(n) ist begrenzt. Sprachsignale sind keine stationären Signale, sondern weisen statt dessen Grundfrequenzen auf, die sich über die Zeit ändern. Um aussagekräftige Erregungsparameter zu erhalten, muß ein analysiertes Sprachsegment eine im wesentlichen unveränderte Grundfrequenz aufweisen. Somit muß die Länge des Fensters w(n) kurz genug sein, um zu gewährleisten, daß sich die Grundfrequenz innerhalb des Fensters nicht signifikant ändert.
  • Zusätzlich zum Begrenzen der maximalen Länge des Fensters w(n) verbreitert eine veränderliche Grundfrequenz gewöhnlich die spektralen Spitzen. Diese Verbreiterungswirkung nimmt mit zunehmender Frequenz zu. Wenn sich die Grundfrequenz beispielsweise um Δω&sub0; während des. Fensters ändert, ändert sich die Frequenz der m-ten Oberwelle, die eine Frequenz von mω&sub0; aufweist, um mΔω&sub0;, so daß die spektrale Spitze, die mω&sub0; entspricht, mehr als die spektrale Spitze, die ω&sub0; entspricht, verbreitert wird. Diese erhöhte Verbreiterung der höheren Oberwellen verringert die Wirksamkeit der höheren Oberwellen bei der Abschätzung der Grundfrequenz und der Erzeugung der Entscheidungen mit Sprache belegt/unbelegt für hohe Frequenzbänder.
  • Durch Anwenden eines nichtlinearen Vorgangs wird die verstärkte Auswirkung einer veränderlichen Grundfrequenz auf höhere Oberwellen verringert oder beseitigt, und höhere Oberwellen wirken besser bei der Abschätzung der Grundfrequenz und der Ermittlung der Entscheidungen mit Sprache belegt/unbelegt. Geeignete nichtlineare Vorgänge bilden von komplexen (oder reellen) in reelle Werte ab und erzeugen Ausgangssignale, die nicht abfallende Funktionen der Größen der komplexen (oder reellen) Werte sind. Solche Vorgänge umfassen beispielsweise den Absolutwert, den Absolutwert zum Quadrat, den Absolutwert, erhoben zu irgendeiner anderen Potenz, oder den Logarithmus des Absolutwerts.
  • Nichtlineare Vorgänge erzeugen gewöhnlich Ausgangssignale mit spektralen Spitzen bei den Grundfrequenzen ihrer Eingangssignale. Dies gilt selbst dann, wenn ein Eingangssignal keine spektrale Spitze bei der Grundfrequenz aufweist. Wenn beispielsweise ein Bandpaßfilter, der nur Frequenzen im Bereich zwischen der dritten und fünften Oberwelle von ω&sub0; durchläßt, auf ein Sprachsignal s(n) angewendet wird, weist das Ausgangssignal des Bandpaßfilters, x(n), spektrale Spitzen bei 3ω&sub0;, 4ω&sub0; und 5ω&sub0; auf.
  • Obwohl x(n) bei ω&sub0; keine spektrale Spitze aufweist, weist x(n) ² eine solche Spitze auf. Für ein reelles Signal x(n) ist x(n) ² äquivalent zu x²(n). Wie gut bekannt ist, ist die Fourier-Transformation von x²(n) die Faltung von X(ω), der Fourier- Transformation von x(n), mit X(ω):
  • Die Faltung von X(ω) mit X(ω) weist spektrale Spitzen bei Frequenzen gleich den Differenzen zwischen den Frequenzen, für die X(ω) spektrale Spitzen aufweist, auf. Die Differenzen zwischen den spektralen Spitzen eines periodischen Signals sind die Grundfrequenz und ihre Vielfachen. Somit weist in dem Beispiel, in dem X(ω) spektrale Spitzen bei 3ω&sub0;, 4ω&sub0; und 5ω&sub0; aufweist, X(ω), gefaltet mit X(ω), eine spektrale Spitze bei ω&sub0; (4ω&sub0;-3ω&sub0;, 5ω&sub0;-4ω&sub0;) auf. Für ein typisches periodisches Signal ist die spektrale Spitze bei der Grundfrequenz wahrscheinlich am auffälligsten.
  • Die obige Erörterung gilt auch für komplexe Signale. Für ein komplexes Signal x(n) ist die Fourier-Transformation von x(n) ²:
  • Dies ist eine Autokorrelation von X(ω) mit X*(ω) und weist auch die Eigenschaft auf, daß spektrale Spitzen, die um nω&sub0; getrennt sind, Spitzen bei nω&sub0; erzeugen.
  • Selbst wenn x(n) , x(n) a für ein gewisses reelles "a" und log x(n) nicht dasselbe sind wie x(n) ², gilt die obige Erörterung für x(n) ² annähernd auf dem qualitativen Niveau. Für x(n) = y(n)0,5, wobei y(n) = x(n) ², kann beispielsweise eine Taylor- Reihenentwicklung von y(n) als:
  • X(n) = Ckyk(n)
  • ausgedrückt werden.
  • Da die Multiplikation assoziativ ist, ist die Fourier-Transformation des Signals yk(n) Y(ω), gefaltet mit der Fourier-Transformation von yk-1(n). Das Verhalten für andere nichtlineare Vorgänge als x(n) ² kann aus x(n) ² durch Beobachten des Verhaltens von mehrfachen Faltungen von Y(ω) mit sich selbst abgeleitet werden. Wenn Y(ω) Spitzen bei nω&sub0; aufweist, dann weisen mehrfache Faltungen von Y(ω) mit sich selbst auch Spitzen bei nω&sub0; auf.
  • Wie gezeigt, betonen nichtlineare Vorgänge die Grundfrequenz eines periodischen Signals und sind besonders nützlich, wenn das periodische Signal eine signifikante Energie bei höheren Oberwellen enthält.
  • Gemäß einem ersten Aspekt der Erfindung stellen wir ein Verfahren zum Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, bereit, welches die folgenden Schritte umfaßt:
  • Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
  • Durchführen eines nichtlinearen Vorgangs an wenigstens einem der Frequenzbandsignale, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und
  • Ermitteln, für wenigstens ein modifiziertes Frequenzbandsignal, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
  • Typischerweise wird die Ermittlung mit Sprache belegt/unbelegt in regelmäßigen Zeitintervallen durchgeführt.
  • Um zu ermitteln, ob ein modifiziertes Frequenzbandsignal mit Sprache belegt oder unbelegt ist, wird die mit Sprache belegte Energie (typischerweise der Teil der Gesamtenergie, der der abgeschätzten Grundfrequenz des modifizierten Frequenzbandsignals und irgendwelchen Oberwellen der abgeschätzten Grundfrequenz zugeordnet werden kann) und die Gesamtenergie des modifizierten Frequenzbandsignals berechnet. Gewöhnlich werden die Frequenzen unterhalb 0,5ω&sub0; nicht in die Gesamtenergie eingeschlossen, da der Einschluß dieser Frequenzen die Leistung verringert. Das modifizierte Frequenzbandsignal wird als mit Sprache belegt erklärt, wenn die mit Sprache belegte Energie des modifizierten Frequenzbandsignals einen vorbestimmten Anteil der Gesamtenergie des modifizierten Frequenzbandsignals übersteigt, und ansonsten als mit Sprache unbelegt erklärt. Wenn das modifizierte Frequenzbandsignal als mit Sprache belegt erklärt wird, wird ein Grad an Belegung auf der Basis des Verhältnisses der mit Sprache belegten Energie zur Gesamtenergie abgeschätzt. Die mit Sprache belegte Energie kann auch aus einer Korrelation des modifizierten Frequenzbandsignals mit sich selbst oder einem weiteren modifizierten Frequenzbandsignal ermittelt werden.
  • Um den Rechenaufwand zu verringern oder um die Anzahl der Parameter zu verringern, kann der Satz von modifizierten Frequenzbandsignalen in einen anderen, typischerweise kleineren, Satz von modifizierten Frequenzbandsignalen umgewandelt werden, bevor die Ermittlungen mit Sprache belegt/unbelegt durchgeführt werden. Beispielsweise können zwei modifizierte Frequenzbandsignale aus dem ersten Satz zu einem einzelnen modifizierten Frequenzbandsignal im zweiten Satz kombiniert werden.
  • Die Grundfrequenz der digitalisierten Sprache kann abgeschätzt werden. Häufig beinhaltet diese Abschätzung das Kombinieren eines modifizierten Frequenzbandsignals mit wenigstens einem weiteren Frequenzbandsignal (das modifiziert oder unmodifiziert sein kann) und das Abschätzen der Grundfrequenz des resultierenden kombinierten Signals. Wenn beispielsweise nichtlineare Vorgänge an wenigstens zwei der Frequenzbandsignale durchgeführt werden, um wenigstens zwei modifizierte Frequenzbandsignale zu erzeugen, können somit die modifizierten Frequenzbandsignale zu einem Signal kombiniert werden, und eine Abschätzung der Grundfrequenz des Signals kann erzeugt werden. Die modifizierten Frequenzbandsignale können durch Summieren kombiniert werden. Bei einer anderen Vorgehensweise kann ein Rauschabstand für jedes der modifizierten Frequenzbandsignale ermittelt werden, und eine bewertete Kombination kann erzeugt werden, so daß ein modifiziertes Frequenzbandsignal mit einem hohen Rauschabstand mehr zum Signal beiträgt als ein modifiziertes Frequenzbandsignal mit einem niedrigen Rauschabstand.
  • In einem weiteren Aspekt zeichnet sich die Erfindung im allgemeinen durch die Verwendung von nichtlinearen Vorgängen aus, um die Genauigkeit der Grundfrequenzabschätzung zu verbessern. Ein nichtlinearer Vorgang wird an dem Eingangssignal durchgeführt, um ein modifiziertes Signal zu erzeugen, aus dem die Grundfrequenz abgeschätzt wird. Bei einer weiteren Vorgehensweise wird das Eingangssignal in wenigstens zwei Frequenzbandsignale unterteilt. Als nächstes wird an diesen Frequenzbandsignalen ein nichtlinearer Vorgang durchgeführt, um modifizierte Frequenzbandsignale zu erzeugen. Schließlich werden die modifizierten Frequenzbandsignale kombiniert, um ein kombiniertes Signal zu erzeugen, aus dem eine Grundfrequenz abgeschätzt wird.
  • In noch einem weiteren Aspekt stellt die Erfindung ein Verfahren zum Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, bereit, welches die folgenden Schritte umfaßt:
  • Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
  • Durchführen eines nichtlinearen Vorgangs an wenigstens einem der Frequenzbandsignale, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und
  • Abschätzen der Grundfrequenz von wenigstens einem modifizierten Frequenzbandsignal.
  • Wir stellen in noch einem weiteren Aspekt der Erfindung ein Verfahren zum Analysieren eines digitalisierten Sprachsignals, um die Grundfrequenz für das digitalisierte Sprachsignal zu ermitteln, bereit, welches die folgenden Schritte umfaßt:
  • Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
  • Durchführen eines nichtlinearen Vorgangs an wenigstens zwei der Frequenzbandsignale, um wenigstens zwei modifizierte Frequenzbandsignale zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält;
  • Kombinieren der wenigstens zwei modifizierten Frequenzbandsignale zur Erzeugung eines kombinierten Signals; und
  • Abschätzen der Grundfrequenz des kombinierten Signals.
  • Es wird in noch einem weiteren Aspekt der Erfindung eine Vorrichtung zum Codieren von Sprache durch Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, bereitgestellt, umfassend: ein Bandunterteilungsmittel, das die Aufgabe hat, das digitalisierte Sprachsignal betriebsmäßig in wenigstens zwei Frequenzbandsignale zu unterteilen; und einen Operator, der die Aufgabe hat, einen nichtlinearen Vorgang an wenigstens einem der Frequenzbandsignale betriebsmäßig durchzuführen, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen; wobei die Vorrichtung dadurch gekennzeichnet ist, daß der genannte nichtlineare Vorgang eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und dadurch, daß sie ferner ein Ermittlungsmittel umfaßt, das die Aufgabe hat, für wenigstens ein modifiziertes Frequenzbandsignal betriebsmäßig zu ermitteln, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
  • Die Erfindung wird nachstehend lediglich anhand eines Beispiels mit Bezug auf die zugehörigen Zeichnungen genauer beschrieben, in welchen gilt:
  • Fig. 1 ist ein Blockdiagramm eines Systems zum Ermitteln, ob Frequenzbänder eines Signals mit Sprache belegt oder unbelegt sind;
  • Fig. 2-3 sind Blockdiagramme von Grundfrequenz-Abschätzungseinheiten;
  • Fig. 4 ist ein Blockdiagramm einer Kanalverarbeitungseinheit des Systems von Fig. 1; und
  • Fig. 5 ist ein Blockdiagramm eines Systems zum Ermitteln, ob Frequenzbänder eines Signals mit Sprache belegt oder unbelegt sind.
  • Fig. 1-5 zeigen die Struktur eines Systems zum Ermitteln, ob die Frequenzbänder eines Signals mit Sprache belegt oder unbelegt sind, dessen verschiedene Blöcke und Einheiten vorzugsweise mit einer Software implementiert werden.
  • Mit Bezug auf Fig. 1 tastet in einem System 10 zum Ermitteln mit Sprache belegt/unbelegt eine Abtasteinheit 12 ein analoges Sprachsignal s(t) ab, um ein Sprachsignal s(n) zu erzeugen. Für typische Sprachcodieranwendungen liegt die Abtastfrequenz im Bereich zwischen sechs Kilohertz und zehn Kilohertz.
  • Kanalverarbeitungseinheiten 14 unterteilen das Sprachsignal s(n) in wenigstens zwei Frequenzbänder und verarbeiten die Frequenzbänder zur Erzeugung eines ersten Satzes von Frequenzbandsignalen, die als T&sub0;(ω)... TI(ω) bezeichnet werden. Wie nachstehend erörtert, werden die Kanalverarbeitungseinheiten 14 durch die Parameter eines Bandpaßfilters, der in der ersten Stufe jeder Kanalverarbeitungseinheit 14 verwendet wird, differenziert. Beim bevorzugten Ausführungsbeispiel liegen sechzehn Kanalverarbeitungseinheiten vor (I ist gleich 15).
  • Eine Neuabbildungseinheit 16 wandelt den ersten Satz von Frequenzbandsignalen um, um einen zweiten Satz von Frequenzbandsignalen zu erzeugen, die als U&sub0;(ω)... UK(ω) bezeichnet werden. Beim bevorzugten Ausführungsbeispiel sind elf Frequenzbandsignale im zweiten Satz von Frequenzbandsignalen vorhanden (K ist gleich 10). Somit bildet die Neuabbildungseinheit 16 die Frequenzbandsignale aus den sechzehn Kanalverarbeitungseinheiten 14 in elf Frequenzbandsignale ab. Die Neuabbildungseinheit 16 führt dies durch direktes Abbilden der niedrigen Frequenzkomponenten (T&sub0;(ω)... T&sub5;(ω)) des ersten Satzes von Frequenzbandsignalen in den zweiten Satz von Frequenzbandsignalen (U&sub0;(ω)... U&sub5;(ω)) aus. Die Neuabbildungseinheit 16 kombiniert dann die restlichen Paare von Frequenzbandsignalen aus dem ersten Satz in einzelne Frequenzbandsignale im zweiten Satz. Beispielsweise werden T&sub6;(ω) und T&sub7;(ω) kombiniert, um U&sub6;(ω) zu erzeugen, und T&sub1;&sub4;(ω) und T&sub1;&sub5;(ω) werden kombiniert, um U&sub1;&sub0;(ω) zu erzeugen. Weitere Vorgehensweisen zur Neuabbildung könnten ebenfalls verwendet werden.
  • Als nächstes ermitteln die Einheiten 18 zur Ermittlung mit Sprache belegt/unbelegt, die jeweils einem Frequenzbandsignal aus dem zweiten Satz zugeordnet sind, ob die Frequenzbandsignale mit Sprache belegt oder unbelegt sind, und erzeugen Ausgangssignale (V/UV&sub0;... V/UVK), die die Ergebnisse dieser Ermittlungen angeben. Jede Ermittlungseinheit 18 berechnet das Verhältnis der mit Sprache belegten Energie ihres zugehörigen Frequenzbandsignals zur Gesamtenergie dieses Frequenzbandsignals. Wenn dieses Verhältnis eine vorbestimmte Schwelle übersteigt, erklärt die Ermittlungseinheit 18 das Frequenzbandsignal als mit Sprache belegt. Ansonsten erklärt die Ermittlungseinheit 18 das Frequenzbandsignal als mit Sprache unbelegt.
  • Die Ermittlungseinheiten 18 berechnen die mit Sprache belegte Energie ihrer zugehörigen Frequenzbandsignale als:
  • EkV(ω&sub0;) = Uk(ωm)
  • wobei gilt
  • In = [(n-0,25)ω&sub0;, (n+0,25)ω&sub0;]
  • ω&sub0; ist eine Abschätzung der Grundfrequenz (wie nachstehend beschrieben erzeugt), und N ist die berücksichtigte Anzahl der Oberwellen der Grundfrequenz ω&sub0;.
  • Die Ermittlungseinheiten 18 berechnen die Gesamtenergie ihrer zugehörigen Frequenzbandsignale wie folgt:
  • EkT(ω&sub0;) = Uk(ωm)
  • Anstatt nur zu ermitteln, ob die Frequenzbandsignale mit Sprache belegt oder unbelegt sind, ermitteln die Ermittlungseinheiten 18 bei einer weiteren Vorgehensweise den Grad, in dem ein Frequenzbandsignal mit Sprache belegt ist. Wie die vorstehend erörterte Entscheidung mit Sprache belegt/unbelegt ist der Grad an Belegung eine Funktion des Verhältnisses der mit Sprache belegten Energie zur Gesamtenergie: wenn das Verhältnis nahe Eins liegt, ist das Frequenzbandsignal stark mit Sprache belegt; wenn das Verhältnis geringer als oder gleich einhalb ist, ist das Frequenzbandsignal stark mit Sprache unbelegt; und wenn das Verhältnis zwischen einhalb und Eins liegt, ist das Frequenzbandsignal in einem Grad mit Sprache belegt, der durch das Verhältnis angegeben wird.
  • Mit Bezug auf Fig. 2 umfaßt eine Grundfrequenz-Abschätzungseinheit 20 eine Kombinationseinheit 22 und eine Abschätzungsvorrichtung 24. Die Kombinationseinheit 22 summiert die Ti(ω)-Ausgangssignale der Kanalverarbeitungseinheiten 14 (Fig. 1), um X(ω) zu erzeugen. Bei einer alternativen Vorgehensweise könnte die Kombinationseinheit 22 einen Rauschabstand (SNR) für das Ausgangssignal jeder Kanalverarbeitungseinheit 14 abschätzen und die verschiedenen Ausgangssignale bewerten, so daß ein Ausgangssignal mit einem höheren SNR mehr zu X(ω) beiträgt als ein Ausgangssignal mit einem niedrigeren SNR.
  • Die Abschätzungsvorrichtung 24 schätzt dann die Grundfrequenz (ω&sub0;) durch Auswählen eines Werts für ω&sub0;, der X(ω&sub0;) über ein Intervall von ωmin bis ωmax maximiert, ab. Da X(ω) nur bei diskreten Abtastwerten von ω erhältlich ist, wird eine parabolische Interpolation von X(ω&sub0;) nahe ω&sub0; verwendet, um die Genauigkeit der Abschätzung zu verbessern. Die Abschätzvorrichtung 24 verbessert die Genauigkeit der Grundfrequenzabschätzung weiter durch Kombinieren von parabolischen Abschätzungen nahe den Spitzen der N Oberwellen von ω&sub0; innerhalb der Bandbreite von X(ω).
  • Wenn eine Abschätzung der Grundfrequenz einmal ermittelt ist, wird die mit Sprache belegte Energie Ev(ω&sub0;) berechnet als:
  • Ev(ω&sub0;) = x(ωm)
  • wobei gilt
  • In = [(n-0,25)ω&sub0;, (n+0,25)ω&sub0;]
  • Anschließend wird die mit Sprache belegte Energie Ev(0,5ω&sub0;) berechnet und mit Ev(ω&sub0;) verglichen, um als Endabschätzung der Grundfrequenz zwischen ω&sub0; und 0,5ω&sub0; zu wählen.
  • Mit Bezug auf Fig. 3 umfaßt eine alternative Grundfrequenz-Abschätzungseinheit 26 eine Einheit 28 für nichtlineare Vorgänge, eine Einheit 30 zur Fensterfestlegung und Schnellen Fourier-Transformation (FFT) und eine Abschätzungsvorrichtung 32. Die Einheit 28 für nichtlineare Vorgänge führt einen nichtlinearen Vorgang, den Absolutwert zum Quadrat, an s(n) aus, um die Grundfrequenz von s(n) zu betonen und die Ermittlung der mit Sprache belegten Energie bei der Abschätzung von ω&sub0; zu erleichtern.
  • Die Fenster- und FFT-Einheit 30 multipliziert das Ausgangssignal der Einheit 28 für nichtlineare Vorgänge, um es in Segmente zu unterteilen, und berechnet eine FFT, X(ω), des resultierenden Produkts. Schließlich erzeugt eine Abschätzungsvorrichtung 32, die identisch zur Abschätzungsvorrichtung 24 arbeitet, eine Abschätzung der Grundfrequenz.
  • Wenn ein Sprachsignal s(n) in eine Kanalverarbeitungseinheit 14 eingeht, werden mit Bezug auf Fig. 4 die Komponenten si(n), die zu einem speziellen Frequenzband gehören, durch einen Bandpaßfilter 34 isoliert. Der Bandpaßfilter 34 verwendet eine Abwärtsabtastung, um die Rechenanforderungen zu verringern, und tut dies ohne irgendeine signifikante Auswirkung auf die Systemleistung. Der Bandpaßfilter 34 kann als Filter mit begrenztem Ansprechen auf einen Impuls (FIR, Finite Impulse Response) oder mit unbegrenztem Ansprechen auf einen Impuls (IIR, Infinite Impulse Response) oder unter Verwendung einer FFT implementiert werden. Der Bandpaßfilter 34 wird unter Verwendung einer FFT mit reellem Eingangssignal mit zweiunddreißig Punkten implementiert, um die Ausgangssignale eines FIR-Filters mit zweiunddreißig Punkten bei siebzehn Frequenzen zu berechnen, und erreicht die Abwärtsabtastung durch Verschieben der Eingangssprachabtastwerte, jedesmal wenn die FFT berechnet wird. Wenn beispielsweise eine erste FFT die Abtastwerte Eins bis Zweiunddreißig verwendet hat, würde ein Abwärtsabtastfaktor von zehn unter Verwendung der Abtastwerte Elf bis Zweiundvierzig in einer zweiten FFT erreicht werden.
  • Eine erste Einheit 36 für nichtlineare Vorgänge führt dann einen nichtlinearen Vorgang am isolierten Frequenzband si(n) aus, um die Grundfrequenz des isolierten Frequenzbandes si(n) zu betonen. Für komplexe Werte von si(n) (i größer als Null) wird der Absolutwert si(n) verwendet. Für den reellen Wert von s&sub0;(n) wird s&sub0;(n) verwendet, wenn s&sub0;(n) größer ist als Null, und Null wird verwendet, wenn s&sub0;(n) kleiner als oder gleich Null ist.
  • Das Ausgangssignal der Einheit 36 für nichtlineare Vorgänge wird durch eine Tiefpaßfilter- und Abwärtsabtasteinheit 38 geleitet, um die Datenrate zu verringern und folglich die Rechenanforderungen für spätere Komponenten des Systems zu verringern. Die Tiefpaßfilter- und Abwärtsabtasteinheit 38 verwendet einen FIR- Filter mit sieben Punkten, der für einen Abwärtsabtastfaktor von zwei jeden zweiten Abtastwert berechnet.
  • Eine Fenster- und FFT-Einheit 40 multipliziert das Ausgangssignal der Tiefpaßfilter- und Abwärtsabtasteinheit 38 mit einem Fenster und berechnet eine FFT mit reellem Eingangssignal, Si(ω), des Produkts.
  • Schließlich führt eine zweite Einheit 42 für nichtlineare Vorgänge einen nichtlinearen Vorgang an Si(ω) aus, um die Abschätzung der mit Sprache belegten oder Gesamtenergie zu erleichtern und um sicherzustellen, daß sich die Ausgangssignale der Kanalverarbeitungseinheiten 14, Ti(ω), konstruktiv kombinieren, wenn sie bei der Grundfrequenzabschätzung verwendet werden. Der Absolutwert zum Quadrat wird verwendet, da er alle Komponenten von Ti(ω) reell und positiv macht.
  • Weitere Ausführungsbeispiele sind realisierbar. Mit Bezug auf Fig. 5 umfaßt ein alternatives System 44 zur Ermittlung mit Sprache belegt/unbelegt beispielsweise eine Abtasteinheit 12, Kanalverarbeitungseinheiten 14, eine Neuabbildungseinheit 16, Einheiten 18 zur Ermittlung mit Sprache belegt/unbelegt, die identisch zu den entsprechenden Einheiten im System 10 zur Ermittlung mit Sprache belegt/unbelegt arbeiten. Da jedoch nichtlineare Vorgänge am vorteilhaftesten auf hohe Frequenzbänder angewendet werden, verwendet das Ermittlungssystem 44 nur Kanalverarbeitungseinheiten 14 in Frequenzbändern, die hohen Frequenzen entsprechen, und verwendet Kanalumwandlungseinheiten 46 in Frequenzbändern, die niedrigen Frequenzen entsprechen. Die Kanalumwandlungseinheiten 46 verarbeiten das Eingangssignal gemäß gut bekannten Verfahren zum Erzeugen von Frequenzbandsignalen, anstatt daß sie nichtlineare Vorgänge auf ein Ein gangssignal anwenden. Eine Kanalumwandlungseinheit 46 könnte beispielsweise einen Bandpaßfilter und eine Fenster- und FFT-Einheit enthalten.
  • Bei einer alternativen Vorgehensweise könnten die Fenster- und FFT-Einheit 40 und die Einheit 42 für nichtlineare Vorgänge von Fig. 4 gegen eine Fenster- und Autokorrelationseinheit ausgetauscht werden. Die mit Sprache belegte Energie und die Gesamtenergie würden dann aus der Autokorrelation berechnet werden.

Claims (30)

1. Verfahren zum Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitale Sprachsignal zu ermitteln, umfassend die folgenden Schritte:
Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
Durchführen eines nichtlinearen Vorgangs an wenigstens einem der Frequenzbandsignale, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so dass das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und
Ermitteln, für wenigstens ein modifiziertes Frequenzbandsignal, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
2. Verfahren nach Anspruch 1, bei dem der Ermittlungsschritt in regelmäßigen Zeitintervallen durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem das digitalisierte Sprachsignal als ein Schritt bei der Sprachcodierung analysiert wird.
4. Verfahren nach einem der vorherigen Ansprüche, ferner umfassend den Schritt des Schätzens der Grundfrequenz der digitalisierten Sprache.
5. Verfahren nach einem der vorherigen Ansprüche, ferner umfassend den Schritt des Schätzens der Grundfrequenz von wenigstens einem modifizierten Frequenzbandsignal.
6. Verfahren nach einem der vorherigen Ansprüche, ferner umfassend die folgenden Schritte:
Kombinieren, eines modifizierten Frequenzbandsignals mit wenigstens einem anderen Frequenzbandsignal, um ein kombiniertes Signal zu erzeugen; und
Schätzen der Grundfrequenz des kombinierten Signals.
7. Verfahren nach Anspruch 6, bei dem der Durchführungsschritt an wenigstens zwei der Frequenzbandsignale durchgeführt wird, um wenigstens zwei modifizierte Frequenzbandsignale zu erzeugen, und wobei der genannte Kombinationsschritt das Kombinieren von wenigstens zwei der beiden modifizierten Frequenzbandsignale umfasst.
8. Verfahren nach Anspruch 6, bei dem der Kombinationsschritt das Summieren des modifizierten Frequenzbandsignals und des wenigstens einen anderen Frequenzbandsignals beinhaltet, um das kombinierte Signal zu erzeugen.
9. Verfahren nach Anspruch 6, ferner umfassend den Schritt des Ermittelns eines Rauschabstands für das modifizierte Frequenzbandsignal und das wenigstens eine andere Frequenzbandsignal, und wobei der genannte Kombinationsschritt das Bewerten des modifizierten Frequenzbandsignals und des wenigstens einen anderen Frequenzbandsignals beinhaltet, um das kombinierte Signal zu erzeugen, so dass ein Frequenzbandsignal mit einem hohen Rauschabstand mehr zum kombinierten Signal beiträgt als ein Frequenzbandsignal mit einem niedrigen Rauschabstand.
10. Verfahren nach einem der Ansprüche 1 bis 4, ferner umfassend die folgenden Schritte:
Durchführen eines genannten nichtlinearen Vorgangs an wenigstens zwei der Frequenzbandsignale, um einen ersten Satz von modifizierten Frequenzbandsignalen zu erzeugen;
Umwandeln des ersten Satzes von modifizierten Frequenzbandsignalen in einen zweiten Satz von wenigstens einem modifizierten Frequenzbandsignal;
Ermitteln, für wenigstens ein modifiziertes Frequenzbandsignal in dem zweiten Satz, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
11. Verfahren nach Anspruch 10, bei dem der genannte Umwandlungsschritt das Kombinieren von wenigstens zwei modifizierten Frequenzbandsignalen von dem ersten Satz beinhaltet, um ein einzelnes modifiziertes Frequenzbandsignal in dem zweiten Satz zu erzeugen.
12. Verfahren nach Anspruch 10, ferner umfassend die folgenden Schritte:
Kombinieren eines modifizierten Frequenzbandsignals aus dem zweiten Satz von modifizierten Frequenzbandsignalen mit wenigstens einem anderen Frequenzbandsignal, um ein kombiniertes Signal zu erzeugen; und
Schätzen der Grundfrequenz des kombinierten Signals.
13. Verfahren nach einem der vorherigen Ansprüche, bei dem der genannte Schritt des Ermittelns, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist, folgendes umfasst:
Ermitteln der mit Sprache belegten Energie des modifizierten Frequenzbandsignals;
Ermitteln der Gesamtenergie des modifizierten Frequenzbandsignals;
Erklären des modifizierten Frequenzbandsignals als mit Sprache belegt, wenn die mit Sprache belegte Energie des modifizierten Frequenzbandsignals einen vorbestimmten Anteil der Gesamtenergie des modifizierten Frequenzbandsignals übersteigt; und
Erklären des modifizierten Frequenzbandsignals als unbelegt, wenn die mit Sprache belegte Energie des modifizierten Frequenzbandsignals gleich oder kleiner ist als der vorbestimmte Anteil der Gesamtenergie des modifizierten Frequenzbandsignals.
14. Verfahren nach Anspruch 13, bei dem die mit Sprache belegte Energie der Teil der Gesamtenergie ist, der der geschätzten Grundfrequenz des modifizierten Frequenzbandsignals und Oberwellen der geschätzten Grundfrequenz zugeordnet werden kann.
15. Verfahren nach Anspruch 13, bei dem die mit Sprache belegte Energie des modifizierten Frequenzbandsignals von einer Korrelation des modifizierten Frequenzbandsignals mit sich selbst oder mit einem anderen modifizierten Frequenzbandsignal abgeleitet wird.
16. Verfahren nach Anspruch 13, bei dem, wenn das genannte modifizierte Frequenzbandsignal als mit Sprache belegt erklärt wird, der genannte Schritt des Ermittelns, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist, ferner das Schätzen eines Grades an Belegung für das modifizierte Frequenzbandsignal beinhaltet, indem die mit Sprache belegte Energie des modifizierten Frequenzbandsignals mit der Gesamtenergie des modifizierten Frequenzbandsignals verglichen wird.
17. Verfahren nach einem der vorherigen Ansprüche, bei dem der genannte Durchführungsschritt das Durchführen eines genannten nichtlinearen Vorgangs auf alle Frequenzbandsignale beinhaltet, so dass die Anzahl von modifizierten Frequenzbandsignalen, die mit dem genannten Durchführungsschritt erzeugt wurden, der Anzahl von Frequenzbandsignalen entspricht, die mit dem genannten Unterteilungsschritt erzeugt wurden.
18. Verfahren nach einem der Ansprüche 1 bis 16, bei dem der genannte Durchführungsschritt das Durchführen eines nichtlinearen Vorgangs auf nur einige der Frequenzbandsignale beinhaltet, so dass die Anzahl von modifizierten Frequenzbandsignalen, die mit dem genannten Durchführungsschritt erzeugt wurden, geringer ist als die Anzahl von Frequenzbandsignalen, die mit dem genannten Unterteilungsschritt erzeugt wurden.
19. Verfahren nach Anspruch 18, bei dem die Frequenzbandsignale, an denen ein nichtlinearer Vorgang durchgeführt wird, höheren Frequenzen entsprechen als die Frequenzbandsignale, an denen kein nichtlinearer Vorgang durchgeführt wird.
20. Verfahren nach Anspruch 18, ferner umfassend den folgenden Schritt: Ermitteln für Frequenzbandsignale, an denen kein genannter nichtlinearer Vorgang durchgeführt wird, ob das Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
21. Verfahren nach einem der vorherigen Ansprüche, bei dem der genannte nichtlineare Vorgang der Absolutwert ist.
22. Verfahren nach einem der Ansprüche 1 bis 20, bei dem der genannte nichtlineare Vorgang der Absolutwert zum Quadrat ist.
23. Verfahren nach einem der Ansprüche 1 bis 20, bei dem der genannte nichtlineare Vorgang der Absolutwert ist, erhoben zu einer Potenz, die einer reellen Zahl entspricht.
24. Verfahren nach einem der vorherigen Ansprüche, ferner umfassend den Schritt des Codierens eines Teils der Erregungsparameter.
25. Verfahren zum Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, umfassend die folgenden Schritte:
Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
Durchführen eines nichtlinearen Vorgangs an wenigstens einem der Frequenzbandsignale, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so dass das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und
Schätzen der Grundfrequenz von wenigstens einem modifizierten Frequenzbandsignal.
26. Verfahren zum Analysieren eines digitalisierten Sprachsignals, um die Grundfrequenz für das digitalisierte Sprachsignal zu ermitteln, umfassend die folgenden Schritte:
Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
Durchführen eines nichtlinearen Vorgangs an wenigstens zwei der Frequenzbandsignale, um wenigstens zwei modifizierte Frequenzbandsignale zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so dass das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält;
Kombinieren der wenigstens zwei modifizierten Frequenzbandsignale zur Erzeugung eines kombinierten Signals; und
Schätzen der Grundfrequenz des kombinierten Signals.
27. Vorrichtung zum Codieren von Sprache durch Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, umfassend: ein Bandunterteilungsmittel, das die Aufgabe hat, das digitalisierte Sprachsignal betriebsmäßig in wenigstens zwei Frequenzbandsignale zu unterteilen; und einen Operator, der die Aufgabe hat, einen nichtlinearen Vorgang an wenigstens einem der Frequenzbandsignale betriebsmäßig durchzuführen, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen; wobei die Vorrichtung dadurch gekennzeichnet ist, dass der genannte nichtlineare Vorgang eine Grundfrequenz des digitalisierten Sprachsignals betont, so dass das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und dadurch, dass sie ferner ein Ermittlungsmittel umfasst, das die Aufgabe hat, für wenigstens ein modifiziertes Frequenzbandsignal betriebsmäßig zu ermitteln, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
28. Vorrichtung nach Anspruch 27, die ferner folgendes umfasst: ein Kombinationsmittel, das die Aufgabe hat, das wenigstens eine modifizierte Frequenzbandsignal mit wenigstens einem anderen Frequenzbandsignal betriebsmäßig zu kombinieren, um ein kombiniertes Signal zu erzeugen; und ein Schätzungsmittel, das die Aufgabe hat, die Grundfrequenz des kombinierten Signals betriebsmäßig zu schätzen.
29. Vorrichtung nach Anspruch 27 oder 28, bei der der Operator ein Durchführungsmittel beinhaltet, das die Aufgabe hat, einen genannten nichtlinearen Vorgang an lediglich einigen der Frequenzbandsignale betriebsmäßig durchzuführen, so dass die Anzahl von modifizierten Frequenzbandsignalen, die von dem Operator erzeugt werden, geringer ist als die Anzahl von Frequenzbandsignalen, die von dem Bandunterteilungsmittel erzeugt werden.
30. Vorrichtung nach Anspruch 29, bei der die Frequenzbandsignale, an denen das Durchführungsmittel einen genannten nichtlinearen Vorgang durchführen soll, höheren Frequenzen entsprechen als die Frequenzbandsignale, an denen kein solcher nichtlinearer Vorgang durchgeführt wird.
DE69518454T 1994-04-04 1995-04-04 Abschätzung von Anregungsparametern Expired - Lifetime DE69518454T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US08/222,119 US5715365A (en) 1994-04-04 1994-04-04 Estimation of excitation parameters

Publications (2)

Publication Number Publication Date
DE69518454D1 DE69518454D1 (de) 2000-09-28
DE69518454T2 true DE69518454T2 (de) 2001-04-12

Family

ID=22830914

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69518454T Expired - Lifetime DE69518454T2 (de) 1994-04-04 1995-04-04 Abschätzung von Anregungsparametern

Country Status (9)

Country Link
US (1) US5715365A (de)
EP (1) EP0676744B1 (de)
JP (1) JP4100721B2 (de)
KR (1) KR100367202B1 (de)
CN (1) CN1113333C (de)
CA (1) CA2144823C (de)
DE (1) DE69518454T2 (de)
DK (1) DK0676744T3 (de)
NO (1) NO308635B1 (de)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
JP3266819B2 (ja) * 1996-07-30 2002-03-18 株式会社エイ・ティ・アール人間情報通信研究所 周期信号変換方法、音変換方法および信号分析方法
JP4121578B2 (ja) * 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
US5839098A (en) 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6192335B1 (en) * 1998-09-01 2001-02-20 Telefonaktieboiaget Lm Ericsson (Publ) Adaptive combining of multi-mode coding for voiced speech and noise-like signals
US6604071B1 (en) * 1999-02-09 2003-08-05 At&T Corp. Speech enhancement with gain limitations based on speech activity
US6253171B1 (en) * 1999-02-23 2001-06-26 Comsat Corporation Method of determining the voicing probability of speech signals
US6975984B2 (en) * 2000-02-08 2005-12-13 Speech Technology And Applied Research Corporation Electrolaryngeal speech enhancement for telephony
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US8359197B2 (en) 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
US7698949B2 (en) * 2005-09-09 2010-04-20 The Boeing Company Active washers for monitoring bolted joints
KR100735343B1 (ko) * 2006-04-11 2007-07-04 삼성전자주식회사 음성신호의 피치 정보 추출장치 및 방법
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) * 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
GB2466201B (en) * 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US8600737B2 (en) 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
US11295751B2 (en) * 2019-09-20 2022-04-05 Tencent America LLC Multi-band synchronized neural vocoder
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
US12254895B2 (en) 2021-07-02 2025-03-18 Digital Voice Systems, Inc. Detecting and compensating for the presence of a speaker mask in a speech signal
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3706929A (en) * 1971-01-04 1972-12-19 Philco Ford Corp Combined modem and vocoder pipeline processor
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4004096A (en) * 1975-02-18 1977-01-18 The United States Of America As Represented By The Secretary Of The Army Process for extracting pitch information
JPS6051720B2 (ja) * 1975-08-22 1985-11-15 日本電信電話株式会社 音声の基本周期抽出装置
US4091237A (en) * 1975-10-06 1978-05-23 Lockheed Missiles & Space Company, Inc. Bi-Phase harmonic histogram pitch extractor
US4015088A (en) * 1975-10-31 1977-03-29 Bell Telephone Laboratories, Incorporated Real-time speech analyzer
JPS597120B2 (ja) * 1978-11-24 1984-02-16 日本電気株式会社 音声分析装置
FR2494017B1 (fr) * 1980-11-07 1985-10-25 Thomson Csf Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede
ATE15415T1 (de) * 1981-09-24 1985-09-15 Gretag Ag Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung.
US4441200A (en) * 1981-10-08 1984-04-03 Motorola Inc. Digital voice processing system
US4509186A (en) * 1981-12-31 1985-04-02 Matsushita Electric Works, Ltd. Method and apparatus for speech message recognition
DE3276732D1 (en) * 1982-04-27 1987-08-13 Philips Nv Speech analysis system
FR2544901B1 (fr) * 1983-04-20 1986-02-21 Zurcher Jean Frederic Vocodeur a canaux muni de moyens de compensation des modulations parasites du signal de parole synthetise
AU2944684A (en) * 1983-06-17 1984-12-20 University Of Melbourne, The Speech recognition
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
NL8400728A (nl) * 1984-03-07 1985-10-01 Philips Nv Digitale spraakcoder met basisband residucodering.
US4622680A (en) * 1984-10-17 1986-11-11 General Electric Company Hybrid subband coder/decoder method and apparatus
US4879748A (en) * 1985-08-28 1989-11-07 American Telephone And Telegraph Company Parallel processing pitch detector
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
WO1990013112A1 (en) * 1989-04-25 1990-11-01 Kabushiki Kaisha Toshiba Voice encoder
US5081681B1 (en) * 1989-11-30 1995-08-15 Digital Voice Systems Inc Method and apparatus for phase synthesis for speech processing
EP0459362B1 (de) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Sprachsignalverarbeitungsvorrichtung
US5216747A (en) * 1990-09-20 1993-06-01 Digital Voice Systems, Inc. Voiced/unvoiced estimation of an acoustic signal
US5226108A (en) * 1990-09-20 1993-07-06 Digital Voice Systems, Inc. Processing a speech signal with estimated pitch
US5226084A (en) * 1990-12-05 1993-07-06 Digital Voice Systems, Inc. Methods for speech quantization and error correction
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5450522A (en) * 1991-08-19 1995-09-12 U S West Advanced Technologies, Inc. Auditory model for parametrization of speech

Also Published As

Publication number Publication date
KR950034055A (ko) 1995-12-26
US5715365A (en) 1998-02-03
CN1118914A (zh) 1996-03-20
NO308635B1 (no) 2000-10-02
NO951287D0 (no) 1995-04-03
EP0676744A1 (de) 1995-10-11
KR100367202B1 (ko) 2003-03-04
NO951287L (no) 1995-10-05
JP4100721B2 (ja) 2008-06-11
JPH0844394A (ja) 1996-02-16
DK0676744T3 (da) 2000-12-18
CN1113333C (zh) 2003-07-02
DE69518454D1 (de) 2000-09-28
CA2144823A1 (en) 1995-10-05
CA2144823C (en) 2006-01-17
EP0676744B1 (de) 2000-08-23

Similar Documents

Publication Publication Date Title
DE69518454T2 (de) Abschätzung von Anregungsparametern
DE69623360T2 (de) Schätzung von Anregungsparametern
DE69518452T2 (de) Verfahren für die Transformationskodierung akustischer Signale
DE69032551T2 (de) Einrichtung zur Sprachkodierung
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE3789476T2 (de) Digitaler Vocoder.
DE68916944T2 (de) Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion.
DE69614989T2 (de) Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung
DE69915400T2 (de) Vorrichtung zur Kodierung und Dekodierung von Audiosignalen
DE3306730C2 (de)
DE60317722T2 (de) Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden
DE69614796T2 (de) Signalwiederherstellung mit linksseitigen und rechtsseitigen autoregressiven Parametern
DE69131776T2 (de) Verfahren zur sprachanalyse und synthese
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE69725670T2 (de) Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme
DE69232904T2 (de) Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren
DE69227401T2 (de) Verfahren zum Kodieren und Dekodieren von Sprachsignalen
DE69328828T2 (de) Verfahren und gerät zur analyse von zeitlich veränderlichem frequenzspektrum
DE69529672T2 (de) System zur sprachkodierung
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
DE60221927T2 (de) Vorrichtung und Programm zur Schallcodierung
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69328064T2 (de) Zeit-Frequenzinterpolation mit Anwendung zur Sprachkodierung mit niedriger Rate
DE69602421T2 (de) Verfahren zur sprachkodierung mittels analyse durch synthese

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: DIGITAL VOICE SYSTEMS, INC., WESTFORD, MASS., US