DE69518454T2 - Abschätzung von Anregungsparametern - Google Patents
Abschätzung von AnregungsparameternInfo
- Publication number
- DE69518454T2 DE69518454T2 DE69518454T DE69518454T DE69518454T2 DE 69518454 T2 DE69518454 T2 DE 69518454T2 DE 69518454 T DE69518454 T DE 69518454T DE 69518454 T DE69518454 T DE 69518454T DE 69518454 T2 DE69518454 T2 DE 69518454T2
- Authority
- DE
- Germany
- Prior art keywords
- frequency band
- signal
- modified
- band signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
- Die Erfindung betrifft die Abschätzung von Erregungsparametern bei der Sprachanalyse und -synthese.
- Sprachanalyse und -synthese werden in Anwendungen, wie z. B. Telekommunikation und Spracherkennung, umfangreich verwendet. Ein Vocoder, der eine Art Sprach-Analyse/Synthese-System ist, modelliert die Sprache als Antwort eines Systems auf die Erregung über kurze Zeitintervalle. Beispiele von Vocodersystemen umfassen Vocoder mit linearer Vorhersage, homomorphe Vocoder, Kanalvocoder, Sinustransformationscodierer ("STC"), Vocoder mit Mehrbandanregung ("MBE") und Vocoder mit verbesserter Mehrbandanregung ("IMBE").
- Vocoder synthetisieren Sprache typischerweise auf der Basis von Erregungsparametern und Systemparametern. Typischerweise wird ein Eingangssignal unter Verwendung von beispielsweise einem Hamming-Fenster in Segmente unterteilt. Dann werden für jedes Segment Systemparameter und Erregungsparameter ermittelt. Die Systemparameter beinhalten die Spektralhüllkurve oder die Impulsantwort des Systems. Die Erregungsparameter beinhalten eine Entscheidung mit Sprache belegt/unbelegt, die angibt, ob das Eingangssignal eine Tonhöhe aufweist, und eine Grundfrequenz (oder Tonhöhe) angibt. In Vocodern, die die Sprache in Frequenzbänder unterteilen, wie z. B. IMBE- (TM) Vocoder, können die Erregungsparameter auch eine Entscheidung mit Sprache belegt/unbelegt für jedes Frequenzband anstelle einer einzelnen Entscheidung mit Sprache belegt/unbelegt umfassen. Genaue Erregungsparameter sind für eine Sprachsynthese mit hoher Qualität wesentlich.
- Die Erregungsparameter können auch in Anwendungen wie z. B. Spracherkennung verwendet werden, wo keine Sprachsynthese erforderlich ist. Wiederum wirkt sich die Genauigkeit der Erregungsparameter direkt auf die Leistung eines solchen Systems aus.
- Das US-Patent 4 091 237 von Wolnowsky et al. offenbart eine Vorrichtung und ein Verfahren zum Ermitteln der Tonhöhenfrequenz von menschlicher Sprache in einem digitalen Sprachsignal. Wolnowsky et al. verwenden eine Reihe von aktiven Filtern, die ein Eingangssignal in eine Vielzahl von Kanälen unterteilen, wobei jeder Kanal einem anderen Frequenzband entspricht. Das Signal für jeden Kanal wird zu einer entsprechenden Rechteckformungsschaltung mit niedriger Schwelle geliefert, die als Vergleicherschaltung bezeichnet wird und die eine Rechteckwellenfrequenz erzeugt, die der vorherrschenden Frequenz des Kanals entspricht. Die Impulsfolgen aus den jeweiligen Kanälen werden summiert, um ein Zweiphasen-Oberwellenhistogramm zu bilden, aus dem die Tonhöhenfrequenz oder Grundfrequenz abgeleitet wird.
- Das Anwenden eines nichtlinearen Vorgangs auf ein Sprachsignal, um die Grundfrequenz des Sprachsignals zu betonen, kann die Genauigkeit, mit der die Grundfrequenz und weitere Erregungsparameter ermittelt werden, verbessern. Ein analoges Sprachsignal s(t) kann abgetastet werden, um ein Sprachsignal s(n) zu erzeugen. Das Sprachsignal s(n) wird dann mit einem Fenster w(n) multipliziert, um ein ausschnittweise dargestelltes Signal sw(n) zu erzeugen, das allgemein als Sprachsegment oder Sprachrahmen bezeichnet wird. Dann wird eine Fourier- Transformation am ausschnittweise dargestellten Signal sw(n) durchgeführt, um ein Frequenzspektrum Sw(ω) zu erzeugen, aus dem die Erregungsparameter ermittelt werden.
- Wenn das Sprachsignal s(n) periodisch mit einer Grundfrequenz ω&sub0; oder einer Tonhöhenperiode n&sub0; ist (wobei n&sub0; gleich 2π/ω&sub0; ist), sollte das Frequenzspektrum des Sprachsignals s(n) ein Linienspektrum mit einer Energie bei ω&sub0; und deren Oberwellen (ganzzahlige Vielfache von ω&sub0;) sein. Wie erwartet, weist Sw(ω) spektrale Spitzen auf, die um ω&sub0; und ihre Oberwellen zentriert sind. Aufgrund des Fen sterfestlegungsvorgangs weisen die spektralen Spitzen jedoch eine gewisse Breite auf, wobei die Breite von der Länge und Form des Fensters w(n) abhängt und gewöhnlich abnimmt, wenn die Länge des Fensters w(n) zunimmt. Dieser durch das Fenster erzeugte Fehler verringert die Genauigkeit der Erregungsparameter. Um die Breite der spektralen Spitzen zu verringern, und um dadurch die Genauigkeit der Erregungsparameter zu erhöhen, sollte folglich die Länge des Fensters w(n) so lang wie möglich gemacht werden.
- Die maximale brauchbare Länge des Fensters w(n) ist begrenzt. Sprachsignale sind keine stationären Signale, sondern weisen statt dessen Grundfrequenzen auf, die sich über die Zeit ändern. Um aussagekräftige Erregungsparameter zu erhalten, muß ein analysiertes Sprachsegment eine im wesentlichen unveränderte Grundfrequenz aufweisen. Somit muß die Länge des Fensters w(n) kurz genug sein, um zu gewährleisten, daß sich die Grundfrequenz innerhalb des Fensters nicht signifikant ändert.
- Zusätzlich zum Begrenzen der maximalen Länge des Fensters w(n) verbreitert eine veränderliche Grundfrequenz gewöhnlich die spektralen Spitzen. Diese Verbreiterungswirkung nimmt mit zunehmender Frequenz zu. Wenn sich die Grundfrequenz beispielsweise um Δω&sub0; während des. Fensters ändert, ändert sich die Frequenz der m-ten Oberwelle, die eine Frequenz von mω&sub0; aufweist, um mΔω&sub0;, so daß die spektrale Spitze, die mω&sub0; entspricht, mehr als die spektrale Spitze, die ω&sub0; entspricht, verbreitert wird. Diese erhöhte Verbreiterung der höheren Oberwellen verringert die Wirksamkeit der höheren Oberwellen bei der Abschätzung der Grundfrequenz und der Erzeugung der Entscheidungen mit Sprache belegt/unbelegt für hohe Frequenzbänder.
- Durch Anwenden eines nichtlinearen Vorgangs wird die verstärkte Auswirkung einer veränderlichen Grundfrequenz auf höhere Oberwellen verringert oder beseitigt, und höhere Oberwellen wirken besser bei der Abschätzung der Grundfrequenz und der Ermittlung der Entscheidungen mit Sprache belegt/unbelegt. Geeignete nichtlineare Vorgänge bilden von komplexen (oder reellen) in reelle Werte ab und erzeugen Ausgangssignale, die nicht abfallende Funktionen der Größen der komplexen (oder reellen) Werte sind. Solche Vorgänge umfassen beispielsweise den Absolutwert, den Absolutwert zum Quadrat, den Absolutwert, erhoben zu irgendeiner anderen Potenz, oder den Logarithmus des Absolutwerts.
- Nichtlineare Vorgänge erzeugen gewöhnlich Ausgangssignale mit spektralen Spitzen bei den Grundfrequenzen ihrer Eingangssignale. Dies gilt selbst dann, wenn ein Eingangssignal keine spektrale Spitze bei der Grundfrequenz aufweist. Wenn beispielsweise ein Bandpaßfilter, der nur Frequenzen im Bereich zwischen der dritten und fünften Oberwelle von ω&sub0; durchläßt, auf ein Sprachsignal s(n) angewendet wird, weist das Ausgangssignal des Bandpaßfilters, x(n), spektrale Spitzen bei 3ω&sub0;, 4ω&sub0; und 5ω&sub0; auf.
- Obwohl x(n) bei ω&sub0; keine spektrale Spitze aufweist, weist x(n) ² eine solche Spitze auf. Für ein reelles Signal x(n) ist x(n) ² äquivalent zu x²(n). Wie gut bekannt ist, ist die Fourier-Transformation von x²(n) die Faltung von X(ω), der Fourier- Transformation von x(n), mit X(ω):
- Die Faltung von X(ω) mit X(ω) weist spektrale Spitzen bei Frequenzen gleich den Differenzen zwischen den Frequenzen, für die X(ω) spektrale Spitzen aufweist, auf. Die Differenzen zwischen den spektralen Spitzen eines periodischen Signals sind die Grundfrequenz und ihre Vielfachen. Somit weist in dem Beispiel, in dem X(ω) spektrale Spitzen bei 3ω&sub0;, 4ω&sub0; und 5ω&sub0; aufweist, X(ω), gefaltet mit X(ω), eine spektrale Spitze bei ω&sub0; (4ω&sub0;-3ω&sub0;, 5ω&sub0;-4ω&sub0;) auf. Für ein typisches periodisches Signal ist die spektrale Spitze bei der Grundfrequenz wahrscheinlich am auffälligsten.
- Die obige Erörterung gilt auch für komplexe Signale. Für ein komplexes Signal x(n) ist die Fourier-Transformation von x(n) ²:
- Dies ist eine Autokorrelation von X(ω) mit X*(ω) und weist auch die Eigenschaft auf, daß spektrale Spitzen, die um nω&sub0; getrennt sind, Spitzen bei nω&sub0; erzeugen.
- Selbst wenn x(n) , x(n) a für ein gewisses reelles "a" und log x(n) nicht dasselbe sind wie x(n) ², gilt die obige Erörterung für x(n) ² annähernd auf dem qualitativen Niveau. Für x(n) = y(n)0,5, wobei y(n) = x(n) ², kann beispielsweise eine Taylor- Reihenentwicklung von y(n) als:
- X(n) = Ckyk(n)
- ausgedrückt werden.
- Da die Multiplikation assoziativ ist, ist die Fourier-Transformation des Signals yk(n) Y(ω), gefaltet mit der Fourier-Transformation von yk-1(n). Das Verhalten für andere nichtlineare Vorgänge als x(n) ² kann aus x(n) ² durch Beobachten des Verhaltens von mehrfachen Faltungen von Y(ω) mit sich selbst abgeleitet werden. Wenn Y(ω) Spitzen bei nω&sub0; aufweist, dann weisen mehrfache Faltungen von Y(ω) mit sich selbst auch Spitzen bei nω&sub0; auf.
- Wie gezeigt, betonen nichtlineare Vorgänge die Grundfrequenz eines periodischen Signals und sind besonders nützlich, wenn das periodische Signal eine signifikante Energie bei höheren Oberwellen enthält.
- Gemäß einem ersten Aspekt der Erfindung stellen wir ein Verfahren zum Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, bereit, welches die folgenden Schritte umfaßt:
- Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
- Durchführen eines nichtlinearen Vorgangs an wenigstens einem der Frequenzbandsignale, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und
- Ermitteln, für wenigstens ein modifiziertes Frequenzbandsignal, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
- Typischerweise wird die Ermittlung mit Sprache belegt/unbelegt in regelmäßigen Zeitintervallen durchgeführt.
- Um zu ermitteln, ob ein modifiziertes Frequenzbandsignal mit Sprache belegt oder unbelegt ist, wird die mit Sprache belegte Energie (typischerweise der Teil der Gesamtenergie, der der abgeschätzten Grundfrequenz des modifizierten Frequenzbandsignals und irgendwelchen Oberwellen der abgeschätzten Grundfrequenz zugeordnet werden kann) und die Gesamtenergie des modifizierten Frequenzbandsignals berechnet. Gewöhnlich werden die Frequenzen unterhalb 0,5ω&sub0; nicht in die Gesamtenergie eingeschlossen, da der Einschluß dieser Frequenzen die Leistung verringert. Das modifizierte Frequenzbandsignal wird als mit Sprache belegt erklärt, wenn die mit Sprache belegte Energie des modifizierten Frequenzbandsignals einen vorbestimmten Anteil der Gesamtenergie des modifizierten Frequenzbandsignals übersteigt, und ansonsten als mit Sprache unbelegt erklärt. Wenn das modifizierte Frequenzbandsignal als mit Sprache belegt erklärt wird, wird ein Grad an Belegung auf der Basis des Verhältnisses der mit Sprache belegten Energie zur Gesamtenergie abgeschätzt. Die mit Sprache belegte Energie kann auch aus einer Korrelation des modifizierten Frequenzbandsignals mit sich selbst oder einem weiteren modifizierten Frequenzbandsignal ermittelt werden.
- Um den Rechenaufwand zu verringern oder um die Anzahl der Parameter zu verringern, kann der Satz von modifizierten Frequenzbandsignalen in einen anderen, typischerweise kleineren, Satz von modifizierten Frequenzbandsignalen umgewandelt werden, bevor die Ermittlungen mit Sprache belegt/unbelegt durchgeführt werden. Beispielsweise können zwei modifizierte Frequenzbandsignale aus dem ersten Satz zu einem einzelnen modifizierten Frequenzbandsignal im zweiten Satz kombiniert werden.
- Die Grundfrequenz der digitalisierten Sprache kann abgeschätzt werden. Häufig beinhaltet diese Abschätzung das Kombinieren eines modifizierten Frequenzbandsignals mit wenigstens einem weiteren Frequenzbandsignal (das modifiziert oder unmodifiziert sein kann) und das Abschätzen der Grundfrequenz des resultierenden kombinierten Signals. Wenn beispielsweise nichtlineare Vorgänge an wenigstens zwei der Frequenzbandsignale durchgeführt werden, um wenigstens zwei modifizierte Frequenzbandsignale zu erzeugen, können somit die modifizierten Frequenzbandsignale zu einem Signal kombiniert werden, und eine Abschätzung der Grundfrequenz des Signals kann erzeugt werden. Die modifizierten Frequenzbandsignale können durch Summieren kombiniert werden. Bei einer anderen Vorgehensweise kann ein Rauschabstand für jedes der modifizierten Frequenzbandsignale ermittelt werden, und eine bewertete Kombination kann erzeugt werden, so daß ein modifiziertes Frequenzbandsignal mit einem hohen Rauschabstand mehr zum Signal beiträgt als ein modifiziertes Frequenzbandsignal mit einem niedrigen Rauschabstand.
- In einem weiteren Aspekt zeichnet sich die Erfindung im allgemeinen durch die Verwendung von nichtlinearen Vorgängen aus, um die Genauigkeit der Grundfrequenzabschätzung zu verbessern. Ein nichtlinearer Vorgang wird an dem Eingangssignal durchgeführt, um ein modifiziertes Signal zu erzeugen, aus dem die Grundfrequenz abgeschätzt wird. Bei einer weiteren Vorgehensweise wird das Eingangssignal in wenigstens zwei Frequenzbandsignale unterteilt. Als nächstes wird an diesen Frequenzbandsignalen ein nichtlinearer Vorgang durchgeführt, um modifizierte Frequenzbandsignale zu erzeugen. Schließlich werden die modifizierten Frequenzbandsignale kombiniert, um ein kombiniertes Signal zu erzeugen, aus dem eine Grundfrequenz abgeschätzt wird.
- In noch einem weiteren Aspekt stellt die Erfindung ein Verfahren zum Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, bereit, welches die folgenden Schritte umfaßt:
- Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
- Durchführen eines nichtlinearen Vorgangs an wenigstens einem der Frequenzbandsignale, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und
- Abschätzen der Grundfrequenz von wenigstens einem modifizierten Frequenzbandsignal.
- Wir stellen in noch einem weiteren Aspekt der Erfindung ein Verfahren zum Analysieren eines digitalisierten Sprachsignals, um die Grundfrequenz für das digitalisierte Sprachsignal zu ermitteln, bereit, welches die folgenden Schritte umfaßt:
- Unterteilen des digitalisierten Sprachsignals in wenigstens zwei Frequenzbandsignale;
- Durchführen eines nichtlinearen Vorgangs an wenigstens zwei der Frequenzbandsignale, um wenigstens zwei modifizierte Frequenzbandsignale zu erzeugen, wobei der nichtlineare Vorgang ein Vorgang ist, der eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält;
- Kombinieren der wenigstens zwei modifizierten Frequenzbandsignale zur Erzeugung eines kombinierten Signals; und
- Abschätzen der Grundfrequenz des kombinierten Signals.
- Es wird in noch einem weiteren Aspekt der Erfindung eine Vorrichtung zum Codieren von Sprache durch Analysieren eines digitalisierten Sprachsignals, um Erregungsparameter für das digitalisierte Sprachsignal zu ermitteln, bereitgestellt, umfassend: ein Bandunterteilungsmittel, das die Aufgabe hat, das digitalisierte Sprachsignal betriebsmäßig in wenigstens zwei Frequenzbandsignale zu unterteilen; und einen Operator, der die Aufgabe hat, einen nichtlinearen Vorgang an wenigstens einem der Frequenzbandsignale betriebsmäßig durchzuführen, um wenigstens ein modifiziertes Frequenzbandsignal zu erzeugen; wobei die Vorrichtung dadurch gekennzeichnet ist, daß der genannte nichtlineare Vorgang eine Grundfrequenz des digitalisierten Sprachsignals betont, so daß das modifizierte Frequenzbandsignal eine Komponente enthält, die der Grundfrequenz selbst dann entspricht, wenn das wenigstens eine Frequenzbandsignal keine solche Komponente enthält; und dadurch, daß sie ferner ein Ermittlungsmittel umfaßt, das die Aufgabe hat, für wenigstens ein modifiziertes Frequenzbandsignal betriebsmäßig zu ermitteln, ob das modifizierte Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
- Die Erfindung wird nachstehend lediglich anhand eines Beispiels mit Bezug auf die zugehörigen Zeichnungen genauer beschrieben, in welchen gilt:
- Fig. 1 ist ein Blockdiagramm eines Systems zum Ermitteln, ob Frequenzbänder eines Signals mit Sprache belegt oder unbelegt sind;
- Fig. 2-3 sind Blockdiagramme von Grundfrequenz-Abschätzungseinheiten;
- Fig. 4 ist ein Blockdiagramm einer Kanalverarbeitungseinheit des Systems von Fig. 1; und
- Fig. 5 ist ein Blockdiagramm eines Systems zum Ermitteln, ob Frequenzbänder eines Signals mit Sprache belegt oder unbelegt sind.
- Fig. 1-5 zeigen die Struktur eines Systems zum Ermitteln, ob die Frequenzbänder eines Signals mit Sprache belegt oder unbelegt sind, dessen verschiedene Blöcke und Einheiten vorzugsweise mit einer Software implementiert werden.
- Mit Bezug auf Fig. 1 tastet in einem System 10 zum Ermitteln mit Sprache belegt/unbelegt eine Abtasteinheit 12 ein analoges Sprachsignal s(t) ab, um ein Sprachsignal s(n) zu erzeugen. Für typische Sprachcodieranwendungen liegt die Abtastfrequenz im Bereich zwischen sechs Kilohertz und zehn Kilohertz.
- Kanalverarbeitungseinheiten 14 unterteilen das Sprachsignal s(n) in wenigstens zwei Frequenzbänder und verarbeiten die Frequenzbänder zur Erzeugung eines ersten Satzes von Frequenzbandsignalen, die als T&sub0;(ω)... TI(ω) bezeichnet werden. Wie nachstehend erörtert, werden die Kanalverarbeitungseinheiten 14 durch die Parameter eines Bandpaßfilters, der in der ersten Stufe jeder Kanalverarbeitungseinheit 14 verwendet wird, differenziert. Beim bevorzugten Ausführungsbeispiel liegen sechzehn Kanalverarbeitungseinheiten vor (I ist gleich 15).
- Eine Neuabbildungseinheit 16 wandelt den ersten Satz von Frequenzbandsignalen um, um einen zweiten Satz von Frequenzbandsignalen zu erzeugen, die als U&sub0;(ω)... UK(ω) bezeichnet werden. Beim bevorzugten Ausführungsbeispiel sind elf Frequenzbandsignale im zweiten Satz von Frequenzbandsignalen vorhanden (K ist gleich 10). Somit bildet die Neuabbildungseinheit 16 die Frequenzbandsignale aus den sechzehn Kanalverarbeitungseinheiten 14 in elf Frequenzbandsignale ab. Die Neuabbildungseinheit 16 führt dies durch direktes Abbilden der niedrigen Frequenzkomponenten (T&sub0;(ω)... T&sub5;(ω)) des ersten Satzes von Frequenzbandsignalen in den zweiten Satz von Frequenzbandsignalen (U&sub0;(ω)... U&sub5;(ω)) aus. Die Neuabbildungseinheit 16 kombiniert dann die restlichen Paare von Frequenzbandsignalen aus dem ersten Satz in einzelne Frequenzbandsignale im zweiten Satz. Beispielsweise werden T&sub6;(ω) und T&sub7;(ω) kombiniert, um U&sub6;(ω) zu erzeugen, und T&sub1;&sub4;(ω) und T&sub1;&sub5;(ω) werden kombiniert, um U&sub1;&sub0;(ω) zu erzeugen. Weitere Vorgehensweisen zur Neuabbildung könnten ebenfalls verwendet werden.
- Als nächstes ermitteln die Einheiten 18 zur Ermittlung mit Sprache belegt/unbelegt, die jeweils einem Frequenzbandsignal aus dem zweiten Satz zugeordnet sind, ob die Frequenzbandsignale mit Sprache belegt oder unbelegt sind, und erzeugen Ausgangssignale (V/UV&sub0;... V/UVK), die die Ergebnisse dieser Ermittlungen angeben. Jede Ermittlungseinheit 18 berechnet das Verhältnis der mit Sprache belegten Energie ihres zugehörigen Frequenzbandsignals zur Gesamtenergie dieses Frequenzbandsignals. Wenn dieses Verhältnis eine vorbestimmte Schwelle übersteigt, erklärt die Ermittlungseinheit 18 das Frequenzbandsignal als mit Sprache belegt. Ansonsten erklärt die Ermittlungseinheit 18 das Frequenzbandsignal als mit Sprache unbelegt.
- Die Ermittlungseinheiten 18 berechnen die mit Sprache belegte Energie ihrer zugehörigen Frequenzbandsignale als:
- EkV(ω&sub0;) = Uk(ωm)
- wobei gilt
- In = [(n-0,25)ω&sub0;, (n+0,25)ω&sub0;]
- ω&sub0; ist eine Abschätzung der Grundfrequenz (wie nachstehend beschrieben erzeugt), und N ist die berücksichtigte Anzahl der Oberwellen der Grundfrequenz ω&sub0;.
- Die Ermittlungseinheiten 18 berechnen die Gesamtenergie ihrer zugehörigen Frequenzbandsignale wie folgt:
- EkT(ω&sub0;) = Uk(ωm)
- Anstatt nur zu ermitteln, ob die Frequenzbandsignale mit Sprache belegt oder unbelegt sind, ermitteln die Ermittlungseinheiten 18 bei einer weiteren Vorgehensweise den Grad, in dem ein Frequenzbandsignal mit Sprache belegt ist. Wie die vorstehend erörterte Entscheidung mit Sprache belegt/unbelegt ist der Grad an Belegung eine Funktion des Verhältnisses der mit Sprache belegten Energie zur Gesamtenergie: wenn das Verhältnis nahe Eins liegt, ist das Frequenzbandsignal stark mit Sprache belegt; wenn das Verhältnis geringer als oder gleich einhalb ist, ist das Frequenzbandsignal stark mit Sprache unbelegt; und wenn das Verhältnis zwischen einhalb und Eins liegt, ist das Frequenzbandsignal in einem Grad mit Sprache belegt, der durch das Verhältnis angegeben wird.
- Mit Bezug auf Fig. 2 umfaßt eine Grundfrequenz-Abschätzungseinheit 20 eine Kombinationseinheit 22 und eine Abschätzungsvorrichtung 24. Die Kombinationseinheit 22 summiert die Ti(ω)-Ausgangssignale der Kanalverarbeitungseinheiten 14 (Fig. 1), um X(ω) zu erzeugen. Bei einer alternativen Vorgehensweise könnte die Kombinationseinheit 22 einen Rauschabstand (SNR) für das Ausgangssignal jeder Kanalverarbeitungseinheit 14 abschätzen und die verschiedenen Ausgangssignale bewerten, so daß ein Ausgangssignal mit einem höheren SNR mehr zu X(ω) beiträgt als ein Ausgangssignal mit einem niedrigeren SNR.
- Die Abschätzungsvorrichtung 24 schätzt dann die Grundfrequenz (ω&sub0;) durch Auswählen eines Werts für ω&sub0;, der X(ω&sub0;) über ein Intervall von ωmin bis ωmax maximiert, ab. Da X(ω) nur bei diskreten Abtastwerten von ω erhältlich ist, wird eine parabolische Interpolation von X(ω&sub0;) nahe ω&sub0; verwendet, um die Genauigkeit der Abschätzung zu verbessern. Die Abschätzvorrichtung 24 verbessert die Genauigkeit der Grundfrequenzabschätzung weiter durch Kombinieren von parabolischen Abschätzungen nahe den Spitzen der N Oberwellen von ω&sub0; innerhalb der Bandbreite von X(ω).
- Wenn eine Abschätzung der Grundfrequenz einmal ermittelt ist, wird die mit Sprache belegte Energie Ev(ω&sub0;) berechnet als:
- Ev(ω&sub0;) = x(ωm)
- wobei gilt
- In = [(n-0,25)ω&sub0;, (n+0,25)ω&sub0;]
- Anschließend wird die mit Sprache belegte Energie Ev(0,5ω&sub0;) berechnet und mit Ev(ω&sub0;) verglichen, um als Endabschätzung der Grundfrequenz zwischen ω&sub0; und 0,5ω&sub0; zu wählen.
- Mit Bezug auf Fig. 3 umfaßt eine alternative Grundfrequenz-Abschätzungseinheit 26 eine Einheit 28 für nichtlineare Vorgänge, eine Einheit 30 zur Fensterfestlegung und Schnellen Fourier-Transformation (FFT) und eine Abschätzungsvorrichtung 32. Die Einheit 28 für nichtlineare Vorgänge führt einen nichtlinearen Vorgang, den Absolutwert zum Quadrat, an s(n) aus, um die Grundfrequenz von s(n) zu betonen und die Ermittlung der mit Sprache belegten Energie bei der Abschätzung von ω&sub0; zu erleichtern.
- Die Fenster- und FFT-Einheit 30 multipliziert das Ausgangssignal der Einheit 28 für nichtlineare Vorgänge, um es in Segmente zu unterteilen, und berechnet eine FFT, X(ω), des resultierenden Produkts. Schließlich erzeugt eine Abschätzungsvorrichtung 32, die identisch zur Abschätzungsvorrichtung 24 arbeitet, eine Abschätzung der Grundfrequenz.
- Wenn ein Sprachsignal s(n) in eine Kanalverarbeitungseinheit 14 eingeht, werden mit Bezug auf Fig. 4 die Komponenten si(n), die zu einem speziellen Frequenzband gehören, durch einen Bandpaßfilter 34 isoliert. Der Bandpaßfilter 34 verwendet eine Abwärtsabtastung, um die Rechenanforderungen zu verringern, und tut dies ohne irgendeine signifikante Auswirkung auf die Systemleistung. Der Bandpaßfilter 34 kann als Filter mit begrenztem Ansprechen auf einen Impuls (FIR, Finite Impulse Response) oder mit unbegrenztem Ansprechen auf einen Impuls (IIR, Infinite Impulse Response) oder unter Verwendung einer FFT implementiert werden. Der Bandpaßfilter 34 wird unter Verwendung einer FFT mit reellem Eingangssignal mit zweiunddreißig Punkten implementiert, um die Ausgangssignale eines FIR-Filters mit zweiunddreißig Punkten bei siebzehn Frequenzen zu berechnen, und erreicht die Abwärtsabtastung durch Verschieben der Eingangssprachabtastwerte, jedesmal wenn die FFT berechnet wird. Wenn beispielsweise eine erste FFT die Abtastwerte Eins bis Zweiunddreißig verwendet hat, würde ein Abwärtsabtastfaktor von zehn unter Verwendung der Abtastwerte Elf bis Zweiundvierzig in einer zweiten FFT erreicht werden.
- Eine erste Einheit 36 für nichtlineare Vorgänge führt dann einen nichtlinearen Vorgang am isolierten Frequenzband si(n) aus, um die Grundfrequenz des isolierten Frequenzbandes si(n) zu betonen. Für komplexe Werte von si(n) (i größer als Null) wird der Absolutwert si(n) verwendet. Für den reellen Wert von s&sub0;(n) wird s&sub0;(n) verwendet, wenn s&sub0;(n) größer ist als Null, und Null wird verwendet, wenn s&sub0;(n) kleiner als oder gleich Null ist.
- Das Ausgangssignal der Einheit 36 für nichtlineare Vorgänge wird durch eine Tiefpaßfilter- und Abwärtsabtasteinheit 38 geleitet, um die Datenrate zu verringern und folglich die Rechenanforderungen für spätere Komponenten des Systems zu verringern. Die Tiefpaßfilter- und Abwärtsabtasteinheit 38 verwendet einen FIR- Filter mit sieben Punkten, der für einen Abwärtsabtastfaktor von zwei jeden zweiten Abtastwert berechnet.
- Eine Fenster- und FFT-Einheit 40 multipliziert das Ausgangssignal der Tiefpaßfilter- und Abwärtsabtasteinheit 38 mit einem Fenster und berechnet eine FFT mit reellem Eingangssignal, Si(ω), des Produkts.
- Schließlich führt eine zweite Einheit 42 für nichtlineare Vorgänge einen nichtlinearen Vorgang an Si(ω) aus, um die Abschätzung der mit Sprache belegten oder Gesamtenergie zu erleichtern und um sicherzustellen, daß sich die Ausgangssignale der Kanalverarbeitungseinheiten 14, Ti(ω), konstruktiv kombinieren, wenn sie bei der Grundfrequenzabschätzung verwendet werden. Der Absolutwert zum Quadrat wird verwendet, da er alle Komponenten von Ti(ω) reell und positiv macht.
- Weitere Ausführungsbeispiele sind realisierbar. Mit Bezug auf Fig. 5 umfaßt ein alternatives System 44 zur Ermittlung mit Sprache belegt/unbelegt beispielsweise eine Abtasteinheit 12, Kanalverarbeitungseinheiten 14, eine Neuabbildungseinheit 16, Einheiten 18 zur Ermittlung mit Sprache belegt/unbelegt, die identisch zu den entsprechenden Einheiten im System 10 zur Ermittlung mit Sprache belegt/unbelegt arbeiten. Da jedoch nichtlineare Vorgänge am vorteilhaftesten auf hohe Frequenzbänder angewendet werden, verwendet das Ermittlungssystem 44 nur Kanalverarbeitungseinheiten 14 in Frequenzbändern, die hohen Frequenzen entsprechen, und verwendet Kanalumwandlungseinheiten 46 in Frequenzbändern, die niedrigen Frequenzen entsprechen. Die Kanalumwandlungseinheiten 46 verarbeiten das Eingangssignal gemäß gut bekannten Verfahren zum Erzeugen von Frequenzbandsignalen, anstatt daß sie nichtlineare Vorgänge auf ein Ein gangssignal anwenden. Eine Kanalumwandlungseinheit 46 könnte beispielsweise einen Bandpaßfilter und eine Fenster- und FFT-Einheit enthalten.
- Bei einer alternativen Vorgehensweise könnten die Fenster- und FFT-Einheit 40 und die Einheit 42 für nichtlineare Vorgänge von Fig. 4 gegen eine Fenster- und Autokorrelationseinheit ausgetauscht werden. Die mit Sprache belegte Energie und die Gesamtenergie würden dann aus der Autokorrelation berechnet werden.
Claims (30)
1. Verfahren zum Analysieren eines digitalisierten
Sprachsignals, um Erregungsparameter für das digitale
Sprachsignal zu ermitteln, umfassend die folgenden
Schritte:
Unterteilen des digitalisierten Sprachsignals in
wenigstens zwei Frequenzbandsignale;
Durchführen eines nichtlinearen Vorgangs an wenigstens
einem der Frequenzbandsignale, um wenigstens ein
modifiziertes Frequenzbandsignal zu erzeugen, wobei der
nichtlineare Vorgang ein Vorgang ist, der eine
Grundfrequenz des digitalisierten Sprachsignals betont, so
dass das modifizierte Frequenzbandsignal eine Komponente
enthält, die der Grundfrequenz selbst dann entspricht, wenn
das wenigstens eine Frequenzbandsignal keine solche
Komponente enthält; und
Ermitteln, für wenigstens ein modifiziertes
Frequenzbandsignal, ob das modifizierte Frequenzbandsignal
mit Sprache belegt oder unbelegt ist.
2. Verfahren nach Anspruch 1, bei dem der
Ermittlungsschritt in regelmäßigen Zeitintervallen
durchgeführt wird.
3. Verfahren nach Anspruch 1 oder 2, bei dem das
digitalisierte Sprachsignal als ein Schritt bei der
Sprachcodierung analysiert wird.
4. Verfahren nach einem der vorherigen Ansprüche, ferner
umfassend den Schritt des Schätzens der Grundfrequenz der
digitalisierten Sprache.
5. Verfahren nach einem der vorherigen Ansprüche, ferner
umfassend den Schritt des Schätzens der Grundfrequenz von
wenigstens einem modifizierten Frequenzbandsignal.
6. Verfahren nach einem der vorherigen Ansprüche, ferner
umfassend die folgenden Schritte:
Kombinieren, eines
modifizierten Frequenzbandsignals
mit wenigstens einem anderen Frequenzbandsignal, um ein
kombiniertes Signal zu erzeugen; und
Schätzen der Grundfrequenz des kombinierten Signals.
7. Verfahren nach Anspruch 6, bei dem der
Durchführungsschritt an wenigstens zwei der Frequenzbandsignale
durchgeführt wird, um wenigstens zwei modifizierte
Frequenzbandsignale zu erzeugen, und wobei der genannte
Kombinationsschritt das Kombinieren von wenigstens zwei der
beiden modifizierten Frequenzbandsignale umfasst.
8. Verfahren nach Anspruch 6, bei dem der
Kombinationsschritt das Summieren des modifizierten
Frequenzbandsignals und des wenigstens einen anderen
Frequenzbandsignals beinhaltet, um das kombinierte Signal
zu erzeugen.
9. Verfahren nach Anspruch 6, ferner umfassend den
Schritt des Ermittelns eines Rauschabstands für das
modifizierte Frequenzbandsignal und das wenigstens eine
andere Frequenzbandsignal, und wobei der genannte
Kombinationsschritt das Bewerten des modifizierten
Frequenzbandsignals und des wenigstens einen anderen
Frequenzbandsignals beinhaltet, um das kombinierte Signal
zu erzeugen, so dass ein Frequenzbandsignal mit einem hohen
Rauschabstand mehr zum kombinierten Signal beiträgt als ein
Frequenzbandsignal mit einem niedrigen Rauschabstand.
10. Verfahren nach einem der Ansprüche 1 bis 4, ferner
umfassend die folgenden Schritte:
Durchführen eines genannten nichtlinearen Vorgangs an
wenigstens zwei der Frequenzbandsignale, um einen ersten
Satz von modifizierten Frequenzbandsignalen zu erzeugen;
Umwandeln des ersten Satzes von modifizierten
Frequenzbandsignalen in einen zweiten Satz von wenigstens
einem modifizierten Frequenzbandsignal;
Ermitteln, für wenigstens ein modifiziertes
Frequenzbandsignal in dem zweiten Satz, ob das modifizierte
Frequenzbandsignal mit Sprache belegt oder unbelegt ist.
11. Verfahren nach Anspruch 10, bei dem der genannte
Umwandlungsschritt das Kombinieren von wenigstens zwei
modifizierten Frequenzbandsignalen von dem ersten Satz
beinhaltet, um ein einzelnes modifiziertes
Frequenzbandsignal in dem zweiten Satz zu erzeugen.
12. Verfahren nach Anspruch 10, ferner umfassend die
folgenden Schritte:
Kombinieren eines modifizierten Frequenzbandsignals
aus dem zweiten Satz von modifizierten Frequenzbandsignalen
mit wenigstens einem anderen Frequenzbandsignal, um ein
kombiniertes Signal zu erzeugen; und
Schätzen der Grundfrequenz des kombinierten Signals.
13. Verfahren nach einem der vorherigen Ansprüche, bei dem
der genannte Schritt des Ermittelns, ob das modifizierte
Frequenzbandsignal mit Sprache belegt oder unbelegt ist,
folgendes umfasst:
Ermitteln der mit Sprache belegten Energie des
modifizierten Frequenzbandsignals;
Ermitteln der Gesamtenergie des modifizierten
Frequenzbandsignals;
Erklären des modifizierten Frequenzbandsignals als mit
Sprache belegt, wenn die mit Sprache belegte Energie des
modifizierten Frequenzbandsignals einen vorbestimmten
Anteil der Gesamtenergie des modifizierten
Frequenzbandsignals übersteigt; und
Erklären des modifizierten Frequenzbandsignals als
unbelegt, wenn die mit Sprache belegte Energie des
modifizierten Frequenzbandsignals gleich oder kleiner ist
als der vorbestimmte Anteil der Gesamtenergie des
modifizierten Frequenzbandsignals.
14. Verfahren nach Anspruch 13, bei dem die mit Sprache
belegte Energie der Teil der Gesamtenergie ist, der der
geschätzten Grundfrequenz des modifizierten
Frequenzbandsignals und Oberwellen der geschätzten
Grundfrequenz zugeordnet werden kann.
15. Verfahren nach Anspruch 13, bei dem die mit Sprache
belegte Energie des modifizierten Frequenzbandsignals von
einer Korrelation des modifizierten Frequenzbandsignals mit
sich selbst oder mit einem anderen modifizierten
Frequenzbandsignal abgeleitet wird.
16. Verfahren nach Anspruch 13, bei dem, wenn das genannte
modifizierte Frequenzbandsignal als mit Sprache belegt
erklärt wird, der genannte Schritt des Ermittelns, ob das
modifizierte Frequenzbandsignal mit Sprache belegt oder
unbelegt ist, ferner das Schätzen eines Grades an Belegung
für das modifizierte Frequenzbandsignal beinhaltet, indem
die mit Sprache belegte Energie des modifizierten
Frequenzbandsignals mit der Gesamtenergie des modifizierten
Frequenzbandsignals verglichen wird.
17. Verfahren nach einem der vorherigen Ansprüche, bei dem
der genannte Durchführungsschritt das Durchführen eines
genannten nichtlinearen Vorgangs auf alle
Frequenzbandsignale beinhaltet, so dass die Anzahl von
modifizierten Frequenzbandsignalen, die mit dem genannten
Durchführungsschritt erzeugt wurden, der Anzahl von
Frequenzbandsignalen entspricht, die mit dem genannten
Unterteilungsschritt erzeugt wurden.
18. Verfahren nach einem der Ansprüche 1 bis 16, bei dem
der genannte Durchführungsschritt das Durchführen eines
nichtlinearen Vorgangs auf nur einige der
Frequenzbandsignale beinhaltet, so dass die Anzahl von
modifizierten Frequenzbandsignalen, die mit dem genannten
Durchführungsschritt erzeugt wurden, geringer ist als die
Anzahl von Frequenzbandsignalen, die mit dem genannten
Unterteilungsschritt erzeugt wurden.
19. Verfahren nach Anspruch 18, bei dem die
Frequenzbandsignale, an denen ein nichtlinearer Vorgang
durchgeführt wird, höheren Frequenzen entsprechen als die
Frequenzbandsignale, an denen kein nichtlinearer Vorgang
durchgeführt wird.
20. Verfahren nach Anspruch 18, ferner umfassend den
folgenden Schritt: Ermitteln für Frequenzbandsignale, an
denen kein genannter nichtlinearer Vorgang durchgeführt
wird, ob das Frequenzbandsignal mit Sprache belegt oder
unbelegt ist.
21. Verfahren nach einem der vorherigen Ansprüche, bei dem
der genannte nichtlineare Vorgang der Absolutwert ist.
22. Verfahren nach einem der Ansprüche 1 bis 20, bei dem
der genannte nichtlineare Vorgang der Absolutwert zum
Quadrat ist.
23. Verfahren nach einem der Ansprüche 1 bis 20, bei dem
der genannte nichtlineare Vorgang der Absolutwert ist,
erhoben zu einer Potenz, die einer reellen Zahl entspricht.
24. Verfahren nach einem der vorherigen Ansprüche, ferner
umfassend den Schritt des Codierens eines Teils der
Erregungsparameter.
25. Verfahren zum Analysieren eines digitalisierten
Sprachsignals, um Erregungsparameter für das digitalisierte
Sprachsignal zu ermitteln, umfassend die folgenden
Schritte:
Unterteilen des digitalisierten Sprachsignals in
wenigstens zwei Frequenzbandsignale;
Durchführen eines nichtlinearen Vorgangs an wenigstens
einem der Frequenzbandsignale, um wenigstens ein
modifiziertes Frequenzbandsignal zu erzeugen, wobei der
nichtlineare Vorgang ein Vorgang ist, der eine
Grundfrequenz des digitalisierten Sprachsignals betont, so
dass das modifizierte Frequenzbandsignal eine Komponente
enthält, die der Grundfrequenz selbst dann entspricht, wenn
das wenigstens eine Frequenzbandsignal keine solche
Komponente enthält; und
Schätzen der Grundfrequenz von wenigstens einem
modifizierten Frequenzbandsignal.
26. Verfahren zum Analysieren eines digitalisierten
Sprachsignals, um die Grundfrequenz für das digitalisierte
Sprachsignal zu ermitteln, umfassend die folgenden
Schritte:
Unterteilen des digitalisierten Sprachsignals in
wenigstens zwei Frequenzbandsignale;
Durchführen eines nichtlinearen Vorgangs an wenigstens
zwei der Frequenzbandsignale, um wenigstens zwei
modifizierte Frequenzbandsignale zu erzeugen, wobei der
nichtlineare Vorgang ein Vorgang ist, der eine
Grundfrequenz des digitalisierten Sprachsignals betont, so
dass das modifizierte Frequenzbandsignal eine Komponente
enthält, die der Grundfrequenz selbst dann entspricht, wenn
das wenigstens eine Frequenzbandsignal keine solche
Komponente enthält;
Kombinieren der wenigstens zwei modifizierten
Frequenzbandsignale zur Erzeugung eines kombinierten
Signals; und
Schätzen der Grundfrequenz des kombinierten Signals.
27. Vorrichtung zum Codieren von Sprache durch Analysieren
eines digitalisierten Sprachsignals, um Erregungsparameter
für das digitalisierte Sprachsignal zu ermitteln,
umfassend: ein Bandunterteilungsmittel, das die Aufgabe
hat, das digitalisierte Sprachsignal betriebsmäßig in
wenigstens zwei Frequenzbandsignale zu unterteilen; und
einen Operator, der die Aufgabe hat, einen nichtlinearen
Vorgang an wenigstens einem der Frequenzbandsignale
betriebsmäßig durchzuführen, um wenigstens ein
modifiziertes Frequenzbandsignal zu erzeugen; wobei die
Vorrichtung dadurch gekennzeichnet ist, dass der genannte
nichtlineare Vorgang eine Grundfrequenz des digitalisierten
Sprachsignals betont, so dass das modifizierte
Frequenzbandsignal eine Komponente enthält, die der
Grundfrequenz selbst dann entspricht, wenn das wenigstens
eine Frequenzbandsignal keine solche Komponente enthält;
und dadurch, dass sie ferner ein Ermittlungsmittel umfasst,
das die Aufgabe hat, für wenigstens ein modifiziertes
Frequenzbandsignal betriebsmäßig zu ermitteln, ob das
modifizierte Frequenzbandsignal mit Sprache belegt oder
unbelegt ist.
28. Vorrichtung nach Anspruch 27, die ferner folgendes
umfasst: ein Kombinationsmittel, das die Aufgabe hat, das
wenigstens eine modifizierte Frequenzbandsignal mit
wenigstens einem anderen Frequenzbandsignal betriebsmäßig
zu kombinieren, um ein kombiniertes Signal zu erzeugen; und
ein Schätzungsmittel, das die Aufgabe hat, die
Grundfrequenz des kombinierten Signals betriebsmäßig zu
schätzen.
29. Vorrichtung nach Anspruch 27 oder 28, bei der der
Operator ein Durchführungsmittel beinhaltet, das die
Aufgabe hat, einen genannten nichtlinearen Vorgang an
lediglich einigen der Frequenzbandsignale betriebsmäßig
durchzuführen, so dass die Anzahl von modifizierten
Frequenzbandsignalen, die von dem Operator erzeugt werden,
geringer ist als die Anzahl von Frequenzbandsignalen, die
von dem Bandunterteilungsmittel erzeugt werden.
30. Vorrichtung nach Anspruch 29, bei der die
Frequenzbandsignale, an denen das Durchführungsmittel einen
genannten nichtlinearen Vorgang durchführen soll, höheren
Frequenzen entsprechen als die Frequenzbandsignale, an
denen kein solcher nichtlinearer Vorgang durchgeführt wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US08/222,119 US5715365A (en) | 1994-04-04 | 1994-04-04 | Estimation of excitation parameters |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69518454D1 DE69518454D1 (de) | 2000-09-28 |
DE69518454T2 true DE69518454T2 (de) | 2001-04-12 |
Family
ID=22830914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69518454T Expired - Lifetime DE69518454T2 (de) | 1994-04-04 | 1995-04-04 | Abschätzung von Anregungsparametern |
Country Status (9)
Country | Link |
---|---|
US (1) | US5715365A (de) |
EP (1) | EP0676744B1 (de) |
JP (1) | JP4100721B2 (de) |
KR (1) | KR100367202B1 (de) |
CN (1) | CN1113333C (de) |
CA (1) | CA2144823C (de) |
DE (1) | DE69518454T2 (de) |
DK (1) | DK0676744T3 (de) |
NO (1) | NO308635B1 (de) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP3266819B2 (ja) * | 1996-07-30 | 2002-03-18 | 株式会社エイ・ティ・アール人間情報通信研究所 | 周期信号変換方法、音変換方法および信号分析方法 |
JP4121578B2 (ja) * | 1996-10-18 | 2008-07-23 | ソニー株式会社 | 音声分析方法、音声符号化方法および装置 |
US5839098A (en) | 1996-12-19 | 1998-11-17 | Lucent Technologies Inc. | Speech coder methods and systems |
US6070137A (en) * | 1998-01-07 | 2000-05-30 | Ericsson Inc. | Integrated frequency-domain voice coding using an adaptive spectral enhancement filter |
US6192335B1 (en) * | 1998-09-01 | 2001-02-20 | Telefonaktieboiaget Lm Ericsson (Publ) | Adaptive combining of multi-mode coding for voiced speech and noise-like signals |
US6604071B1 (en) * | 1999-02-09 | 2003-08-05 | At&T Corp. | Speech enhancement with gain limitations based on speech activity |
US6253171B1 (en) * | 1999-02-23 | 2001-06-26 | Comsat Corporation | Method of determining the voicing probability of speech signals |
US6975984B2 (en) * | 2000-02-08 | 2005-12-13 | Speech Technology And Applied Research Corporation | Electrolaryngeal speech enhancement for telephony |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
US7970606B2 (en) | 2002-11-13 | 2011-06-28 | Digital Voice Systems, Inc. | Interoperable vocoder |
US7634399B2 (en) * | 2003-01-30 | 2009-12-15 | Digital Voice Systems, Inc. | Voice transcoder |
US8359197B2 (en) | 2003-04-01 | 2013-01-22 | Digital Voice Systems, Inc. | Half-rate vocoder |
US7698949B2 (en) * | 2005-09-09 | 2010-04-20 | The Boeing Company | Active washers for monitoring bolted joints |
KR100735343B1 (ko) * | 2006-04-11 | 2007-07-04 | 삼성전자주식회사 | 음성신호의 피치 정보 추출장치 및 방법 |
US8036886B2 (en) * | 2006-12-22 | 2011-10-11 | Digital Voice Systems, Inc. | Estimation of pulsed speech model parameters |
US9947340B2 (en) | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB0822537D0 (en) * | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
US8600737B2 (en) | 2010-06-01 | 2013-12-03 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for wideband speech coding |
JP5552988B2 (ja) * | 2010-09-27 | 2014-07-16 | 富士通株式会社 | 音声帯域拡張装置および音声帯域拡張方法 |
US11295751B2 (en) * | 2019-09-20 | 2022-04-05 | Tencent America LLC | Multi-band synchronized neural vocoder |
US11270714B2 (en) | 2020-01-08 | 2022-03-08 | Digital Voice Systems, Inc. | Speech coding using time-varying interpolation |
US12254895B2 (en) | 2021-07-02 | 2025-03-18 | Digital Voice Systems, Inc. | Detecting and compensating for the presence of a speaker mask in a speech signal |
US11990144B2 (en) | 2021-07-28 | 2024-05-21 | Digital Voice Systems, Inc. | Reducing perceived effects of non-voice data in digital speech |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3706929A (en) * | 1971-01-04 | 1972-12-19 | Philco Ford Corp | Combined modem and vocoder pipeline processor |
US3982070A (en) * | 1974-06-05 | 1976-09-21 | Bell Telephone Laboratories, Incorporated | Phase vocoder speech synthesis system |
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4004096A (en) * | 1975-02-18 | 1977-01-18 | The United States Of America As Represented By The Secretary Of The Army | Process for extracting pitch information |
JPS6051720B2 (ja) * | 1975-08-22 | 1985-11-15 | 日本電信電話株式会社 | 音声の基本周期抽出装置 |
US4091237A (en) * | 1975-10-06 | 1978-05-23 | Lockheed Missiles & Space Company, Inc. | Bi-Phase harmonic histogram pitch extractor |
US4015088A (en) * | 1975-10-31 | 1977-03-29 | Bell Telephone Laboratories, Incorporated | Real-time speech analyzer |
JPS597120B2 (ja) * | 1978-11-24 | 1984-02-16 | 日本電気株式会社 | 音声分析装置 |
FR2494017B1 (fr) * | 1980-11-07 | 1985-10-25 | Thomson Csf | Procede de detection de la frequence de melodie dans un signal de parole et dispositif destine a la mise en oeuvre de ce procede |
ATE15415T1 (de) * | 1981-09-24 | 1985-09-15 | Gretag Ag | Verfahren und vorrichtung zur redundanzvermindernden digitalen sprachverarbeitung. |
US4441200A (en) * | 1981-10-08 | 1984-04-03 | Motorola Inc. | Digital voice processing system |
US4509186A (en) * | 1981-12-31 | 1985-04-02 | Matsushita Electric Works, Ltd. | Method and apparatus for speech message recognition |
DE3276732D1 (en) * | 1982-04-27 | 1987-08-13 | Philips Nv | Speech analysis system |
FR2544901B1 (fr) * | 1983-04-20 | 1986-02-21 | Zurcher Jean Frederic | Vocodeur a canaux muni de moyens de compensation des modulations parasites du signal de parole synthetise |
AU2944684A (en) * | 1983-06-17 | 1984-12-20 | University Of Melbourne, The | Speech recognition |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
NL8400728A (nl) * | 1984-03-07 | 1985-10-01 | Philips Nv | Digitale spraakcoder met basisband residucodering. |
US4622680A (en) * | 1984-10-17 | 1986-11-11 | General Electric Company | Hybrid subband coder/decoder method and apparatus |
US4879748A (en) * | 1985-08-28 | 1989-11-07 | American Telephone And Telegraph Company | Parallel processing pitch detector |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
US4797926A (en) * | 1986-09-11 | 1989-01-10 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech vocoder |
WO1990013112A1 (en) * | 1989-04-25 | 1990-11-01 | Kabushiki Kaisha Toshiba | Voice encoder |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
EP0459362B1 (de) * | 1990-05-28 | 1997-01-08 | Matsushita Electric Industrial Co., Ltd. | Sprachsignalverarbeitungsvorrichtung |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5450522A (en) * | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
-
1994
- 1994-04-04 US US08/222,119 patent/US5715365A/en not_active Expired - Lifetime
-
1995
- 1995-03-16 CA CA002144823A patent/CA2144823C/en not_active Expired - Lifetime
- 1995-04-03 JP JP07782995A patent/JP4100721B2/ja not_active Expired - Lifetime
- 1995-04-03 CN CN95103849A patent/CN1113333C/zh not_active Expired - Lifetime
- 1995-04-03 NO NO951287A patent/NO308635B1/no not_active IP Right Cessation
- 1995-04-04 DK DK95302290T patent/DK0676744T3/da active
- 1995-04-04 EP EP95302290A patent/EP0676744B1/de not_active Expired - Lifetime
- 1995-04-04 KR KR1019950007903A patent/KR100367202B1/ko not_active Expired - Lifetime
- 1995-04-04 DE DE69518454T patent/DE69518454T2/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
KR950034055A (ko) | 1995-12-26 |
US5715365A (en) | 1998-02-03 |
CN1118914A (zh) | 1996-03-20 |
NO308635B1 (no) | 2000-10-02 |
NO951287D0 (no) | 1995-04-03 |
EP0676744A1 (de) | 1995-10-11 |
KR100367202B1 (ko) | 2003-03-04 |
NO951287L (no) | 1995-10-05 |
JP4100721B2 (ja) | 2008-06-11 |
JPH0844394A (ja) | 1996-02-16 |
DK0676744T3 (da) | 2000-12-18 |
CN1113333C (zh) | 2003-07-02 |
DE69518454D1 (de) | 2000-09-28 |
CA2144823A1 (en) | 1995-10-05 |
CA2144823C (en) | 2006-01-17 |
EP0676744B1 (de) | 2000-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69518454T2 (de) | Abschätzung von Anregungsparametern | |
DE69623360T2 (de) | Schätzung von Anregungsparametern | |
DE69518452T2 (de) | Verfahren für die Transformationskodierung akustischer Signale | |
DE69032551T2 (de) | Einrichtung zur Sprachkodierung | |
DE69329511T2 (de) | Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten | |
DE3789476T2 (de) | Digitaler Vocoder. | |
DE68916944T2 (de) | Verfahren zur schnellen Bestimmung der Grundfrequenz in Sprachcodierern mit langfristiger Prädiktion. | |
DE69614989T2 (de) | Verfahren und Vorrichtung zur Feststellung der Sprachaktivität in einem Sprachsignal und eine Kommunikationsvorrichtung | |
DE69915400T2 (de) | Vorrichtung zur Kodierung und Dekodierung von Audiosignalen | |
DE3306730C2 (de) | ||
DE60317722T2 (de) | Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden | |
DE69614796T2 (de) | Signalwiederherstellung mit linksseitigen und rechtsseitigen autoregressiven Parametern | |
DE69131776T2 (de) | Verfahren zur sprachanalyse und synthese | |
DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
DE69725670T2 (de) | Hochgenaue Zeit-Frequenz-Signalanalyse mit niedriger Verzerrung unter Verwendung gedrehter Fensterspektrogramme | |
DE69232904T2 (de) | Sprachkodierer/-dekodierer und Kodierungs-/Dekodierungsverfahren | |
DE69227401T2 (de) | Verfahren zum Kodieren und Dekodieren von Sprachsignalen | |
DE69328828T2 (de) | Verfahren und gerät zur analyse von zeitlich veränderlichem frequenzspektrum | |
DE69529672T2 (de) | System zur sprachkodierung | |
DE69519453T2 (de) | Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien | |
DE69700087T2 (de) | Gerät und Verfahren zur Signalanalyse | |
DE60221927T2 (de) | Vorrichtung und Programm zur Schallcodierung | |
DE69731588T2 (de) | Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem | |
DE69328064T2 (de) | Zeit-Frequenzinterpolation mit Anwendung zur Sprachkodierung mit niedriger Rate | |
DE69602421T2 (de) | Verfahren zur sprachkodierung mittels analyse durch synthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DIGITAL VOICE SYSTEMS, INC., WESTFORD, MASS., US |