EP1130577A2 - Method for the reconstruction of low speech frequencies from mid-range frequencies - Google Patents
Method for the reconstruction of low speech frequencies from mid-range frequencies Download PDFInfo
- Publication number
- EP1130577A2 EP1130577A2 EP01102129A EP01102129A EP1130577A2 EP 1130577 A2 EP1130577 A2 EP 1130577A2 EP 01102129 A EP01102129 A EP 01102129A EP 01102129 A EP01102129 A EP 01102129A EP 1130577 A2 EP1130577 A2 EP 1130577A2
- Authority
- EP
- European Patent Office
- Prior art keywords
- frequency
- signal
- speech signal
- speech
- fundamental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Definitions
- the invention relates to a method and a device for reconstruction low-frequency speech components from medium-high frequency components.
- From US 4,091,237 A is a method for determining the basic voice frequency of a digital voice signal known in real time. Especially for signals with one restricted frequency range, such as phone signals, and with a high The speech signal is improved by reducing noise by filtering out noise become.
- the signal is split up and in by a plurality of bandpass filters corresponding histogram is formed from which the basic voice frequency is extracted. If the fundamental frequency is known, noise can be recognized by the fact that it is in have no harmonic relationship to the fundamental frequency.
- the previously described The method is used to determine the basic frequency characteristic of a voice determine.
- DE 37 33 983 describes a method for damping interference signals in a hearing aid known in which the signal is digitized and in individual Frequency ranges is divided. Frequency ranges with certain characteristics, such as rapid or very slow changes in the spectral distribution are damped and / or the cutoff frequencies are shifted. The signal cleaned in this way is in converted synthetic speech signals.
- the method described above and the associated devices is the The disadvantage is that the speech signal is not at all or only in an insufficient form is reconstructed in order to generate the most natural possible output speech signal.
- digital Voice amplification digital voice enhancement - DVE
- the procedure can also be used to Speech communication can be carried out inside the vehicle. However, it is Optimal sound quality is required to achieve acceptance among buyers.
- the invention is therefore based on the technical problem arising from the prior art Technique known as well as the associated device for the reconstruction low-frequency speech components from medium-high frequency components to further develop and design that for a reproduction of the disturbed Speech signal a reproduction that is as close to nature as possible is made possible.
- low-frequency signal components of the speech signal become synthetic generated, that is, reconstructed, and the remaining recorded speech signal added.
- the low-frequency speech components are reconstructed based on the unfiltered speech signals. This is exploited that the low-frequency speech parts accompanied by higher-frequency parts of the harmonics are so that the missing portions are estimated from the remaining signal to let.
- the frequencies of the harmonics of the fundamental frequency arranged below the limit frequency are determined and in addition to the fundamental frequency for a reconstruction of the low-frequency Frequency range used.
- the frequencies used for the reconstruction are marked with a respective spectral distribution and a predetermined amplitude to a synthetic Spectrum composed that the frequency range below the cutoff frequency in Voice signal corresponds. From this frequency segment and the speech signal above the reconstructed speech signal is then composed of the cutoff frequency.
- the low-frequency speech component therefore no longer has a noise signal since it is exclusively is composed of frequency components of the speech signal.
- the low-frequency speech component can also can be determined directly from the speech signal.
- one of several band filters existing comb filter based on the fundamental frequency and the frequencies of the harmonics arranged below the cutoff frequency, the Frequency positions of the individual bandpass filters, the cut-off frequencies and the Correspond to harmonics.
- the speech signal is then in the Filtered range below the cutoff frequency, allowing the signal components to pass become part of the actual speech signal. In this way too Reconstruction of a largely undisturbed speech signal in the low-frequency range of the speech signal possible.
- the decisive factor for the quality of the reconstruction of the low-frequency speech component is the Accuracy of the determined basic frequency of the speech signal. Since the Basic frequency continuously changed during speaking due to the sentence melody, a further improvement of the method is achieved in that at the beginning of a Speech contained speech section from the speech signal the fundamental frequency is determined and then this is adaptively tracked. Thus, in time The course of the speech signal determines the current fundamental frequency, so that the Reconstruction of the speech signal adapted as closely as possible to the course of the voice can be. An embodiment of such an adaptive tracking will continue explained in detail below.
- the amplitude of the at least one is below the Cutoff frequency generated frequency signal depending on the amplitudes of the frequency signals analyzed above the cutoff frequency are determined.
- Typical amplitude profiles of speech signals can preferably be used Find application not only in the frequency components, but also in the Amplitude distribution of the frequency components as precise an adaptation as possible to achieve natural speech signal.
- the cutoff frequency is dependent on the noise level, ie is determined in particular by the size of the interference signal. So it is low Interference signal levels, for example, only necessary to reduce the speech signal component below 200 Hz reconstruct, while it is necessary that the speech signal at high interference signal levels to be reconstructed in the frequency range below 500 Hz.
- the cutoff frequency can also be in Depending on the driving speed can be determined.
- One application of the method described above is in one to play recorded voice signals while the motor vehicle is moving, thereby providing a reproduce as natural a language impression as possible.
- Another application of the method according to the invention is to use a to reproduce a voice signal transmitted on a telephone connection.
- the basis lying problem is that the voice signals on telephone connections in the frequency range below 350 Hz contain no information. Therefore, for a lifelike reproduction of the speech signal from the low-frequency speech portion the frequency range above 350 Hz can be reconstructed. This can be done in carried out particularly advantageously by the method according to the invention become.
- Fig. 1 shows a frequency-amplitude diagram of the interior noise level in one moving motor vehicle for different speeds between 60 km / h and 160 km / h.
- this representation it is striking that especially at low frequencies below approx. 500 Hz the interior noise level compared to the others Frequencies of the interior noise signal increases sharply.
- the basic frequency and the first harmonics to the basic frequency in Frequency range below 1000 Hz and especially below 500 Hz is one Determination, i.e. a filtering out of the speech signal from the Interior noise signal considerably more difficult.
- Fig. 2 shows a speech signal which has been superimposed by a background signal in a time-frequency representation as a spectrogram.
- This spectrogram is e.g. obtained by a Fourier transform (FFT) from a microphone signal.
- FFT Fourier transform
- Fig. 2 indicate different gray values of the individual segments of the spectrogram different intensities.
- These latter narrow-band frequency components represent harmonics of the fundamental frequency of the corresponding speech signal, the - As described below - are evaluated according to the invention.
- Fig. 3 shows a spectrogram of the speech signal shown in Fig. 2 without the Background noise, so that even the low-frequency speech components as narrow-band Frequency components can be seen in the spectrogram below 500 Hz. This Parts of the language have to be reconstructed.
- FIG. 5 shows an example of a reconstructed speech signal in the area below the Cutoff frequency of approximately 400 Hz and Fig. 6 shows the composite reconstructed Speech signal from the reconstructed speech portion shown in FIG. 5 and the in Fig. 4 frequency portion shown above the cutoff frequency of the original Spectrum. How the reconstructed language components are obtained is described below described in detail with reference to FIGS. 7 to 9.
- FIG. 7 shows in a block diagram a device for the reconstruction of low-frequency speech components from medium-high frequency components.
- the speech signal is fed to a means 4 for determining frequency components ⁇ fa1 , ⁇ fa2 , ... of maxima in the speech signal above a predetermined cut-off frequency ⁇ 0 .
- the speech signal is first passed through a bandpass filter 6, so that only the frequency components between the cut-off frequency ⁇ 0 and a further frequency ⁇ 1 are cut out and passed on for further processing.
- ⁇ 0 is for example in the range from 200 to 500 Hz, in particular 350 Hz
- the frequency ⁇ 1 is in the range of 800 Hz, for example.
- the frequency section of the speech signal filtered out in this way is mixed in the mixing element 8, so that the sum and difference frequencies of the frequency components contained in the cut out section of the speech signal are formed.
- the difference frequencies are of interest, so that the signal emerging from the mixing element 8 is processed by means of a low-pass filter, so that only frequency components below an adjustable frequency ⁇ 2 are let through.
- the smallest difference frequency can thus be determined, which corresponds to the distance between two spectral components arranged adjacent to one another in the speech signal. Since these are two harmonics of the fundamental frequency, the difference frequency represents the fundamental frequency ⁇ g .
- This fundamental frequency is then fed to means 12 for the reconstruction of the speech signal.
- the voice signal is fed via a further input of the means 12 via a delay stage 14 and a low-pass filter 16.
- the means 12 have both the value of the fundamental frequency ⁇ g and a predetermined frequency section of the speech signal available for a reconstruction of the signal containing the speech.
- the delay stage 14 is used to compensate for the time span ⁇ t that is required for determining the fundamental frequency ⁇ g and the low-pass filter 16 is used to sensibly reduce the amount of data that is fed to the means 12 for the reconstruction of the speech signal.
- the means 12 for the reconstruction of the speech signal below the cut-off frequency ⁇ 0 has two alternative methods in terms of circuitry.
- the fundamental frequency ⁇ g is used to generate a signal in the reconstructed speech signal that corresponds to the fundamental tone of the speech.
- the aim is to generate all the harmonics in the frequency section of the speech signal to be reconstructed, ie to simulate them.
- the voice signal is delayed by a time difference .DELTA.t via a further delay stage 18 in order to allow adaptation to the time period necessary for the reconstruction of the low-frequency voice component.
- a high-pass filter 20 in which the speech signal is filtered out above the cut-off frequency ⁇ 0
- both this high-pass filtered signal and the reconstructed speech signal for frequencies ⁇ ⁇ 0 converge in the sum element 22, from which the reconstructed spectrogram shown in FIG. 6 is generated becomes.
- This spectrogram therefore consists on the one hand of the frequency component reconstructed below the cutoff frequency ⁇ 0 and of the original frequency spectrum above the cutoff frequency ⁇ 0 .
- the spectrogram generated in this way leads to an almost natural-sounding speech reproduction.
- the fundamental frequency ⁇ g generally does not remain constant in a speech signal due to the speech melody. It is therefore necessary to constantly redetermine the fundamental frequency ⁇ g . On the one hand, this can be done by continuously running through the previously described method, which was previously described with the aid of elements 4, 6, 8 and 10. On the other hand, however, more precise adaptive tracking of the fundamental frequency ⁇ g can be carried out. This is possible with a device which is shown in FIG. 8.
- the fundamental frequency ⁇ g, 0 initially determined at the beginning of a speech signal is multiplied to N times the value with the aid of a multiplication element 24.
- the (N-1) th harmonic to the fundamental frequency is thus calculated.
- the frequency of these harmonics is referred to below as the control harmonic and the associated frequency is denoted by ⁇ r .
- the frequency ⁇ r is introduced into a control loop via a multi-port switch.
- the output of the multiplication element 24 is transferred from the multi-port switch 26 to the mixing element 28.
- the multi-port switch 26 is switched so that ⁇ r , is passed on to the mixing element 28.
- ⁇ r is exactly the frequency of the (N-1) th harmonic.
- the mixing element 28 forms the difference between ⁇ r and ⁇ m .
- a sine wave generator generates a sinusoidal signal with the frequency that is specified by its input signal ⁇ d . This is fed to a mixing element 32 which mixes the speech signal and this sinusoidal signal. After mixing has taken place, the mixed signal is output from the mixing element 32, which is fed to a control element 34 for determining the frequency-dependent power distribution in the mixed signal in relation to the fixed frequency ⁇ m .
- the frequency ⁇ r of the control harmonic does not correspond to the current frequency of the corresponding harmonic in the speech signal, the power distribution will not reach its maximum at the frequency ⁇ m , but at a position shifted by a difference value ⁇ .
- a correction value for ⁇ can thus be determined, which is added to the current value of the frequency ⁇ r of the control harmonic. This results in the new value of the frequency ⁇ r, new , which is fed to the control loop again via the multiport switch 26. Subsequently, mixing takes place again in the mixing element 28 with a subsequent control sequence, as described above.
- the value ⁇ r is branched off from the control loop and output via a multiplication element 38, in which the current frequency ⁇ r is acted on by the factor 1 / N in order to generate the value of the fundamental frequency ⁇ g, adapt .
- the value of the fundamental frequency ⁇ g is thus continuously adaptively tracked, as a result of which the reconstruction of the low-frequency speech component from the medium-high frequency components is improved and brought closer to a natural speech signal.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen, bei dem das technische Problem, für eine Wiedergabe eines gestörten Sprachsignals eine möglichst naturgetreue Wiedergabe zu ermöglichen, durch ein Verfahren gelöst wird, bei dem oberhalb einer Grenzfrequenz ω0 mindestens zwei benachbart angeordnete Frequenzanteile ωfa1, ωfa2, ... mit erhöhter Amplitude im Sprachsignal bestimmt werden und bei dem die Grundfrequenz ωg des Sprachsignals als Frequenzdifferenz zwischen den mindestens zwei benachbarten Frequenzanteilen ωfa1, ωfa2, ... bestimmt wird und bei dem mit Hilfe der ermittelten Grundfrequenz ωg und des Sprachsignals der tieffrequente Frequenzbereich unterhalb der Grenzfrequenz ωg rekonstruiert wird.The invention relates to a method and a device for the reconstruction of low-frequency speech components from medium-high frequency components, in which the technical problem of enabling the reproduction of a disrupted speech signal to be as close to nature as possible is solved by a method in which above a cut-off frequency ω 0, at least two Adjacent frequency components ω fa1 , ω fa2 , ... are determined with increased amplitude in the speech signal and in which the fundamental frequency ω g of the speech signal is determined as the frequency difference between the at least two adjacent frequency components ω fa1 , ω fa2 , ... and in which the low-frequency range below the cut-off frequency ω g is reconstructed with the aid of the determined fundamental frequency ω g and the speech signal.
Die Erfindung betrifft auch eine Vorrichtung zur Durchführung des vorgenannten Verfahrens. The invention also relates to a device for performing the aforementioned method.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen.The invention relates to a method and a device for reconstruction low-frequency speech components from medium-high frequency components.
Im Stand der Technik der digitalen Verarbeitung von Sprachsignalen mit einem hohen Lärmpegel im tieffrequenten Bereich wird das Signal dadurch verbessert, daß entweder Störanteile herausgefiltert werden oder sehr stark gestörte Frequenzbereich aus dem Signal vollständig herausgefiltert werden.In the prior art of digital processing of voice signals with a high Noise level in the low frequency range, the signal is improved by either Interference components are filtered out or very strongly disturbed frequency range from the Signal can be completely filtered out.
Aus der US 5,842,160 A ist ein Verfahren zur Verbesserung der Qualität einer digitalen Sprachübertragung bekannt, bei dem verschiedenen Frequenzbändern je nach Energiegehalt verschiedene Datenmengen zugeordnet werden. Durch die Art der Kodierung und Übertragung entstehen niederenergetische Signalbereiche, die zu Lücken im empfangenen Signalspektrum führen. Diese Lücken werden durch synthetisch aus den vorhandenen Daten gewonnenen Signale gefüllt, so daß ein natürlicher klingendes Sprachsignal erreicht wird.From US 5,842,160 A is a method for improving the quality of a digital Voice transmission known, depending on the different frequency bands Energy content can be assigned to different amounts of data. By the nature of the Coding and transmission result in low-energy signal areas that too Lead gaps in the received signal spectrum. These gaps are covered by Signals filled synthetically from the available data, so that a natural sounding speech signal is achieved.
Aus der US 4,091,237 A ist ein Verfahren zur Ermittlung der Stimmgrundfrequenz eines digitalen Sprachsignals in Echtzeit bekannt. Speziell für Signale mit einem eingeschränkten Frequenzbereich, wie Telefonsignale, und mit einem hohen Störgeräuschanteil wird das Sprachsignale verbessert, indem Störgeräusche ausgefiltert werden. Das Signal wird durch eine Mehrzahl von Bandpaßfiltern aufgesplittet und ein entsprechendes Histogramm gebildet, aus dem die Stimmgrundfrequenz extrahiert wird. Ist die Grundfrequenz bekannt, können Störgeräusche daran erkannt werden, daß sie in keinem harmonischen Verhältnis zur Grundfrequenz stehen. Das zuvor beschriebene Verfahren dient dazu, die für eine Stimme charakteristische Grundfrequenz zu bestimmen.From US 4,091,237 A is a method for determining the basic voice frequency of a digital voice signal known in real time. Especially for signals with one restricted frequency range, such as phone signals, and with a high The speech signal is improved by reducing noise by filtering out noise become. The signal is split up and in by a plurality of bandpass filters corresponding histogram is formed from which the basic voice frequency is extracted. If the fundamental frequency is known, noise can be recognized by the fact that it is in have no harmonic relationship to the fundamental frequency. The previously described The method is used to determine the basic frequency characteristic of a voice determine.
Weiterhin ist aus der DE 37 33 983 ein Verfahren zum Dämpfen von Störsignalen in einem Hörgerät bekannt, bei dem das Signal digitalisiert und in einzelne Frequenzbereiche aufgeteilt wird. Frequenzbereiche mit bestimmten Charakteristika, wie schnelle oder sehr langsame Spektralverteilungsänderungen, werden gedämpft und/oder es werden die Grenzfrequenzen verschoben. Das so gereinigte Signal wird in synthetische Sprachsignale umgewandelt.Furthermore, DE 37 33 983 describes a method for damping interference signals in a hearing aid known in which the signal is digitized and in individual Frequency ranges is divided. Frequency ranges with certain characteristics, such as rapid or very slow changes in the spectral distribution are damped and / or the cutoff frequencies are shifted. The signal cleaned in this way is in converted synthetic speech signals.
Den zuvor beschriebenen Verfahren und den damit verbundenen Vorrichtungen liegt der Nachteil zugrunde, daß das Sprachsignal gar nicht oder nur in unzureichender Form rekonstruiert wird, um ein möglichst natürliches Ausgangssprachsignal zu erzeugen.The method described above and the associated devices is the The disadvantage is that the speech signal is not at all or only in an insufficient form is reconstructed in order to generate the most natural possible output speech signal.
Die zuvor dargestellten Verfahren können unter anderem bei der digitalen Sprachverstärkung (digital voice enhancement - DVE) eingesetzt werden. Beispielsweise sind oberhalb jeder Sitzreihe in einem Kraftfahrzeug zwei Mikrophone angebracht, so daß es bspw. allen Fahrzeuginsassen ermöglicht wird, sich an einem Telefongespräch zu beteiligen. Das System überträgt dazu die Sprache, die vorn durch das Mikrophon aufgenommen wurde, auf die hinteren Serienlautsprecher und umgekehrt. Das System ist somit voll mit dem Freisprechtelefon und dem Radio/CD/Navigationsgerät gekoppelt. Es verbessert insbesondere bei schneller Fahrt die Verständigung innerhalb des Fahrzeuges deutlich.The methods described above can be used, among other things, for digital Voice amplification (digital voice enhancement - DVE) can be used. For example, there are two microphones above each row of seats in a motor vehicle attached so that it is possible. All vehicle occupants, for example, on one Participate in phone call. The system transmits the language to the front the microphone was recorded on the rear series speakers and vice versa. The system is therefore full with the handsfree telephone and the Radio / CD / navigation device paired. It improves especially when driving fast the communication within the vehicle clearly.
Der Pegel des Fahrzeuginnengeräusches steigt zu tiefen Frequenzen sehr stark an, so daß die Sprache dort vom Lärm überdeckt wird. Um durch das DVE-System möglichst wenig Umgebungslärm zu übertragen, denn dadurch würde der Innenlärmpegel unnötig erhöht, werden bei einem Teil der oben beschriebenen Verfahren alle Frequenzen je nach Geschwindigkeit unterhalb von bspw. 200 bis 500 Hz abgeschnitten. Die Folge ist, daß die Sprachgrundfrequenz und die ersten Vielfachen (Harmonischen) im übertragenen Signal fehlen. Die Sprache klingt somit telefonartig, da typischer Weise ein Telefonnetz eine Klangübertragung nur oberhalb von 350 Hz ermöglicht.The level of vehicle interior noise rises very sharply at low frequencies, so that the language there is covered by the noise. To be possible through the DVE system to transmit little ambient noise, because this would make the interior noise level unnecessary increased, in a part of the methods described above, all frequencies each cut off according to speed below, for example, 200 to 500 Hz. The result is, that the basic speech frequency and the first multiples (harmonics) in transmitted signal are missing. The language thus sounds like a telephone, since it is typical Telephone network only allows sound transmission above 350 Hz.
Neben der Nutzung eines Freisprechtelefons kann mit den Verfahren auch die Sprachverständigung innerhalb des Fahrzeuges durchgeführt werden. Dabei ist jedoch eine optimale Klangqualität erforderlich, um eine Akzeptanz bei den Käufern zu erzielen.In addition to using a hands-free phone, the procedure can also be used to Speech communication can be carried out inside the vehicle. However, it is Optimal sound quality is required to achieve acceptance among buyers.
Insbesondere bei den Verfahren, die die Sprache von Störgeräuschen befreien, z. B. spektrale Subtraktion oder Kohärenzfiltern, kommt es dazu, daß die Varianz der Frequenzkomponete von Rauschen in die Größenordnung der Leistung des Sprachsignals kommt. Somit ist eine effektive Rauschunterdrückung nicht mehr möglich und die angewendeten Verfahren greifen nicht mehr. In particular, in the methods that free speech from noise, e.g. B. spectral subtraction or coherence filtering, it happens that the variance of the Frequency components of noise in the order of the power of the Voice signal is coming. This means that effective noise suppression is no longer possible and the procedures used no longer apply.
Der Erfindung liegt daher das technische Problem zugrunde, das aus dem Stand der Technik bekannte Verfahren sowie die zugehörige Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen dahingehend weiterzubilden und auszugestalten, daß für eine Wiedergabe des gestörten Sprachsignals eine möglichst naturgetreue Wiedergabe ermöglicht wird.The invention is therefore based on the technical problem arising from the prior art Technique known as well as the associated device for the reconstruction low-frequency speech components from medium-high frequency components to further develop and design that for a reproduction of the disturbed Speech signal a reproduction that is as close to nature as possible is made possible.
Das zuvor aufgezeigte technische Problem wird durch ein Verfahren mit den Merkmalen
des Anspruches 1 gelöst. Zunächst werden oberhalb einer Grenzfrequenz mindestens
zwei benachbart angeordnete Frequenzanteile mit erhöhter Amplitude im Sprachsignal
bestimmt. Danach wird die Grundfrequenz des Sprachsignals als Frequenzdifferenz
zwischen den mindestens zwei benachbarten Frequenzanteilen bestimmt. Schließlich
wird mit Hilfe der ermittelten Grundfrequenz und des Sprachsignals der tieffrequente
Frequenzbereich unterhalb der Grenzfrequenz rekonstruiert. Das somit erzeugte
synthetische Sprachsignal kann dann über eine Wiedergabevorrichtung direkt wieder
ausgegeben werden oder für ein späteres Aussenden gespeichert werden.The technical problem outlined above is solved by a method with the features
of
Mit anderen Worten werden tieffrequente Signalanteile des Sprachsignals synthetisch erzeugt, also rekonstruiert, und den restlichen aufgenommenen Sprachsignal zugemischt. Die Rekonstruktion der tieffrequenten Sprachanteile geschieht dabei auf der Grundlage der nicht ausgefilterten Sprachsignale. Dazu wird ausgenutzt, daß die tieffrequenten Sprachanteile von höherfrequenten Anteilen der Harmonischen begleitet sind, so daß sich die fehlenden Anteile aus dem verbleibenden Signal abschätzen lassen.In other words, low-frequency signal components of the speech signal become synthetic generated, that is, reconstructed, and the remaining recorded speech signal added. The low-frequency speech components are reconstructed based on the unfiltered speech signals. This is exploited that the low-frequency speech parts accompanied by higher-frequency parts of the harmonics are so that the missing portions are estimated from the remaining signal to let.
In bevorzugter Weise werden neben der Grundfrequenz auch die Frequenzen der unterhalb der Grenzfrequenz angeordneten Harmonischen der Grundfrequenz bestimmt und neben der Grundfrequenz für eine Rekonstruktion des tieffrequenten Frequenzbereiches verwendet. Somit wird aus dem spektral ausgewerteten Abschnitt des Sprachsignals die maximale Information bezüglich des ungestörten Sprachsignals ausgenutzt. Die für die Rekonstruktion herangezogenen Frequenzen werden mit einer jeweiligen Spektralverteilung und einer vorgegebenen Amplitude zu einem synthetischen Spektrum zusammengesetzt, das den Frequenzbereich unterhalb der Grenzfrequenz im Sprachsignal entspricht. Aus diesem Frequenzabschnitt und dem Sprachsignal oberhalb der Grenzfrequenz wird dann das rekonstruierte Sprachsignal zusammengesetzt. Der tieffrequente Sprachanteil weist somit kein Rauschsignal mehr auf, da es ausschließlich aus Frequenzanteilen des Sprachsignals zusammengesetzt ist. In addition to the fundamental frequency, the frequencies of the harmonics of the fundamental frequency arranged below the limit frequency are determined and in addition to the fundamental frequency for a reconstruction of the low-frequency Frequency range used. Thus, the spectrally evaluated section of the speech signal the maximum information regarding the undisturbed speech signal exploited. The frequencies used for the reconstruction are marked with a respective spectral distribution and a predetermined amplitude to a synthetic Spectrum composed that the frequency range below the cutoff frequency in Voice signal corresponds. From this frequency segment and the speech signal above the reconstructed speech signal is then composed of the cutoff frequency. The low-frequency speech component therefore no longer has a noise signal since it is exclusively is composed of frequency components of the speech signal.
In einer weiteren Ausgestaltung der Erfindung kann der tieffrequente Sprachanteil auch direkt aus dem Sprachsignal ermittelt werden. Dazu wird ein aus mehreren Bandfiltern bestehendes Kammfilter auf der Basis der Grundfrequenz und der Frequenzen der unterhalb der Grenzfrequenz angeordneten Harmonischen eingerichtet, wobei die Frequenzpositionen der einzelnen Bandfilter den Grenzfrequenzen und der Harmonischen entsprechen. Mit Hilfe des Kammfilters wird dann das Sprachsignal im Bereich unterhalb der Grenzfrequenz gefiltert, wodurch die Signalanteile durchgelassen werden, die zum eigentlichen Sprachsignal gehören. Auch in dieser Weise ist eine Rekonstruktion eines weitgehend ungestörten Sprachsignals im tieffrequenten Bereich des Sprachsignals möglich.In a further embodiment of the invention, the low-frequency speech component can also can be determined directly from the speech signal. To do this, one of several band filters existing comb filter based on the fundamental frequency and the frequencies of the harmonics arranged below the cutoff frequency, the Frequency positions of the individual bandpass filters, the cut-off frequencies and the Correspond to harmonics. With the help of the comb filter, the speech signal is then in the Filtered range below the cutoff frequency, allowing the signal components to pass become part of the actual speech signal. In this way too Reconstruction of a largely undisturbed speech signal in the low-frequency range of the speech signal possible.
Entscheidend für die Qualität der Rekonstruktion des tieffrequenten Sprachanteils ist die Genauigkeit der ermittelten Grundfrequenz des Sprachsignals. Da sich die Grundfrequenz während des Sprechens aufgrund der Satzmelodie laufend verändert, wird eine weitere Verbesserung des Verfahrens dadurch erreicht, daß zu Beginn eines Sprache enthaltenen Sprachabschnittes aus dem Sprachsignal die Grundfrequenz bestimmt wird und anschließend diese adaptiv nachgeführt wird. Somit wird im zeitlichen Verlauf des Sprachsignals jeweils die aktuelle Grundfrequenz bestimmt, so daß die Rekonstruktion des Sprachsignals möglichst genau an den Stimmverlauf angepaßt werden kann. Ein Ausführungsbeispiel einer solchen adaptiven Nachführung wird weiter unten im Detail erläutert.The decisive factor for the quality of the reconstruction of the low-frequency speech component is the Accuracy of the determined basic frequency of the speech signal. Since the Basic frequency continuously changed during speaking due to the sentence melody, a further improvement of the method is achieved in that at the beginning of a Speech contained speech section from the speech signal the fundamental frequency is determined and then this is adaptively tracked. Thus, in time The course of the speech signal determines the current fundamental frequency, so that the Reconstruction of the speech signal adapted as closely as possible to the course of the voice can be. An embodiment of such an adaptive tracking will continue explained in detail below.
In weiter bevorzugter Weise wird die Amplitude des mindestens einen unterhalb der Grenzfrequenz erzeugten Frequenzsignals in Abhängigkeit von den Amplituden der oberhalb der Grenzfrequenz analysierten Frequenzsignale bestimmt. In weiter bevorzugter Weise können dabei typische Amplitudenverläufe von Sprachsignalen Anwendung finden, um nicht nur in den Frequenzanteilen, sondern auch in der Amplitudenverteilung der Frequenzanteile eine möglichst genaue Anpassung an ein natürliches Sprachsignal zu erreichen.In a further preferred manner, the amplitude of the at least one is below the Cutoff frequency generated frequency signal depending on the amplitudes of the frequency signals analyzed above the cutoff frequency are determined. In further Typical amplitude profiles of speech signals can preferably be used Find application not only in the frequency components, but also in the Amplitude distribution of the frequency components as precise an adaptation as possible to achieve natural speech signal.
Weiter ist bevorzugt, daß die Grenzfrequenz in Abhängigkeit vom Geräuschpegel, also insbesondere von der Größe des Störsignals bestimmt wird. Somit ist es bei niedrigem Störsignalpegeln bspw. nur erforderlich, den Sprachsignalanteil unterhalb von 200 Hz zu rekonstruieren, während es bei hohen Störsignalpegeln notwendig ist, daß Sprachsignal im Frequenzbereich unterhalb von 500 Hz zu rekonstruieren. Bei einer Anwendung des Verfahrens in einem fahrenden Kraftfahrzeug kann die Grenzfrequenz auch in Abhängigkeit von der Fahrgeschwindigkeit bestimmt werden. It is further preferred that the cutoff frequency is dependent on the noise level, ie is determined in particular by the size of the interference signal. So it is low Interference signal levels, for example, only necessary to reduce the speech signal component below 200 Hz reconstruct, while it is necessary that the speech signal at high interference signal levels to be reconstructed in the frequency range below 500 Hz. When using the Procedure in a moving motor vehicle, the cutoff frequency can also be in Depending on the driving speed can be determined.
Weiterhin besteht eine Weiterbildung darin, daß das Sprachsignal vor einer Umwandlung einer Störsignalbefreiung unterzogen wird. Dabei können die herkömmlichen aus dem Stand der Technik bekannten Verfahren angewendet werden, um eine Vorbehandlung des Sprachsignals durchzuführen. Die Sprachanteile treten dann im Spektrum deutlicher hervor und können eindeutiger und somit genauer erkannt und rekonstruiert werden.Another development is that the speech signal before a Conversion is subjected to interference signal exemption. The conventional methods known from the prior art are used, to pretreat the speech signal. The speech parts occur then more clearly in the spectrum and can be recognized more clearly and therefore more precisely and be reconstructed.
Eine Anwendung des zuvor beschriebenen Verfahrens besteht darin, in einem fahrenden Kraftfahrzeug aufgenommene Sprachsignale wiederzugeben, um dabei einen möglichst natürlichen Spracheindruck wiederzugeben.One application of the method described above is in one to play recorded voice signals while the motor vehicle is moving, thereby providing a reproduce as natural a language impression as possible.
Eine weitere Anwendung des erfindungsgemäßen Verfahrens besteht darin, ein mittels einer Telefonverbindung übertragenes Sprachsignal wiederzugeben. Das zugrunde liegende Problem besteht dabei darin, daß die Sprachsignale bei Telefonverbindungen im Frequenzbereich unterhalb von 350 Hz keine Informationen enthalten. Daher muß für eine naturgetreue Wiedergabe des Sprachsignals der tieffrequente Sprachanteil aus dem Frequenzbereich oberhalb von 350 Hz rekonstruiert werden. Dieses kann in besonders vorteilhafter Weise durch das erfindungsgemäße Verfahren durchgeführt werden.Another application of the method according to the invention is to use a to reproduce a voice signal transmitted on a telephone connection. The basis lying problem is that the voice signals on telephone connections in the frequency range below 350 Hz contain no information. Therefore, for a lifelike reproduction of the speech signal from the low-frequency speech portion the frequency range above 350 Hz can be reconstructed. This can be done in carried out particularly advantageously by the method according to the invention become.
Gemäß einer weiteren Lehre der vorliegenden Erfindung wird das oben dargestellte technische Problem auch durch eine Vorrichtung mit den Merkmalen des Anspruches 12 gelöst, während in den Ansprüchen 13 bis 16 vorteilhafte Ausgestaltungen angegeben werden. Die Vorrichtung und das damit durchgeführte Verfahren werden im folgenden anhand von Ausführungsbeispielen näher erläutert, wobei auf die beigefügte Zeichnung bezug genommen wird. In der Zeichnung zeigen
- Fig. 1
- eine spektrale Innengeräuschverteilung in einem fahrenden Kraftfahrzeug für unterschiedliche Fahrgeschwindigkeiten,
- Fig. 2
- ein Spektrogramm eines im tieffrequenten Bereich von einem Störsignal überlagerten Sprachsignals,
- Fig. 3
- ein Spektrogramm des in Fig. 2 dargestellten Sprachsignals ohne Störsignal,
- Fig. 4
- ein Spektrogramm des in Fig. 3 dargestellten Sprachsignals ohne Frenquenzanteile unterhalb der Grenzfrequenz von ca. 400 Hz,
- Fig. 5
- ein Spektrogramm der im Spektralbereich unterhalb der Grenzfrequenz von ca. 400 Hz rekonstruierten Sprachanteile,
- Fig. 6
- das vollständige rekonstruierte Sprachsignal entsprechend dem in Fig. 3 dargestellten Sprachsignal ohne Störsignalanteil,
- Fig. 7
- ein Blockschaltbild eines Ausführungsbeispiels einer erfindungsgemäßen Vorrichtung zur Rekonstruktion tieffrequenter Sprachanteile aus mittelhohen Frequenzanteilen,
- Fig. 8
- eine Einrichtung zur adaptiven Nachführung der Grundfrequenz und
- Fig. 9
- die spektrale Verteilung der Kennlinien der Bandfilter des Regelelementes zum
Feststellen der frequenzabhängigen Leistungsverteilung im Mischspektrum in
Bezug auf die
feststehende Mischungsfrequenz von 2000 Hz.
- Fig. 1
- a spectral interior noise distribution in a moving motor vehicle for different driving speeds,
- Fig. 2
- a spectrogram of a speech signal superimposed in the low-frequency range by an interference signal,
- Fig. 3
- 2 shows a spectrogram of the speech signal shown in FIG. 2 without an interference signal,
- Fig. 4
- 3 shows a spectrogram of the speech signal shown in FIG. 3 without frequency components below the cut-off frequency of approximately 400 Hz,
- Fig. 5
- a spectrogram of the speech components reconstructed in the spectral range below the cut-off frequency of approx. 400 Hz,
- Fig. 6
- the complete reconstructed speech signal corresponding to the speech signal shown in FIG. 3 without any interference signal component,
- Fig. 7
- 2 shows a block diagram of an exemplary embodiment of a device according to the invention for the reconstruction of low-frequency speech components from medium-high frequency components,
- Fig. 8
- a device for adaptive tracking of the fundamental frequency and
- Fig. 9
- the spectral distribution of the characteristics of the bandpass filter of the control element for determining the frequency-dependent power distribution in the mixed spectrum in relation to the fixed mixing frequency of 2000 Hz.
In den Fig. 1 und 2 ist der Ausgangspunkt der vorliegenden Erfindung dargestellt.1 and 2, the starting point of the present invention is shown.
Fig. 1 zeigt ein Frequenz-Amplituden-Diagramm des Innengeräuschpegels in einem fahrenden Kraftfahrzeug für unterschiedliche Geschwindigkeiten zwischen 60 Km/h und 160 Km/h. Bei dieser Darstellung fällt auf, daß insbesondere bei niedrigen Frequenzen unterhalb von ca. 500 Hz der Innengeräuschpegel im Vergleich zu den sonstigen Frequenzen des Innengeräuschsignals stark ansteigt. Da jedoch bei normaler Stimmlage die Grundfrequenz und die ersten Harmonischen zur Grundfrequenz im Frequenzbereich unter 1000 Hz und insbesondere unterhalb 500 Hz liegen, ist eine Bestimmung, also ein Herausfiltern des Sprachsignals aus dem Innenraumgeräuschsignal erheblich erschwert.Fig. 1 shows a frequency-amplitude diagram of the interior noise level in one moving motor vehicle for different speeds between 60 km / h and 160 km / h. In this representation it is striking that especially at low frequencies below approx. 500 Hz the interior noise level compared to the others Frequencies of the interior noise signal increases sharply. However, since with normal Voice position the basic frequency and the first harmonics to the basic frequency in Frequency range below 1000 Hz and especially below 500 Hz is one Determination, i.e. a filtering out of the speech signal from the Interior noise signal considerably more difficult.
Fig. 2 zeigt ein Sprachsignal, das von einem Untergrundsignal überlagert worden ist, in einer Zeit-Frequenz-Darstellung als Spektrogramm. Dieses Spektrogramm wird bspw. durch eine Fouriertransformations (FFT) aus einem Mikrofonsignal erhalten. In Fig. 2 kennzeichnen unterschiedliche Grauwerte der Einzelsegmente des Spektrogramms unterschiedliche Intensitäten. Man erkennt einerseits deutlich die ansteigende Intensität (hellere Grauwerte) im Bereich kleiner Frequenzen zum Wert gleich Null hin und andererseits schmalbandige Frequenzanteile, die weitgehend parallel zueinander über kurze Zeitabschnitte verlaufen. Diese letztgenannten schmalbandigen Frequenzanteile stellen Harmonische der Grundfrequenz des entsprechenden Sprachsignals dar, die - wie im folgenden beschrieben - erfindungsgemäß ausgewertet werden.Fig. 2 shows a speech signal which has been superimposed by a background signal in a time-frequency representation as a spectrogram. This spectrogram is e.g. obtained by a Fourier transform (FFT) from a microphone signal. In Fig. 2 indicate different gray values of the individual segments of the spectrogram different intensities. On the one hand you can clearly see the increasing intensity (lighter gray values) in the range of low frequencies towards the value zero and on the other hand narrow-band frequency components that largely parallel to each other short periods of time pass. These latter narrow-band frequency components represent harmonics of the fundamental frequency of the corresponding speech signal, the - As described below - are evaluated according to the invention.
Fig. 3 zeigt ein Spektrogramm des in Fig. 2 dargestellten Sprachsignals ohne das Untergrundgeräusch, so daß auch die tieffrequenzen Sprachanteile als schmalbandige Frequenzanteile im Spektrogramm unterhalb von 500 Hz zu erkennen sind. Diese Sprachanteile gilt es zu rekonstruieren.Fig. 3 shows a spectrogram of the speech signal shown in Fig. 2 without the Background noise, so that even the low-frequency speech components as narrow-band Frequency components can be seen in the spectrogram below 500 Hz. This Parts of the language have to be reconstructed.
Fig. 4 zeigt weiterhin das zuvor dargestellte Sprachsignal, bei dem die Sprachanteile unterhalb einer Grenzfrequenz von ca. 400 Hz abgeschnitten sind. Ein derartiges Signal entspricht ungefähr dem Sprachsignal, wie es bei einer Telefonverbindung übertragen wird.Fig. 4 also shows the speech signal shown above, in which the speech components are cut off below a cut-off frequency of approx. 400 Hz. Such a signal corresponds approximately to the voice signal as it is transmitted on a telephone connection becomes.
Fig. 5 zeigt ein Beispiel eines rekonstruierten Sprachsignals im Bereich unterhalb der Grenzfrequenz von ca. 400 Hz und Fig. 6 zeigt das zusammengesetzte rekonstruierte Sprachsignal aus dem in Fig. 5 dargestellten rekonstruierten Sprachanteil und dem in Fig. 4 dargestellten Frequenzanteil oberhalb der Grenzfrequenz des ursprüngliche Spektrums. Wie die rekonstruierten Sprachanteile erhalten werden, wird im folgenden anhand der Fig. 7 bis 9 im Detail beschrieben.5 shows an example of a reconstructed speech signal in the area below the Cutoff frequency of approximately 400 Hz and Fig. 6 shows the composite reconstructed Speech signal from the reconstructed speech portion shown in FIG. 5 and the in Fig. 4 frequency portion shown above the cutoff frequency of the original Spectrum. How the reconstructed language components are obtained is described below described in detail with reference to FIGS. 7 to 9.
Fig. 7 zeigt in einem Blockschaltbild eine Vorrichtung zur Rekonstruktion tieffrequenter
Sprachanteile aus mittelhohen Frequenzanteilen. Das Sprachsignal wird einem Mittel 4
zur Bestimmung von Frequenzanteilen ωfa1, ωfa2, ... von Maxima im Sprachsignal
oberhalb einer vorgegebenen Grenzfrequenz ω0 zugeleitet. Dazu wird das Sprachsignal
zunächst durch ein Bandfilter 6 geleitet, so daß nur die Frequenzanteile zwischen der
Grenzfrequenz ω0 und einer weiteren Frequenz ω1 herausgeschnitten und einer
Weiterverarbeitung zugeleitet wird. ω0 liegt dabei beispielsweise im Bereich von 200 bis
500 Hz, insbesondere bei 350 Hz, während die Frequenz ω1 bspw. im Bereich von 800
Hz liegt. Der so ausgefilterte Frequenzabschnitt des Sprachsignals wird im
Mischelement 8 gemischt, so daß die Summen- und Differenzfrequenzen der im
herausgeschnittenen Abschnitt des Sprachsignals enthaltenen Frequenzanteile gebildet
werden. Von Interesse sind dabei die Differenzfrequenzen, so daß das aus dem
Mischelement 8 austretende Signal mittels eines Tiefpasses bearbeitet wird, so daß nur
Frequenzanteile unterhalb einer einstellbaren Frequenz ω2 durchgelassen werden. Somit
läßt sich die kleinste Differenzfrequenz bestimmen, die dem Abstand zweier im
Sprachsignal benachbart zueinander angeordneter Spektralanteile entspricht. Da es sich
dabei um zwei Harmonische der Grundfrequenz handelt, stellt die Differenzfrequenz die
Grundfrequenz ωg dar. Diese Grundfrequenz wird anschließend Mitteln 12 zur
Rekonstruktion des Sprachsignals zugeleitet. Über einen weiteren Eingang der Mittel 12
wird das Sprachsignal über eine Verzögerungsstufe 14 und einen Tiefpaß 16 zugeführt.
Somit liegt den Mitteln 12 sowohl der Wert der Grundfrequenz ωg als auch ein
vorgegebener Frequenzabschnitt des Sprachsignals für eine Rekonstruktion des die
Sprache enthaltenden Signals zur Verfügung. Die Verzögerungsstufe 14 dient dabei
einem Ausgleich der Zeitspanne Δt, die für die Bestimmung der Grundfrequenz ωg
benötigt wird und der Tiefpaß 16 dient einer sinnvollen Verringerung der Datenmenge,
die den Mitteln 12 zur Rekonstruktion des Sprachsignals zugeleitet wird.7 shows in a block diagram a device for the reconstruction of low-frequency speech components from medium-high frequency components. The speech signal is fed to a
Die Mittel 12 zur Rekonstruktion des Sprachsignals unterhalb der Grenzfrequenz ω0 weist schaltungstechnisch zwei Alternativen von Verfahrensweisen auf.The means 12 for the reconstruction of the speech signal below the cut-off frequency ω 0 has two alternative methods in terms of circuitry.
Als erste Alternative wird die Grundfrequenz ωg herangezogen, um ein Signal im rekonstruierten Sprachsignal zu erzeugen, das dem Grundton der Sprache entspricht. Darüber hinaus können auch die Frequenzen der Harmonischen zur Grundfrequenz ωg durch einfaches Multiplizieren mit den Zahlen N = 2, 3, 4,... ermittelt werden, so daß für eine Rekonstruktion des Sprachanteils unterhalb der Grenzfrequenz ω0 neben der Grundfrequenz ωg auch die unterhalb der Grenzfrequenz ω0 angeordneten Frequenzen ωh1, ωh2, ... der ersten, zweiten und weiteren Harmonischen verwendet werden. Ziel ist es dabei, sämtliche Harmonischen im zu rekonstruierenden Frequenzabschnitt des Sprachsignals zu erzeugen, also zu simulieren. Für eine spektrale Verteilung um jede dieser Frequenzen wird in Näherung eine Gauß'schen Verteilung oder eine andere mögliche spektrale Verteilung angenommen, die sich über eine Halbwertsbreite und eine Amplitude definieren läßt. Dadurch lassen sich die in Fig. 5 dargestellten spektralen Abschnitte im Spektrogramm erzeugen, die bei dem in Fig. 2 dargestellten verrauschten Signal nicht oder nur ansatzweise zu erkennen sind.As a first alternative, the fundamental frequency ω g is used to generate a signal in the reconstructed speech signal that corresponds to the fundamental tone of the speech. In addition, the frequencies of the harmonics to the fundamental frequency ω g can be determined by simply multiplying by the numbers N = 2, 3, 4, ..., so that in addition to the fundamental frequency ω g for a reconstruction of the speech component below the limit frequency ω 0 the frequencies ω h1 , ω h2 , ... of the first, second and further harmonics arranged below the limit frequency ω 0 are used. The aim is to generate all the harmonics in the frequency section of the speech signal to be reconstructed, ie to simulate them. For a spectral distribution around each of these frequencies, an approximation is assumed to be a Gaussian distribution or another possible spectral distribution that can be defined via a half width and an amplitude. As a result, the spectral sections shown in FIG. 5 can be generated in the spectrogram, which are not or only partially recognizable in the noisy signal shown in FIG. 2.
Als weitere Alternative für eine Rekonstruktion des tieffrequenten Sprachanteils besteht
die Möglichkeit, daß die Mittel 12 einen Kammfilter aufweisen, der eine Mehrzahl von
Bandfiltern aufweist, deren spektrale Durchlaßfunktionen durch die Grundfrequenz ωg
und die Frequenzen ωh1, ωh2, ... bestimmt werden. Die spektrale Durchlaßfunktion jedes
Bandfilters wird zudem über eine vorgegebene Breite definiert, so daß entsprechende
spektrale Abschnitte aus dem Sprachsignal im Bereich tiefer Frequenzen unterhalb der
Grenzfrequenz ω0 herausgefiltert werden. Da aus dem Spektrogramm nur die Anteile
herausgefiltert werden, die das Sprachsignal enthalten, wird das Sprachsignal aus dem
Spektrogramm rekonstruiert. Wird dabei zusätzlich eine Rauschunterdrückung
durchgeführt, so werden aus den herausgefilterten Signalanteilen auch die
Untergrundgeräusche herausgefiltert, so daß ein nahezu natürliches Sprachsignal
erzeugt wird.As a further alternative for a reconstruction of the low-frequency speech component, there is the possibility that the
Wie weiterhin in Fig. 7 zu erkennen ist, wird das Sprachsignal über eine weitere
Verzögerungsstufe 18 um eine Zeitdifferenz Δt verzögert, um eine Anpassung an die für
Rekonstruktion des tieffrequenten Sprachanteils notwendige Zeitspanne zu ermöglichen.
Nach Durchlaufen einen Hochpasses 20, in dem das Sprachsignal oberhalb der
Grenzfrequenz ω0 herausgefiltert wird, laufen sowohl dieses hochpaßgefilterte Signal als
auch das rekonstruierte Sprachsignal für Frequenzen ω<ω0 in dem Summenelement 22
zusammen, woraus das in Fig. 6 dargestellte rekonstuierte Spektrogramm erzeugt wird.
Dieses Spektrogramm besteht also einerseits aus dem unterhalb der Grenzfrequenz ω0
rekonstruierten Frequenzanteil sowie aus dem ursprünglichen Frequenzspektrum
oberhalb der Grenzfrequenz ω0. Das so erzeugte Spektrogramm führt nach einer
Umwandlung in ein Lautsprechersignal zu einer nahezu natürlich klingenden
Sprachwiedergabe.As can also be seen in FIG. 7, the voice signal is delayed by a time difference .DELTA.t via a
Wie bereits oben erläutert worden, bleibt im allgemeinen die Grundfrequenz ωg in einem
Sprachsignal aufgrund der Sprachmelodie nicht konstant. Daher ist es erforderlich,
ständig die Grundfrequenz ωg neu zu bestimmen. Dieses kann einerseits dadurch
geschehen, daß ständig das zuvor beschriebenen Verfahren durchlaufen wird, das
anhand der Elemente 4, 6, 8 und 10 zuvor beschrieben worden ist. Zum anderen kann
jedoch eine genauere adaptive Nachführung der Grundfrequenz ωg durchgeführt
werden. Dieses ist mit einer Vorrichtung möglich, die in Fig. 8 dargestellt ist.As already explained above, the fundamental frequency ω g generally does not remain constant in a speech signal due to the speech melody. It is therefore necessary to constantly redetermine the fundamental frequency ω g . On the one hand, this can be done by continuously running through the previously described method, which was previously described with the aid of
Die zu Beginn eines Sprachsignals zunächst bestimmte Grundfrequenz ωg,0 wird mit
Hilfe eines Multiplikationselementes 24 auf den N-fachen Wert multipliziert. Somit wird
die (N-1)te Harmonische zur Grundfrequenz berechnet. Die Frequenz dieser
Harmonischen wird im folgenden als Regelharmonische bezeichnet und die zugehörige
Frequenz mit ωr bezeichnet.The fundamental frequency ω g, 0 initially determined at the beginning of a speech signal is multiplied to N times the value with the aid of a
Die Frequenz ωr wird über einen Mehrtorschalter in einen Regelkreis eingebracht. In
einer Initialisierungsphase zu Beginn eines Wortes wird der Ausgang des
Multiplikationselementes 24 vom Mehrtorschalter 26 an das Mischelement 28
übergeben. Nach kurzer Zeit liegt - wie im folgenden beschrieben - ein Schätzwert ωr, neu
vor und der Mehrtorschalter 26 wird so umgeschaltet, daß ωr, neu an das Mischelement 28
weitergegeben wird.The frequency ω r is introduced into a control loop via a multi-port switch. In an initialization phase at the beginning of a word, the output of the
Ziel des Regelkreises besteht darin, die Differenz zwischen der (N-1)ten Harmonischen
und einer festen Frequenz von bspw. ωm =2000 Hz zu bestimmen. Im Idealfall ist ωr
exakt die Frequenz der (N-1)ten Harmonischen. Das Mischelement 28 bildet die
Differenz zwischen ωr und ωm. Ein Sinusgenerator erzeugt ein sinusförmiges Signal mit
der Frequenz, die durch sein Eingangssignal ωd vorgegeben wird. Dieses wird einem
Mischelement 32 zugeleitet, das das Sprachsignal und dieses sinusförmige Signal
mischt. Nach erfolgter Mischung wird aus dem Mischelement 32 das gemischte Signal
ausgegeben, das einem Regelelement 34 zum Feststellen der frequenzabhängigen
Leistungsverteilung im Mischsignal in Bezug auf die feststehende Frequenz ωm
zugeleitet wird.The aim of the control loop is to determine the difference between the (N-1) th harmonic and a fixed frequency of, for example, ω m = 2000 Hz. Ideally, ω r is exactly the frequency of the (N-1) th harmonic. The mixing
Unter der Annahme, daß die dem Mischelement 28 zugeführte Frequenz ωr der
Regelharmonsichen genau zu einer Harmonischen im aktuellen Sprachsignal paßt,
entspricht die Summe aus der Differenzfrequenz ωd, die durch die Differenz mit der
feststehenden Mischungsfrequenz ωm und ωr erzeugt worden ist, und einem der
Regelharmonischen entsprechenden Frequenzanteils des Sprachsignals genau der
Mischungsfrequenz ωm. Dieses spiegelt sich in einer Leistungsverteilung (P-Verteilung)
im Leistungsspektrum wider. Die Leistungsverteilung wird bei der Mischungsfrequenz ωm
maximal sein.Assuming that the frequency ω r of the control harmonics supplied to the mixing
Entspricht die Frequenz ωr der Regelharmonischen jedoch nicht der aktuellen Frequenz
der entsprechenden Harmonischen im Sprachsignal, so wird die Leistungsverteilung ihr
Maximum nicht bei der Frequenz ωm, sondern bei einer um einen Differenzwert Δω
verschobene Positionen annehmen. Somit läßt sich ein Korrekturwert zu Δω bestimmen,
der dem aktuellen Wert der Frequenz ωr der Regelharmonischen hinzu addiert wird.
Daraus entsteht der neue Wert der Frequenz ωr,neu, der über den Multiportschalter 26
der Regelschleife erneut zugeführt wird. Anschließend erfolgt erneut eine Mischung im
Mischelement 28 mit nachfolgender Regelabfolge, wie sie zuvor beschrieben worden ist.
Ändert sich somit im Laufe des Sprachsignals die Grundfrequenz und somit auch die
Frequenz der entsprechenden Harmonischen im Sprachsignal, so wird dieses durch die
Regelschleife ausgeglichen, so daß ständig ein aktueller, mit der Grundfrequenz ωr
weitgehend übereinstimmender Wert ωr erzeugt. However, if the frequency ω r of the control harmonic does not correspond to the current frequency of the corresponding harmonic in the speech signal, the power distribution will not reach its maximum at the frequency ω m , but at a position shifted by a difference value Δω. A correction value for Δω can thus be determined, which is added to the current value of the frequency ω r of the control harmonic. This results in the new value of the frequency ω r, new , which is fed to the control loop again via the
Fig. 9 zeigt dazu die Kennlinien einer Mehrzahl von Bandfiltern, die für eine Bestimmung
der Leistungsverteilung im Regelelement 34 vorgesehen sind. Aus Fig. 9 ergibt sich eine
Anzahl von 7 Bandfiltern, die um die feststehende Mischfrequenz ωm = 2000 Hz herum
angeordnet sind. Fällt also beispielsweise die maximale Leistung in den Durchlaßbereich
des mittleren Bandfilters, so wird der Korrekturwert Δω=0 gesetzt. Liegt dagegen das
Maximum in einem der benachbart angeordneten Bandfilter, so wird ein entsprechender
Korrekturwert Δω≠0 erzeugt, um bei weiter fortgeführter Regelung das Maximum der
spektralen Leistungsverteilung in den Durchlaßbereich des mittleren Bandfilters zu
verschieben.9 shows the characteristic curves of a plurality of band filters, which are provided for determining the power distribution in the
Der Wert ωr wird aus der Regelschleife über ein Multiplikationselement 38 abgezweigt
und ausgegeben, in dem die aktuelle Frequenz ωr mit dem Faktor 1/N beaufschlagt wird,
um den Wert der Grundfrequenz ωg,adapt zu erzeugen. Somit wird der Wert der
Grundfrequenz ωg ständig adaptiv nachgeführt, wodurch die Rekonstruktion des
tieffrequenten Sprachanteils aus den mittelhohen Frequenzanteilen verbessert und
näher an ein natürliches Sprachsignal herangeführt wird.The value ω r is branched off from the control loop and output via a
Claims (16)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10010037 | 2000-03-02 | ||
DE10010037A DE10010037B4 (en) | 2000-03-02 | 2000-03-02 | Method for the reconstruction of low-frequency speech components from medium-high frequency components |
Publications (3)
Publication Number | Publication Date |
---|---|
EP1130577A2 true EP1130577A2 (en) | 2001-09-05 |
EP1130577A3 EP1130577A3 (en) | 2002-09-18 |
EP1130577B1 EP1130577B1 (en) | 2007-06-06 |
Family
ID=7633152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
EP01102129A Expired - Lifetime EP1130577B1 (en) | 2000-03-02 | 2001-02-01 | Method for the reconstruction of low speech frequencies from mid-range frequencies |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1130577B1 (en) |
AT (1) | ATE364221T1 (en) |
DE (2) | DE10010037B4 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1814107A1 (en) * | 2006-01-31 | 2007-08-01 | Harman Becker Automotive Systems GmbH | Method for extending the spectral bandwidth of a speech signal and system thereof |
CN111863006A (en) * | 2019-04-30 | 2020-10-30 | 华为技术有限公司 | A kind of audio signal processing method, audio signal processing device and earphone |
CN112151065A (en) * | 2019-06-28 | 2020-12-29 | 力同科技股份有限公司 | Single tone signal frequency detection method, device, equipment and computer storage medium |
CN113362840A (en) * | 2021-06-02 | 2021-09-07 | 浙江大学 | General voice information recovery device and method based on undersampled data of built-in sensor |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102024101130B3 (en) | 2024-01-16 | 2025-03-20 | Cariad Se | Method for playing digital audio data in a motor vehicle and motor vehicle |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4091237A (en) * | 1975-10-06 | 1978-05-23 | Lockheed Missiles & Space Company, Inc. | Bi-Phase harmonic histogram pitch extractor |
US4490843A (en) * | 1982-06-14 | 1984-12-25 | Bose Corporation | Dynamic equalizing |
US4700390A (en) * | 1983-03-17 | 1987-10-13 | Kenji Machida | Signal synthesizer |
EP0240286B1 (en) * | 1986-04-01 | 1992-12-09 | Matsushita Electric Industrial Co., Ltd. | Low-pitched sound creator |
JP2779886B2 (en) * | 1992-10-05 | 1998-07-23 | 日本電信電話株式会社 | Wideband audio signal restoration method |
-
2000
- 2000-03-02 DE DE10010037A patent/DE10010037B4/en not_active Expired - Fee Related
-
2001
- 2001-02-01 DE DE50112581T patent/DE50112581D1/en not_active Expired - Lifetime
- 2001-02-01 EP EP01102129A patent/EP1130577B1/en not_active Expired - Lifetime
- 2001-02-01 AT AT01102129T patent/ATE364221T1/en not_active IP Right Cessation
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1814107A1 (en) * | 2006-01-31 | 2007-08-01 | Harman Becker Automotive Systems GmbH | Method for extending the spectral bandwidth of a speech signal and system thereof |
US7756714B2 (en) | 2006-01-31 | 2010-07-13 | Nuance Communications, Inc. | System and method for extending spectral bandwidth of an audio signal |
CN111863006A (en) * | 2019-04-30 | 2020-10-30 | 华为技术有限公司 | A kind of audio signal processing method, audio signal processing device and earphone |
CN111863006B (en) * | 2019-04-30 | 2024-07-16 | 华为技术有限公司 | Audio signal processing method, audio signal processing device and earphone |
CN112151065A (en) * | 2019-06-28 | 2020-12-29 | 力同科技股份有限公司 | Single tone signal frequency detection method, device, equipment and computer storage medium |
CN112151065B (en) * | 2019-06-28 | 2024-03-15 | 力同科技股份有限公司 | Single tone signal frequency detection method, device, equipment and computer storage medium |
CN113362840A (en) * | 2021-06-02 | 2021-09-07 | 浙江大学 | General voice information recovery device and method based on undersampled data of built-in sensor |
CN113362840B (en) * | 2021-06-02 | 2022-03-29 | 浙江大学 | General voice information recovery device and method based on undersampled data of built-in sensor |
Also Published As
Publication number | Publication date |
---|---|
DE10010037A1 (en) | 2001-09-06 |
ATE364221T1 (en) | 2007-06-15 |
DE50112581D1 (en) | 2007-07-19 |
DE10010037B4 (en) | 2009-11-26 |
EP1130577B1 (en) | 2007-06-06 |
EP1130577A3 (en) | 2002-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2719973C2 (en) | ||
DE2818204C2 (en) | Signal processing system for deriving an output signal with reduced interference | |
DE60027438T2 (en) | IMPROVING A HARMFUL AUDIBLE SIGNAL | |
DE60212696T2 (en) | BANDWIDTH MAGNIFICATION FOR AUDIO SIGNALS | |
DE60009206T2 (en) | Noise suppression by means of spectral subtraction | |
DE19747885B4 (en) | Method for reducing interference of acoustic signals by means of the adaptive filter method of spectral subtraction | |
EP1386307B1 (en) | Method and device for determining a quality measure for an audio signal | |
EP1143416A2 (en) | Time domain noise reduction | |
DE2526034A1 (en) | RESOLUTION PROCEDURE AND DEVICE FOR CARRYING OUT THE PROCEDURE | |
WO2001020965A2 (en) | Method for determining a current acoustic environment, use of said method and a hearing-aid | |
EP1091349A2 (en) | Method and apparatus for noise reduction during speech transmission | |
EP1280138A1 (en) | Method for audio signals analysis | |
DE69616724T2 (en) | Method and system for speech recognition | |
WO2002093557A1 (en) | Device and method for analysing an audio signal in view of obtaining rhythm information | |
EP1247425A2 (en) | Method for operating a hearing-aid and a hearing aid | |
EP0772764B1 (en) | Process and device for determining the tonality of an audio signal | |
EP0658874B1 (en) | Process and circuit for producing from a speech signal with small bandwidth a speech signal with great bandwidth | |
WO2001047335A2 (en) | Method for the elimination of noise signal components in an input signal for an auditory system, use of said method and a hearing aid | |
EP1130577B1 (en) | Method for the reconstruction of low speech frequencies from mid-range frequencies | |
DE10025655B4 (en) | A method of removing an unwanted component of a signal and system for distinguishing between unwanted and desired signal components | |
DE19832472A1 (en) | Device and method for influencing an audio signal according to ambient noise amplifies or dampens audio signal frequencies selectively by mixing signals to suit ambient noise. | |
EP1453355A1 (en) | Signal processing in a hearing aid | |
DE3133107A1 (en) | Personal sound protection | |
DE10150519B4 (en) | Method and arrangement for speech processing | |
DE69015753T2 (en) | Sound synthesis arrangement. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PUAI | Public reference made under article 153(3) epc to a published international application that has entered the european phase |
Free format text: ORIGINAL CODE: 0009012 |
|
AK | Designated contracting states |
Kind code of ref document: A2 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
PUAL | Search report despatched |
Free format text: ORIGINAL CODE: 0009013 |
|
AK | Designated contracting states |
Kind code of ref document: A3 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
AX | Request for extension of the european patent |
Free format text: AL;LT;LV;MK;RO;SI |
|
17P | Request for examination filed |
Effective date: 20030318 |
|
AKX | Designation fees paid |
Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
GRAP | Despatch of communication of intention to grant a patent |
Free format text: ORIGINAL CODE: EPIDOSNIGR1 |
|
GRAS | Grant fee paid |
Free format text: ORIGINAL CODE: EPIDOSNIGR3 |
|
GRAA | (expected) grant |
Free format text: ORIGINAL CODE: 0009210 |
|
AK | Designated contracting states |
Kind code of ref document: B1 Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LI LU MC NL PT SE TR |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FI Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 |
|
REG | Reference to a national code |
Ref country code: GB Ref legal event code: FG4D Free format text: NOT ENGLISH |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: EP |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FG4D Free format text: LANGUAGE OF EP DOCUMENT: GERMAN |
|
REF | Corresponds to: |
Ref document number: 50112581 Country of ref document: DE Date of ref document: 20070719 Kind code of ref document: P |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: SE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070906 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: ES Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070917 |
|
NLV1 | Nl: lapsed or annulled due to failure to fulfill the requirements of art. 29p and 29m of the patents act | ||
GBV | Gb: ep patent (uk) treated as always having been void in accordance with gb section 77(7)/1977 [no translation filed] |
Effective date: 20070606 |
|
REG | Reference to a national code |
Ref country code: IE Ref legal event code: FD4D |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: NL Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 Ref country code: PT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20071106 Ref country code: IE Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 |
|
EN | Fr: translation not filed | ||
PLBE | No opposition filed within time limit |
Free format text: ORIGINAL CODE: 0009261 |
|
STAA | Information on the status of an ep patent application or granted ep patent |
Free format text: STATUS: NO OPPOSITION FILED WITHIN TIME LIMIT |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DK Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 Ref country code: GR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070907 Ref country code: GB Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 Ref country code: IT Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 |
|
26N | No opposition filed |
Effective date: 20080307 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: FR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20080201 |
|
BERE | Be: lapsed |
Owner name: VOLKSWAGEN A.G. Effective date: 20080228 |
|
REG | Reference to a national code |
Ref country code: CH Ref legal event code: PL |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CH Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080229 Ref country code: MC Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080228 Ref country code: LI Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080229 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: BE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080228 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: AT Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080201 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: CY Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: LU Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20080201 |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: TR Free format text: LAPSE BECAUSE OF FAILURE TO SUBMIT A TRANSLATION OF THE DESCRIPTION OR TO PAY THE FEE WITHIN THE PRESCRIBED TIME-LIMIT Effective date: 20070606 |
|
PGFP | Annual fee paid to national office [announced via postgrant information from national office to epo] |
Ref country code: DE Payment date: 20160229 Year of fee payment: 16 |
|
REG | Reference to a national code |
Ref country code: DE Ref legal event code: R119 Ref document number: 50112581 Country of ref document: DE |
|
PG25 | Lapsed in a contracting state [announced via postgrant information from national office to epo] |
Ref country code: DE Free format text: LAPSE BECAUSE OF NON-PAYMENT OF DUE FEES Effective date: 20170901 |