[go: up one dir, main page]

WO1998039946A1 - Procede et dispositif de traitement de la parole - Google Patents

Procede et dispositif de traitement de la parole Download PDF

Info

Publication number
WO1998039946A1
WO1998039946A1 PCT/JP1998/000915 JP9800915W WO9839946A1 WO 1998039946 A1 WO1998039946 A1 WO 1998039946A1 JP 9800915 W JP9800915 W JP 9800915W WO 9839946 A1 WO9839946 A1 WO 9839946A1
Authority
WO
WIPO (PCT)
Prior art keywords
cepstrum
frame
spectrum
signal
average
Prior art date
Application number
PCT/JP1998/000915
Other languages
English (en)
French (fr)
Inventor
Makoto Shozakai
Tomohiro Tani
Original Assignee
Asahi Kasei Kogyo Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kogyo Kabushiki Kaisha filed Critical Asahi Kasei Kogyo Kabushiki Kaisha
Priority to US09/380,563 priority Critical patent/US7440891B1/en
Priority to JP53837498A priority patent/JP3229335B2/ja
Priority to EP98905778A priority patent/EP0969692B1/en
Priority to AU61203/98A priority patent/AU6120398A/en
Priority to KR10-1999-7008065A priority patent/KR100382024B1/ko
Priority to AT98905778T priority patent/ATE509477T1/de
Publication of WO1998039946A1 publication Critical patent/WO1998039946A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Definitions

  • the present invention provides a hands-free communication system (video conferencing system, car phone) that cancels acoustic echoes from a remote speaker to a remote microphone and improves the quality of a call, and a remote speaker from a remote speaker to a remote microphone.
  • the present invention relates to a voice processing device and method applicable to a hands-free type voice recognition device (car audio, car navigation, pc, etc.) which improves voice recognition performance by canceling a wraparound voice.
  • the acoustic signal that wraps around from a remote speaker to a remote microphone is often called an acoustic echo.
  • the acoustic echo canceling technology (acoustic echo canceller) has the following two applications.
  • the sound of the other party output from the remote speaker may be reflected on the wall or window glass of the room, and may acoustically reach the remote microphone under the influence of the acoustic characteristics inherent in the room.
  • the other party has a problem in that their voice returns as an acoustic echo with a certain time delay, making it difficult to hear and speak. Therefore, among the sounds collected by the remote microphone, the acoustic echo sneaking from the speaker is canceled, and the remaining sound is transmitted to the other party on the call, so that the above problem can be solved. Hope I will.
  • the direct sound of the output sound from the remote speaker and the reflected sound reflected from the room wall, the dashboard, the window glass, etc. always circulate to the remote microphone.
  • the direct sound and the reflected sound from the remote speaker to the remote microphone are collectively called an acoustic echo.
  • the path where acoustic echo is generated from the output sound of the remote speaker is called the acoustic echo generation path.
  • the characteristic of the acoustic echo generation path is FIR (Finite Impulse
  • the force that can be modeled by the filter ? It changes depending on the situation in the room (factors such as human motion and the number of people) and the condition in the car (factors such as human motion, the number of people, opening and closing windows). Conceivable. If there is almost no change in the characteristics of the acoustic echo generation path, it may be better to determine the optimum filter coefficient in advance, fix the filter coefficient, and cancel the acoustic echo. However, it is generally difficult to predict when the characteristics of the acoustic echo generation path will change. In this case, it is desirable to adopt a method of adaptively canceling the acoustic echo while dynamically estimating the optimal filter coefficient by using an adaptive filter.
  • An adaptive filter is based on the assumption that an observed signal is generated by convolving a filter with a certain impulse response to a signal with a known sound source. This is an approach that dynamically adapts the coefficients of one filter so that the difference between the pseudo signals is 0 (zero). The acoustic echo can be canceled by subtracting the signal obtained by convolution of the output signal from the loudspeaker with the coefficient of the FIR filter approximating the acoustic echo generation path from the observed signal.
  • LMS as an adaptive filter algorithm
  • the coefficients of the FIR filter at time t and the input data (known sound source signal) to the FIR filter are
  • x (t) [x (t), x (t-l), ..., x- ⁇ + 1)] ⁇ (2)
  • indicates transpose.
  • is the order of the FIR filter.
  • Fig. 1 shows a block diagram of the NLMS in which the above equation is represented by a circuit.
  • r (t) is called a pseudo acoustic echo signal
  • e (t) is called an acoustic echo cancel signal.
  • Figure 2 shows an example in which an acoustic echo canceller (AEC) using an adaptive filter such as NLMS is installed indoors.
  • AEC acoustic echo canceller
  • the far-end input of the signal output from speaker 2 to AE C 1 the near-end input of microphone 3, the output of loudspeaker 2 near-end, and the AE C 1 after acoustic echo cancellation Is called the far-end output.
  • the characteristics (such as speaker characteristics) of the system that generates the near-end output from the far-end input should be included in the characteristics of the acoustic echo generation path.
  • the filter coefficient increases when the adaptive filter coefficient is continuously updated by AEC (NLMS) 1. Disturbance, and as a result, the amount of echo cancellation is reduced and howling tends to occur. Therefore, it is important how to detect double talk quickly and control (stop / restart) the update operation of the adaptive filter 1 of AEC 1.
  • a method that uses the power of the residual echo is considered to be effective in detecting double talk [Kensaku Fujii, Toshiro Oga, "Double Talk Detection Method with Echo One-Path Fluctuation Detection," IEICE, Vol.J78 -A, No.3, pp.314-322, 1995.]. This is because it is possible to detect small near-end speaker voices buried in acoustic echo.
  • AEC1 by NLMS is installed in the cabin to enhance the speech recognition function in the car environment in which the sound and voice signals of power, audio and power navigation are output from the speaker.
  • Figure 3 shows an example of removing the additive noise of the above.
  • the same reference numerals as those in FIG. 2 shown in FIG. 3 are the same as those shown in FIG.
  • a method using AEC1 has been attempted to realize a function that can recognize the voice uttered while the guidance voice is being output from the speaker 12, a so-called Barge-In (Talk-Through) function.
  • a so-called Barge-In (Talk-Through) function I have.
  • the recovery rate at which the recognition is performed correctly by the effect of the adaptive filter is called RRE (Recovery Rate of Error).
  • the AEC 1 suppresses the wraparound of the guidance voice from the loudspeaker 2 to the microphone 3 to obtain 70% to 80% of 1 ⁇ 13 ⁇ 4 £.
  • the near-end input In general, if coefficients other than those generated from the near-end output are mixed into the near-end input (hereafter, the near-end input is present), the estimation accuracy of the filter coefficient will be increased if the adaptation of the coefficient is continued. And the cancellation performance of the acoustic echo deteriorates. Therefore, in the state where the far-end input exists and the near-end input exists (referred to as the double talk state), it is common practice to stop updating the filter coefficient by Eq. (5).
  • the determination of the presence of a far-end input can be made by a simple comparison between the energy of the far-end input and a predetermined threshold.
  • Figures 4A, 4B, 4C, 4D, and 4E show the spectrograms of the far-end input signal (Pobbs music) and the near-end input signal during idling, respectively.
  • the spectrogram also shows the spectrogram of the acoustic echo cancel signal, the spectrogram of the near-end input signal when traveling at 100 km / h, and the spectrogram of the acoustic echo cancel signal.
  • the volume of the car audio was set to a level that one man felt comfortable when idling and running at 100 km / h. Therefore, when running at 100 km / h, the speaker output level is higher and the acoustic echo level is higher.
  • the near-end input signal was recorded by installing a unidirectional microphone on the driver's seat sun visor of 2000 cc.
  • the initial values of the filter coefficients were all set to 0.0, and the acoustic echo cancellation signal was obtained while updating the filter coefficients continuously according to equations (3)-(5) from time 0 seconds.
  • the sampling frequency was 8 kHz, and the maximum delay of the acoustic echo was considered up to 32 ms. Therefore, the number of taps in the FIR filter is 256.
  • ERLE Echo Return Loss Enhancement
  • ERLE represents the amount of attenuation of the near-end input signal, and is defined by the following equation [edited by Nobuhiko Kitawaki, "Sound Communication” Gakuichi Speech in the age of multimedia ⁇ Acoustic technology, '' Corona, 1996.
  • E [z (t) 2 ] (l ⁇ ⁇ ) ⁇ E [z (tl) 2 ] + ⁇ z (t) 2 (7)
  • the unit of ERLE is dB.
  • the maximum and average values of ERLE during idling are 18.80 dB, 10, and 13 dB, respectively.
  • the maximum and average values of ERLE when driving at 100 km / h are 9.33 dB and 5.89 dB, respectively. It should be noted that the higher the level of the additive noise of the unknown sound source at the near-end input, the lower the ERLE given by Eq. (6).
  • the car was running at 60 km / h in an urban area while playing pop music from car audio in a 2000 cc car, and additive noise data was recorded. At this time, the music volume was set to a level where one woman felt comfortable. Next, while stopped
  • FIG. 7A shows a spectrum diagram of a signal obtained by adding the additive noise data and the voice data on a computer.
  • Figure 7B shows the spectrogram of the acoustic echo-cancellation signal when the initial value of the filter coefficient is set to 0.0 and the filter coefficient is updated continuously from time 0 seconds.
  • FIG. 7C shows a change in the value of the 10th coefficient of the filter coefficient. At this time, the maximum and average values of ERLE are 8.48 dB and 4.18 dB, respectively.
  • the filter coefficient value fluctuates violently from about 0.5 seconds to 0.15 seconds and becomes unstable. Also, the acoustic echo after time 1.0 seconds (the part enclosed by the ellipse in Fig. 7B) could not be canceled. Stop updating the filter coefficient while voice is present at the near-end input, and continue updating filter coefficient while voice is not present at the near-end input regardless of the presence of stationary additive noise There is a need to. For that purpose, a speech detection algorithm that accurately determines whether or not speech is included in the near-end input that is mixed with additive noise of unknown sound source is required.
  • voice recognition systems it is extremely important to detect voice sections accurately (voice detection). In environments with little background noise, accurate speech detection is not so difficult. However, in an environment where background noise cannot be ignored, such as in a cabin while driving, it is quite difficult to detect speech. In particular, weak fricatives, weak nasal sounds located at the beginning of speech, and unvoiced vowels located at the beginning or end of speech are often buried in background noise, making detection difficult. Although breathing sounds and tongue sounds should be detected as non-speech, they are often detected as speech and often lead to misrecognition.
  • the start point of the voice is detected based on whether the short-time power above a certain threshold continues for a certain number of frames, and the short-time power below a certain threshold
  • a general method is to detect the end point of the sound based on whether the power continues for a certain number of frames or more. Attempts to more accurately detect speech using two-level thresholds and the number of zero-crossings of speech signals may be used [Sadahiro Furui, "Digital Speech Processing," Digital Technoguchi Series, Tokai University Press, 1985.] In environments where the presence of additive noise with unknown sound sources can be neglected, a speech detection method that uses only time information such as short-time power or the number of zero crossings can be used. No problem.
  • the acoustic echo canceller using the conventional speech detection method has the following disadvantages.
  • an input pulse signal uses a force that compensates for the delay of the determination means by using an impulse response register, and the time information and frequency information of the signal after echo cancellation are used to input sound. Since there is no means to determine for each frame whether it is included, double-talk detection performance is limited.
  • WO 96/42 142 has a means for determining, on a frame-by-frame basis, whether or not an input audio signal contains sound by using time information and frequency information of a signal after echo cancellation.
  • the present invention relates to an acoustic echo canceller having a structure for suppressing direct transmission of acoustic echo by reducing the gain of a signal transmitted from a base station of a mobile phone, and not to an acoustic echo canceller. Disclosure of the invention
  • An object of the present invention is to provide a speech processing apparatus and method capable of improving noise removal performance from a speech signal in an environment where noise such as sound is likely to be mixed.
  • a supply unit that holds a current impulse response and supplies the impulse response to the generation unit
  • the sound is obtained by subtracting the pseudo acoustic echo signal from the microphone input signal.
  • Removing means for removing an echo component to generate an acoustic echo cancel signal; and continuously generating an impulse response using the sound source signal, the acoustic echo cancel signal, and a current impulse response held by the supply means.
  • Updating means for supplying an updated impulse response to the supply means; and using a time information and a frequency information of the acoustic echo cancellation signal to determine whether or not the microphone input signal includes voice. Determining means for determining each time,
  • the determination result of the determination means is a negative determination frame
  • the current impulse response held by the supply means is stored in the storage means.
  • the affirmative determination frame one of the impulse responses stored in the storage means is stored.
  • the signal after the acoustic echo has been canceled may be used for speech recognition.
  • means for obtaining a spectrum for each frame by Fourier transform from the signal after the acoustic echo has been canceled, and for each frame based on the obtained spectrum Means for continuously calculating a spectrum average, and calculating the obtained spectrum average continuously from the spectrum calculated for each frame from the signal after the acoustic echo is canceled.
  • means for obtaining a spectrum for each frame from the signal after the acoustic echo has been canceled by Fourier transform and a means for continuously obtaining a frame for each frame from the obtained spectrum.
  • Means for obtaining a spectral average, and obtaining the average of the obtained spectrum after the acoustic echo is canceled.
  • Means to remove additive noise unknown to the sound source by continuously subtracting from the spectrum calculated for each frame from the signal, and from the spectrum from which the additive noise has been removed.
  • Means for determining the cepstrum means for separately obtaining the cepstrum average of the speech frames of the obtained cepstrum and the cepstrum average of the non-speech frames for each speaker, and the cepstrum of the speech frame for each speaker
  • the cepstrum average of the speaker's speech frame is subtracted from the ram
  • the cepstrum average of the speaker's non-speech frame is subtracted from the cepstrum of the non-speech frame.
  • means for obtaining a spectrum for each frame from the signal after the acoustic echo has been canceled by Fourier transform means for obtaining a cepstrum from the obtained spectrum
  • Means for separately obtaining the cepstrum average of the obtained cepstrum speech frame and the cepstrum average of the non-speech frame for each speaker Means for separately obtaining the cepstrum average of the obtained cepstrum speech frame and the cepstrum average of the non-speech frame for each speaker, and the speech frame of the speaker from the cepstrum of the speech frame for each speaker
  • Means for correcting the multiplicative distortion means for correcting the multiplicative distortion.
  • a means for obtaining a spectrum for each frame by Fourier transform a means for obtaining a cepstrum from the obtained spectrum, a cepstrum average and a non-cepstrum of a voice frame of the obtained cepstrum are provided.
  • the microphone cue or mouth can be used to subtract the cepstrum average of the non-voice frame of the speaker. Means for correcting multiplicative distortion depending on the spatial transfer characteristic up to the point.
  • the impulse response used for generation of the pseudo acoustic echo signal is the previous impulse response.
  • the present invention obtains a spectrum and a spectrum average for each frame from the signal after canceling the acoustic echo, and uses the obtained spectrum and the spectrum average to reduce additive noise. Remove. BRIEF DESCRIPTION OF THE FIGURES
  • FIG. 1 is a block diagram showing a functional configuration of NLMS (Normalized Least Mean Square error).
  • FIG. 2 is a diagram showing an installation example of an acoustic echo canceller.
  • Fig. 3 shows an example of removing additive noise with a known sound source in the cabin.
  • FIGS. 4A to 4E are diagrams showing the performance of NLM (Normalized Least Mean Square Error) (horizontal axis: sec.).
  • NLM Normalized Least Mean Square Error
  • FIG. 5 is a block diagram showing the processing contents of VAD (Voice Activity Detection).
  • FIG. 6 is a diagram showing the operation timing of VAD.
  • Figure 7A Figure 7G shows the results of NLMS-VAD (Normalized Least Mean Square error with frame-wise Voice Activity Detection) (horizontal axis: se c.).
  • NLMS-VAD Normalized Least Mean Square error with frame-wise Voice Activity Detection
  • FIG. 8 is a diagram for explaining the operation of the filter coefficient buffer.
  • FIG. 9 is a block diagram showing the configuration of the NLMS-VAD.
  • FIG. 10A and FIG. 10B are diagrams showing spectrograms by the NLMS-VAD / CSS method, respectively (horizontal axis: sec.).
  • FIG. 11 shows a time-invariant filter
  • Fig. 12 is a block diagram showing the processing contents of the NLMS-VAD / CSS / E-CMN method (horizontal axis: sec.).
  • FIG. 13 is a diagram showing the evaluation of NLMS-VADZC S S / E-CMN.
  • FIG. 14 is a block diagram showing the configuration of the audio processing device according to the first embodiment of the present invention.
  • FIG. 15 is a block diagram showing the configuration of the system according to the second embodiment of the present invention.
  • FIG. 16 is a block diagram showing the configuration of the system according to the third embodiment of the present invention.
  • FIG. 17 is a block diagram showing the configuration of the system according to the fourth embodiment of the present invention.
  • FIG. 18 is a block diagram showing the configuration of the system according to the fifth embodiment of the present invention.
  • FIG. 19 is a block diagram showing the configuration of the system according to the sixth embodiment of the present invention.
  • Detection V AD Voice Activity Detection
  • This VAD is used to precisely control the operation of digital signal processing such as voice CODEC (compression / expansion), reduce power consumption, and extend battery life.
  • Figure 5 shows a simple configuration of this VAD.
  • the correlation function time information
  • LPC Linear Predictive Coding
  • the short-term power (time information) of the audio signal can be obtained from the inverse LPC filter composed of linear prediction coefficients and the autocorrelation function.
  • the VAD judgment is made by comparing the short-time power with the threshold value.
  • a local VAD flag with a value of 1 is output. Otherwise, a local VAD flag with value 0 (zero) is output. Then, in the VAD post-processing, the final VAD flag value is determined using the local history of the VAD flag values of a plurality of past frames.
  • the threshold value used for comparison with the short-time power in the VAD decision is adapted as follows. If the change in the spectrum (frequency information) represented by the smoothed autocorrelation function and the autocorrelation prediction coefficient is sufficiently small between consecutive frames, it is determined that the spectrum has high stationarity. Background noise or vowels can be considered as the audio signal that is determined to have a high stationarity of the spectrum.
  • Threshold adaptation should be performed on background noise frames, and should not be performed on vowel frames.
  • Pitch information is used to distinguish vowels from background noise.
  • the pitch lag (pitch period) (time information) is calculated from the autocorrelation function calculated from the audio signal. If the change in pitch lag between successive frames is small, the frame is determined to be a vowel and a pitch flag with a value of 1 is output. Otherwise, a pitch flag with the value 0 (zero) is output.
  • the signal-to-noise ratio (SNR) deteriorates to 10 dB or less. In that case, the voice detection performance of the above VAD algorithm was found to be significantly degraded.
  • the threshold value adaptation and the like to enable accurate voice detection even at about SNR 10 dB.
  • the window length of voice used for VAD is 32 ms, and the frame shift is 10 ms.
  • VAD is said to be ON.
  • VAD is said to be 0FF. Since this VAD determines once a frame the sound is included in the near-end input, the sound detection timing may be delayed from the actual rising edge of the sound.
  • Figure 6 shows the relationship between the frame, the operation timing of VAD, and the window length used by VAD. If the start of the actual speech is at the center of frame n, it is likely that VAD can detect the start of that speech after frame n + 1. If the VAD of frame n + 2 could be detected, the detection delay from the start of the actual voice could be as long as 25 ms, during which the echo path estimate could be unstable.
  • FIG. 7D shows how voice detection is performed by VAD.
  • Level 1 indicates that speech was detected.
  • a delay of about two frames in voice detection is observed. If the unstable filter coefficient value can be restored to a more accurate value, it is possible to avoid a decline in acoustic echo canceller performance. Therefore, a buffer (called a filter coefficient buffer) that can store m filter coefficients is prepared.
  • the filter coefficients stored in the n ( m _ 1 ⁇ n ⁇ 1) storage location are sequentially moved to the n + 1 storage location, and at the same time Is stored in the first storage location of the filter coefficient buffer.
  • the filter coefficient stored in the m-th storage location is discarded.
  • the filter coefficient stored in the m- th storage position of the filter coefficient buffer is taken out, and the degraded filter coefficient may be reset based on the value.
  • Figure 8 shows the operation of the filter coefficient buffer.
  • Table 1 shows the maximum and average values of ERLE when m is 0 to 4.
  • select m 2. This corresponds to the VAD detection delay (about 2 frames).
  • NLMS-VAD NLMS with frame-wise VAD
  • Fig. 9 shows the overall block diagram.
  • [s] and [f] denote sample-wise and frame-wise signal flows and processing operations, respectively.
  • VAD is turned ON
  • updating of filter coefficients is stopped until the next frame when VAD becomes OFF.
  • Figure 7E shows the acoustic echo when the filter coefficients are updated from 0 seconds while the initial values of the filter coefficients are all 0.0, the VAD is operated, and the filter coefficient values are stored and reset.
  • Fig. 3 shows the spectrum graph of the cancel signal.
  • Figure 7F shows the change in the value of the 10th coefficient of the filter coefficient at that time.
  • FIG. 7E it can be seen that the acoustic echo around time 0.1 second (the part surrounded by the ellipse in Fig. 7E) is not canceled. If the filter coefficients estimated for each utterance and the parameters used for VAD are stored and used as the initial values at the next utterance, the estimation speed of the filter coefficients will increase.
  • Figure 7G shows an example. Time 0.0 seconds acoustic echo just after the remains somewhat force?, (Ellipse enclosed portion of Figure 7 E) subsequent acoustic echo can be seen that are substantially canceled. At this time, the maximum and average values of ER LE are 9.29 dB and 4.50 dB, respectively.
  • N ( ⁇ ; t) ⁇ N ( ⁇ ; t-1) + (1-7) 0 ( ⁇ ; t) (8)
  • Fig. 1 Voice generated by a woman in an automatic car while stopped (idling) on the OA ("bright", same as the voice used when the voice shown in Fig. 7A was added to the computer and created)
  • Figure 7B shows a computer-acquired noise data obtained by superimposing the additive sound of unknown sound source and acoustic echo when running at 60 km / h on the same voice (Fig. 7B).
  • NLMS cancellation of acoustic echo by VAD method (Fig. 7G);
  • FIG. 7 shows a spectrogram obtained by performing the S method. Comparing Fig. 7G and Fig. 10B, the residual components of the acoustic echo with a frequency of 1 kHz near time 0.9 seconds (Fig.
  • the CSS method has the effect of suppressing residual acoustic echo that could not be canceled by the NLMS-VAD method, as well as stationary additive noise.
  • the spectrum obtained by applying the CSS method to the spectrum obtained by applying the FFT to the acoustic echo cancellation signal e (t) is returned to the time domain by the inverse FFT.
  • the average value of ERLE was 13.60 dB.
  • the average value of the ERLE obtained in the same manner by using only the canceller of the additive noise by the CSS method without performing the acoustic echo cancellation by the NLMS-VAD method was 9.87 dB.
  • the short-term spectrum S (i «; generated by the vocal organs at time t at the frequency ⁇ is calculated as the long-term average in the speech frame of the speaker.
  • T is a sufficiently large natural number.
  • ⁇ ⁇ . ⁇ ( ⁇ ) can be considered to represent speaker-specific frequency characteristics that depend on the vocal fold source characteristics and the vocal tract length. Also, the short-time spectrum divided by the speaker's personality
  • the speech spectrum is normalized voice spectrum S *; produced by passing ( «t) is time-invariant filter one i Pe r SOT ( «) Or normalized speech vector
  • the Lombard effect is a phenomenon in which, when speaking in an environment in which additive noise is present, the speech spectrum is unconsciously deformed, unlike in a quiet environment.
  • the literature [Y. Chen, "CeDstral Domain Talker Stress Compensation for Robust Speech Recognition," IEEE Trans. ASSP, Vol.36, No.4, pp.433-439, 1988.] It has the characteristic that the energy below 1 kHz is strong and the energy above lk Hz is weak.On the other hand, in the case of loud voice, fast voice, shout, and Lombard effect, it has the opposite characteristics. Have been.
  • N ((o; t) represents an additive noise spectrum with unknown sound source
  • E (o); t) represents an additive noise spectrum with known sound source
  • Equation (13) can be simplified as follows.
  • a cepstrum is usually used instead of a spectrum as an acoustic parameter.
  • the cepstrum is defined as the inverse logarithmic cosine transform (DCT) of the logarithmic value of the spectrum.
  • DCT inverse logarithmic cosine transform
  • the cepstrum is often used because the same speech recognition performance can be obtained with a smaller number of parameters than the spectrum.
  • CMN Recognition in Car Environments, "Proc. Eurospeech, Rhodes, Greece, pp.287-290, 1997.]
  • Estimation step speech / non-speech for each speaker
  • the cepstrum average for each frame is calculated separately: When the cepstrum of order i in frame t is denoted by ct), the cepstrum average C speec i, t) of the speech frame in frame t is calculated using , for example, equation (19). Can be.
  • the cepstrum mean C non-voice frame in frame t "nspe ⁇ . (:) .
  • (20) can be determined Ri by the formula where, j is a non-voice frame cepstrum DOO This is a smoothing coefficient used when calculating the ram average. A value smaller than 1.0 and close to 1.0 may be set.
  • the cepstrum average of a speech frame is a cepstrum representation of the multiplicative distortion ⁇ * ( ⁇ ) and depends on the speaker.
  • the cepstrum average of non-voice frames depends on the multiplicative distortion of the input system such as microphone characteristics ⁇ 3 ⁇ 4 ( ⁇ ).
  • the E-CMN method is a method of estimating the product of various multiplicative distortions from a small amount of speech of about 10 words as the cepstrum average of the speech section, and subtracting it from the input cepstrum.
  • the observed spectrum of the speaker-independent phoneme model By using the cepstrum normalized by the E-CMN method instead of the cepstrum obtained from the file, various multiplicative distortions can be corrected collectively It has been revealed that
  • FIG. 12 shows a block diagram of an arithmetic circuit configured according to this combination method.
  • a waveform signal is generated by the NLMS-VAD method from which the additive noise known from the sound source has been removed from the input speech.
  • C S is performed on this waveform signal in the second circuit 102, C S
  • the time series of this spectrum is converted into a time series of cepstrum, and is converted into a time series of cepstrum normalized by the E-CMN method.
  • the fourth circuit 104 the time series of the cepstrum is compared with a phoneme model created in advance for an unspecified speaker by a known Viterbi algorithm, and a speech recognition result is output.
  • the phoneme model for unspecified speakers used at this time must be created using the cepstrum normalized by the E-CMN method as described above. Note that the speech frame / non-speech frame required in the E-CMN method may be used as it is with the VAD result incorporated in the NL MS-VAD method.
  • a unidirectional microphone was placed in the driver's sun visor of a 2000 cc car, and two male and two female were sitting in the driver's seat, each set to their preferred position, and uttered 520 words (AT).
  • the voice (data 1) of the R voice database C set was recorded. We cut it out manually so that a silent section of 250 ms was attached before and after the voice section.
  • 60 km / h, 100 km / h five types of music sources (pops, jazz, rock, classical, rakugo) are played in order by car audio, and the left and right channels of the music source are played.
  • a pair of a signal (data 2) and a microphone input signal (data 3) were recorded simultaneously.
  • the output volume of force audio was set to a level that one man felt comfortable in each running state.
  • a Tied-MixtureHMM model (created from 40 voice data) for 54 speakers, which is environmentally independent, is used.
  • the analysis conditions were 8 kHz sampling, frame length 32 ms, frame shift 10 ms, and the characteristic parameters were 10th-order MFCC, 10th-order AMFCC, ⁇ energy, and HMM model.
  • the numbers of normal distributions shared by are 256, 256 and 64, respectively.
  • Speaker-independent, 520 words recognition task idling, running at 60 km / h, 100 km / h, speaker-no sound (w / o Speaker Out), speaker output If sound exists but NLMS-VAD method is not performed (w / Speaker Out w / o NLMS-VAD), speaker output sound exists and NLMS-VAD method is performed (w / Speaker Out w / NLMS)
  • Figure 13 shows the recognition performance (-VAD) recognition performance (average of five music sources) and RRE.
  • RRE of more than 80% was obtained in all running conditions.
  • the false recognition rate that cannot be recovered by the NLMS-VAD method is as follows: idling, 60 km / h, At 100 km / h, they were only 0.7%, 2.1%, and 1.8%, respectively, indicating that the combination method was effective.
  • FIG. 14 shows a circuit configuration of the audio processing device of the first embodiment.
  • the individual means described below can use a well-known circuit, for example, a digital circuit or a circuit realized by the arithmetic processing of a computer or a digital processor. could be produced. First, processing for each sample will be described.
  • the sound source signal 11 is output from the speaker as the speaker output signal 13.
  • the supply means a a7 holds the current impulse response (the coefficient of the FIR filter) and supplies the current impulse response 16 to the generation means a a4.
  • the sound source signal 11 is sent to the generating means aa4, and the generating means aa4 generates a pseudo acoustic echo signal 15 by the FIR filter.
  • the removing means a a5 the pseudo acoustic echo signal 15 is subtracted from the microphone input signal 12 to generate the sound source echo cancel signal 14.
  • the updating means aa 3 updates the impulse response from the sound source signal 11, the sound source echo canceling signal 14, and the current impulse response 16 held by the supplying means aa 7, and generates an updated impulse response 17. And supplies it to the supply means aa7.
  • the supply means aa 7 holds the updated impulse response 17 supplied from the update means aa 3 as a new current impulse response only while the voice determination flag 18 described later is OFF, and sets the voice determination flag 18 to While ON, the update impulse response 17 supplied from the update means aa3 is rejected.
  • the acoustic echo cancellation signal 14 generated by the removing means a a5 is also sent to the determining means a a1.
  • Judgment means aa for each sample
  • the acoustic echo cancel signal 14 sent to 1 is stored in a buffer by the judging means aa 1, and when one frame is accumulated, the judging means aa 1 determines whether or not a voice is present in the microphone input means (not shown). Is determined, and a voice determination flag 18 is output. In the case of a positive determination (when the presence of voice is detected), the value of the voice determination flag is said to be ON. In the case of a negative determination (when no voice is detected), the value of the voice determination flag is OFF.
  • this determination processing it is determined whether or not the audio signal is included in the microphone input signal 12 using the time information and the frequency information of the acoustic echo cancellation signal 14.
  • VAD Voice Activity Detection
  • the threshold value is varied according to the power to detect speech by comparing the residual energy after signal LPC analysis with the threshold value, and the energy level of additive noise unknown to the sound source. Therefore, it is possible to separate the speech from the additive noise whose sound source is unknown.
  • the control means aa 6 extracts the current impulse response 16 held in the supply means aa 7 and stores it in the storage means aa 2 as a desired impulse response. Store.
  • the impulse response held by the supply unit aa 7 may be deviated from a desired value, and the control unit aa 6 is stored from the storage unit aa 2. Take out one impulse response and overwrite the impulse response held by the supply means aa7.
  • the storage means aa 2 may be FIF 0 that can store one or more impulse responses.
  • FIG. 15 shows the basic configuration of the second embodiment.
  • the sound processing apparatus 100 having the configuration of FIG. 14 described in the first embodiment uses the sound source signal 11 and the microphone input signal 12 to generate an acoustic echo included in the microphone input signal 12. And an acoustic echo cancel signal 14 is generated.
  • the spectrum calculation means b b 1 calculates the spectrum 21 of the acoustic echo cancellation signal 14 by Fourier transform at every fixed frame period.
  • the spectrum 21 is sent to the cepstrum calculation means b b 4, and is converted into the cepstrum 24 for each fixed frame.
  • the matching means b b 5 the matching is performed using the cepstrum 24 for each fixed frame, and the recognition result 25 is output.
  • any of a well-known hidden Markov model method, a well-known dynamic programming method, and a well-known neural network method may be used.
  • FIG. 16 shows the basic configuration of the third embodiment.
  • the audio processing apparatus 100 having the configuration shown in FIG. 14 cancels the acoustic echo included in the microphone input signal 12 using the sound source signal 11 and the microphone input signal 12, and cancels the acoustic echo.
  • the spectrum calculation means b b 1 calculates the spectrum 21 of the acoustic echo cancellation signal 14 by the Fourier transform for each fixed frame period.
  • the spectrum 21 is sent to the spectrum average calculation means b b 2, and the spectrum average 22 is obtained for each fixed frame by the equation (8).
  • the spectrum 21 obtained by the spectrum calculation means bb 1 is supplied to the spectrum average subtraction means bb 3, and the spectrum average 2 2 i is calculated by the equation (9).
  • the noise reduction spectrum 23 is obtained.
  • the noise elimination spectrum 23 is sent to the cepstrum calculation means bb4, and is converted into a cepstrum 24 for each fixed frame.
  • the matching unit bb5 the matching is performed using the ceps frames 24 for each fixed frame, and the recognition result 25 is output.
  • any of a well-known hidden Markov model method, a well-known dynamic programming method, and a well-known neural network method may be used.
  • FIG. 17 shows the basic configuration of the fourth embodiment.
  • the speech processing apparatus 100 having the configuration shown in FIG. 14 cancels the acoustic echo included in the microphone input signal 12 using the sound source signal 11 and the microphone input signal 12, and cancels the acoustic echo.
  • the spectrum calculation means b b 1 calculates the spectrum 21 of the acoustic echo cancel signal 14 by Fourier transform at every fixed frame period.
  • the spectrum 21 is sent to the spectrum average calculation means b b 2, and the spectrum average 22 is obtained by the equation (8) for each fixed frame.
  • the spectrum 21 obtained by the spectrum calculation means bb 1 is supplied to the spectrum average subtraction means bb 3, and the spectrum average 22 is obtained by the equation (9).
  • the noise reduction spectrum 23 is obtained.
  • the noise elimination spectrum 23 is sent to the cepstrum calculation means b b 4, and is converted into a cepstrum 24 for each fixed frame.
  • the cepstrum 24 is sent to the cepstrum average calculation means cc 1, where the cepstrum average 31 is obtained.
  • equations (19) and (20) may be used.
  • the cepstrum mean subtraction In the stage cc 2, the cepstrum mean 31 is subtracted from the cepstrum 24 to calculate a normalized cepstrum 32.
  • the expression (21) may be used.
  • the matching unit bb5 the matching is performed using the normalized cepstrum 32 for each fixed frame, and the recognition result 25 is output.
  • any of a well-known hidden Markov model method, a well-known dynamic programming method, and a well-known neural network method may be used.
  • FIG. 18 shows the basic configuration of the fifth embodiment.
  • the same parts as those in the second, third or fourth embodiment are denoted by the same reference numerals.
  • the audio processing apparatus 100 having the configuration shown in FIG. 14 cancels the acoustic echo included in the microphone input signal 12 using the sound source signal 11 and the microphone input signal 12, and outputs the acoustic echo cancellation signal.
  • the spectrum calculation means b b 1 the spectrum 21 of the acoustic echo cancellation signal 14 is calculated by the Fourier transform every fixed frame period.
  • the spectrum 21 is sent to the cepstrum calculation means b b4, and is converted into a cepstrum 24 for each fixed frame.
  • the cepstrum 24 is sent to the cepstrum average calculation means c c 1, where the cepstrum average 31 is obtained.
  • equations (19) and (20) may be used.
  • the cepstrum mean subtracting means cc2 the cepstrum mean 31 is subtracted from the cepstrum 24 force, and a normalized cepstrum 32 is calculated.
  • equation (21) may be used.
  • matching means bb5 matching is performed using the normalized cepstrum 32 for each fixed frame, and a recognition result 25 is output.
  • a well-known hidden Markov model method, a well-known dynamic programming method, or a well-known neural network Any of the work-based methods may be used.
  • FIG. 19 shows the basic configuration of the sixth embodiment.
  • the same parts as those in the second, third, fourth or fifth embodiment are denoted by the same reference numerals.
  • an audio echo included in the microphone input signal 12 is canceled using the sound source signal 11 and the microphone input signal 12 by the audio processing device 100 having the configuration shown in FIG. Generate the echo cancel signal 14.
  • the spectrum calculation means b b 1 calculates the spectrum 21 of the acoustic echo cancellation signal 14 by Fourier transform at regular frame intervals.
  • the spectrum 21 is sent to the cepstrum calculation means b b 4, and is converted into a cepstrum 24 for each fixed frame.
  • the cepstrum 24 is sent to the cepstrum average calculating means c c 1, where the cepstrum average 31 is obtained.
  • equations (19) and (20) may be used.
  • the cepstrum mean subtraction means c c2 the cepstrum mean 31 is subtracted from the cepstrum 24 to calculate a normalized cepstrum 32.
  • equation (21) may be used.
  • the matching means bb5 matching is performed using the normalized cepstrum 32 for each fixed frame, and a recognition result 25 is output.
  • any of a well-known hidden Markov model method, a well-known dynamic programming method, or a well-known neural network method may be used.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Telephone Function (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Description

明細書
音声処理装置および方法 技術分野
本発明は、 リモートスピーカーからリモートマイクへの音響エコーを キャンセルすることによ り通話品質の向上を計ったハンズフリ一系の通話 システム (テレビ会議システム、 自動車電話) およびリモー トスピーカー からリモートマイクへの回り込み音声をキヤンセルすることにより音声認 識性能の向上を計ったハンズフリ一系の音声認識装置 (カーオーディォ、 カーナビゲーシヨン、 p cなど) に適用可能な音声処理装置および方法に 関する。 背景技術
リモートスピーカーからリモートマイクへ回り込む音響信号は、 しばし ば音響エコーと呼ばれる。 音響エコーを除去する技術 (音響エコーキャン セラー) の用途は以下の 2つである。
1 ) ハンズフリー系通話システム (テレビ会議システム、 自動車電話) において、 通話をしている相手に対し送出される音声の音質を向上させる。
リモートスピーカーから出力された相手側の音声が部屋の壁や窓ガラス に反射し、 その部屋固有の音響特性の影響を受けて、 リモートマイクに音 響的に回り込む場合がある。 この場合、 相手にとっては自分の声がある時 間遅れを伴って音響エコーとして戻ってくるため、 聞きづらく話しづらい という不具合がある。 従って、 リモートマイクが集音した音声の中で、 ス ピーカーから回り込んだ音響エコーをキヤンセルして、 残りの音声を通話 をしている相手に送出することにより、 上記の不具合を改善することが望 まれる。
2 ) ハンズフリ一系の音声認識装置において音声認識率を向上させる。 例えば、 自動車内においては、 カーオーディオや力一ナビゲ一シヨ ンの スピーカー出力音が上記音響エコーと同様にダッシユボードゃ窓ガラスに 反射して音声認識用マイクに回り込み、 それが非定常の加法性雑音として 作用して、 音声認識率が低下するという不具合がある。 従って、 音声認識 用マイクが集音した音声の中で、 スピーカーから回り込んだ音声をキャン セルして、 残りの音声の認識を行うことにより、 よ り高い音声認識性能を 実現することが望まれる。
上記 2つの用途においてはいずれも、 リモー トスピーカーからの出力音 響の直接音および部屋の壁、 ダッシュボー ドゃ窓ガラスなどで反射した反 射音が常時リモートマイクに回り込む。 ここでは、 リモートスピーカーか らリモー トマイクへの直接音および反射音をまとめて音響エコーと呼ぶこ とにする。 また、 リモートスピーカー出力音から音響エコーが生成される 経路を音響エコー生成経路と呼ぶことにする。
一般に、 音響エコー生成経路の特性は、 F I R (Finite Impulse
Response)フィルターでモデル化できる力 ?、 部屋内の状況 (人間の動作、 人 数などの要因) や自動車内の状況 (人間の動作、 人数、 窓の開閉などの要 因) によ り変化すると考えられる。 音響エコー生成経路の特性の変化がほ とんど起こらない場合には、 あらかじめ最適なフィルター係数を求めてお き、 フィ ルター係数を固定して、 音響エコーをキャンセルする方法で良い と思われる。 しかしながら、 音響エコー生成経路の特性の変化がいつ発生 するかは、 一般に予測が困難である。 この場合、 適応フィ ルターの利用に よ り、 最適なフィ ルター係数を動的に推定しながら、 適応的に音響エコー のキヤンセルを行う方法の採用が望ましい。 適応フィルターとは、 観測信号が、 音源既知の信号に対しあるインパル ス応答を持つフィルターが畳み込まれて生成されたものであると仮定し、 観測信号と (音源既知信号とフィ ルタ一係数の推定値との畳込みによ り計 算される) 疑似信号の差が 0 (ゼロ) になるように、 フィルタ一の係数を 動的に適応させるアプローチをいう。 音響エコー生成経路を近似する F I Rフィルターの係数とスピーカーからの出力信号の畳み込みにより得られ る信号を観測信号から引く ことによ り、 音響エコーをキャンセルすること が可能である。 適応フィルターのアルゴリズムとして、 これまでに LMS
(Least Mean Square error) [S . Havkin, "Adaptive Filter Theory, " 2nd ed. Englewood Cliffs, NJ, Prentice-Hall, 1991]、 NLMS (Normalized Least Mean Square error) [S. Haykin, "Adaptive Filter Theory, " 2nd ed.
Englewood Cliffs, NJ, Prentice-Hall, 1991]、 A P A(Affine Projection Algorithm) [尾関和彦,南雲仁一, "ァフィ ン部分空間への直交射影を用いた 適応フィ ルター · アルゴリズムとその諸性質,' '信学論, Vol.J67-A, No.2, pp.126- 132, 1984.]、 R L S (Recursive Least Squares) [S. Haykin, "Adaptive Filter Theory, " 2nd ed. Englewood Cliffs, NJ, Prentice-Hall, 1991]などが提案されている。 特に、 NLMSは、 演算量が少なく、 収束速 度が既知の音源信号の大きさに依存しないため、 広く採用されている。 し かし、 音声のような有色信号に対する、 フィルター係数の収束速度が、 A
P Aや R L Sに比べて遅いことが指摘されている。
時刻 tにおける F I Rフィ ルタ一の係数、 F I Rフィ ルタ一への入力デ ータ (既知の音源信号) をそれぞれ
Figure imgf000005_0001
x(t)=[x(t), x(t- l),...,x - Μ+1)]τ (2) で表現する。 ここで、 τは転置を示す。 Μは F I Rフィルターの次数である c また、 時刻 tのマイク入力信号を y(t)とすると、 NLMSは、 一般に以下の 式で与えられる。 r(t)=h(t)Tx(t) (3) e(t)=y(t)-r(t) (4)
h(t + l)= h(t)+- -x(輔 (5)
a+ χι (t)ll^ ここで、 · fはベク トルのエネルギーを表す。 μは、 フィルター係数の 更新速度を決定する定数 (ステップゲインと呼ばれる) で、 フィルター係 数が収束するために、 0< μ <2を満たす必要がある。 aは、 |x(t)||2が微小値 の場合に(5)式の右辺第 2項が発散するのを防止するための正の定数である。 図 1に上述の式を回路で表した N LMSのプロック図を示す。 ここで、 r(t)を疑似音響エコー信号、 e(t)を音響ェコ一キャンセル信号と呼ぶこと にする。 図 2に、 NLMSをはじめとする適応フィルタ一を使用した音響 エコーキャンセラ一 (AEC) を室内に設置した例を示す。 説明の便宜上、 スピーカー 2から出力される信号の AE C 1への入力を遠端入力、 マイク 3の入力を近端入力、 スピーカー 2の出力を近端出力、 音響エコーキャン セル後の AE C 1の出力信号を遠端出力と呼ぶ。 また、 遠端入力と近端出 力は全く等価であると仮定し、 遠端入力から近端出力が生成される系の特 性 (スピーカー特性など) は、 音響エコー生成経路の特性に含めるものと する。
このような音響エコーキャンセラーに関しては、 特に、 以下の課題につ いて精力的に研究が進められてきた。 1 ) ステツプゲインの制御
ステツプゲインは可能な限り大き く して収束速度を上げることが必要で ある力 大き く しすぎるとハウリングの原因となるため、 使用環境に適し た設定が必要である。 代表的なステップゲイ ンの制御方法として、 E S (Exponential Step)法 [S. Makino, Y. Kaneda and N. Koizumi,
"Exponentially Weighted Steps ize NLMS Adaptive Filter Based on the
Statistics of a Room Impulse Response" IEEE Trans. SAP, Vol.1 , No.1 , pp.101-108, 1993.]が提案されている。 室内における、 適応フィルター係数 更新時の変化量が指数減衰特性を有することから、 ステツプゲインを指数 的に (変化量の大きいイ ンパルス応答前半では大き く、 後半は小さく) 設 定する。 残留エコーレベルが減少するのに要する時間が通常の N LMSの 半分程度で済むことが示されている。
2 ) ダブルトーク検出
一般に、 ダブルトーク (遠端話者と近端話者の双方が同時に発声した状 態) において、 AE C (NLMS) 1 によ り適応フィルタ一係数の更新を 継続すると、 フィ ルターの係数が大き く乱れ、 その結果としてエコー消去 量が減少してハウリングが起こりやすくなる。 従って、 ダブルトークを如 何に速やかに検出して、 AE C 1の適応フィルタ一の更新動作を制御 (停 止 ·再開) するかは重要なポイントである。 ダブルトークの検出には、 残 留エコーのパワーを用いる方法が有効とされる [藤井健作, 大賀寿郎, "ェコ 一経路変動検出を併用するダブルトーク検出法,"信学論, Vol.J78-A, No.3, pp.314-322, 1995.]。 音響エコーに埋もれる小ざな、 近端話者音声を検出す ることが可能であるからである。
3 ) 音響エコー経路変動検出
近端話者が移動した時などに伴う音響ェコ一経路の変動が発生した場合、 残留エコーが増大してダブルトークと判断され、 適応フィ ルターの係数更 新が停止されるという不具合が生じる。 そこで、 ダブルトークと音響ェコ 一経路変動を区別し、 音響エコー経路変動の場合には適応フィルターの係 数更新を継続することが必要になる。 その方法として、 近端入力と疑似ェ コ一の相関を利用する方法 [藤井健作, 大賀寿郎, "エコー経路変動検出を併 用するダブルトーク検出法,"信学論, Vol. J78-A, No.3, pp.314-322, 1995. ] などが提案されている。
力一オーディォゃ力一ナビの音響 ·音声信号がスピーカ一から出力され ている自動車環境内での口バス トな音声認識機能を高める目的で、 車室内 に N L M Sによる A E C 1 を設置して音源既知の加法性雑音の除去する例 を図 3に示す。 図 3に示す図 2 と同一個所の符号は図 2に示す符号と同一 である。
スピーカ一 2からガイダンス音声が出力されている最中に発声された音 声を認識できる機能、 いわゆる Barge-In(Talk-Through)機能の実現に向けて、 A E C 1 を利用する手法が試みられている。 ここで、 スピーカー 2の出力 に起因する音声の誤認識の中で、 適応フィルターの効果によ り正認識とな る回復率を R R E (Recovery Rate of Error)と呼ぶことにする。
例えば、 会議室に設置された音声対話システムにおいて、 スピーカ一 2 からマイク 3へのガイダンス音声の回り込みを A E C 1 により抑圧するこ とにより、 7 0〜8 0 %の1^ 1¾ £が得られることが示されている [高橋敏, 嵯峨山茂樹, " N O V 0合成法を用いた B a r g e - i n音声の認識, "音講
¾6.
tJ冊集, 2-5-1 , pp.59-60, 1996-3. ]0
しかしながら、 音源未知の加法性雑音が存在し、 その雑音レベルが常時 変動する車室内における、 音響エコーキャンセラーに関する研究成果はあ ま り報告されていない。 自動車電話のハンズフリー装置においては、 音声 スィ ッチ (近端入力と遠端入力のエネルギー比較による交互通話方式) と 音響エコーキャンセラーとの併用によるものもあるが、 語頭、 語尾の切断 が多く通話品質が不十分である点が指摘されている。
一般に、 近端入力に近端出力から生成される音以外の音が混入する (以 下、 近端入力が存在するという) 状況で係数の適応化を継続した場合、 フィ ルタ一係数の推定精度が劣化し、 音響ェコ一のキャンセル性能が悪化する。 そこで、 遠端入力が存在し、 かつ近端入力が存在する状態 (ダブルトーク 状態と呼ぶ) では、 (5)式によるフィ ルタ一係数の更新を停止させることが 一般に行われる。 遠端入力が存在するかどうかの判断は、 遠端入力のエネ ルギーと予め定められたしきい値との単純な比較で可能である。
一方、 近端入力が存在するかどうかの判断を同様に行う と、 音響エコー の影響で近端入力が存在すると判断する場合が多くなり、 (5)式によるフィ ルター係数の更新を頻繁に停止して、 結果的にフィ ルター係数の推定精度 が劣化するという不具合が生じる。 そこで、 近端入力信号 y(t)ではなく、 音響エコーキャンセル信号 e(t)のエネルギーを用いて、 近端入力が存在す るかどうかを判断するという方法が考えられる。 近端出力から生成された 音以外で近端入力に混入する音としては、 大きく分けて走行雑音などの音 源未知の加法性雑音と人間の音声の 2つが考えられる力 s、 いずれも適応フィ ルターで除去されずに遠端出力に残存する。
一般に、 走行中の自動車環境では、 音源未知の加法性雑音のエネルギー レベルが、 6 0〜8 0 d B Aの間で大きく変動するため [金指久則, 則松武 志,新居康彦, "車載用単語音声認識装置, "音講論集, 1 -Q-32, pp. 159- 160, 1995-3. ] [鈴木邦一,中村一雄,宇尾野豊,浅田博重, "車載騒音環境下における 連続音声認識, "音講論集, 2-Q-4, pp. 155- 156, 1993- 10. ]、 近端入力の存在 を判断するための最適なしきい値を一意に決めることは難しいという問題 がある。
また、 音源未知の加法性雑音の影響によ り、 近端入力と疑似音響エコー 信号の相関が低下するため、 先述の音響エコー経路変動検出法 [藤井健作, 大賀寿郎, "エコー経路変動検出を併用するダブルトーク検出法,"信学論, Vol.J78-A, No.3, pp.314-322, 1995.]の適用も困難な場合があると予想さ れる。 音源未知の加法性雑音と人間の音声を正確に識別する能力を持つ、 音声検出アルゴリズムがあれば、 有力な解決法になると思われる。
まず走行雑音のみが存在する場合での、 NLMSによる音響エコーのキヤ ンセル性能を評価する。 図 4 A、 図 4 B、 図 4 C、 図 4 D、 図 4 Eに、 そ れぞれ遠端入力信号 (ポッブス音楽) のスペク ト ログラム、 アイ ドリ ング 時での近端入力信号のスぺク トログラム、 同じく音響エコーキヤンセル信 号のスペク トログラム、 時速 1 0 0 k m走行時の近端入力信号のスぺク ト ログラム、 同じく音響エコーキャンセル信号のスぺク トログラムを示す。
カーオーディォの音量は、 アイ ドリング時と時速 1 0 0 km走行時で、 男性 1名が快適と感じるレベルにセッ ト した。 従って、 時速 1 0 0 k m走 行時の方が、 スピーカー出力レベルは大き く、 音響エコーレベルも大きい。 近端入力信号は、 2 0 0 0 c cの自動車の運転席サンバイザーに単一指向 性マイクを設置して収録した。 フィルター係数の初期値は全て 0. 0とし、 時刻 0秒から継続的に(3)-(5)式によ り フィ ルター係数を更新しながら音響 エコーキャンセル信号を求めた。 サンプリ ング周波数は 8 k H zであり、 音響エコーの最大遅延は 3 2 m sまで考慮した。 従って、 F I Rフィルタ 一のタツプ数は 2 56である。
また、 適応フィ ルターの性能を評価する尺度として、 E R L E(Echo Return Loss Enhancement)がよ く用いられる。 E R L Eは近端入力信号の減 衰量を表し、 次式で定義される [北脇信彦編著, "音のコミュニケーシヨ ンェ 学一マルチメディァ時代の音声 ·音響技術一,'' コロナ社, 1996.
ERLE=10- log10 (6)
610 E[e(t)2]
E[.]は推定値を表し、 次式によ り求める。
E[z(t)2]=(l-^)-E[z(t-l)2]+ λ- z(t)2 (7) 但し、 = 1 Z 2 56である。 E R L Eの単位は、 d Bである。 アイ ドリ ング時の E R L Eの最大値、 平均値はそれぞれ 1 8. 8 0 d B、 1 0 , 1 3 d Bである。 また、 時速 1 0 0 km走行時の E R L Eの最大値、 平均値 はそれぞれ 9. 3 3 d B、 5. 8 9 d Bである。 近端入力の音源未知の加 法性雑音のレベルが大きいほど、 (6)式で与えられる E R L Eは低い値にな ることに注意する必要がある。
図 4 C、 図 4 Eからアイ ドリ ング時、 時速 1 0 0 k m時いずれの場合も 音響エコーをほぼキャンセルできていることが分かる。 近端入力に人間の 音声が含まれない場合は、 フィルタ一係数を継続的に更新することによ り 音響エコーの大部分はキャンセル可能であると思われる。 すなわち、 音源 未知の加法性雑音の中で定常的かつ音声と無相関である走行雑音は、 フィ ル夕一係数の推定に与える影響が小さいと考えられる。
次に、 近端入力に人間の音声が含まれる場合について調べる。 2 0 0 0 c cの自動車でカーオーディオからポップス音楽を再生しながら市街地を 時速 6 0 kmで走行し、 加法性雑音データを収録した。 この時、 音楽のボ リュームは女性 1名が快適と感じるレベルにセッ ト した。 次に、 停止中
(ェンジンオフ) の同一の自動車内で同一女性 1名が発声した音声データ
( 「明るい」 ) を同一の録音レベルで収録した。 そして、 加法性雑音デ一タと音声データとを計算機上で加算した信号の スぺク ト口グラムを図 7 Aに示す。 図 7 Bにフィルタ一係数の初期値を 0 . 0 とし、 時刻 0秒から連続的にフィルター係数を更新した場合の音響ェコ —キャンセル信号のスペク トログラムを示す。 また、 図 7 Cにフィルター 係数の 1 0番目の係数の値の変化を示す。 この時の、 E R L Eの最大値、 平均値はそれぞれ 8 . 4 8 d B、 4 . 1 8 d Bである。
特に、 時刻 0 . 5秒あたりから 0 . 1 5秒の間、 フィ ルター係数値が激 しく振動し、 不安定になっている様子が分かる。 また、 時刻 1 . 0秒以降 の音響エコー (図 7 Bの楕円で囲まれた部分) をキャンセルできていない。 近端入力に音声が存在する間はフィ ルター係数の更新を停止し、 近端入力 に音声が存在しない間は、 定常的な加法性雑音の存在の如何に関わらずフィ ルター係数の更新を継続する必要がある。 そのためには、 音源未知の加法 性雑音が混入する近端入力に音声が含まれているかどうかを正確に判定す る音声検出ァルゴリズムが必要となる。
音声認識システムにおいては、 正確に音声区間を検出すること (音声検 出) が極めて重要である。 背景雑音がほとんどない環境では、 正確な音声 検出はそれほど難しくはない。 しかしながら、 走行中の車室内のように背 景雑音の存在が無視できない環境においては、 音声の検出はかなり困難で ある。 特に、 音声の最初に位置する弱い摩擦音、 弱い鼻音や音声の最初ま たは最後に位置する無声化した母音などは背景雑音に埋もれてしまうケー スが多く、 検出は難しい。 呼吸音、 舌打ち音などは本来非音声として検出 されるべきであるが、 しばしば音声として検出され、 誤認識につながるこ とが多い。
通常、 あるしきい値以上の短時間パワーが連続して一定フレーム以上継 続するかどうかによ り音声の開始点を検出し、 あるしきい値以下の短時間 パワーが連続して一定フレーム以上継続するかどうかによ り音声の終了点 を検出する方法が一般的である。 また、 2つのレベルのしきい値を用いて、 よ り正確に音声を検出しょう とする試みや、 音声信号の零交差回数を用い ることもある [古井貞熙, "ディジタル音声処理,'' ディジタルテクノ口ジーシ リーズ, 東海大学出版会, 1985. ]。 音源未知の加法性雑音の存在が無視でき る環境においては、 短時間パワーや零交差回数などの時間情報のみを用い る音声検出法でも問題は生じない。
しかし、 音源未知の加法性雑音の存在が無視できない環境においては、 従来の音声検出法を用いた場合の音響エコーキャンセラーには、 以下の不 具合がある。 まず、 第一にマイク入力に音声が存在しないにも関わらず、 音源未知の加法性雑音を音声であると判断し、 フィルター係数の更新が行 われず、 音響特性の変化に追随できなくなり、 音響エコーのキャンセル性 能が低下する。 第 2に、 マイク入力に音声が存在するにも関わらず、 音声 がないと判断し、 フィ ルタ一係数の更新が行われて、 所望の値から乖離し、 音響エコーのキャンセル性能が低下する。 従って、 時間情報ばかりではな く、 スぺク トルなどの周波数情報も併用する方法が望ましい。
特開平 9— 2 1 3 9 4 6号 (N T T ) においては、 入力音声信号 (ェコ 一キャンセル前の信号) と音源既知の加法性雑音の音源情報の時間情報お よび周波数情報を用いて入力音声信号に音声が含まれているかどうかを判 定するダブルトーク検出回路を用いた音響エコーキャンセラーが説明され ている。 しかしながら入力音声信号に入り込むエコーとして音源信号の影 響を受けたものだけを前提にしており、 周囲の雑音がある場合に、 ダブル トーク検出精度が悪いという不具合がある。 また、 適応フィルタ一によ り 推定したイ ンパルス応答 (F I Rフィ ルタ一の係数値) を保持するバッ ファ を有していない。 特開平 5— 1 02887号 (東芝) では、 エコーキヤンセル後の信号の 大きさでダブルトークかどうか判定するダブルトーク検出回路を用いてい る力 時間情報および周波数情報を併用する判定ではないため、 周囲の雑 音が存在する環境における判定精度が十分ではないという不具合がある。
特開平 7— 303066号 (NTT DOCOMO) では、 ィンパルス 応答レジスタで判定手段の遅れを補償する構成を取っている力 、 エコーキヤ ンセル後の信号の時間情報および周波数情報を用いて入力音声信号に音声 が含まれているかどうかをフレーム毎に判定する手段を具えていないため、 ダブルトーク検出性能に限界がある。
WO 96 / 42 142号 (NOK I A) では、 エコーキヤンセル後の 信号の時間情報および周波数情報を用いて入力音声信号に音声が含まれて いるかどうかをフレーム毎に判定する手段を具えているが、 自動車電話の 基地局の送出信号のゲインを小さくすることによ り音響エコーが直接送出 されるのを押さえる構造を持つ音響エコーサブレッサに関する発明であり、 音響エコーキヤンセラ一に関する発明ではない。 発明の開示
本発明の目的は、 音響などの雑音が混在しやすい環境下で音声信号から の雑音除去性能を改善することができる音声処理装置および方法を提供す る と る。
音響エコーの伝達経路を模擬する現時点のィ ンパルス応答および音源 信号に基づき疑似音響ェコー信号を生成する生成手段と、
現時点のィンパルス応答を保持し、 前記生成手段に供給する供給手段 と、
マイク入力信号から該疑似音響ェコ一信号を減算することによ り音響 エコー成分を除去し、 音響エコーキャンセル信号を生成する除去手段と、 前記音源信号と前記音響ェコーキャンセル信号と前記供給手段が保持 している現時点のインパルス応答を用いて継続的にィ ンパルス応答を更新 し、 更新されたイ ンパルス応答を前記供給手段に供給する更新手段と、 前記音響エコーキャンセル信号の時間情報および周波数情報を利用し て、 マイク入力信号に音声が含まれているか否かをフレーム毎に判定する 判定手段と、
1つ以上のィンパルス応答を保存する保存手段と、
前記判定手段の判定結果が否定判定のフレームでは前記供給手段が保 持している現時点のィンパルス応答を前記保存手段に保存し、 肯定判定の フレームでは前記保存手段に保存されているィンパルス応答の 1つを取り 出して、 前記供給手段に供給する制御手段と
を具えたことを特徴とする。
本発明では前記音響ェコ一がキヤンセルされた後の信号を音声認識に 用いてもよい。
本発明ではさらに前記音響エコーがキャンセルされた後の信号から、 フ 一リェ変換によ り各フレーム毎にスぺク トルを求める手段と、 当該得られ たスぺク トルに基づき各フレーム毎に連続的にスぺク トル平均を求める手 段と、 当該得られたスぺク トル平均を前記音響エコーがキャンセルされた 後の信号から各フレーム毎に計算されたスぺク トルから連続的に減算する ことによ り、 音源未知の加法性雑音を除去する手段とを具えてもよい。
本発明ではさらに前記音響エコーがキャンセルされた後の信号から、 フ ―リェ変換によ り各フレーム毎にスぺク トルを求める手段と、 当該得られ たスぺク トルから各フレーム毎に連続的にスぺク トル平均を求める手段と、 当該得られたスぺク トル平均を前記音響エコーがキャンセルされた後のィ肯 号から各フレーム毎に計算されたスぺク トルから連続的に減算することに よ り、 音源未知の加法性雑音を除去する手段と、 当該加法性雑音が除まさ れたスぺク トルからケプス トラムを求める手段と、 当該得られたケプス ト ラムの音声フレームのケプス トラム平均および非音声フレームのケプス ト ラム平均を話者毎に別々に求め手段と、 話者毎に音声フレームのケプス ト ラムからはその話者の音声フレームのケプス トラム平均を減算し、 非音声 フレームのケプス トラムからはその話者の非音声フレームのケプス トラム 平均を減算して、 マイク特性や口からマイクまでの空間伝達特性に依存す る乗法性歪みを補正する手段とを具えてもよい。
本発明ではさらに、 前記音響エコーがキャンセルされた後の信号から、 フーリエ変換によ り各フレーム毎にスぺク トルを求める手段と、 当該得ら れたスペク トルからケプストラムを求める手段と、 当該得られたケプス ト ラムの音声フレームのケプス トラム平均および非音声フレームのケプス ト ラム平均を話者毎に別々に求める手段と、 話者毎に音声フレームのケプス トラムからはその話者の音声フレームのケプス トラム平均を減算し、 非音 声フレームのケプス トラムからはその話者の非音声フレームのケプス トラ ム平均を減算することによ り、 マイク特性や口からマイクまでの空間伝達 特性に依存する乗法性歪みを補正する手段とを具えてもよい。
本発明では、 フーリェ変換により各フレーム毎にスぺク トルを求める手段 と、 当該得られたスペク トルからからケプス トラムを求める手段と、 当該 得られたケプス トラムの音声フレームのケプス トラム平均および非音声フ レームのケプス トラム平均を話者毎に別々に求める手段と、 話者毎に音声 フレームのケプストラムからはその話者の音声フレームのケプス トラム平 均を減算し、 非音声フレームのケプス トラムからはその話者の非音声フレ ームのケプス トラム平均を減算することにより、 マイク特性や口からマイ クまでの空間伝達特性に依存する乗法性歪みを補正する手段とを具えても よい。
本発明では、 擬似音響エコー信号を使用してエコーキャンセルを行う際に、 擬似音響エコー信号の発生のために使用するィンパルス応答と して、 マイ ク入力信号が音声の場合には前の時点のフレームで使用したィンパルス応 答を連続的に使用し、 マイク入力信号が音声ではない場合には新規に更新 されたインパルス応答を使用することで音響エコーキャンセリ ングの性能 を改善する。
さらに本発明は音響エコーをキャンセルした後の信号からフレーム毎の スぺク トルおよびスぺク トル平均を求め、 得られたスぺク トルおよびスぺ ク トル平均を使用して加法性雑音を除去する。 図面の簡単な説明
図 1は N L M S (Normalized Least Mean Square error)の機能構成を示す ブロック図である。
図 2は音響エコーキヤンセラーの設置例を示す図である。
図 3は車室内における音源既知の加法性雑音を除去する例を示す図であ る
図 4 A—図 4 Eはそれぞれ N L M S (Normalized Least Mean Square error)の性能 (横軸: s e c . ) を示す図である。
図 5は V A D (Voice Activity Detection)の処理内容を示すブロック図で
¾> Ό
図 6は V A Dの動作タイミングを示す図である。
図 7 A—図 7 Gはそれぞれ N L M S - V A D (Normalized Least Mean Square error with frame-wise Voice Activity Detection)のカ果 (横軸 : s e c . ) を示す図である。
図 8はフィルター係数バッファの動作を説明するための図である。
図 9は N LMS— V ADの構成を示すプロック図である。
図 1 0 Aおよび図 1 0 Bはそれぞれ N LMS— V A D/C S S法による スぺク トログラムを示す図である (横軸 : s e c . ) 。
図 1 1は時不変フィルタを示す図である。
図 1 2は N LMS— VAD/C S S /E— C MN法の処理内容を示すブ ロック図である (横軸 : s e c . ) 。
図 1 3はNLMS—VADZC S S/E— CM Nの評価を示す図である。 図 1 4は本発明第 1実施形態の音声処理装置の構成を示すプロック図で あ■©
図 1 5は本発明第 2実施形態のシステムの構成を示すプロック図である。 図 1 6は本発明第 3実施形態のシステムの構成を示すプロック図である。 図 1 7は本発明第 4実施形態のシステムの構成を示すプロック図である。 図 1 8は本発明第 5実施形態のシステムの構成を示すプロック図である。 図 1 9は本発明第 6実施形態のシステムの構成を示すプロック図である。 発明を実施するための最良の形態
短時間パヮーゃピッチなどの時間情報とスぺク トルなどの周波数情報を 利用した音声検出アルゴリズムの 1つとして、 欧州の携帯電話 · 自動車電 話システムである G SMで標準規格化されている音声検出 V AD(Voice Activity Detection) [Recommendation GSM 06.32.]カ ぁる。 この V A Dは音 声 C OD E C (圧縮 .伸張) などのデジタル信号処理の動作を細かく制御 し、 低消費電力化を計って電池寿命を延ばす目的で用いられている。 図 5 にこの VADの簡単な構成を示す。 まず、 音声信号からフレーム毎に自己 相関関数 (時間情報) が求められる。 この自己相関関数から線形予測分析 L P C (Linear Predictive Coding) により、 線形予測係数 (時間情報) 力 求められる。 線形予測係数から構成できる逆 L P Cフィ ルターと自己相関 関数から音声信号の短時間パワー (時間情報) を求めることができる。 こ の短時間パワーとしきい値を比較し、 V A D判定を行う。
短時間パワーがしきい値よ り も大きい場合は、 値 1 の局所的な V A Dフ ラグが出力される。 そうでない場合は、 値 0 (ゼロ) の局所的な V A Dフ ラグが出力される。 そして、 V A D後処理において過去の複数のフレーム の局所的な V A Dフラグの値の履歴を用いて最終的な V A Dフラグの値が 決定される。
一方、 V A D判定において短時間パワーとの比較に用いられるしきい値 は、 以下のように適応化される。 平滑化された自己相関関数と自己相関予 測係数により表されるスペク トル (周波数情報) 変化が連続するフレーム 間で十分小さい場合は、 スペク トルの定常性が高いと判断される。 スぺク トルの定常性が高いと判断される音声信号としては背景雑音または母音が 考えられる。
背景雑音のフレームにおいてはしきい値適応を行い、 母音のフレームで はしきい値適応を行うべきではない。 背景雑音と母音を区別するためにピッ チ情報を利用する。 音声信号から計算される自己相関関数からピッチラグ (ピッチ周期) (時間情報) が計算される。 連続するフレーム間でピッチ ラグの変化が小さい場合は、 そのフレームは母音であると判断され、 値 1 のピッチフラグが出力される。 そうでない場合は、 値 0 (ゼロ) のピッチ フラグが出力される。
上記の短時間パワー、 逆 L P Cフィルターから求められる残差信号自己 相関予測係数、 ピッチフラグ、 定常性の情報を利用してスペク トルの定常 性が高く、 ピッチ性が低いフレームにおいてしきい値の適応化が行われる。 この V A Dはエンジン音やロー ドノイズなどの比較的定常的な背景雑音に たいしてはそのレベルに関わらず、 正確な音声検出性能を発揮する。
自動車内において、 安全性の見地からマイクがサンバイザーなど口元か ら離れた場所に設置される場合、 信号雑音比 (S NR) は 1 0 d B以下に まで悪化する。 その場合には、 上記の VADアルゴリズムの音声検出性能 は著しく劣化することが分かった。
そこで、 S NR 1 0 d B程度でも正確に音声検出ができるようにしきい 値の適応化などの部分を改良した。 現在、 VADに用いている音声の窓長 は 3 2 m s、 フレームシフ トは 1 0 m sである。 以後、 V ADによ り音声 の存在が検出された場合、 VADが ONであると言う。 逆に、 検出されな かった場合、 V ADが 0 F Fであると言う。 この VADは、 1 フレームに 1回近端入力に音声が含まれているかどうかの判断を行うため、 音声の検 出タイミングが実際の音声の立ち上がりから遅延することが起こりえる。
図 6に、 フレーム、 V ADの動作タイ ミングおよび V ADが使用する窓 長の関係を示す。 実際の音声の開始がフレーム nの中心である場合、 VA Dによ りその音声の開始を検出できるのは、 フレーム n + 1以降である可 能性が高い。 仮に、 フレーム n + 2の V ADで検出できた場合、 実際の音 声の開始からの検出遅れは 2 5 m sにもなり、 その間、 エコーパスの推定 値が不安定になることが考えられる。
図 7 Dに VADによる音声検出の様子を示す。 レベル 1が音声が検出さ れたことを示す。 矢印を用いて示すように、 2フレーム程度の音声検出遅 れが認められる。 不安定になったフィ ルター係数値をよ り精度の高い値に 回復することができれば、 音響エコーキヤンセル性能の低下を避けること が可能だと考えられる。 そこで、 m個分のフィルター係数を格納できるバッ ファ (フィ ルター係 数バッファと呼ぶ) を用意する。 V A Dが 0 F Fのフレームでは、 n ( m _ 1≥ n≥ 1 ) 番目の格納位置に格納されたフィ ルター係数を順次 n + 1 番目の格納位置に移すと同時に、 現時点での適応フィルターの係数をフィ ルター係数バッファの第 1番目の格納位置に格納する。 この時、 結果とし て、 m番目の格納位置に格納されていたフィルター係数は捨てられる。 一 方、 V A Dが O Nのフレームでは、 フィルター係数バッファの m番目の格 納位置に格納されたフィルター係数を取り出し、 その値で劣化したフィル ター係数をリセッ トすれば良い。
図 8にフィルター係数バッファの動作の様子を示す。 mを 0〜 4 と した 場合の E R L Eの最大値、 平均値を表 1 に示す。
表 1 フィルターバッファのサイズと E R L E (Echo Return Loss
Enhancement)の関係
Figure imgf000021_0001
m= 0は係数値の保存およびリセットを行わない場合を示す。 m≥ 2では、 E R L Eにほとんど違いが見られないため、 m= 2を選択する。 これは、 V A Dの検出遅れ (2フレーム程度) と対応している。
上記の特徴を持ったアルゴリズムを N LMS— V AD (NLMS with frame-wise VAD) と呼び、 全体のブロック図を図 9に示す。 ここで、 [s]、 [f]はそれぞれサンプルワイズ、 フレームワイズの信号の流れおよび処理の 動作を示す。 VADがいつたん ONになると、 次に VADが OF Fになる フレームまでフィルター係数の更新は停止される。 図 7 Eに、 フィルター 係数の初期値を全て 0. 0とし、 VADを動作させ、 フィ ルター係数値の 格納およびリセッ トを行いながら、 時刻 0秒からフィ ルター係数を更新し た場合の音響エコーキヤンセル信号のスぺク ト口グラムを示す。 図 7 Fに その時のフィルタ一係数の 1 0番目の係数の値の変化を示す。 フィルター 係数の更新が停止されたフレームの直前で、 フィルター係数値が不安定に なっている力 s、 上記フィルター係数の格納およびリセッ トによ り、 フィ ル タ一係数が回復されている様子が示されている。 これにより、 時刻 1. 0 秒以降の音響エコー (図 7 Bの楕円で囲まれた部分) もキャンセルされて いる。
但し、 図 7 Eで時刻 0. 1秒前後の音響エコー (図 7 Eの楕円で囲まれ た部分) がキャンセルされていないことが分かる。 発声毎に推定されたフィ ルター係数および V A Dに用いられるパラメータを保存しておき、 次の発 声時にそれらを初期値として用いれば、 フィルター係数の推定速度は速ま ると考えられる。 図 7 Gにその例を示す。 時刻 0. 0秒直後の音響エコー は若干残存している力 ?、 それ以後の音響エコー (図 7 Eの楕円で囲まれた 部分) はほぼキャンセルされていることが分かる。 この時の、 ER L Eの 最大値、 平均値はそれぞれ 9. 2 9 d B、 4. 5 0 d Bである。 また、 本 願出願人は N L M S— V A D法に関連して、 時間情報および周波数情報に 基づく音声検出を用いた音響ェコ一キャンセラーの日本国出願を既に済ま せている (特願平 0 9— 0 5 1 5 7 7号、 1 9 9 7年 3月 6 日出願) 。 な お、 本願発明では時間情報および周波数情報に基づく音声検出をフレーム 毎に行う点が、 上記先願発明との相違点である。
次に、 音源既知の加法性雑音および音源未知の加法性雑音が存在する環 境における口バス トな音声認識方法として、 N LMS— V AD法と C S S (Continuous Spectral Subtraction)法を組み合わせる方法について説明する。 時刻 t における周波数 ωでの観測スぺク トル、 音声スぺク トル S(o ;t)の推 定値、 加法性雑音の推定値をそれぞれ 0( w ;t)、 s( ^ ;t), ( w ;t)と表す とすると、 C S S法は以下のように与えられる。
N (ω; t) = ■ N (ω; t - 1) + (1 - 7) · 0(ω; t) (8)
O(co;t) -«-N(ft);t) if o(G);t) -a--^{ ;t)> β-ο{ω;€)
S(«;t) =
β·0{ω;€) otherwise
(9) ここで、 «は over-estimation factor、 3は flooring factor、 yは smoothing factorであり、 以下では予備実験の結果から、 それぞれ 2. 4、 0. 1、 0. 97 4 と設定した。 C S Sは、 音声フレームと非音声フレームを区別せず、 連続的にスぺク トルの移動平均を求め、 これを雑音スぺク トルの推定値と みなして、 入カスペク トルから減算する方法である。 雑音スぺク トルの推 定値に音声スぺク トルの影響が含まれるため、 エネルギーの弱い音声スぺ ク トルがマスクされてしまい、 歪みが生じるという問題点があるが、 過去 のある一定時間長の区間に対して、 相対的に大きなエネルギーを持つ周波 数成分を残し、 エネルギーの微弱な周波数成分を雑音、 音声を問わず、 マ スクするという働きを持つ。 このため、 クリーンな音声に C S Sを施した 後に得られる特徴パラメータと加法性雑音が重畳した音声に C S Sを施し た後に得られる特徴パラメータの間の変動が、 通常のスぺク トル減算法や 最小平均二乗誤差推定法に比べて小さい。 この特長は、 低い S NRでの音 声認識にとって有効である。 図 1 O Aに、 停止中 (アイ ドリ ング) の自動 車内で女性が発声した音声 ( 「明るい」 、 図 7 Aに示した音声を計算機上 で加算して作成した際に用いた音声と同一) に C S Sを施した後のスぺク トログラムを、 図 7 Bに同一音声に時速 6 0 k m走行時の音源未知の加法 性雑音と音響エコーが重畳した雑音データを計算機上で加算した後 (図 7
A) 、 NLMS— VAD法で音響エコーをキャンセルし (図 7 G) 、 C S
S法を施して得られるスぺク トログラムを示す。 図 7 Gと図 1 0 Bを比較 すると、 時刻 0. 9秒近辺の周波数 1 k H zの音響エコーの残存成分 (図
7 Gの楕円で囲まれた部分) が C S S法により除去されていることが分か
Ό o
C S S法は、 定常的な加法性雑音だけでなく、 NLMS— VAD法でキヤ ンセルできなかった残存音響エコーを抑圧する効果も持っている。 音響ェ コ一キャンセル信号 e(t)に F FTを施して得られたスぺク トルに対して C S S法を施した後のスぺク トルを逆 F FTにより時間領域に戻して得られ る波形信号を、 (6)式の e(t)の代わりに用いた場合の E R L Eの平均値は 1 3. 6 0 d Bであった。 これに対し、 N LMS— V AD法による音響ェコ 一キヤンセルを行わず、 C S S法による加法性雑音のキヤンセルのみを行つ て同様に求めた E R L Eの平均値は 9. 8 7 d Bであった。 C S Sのみで は、 約 3. 7 d B相当の音源既知の加法性雑音がキャンセルできなかった と見ることができる。 図 1 O Aと図 1 O Bを比較すると 2つのスぺク トログラムがきわめて類 似していることが分かる。 N LMS— VAD法と C S S法の組み合わせに よ り、 音源既知の加法性雑音と音源未知の加法性雑音に対して、 ロバス ト な特徴パラメ一タを抽出できることが示唆されている。
次に、 音声スぺク トルに対する乗法性歪みの補正方法について述べる。 ある個人の発声器官で生成される、 時刻 tにおける周波数 ωでの短時間ス ぺク トル S(i«; の音声フレームにおける長時間平均を話者の個人性
«。η(ω)と呼ぶこととし、
1
HperSon(iO) =一 .∑ 5(«; t) (10)
T t=l
と定義する。 ここで、 Tは十分大きな自然数である。 ΗΡη(ω)は、 声帯音 源特性およぴ声道長に依存する話者固有の周波数特性を表しているとみな すことができる。 また、 短時間スペク トルを話者の個人性で除したもの
S*(co;t) = S(m;t)/HPerson(w) (ID
を正規化音声スぺク トルと定義する。 この時、 図 1 1 に示すように、 音声 スぺク トルは、 正規化音声スぺク トル S*(«;t)が時不変フィルタ一 iPerSOT(«) を通過することにより生成される、 あるいは、 正規化音声スぺク トル
に乗法性歪み ίί „。η(ω)が重畳して生成されると解釈することができ る。
S( ;t)= Η—(ω)' 5*(6);t) (12)
車室内のような実環境においては、 正規化音声スぺク トルに対する乗法 性歪みとして、 上記の話者の個人性に加えて、 以下の 3種類が考えられる [A. Acero, "Acoustical and environmental Robustness in Automatic Speech Recognition, " Kluwer Academic Publishers, 1992.]。 ( 1 ) 発話様式 ¾tyie(in(«)
加法性雑音 Nに依存する発話様式 (しゃべり方、 発話速度, 発話の大き さ, Lombard効果など) に固有の周波数伝達特性である。 Lombard効果とは、 加法性雑音が存在する環境下で発声をする場合に、 静寂な環境下とは異なつ て、 無意識のうちに発声スぺク トルが変形する現象のことをいう。 文献 [Y. Chen, "CeDstral Domain Talker Stress Compensation for Robust Speech Recognition," IEEE Trans. ASSP, Vol.36, No.4, pp.433-439, 1988.]では、 ソフ トなしゃべり方の場合は、 1 k H z以下のエネルギーが強く、 l k H z以上のエネルギーが弱いという特性があること、 一方で、 大きな声、 早 口、 叫び声、 Lombard効果の場合は、 逆の特性を持つことが示されている。
(2 ) 空間伝達特性 HTrans((o)
口からマイクまでの空間的な周波数伝達特性を表す。
(3) マイク特性 ic(o>)
マイクなどの入力系の電気的な周波数伝達特性を表す。
一般に, 音声と雑音の線形スぺク トル領域での加法性が成り立つとすると、 時刻 tにおける周波数 ωでの観測スぺク トル ο(ω;ί;)は、
0(ω;ί)= ΗΜία(ω)-[ ΗΤΓ3ηε(ω) - {HstyleW( ) - (HPerson(©) - S (m-,t))} + Ν(ω;ί) + Ε(ω;ί)]
(13) でモデル化できる [J. H. L. Hansen, B. D. Womack, and L. M. Arslan, "A Source Generator Based Production Model for Environmental Robustness in Speech Recognition," Pro ICS LP 94, Yokohama, Japan, pp.1003-1006, 1994.]。 ここで、 N((o;t)は音源未知の加法性雑音スぺク トルを表し、 E(o);t) は音源既知の加法性雑音スぺク トルを表す。
4種類の乗法性歪みの内、 ΗΜ»はあらかじめ測定可能であるが、 ΗΡ (ω)、 Hsty2em(w), HT s(o>)を, 実環境において音声認識システムのュ 一ザ一に負荷をかけることなく分離して測定することは困難であると考え られる。 また、 例え加法性雑音 N(CO;t)、 _B(Q);t)が存在しないと しても、 観測 スぺク トルの長時間平均として(10)式と同様に求められた時不変フィルタ 一のゲインには、 上記 4種類の乗法性歪みの混在が避けられない。 そこで、 改めて乗法性歪み H (ω)、 加法性雑音 Ν(ω;ί;)、 £(ω;<;)を、 それぞれ
ΗΜ1σ(ω) · HTrans · Η5ί 1 Ν)(ω) · ΗΡθΓεοη(ω) (14)
Ν(ω; t) = ΗΜ1α(ω) - Ν(ω; t) (15)
E(w,t) = Η^(ω)■ E( ;t) (16) と定義すると、 (13)式を以下のように簡単化できる。
0{ ;t) = H (ω)·5 {ω;€) + Ν(ω;€) + Ε{ω€) (17) 一方、 (17)式を変形すると、
Figure imgf000027_0001
が得られる。 不特定話者音素モデルを観測されたスぺク トルではなく、 (11)式によ り正規化されたスぺク トルを用いて作成しておけば、 観測スぺ ク トル 0(ω;ί;)に対し、 実環境における w(o);t)、 ;)、 の除去を行つ て、 正規化音声スペク トル (ω;ί:)の推定値を求めることにより、 頑健な音 声認識システムを実現できると考えられる。 Μω; 、 E(6);t)の除去に関して は、 N L M S— V A D法と C S S法を組み合わせる方法が有効であること を先述した。
音声認識システムにおいては、 音響パラメータとして、 通常、 スぺク ト ルの代わりに、 ケプス トラムが用いられる。 ケプス トラムは、 スペク トル の対数値に逆離散コサイン変換 (D C T : Discrete Cosine Transform) を施 したものとして定義される。 ケプス トラムはスぺク トルに比べて、 少ない パラメータ数で同等の音声認識性能が得られるためよく用いられる。
正規化音声スぺク トル (《;t)に対する乗法性歪み (ω)の除去に関して は、 次の Ε - C M N (Exact Cepstrum Mean Normalization)法が有効であるこ と力既に示されてレ、る [M. Shozakai, S . Nakamura and K. Shikano, "A Non-Iterative Model-Adaptive E-CMN/PMC Approach for Speech
Recognition in Car Environments, " Proc. Eurospeech, Rhodes, Greece, pp.287-290, 1997. ]。 E— C M N法は次の 2つのステップから構成される。 推定ステップ:話者毎に音声/非音声フレームで別々にケプス トラム平均 を求める。 フレーム tにおける次数 iのケプス トラムを c t)と表すとき、 フレーム tにおける音声フレームのケプス トラム平均 Cspeec i,t)は、 例えば (19)式により求めることができる。
η · G SpeeCh (i, t - 1) + (1 - 77) · c(i, t) if frame t is speech , nヽ speech \ し)一 一 y)
C speech t— 1) otherwise ここで、 は音声フレームのケプス トラム平均を求める際の平滑化係数であ り、 1 . 0よ り も小さく 1 . 0に近い値を設定すればよい。 また、 フレー ム tにおける非音声フレームのケプストラム平均 C„。nspe ^ (: )は、 例えば (20)式によ り求めることができる。 ここで、 jは非音声フレームのケプス ト ラム平均を求める際の平滑化係数であり、 1. 0よ り も小さく 1. 0に近 い値を設定すればよい。
7? - C SpesCh (i, t - 1) + (1 - 77)■ C(JL, t) if frame t is not speech
C nonspeech ( り ―
Cnonspeech (i, t - 1) otherwise
(20) 音声フレームのケプス トラム平均は、 乗法性歪み Η*(ω)のケプス トラム 表現であり、 話者に依存する。 一方、 非音声フレームのケプス トラム平均 は、 マイク特性などの入力系の乗法性歪み ·¾ (ω)に依存する。
正規化ステップ:観測ケプス トラムご から、 (21)式に従って、 音声フ レームにおいては音声フレームのケプス ト ラム平均 Cspe ^ t)を、 非音声フ レームにおいては非音声フレームのケプス トラム平均 c speech (i, t)を話者毎 に引き、 正規化ケプス トラム を求めることによ り、 観測スぺク トルを 正規化する。
C(i, t) - Cspeech t) if frame t is speech
C(i,t) =
C(i, t) - Cnonspeech ( t) otherwise 尚、 E— CMN法に関する発明について本願出願人は、 既に日本国出願 を済ませている (特願平 0 9— 05 1 5 78号、 1 99 7年 3月 1 1 日) 。
E— CMN法は、 様々な乗法性歪みの積を 1 0単語程度の少量の音声か ら、 音声区間のケプス トラム平均として推定し、 それを入力ケプス ト ラム から引く という方法である。 不特定話者音素モデルを観測されたスぺク ト ルから求められたケプス トラムではなく、 E— CMN法によ り正規化され たケプス トラムを用いて作成しておく ことによ り、 様々な乗法性歪みを一 括して補正することが可能であることが明らかにされている。
最後に、 音源既知および音源未知の加法性雑音、 乗法性歪みが存在する 実環境におけるロバス トな音声認識手法として、 NLMS— VAD法、 C S S法、 E— CMN法を組み合わせる手法について述べる。 図 12に本組み 合わせ手法に従って構成した演算回路のブロック図を示す。 まず、 第 1の 回路 1 0 1において NLMS— VAD法によ り、 入力音声から音源既知の 加法性雑音 が除去された波形信号が生成される。 次に、 第 2の回路 1 02においてこの波形信号に対して、 フーリエ変換が施された後、 C S
S法によ り音源未知の加法性雑音 wo;t)が除去されたスぺク トルの時系列 が生成される。
さらに、 第 3の回路 1 0 3においてこのスぺク トルの時系列はケプス トラ ムの時系列に変換され、 E— CMN法によ り正規化されたケプス トラムの 時系列に変換される。 最後に、 第 4の回路 1 04においてケプス ト ラムの 時系列は、 公知のビタビアルゴリズムにより、 不特定話者用に予め作成さ れた音素モデルと照合され、 音声認識結果が出力される。
この際に使用される不特定話者用音素モデルは、 先述のように E— CM N法により正規化されたケプス トラムを用いて作成されている必要がある。 尚、 E— CMN法で必要な音声フレーム ·非音声フレームの区別は、 NL MS—VAD法に組み込まれた VADの結果をそのまま用いればよい。
次に、 本組み合わせ手法の効果についてまとめる。 単一指向性マイクを 2 0 0 0 c cの自動車の運転席サンバイザーに設置し、 男性 2名女性 2名 が各々好みの位置にセッ ト した運転席に座って発声した 5 2 0単語 (AT R音声データベース Cセッ ト) の音声 (データ 1 ) を収録した。 音声区間 の前後に 2 5 0 m sずつの無音区間が付属するように手動で切り出しを行つ た。 また、 アイ ドリング、 時速 6 0 km、 時速 1 0 0 kmの走行状態で、 5種類の音楽ソース (ポップス、 ジャズ、 ロック、 クラシック、 落語) を 順番にカーオーディオで再生し、 音楽ソースの左右チヤンネルを混合した 信号 (データ 2 ) と、 マイク入力信号 (データ 3 ) のペアを同時に録音し た。 力一オーディ オの出力ボリュームは、 各走行状態毎に男性 1名が快適 と感じる音量にセッ ト した。
アイ ドリング、 時速 6 O km, 時速 1 00 k mでの音響エコーのマイク への最大入力レベルはそれぞれ、 6 0. 7 d BA、 6 5. 9 d BA、 7 0. 6 d B Aであった。 データ 1 とデータ 3を計算機上で加算して評価データ を作成した。 データ 2は、 NLMS—VAD法の遠端入力として使用した。 認識には、 環境独立な 54音素の不特定話者用 Tied- MixtureHMMモデル (4 0名の音声データから作成) を用いた。 分析条件は 8 k H zサンプリ ング、 フレーム長 3 2 m s、 フレームシフ ト 1 0 m sで、 特徴パラメ一タ は、 1 0次 MF C C、 1 0次 AMF C C、 Δエネルギーであり、 HMMモ デルが共有する正規分布の数は、 それぞれ 2 56、 2 5 6、 64である。
不特定話者、 52 0単語の認識タスクで、 アイ ドリ ング、 時速 6 0 km、 時速 1 0 0 k mの走行状態で、 スピーカ—出力音が存在しない場合 (w/o Speaker Out) 、 スピーカー出力音が存在するが、 NLMS—VAD法を行 わない場合 (w/ Speaker Out w/o NLMS-VAD) 、 スピーカー出力音が存在 し、 N L M S— V A D法を行う場合 (w/ Speaker Out w/ NLMS-VAD) の認 識性能 ( 5種類の音楽ソースの平均) および RREを図 1 3に示す。
いずれの走行状態でも 8 0 %以上の R R Eが得られた。 また、 NLMS 一 VAD法でも回復できない誤認識率は、 アイ ドリング、 時速 6 0 km、 時速 1 0 0 k mでそれぞれ 0 . 7 %、 2 . 1 %、 1 . 8 %と僅かであり、 先の組み合わせ法の有効性が確認できた。
(第 1実施形態)
第 1実施形態の音声処理装置の回路構成を図 1 4に示す。 以下に述べる 個々の手段は周知の回路、 たとえば、 デジタル回路、 コンピュータやデジ タルプロセッサの演算処理によ り実現する回路を使用できるので、 当業者 であれば、 図 1 3によ り音声処理装置を製作できるであろう。 まず、 サン プル毎の処理について説明する。 音源信号 1 1はスピーカー出力信号 1 3 と して、 スピ一カーから出力される。 供給手段 a a 7は、 現時点のィンパ ルス応答 (F I Rフィ ルターの係数) を保持し、 生成手段 a a 4 に現時点 のィ ンパルス応答 1 6を供給する。
音源信号 1 1は生成手段 a a 4に送られ、 生成手段 a a 4で F I Rフィ ルターにより、 疑似音響エコー信号 1 5が生成される。 除去手段 a a 5に おいて、 疑似音響エコー信号 1 5はマイク入力信号 1 2から減じられ、 音 源ェコ一キャンセル信号 1 4が生成される。 更新手段 a a 3において、 音 源信号 1 1 と音源エコーキャンセル信号 1 4 と供給手段 a a 7が保持する 現時点のインパルス応答 1 6から、 インパルス応答を更新し、 更新イ ンパ ルス応答 1 7を生成して、 それを供給手段 a a 7に供給する。
供給手段 a a 7は後述の音声判定フラグ 1 8が O F Fの間にのみ、 更新 手段 a a 3から供給された更新ィンパルス応答 1 7を新しい現時点のィン パルス応答として保持し、 音声判定フラグ 1 8が O Nの間は、 更新手段 a a 3から供給された更新ィンパルス応答 1 7を棄却する。 除去手段 a a 5 で生成された音響エコーキャンセル信号 1 4は、 判定手段 a a 1 にも送ら れる。
次に、 フレーム毎の処理について説明する。 サンプル毎に判定手段 a a 1に送られた音響エコーキヤンセル信号 1 4は判定手段 a a 1 においてバッ ファに格納され、 1 フレーム分たまった段階で判定手段 a a 1でマイク入 力手段 (不図示) に音声が存在するかどうかの判定が行われ、 音声判定フ ラグ 1 8が出力される。 肯定判定の場合 (音声の存在が検出される場合) は、 音声判定フラグの値は O Nであるという。 否定判定の場合 (音声の存 在が検出されない場合) は、 音声判定フラグの値は O F Fであるという。
この判定処理では、 音響エコーキャンセル信号 1 4の時間情報および周 波数情報を利用して、 音声信号がマイク入力信号 1 2に含まれているかど うかを判定する。 判定の方法としては、 音源未知の加法性雑音に重畳した 音声を検出できるアルゴリズム VAD(Voice Activity Detection)を用いると良 レ、。 例えば、 Recommendation GSM 06.32では、 信号の L P C分析後の残差 エネルギーをしきい値と比較することにより音声の検出を行う力、 音源未 知の加法性雑音のエネルギーレベルに合わせてしきい値を変動させること ができるため、 音源未知の加法性雑音と音声を分離することができる。
しきい値の適応化を行う際には、 スペク トルの定常性 (周波数情報) と ピッチ性 (時間情報) を利用している。 上記判定処理の結果、 音声判定フ ラグ 1 8が O F Fの場合は、 制御手段 a a 6が供給手段 a a 7に保持され た現時点ィンパルス応答 1 6を取り出し、 所望のィンパルス応答として保 存手段 a a 2に格納する。
一方、 音声判定フラグ 1 8が O Nの場合は、 供給手段 a a 7が保持して いるィンパルス応答が所望の値から乖離している可能性があるため、 制御 手段 a a 6は保存手段 a a 2から保存ィ ンパルス応答を 1つ取り出し、 供 給手段 a a 7が保持しているイ ンパルス応答に上書きする。 保存手段 a a 2は、 1つ以上のィンパルス応答を保存できる F I F 0であればよい。 (第 2実施形態)
図 1 5に第 2実施形態の基本構成を示す。 まず、 第 1の実施形態で説明 した図 1 4の構成を持つ音声処理装置 1 0 0は、 音源信号 1 1およびマイ ク入力信号 1 2を用いて、 マイク入力信号 1 2に含まれる音響エコーをキヤ ンセルし、 音響エコーキヤンセル信号 1 4を生成する。 次に、 スぺク トル 計算手段 b b 1 において、 一定フレーム周期毎にフーリエ変換によ り音響 エコーキャンセル信号 1 4のスぺク トル 2 1 を算出する。
スペク トル 2 1はケプス トラム計算手段 b b 4に送られ、 一定フレーム 毎のケプス トラム 2 4に変換される。 照合手段 b b 5では、 一定フレーム 毎のケプス トラム 2 4を用いて、 照合が行われ、 認識結果 2 5が出力され る。 照合に当たっては、 周知の隠れマルコフモデルによる手法または周知 の動的計画法による手法または周知のニューラルネッ トワークによる手法 のいずれかを用いればよい。
(第 3実施形態)
図 1 6に第 3実施形態の基本構成をを示す。 図 1 5の第 2実施形態と同 様の個所には同一の符号を付している。 まず、 図 1 4の構成を持つ音声処 理装置 1 0 0は、 音源信号 1 1およびマイク入力信号 1 2を用いて、 マイ ク入力信号 1 2に含まれる音響エコーをキャンセルし、 音響エコーキャン セル信号 1 4を生成する。 次に、 スぺク トル計算手段 b b 1 において、 一 定フレーム周期毎にフーリェ変換によ り音響エコーキャンセル信号 1 4の スペク トル 2 1 を算出する。 スぺク トル 2 1 は、 スぺク トル平均計算手段 b b 2に送られ、 一定フレーム毎に(8)式によりスぺク トル平均 2 2が求め られる。
一方、 スぺク トル計算手段 b b 1 で求められたスぺク トル 2 1 は、 スぺ ク トル平均減算手段 b b 3に供給され、 (9)式によ りスぺク トル平均 2 2 i 減じられ、 雑音除去スぺク トル 2 3が求められる。 雑音除丟スぺク トル 2 3はケプス トラム計算手段 b b 4に送られ、 一定フレーム毎のケプス トラ ム 2 4に変換される。 照合手段 b b 5では、 一定フレーム毎のケプス トラ ム 2 4を用いて、 照合が行われ、 認識結果 2 5が出力される。 照合に当たつ ては、 周知の隠れマルコフモデルによる手法または周知の動的計画法によ る手法または周知のニューラルネッ トワークによる手法のいずれかを用い ればよい。
(第 4実施形態)
図 1 7に第 4実施形態の基本構成を示す。 図 1 7において第 2または第 3実施形態と同様の個所には同一の符号を付している。 まず、 図 1 4の構 成を持つ音声処理装置 1 0 0は、 音源信号 1 1およびマイク入力信号 1 2 を用いて、 マイク入力信号 1 2に含まれる音響エコーをキャンセルし、 音 響エコーキャンセル信号 1 4 を生成する。 次に、 スぺク トル計算手段 b b 1 において、 一定フレーム周期毎にフーリェ変換により音響エコーキャン セル信号 1 4のスぺク トル 2 1 を算出する。 スぺク トル 2 1 は、 スぺク ト ル平均計算手段 b b 2に送られ、 一定フレーム毎に(8)式によ りスぺク トル 平均 2 2が求められる。
一方、 スぺク トル計算手段 b b 1 で求められたスぺク トル 2 1 は、 スぺ ク トル平均減算手段 b b 3に供給され、 (9)式によ りスぺク トル平均 2 2が 減じられ、 雑音除去スぺク トル 2 3が求められる。 雑音除丟スぺク トル 2 3はケプス トラム計算手段 b b 4に送られ、 一定フレーム毎のケプス トラ ム 2 4に変換される。
ケプス トラム 2 4はケプス トラム平均計算手段 c c 1 に送られ、 そこで ケプス トラム平均 3 1が求められる。 ケプス トラム平均の算出に当たって は、 例えば(19)式、 (20)式を用いればよい。 次に、 ケプス トラム平均減算手 段 c c 2 において、 ケプストラム 2 4からケプス トラム平均 3 1が減算し、 正規化ケプス トラム 3 2が算出される。 尚、 減算に当たっては、 (21 )式を 用いればよい。 照合手段 b b 5では、 一定フレーム毎の正規化ケプス トラ ム 3 2を用いて、 照合が行われ、 認識結果 2 5が出力される。 照合に当たつ ては、 周知の隠れマルコフモデルによる手法または周知の動的計画法によ る手法または周知のニューラルネッ トワークによる手法のいずれかを用い ればよい。
(第 5実施形態)
図 1 8に第 5実施形態の基本構成を示す。 図 1 8 において第 2、 第 3ま たは第 4実施形態と同様の個所には同一の符号を付している。 まず、 図 1 4の構成を持つ音声処理装置 1 0 0は、 音源信号 1 1およびマイク入力信 号 1 2を用いて、 マイク入力信号 1 2に含まれる音響エコーをキャンセル し、 音響エコーキャンセル信号 1 4を生成する。 次に、 スぺク トル計算手 段 b b 1 において、 一定フレーム周期毎にフーリェ変換によ り音響エコー キャンセル信号 1 4のスぺク トル 2 1 を算出する。 スぺク トル 2 1 は、 ケ ブス トラム計算手段 b b 4に送られ、 一定フレーム毎のケプス トラム 2 4 に変換される。 ケプス トラム 2 4はケプス トラム平均計算手段 c c 1 に送 られ、 そこでケプス トラム平均 3 1が求められる。 ケプス トラム平均の算 出に当たっては、 例えば(19)式、 (20)式を用いればよい。
次に、 ケプス トラム平均減算手段 c c 2において、 ケプス トラム 2 4力 らケブス トラム平均 3 1 を減算し、 正規化ケプス トラム 3 2が算出される。 尚、 減算に当たっては、 (21)式を用いればよい。 照合手段 b b 5では、 一 定フレーム毎の正規化ケプス トラム 3 2を用いて、 照合が行われ、 認識結 果 2 5が出力される。 照合に当たっては、 周知の隠れマルコフモデルによ る手法または周知の動的計画法による手法または衆知のニューラルネッ ト ワークによる手法のいずれかを用いればよい。
(第 6実施形態)
図 1 9に第 6実施形態の基本構成を示す。 図 1 6においても第 2、 第 3 第 4または第 5実施形態と同様の個所には同一の符号を付している。 まず、 図 1 4の構成を持つ音声処理装置 1 0 0によ り、 音源信号 1 1およびマイ ク入力信号 1 2を用いて、 マイク入力信号 1 2に含まれる音響エコーをキヤ ンセルし、 音響エコーキャンセル信号 1 4 を生成する。 次に、 スペク トル 計算手段 b b 1 において、 一定フレーム周期毎にフーリエ変換によ り音響 エコーキャンセル信号 1 4のスぺク トル 2 1 を算出する。 スぺク トル 2 1 は、 ケプス トラム計算手段 b b 4に送られ、 一定フレーム毎のケプス トラ ム 2 4に変換される。
ケプス トラム 2 4はケプス トラム平均計算手段 c c 1に送られ、 そこで ケプストラム平均 3 1が求められる。 ケプストラム平均の算出に当たって は、 例えば(19)式、 (20)式を用いればよい。 次に、 ケプス トラム平均減算手 段 c c 2において、 ケプストラム 2 4からケプス トラム平均 3 1 を減算し、 正規化ケプス ト ラム 3 2が算出される。 尚、 減算に当たっては、 (21)式を 用いればよい。 照合手段 b b 5では、 一定フレーム毎の正規化ケプス トラ ム 3 2を用いて、 照合が行われ、 認識結果 2 5が出力される。 照合に当たつ ては、 周知の隠れマルコフモデルによる手法または周知の動的計画法によ る手法または公知のニューラルネッ トワークによる手法のいずれかを用い ればよい。

Claims

請求の範囲
1 . 音響エコーの伝達経路を模擬する現時点のィンパルス応答および音 源信号に基づき疑似音響ェコー信号を生成する生成手段と、
現時点のィンパルス応答を保持し、 前記生成手段に供給する供給手段 と、
マイク入力信号から前記疑似音響エコー信号を減算することによ り音 響エコー成分を除去し、 音響エコーキャンセル信号を生成する除去手段と、 前記音源信号と前記音響ェコ—キャンセル信号と前記供給手段が保持 している現時点のイ ンパルス応答を用いて継続的にィ ンパルス応答を更新 し、 更新されたインパルス応答を前記供給手段に供給する更新手段と、 前記音響エコーキャンセル信号の時間情報および周波数情報を利用し て、 マイク入力信号に音声が含まれているか否かをフレーム毎に判定する 判定手段と、
1つ以上のインパルス応答を保存する保存手段と、
前記判定手段の判定結果が否定判定のフレームでは前記供給手段が保 持している現時点のィンパルス応答を前記保存手段に保存し、 肯定判定の フレームでは前記保存手段に保存されているィンパルス応答の 1つを取り 出して、 前記供給手段に供給する制御手段と
を具えたことを特徴とする音声処理装置。
2 . 請求の範囲第 1項に記載の音声処理装置において、 前記音響エコー がキャンセルされた後の信号を音声認識に用いることを特徴とする音声処 理装置。
3 . 請求の範囲第 2項に記載の音声処理装置において、 前記音響エコーが キヤンセルされた後の信号から、 フーリェ変換によ り各フレーム毎にスぺ ク トルを求める手段と、 当該得られたスぺク トルに基づき各フレーム毎に 連続的にスぺク トル平均を求める手段と、 当該得られたスぺク トル平均を 前記音響エコーがキャンセルされた後の信号から各フレーム毎に計算され たスぺク トルから連続的に減算することにより、 音源未知の加法性雑音を 除去する手段とをさらに具えたことを特徴とする音声処理装置。
4 . 請求の範囲第 2項に記載の音声処理装置において、 前記音響エコーが キヤンセルされた後の信号から、 フーリェ変換によ り各フレーム毎にスぺ ク トルを求める手段と、 当該得られたスぺク トルから各フレーム毎に連続 的にスぺク トル平均を求める手段と、 当該得られたスぺク トル平均を前記 音響エコーがキヤンセルされた後の信号から各フレーム毎に計算されたス ベク トルを連続的に減算する手段と、 当該減算する手段により、 音源未知 の加法性雑音が除去されたスぺク トルからケプス トラムを求める手段と、 当該得られたケプス トラムの音声フレームのケプス トラム平均および非音 声フレームのケプス トラム平均を話者毎に別々に求める手段と、 話者毎に 音声フレームのケプス トラムからはその話者の音声フレームのケプス トラ ム平均を減算し、 非音声フレームのケプス トラムからはその話者の非音声 フレームのケプストラム平均を減算して、 マイク特性や口からマイクまで の空間伝達特性に依存する乗法性歪みを補正する手段をさらに具えたこと を特徴とする音声処理装置。
5 . 請求の範囲第 2項に記載の音声処理装置において、 前記音響エコーが キャンセルされた後の信号から、 フーリェ変換によ り各フレーム毎にスぺ ク トルを求める手段と、 当該得られたスぺク トルからケプス トラムを求め る手段と、 当該得られたケプス トラムの音声フレームのケプス トラム平均 および非音声フレームのケプス トラム平均を話者毎に別々に求める手段と、 話者毎に音声フレームのケプス トラムからはその話者の音声フレームのケ ブス トラム平均を減算し、 非音声フレームのケプス トラムからはその話者 の非音声フレームのケプス トラム平均を減算することによ り、 マイク特性 や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段 とをさらに具えたことを特徴とする。
6 . フ一リェ変換により各フレーム毎にスぺク トルを求める手段と、 当該得られたスぺク トルからケプス トラムを求める手段と、
当該得られたケプス トラムの音声フレームのケプス トラム平均および非 音声フレームのケプス トラム平均を話者毎に別々に求める手段と、
話者毎に音声フレームのケプス トラムからはその話者の音声フレームの ケプス ト ラム平均を減算し、 非音声フレームのケプス ト ラムからはその話 者の非音声フレームのケプス トラム平均を減算することによ りマイク特性 や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段 と
を具えたことを特徴とする音声処理装置。
7 . 音響エコーの伝達経路を模擬する現時点のィンパルス応答および音 源信号に基づき疑似音響ェコー信号を生成する生成ステップと、
現時点のィンパルス応答を保持し、 前記生成手段に供給する供給ステツ プと、
マイク入力信号から前記疑似音響ェコー信号を減算することによ り音 響エコー成分を除まし、 音響エコーキャンセル信号を生成する除去ステツ プと、
前記音源信号と前記音響ェコーキャンセル信号と前記供給ステップで 保持している現時点のイ ンパルス応答を用いて继続的にインパルス応答を 更新し、 更新されたイ ンパルス応答を前記供給ステップに供給する更新ス テツプと、 前記音響ェコーキャンセル信号の時間情報および周波数情報を利用し て、 マイク入力信号に音声が含まれているか否かをフレーム毎に判定する 判定ステップと、
1つ以上のィンパルス応答を保存する保存ステツプと、
前記判定ステップの判定結果が否定判定のフレ—ムでは前記供給ステッ プが保持している現時点のィンパルス応答を前記保存ステツプで保存し、 肯定判定のフレームでは前記保存ステツプで保存されているィンパルス応 答の 1つを取り出して、 前記供給ステツプに供給する制御ステツプと
を具えたことを特徴とする音声処理方法。
8 . 請求の範囲第 7項に記載の音声処理方法において、 前記音響エコー がキャンセルされた後の信号を音声認識に用いることを特徴とする音声処 理方法。
9 . 請求の範囲第 8項に記載の音声処理方法において、 前記音響エコーが キャンセルされた後の信号から、 フーリエ変換により各フレーム毎にスぺ ク トルを求めるステップと、 当該得られたスぺク トルに基づき各フレーム 毎に連続的にスぺク トル平均を求めるステップと、 当該得られたスぺク ト ル平均を前記音響エコーがキャンセルされた後の信号から各フレーム毎に 計算されたスぺク トルを連続的に減算することにより、 音源未知の加法性 雑音を除去するステツプとをさらに具えたことを特徴とする音声処理方法。
1 0 . 請求の範囲第 8項に記載の音声処理方法において、 前記音響エコー がキヤンセルされた後の信号から、 フーリェ変換により各フレーム毎にス ぺク トルを求めるステツプと、 当該得られたスぺク トルから各フレーム毎 に連続的にスぺク トル平均を求めるステツプと、 当該得られたスぺク トル 平均を前記音響エコーがキャンセルされた後の信号から各フレーム毎に計 算されたスぺク トルから連続的に減算することによ り、 音源未知の加法性 雑音を除去するステツプと、 当該加法性雑音が除去されたスぺク トルから ケプス トラムを求めるステップと、 当該得られたケプス トラムの音声フレ 一ムのケブス トラム平均および非音声フレームのケプス トラム平均を話者 毎に別々に求めるステツプと、 話者毎に音声フレームのケプス トラムから はその話者の音声フレームのケプス トラム平均を減算し、 非音声フレーム のケブス トラムからはその話者の非音声フレームのケプス トラム平均を減 算して、 マイク特性や口からマイクまでの空間伝達特性に依存する乗法性 歪みを補正するステツプをさらに具えたことを特徴とする音声処理方法。
1 1 . 請求の範囲第 8項に記載の音声処理方法において、 前記音響エコー がキヤンセルされた後の信号から、 フーリェ変換によ り各フレーム毎にス ぺク トルを求めるステップと、 当該得られたスぺク トルからケプス トラム を求めるステップと、 当該得られたケプス トラムの音声フレームのケプス トラム平均および非音声フレームのケプス トラム平均を話者毎に別々に求 めるステップと、 話者毎に音声フレームのケプス トラムからはその話者の 音声フレームのケプストラム平均を減算し、 その話者の非音声フレームの ケプス トラムからは非音声フレームのケプストラム平均を減算することに よ り、 マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪 みを補正するステツプとをさらに具えたことを特徴とする音声処理方法。
1 2 . フーリエ変換により各フレーム毎にスぺク トルを求めるステップと、 当該得られたスぺク トルからからケプストラムを求めるステツプと、 当該得られたケプストラムの音声フレームのケプス トラム平均および非 音声フレームのケプス トラム平均を話者毎に別々に求めるステツプと、 話者毎に音声フレームのケプス トラムからはその話者の音声フレームの ケプス トラム平均を減算し、 非音声フレームのケプス トラムからはその話 者の非音声フレームのケプス トラム平均を減算することによりマイク特性 や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正するステツ プと
を具えたことを特徴とする音声処理方法。
PCT/JP1998/000915 1997-03-06 1998-03-05 Procede et dispositif de traitement de la parole WO1998039946A1 (fr)

Priority Applications (6)

Application Number Priority Date Filing Date Title
US09/380,563 US7440891B1 (en) 1997-03-06 1998-03-05 Speech processing method and apparatus for improving speech quality and speech recognition performance
JP53837498A JP3229335B2 (ja) 1997-03-06 1998-03-05 音声処理装置および方法
EP98905778A EP0969692B1 (en) 1997-03-06 1998-03-05 Device and method for processing speech
AU61203/98A AU6120398A (en) 1997-03-06 1998-03-05 Device and method for processing speech
KR10-1999-7008065A KR100382024B1 (ko) 1997-03-06 1998-03-05 음성 처리 장치 및 방법
AT98905778T ATE509477T1 (de) 1997-03-06 1998-03-05 Gerät und verfahren zur sprachverarbeitung

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP9/51577 1997-03-06
JP9051577A JPH10257583A (ja) 1997-03-06 1997-03-06 音声処理装置およびその音声処理方法

Publications (1)

Publication Number Publication Date
WO1998039946A1 true WO1998039946A1 (fr) 1998-09-11

Family

ID=12890808

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1998/000915 WO1998039946A1 (fr) 1997-03-06 1998-03-05 Procede et dispositif de traitement de la parole

Country Status (8)

Country Link
US (1) US7440891B1 (ja)
EP (1) EP0969692B1 (ja)
JP (2) JPH10257583A (ja)
KR (1) KR100382024B1 (ja)
CN (2) CN100512510C (ja)
AT (1) ATE509477T1 (ja)
AU (1) AU6120398A (ja)
WO (1) WO1998039946A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804643B1 (en) 1999-10-29 2004-10-12 Nokia Mobile Phones Ltd. Speech recognition
WO2009110574A1 (ja) * 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体
CN109389990A (zh) * 2017-08-09 2019-02-26 2236008安大略有限公司 加强语音的方法、系统、车辆和介质

Families Citing this family (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4554044B2 (ja) * 1999-07-28 2010-09-29 パナソニック株式会社 Av機器用音声認識装置
GB2364121B (en) * 2000-06-30 2004-11-24 Mitel Corp Method and apparatus for locating a talker
JP2004506944A (ja) * 2000-08-15 2004-03-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 共通エコー相殺機能を備える複数装置型オーディオ/ビデオ
DE10040466C2 (de) * 2000-08-18 2003-04-10 Bosch Gmbh Robert Verfahren zur Steuerung einer Spracheingabe und -ausgabe
US6771769B2 (en) * 2000-12-28 2004-08-03 Richard Henry Erving Method and apparatus for active reduction of speakerphone singing
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) * 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
JP4530587B2 (ja) * 2001-07-30 2010-08-25 株式会社リコー 放送受信装置
CN100477705C (zh) * 2002-07-01 2009-04-08 皇家飞利浦电子股份有限公司 音频增强系统、配有该系统的系统、失真信号增强方法
JP3922997B2 (ja) * 2002-10-30 2007-05-30 沖電気工業株式会社 エコーキャンセラ
JP2005148199A (ja) * 2003-11-12 2005-06-09 Ricoh Co Ltd 情報処理装置、画像形成装置、プログラム、及び記憶媒体
JP4333369B2 (ja) * 2004-01-07 2009-09-16 株式会社デンソー 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals
JP4283212B2 (ja) * 2004-12-10 2009-06-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 雑音除去装置、雑音除去プログラム、及び雑音除去方法
JP4297055B2 (ja) * 2005-01-12 2009-07-15 ヤマハ株式会社 カラオケ装置
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
DE102005043641A1 (de) * 2005-05-04 2006-11-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Generierung und Bearbeitung von Toneffekten in räumlichen Tonwiedergabesystemen mittels einer graphischen Benutzerschnittstelle
KR100784456B1 (ko) 2005-12-08 2007-12-11 한국전자통신연구원 Gmm을 이용한 음질향상 시스템
KR101151746B1 (ko) 2006-01-02 2012-06-15 삼성전자주식회사 오디오 신호용 잡음제거 방법 및 장치
US7877255B2 (en) * 2006-03-31 2011-01-25 Voice Signal Technologies, Inc. Speech recognition using channel verification
DE102006020832B4 (de) * 2006-05-04 2016-10-27 Sivantos Gmbh Verfahren zum Unterdrücken von Rückkopplungen bei Hörvorrichtungen
US8094838B2 (en) * 2007-01-15 2012-01-10 Eastman Kodak Company Voice command of audio emitting device
US8195454B2 (en) * 2007-02-26 2012-06-05 Dolby Laboratories Licensing Corporation Speech enhancement in entertainment audio
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US8140331B2 (en) * 2007-07-06 2012-03-20 Xia Lou Feature extraction for identification and classification of audio signals
US7987090B2 (en) * 2007-08-09 2011-07-26 Honda Motor Co., Ltd. Sound-source separation system
US7907977B2 (en) * 2007-10-02 2011-03-15 Agere Systems Inc. Echo canceller with correlation using pre-whitened data values received by downlink codec
JP5229234B2 (ja) * 2007-12-18 2013-07-03 富士通株式会社 非音声区間検出方法及び非音声区間検出装置
US20090287489A1 (en) * 2008-05-15 2009-11-19 Palm, Inc. Speech processing for plurality of users
JP5200737B2 (ja) * 2008-07-30 2013-06-05 船井電機株式会社 差動マイクロホンユニット
EP2237271B1 (en) 2009-03-31 2021-01-20 Cerence Operating Company Method for determining a signal component for reducing noise in an input signal
BR112012008671A2 (pt) 2009-10-19 2016-04-19 Ericsson Telefon Ab L M método para detectar atividade de voz de um sinal de entrada recebido, e, detector de atividade de voz
US8447595B2 (en) * 2010-06-03 2013-05-21 Apple Inc. Echo-related decisions on automatic gain control of uplink speech signal in a communications device
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
KR20130091910A (ko) * 2012-02-09 2013-08-20 한국전자통신연구원 광대역 어커스틱 에코 제거 장치 및 방법
CN103839551A (zh) * 2012-11-22 2014-06-04 鸿富锦精密工业(深圳)有限公司 音频处理系统与音频处理方法
WO2014137341A1 (en) * 2013-03-07 2014-09-12 Nuance Communications, Inc. Method for training an automatic speech recognition system
US10424292B1 (en) 2013-03-14 2019-09-24 Amazon Technologies, Inc. System for recognizing and responding to environmental noises
CN104050971A (zh) 2013-03-15 2014-09-17 杜比实验室特许公司 声学回声减轻装置和方法、音频处理装置和语音通信终端
US20140358552A1 (en) * 2013-05-31 2014-12-04 Cirrus Logic, Inc. Low-power voice gate for device wake-up
US9831843B1 (en) 2013-09-05 2017-11-28 Cirrus Logic, Inc. Opportunistic playback state changes for audio devices
US9633671B2 (en) * 2013-10-18 2017-04-25 Apple Inc. Voice quality enhancement techniques, speech recognition techniques, and related systems
US9525940B1 (en) 2014-03-05 2016-12-20 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9774342B1 (en) * 2014-03-05 2017-09-26 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system
US9306588B2 (en) 2014-04-14 2016-04-05 Cirrus Logic, Inc. Switchable secondary playback path
US10149047B2 (en) * 2014-06-18 2018-12-04 Cirrus Logic Inc. Multi-aural MMSE analysis techniques for clarifying audio signals
US10785568B2 (en) 2014-06-26 2020-09-22 Cirrus Logic, Inc. Reducing audio artifacts in a system for enhancing dynamic range of audio signal path
US9596537B2 (en) 2014-09-11 2017-03-14 Cirrus Logic, Inc. Systems and methods for reduction of audio artifacts in an audio system with dynamic range enhancement
US9503027B2 (en) 2014-10-27 2016-11-22 Cirrus Logic, Inc. Systems and methods for dynamic range enhancement using an open-loop modulator in parallel with a closed-loop modulator
US9973633B2 (en) 2014-11-17 2018-05-15 At&T Intellectual Property I, L.P. Pre-distortion system for cancellation of nonlinear distortion in mobile devices
US9607627B2 (en) * 2015-02-05 2017-03-28 Adobe Systems Incorporated Sound enhancement through deverberation
US9584911B2 (en) 2015-03-27 2017-02-28 Cirrus Logic, Inc. Multichip dynamic range enhancement (DRE) audio processing methods and apparatuses
US9959856B2 (en) 2015-06-15 2018-05-01 Cirrus Logic, Inc. Systems and methods for reducing artifacts and improving performance of a multi-path analog-to-digital converter
JP6532021B2 (ja) * 2015-09-29 2019-06-19 本田技研工業株式会社 音声処理装置及び音声処理方法
US9955254B2 (en) 2015-11-25 2018-04-24 Cirrus Logic, Inc. Systems and methods for preventing distortion due to supply-based modulation index changes in an audio playback system
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
US9543975B1 (en) 2015-12-29 2017-01-10 Cirrus Logic, Inc. Multi-path analog front end and analog-to-digital converter for a signal processing system with low-pass filter between paths
US9880802B2 (en) 2016-01-21 2018-01-30 Cirrus Logic, Inc. Systems and methods for reducing audio artifacts from switching between paths of a multi-path signal processing system
KR20170003257U (ko) 2016-03-10 2017-09-20 김복임 기능성 골프옷 가방
US10251002B2 (en) * 2016-03-21 2019-04-02 Starkey Laboratories, Inc. Noise characterization and attenuation using linear predictive coding
US9998826B2 (en) 2016-06-28 2018-06-12 Cirrus Logic, Inc. Optimization of performance and power in audio system
US10545561B2 (en) 2016-08-10 2020-01-28 Cirrus Logic, Inc. Multi-path digitation based on input signal fidelity and output requirements
US10263630B2 (en) 2016-08-11 2019-04-16 Cirrus Logic, Inc. Multi-path analog front end with adaptive path
US9813814B1 (en) 2016-08-23 2017-11-07 Cirrus Logic, Inc. Enhancing dynamic range based on spectral content of signal
US9762255B1 (en) 2016-09-19 2017-09-12 Cirrus Logic, Inc. Reconfiguring paths in a multiple path analog-to-digital converter
US9780800B1 (en) 2016-09-19 2017-10-03 Cirrus Logic, Inc. Matching paths in a multiple path analog-to-digital converter
US9929703B1 (en) 2016-09-27 2018-03-27 Cirrus Logic, Inc. Amplifier with configurable final output stage
US9967665B2 (en) 2016-10-05 2018-05-08 Cirrus Logic, Inc. Adaptation of dynamic range enhancement based on noise floor of signal
JP6677662B2 (ja) * 2017-02-14 2020-04-08 株式会社東芝 音響処理装置、音響処理方法およびプログラム
US10321230B2 (en) 2017-04-07 2019-06-11 Cirrus Logic, Inc. Switching in an audio system with multiple playback paths
US10008992B1 (en) 2017-04-14 2018-06-26 Cirrus Logic, Inc. Switching in amplifier with configurable final output stage
US9917557B1 (en) 2017-04-17 2018-03-13 Cirrus Logic, Inc. Calibration for amplifier with configurable final output stage
EP3425923B1 (en) * 2017-07-06 2024-05-08 GN Audio A/S Headset with reduction of ambient noise
CN107358963A (zh) * 2017-07-14 2017-11-17 中航华东光电(上海)有限公司 一种实时去呼吸声装置及方法
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
DK3484173T3 (en) * 2017-11-14 2022-07-11 Falcom As Hearing protection system with own voice estimation and related methods
JP6948609B2 (ja) * 2018-03-30 2021-10-13 パナソニックIpマネジメント株式会社 騒音低減装置
CN109346074B (zh) * 2018-10-15 2020-03-03 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN111261179A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 回声消除方法及装置和智能设备
EP3667662B1 (en) * 2018-12-12 2022-08-10 Panasonic Intellectual Property Corporation of America Acoustic echo cancellation device, acoustic echo cancellation method and acoustic echo cancellation program
JP6635394B1 (ja) * 2019-01-29 2020-01-22 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
WO2021041741A1 (en) * 2019-08-30 2021-03-04 Dolby Laboratories Licensing Corporation Pre-conditioning audio for machine perception
CN114650340B (zh) * 2022-04-21 2024-07-02 深圳市中科蓝讯科技股份有限公司 一种回声消除方法、装置及电子设备
CN115223011A (zh) * 2022-07-08 2022-10-21 广东省智能网联汽车创新中心有限公司 一种智能驾驶场景的对抗样本生成方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6318797A (ja) * 1986-07-10 1988-01-26 Matsushita Electric Ind Co Ltd ハウリング抑圧装置
JPH0766757A (ja) * 1993-08-30 1995-03-10 Nippon Telegr & Teleph Corp <Ntt> エコーキャンセル方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5629296A (en) 1979-08-17 1981-03-24 Nippon Telegraph & Telephone Standard pattern input system for voice identification
JPH0648440B2 (ja) 1982-05-15 1994-06-22 松下電工株式会社 音声特徴抽出装置
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JPH02107236A (ja) 1988-10-18 1990-04-19 Yokogawa Medical Syst Ltd 超音波診断用探触子
JPH02244096A (ja) 1989-03-16 1990-09-28 Mitsubishi Electric Corp 音声認識装置
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
NL9001016A (nl) * 1990-04-27 1991-11-18 Philips Nv Digitale echocompensator met een dubbelspraakdetector.
JPH04230798A (ja) 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd 雑音予測装置
US5250691A (en) 1991-09-09 1993-10-05 E. R. Squibb & Sons, Inc. Heteroaryl derivatives of monocyclic beta-lactam antibiotics
JPH0567244A (ja) 1991-09-09 1993-03-19 Matsushita Electric Ind Co Ltd 情報処理装置
JPH05102887A (ja) 1991-10-03 1993-04-23 Toshiba Corp 音響エコーキヤンセラ
JP2538176B2 (ja) * 1993-05-28 1996-09-25 松下電器産業株式会社 エコ―制御装置
US5475791A (en) * 1993-08-13 1995-12-12 Voice Control Systems, Inc. Method for recognizing a spoken word in the presence of interfering speech
GB2281680B (en) * 1993-08-27 1998-08-26 Motorola Inc A voice activity detector for an echo suppressor and an echo suppressor
JP2737624B2 (ja) * 1993-12-27 1998-04-08 日本電気株式会社 音声認識装置
JP2953954B2 (ja) 1994-05-06 1999-09-27 エヌ・ティ・ティ移動通信網株式会社 ダブルトーク検出装置およびエコーキャンセラ
US5727124A (en) 1994-06-21 1998-03-10 Lucent Technologies, Inc. Method of and apparatus for signal recognition that compensates for mismatching
JPH08123465A (ja) 1994-10-27 1996-05-17 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの適応化法
US6001131A (en) * 1995-02-24 1999-12-14 Nynex Science & Technology, Inc. Automatic target noise cancellation for speech enhancement
JP3381112B2 (ja) * 1995-03-09 2003-02-24 ソニー株式会社 エコー除去装置
US6263307B1 (en) * 1995-04-19 2001-07-17 Texas Instruments Incorporated Adaptive weiner filtering using line spectral frequencies
FI110826B (fi) * 1995-06-08 2003-03-31 Nokia Corp Akustisen kaiun poisto digitaalisessa matkaviestinjärjestelmässä
JP2748109B2 (ja) 1995-08-07 1998-05-06 八重洲無線株式会社 通信圏内外自動判別方式
JPH0956018A (ja) 1995-08-10 1997-02-25 Toshiba Corp 電力用開閉装置の動作監視装置
JP3397568B2 (ja) 1996-03-25 2003-04-14 キヤノン株式会社 音声認識方法及び装置
US5742694A (en) * 1996-07-12 1998-04-21 Eatwell; Graham P. Noise reduction filter
JPH10105191A (ja) 1996-09-30 1998-04-24 Toshiba Corp 音声認識装置及びマイクロホン周波数特性変換方法
EP0954854A4 (en) * 1996-11-22 2000-07-19 T Netix Inc PARTIAL VALUE-BASED SPEAKER VERIFICATION BY UNIFYING DIFFERENT CLASSIFIERS USING CHANNEL, ASSOCIATION, MODEL AND THRESHOLD ADAPTATION

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6318797A (ja) * 1986-07-10 1988-01-26 Matsushita Electric Ind Co Ltd ハウリング抑圧装置
JPH0766757A (ja) * 1993-08-30 1995-03-10 Nippon Telegr & Teleph Corp <Ntt> エコーキャンセル方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6804643B1 (en) 1999-10-29 2004-10-12 Nokia Mobile Phones Ltd. Speech recognition
WO2009110574A1 (ja) * 2008-03-06 2009-09-11 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体
JP5124014B2 (ja) * 2008-03-06 2013-01-23 日本電信電話株式会社 信号強調装置、その方法、プログラム及び記録媒体
US8848933B2 (en) 2008-03-06 2014-09-30 Nippon Telegraph And Telephone Corporation Signal enhancement device, method thereof, program, and recording medium
CN109389990A (zh) * 2017-08-09 2019-02-26 2236008安大略有限公司 加强语音的方法、系统、车辆和介质
CN109389990B (zh) * 2017-08-09 2023-09-26 黑莓有限公司 加强语音的方法、系统、车辆和介质

Also Published As

Publication number Publication date
KR100382024B1 (ko) 2003-04-26
EP0969692A1 (en) 2000-01-05
KR20000075980A (ko) 2000-12-26
EP0969692B1 (en) 2011-05-11
US7440891B1 (en) 2008-10-21
EP0969692A4 (en) 2005-03-09
ATE509477T1 (de) 2011-05-15
JP3229335B2 (ja) 2001-11-19
CN1159948C (zh) 2004-07-28
CN1545368A (zh) 2004-11-10
JPH10257583A (ja) 1998-09-25
CN1249889A (zh) 2000-04-05
CN100512510C (zh) 2009-07-08
AU6120398A (en) 1998-09-22

Similar Documents

Publication Publication Date Title
JP3229335B2 (ja) 音声処理装置および方法
US11017798B2 (en) Dynamic noise suppression and operations for noisy speech signals
Hirsch et al. A new approach for the adaptation of HMMs to reverberation and background noise
US20090117948A1 (en) Method for dereverberation of an acoustic signal
US6606595B1 (en) HMM-based echo model for noise cancellation avoiding the problem of false triggers
Garg et al. A comparative study of noise reduction techniques for automatic speech recognition systems
WO2006114101A1 (en) Detection of speech present in a noisy signal and speech enhancement making use thereof
EP4128225B1 (en) Noise supression for speech enhancement
Haton Automatic speech recognition: A Review
Shozakai et al. Robust speech recognition in car environments
US20050182621A1 (en) Automatic speech recognition channel normalization
Haton Automatic recognition of noisy speech
Shozakai et al. A speech enhancement approach E-CMN/CSS for speech recognition in car environments
Pacheco et al. Spectral subtraction for reverberation reduction applied to automatic speech recognition
Hong et al. Adaptive microphone array processing for high-performance speech recognition in car environment
Ding et al. Robust mandarin speech recognition in car environments for embedded navigation system
Lee et al. Signal and feature domain enhancement approaches for robust speech recognition
Kim et al. Speech enhancement via Mel-scale Wiener filtering with a frequency-wise voice activity detector
Ichikawa et al. Simultaneous adaptation of echo cancellation and spectral subtraction for in-car speech recognition
Jeong et al. Dual microphone-based speech enhancement by spectral classification and Wiener filtering
Sivadas Time-Frequency Averaging of Noise Compensation Filters for ASR
Shiota et al. Distant-talking speech recognition using multi-channel LMS and multiple-step linear prediction
Ding et al. A noise robust front-end with low computational cost for embedded in-car speech recognition
Mokbel et al. Comparison of several preprocessing techniques for robust speech recognition over both PSN and GSM networks
Ding et al. Robust technologies towards automatic speech recognition in car noise environments

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 98803137.X

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GE GH GM GW HU ID IL IS JP KE KG KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 09380563

Country of ref document: US

Ref document number: 1998905778

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 1019997008065

Country of ref document: KR

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1998905778

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: CA

WWP Wipo information: published in national office

Ref document number: 1019997008065

Country of ref document: KR

WWR Wipo information: refused in national office

Ref document number: 1019997008065

Country of ref document: KR