WO2009110574A1 - 信号強調装置、その方法、プログラム及び記録媒体 - Google Patents
信号強調装置、その方法、プログラム及び記録媒体 Download PDFInfo
- Publication number
- WO2009110574A1 WO2009110574A1 PCT/JP2009/054215 JP2009054215W WO2009110574A1 WO 2009110574 A1 WO2009110574 A1 WO 2009110574A1 JP 2009054215 W JP2009054215 W JP 2009054215W WO 2009110574 A1 WO2009110574 A1 WO 2009110574A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- signal
- value
- parameter
- estimated value
- noise
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 151
- 230000008569 process Effects 0.000 claims abstract description 110
- 238000001228 spectrum Methods 0.000 claims abstract description 84
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 146
- 238000012545 processing Methods 0.000 claims description 129
- 239000011159 matrix material Substances 0.000 claims description 121
- 238000009826 distribution Methods 0.000 claims description 89
- 230000001629 suppression Effects 0.000 claims description 65
- 238000003860 storage Methods 0.000 claims description 58
- 230000017105 transposition Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 72
- 230000005540 biological transmission Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 14
- 230000003595 spectral effect Effects 0.000 description 12
- 239000000654 additive Substances 0.000 description 9
- 230000000996 additive effect Effects 0.000 description 9
- 230000002194 synthesizing effect Effects 0.000 description 9
- 238000007476 Maximum Likelihood Methods 0.000 description 8
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000013179 statistical model Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008685 targeting Effects 0.000 description 3
- 101100425597 Solanum lycopersicum Tm-1 gene Proteins 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Definitions
- the present invention relates to a technique for emphasizing a source signal by suppressing additive distortion and multiplicative distortion in an observation signal.
- FIG. 1 is a block diagram showing a general configuration of a signal enhancement device.
- the waveform signal of the observation voice in the time domain obtained from a sensor such as a microphone or a voice file and sampled and quantized is input to the band dividing unit.
- These observation signals in the time domain are divided into narrowband signals for each frequency band in the band dividing unit. That is, the observation signal in the time domain is converted into the observation signal in the time frequency domain.
- a set of observation signals divided for each frequency band is referred to as a complex spectrogram of the observation signals.
- the band dividing unit performs this processing by conventional techniques such as short-time Fourier transform and polyphase filter bank.
- a region expressing a signal is not specified, it is interpreted as a time frequency region.
- some parameter characterizing the observation signal is estimated from the complex spectrogram of the observation signal.
- parameters are parameters of an all-pole model that describes the power spectrum of the source signal or noise, and regression coefficients of an autoregressive model that describes the indoor transmission system.
- the source signal estimation unit calculates the estimated value of the complex spectrogram of the source signal using the complex spectrogram of the observed signal and the estimated value of the parameter.
- the band synthesis unit synthesizes the estimated value of the source signal in the time domain from the estimated value of the complex spectrogram of the source signal.
- the processing of the band synthesizing unit corresponds to the processing of the band dividing unit. That is, if the band dividing unit performs short-time Fourier transform, the band synthesizing unit performs overlap addition synthesis, and if the band dividing unit performs polyphase filter bank analysis, the band synthesizing unit performs polyphase filter bank Perform synthesis. When the band dividing unit is omitted, the band synthesizing unit is also omitted.
- Non-Patent Document 1 Conventional speech signal enhancement techniques are intended for an environment where only noise other than the source signal exists (for example, see Non-Patent Document 1), and for an environment where only reverberation exists other than the source signal. Broadly classified (see, for example, Non-Patent Document 2).
- the former suppresses noise from an observation signal including noise in addition to the source signal.
- the latter suppresses reverberation from observation signals including reverberation in addition to the source signal.
- the speech signal enhancement techniques proposed in Non-Patent Documents 1 and 2 will be described below. In the following description, the symbols “ ⁇ ”, “ ⁇ ”, etc. used in the text should be described immediately above the character, but are described immediately after the character due to restrictions on the text notation.
- Non-Patent Document 1 proposes a noise suppression technique for suppressing noise from an observation signal obtained by adding noise to a source signal. The processing of each processing unit disclosed in Non-Patent Document 1 will be described below.
- the band dividing unit of Non-Patent Document 1 divides the observed signal into narrowband signals for each frequency band by short-time Fourier transform. Further, the parameter estimation unit of Non-Patent Document 1 uses the signal source parameter s ⁇ of the all-pole model of the source signal and the noise parameter d of the noise model as characteristics of the observation signal, that is, a signal in which noise is superimposed on the source signal. Estimate ⁇ .
- Non-Patent Document 1 first, the source signal using the observed signal is nonexistent time interval, - the true value d theta noise parameters are calculated (step S101). Next, an initial value s ⁇ ⁇ (0) of the signal source parameter estimated value is set (step S102). Also, the index i indicating the number of repetitions is set to 0 (step S103).
- step S104 using the true value d theta - the estimates s ⁇ ⁇ (i) and the noise parameter of the signal source parameter, the true value d theta combination of ⁇ estimates s ⁇ ⁇ (i) and noise parameters of the source parameters And a conditional posterior distribution p (S
- Step S105 uses the conditional posterior distribution p (S
- the source signal estimator uses the parameters d ⁇ ⁇ and s ⁇ ⁇ calculated by the parameter estimator to obtain an estimate of the complex spectrogram of the source signal using the Wiener filter, and the band synthesizer By the addition synthesis, the estimated value of the complex spectrogram is converted into the estimated value of the source signal in the time domain.
- Non-Patent Document 2 proposes a reverberation suppression technique for suppressing reverberation from an observation signal in which reverberation is superimposed on a source signal. The processing of each processing unit disclosed in Non-Patent Document 2 will be described below.
- Non-Patent Document 2 In the dereverberation technique disclosed in Non-Patent Document 2, no band division process is performed. Therefore, the parameter estimation unit and the source signal estimation unit of Non-Patent Document 2 directly process the time domain observation signal.
- the parameter estimation unit estimates a signal source parameter s ⁇ and a reverberation parameter g ⁇ as parameters that characterize an observation signal, that is, a signal in which reverberation is superimposed on the source signal.
- the reverberation parameter in Non-Patent Document 2 is a regression coefficient of a linear filter that is applied to an observation signal in a time domain in which only reverberation is superimposed on a source signal and calculates reverberation superimposed on the observation signal.
- an initial value g ⁇ ⁇ (0) of an estimated value of a reverberation parameter is set (step S111). Also, an index i indicating the number of repetitions is set to 0 (step S112).
- the estimated value g ⁇ ⁇ (i) of the reverberation parameter is used to update the estimated value of the signal source parameter to s ⁇ ⁇ (i + 1) (step S113).
- the estimated value s ⁇ ⁇ (i + 1) of the updated signal source parameter is used to update the estimated value of the reverberation parameter to g ⁇ ⁇ (i + 1) (step S114).
- the processing of steps S113 and S114 is repeated, and the signal source parameter at the time when the predetermined end condition is satisfied is determined.
- Estimated values s ⁇ ⁇ (i + 1) are the final estimated values s ⁇ ⁇ of the source parameters, and final reverberation parameter estimated values g ⁇ ⁇ (i + 1) are the final estimated values g ⁇ ⁇ Output (step S117).
- the source signal estimator convolves the observed signal with the linear filter generated using the final estimated value g ⁇ ⁇ of the reverberation parameter calculated by the parameter estimator, and calculates the speech signal that emphasizes the source signal component. Output.
- the source signal estimator estimates the reverberation contained in the observed signal by convolving the linear filter generated using the final estimated value g ⁇ ⁇ of the reverberation parameter calculated by the parameter estimator, By subtracting it from the observation signal, a signal with reverberation suppressed is calculated and output.
- each indoor impulse response is convoluted by a reverberation superimposition system (indoor transmission system) with respect to a signal that does not contain noise or reverberation (referred to as a “source signal”) emitted from a signal source 1010 such as a speaker.
- source signal a signal that does not contain noise or reverberation
- reverberation is added.
- noise is added to the signal to which reverberation is added (referred to as a “reverberation superimposed signal”) by a noise superimposing system.
- a signal including noise and reverberation (referred to as “noise reverberation superimposed signal”) is generated and observed by each sensor.
- the conventional reverberation suppression technique estimates a reverberation parameter and a signal source parameter when a reverberation superimposed signal is given, and then recovers the source signal based on the estimated reverberation parameter. Therefore, in order to perform the reverberation suppression process in the system of FIG. 2, it is necessary to obtain the reverberation superimposed signal by previously suppressing the noise from the noise reverberant superimposed signal by the noise suppression process. On the other hand, in order to effectively suppress noise from the noise reverberant signal in the system of FIG. 2, it is desirable that the characteristics of the reverberant signal are known.
- the characteristics of the reverberant superimposed signal are defined by the characteristics of the source signal (that is, the signal source parameter of the source signal) and the indoor transmission system (that is, the reverberation parameter), this is obtained by the reverberation suppression process. Therefore, in order to effectively enhance the source signal in the system of FIG. 2, it is necessary to operate the noise suppression process and the dereverberation process in a coordinated manner.
- the conventional noise suppression technique suppresses noise from an observation signal obtained by adding only noise to the source signal. Therefore, even if the conventional noise suppression technique is directly applied to the above-described noise suppression processing for suppressing noise from a noise reverberation superimposed signal including noise and reverberation, accurate noise suppression cannot be expected.
- multiplicative distortion is added by a linear convolution system to a signal that does not contain additive or multiplicative distortion emitted from a signal source, and the signal generated thereby is added with additional distortion.
- source signal a signal that does not contain additive distortion or multiplicative distortion generated from a signal source
- multiplicative distortion is applied to the source signal.
- a signal generated by adding additive distortion to the reverberant signal is a noise reverberant signal
- a linear convolution system that adds multiplicative distortion is The transmission system, additive distortion is called “noise”, and multiplicative distortion is called “reverberation”.
- an observation signal in the time-frequency domain converted from the observed time domain signal is stored in the recording unit, and an estimation value of reverberation included in the observation signal is calculated in the initialization unit.
- Reverberation parameter estimates including regression coefficients for linear convolution operations, source parameter estimates including linear prediction coefficients that identify the source signal power spectrum and estimated residual power, and noise power spectrum estimates Including the noise parameter estimation value and the initial value of the parameter estimation value including.
- the observed signal and the parameter estimated value are input to the first updating unit, and at the first updating unit, at least a part of the reverberation parameter estimated value and the noise parameter estimated value is updated, or the signal source parameter estimated value is updated.
- One of update processing is performed. The update process is executed so that the value of the log likelihood function related to the parameter estimation value increases.
- At least a part of the update value of the parameter estimation value obtained by the first update unit is input to the second update unit, and at the second update unit, at least a part of the reverberation parameter estimation value and the noise parameter estimation value is updated.
- the processing that has not been executed by the first updating unit is executed.
- the update process is executed so that the value of the log likelihood function related to the update value of the parameter estimation value increases.
- the end condition determination unit determines whether or not the end condition is satisfied. If the end condition is not satisfied, the processes of the first update unit and the second update unit are executed again.
- the parameter estimation value update processing in the first update unit and the parameter estimation value update processing in the second update unit are repeatedly executed while being dependent on each other.
- the noise and reverberation can be accurately suppressed from the observed signal in an environment where both noise and reverberation exist, and the source signal can be emphasized.
- FIG. 1 is a block diagram showing a general configuration of an audio signal enhancement device.
- FIG. 2 is a diagram for explaining a system in which noise and reverberation are added to a source signal.
- FIG. 3 is a block diagram illustrating a configuration of the signal enhancement device according to the first embodiment.
- FIG. 4 is a block diagram showing a detailed configuration of the source signal estimation unit.
- FIG. 5 is a flowchart for explaining the signal enhancement method of the first embodiment.
- FIG. 6 is a block diagram illustrating a configuration of the signal enhancement device according to the second embodiment.
- FIG. 7 is a block diagram showing a detailed configuration of the source signal estimation unit.
- FIG. 8 is a flowchart for explaining the signal enhancement method of the first embodiment.
- FIG. 1 is a block diagram showing a general configuration of an audio signal enhancement device.
- FIG. 2 is a diagram for explaining a system in which noise and reverberation are added to a source signal.
- FIG. 3 is a block diagram
- FIG. 9 is a block diagram illustrating a functional configuration example of the signal enhancement device according to the third embodiment.
- FIG. 10 is a flowchart for explaining the processing of the third embodiment.
- FIG. 11 is a block diagram illustrating a functional configuration example of a parameter estimation unit according to the fourth embodiment.
- FIG. 12 is a flowchart for explaining the parameter estimation processing of the fourth embodiment.
- the parameters of this embodiment include a reverberation parameter, a signal source parameter, and a noise parameter.
- the reverberation parameter includes at least a regression matrix when the indoor transmission system is modeled as a multichannel autoregressive system.
- the reverberation included in the reverberant superimposed signal is calculated.
- the source parameters include at least a linear prediction coefficient that characterizes the short-time power spectral density of the source signal and a predicted residual power.
- the noise parameter includes at least a short-time power cross spectrum matrix of noise.
- the parameter estimation unit of the present embodiment performs maximum likelihood estimation of the reverberation parameter, the signal source parameter, and the noise parameter using a variation of the EM algorithm such as the ECM algorithm.
- the parameter estimation unit of the present embodiment is expressed as follows, for example.
- the parameters of this embodiment are classified into two groups.
- the first parameter group includes at least reverberation parameters.
- the second parameter group includes at least a signal source parameter.
- the noise parameter may be included in either the first parameter group or the second parameter group, but is assumed to be included in the first parameter group in the present embodiment.
- the observation signal is stored in the storage unit.
- the initialization unit initializes the estimated value of the parameter of the first parameter group and the estimated value of the parameter of the second parameter group.
- the observation signal, the estimated value of the parameter of the first parameter group, and the estimated value of the parameter of the second parameter group are input to the first updating unit.
- the first updating unit fixes the estimated values of the parameters of one of the first parameter group and the second parameter group, and estimates at least some of the parameters of the remaining one parameter group. Update.
- the first updating unit updates the parameter estimation value so that the value of the log likelihood function related to the parameter estimation value is increased.
- the second updating unit fixes the estimated values of the parameters of the parameter group updated by the first updating unit, and updates the estimated values of at least some of the parameters of the parameter group fixed by the first updating unit. To do.
- the second updating unit updates the parameter estimation value so that the value of the log likelihood function related to the parameter estimation value is increased.
- the end determination condition part determines whether or not a predetermined end condition is satisfied. If the end condition is not satisfied, the process returns to the process of the first update unit. When the termination condition is satisfied, the estimated value of the parameter at that time is output.
- the second parameter group that is, the estimated value of the signal source parameter is updated in a state where the estimated value of the first parameter group, that is, the reverberation parameter is fixed.
- the first update process of the present embodiment includes a noise suppression process and a signal source parameter update process.
- ⁇ Noise suppression processing In the noise suppression processing, the average and covariance matrix of the complex normal distribution characterizing the conditional posterior distribution p of the reverberant superimposed signal (reverberated superimposed signal
- This processing can be interpreted as suppressing the noise included in the observation signal in that the conditional posterior distribution of the reverberant signal without noise is obtained from the observation signal. It should be noted that this noise suppression processing is performed using the reverberation parameter estimate and the signal source parameter estimate. This means that noise is suppressed while considering the characteristics of reverberation. As a result, noise suppression can be accurately performed in a reverberant environment.
- Update processing of signal source parameter estimated value the estimated value of the signal source parameter is updated using the estimated value of the reverberation parameter, the average of the conditional posterior distribution of the reverberant superimposed signal, and the covariance matrix.
- the estimated value of the signal source parameter is updated so that the value of the auxiliary function related to the estimated value of the parameter is maximized.
- the auxiliary function is a log-likelihood function related to the estimated value of the parameter when given the observed signal and the reverberant signal as a conditional posterior distribution p of the reverberant signal (reverberated signal
- the first parameter group that is, the estimated value of the reverberation parameter
- the second parameter group that is, the signal source parameter is fixed.
- the reverberation parameter estimate is updated such that the value of the auxiliary function for the parameter estimate is maximized.
- End condition judgment processing In the end condition determination process, it is determined whether or not a predetermined end condition is satisfied. If the end condition is not satisfied, the process returns to the first update process. If the termination condition is satisfied, the estimated value of the parameter at that time is output.
- the covariance matrix of the conditional posterior distribution of the reverberant superimposed signal monotonically increases with respect to the noise variance. That is, the greater the noise level, the larger the covariance matrix of the conditional posterior distribution of the reverberant signal. This indicates that the present embodiment evaluates the uncertainty of the reverberant signal obtained by the noise suppression processing by a reasonable method.
- the signal source parameter s ⁇ , the reverberation parameter g ⁇ , and the noise parameter d ⁇ need to be defined.
- the defined parameter ⁇ must be associated with the set Y of the noise reverberant signal that is the observed signal.
- the set Y of noise reverberant superimposed signals is a set of noise reverberant superimposed signals belonging to a predetermined observation section.
- the set Y of the noise reverberant signal of the present embodiment is a complex spectrogram of the noise reverberant signal.
- ⁇ ) of the set Y of the noise reverberation superimposed signal when the parameter ⁇ is given is formulated and this association is performed.
- the set Y of the noise reverberation superposition signal becomes the probability density function p (Y
- ⁇ ⁇ ) on the assumption of the true values of unknown parameters ⁇ ⁇ ⁇ s ⁇ ⁇ , g ⁇ ⁇ , d ⁇ ⁇ ⁇ It can be understood that the signal has a probability distribution represented by.
- the noise parameters d theta are estimated independently from the interval in which the source signal is not present, the estimate is assumed to be true value d theta ⁇ noise parameters. Therefore, the values estimated by the maximum likelihood estimation method are the true value s ⁇ ⁇ of the signal source parameter and the true value g ⁇ ⁇ of the reverberation parameter.
- the set X of reverberant superimposed signals is a set of reverberant superimposed signals belonging to a predetermined observation section.
- the set X of reverberant superimposed signals of the present embodiment is a complex spectrogram of the reverberant superimposed signals.
- ⁇ a t, 1 ,..., A t, P ⁇ and s ⁇ t 2 are the linear prediction coefficient and the prediction residual power when the source signal is subjected to linear prediction analysis, respectively.
- Z is a complex variable in z conversion, and e is the Napier number.
- ⁇ m ⁇ ⁇ 0 ⁇ ⁇ ⁇ M ⁇ 1 represents a set of M elements m 0 , m 1 ,..., M M ⁇ 1 .
- S t, w follows a complex normal distribution with mean 0 and variance s ⁇ t (2 ⁇ w / N) as follows.
- N C ⁇ x; ⁇ , ⁇ is a probability density function of a ⁇ -dimensional random variable x according to a complex normal distribution of mean ⁇ and covariance matrix ⁇ defined by the following equation.
- ⁇ H means complex conjugate transposition (Hermitian conjugate) of ⁇ .
- the regression coefficients of the autoregressive system in the w-th frequency band are set as g 1, w ,..., G Kw, w
- the discrete Fourier coefficients X t, w of the reverberant superimposed signal are generated by the following equation: .
- g k, w * is a complex conjugate value of g k, w .
- reverberation parameter g ⁇ ⁇ g kw ⁇ 1 ⁇ k ⁇ Kw ⁇ 0 ⁇ w ⁇ N ⁇ 1 is defined as the reverberation parameter g ⁇ .
- the reverberation parameter g theta is subjected to application of calculating the reverberation contained applied by reverberant superimposed signal to the reverberation superimposed signal in which only the reverberation is added to the original signal.
- the discrete Fourier coefficients of the noise and the noise reverberation superimposed signal in the t (0 ⁇ t ⁇ T ⁇ 1) -th frame and the w (0 ⁇ w ⁇ N ⁇ 1) -th frequency band are respectively D t , w and Y t, w .
- Y t, w is obtained by adding the noise D t, w to the reverberant superimposed signal X t, w .
- Y t, w X t, w + D t, w (7)
- D t, w satisfies the following condition. 1.
- Noise is stationary, and its power spectral density is d ⁇ ( ⁇ ) (because it is stationary and does not depend on frame number t), D t, w is a complex normal with mean 0 and variance d ⁇ (2 ⁇ w / N) follows the distribution.
- the probability density function of the noise reverberant superimposed signal is formulated.
- the complex spectrograms of the source signal, the reverberant superimposed signal, and the noise reverberant superimposed signal are expressed as S, X, and Y, respectively.
- ⁇ ⁇ ⁇ s ⁇ ⁇ , g ⁇ ⁇ , d ⁇ ⁇ ⁇ , And s ⁇ ⁇ and g ⁇ ⁇ are obtained.
- ⁇ ) cannot be obtained directly at the same time, they are calculated using the ECM algorithm.
- the flow of processing of the ECM algorithm is shown below. In the following process, three processes of E-step, CM-step 1 and CM-step 2 are repeatedly executed instead of each other. Therefore, the estimated value of the parameter in the i-th iteration is indicated by using a superscript (i).
- ⁇ ⁇ , ⁇ ⁇ , and ⁇ ⁇ (i) are defined as follows.
- ⁇ ECM algorithm >> 1. An initial value ⁇ ⁇ (0) of the estimated value of the parameter is determined. Also, an index i indicating the number of repetitions is set to zero. 2. E-step (noise suppression processing) A conditional posterior distribution p (X
- the estimated value of the signal source parameter is updated to S ⁇ ⁇ (i + 1) from S ⁇ ⁇ (i).
- E-step calculation method The discrete Fourier coefficient series of the w-th frequency band of the source signal, the reverberation superimposed signal, and the noise reverberant superimposed signal are collectively expressed as follows.
- the complex spectrogram S of the source signal, the complex spectrogram X of the reverberation superimposed signal, and the complex spectrogram Y of the noise reverberant superimposed signal are sets over the entire frequency bands (0 ⁇ w ⁇ N ⁇ 1) of S w , X w , and Y w , respectively.
- Y, ⁇ ⁇ (i) ) of the reverberant superimposed signal in Equation (24) can be expressed by a plurality of independent complex normal distributions for each frequency band w as shown in the following equation.
- Y, ⁇ ⁇ (i) ) of the reverberant superimposed signal is calculated based on the signal source parameter, the reverberation parameter, and the noise parameter. Furthermore, as shown in equations (30) and (34), the scale of the covariance matrix of the conditional posterior distribution p (X
- ⁇ m, w (i) is the Tm-th element of average ⁇ w ( ⁇ ⁇ (i) , Y), and ⁇ m: n, w (i) (m ⁇
- n) be a partial vector composed of the Tm-th to Tn-th elements of the mean ⁇ w ( ⁇ ⁇ (i) , Y), and ⁇ (c: m, d: n), w (c ⁇ m, d ⁇ n) from the (Tc, Td) th element of the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) to the (Tm, Tn) th element (from the Td line to the Tn line and It is assumed that the submatrix is composed of elements from the Tc column to the Tm column. 2.
- CM-step 1 Calculation Method
- the linear prediction coefficient of the source signal and its estimated value in the t-th frame are represented by the following vectors, respectively.
- the source parameter s ⁇ and its estimated value s ⁇ ⁇ are the set over all frames (0 ⁇ t ⁇ T-1) of ⁇ a t , s ⁇ t 2 ⁇ and ⁇ a t ⁇ , s ⁇ ⁇ t 2 ⁇ , respectively.
- Is equivalent to Updating of the source parameters according to Equation (25) is realized by executing over the entire frame (0 ⁇ t ⁇ T-1 ) to the estimated values of a t and s sigma t 2 shown in the following equation.
- CM-step 2 Calculation Method A reverberation parameter and its estimated value in the w-th frequency band are represented by the following vectors, respectively.
- Reverberation parameters g theta and the estimated value g theta ⁇ is a set equivalent across each g w and g w ⁇ of all frequency bands (0 ⁇ w ⁇ N-1 ).
- the reverberation parameter is updated by the equation (26) by updating the estimated value of g w shown in the following equation over the entire frequency band (0 ⁇ w ⁇ N ⁇ 1).
- x R w (i) and x r w (i) are respectively defined as follows.
- noise suppression processing (E-step), signal source parameter estimation value update processing (CM-step1), and reverberation parameter estimation value update processing (CM-step2) are repeatedly executed in a coordinated manner, and the estimated values of the signal source parameter and the reverberation parameter are updated.
- E-step and CM-step 1 correspond to the first update process described above
- CM-step 2 corresponds to the second update process described above.
- FIG. 3 is a block diagram illustrating a configuration of the signal enhancement device 1 according to the first embodiment.
- FIG. 4 is a block diagram showing a detailed configuration of the source signal estimation unit 27.
- the signal enhancement device 1 of the present embodiment includes an observation signal storage unit 11, a parameter storage unit 12, a temporary storage unit 13, a band division unit 21, a noise parameter estimation unit 22, an initial parameter setting unit 23, A noise suppression processing unit 24, a signal source parameter estimated value update unit 25, a reverberation parameter estimated value update unit 26, a source signal estimation unit 27, a band synthesis unit 28, and a control unit 29 are included.
- the source signal estimation unit 27 includes a reverberation superimposed signal estimation unit 27a and a linear filter application unit 27b.
- the noise parameter estimation unit 22 and the initial parameter setting unit 23 correspond to the above-described initialization unit.
- the noise suppression processing unit 24 and the signal source parameter estimated value update unit 25 correspond to the first update unit described above.
- the reverberation parameter estimated value update unit 26 corresponds to the second update unit described above.
- the signal enhancement device 1 is configured by reading a predetermined program into a known computer including a CPU (Central Processing Unit), a RAM (Random Access Memory), and the like.
- the observation signal storage unit 11, the parameter storage unit 12, and the temporary storage unit 13 are, for example, a RAM, a register, a cache memory, an auxiliary storage device, or a storage unit configured by combining at least a part thereof. It is.
- the unit 28 and the control unit 29 are processing units dedicated to this apparatus configured by reading a predetermined program into the CPU. Further, the control unit 29 controls each process of the signal enhancement device 1.
- FIG. 5 is a flowchart for explaining the signal enhancement method of the first embodiment.
- the signal enhancement method of the present embodiment will be described with reference to this flowchart.
- an observation signal Y ⁇ in the time domain that is observed in an environment where both noise and reverberation are present, sampled at a predetermined sampling frequency, and quantized is input to the band dividing unit 21 of the signal enhancement device 1.
- ⁇ represents an index of discrete time.
- the band dividing unit 21 divides each discrete signal Y ⁇ into a narrowband signal for each frequency band by short-time Fourier transform or the like, generates an observation signal Y t, w in the frequency domain, and stores it in the observation signal storage unit 11.
- Y ⁇ Y t, w ⁇ 0 ⁇ t ⁇ T ⁇ 1, 0 ⁇ w ⁇ N ⁇ 1 is referred to as a complex spectrogram of the observation signal.
- the noise parameter estimation unit 22 stored in the observed signal storage unit 11 the observed signal Y t, among w, using those sections which source signal is not present, to estimate the ⁇ true value d theta noise parameters .
- the noise parameters d theta of the present embodiment the noise power spectrum (dispersion of complex normal distribution showing a probability distribution of the noise).
- the noise is stationary and the average of the amplitude is zero. Therefore, ⁇ true value d theta noise parameters observed signal Y t of the section source signal is not present, it can be estimated by the mean square of the amplitude of w.
- a known voice segment detection technique is used to identify a segment in which no source signal exists.
- an observation signal Y t, w having no source signal for noise parameter estimation may be measured in advance and used.
- the final estimated value d ⁇ ⁇ of the estimated noise parameter is stored in the parameter storage unit 12 (step S2).
- the initial parameter setting unit 23 sets initial values s ⁇ ⁇ (0) and g ⁇ ⁇ (0) of the estimated values of the signal source parameter and the reverberation parameter. For example, the initial parameter setting unit 23 reads the observation signal Y t, w from the observation signal storage unit 11 and linearly predicts the observation signal Y t, w, and uses the estimated value of the signal source parameter as the estimated value of the signal source parameter.
- g ⁇ ⁇ (0) Initial values s ⁇ ⁇ (0) and g ⁇ ⁇ (0) of the set estimated values of the parameters are stored in the parameter storage unit 12 (step S3).
- control unit 29 sets an index i indicating the number of repetitions to 0 and stores it in the temporary storage unit 13 (step S4).
- the noise suppression processing unit 24 observes the observation signal Y t, w read from the observation signal storage unit 11, the estimated value s ⁇ ⁇ (i) of the signal source parameter, and the noise read from the parameter storage unit 12.
- parameters final estimate d theta and - of, the estimated value g ⁇ ⁇ (i) of the reverberation parameters are entered.
- the noise suppression processing unit 24 uses these to post-conditionally the set X of the reverberation superimposed signal X t, w when the combination of the set Y of the observation signal Y t, w and the parameter estimation value ⁇ ⁇ is given.
- Y, ⁇ ⁇ ) and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are calculated (step S5). . Specifically, the mean ⁇ w ( ⁇ ⁇ (i) , Y) of the complex normal distribution and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are calculated using the above equations (29) to (34). Is done. The average of the calculated complex normal distribution ⁇ w ( ⁇ ⁇ (i) , Y) and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are respectively stored in the parameter storage unit 12.
- the signal source parameter estimated value updating unit 25 sends the reverberation parameter estimated value g ⁇ ⁇ (i) read from the parameter storage unit 12 and the complex normal distribution average ⁇ w ( ⁇ ⁇ (i) , Y) and , A covariance matrix ⁇ w ( ⁇ ⁇ (i) ) is input.
- the signal source parameter estimated value updating unit 25 uses these and fixes the reverberation parameter g ⁇ as g ⁇ ⁇ (i) , and the auxiliary function Q ( ⁇
- the estimated value s ⁇ ⁇ (i) of the signal source parameter is updated so that the function value of is maximized, and the updated estimated value s ⁇ ⁇ (i + 1) of the signal source parameter is obtained (step S6). More specifically, the estimated value s ⁇ ⁇ (i + 1) of the updated signal source parameter is calculated using equations (36) to (42). The updated estimated value s ⁇ ⁇ (i + 1) of the signal source parameter is stored in the parameter storage unit 12.
- the reverberation parameter estimated value update unit 26 is supplied to the signal source parameter estimated value s ⁇ ⁇ (i + 1) read from the parameter storage unit 12 and the average ⁇ w ( ⁇ ⁇ (i) , Y) and a covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are input.
- the reverberation parameter estimated value updating unit 26 uses these, and fixes the signal source parameter s ⁇ as s ⁇ ⁇ (i + 1) , and the auxiliary function Q ( ⁇
- the updated estimated value g ⁇ ⁇ (i + 1) of the reverberation parameter is obtained so that the function value of) is maximized (step S7).
- the updated reverberation parameter estimate g ⁇ ⁇ (i + 1) is calculated using equations (44) to (46).
- the updated estimated value g ⁇ ⁇ (i + 1) of the reverberation parameter is stored in the parameter storage unit 12.
- the control unit 29 determines whether or not a predetermined end condition is satisfied (step S8).
- the predetermined end condition is, for example, the update amount of each parameter estimated value [the distance between the parameter estimated value before update and the parameter estimated value after update (cosine distance, Euclidean distance, etc.)], respectively.
- the value of the index i indicating the number of repetitions is equal to or greater than a predetermined value.
- control unit 29 increases the value of the index i indicating the number of repetitions by 1, and stores the new value of the index i in the temporary storage unit 13 ( Step S9). Then, the process returns to step S105.
- the control unit 29 calculates the estimated values s ⁇ ⁇ (i + 1) and g ⁇ ⁇ (i + 1) of the signal source parameter and the reverberation parameter at that time.
- the signal source parameter final estimated value s ⁇ ⁇ and the noise parameter final estimated value g ⁇ ⁇ are stored in the parameter storage unit 12 (step S10).
- the observed signal Y t, w and the final estimated values s ⁇ ⁇ , g ⁇ ⁇ , d ⁇ ⁇ of each parameter are input to the source signal estimation unit 27.
- the source signal estimator 27 uses these to generate an estimated value St, w ⁇ of the source signal (step S11).
- S ⁇ ⁇ S t, w ⁇ 0 ⁇ t ⁇ T ⁇ 1, 0 ⁇ w ⁇ N ⁇ 1 is a complex spectrogram of the signal in which the source signal is emphasized.
- the reverberation superimposed signal estimation unit 27a (FIG. 4) of the source signal estimation unit 27 receives the observed signals Y t, w and final estimated values s ⁇ ⁇ , g ⁇ ⁇ , d ⁇ of each parameter. ⁇ And are entered.
- the reverberant superimposed signal estimation unit 27a uses these, and the conditional posterior distribution p (X
- the average ⁇ w ( ⁇ ⁇ , Y) (0 ⁇ w ⁇ N ⁇ 1) of Y, ⁇ ⁇ ) is calculated as an estimated value of the reverberant superimposed signal (corresponding to “the final estimated value of the reverberant superimposed signal”). Specifically, the average ⁇ w ( ⁇ ⁇ , Y) is calculated by replacing ⁇ ⁇ (i) with ⁇ ⁇ in the above equations (29) to (34). The calculated estimated value ⁇ w ( ⁇ ⁇ , Y) of the reverberant signal is sent to the linear filter application unit 27b.
- the estimated value ⁇ w ( ⁇ ⁇ , Y) of the calculated reverberation superimposed signal and the final estimated value g ⁇ ⁇ of the reverberation parameter are input to the linear filter application unit 27b.
- the linear filter application unit 27b applies a linear filter configured using the input reverberation parameter estimation value g ⁇ ⁇ to the reverberation superimposed signal estimation value ⁇ w ( ⁇ ⁇ , Y), and estimates the source signal estimation value.
- S t, w ⁇ (corresponding to “source signal final estimated value”) is generated.
- the linear filter application unit 27b calculates an estimated value St, w ⁇ of the source signal according to the following.
- ⁇ t, w is the Tt-th element of the estimated value ⁇ w ( ⁇ ⁇ , Y) of the reverberant superimposed signal.
- the calculated estimated value S t, w ⁇ of the source signal is stored in the parameter storage unit 12. Thereafter, the estimated value S t, w ⁇ of the source signal is input to the band synthesizing unit 28, and the band synthesizing unit 28 converts this to the estimated value S ⁇ ⁇ of the source signal in the time domain by inverse short-time Fourier transform or the like. It converts and outputs (step S12).
- utterances by 10 people were extracted from the ASJ-JNAS database.
- the duration of the utterance is all 3 seconds.
- the sampling frequency was 8 kHz and the number of quantization bits was 16 bits.
- the reverberant signal was synthesized by convolving the impulse response recorded in a room with a reverberation time of approximately 0.5 seconds into these source signals.
- stationary white noise synthesized on a computer so as to have an SNR (Signal to Noise Ratio) of 10 dB was added to obtain a noise reverberation superimposed signal.
- the parameters used in the signal enhancement apparatus of this embodiment were set as follows.
- the quality of the source signal after enhancement was evaluated using SASNR (Segmental Amplitude Signal to Noise Ratio) defined by the following equation.
- Table 1 summarizes the improvements in SASNR for each gender of speakers.
- the number of sensors that measure signals is limited to one, whereas in this embodiment, the number of sensors that observe signals is not limited. That is, the number M of sensors is an arbitrary integer that satisfies M ⁇ 1. Therefore, the regression matrix included in the reverberation parameter is a square matrix with M rows and M columns.
- the first update unit updates the estimated value of the parameter of the second parameter group
- the second update unit updates the estimated value of the parameter of the first parameter group.
- the second parameter group that is, the estimated value of the signal source parameter is updated in a state where the estimated value of the first parameter group, that is, the reverberation parameter is fixed.
- the first update process of the present embodiment includes a noise suppression process and a signal source parameter update process.
- ⁇ Noise suppression processing In the noise suppression processing, the average and covariance matrix of the complex normal distribution characterizing the conditional posterior distribution p of the reverberant superimposed signal (reverberated superimposed signal
- This processing can be interpreted as suppressing the noise included in the observation signal in that the conditional posterior distribution of the reverberant signal without noise is obtained from the observation signal. It should be noted that this noise suppression processing is performed using the reverberation parameter estimate and the signal source parameter estimate. This means that noise is suppressed while considering the characteristics of reverberation. As a result, noise suppression can be accurately performed in a reverberant environment.
- Update processing of signal source parameter estimated value the estimated value of the signal source parameter is updated using the estimated value of the reverberation parameter, the average of the conditional posterior distribution of the reverberant superimposed signal, and the covariance matrix.
- the estimated value of the signal source parameter is updated so that the value of the auxiliary function related to the estimated value of the parameter is maximized.
- the auxiliary function is a log-likelihood function related to the estimated value of the parameter when given the observed signal and the reverberant signal as a conditional posterior distribution p of the reverberant signal (reverberated signal
- the first parameter group that is, the estimated value of the reverberation parameter
- the second parameter group that is, the signal source parameter is fixed.
- the reverberation parameter estimate is updated such that the value of the auxiliary function for the parameter estimate is maximized.
- End condition judgment processing In the end condition determination process, it is determined whether or not a predetermined end condition is satisfied. If the end condition is not satisfied, the process returns to the first update process. If the termination condition is satisfied, the estimated value of the parameter at that time is output.
- the scale of the covariance matrix of the conditional posterior distribution of the reverberant signal increases monotonically with respect to the scale of the noise covariance matrix. That is, the larger the noise level, the larger the scale of the covariance matrix of the conditional posterior distribution of the reverberant superimposed signal. This indicates that the present embodiment evaluates the uncertainty of the reverberant signal obtained by the noise suppression processing by a reasonable method.
- the signal is not limited to an acoustic signal such as an audio signal.
- ECM algorithm is also applied in this embodiment. That is, a conditional posterior distribution p of a set x of reverberant signals with a precondition of a combination of a set y of noise reverberant signals and an estimated value ⁇ ⁇ (x
- E-step and CM-step 1 correspond to the first update process described above
- CM-step 2 corresponds to the second update process described above.
- the set x of reverberant superimposed signals of the present embodiment is a set having complex spectrograms of reverberant superimposed signals corresponding to the respective sensors as elements.
- the set y of noise reverberation superimposed signals of the present embodiment is a set having complex spectrograms of noise reverberation superimposed signals corresponding to the respective sensors as elements.
- ⁇ ) of y of the noise reverberant superimposed signal set when the parameter ⁇ is given is defined.
- a statistical model of a set y of observed signals (noise reverberation superimposed signal) is assumed.
- an all-pole model of a source signal, a multi-channel autoregressive model of a room transmission system, and a noise model described below are assumed.
- the vector st, w satisfies the following condition. 1.
- ⁇ m ⁇ ⁇ 0 ⁇ ⁇ ⁇ M ⁇ 1 represents a set of M elements m 0 , m 1 ,..., M M ⁇ 1 .
- s t, w follows an M-dimensional complex normal distribution with mean 0 M and covariance matrix s ⁇ t (2 ⁇ w / N) I M as follows.
- N C ⁇ x; ⁇ , ⁇ is a probability density function of a complex normal distribution defined by Equation (4).
- 0 M and I M represent an M-dimensional zero vector and an M-dimensional unit matrix, respectively.
- the indoor transmission system can be expressed as an M-channel autoregressive system in each frequency band. That is, the regression matrix of the regression system in the w th frequency band is
- the reverberant signal vector x t, w of the reverberant signal is generated by the following equation.
- the regression matrix G k, w has the following M rows and M columns having the regression coefficients g k, w (1,1) , ..., g k, w (M, M) as elements. It is a matrix.
- K w denotes the order of the M channel autoregressive system.
- equation (54) is expressed as follows.
- the reverberation parameter g ⁇ is applied to a reverberation superimposed signal in which only the reverberation is added to the source signal as shown in the following equation, and is used for extracting the source signal at each sensor position.
- the discrete Fourier coefficients of the reverberant signal are D t, w (m) and Y t, w (m) , respectively.
- the following M-dimensional noise vector having each D t, w (m) as an element is defined.
- d t, w [D t, w (1) , ..., D t, w (M) ] ⁇ (58)
- y t, w [Y t, w (1) , ..., Y t, w (M) ] ⁇ (59)
- the noise reverberant signal vector y t, w is obtained by adding the noise vector d t, w to the reverberant signal vector x t, w .
- y t, w x t, w + d t, w (60)
- d t, w satisfies the following condition.
- Noise is constant, the power cross spectral density d lambda (omega) as (does not depend on the frame number t for a constant), d t, w is the mean 0 M, the covariance matrix d ⁇ (2 ⁇ w / N ) Complex normal distribution.
- the w-th diagonal element of the covariance matrix d ⁇ (2 ⁇ w / N) is the noise power spectrum d ⁇ (m) (2 ⁇ w / N) in the w-th sensor.
- a probability density function of noise reverberant superimposed signal is formulated.
- a set (corresponding to a set of source signal vectors) composed of complex spectrograms of source signals in each sensor is expressed as s.
- a set of complex spectrograms of reverberation superimposed signals in each sensor (corresponding to a set of reverberation superimposed signal vectors) is expressed as x.
- a set of complex spectrograms of noise reverberant superimposed signals (corresponding to a set of noise reverberant superimposed signal vectors) is expressed as y.
- the probability density function of the set of noise reverberant signal vectors y (corresponding to the likelihood function related to the parameter ⁇ when the set of observed signal vectors y is given) can be written as follows.
- the y of the set of observed noisy reverberant superimposed signals, - true value ⁇ of the unknown parameters are estimated by maximum likelihood estimation.
- theta maximize (Y theta) becomes the estimated value of ⁇ true value theta.
- ⁇ ⁇ ⁇ s ⁇ ⁇ , g ⁇ ⁇ , d ⁇ ⁇ ⁇ , And s ⁇ ⁇ and g ⁇ ⁇ are obtained.
- ⁇ ECM algorithm >> 1. An initial value ⁇ ⁇ (0) of the estimated value of the parameter is determined. Also, an index i indicating the number of repetitions is set to zero. 2. E-step (noise suppression processing) A conditional posterior distribution p (x
- the estimated value of the signal source parameter is updated to S ⁇ ⁇ (i + 1) from S ⁇ ⁇ (i).
- E-step calculation method The discrete Fourier coefficient sequences of the w-th frequency band of the source signal, the reverberation superimposed signal, and the noise reverberant superimposed signal in all the sensors are collectively expressed as follows.
- a set of source signal vectors s, a set of reverberant signal vectors x, and a set of noise reverberant signal vectors y are sets over the entire frequency band (0 ⁇ w ⁇ N ⁇ 1) of s w , x w , and y w , respectively.
- y, ⁇ ⁇ (i) ) of the reverberant signal in Equation (77) can be expressed by a plurality of independent complex normal distributions for each frequency band w as shown in the following equation.
- the mean ⁇ w ( ⁇ ⁇ (i) , y) and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are given by the following equations.
- the average ⁇ w ( ⁇ ⁇ (i) , y) is an M-dimensional vector.
- bdiag ⁇ 1, ..., ⁇ ⁇ is any square matrix Omega 1, ..., indicate the following block diagonal matrix for Omega alpha.
- ⁇ v m, w (i) is composed of M (Tm-1) +1 to M (Tm) th elements of average ⁇ w ( ⁇ ⁇ (i) , y).
- Sub-vectors, and ⁇ v m: n, w (i) (m ⁇ n) is the element from M (Tm-1) +1 to M (Tm) th of mean ⁇ w ( ⁇ ⁇ (i) , y)
- the partial vector consisting of Also, ⁇ V (m1: n1, m2: n2), w (i) is converted to (M (T-m1-1) + 1, M (T-m2-1 ) of covariance matrix ⁇ w ( ⁇ ⁇ (i) ) ) +1)
- a submatrix composed of (M (T-n1), M (T-n2))-th elements from the first element.
- V t is calculated, w (i) is used in, by calculation from equation (36) (40), the estimated value of a t and s sigma t 2 is updated.
- davg ( ⁇ ) in equation (90) for the square matrix ⁇ represents the average value of the diagonal elements of the square matrix ⁇ .
- CM-step 2 Calculation Method A reverberation parameter and its estimated value in the w-th frequency band are represented by the following vectors, respectively.
- Reverberation parameters g theta and the estimated value g theta ⁇ is a set equivalent over G w and G w ⁇ of all frequency bands, respectively (0 ⁇ w ⁇ N-1 ).
- the reverberation parameter is updated by the equation (78) by executing the update of the estimated value of G w shown in the following equation over the entire frequency band (0 ⁇ w ⁇ N ⁇ 1).
- x RV w (i) and x rv w (i) are respectively defined as follows.
- the noise suppression process (E-step), the signal source parameter estimated value update process (CM-step 1), and the reverberation parameter estimated value update process (CM-step 2) are coordinated. And the estimated values of the signal source parameter and the reverberation parameter are updated. Thereby, noise and reverberation are accurately suppressed from the observed signal in an environment where both noise and reverberation exist, and the source signal is emphasized.
- FIG. 6 is a block diagram illustrating a configuration of the signal enhancement device 100 according to the second embodiment.
- FIG. 7 is a block diagram showing a detailed configuration of the source signal estimation unit 127.
- the signal enhancement device 100 of the present embodiment includes an observation signal storage unit 111, a parameter storage unit 112, a temporary storage unit 13, a band division unit 121, a noise parameter estimation unit 122, an initial parameter setting unit 123, A noise suppression processing unit 124, a signal source parameter estimated value update unit 125, a reverberation parameter estimated value update unit 126, a source signal estimation unit 127, a band synthesis unit 28, and a control unit 29 are included.
- the source signal estimation unit 127 includes a reverberation superimposed signal estimation unit 127a and a linear filter application unit 127b.
- the noise parameter estimation unit 122 and the initial parameter setting unit 123 correspond to the above-described initialization unit.
- the noise suppression processing unit 124 and the signal source parameter estimated value update unit 125 correspond to the first update unit described above.
- the reverberation parameter estimated value update unit 126 corresponds to the second update unit described above.
- the signal enhancement device 100 of the present embodiment is configured by reading a predetermined program into a known computer including a CPU, a RAM, and the like.
- the observation signal storage unit 111, the parameter storage unit 112, and the temporary storage unit 13 are, for example, a RAM, a register, a cache memory, an auxiliary storage device, or a storage unit configured by combining at least a part thereof. It is.
- the unit 28 and the control unit 29 are processing units dedicated to this apparatus configured by reading a predetermined program into the CPU. Further, the control unit 29 controls each process of the signal enhancement device 100.
- FIG. 8 is a flowchart for explaining the signal enhancement method of the second embodiment.
- the signal enhancement method of the present embodiment will be described with reference to this flowchart.
- an observation signal vector whose elements are the time domain observation signals Y ⁇ (m) (1 ⁇ m ⁇ M) observed and quantized by the M sensors in the band dividing unit 121 of the signal enhancement apparatus 100. [Y ⁇ (1) , ..., Y ⁇ (M) ] ⁇ is input.
- the noise parameter estimator 122 uses the observed signal vector y t, w stored in the observed signal storage unit 111 in the section where the source signal does not exist, and estimates the true value d ⁇ ⁇ of the noise parameter. Calculate the value.
- the noise parameters d theta of the present embodiment the noise of the power cross spectrum (the covariance matrix of the M-dimensional complex normal distribution showing a probability distribution of the noise). Further, in the present embodiment, the noise is stationary, it is assumed that the average amplitude is 0 M. Therefore, the true value d ⁇ ⁇ of the noise parameter can be estimated as follows using the observation signal vector y t, w in the section where the source signal does not exist.
- ⁇ is a set of frame numbers in a section in which no source signal exists
- is the number of frames in a section in which no source signal exists.
- a known voice segment detection technique is used to identify a segment in which no source signal exists.
- an observation signal Y t, w having no source signal for noise parameter estimation may be measured in advance and used.
- ⁇ True value d theta of the estimated noise parameters are stored in the parameter storage unit 112 (step S102).
- the initial parameter setting unit 123 sets initial values s ⁇ ⁇ (0) and g ⁇ ⁇ (0) of the estimated values of the signal source parameter and the reverberation parameter.
- the initial parameter setting unit 123 is obtained by reading the observation signal vector y t, w from the observation signal storage unit 111 and performing linear prediction analysis on the first element (that is, the signal observed by the first sensor).
- control unit 29 sets an index i indicating the number of repetitions to 0 and stores it in the temporary storage unit 13 (step S104).
- the observation signal vector y t, w read from the observation signal storage unit 111 , the estimated value s ⁇ ⁇ (i) of the signal source parameter, and the parameter storage unit 112 are read by the noise suppression processing unit 124. and - the true value d theta noise parameters, and estimates g ⁇ ⁇ (i) of the reverberation parameters are entered.
- the noise suppression processing unit 124 uses these, and the condition of the set x of the reverberant signal vector vector x t, w when the combination of the set y of the observed signal vector y t, w and the estimated value ⁇ ⁇ of the parameter is given.
- y, ⁇ ⁇ ) and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) (step S105). Specifically, the mean ⁇ w ( ⁇ ⁇ (i) , y) of the complex normal distribution and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are calculated using the equations (82) to (87) described above. To do. The calculated mean ⁇ w ( ⁇ ⁇ (i) , y) of the complex normal distribution and the covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are stored in the parameter storage unit 112, respectively.
- the signal source parameter estimated value updating unit 125 uses these, and with the reverberation parameter g ⁇ fixed as g ⁇ ⁇ (i) , the auxiliary function Q ( ⁇
- the estimated value s ⁇ ⁇ (i) of the signal source parameter is updated so that the function value of is maximized, and the updated estimated value s ⁇ ⁇ (i + 1) of the signal source parameter is obtained (step S106).
- the estimated value s ⁇ ⁇ (i + 1) of the updated signal source parameter is calculated using equations (36) to (40), (90), (91).
- the updated estimated value s ⁇ ⁇ (i + 1) of the signal source parameter is stored in the parameter storage unit 112.
- the reverberation parameter estimated value updating unit 126 is supplied to the signal source parameter estimated value s ⁇ ⁇ (i + 1) read from the parameter storage unit 112 and the complex normal distribution average ⁇ w ( ⁇ ⁇ (i) , y) and a covariance matrix ⁇ w ( ⁇ ⁇ (i) ) are input.
- the reverberation parameter estimation value updating unit 126 uses these, and fixes the signal source parameter s ⁇ as s ⁇ ⁇ (i + 1) , and the auxiliary function Q ( ⁇
- the estimated value g ⁇ ⁇ (i + 1) of the reverberation parameter is obtained so that the function value of) is maximized (step S107).
- an estimated value g ⁇ ⁇ (i + 1) of the reverberation parameter is calculated using equations (93) to (95).
- the updated estimated value g ⁇ ⁇ (i + 1) of the reverberation parameter is stored in the parameter storage unit 112.
- the control unit 29 determines whether or not a predetermined end condition is satisfied (step S108).
- the predetermined end condition is, for example, the update amount of each parameter estimated value [the distance between the parameter estimated value before update and the parameter estimated value after update (cosine distance, Euclidean distance, etc.)], respectively.
- the value of the index i indicating the number of repetitions is equal to or greater than a predetermined value.
- control unit 29 increases the value of the index i indicating the number of repetitions by 1, and stores the new value of the index i in the temporary storage unit 13 ( Step S109). Then, the process returns to step S105.
- the control unit 29 calculates the estimated values s ⁇ ⁇ (i + 1) and g ⁇ ⁇ (i + 1) of the signal source parameter and the reverberation parameter at that time.
- the signal source parameter final estimated value s ⁇ ⁇ and the reverberation parameter final estimated value g ⁇ ⁇ are stored in the parameter storage unit 112 (step S110).
- the observed signal Y t, w and the final estimated values s ⁇ ⁇ , g ⁇ ⁇ , d ⁇ ⁇ of each parameter are input to the source signal estimation unit 127.
- the source signal estimation unit 127 uses these to generate an estimated value St, w ⁇ of the source signal (step S111).
- S ⁇ ⁇ S t, w ⁇ 0 ⁇ t ⁇ T ⁇ 1, 0 ⁇ w ⁇ N ⁇ 1 is a complex spectrogram of the signal in which the source signal is emphasized.
- the reverberation superimposed signal estimation unit 127a (FIG. 7) of the source signal estimation unit 127 receives the observation signal vector y t, w and the final estimated values s ⁇ ⁇ , g ⁇ ⁇ , d of each parameter. ⁇ ⁇ and is input.
- the reverberant superimposed signal estimation unit 127a uses these, and the conditional posterior distribution p () of the reverberant superimposed signal vector x t, w when a combination of the observed signal vector y t, w and the parameter estimated value ⁇ ⁇ is given.
- the estimated value ⁇ w ( ⁇ ⁇ , y) of the calculated reverberation superimposed signal vector x t, w and the final estimated value g ⁇ ⁇ of the reverberation parameter are input to the linear filter application unit 127b.
- Linear filter applying unit 127b applies a linear filter configured by using the estimated value g theta of the inputted reverberation parameters ⁇ reverberant superimposed signal vector x t, the estimated value of w ⁇ w ( ⁇ ⁇ , y ), Generate a source signal vector estimate s t, w ⁇ .
- the linear filter application unit 127b averages the elements of the estimated value st, w ⁇ of the source signal vector, and calculates the average value as the estimated value St, w ⁇ of the source signal ("source signal final estimated value"). Equivalent to). Specifically, the linear filter application unit 127b calculates the estimated value St, w ⁇ of the source signal, for example, according to the following. However, ⁇ v t, w is a part composed of elements from M (Tt-1) +1 to M (Tt) th of the estimated value ⁇ w ( ⁇ ⁇ , y) of the reverberant signal vector x t, w Is a vector.
- avg ( ⁇ ) for an arbitrary vector ⁇ represents the average value of all elements of the vector ⁇ .
- the average value of the elements is the estimated value S t, w ⁇ of the source signal, but any of these elements may be the estimated value S t, w ⁇ of the source signal.
- the calculated source signal estimated value St, w ⁇ is stored in the parameter storage unit 112. Thereafter, the source signal estimate S t, w ⁇ is input to the band synthesizer 28, and the band synthesizer 28 converts this into the source signal estimate S ⁇ ⁇ by inverse short-time Fourier transform or the like. Output (step S112).
- the parameters required to implement this embodiment were set as follows.
- the frame length of the short-time Fourier transform is 256 samples, the shift width is 128 samples, the window function is the Hanning window, the order of the indoor transmission system is 25, and the linear prediction order of speech is 12. Further, the end condition of the ECM algorithm is the time when the number of repetitions is three. Cepstrum distortion was used as a measure for evaluating the quality of the emphasized speech signal.
- the average value of the cepstrum distortion of the signal (noise reverberant speech signal) before the processing according to this embodiment was 6.99 dB.
- the average value of the cepstrum distortion of the signal after the processing according to the present embodiment is 5.15 dB, which is an improvement of 1.84 dB.
- the average value of cepstrum distortion was 5.61 dB. From the above results, the effect of this embodiment was confirmed.
- the second parameter group includes at least a steering vector in addition to the signal source parameter.
- the first update unit updates the estimated value of the second parameter group, and the second update unit updates the estimated value of the parameter of the first parameter group.
- the observation signal is stored in the storage unit by the observation signal storage process.
- the parameter estimation value of the first parameter group and the parameter estimation value of the second parameter group are initialized by the initialization process.
- the first update process of the present embodiment the second parameter group, that is, the estimated value of the signal source parameter is updated in a state where the estimated value of the first parameter group, that is, the reverberation parameter is fixed.
- the first update process of the present embodiment includes a source signal estimated value update process, a steering vector estimated value update process, and a signal source parameter estimated value update process.
- Source signal estimated value update processing First, an estimated value of the noise superimposed signal is calculated using the observed signal and the estimated value of the reverberation parameter. This process is interpreted as equivalent to a reverberation suppression process in that the noise reverberation superimposed signal is input and the noise superimposed signal is output.
- Steering vector estimated value update process the steering vector estimated value is updated using the noise superimposed signal estimated value and the source signal estimated value. The estimate of the steering vector is updated so that the log likelihood function for the parameter is increased.
- the estimated value of the power spectrum of the source signal is calculated from the estimated value of the source signal and the error variance. Based on the estimated value of the power spectrum, the estimated value of the signal source parameter is updated. This update process increases the log likelihood function for the parameter.
- the second parameter group that is, the estimated values of the signal source parameter, the noise parameter, and the steering vector are fixed, and the first parameter group, that is, the estimated value of the reverberation parameter is changed.
- the second update process of the present embodiment includes a source signal short-time power spectrum estimate update process, a reverberation parameter estimate update process, and a noise parameter estimate update process.
- ⁇ Source signal short-time power spectrum estimate update processing In the source signal short-time power spectrum estimated value update process, the estimated value of the power spectrum of the source signal is updated using the signal source parameter estimated value.
- the estimated value of the noise parameter is updated using the estimated value of the noise superimposed signal, the estimated value of the source signal, and the estimated value of the steering vector. This update process increases the log likelihood function for the parameter.
- ⁇ Reverberation parameter estimated value update processing> the reverberation parameter estimation value is updated using the observed signal, the updated power spectrum estimation value of the source signal, and the noise parameter estimation value.
- the reverberation parameter estimate is updated to maximize the log-likelihood function for the parameter under conditions where the source parameter estimate, noise parameter estimate, and steering vector estimate are fixed.
- End condition judgment processing In the end condition determination process, it is determined whether or not a predetermined end condition is satisfied. If the end condition is not satisfied, the process returns to the first update process. If the termination condition is satisfied, the estimated value of the parameter at that time is output.
- the source signal estimation unit of the signal enhancement device of the present embodiment suppresses reverberation included in the observation signal by linear filter processing and estimates a noise superimposed signal, and then performs noise from the noise superimposed signal by nonlinear filter processing such as a Wiener filter. Repress.
- nonlinear filter processing such as a Wiener filter. Repress.
- the parameters generated by the parameter estimation unit of the present embodiment are different from the parameters of the first and second embodiments.
- the system that generates the time domain observation signal includes a reverberation superimposition system (indoor transmission system) that convolves a plurality of room impulse responses, and stationary noise at the output of each reverberation superposition system. It consists of a noise superimposition system to add. These systems add reverberation and noise to the source signal, resulting in a time domain observation signal.
- the observed signal vector and a source signal in the time frequency domain, each y t, w, S t, When w, the relationship between them can be expressed by equation (98).
- Equation (98) is an indoor transmission system in w-th frequency band, which means that expressed by K w Next M channel autoregressive system with G k, the w to k-th order regression matrix. Equation (99) can be equivalently transformed into Equation (100) and Equation (101).
- v t, w is an M-input M-output linear filter in which the 0th tap weight matrix is a unit matrix and the kth (k ⁇ 1) tap weight matrix is ⁇ G k, w 2 is an output signal obtained by inputting the noise vector dt, w . That is, v t, w is filtered noise and does not include a component derived from the source signal. In the present embodiment, this is simply called noise. Further, as shown in the equation (100), ⁇ t, w is the sum of the product of the source signal St, w and the M-dimensional steering vector b w and the noise vector v t, w .
- ⁇ t, w is referred to as a noise superimposed signal vector.
- the observed signal vector y t, w is a reverberation obtained by inputting the noise superimposed signal ⁇ t, w to an autoregressive system whose k-th order regression matrix is G k, w. Is a superimposed signal.
- a set of steering vectors b ⁇ ⁇ b w ⁇ 0 ⁇ w ⁇ N ⁇ 1 is also a part of the parameters in this embodiment. Further, regarding the source signal and noise, the following conditions are assumed as in the first and second embodiments.
- ⁇ [ ⁇ , ⁇ ] is an angular frequency
- a t k is a linear prediction coefficient
- s ⁇ t 2 is a prediction residual power.
- Source signal S t, w is the mean 0, according to dispersion source signal briefly complex normal distribution equal to the power spectrum s ⁇ t, w. That is, the probability density function of the source signal St, w is given by equation (105).
- Equation (4) ⁇ Noise Model ⁇ Assuming that the noise is stationary, the short time power spectral density and the short time cross spectral density of the noise are time invariant. That is, they do not depend on the frame number t. Therefore, these are expressed by a matrix such as the equation (106).
- v ⁇ (m, m) ( ⁇ ) is short-time power spectrum density of the noise relating to the m-th microphone
- v ⁇ (m1, m2) ( ⁇ ) is the noise and m 2 th regarding the first microphone m It is the cross spectral density between noises on the microphone.
- the noise short-time power cross spectrum matrix v ⁇ w in the w th frequency band is given by equation (107).
- v t1, w1 and v t2, w2 are also statistically independent. Further, for any (t 1 , w 1 , t 2 , w 2 ), the source signals St1, w1 and the noise vectors vt2, w2 are statistically independent.
- the parameter estimation unit of this embodiment performs maximum likelihood estimation of the parameter ⁇ . Further, the estimated value of the source signal power spectrum is calculated from the estimated value of the signal source parameter according to the equations (102), (103), and (104). These estimated values are supplied to the source signal estimator.
- the regression matrix estimate is G k, w ⁇
- the steering vector estimate is b w ⁇
- the linear prediction coefficient estimate is a t, k ⁇
- the prediction residual power estimate is s ⁇ t ⁇ 2.
- the source signal estimator uses a multi-channel Wiener filter for the dereverberation signal ⁇ t, w ⁇ and estimates the minimum mean square error (MMSE) of the source signal St, w as shown in equation (115). Calculate the value.
- MMSE minimum mean square error
- F (•) is a gain vector of the multi-channel Wiener filter.
- ⁇ ⁇ t, w denotes the covariance matrix of the noise superimposed signal ⁇ t, w, is given by equation (119).
- Equation (121) the probability density function for the set y of all observed signal vectors can be expressed by equation (121).
- y ⁇ y t, w ⁇ where 0 ⁇ t ⁇ T ⁇ 1 and 0 ⁇ w ⁇ N ⁇ 1 .
- FIG. 9 is a block diagram illustrating a functional configuration example of the signal enhancement device 200 according to the third embodiment.
- FIG. 10 is a flowchart for explaining the processing of the third embodiment.
- the signal enhancement device 200 includes a band dividing unit 220, a parameter estimating unit 310, a source signal estimating unit 230, a control unit 250, and a band synthesizing unit 240.
- the source signal estimation unit 230 includes a linear filter processing unit 231 and a nonlinear filter processing unit 232.
- the band dividing unit 220 and the band synthesizing unit 240 are the same as those in the first and second embodiments.
- the signal emphasizing device 200 is a dedicated device that is realized when a predetermined program is read into a computer including, for example, a ROM, a RAM, and a CPU, and the CPU executes the program.
- the band dividing unit 220 divides the time domain observation signal into observation signal vectors y t, w (0 ⁇ t ⁇ T ⁇ 1, 0 ⁇ w ⁇ N ⁇ 1) for a predetermined number of frequency bands (step S201). .
- the parameter estimation unit 310 uses the input observation signal vector y t, w to input a reverberation parameter g ⁇ including a regression matrix G k, w for estimating reverberation and a noise short time for estimating the source signal.
- the noise parameter v ⁇ including the power cross spectrum matrix v ⁇ w , the signal source parameter s ⁇ defining the source signal short-time power spectrum s ⁇ t, w , and the true values of the set b ⁇ of the steering vector b w Estimate (step S202).
- FIG. 11 is a block diagram illustrating a functional configuration example of the parameter estimation unit 310 according to the third embodiment.
- FIG. 12 is a flowchart for explaining parameter estimation processing according to the third embodiment.
- the parameter estimation unit 310 according to the present embodiment repeatedly updates the estimated values of the reverberation parameter g ⁇ , the steering vector b ⁇ , the signal source parameter s ⁇ , and the noise parameter v ⁇ in order to perform maximum likelihood estimation of the unknown parameter ⁇ . .
- the parameter estimation unit 310 includes an observation signal recording unit 311, a parameter estimation value initialization unit 312 (corresponding to an “initialization unit”), a source signal estimation value update unit 313, a signal source parameter estimation value update unit 314, A source signal power spectrum estimated value update unit 315, a reverberation parameter estimated value update unit 316, a steering vector estimated value update unit 318, a noise parameter estimated value update unit 319, and a convergence determination unit 317 are provided.
- the source signal estimated value updating unit 313, the steering vector estimated value updating unit 318, and the signal source parameter estimated value updating unit 314 are included in the first updating unit described above.
- the source signal power spectrum estimated value update unit 315, the noise parameter estimated value update unit 319, and the reverberation parameter estimated value update unit 316 are included in the second update unit described above.
- the observation signal recording unit 311 records the observation signal divided into a predetermined number of frequency bands by the band dividing unit 220.
- the observation signal recording unit 311 records all noise reverberation superimposed signals in the observation section. Then, observation signal recording section 311 outputs the recorded observation signal to source signal estimated value update section 313, reverberation parameter estimated value update section 316, and parameter estimated value initialization section 312.
- the parameter estimation value initialization unit 312 sets the initial values of the reverberation parameter g ⁇ , the steering vector b ⁇ , the signal source parameter s ⁇ , and the noise parameter v ⁇ using the input observation signal vectors yt and w. .
- the control unit 250 sets the index i indicating the number of repetitions to 0.
- the source signal estimated value update unit 313 receives the input observed signal vector y t, w and initial values g ⁇ (0) ⁇ , b ⁇ (0) ⁇ , s ⁇ (0) ⁇ , Estimate the source signal using v ⁇ (0) ⁇ or the updated estimated values g ⁇ (i) ⁇ , b ⁇ (i) ⁇ , s ⁇ (i) ⁇ , v ⁇ (i) ⁇
- the value S t, w (i) ⁇ and its error variance and the estimated value ⁇ t, w (i) ⁇ of the noise superimposed signal are respectively represented by St, w (i + 1) ⁇ and its error variance and ⁇ t, w ( i + 1) Update to ⁇ (step S301).
- S t, w (i + 1) ⁇ is calculated using equation (115), and ⁇ t, w (i + 1) ⁇ is calculated using equation (114).
- the error variance is calculated using equation (122).
- the updated estimated value S t, w (i + 1) ⁇ of the source signal and the estimated value ⁇ t, w (i + 1) ⁇ of the noise superimposed signal are input to the steering vector estimated value update unit 318.
- the steering vector estimated value update unit 318 uses these to calculate an updated estimated value of the steering vector according to the equation (123). Equation (123), the mean of the noise vector is based on the assumption that it is O M.
- an updated steering vector estimated value b ⁇ (i + 1) ⁇ is obtained (step S303).
- the signal source parameter estimated value updating unit 314 adds the power of the estimated value S t, w (i + 1) ⁇ of the source signal and its error variance ⁇ t, w (i + 1) as shown in the equation (124), and adds the power spectrum. ⁇ t, w (i + 1) is obtained.
- the signal source parameter estimated value updating unit 314 updates the estimated value of the signal source parameter by the Levinson-Durbin algorithm using the obtained power spectrum ⁇ t, w (i + 1) .
- the Levinson-Durbin algorithm is a well-known method and will not be described in detail.
- V t, w (i) in equation (40 ) is replaced with ⁇ t, w (i + 1) , and equations (36) to (40 ) by carrying out calculation of the updated source parameters (a t, 1 (i + 1) ⁇ , ..., a t, P (i + 1) ⁇ , s ⁇ t 2 (i + 1) ⁇ ) is calculated. Then, these are calculated over all the frame numbers t (0 ⁇ t ⁇ T ⁇ 1), thereby obtaining an updated signal source parameter s ⁇ (i + 1) ⁇ (step S304).
- the source signal power spectrum estimated value updating unit 315 receives the updated estimated value of the signal source parameter.
- the source signal power spectrum estimated value updating unit 315 updates the estimated value of the short-time power spectrum of the source signal using the updated signal source parameter (step S305).
- the updated estimated value s ⁇ t, w (i + 1) ⁇ of the short-time power spectrum of the source signal is calculated using Equation (102), Equation (103) and Equation (104).
- the noise parameter estimated value updating unit 319 includes an updated source signal estimated value S t, w (i + 1) ⁇ , a noise superimposed signal estimated value ⁇ t, w (i + 1) ⁇ , and a steering vector updated value b ⁇ ( i + 1) ⁇ is input. Using these, the noise parameter estimated value update unit 319 converts the estimated value v ⁇ w (i + 1) of the noise short-time power cross spectrum matrix into all frequency bands w (0 ⁇ w ⁇ N ⁇ 1) according to the equation (125). ) To calculate.
- T ′ is a sufficiently small value
- the T ′ frame (for example, 0.3 seconds) at the beginning includes only noise, and the estimated value v ⁇ w (i + 1) of the noise short-time power cross spectrum matrix is calculated from the calculation result for that section.
- ⁇ Is updated (step S306).
- the reverberation parameter estimated value updating unit 316 receives the input observed signal vector y t, w , the updated steering vector estimated value b ⁇ (i + 1) ⁇ , and the source signal short-time power spectrum estimated value s ⁇ t, w (i + 1) ⁇ a, the estimated value v ⁇ w (i + 1) ⁇ and using the noise short-time power cross-spectral matrix, the estimated value is updated reverberation parameters g ⁇ (i + 1) ⁇ a determined (step S307).
- the reverberation parameter estimation value update unit 316 first collects each component of the regression matrix in the w-th frequency band into a single vector as shown in Expression (126) and Expression (127).
- Equation (126) and Equation (127) represent the size of the matrix (or vector) indicated by each equation.
- g k, w (m) represents the m-th column of the regression matrix G k, w .
- g w is referred to as a component vector of the regression matrix.
- the set ⁇ g w ⁇ 0 ⁇ w ⁇ W ⁇ 1 over the entire frequency band of the component vector g w matches the reverberation parameter g ⁇ .
- the observation signal matrix MY t ⁇ 1, w of the previous frame is defined as in Expression (128).
- the updated estimated value g w (i + 1) ⁇ of the regression matrix component vector is calculated according to the equation (130).
- the convergence determination unit 317 determines whether or not the noise parameter v ⁇ (i + 1) ⁇ has converged (whether or not the end condition is satisfied) (step S308). For example, the convergence determination unit 317 may determine that the convergence has been achieved if the number of iterations i has reached a predetermined number, or a log likelihood function (equation (118) obtained each time the above-described processing is repeated. If the increment of the value of)) is smaller than a predetermined threshold value, it may be determined that the value has converged.
- Steps S302 to S307 are repeated until these values converge, and when a predetermined termination condition is satisfied, the reverberation parameter estimated value g ⁇ ⁇ (i + 1) at that time and the estimated value of the steering vector b ⁇ (i + 1) ⁇ , signal source parameter estimation value s ⁇ (i + 1) ⁇ , and noise parameter v ⁇ (i + 1) ⁇ are output to the source signal estimation unit 230.
- the estimated value of the parameter may be recorded in the parameter estimated value recording unit 320 (end of detailed description of step S202).
- the linear filter processing unit 231 calculates reverberation by convolving the observed signal vector y t, w with the estimated value G k, w ⁇ of the regression matrix. Then, the linear filter processing unit 231 generates the reverberation suppression signal vector ⁇ t, w ⁇ by subtracting the obtained reverberation from the observed signal vector (step S203).
- the nonlinear filter processing unit 232 receives the input noise short-time power cross spectrum matrix estimation value v ⁇ w ⁇ , source signal short-time power spectrum estimation value s ⁇ t, w ⁇ and steering vector estimation value b w ⁇ Using the dereverberation suppression signal ⁇ t, w ⁇ , an estimated value s t, w ⁇ of the source signal in which noise is suppressed is generated from the reverberation suppression signal ⁇ t, w ⁇ (step S204).
- the band synthesizing unit 240 synthesizes the source signal estimation value St, w ⁇ and converts it to a time domain source signal estimation value (step S205).
- the control unit 250 controls each processing unit such that an estimated value of the time domain source signal in which reverberation and noise are suppressed is generated from the input time domain observation signal.
- the linear filter processing unit 231 generates the reverberation suppression signal vector ⁇ t, w ⁇ by suppressing the reverberation included in the observation signal vector y t, w , and then the nonlinear filter processing unit. 232 suppresses noise from the reverberation suppression signal.
- the estimated value of the source signal in the time domain is obtained by performing a nonlinear filter process after performing a linear filter process on the observed signal vector. Therefore, the estimated value of the source signal in this time domain is a high-quality signal in which noise and reverberation are sufficiently suppressed.
- the regression order (filter length of the linear filter) Kw is described as one fixed value. However, the regression order may change according to the center frequency of the frequency band. It is well known that the reverberation time varies depending on the frequency band. For example, in the field of acoustic, since long reverberation time of the frequency band below 500 Hz, the frequency band is increased regression order K w, may be reduced regression order K w in the other frequency band.
- the parameter estimation unit 310 may include a regression order variable unit 301, and the regression order variable unit 301 may change the regression order, that is, the filter length of the linear filter processing unit 231 in accordance with the frequency band. Thereby, reverberation can be efficiently suppressed. That is, the calculation amount of the linear filter processing unit 231 can be reduced.
- Such a modification is also possible in the first and second embodiments described above.
- the average value of the MFCC distance from each source signal of the estimated value of the source signal according to the first embodiment and the estimated value of the source signal according to the present embodiment was compared with the observation signal as it is.
- the results were 7.39, 5.81, 5.11 in order.
- the result that the MFCC distance by the signal emphasis method of this invention was the shortest was obtained.
- the program describing the processing contents can be recorded on a computer-readable recording medium.
- a computer-readable recording medium for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
- this program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
- a computer that executes such a program first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device.
- the computer reads a program stored in its own recording medium and executes a process according to the read program.
- the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially.
- the present apparatus is configured by executing a predetermined program on a computer.
- a predetermined program on a computer.
- at least a part of these processing contents may be realized by hardware.
- enhancement processing of a source voice signal in a voice recognition system, a video conference system, or the like can be exemplified.
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
まず、マイクロホン等のセンサや音声ファイル等から取得され、標本化・量子化された時間領域の観測音声の波形信号が帯域分割部に入力される。これらの時間領域の観測信号は、帯域分割部において、周波数帯域ごとの狭帯域信号に分割される。すなわち、時間領域の観測信号が時間周波数領域の観測信号に変換される。以下では、周波数帯域ごとに分割された観測信号の集合を観測信号の複素スペクトログラムと呼ぶ。なお、帯域分割部は、短時間フーリエ変換やポリフェーズフィルタバンク等の従来技術によってこの処理を実行する。ただし、この帯域分割を実施せずに、時間領域の観測信号を直接用いて源信号の強調処理を行う方法もある。また、明細書では、信号を表現する領域を明記していない場合、時間周波数領域であると解釈する。
非特許文献1には、源信号に雑音が加算された観測信号から雑音を抑圧する雑音抑圧技術が提案されている。以下に非特許文献1に開示された各処理部の処理を説明する。
非特許文献2には、源信号に残響が重畳された観測信号から残響を抑圧する残響抑圧技術が提案されている。以下に非特許文献2に開示された各処理部の処理を説明する。
Lim, J. S. and Oppenheim, A. V. , "All-pole modeling of degraded speech," IEEE Trans. Acoust. Speech, Signal Process., Vol. 26, No. 3, pp.197-210 (1978). Yoshioka, T., Hikichi, T. and Miyoshi, M., "Dereverberation by Using Time-Variant Nature of Speech Production System, EURASIP J. Advances in Signal Process., Vol. 2007, (2007), Article ID 65698, 15 pages, doi:10.1155/2007/65698.
雑音と残響がともに存在する環境においてM(M≧1)個のセンサ1000-1~Mで観測された観測信号は、図2に示す系によって生成されたものであるといえる。すなわち、まず、話者などの信号源1010から発せられた、雑音や残響を含まない信号(「源信号」と呼ぶ)に対し、残響重畳系(室内伝達系)によって各室内インパルス応答が畳み込まれることで残響が付加される。さらに、残響が付加された信号(「残響重畳信号」と呼ぶ)に対し、雑音重畳系によって雑音が加算される。これにより、雑音と残響を含む信号(「雑音残響重畳信号」と呼ぶ)が生成され、各センサで観測される。
まず、本実施形態のパラメータ推定部について述べる。本実施形態のパラメータは、残響パラメータと、信号源パラメータと、雑音パラメータとを含む。残響パラメータは、少なくとも、室内伝達系を多チャンネル自己回帰系としてモデル化したときの回帰行列を含む。なお、この回帰行列からなる多入力多出力インパルス応答を残響重畳信号に畳み込むと、残響重畳信号に含まれる残響が算出される。信号源パラメータは、少なくとも、源信号の短時間パワースペクトル密度を特徴づける線形予測係数と予測残差パワーとを含む。雑音パラメータは、少なくとも、雑音の短時間パワークロススペクトル行列を含む。本実施形態のパラメータ推定部は、残響パラメータと信号源パラメータと雑音パラメータを、ECMアルゴリズム等のEMアルゴリズムの変種を用いて、最尤推定する。
初期化部は、第1パラメータ群のパラメータの推定値と、第2パラメータ群のパラメータの推定値とを初期化する。
次に、観測信号と、第1パラメータ群のパラメータの推定値と、第2パラメータ群のパラメータの推定値とが、第1更新部に入力される。第1更新部は、第1パラメータ群と第2パラメータ群のいずれか一方のパラメータ群のパラメータの推定値を固定し、残る一方のパラメータ群のパラメータのうち、少なくとも一部のパラメータの推定値を更新する。第1更新部は、パラメータの推定値に関する対数尤度関数の値が大きくなるように、パラメータの推定値を更新する。
<本実施形態のパラメータ推定処理の概要>
まず、本実施形態のパラメータ推定処理の概要を説明する。
[観測信号記憶処理]
まず、観測信号記憶処理によって、観測信号が記憶部に格納される。
[初期化処理]
次に、初期化処理によって、第1パラメータ群のパラメータの推定値と、第2パラメータ群のパラメータの推定値とが初期化される。
本実施形態の第1更新処理では、第1パラメータ群、すなわち残響パラメータの推定値が固定された状態で、第2パラメータ群、すなわち信号源パラメータの推定値が更新される。本実施形態の第1更新処理は、具体的には、雑音抑圧処理と、信号源パラメータの更新処理とを含む。
雑音抑圧処理では、観測信号とパラメータの推定値を用いて、残響重畳信号の条件付事後分布p(残響重畳信号|観測信号,パラメータの推定値)を特徴づける複素正規分布の平均と共分散行列が算出される。
信号源パラメータ推定値の更新処理では、残響パラメータの推定値と残響重畳信号の条件付事後分布の平均と共分散行列を用いて、信号源パラメータの推定値が更新される。信号源パラメータの推定値は、パラメータの推定値に関する補助関数の値が最大になるように、更新される。
本実施形態の第2更新処理では、第2パラメータ群、すなわち信号源パラメータの推定値が固定された状態で、第1パラメータ群、すなわち残響パラメータの推定値が更新される。残響パラメータの推定値は、パラメータの推定値に関する補助関数の値が最大になるように、更新される。
終了条件判定処理では、所定の終了条件が満たされているか否かが判定される。終了条件が満たされていない場合、第1更新処理に戻る。終了条件が満たされている場合、その時点におけるパラメータの推定値を出力する。
以上で述べた処理において、残響重畳信号の条件付事後分布の共分散行列は、雑音の分散に対して単調増加する。すなわち、雑音のレベルが大きいほど、残響重畳信号の条件付事後分布の共分散行列も大きくなる。このことは、本実施形態が、雑音抑圧処理で求められる残響重畳信号の不確かさを妥当な方法で評価していることを示している。
次に、本実施形態の原理を説明する。
本実施形態は統計的推定の方法論に基づく。まず、信号源パラメータsΘ、残響パラメータgΘ、及び雑音パラメータdΘが規定される必要がある。また、すべてのパラメータの集合がΘ={sΘ, gΘ, dΘ}と表現される。次に、規定したパラメータΘが、観測信号である雑音残響重畳信号の集合Yに対応づけられなければならない。なお、雑音残響重畳信号の集合Yは、所定の観測区間に属する雑音残響重畳信号の集合である。後述するように、本実施形態の雑音残響重畳信号の集合Yは、雑音残響重畳信号の複素スペクトログラムである。
最初になすべきことは、パラメータΘが与えられた場合における雑音残響重畳信号の集合のYの確率密度関数p(Y|Θ)を定義することである。そのために、観測信号(雑音残響重畳信号)の集合Yの統計的モデルが仮定される。本実施形態では、以下に述べる源信号の全極モデル、室内伝達系の自己回帰モデル及び雑音のモデルが仮定される。
まず、源信号の全極モデルについて述べる。t(0≦t≦T-1)番目のフレーム、w(0≦w≦N-1)番目の周波数帯域における源信号の離散フーリエ係数(複素数)をSt,wとおく。なお、t(0≦t≦T-1)は各フレームに対応するインデックスであり、w(0≦w≦N-1)は各周波数帯域に対応するインデックスである。
St,wは以下の条件を満たすと仮定される。
1.ω∈{‐π,π}を角周波数として、t番目のフレームにおける源信号のパワースペクトル密度sλt(ω)は、以下のようなP次(P≧1)の全極型スペクトル密度で表される。
2.St,wは、以下のように、平均0、分散sλt(2πw/N)の複素正規分布にしたがう。
《室内伝達系のモデル》
次に、室内伝達系のモデルについて述べる。t(0≦t≦T-1)番目のフレーム、w(0≦w≦N-1)番目の周波数帯域における残響重畳信号の離散フーリエ係数をXt,wとおく。室内伝達系は各周波数帯域において自己回帰系として表現できると仮定される。すなわち、w番目の周波数帯域における自己回帰系の回帰係数をg1,w, ..., gKw,wとおくと、残響重畳信号の離散フーリエ係数Xt,wは次式により生成される。ただし、gk,w *はgk,wの複素共役値である。
次に、雑音のモデルについて述べる。本実施形態では、t(0≦t≦T-1)番目のフレーム、w(0≦w≦N-1)番目の周波数帯域における、雑音と雑音残響重畳信号との離散フーリエ係数がそれぞれDt,w,Yt,wとされる。Yt,wは残響重畳信号Xt,wに雑音Dt,wを加算したものである。
Yt,w = Xt,w + Dt,w (7)
また、Dt,wが次に述べる条件を満たすと仮定される。
1.雑音は定常であり、そのパワースペクトル密度をdλ(ω)として(定常であるためフレーム番号tには依存しない)、Dt,wは平均0、分散dλ(2πw/N)の複素正規分布に従う。
2.(t, w)≠(t', w')ならば、Dt,wとDt',w'とは統計的に独立である。
3.任意の(t, w, t', w')について、St,wとDt',w'とは統計的に独立である。
以上の仮定に基づき、雑音残響重畳信号の確率密度関数が定式化される。
本実施形態では、源信号、残響重畳信号及び雑音残響重畳信号の各複素スペクトログラム(源信号、残響重畳信号及び雑音残響重畳信号の各集合に相当)がそれぞれS、X及びYと表現される。すなわち、
S={St,w}0≦t≦T-1, 0≦w≦N-1 (9)
X={Xt,w}0≦t≦T-1, 0≦w≦N-1 (10)
Y={Yt,w}0≦t≦T-1, 0≦w≦N-1 (11)
と表現される。なお、{mα,β}0≦α≦T-1, 0≦β≦N-1は、m0,0 ,..., mT-1,N-1のT・N個の要素からなる集合を表す。
具体的には、雑音残響重畳信号の複素スペクトログラムYの確率密度関数(観測信号の集合Yが与えられたときのパラメータΘに関する尤度関数に相当)は次のように書ける。
前述のように、本実施形態では、観測された雑音残響重畳信号の複素スペクトログラムYから、未知のパラメータの真値Θ~が、最尤推定法によって推定される。すなわち、雑音残響重畳信号の集合Yが与えられた場合におけるパラメータΘを変数とした尤度関数p(Y|Θ)を最大化するΘが、真値Θ~の推定値となる。ただし、本実施形態では、雑音パラメータの真値dΘ~が源信号の存在しない区間から予め独立に推定され、既知となっている為Θ^={sΘ^, gΘ^, dΘ~}であり、sΘ^とgΘ^が求められることになる。
1.パラメータの推定値の初期値Θ^(0)が決められる。また、繰り返し回数を示すインデックスiが0にされる。
2.E-step(雑音抑圧処理)
残響重畳信号の条件付事後分布p(X|Y, Θ^(i))が計算される。
3.CM-step1(信号源パラメータ推定値の更新処理)
補助関数Q(Θ|Θ^(i))が次式により定義される。
4.CM-step2(残響パラメータ推定値の更新処理)
次の手続きにより、残響パラメータの推定値が更新される。
5.終了条件判定
所定の終了条件を満たしているならばsΘ^=sΘ^(i+1),gΘ^=gΘ^(i+1)として終了。そうでなければ、iを1だけ漸増させて「2.E-step」へ戻る。
以下では、E-step、CM-step1及びCM-step2の各計算方法を説明する。
1.E-stepの計算方法
源信号、残響重畳信号、雑音残響重畳信号のw番目の周波数帯域の離散フーリエ係数系列を、それぞれまとめて次のように表す。
式(24)の残響重畳信号の条件付事後分布p(X|Y, Θ^(i))は、次式に示すように周波数帯域wごとに独立な複数の複素正規分布によって表現できる。
dλT-1 ~(2πw/N)= dλT-2 ~(2πw/N)=...=dλ0 ~(2πw/N)=dλ~(2πw/N)
である。また、diag{α1,...,αβ}は、任意のスカラー値α1,...,αβを対角要素とする対角行列である。
2.CM-step1の計算方法
t番目のフレームにおける源信号の線形予測係数とその推定値が、それぞれ次のようなベクトルで表現される。
式(25)による信号源パラメータの更新は、次式に示すat及びsσt 2の推定値の更新を全フレーム(0≦t≦T-1)にわたって実行することで実現される。
w番目の周波数帯域における残響パラメータとその推定値が、それぞれ次のようなベクトルで表現される。
式(26)による残響パラメータの更新は、次式に示すgwの推定値の更新を全周波数帯域(0≦w≦N-1)にわたって実行することで実現される。
次に、本実施形態の信号強調装置の構成を説明する。
図3は、第1実施形態の信号強調装置1の構成を示すブロック図である。また、図4は、源信号推定部27の詳細構成を示すブロック図である。
図3に示すように、本実施形態の信号強調装置1は、観測信号記憶部11、パラメータ記憶部12、一時記憶部13、帯域分割部21、雑音パラメータ推定部22、初期パラメータ設定部23、雑音抑圧処理部24、信号源パラメータ推定値更新部25、残響パラメータ推定値更新部26、源信号推定部27、帯域合成部28及び制御部29を有する。また、源信号推定部27は、残響重畳信号推定部27a及び線形フィルタ適用部27bを有する。なお、雑音パラメータ推定部22及び初期パラメータ設定部23は、前述の初期化部に対応する。また、雑音抑圧処理部24及び信号源パラメータ推定値更新部25は、前述の第1更新部に対応する。また、残響パラメータ推定値更新部26は、前述の第2更新部に対応する。
図5は、第1実施形態の信号強調方法を説明するためのフローチャートである。以下、このフローチャートに沿って本実施形態の信号強調方法を説明する。
まず、信号強調装置1の帯域分割部21に、雑音と残響とが共に存在する環境で観測され、所定の標本化周波数でサンプリングされ量子化された時間領域の観測信号Yκが入力される。なお、κは離散時刻のインデックスを示す。帯域分割部21は、短時間フーリエ変換等によって各離散信号Yκを周波数帯域ごとの狭帯域信号に分割し、周波数領域の観測信号Yt,wを生成し、観測信号記憶部11に格納する(ステップS1)。なお、式(11)で示したように、Y={Yt,w}0≦t≦T-1, 0≦w≦N-1を観測信号の複素スペクトログラムと呼ぶ。
その後、帯域合成部28に源信号の推定値St,w^が入力され、帯域合成部28は、これを、逆短時間フーリエ変換などによって、時間領域の源信号の推定値Sκ^に変換して出力する(ステップS12)。
次に、本実施形態の処理を行って得られる効果を確認する実験を行った。まず、ASJ-JNASデー夕ベースから10名(男性5名、女性5名)による発話を抽出した。発話の継続時間はすべて3秒間である。標本化周波数は8kHz、量子化ビット数は16ビットとした。これら源信号に残響時間がおよそ0.5秒の部屋で収録したインパルス応答を畳み込むことで残響重畳信号を合成した。これに、SNR(Signal to Noise Ratio)が10dBとなるように計算機上で合成した定常白色雑音を加算して雑音残響重畳信号とした。
強調後の源信号の品質は、次式で定義されるSASNR(Segmental Amplitude Signal to Noise Ratio)を用いて評価した。
次に、本発明の第2実施形態を説明する。第1実施形態では、信号を測定するセンサが1個に限定されていたのに対して、本実施形態では、信号を観測するセンサの個数に制限が設けられない。すなわち、センサの個数MはM≧1を満たす任意の整数をとる。よって、残響パラメータに含まれる回帰行列は、M行M列の正方行列である。それ以外の点については、本実施形態におけるパラメータ推定処理の概要は、第1実施形態におけるパラメータ推定処理の概要と同じである。また、M=1であってもよいし、M≧2であってもよく、M=1とした本実施形態は、第1実施形態と等価になる。
本実施形態では、第1更新部は第2パラメータ群のパラメータの推定値を更新し、第2更新部は第1パラメータ群のパラメータの推定値を更新する。
[観測信号記憶処理]
まず、観測信号記憶処理によって、観測信号が記憶部に格納される。
[初期化処理]
次に、初期化処理によって、第1パラメータ群のパラメータの推定値と、第2パラメータ群のパラメータの推定値とが初期化される。
本実施形態の第1更新処理では、第1パラメータ群、すなわち残響パラメータの推定値が固定された状態で、第2パラメータ群、すなわち信号源パラメータの推定値が更新される。本実施形態の第1更新処理は、具体的には、雑音抑圧処理と、信号源パラメータの更新処理とを含む。
雑音抑圧処理では、観測信号とパラメータの推定値を用いて、残響重畳信号の条件付事後分布p(残響重畳信号|観測信号,パラメータの推定値)を特徴づける複素正規分布の平均と共分散行列が算出される。
信号源パラメータ推定値の更新処理では、残響パラメータの推定値と残響重畳信号の条件付事後分布の平均と共分散行列を用いて、信号源パラメータの推定値が更新される。信号源パラメータの推定値は、パラメータの推定値に関する補助関数の値が最大になるように、更新される。
本実施形態の第2更新処理では、第2パラメータ群、すなわち信号源パラメータの推定値が固定された状態で、第1パラメータ群、すなわち残響パラメータの推定値が更新される。残響パラメータの推定値は、パラメータの推定値に関する補助関数の値が最大になるように、更新される。
終了条件判定処理では、所定の終了条件が満たされているか否かが判定される。終了条件が満たされていない場合、第1更新処理に戻る。終了条件が満たされている場合、その時点におけるパラメータの推定値を出力する。
次に、本実施形態の原理を説明する。以下では、第1実施形態との相違点を中心に説明し、第1実施形態と共通する事項については説明を省略する。なお、本実施形態でも、信号は音声信号などの音響信号に限定されない。
次に、本実施形態の原理を説明する。本実施形態でもECMアルゴリズムを適用する。すなわち、観測信号である雑音残響重畳信号の集合yを用い、雑音残響重畳信号の集合yとパラメータの推定値Θ^との組合せを前提条件とした残響重畳信号の集合xの条件付事後分布p(x|y,Θ^)の算出処理(E-step)と、源信号パラメータの推定値sΘ^の算出処理(CM-step1)と、残響パラメータgΘの算出処理(CM-step2)とを代わる代わる繰り返し実行して各推定値を更新し、所定の終了条件を充足した時点での各推定値を真値の推定値(最終推定値)とする。なお、E-stepとCM-step1は先に述べた第1更新処理に、CM-step2は先に述べた第2更新処理に該当する。
本実施形態でも、まず、パラメータΘが与えられた場合における雑音残響重畳信号集合のyの確率密度関数p(y|Θ)が定義される。そのために、観測信号(雑音残響重畳信号)の集合yの統計的モデルが仮定される。本実施形態では、以下に述べる源信号の全極モデル、室内伝達系の多チャンネル自己回帰モデル及び雑音のモデルが仮定される。
まず、本実施形態の源信号の全極モデルについて述べる。t(0≦t≦T-1)番目のフレーム、w(0≦w≦N-1)番目の周波数帯域における源信号の離散フーリエ係数(複素数)をSt,wとおく。また、仮に雑音や残響が存在しない場合に、m(1≦m≦M)番目のセンサで観測されるであろう源信号の離散フーリエ係数をSt,w (m)とおく。また、各St,w (m)を要素とする次のようなM次元の源信号ベクトルが定義される。なお、ατはαの非共役転置を示す。
st,w=[St,w (1),...,St,w (M)]τ (49)
1.ω∈{‐π,π}を角周波数として、t番目のフレームにおける源信号のパワースペクトル密度sλt(ω)は、式(1)(2)に示したような全極型スペクトル密度で表される。よって、信号源パラメータsΘは、sΘ={at,1 ,..., at,P, sσt 2}0≦t≦T-1と定義される。ただし、{mα}0≦α≦M-1は、m0, m1 ,..., mM-1のM個の要素からなる集合を表す。
2.st,wは、以下のような、平均0M、共分散行列sλt(2πw/N)IMのM次元複素正規分布にしたがう。
ここで、ζ=Mとして式(4)を式(50)に代入するとst,wの確率密度関数は次式で表される。
||α||2=αH・α (52)
3.(t,w)≠(t',w')ならば、st,wとst',w'は統計的に独立である。
《室内伝達系のモデル》
次に、本実施形態の室内伝達系のモデルについで述べる。m(1≦m≦M)番目のセンサ、t(0≦t≦T-1)番目のフレーム、w(0≦w≦N-1)番目の周波数帯域における残響重畳信号の離散フーリエ係数をXt,w (m)とおく。また、各Xt,w (m)を要素とする次のようなM次元の残響重畳信号ベクトルが定義される。
xt,w=[Xt,w (1),...,Xt,w (M)]τ (53)
本実施形態では、室内伝達系が各周波数帯域においてMチャネル自己回帰系として表現できると仮定される。すなわち、w番目の周波数帯域における回帰系の回帰行列を
次に、雑音のモデルについて述べる。本実施形態では、m(1≦m≦M)番目のセンサ、t(0≦t≦T-1)番目のフレーム、w(0≦w≦N-1)番目の周波数帯域における、雑音と雑音残響重畳信号との離散フーリエ係数がそれぞれDt,w (m),Yt,w (m)とされる。また、各Dt,w (m)を要素とする次のようなM次元の雑音ベクトルが定義される。
dt,w=[Dt,w (1),...,Dt,w (M)]τ (58)
yt,w=[Yt,w (1),...,Yt,w (M)]τ (59)
雑音残響重畳信号ベクトルyt,wは、残響重畳信号ベクトルxt,wに雑音ベクトルdt,wを加算したものである。
yt,w = xt,w + dt,w (60)
1.雑音は定常であり、そのパワークロススペクトル密度をdΛ(ω)として(定常であるためフレーム番号tには依存しない)、dt,wは平均0M、共分散行列dΛ(2πw/N)の複素正規分布に従う。なお、共分散行列dΛ(2πw/N)のw番目の対角要素は、w番目のセンサにおける雑音のパワースペクトルdλ(m)(2πw/N)である。
2.(t, w)≠(t', w')ならば、dt,wとdt',w'とは統計的に独立である。
3.任意の(t, w, t', w')について、st,wとdt,wとは統計的に独立である。
以上の仮定に基づき、雑音残響重畳信号の確率密度関数が定式化される。
本実施形態では、各センサにおける源信号の複素スペクトログラムからなる集合(源信号ベクトルの集合に相当)がsと表現される。また、各センサにおける残響重畳信号の複素スペクトログラムからなる集合(残響重畳信号ベクトルの集合に相当)がxと表現される。また、雑音残響重畳信号の複素スペクトログラムからなる集合(雑音残響重畳信号ベクトルの集合に相当)がyと表現される。
すなわち、
s={st,w}0≦t≦T-1, 0≦w≦N-1 (62)
x={xt,w}0≦t≦T-1, 0≦w≦N-1 (63)
y={yt,w}0≦t≦T-1, 0≦w≦N-1 (64)
と表現される。
前述のように、本実施形態では、観測された雑音残響重畳信号の集合のyから、未知のパラメータの真値Θ~が、最尤推定法によって推定される。すなわち、雑音残響重畳信号の集合Yが与えられた場合におけるパラメータΘを変数とした尤度関数p(Y|Θ)を最大化するΘが、真値Θ~の推定値となる。ただし、本実施形態では、雑音パラメータの真値dΘ~が源信号の存在しない区間から予め独立に推定され、既知となっている為Θ^={sΘ^, gΘ^, dΘ~}であり、sΘ^とgΘ^が求められることになる。
1.パラメータの推定値の初期値Θ^(0)が決められる。また、繰り返し回数を示すインデックスiが0にされる。
2.E-step(雑音抑圧処理)
残響重畳信号の条件付事後分布p(x|y, Θ^(i))が計算される。
3.CM-step1(信号源パラメータ推定値の更新処理)
補助関数Q(Θ|Θ^(i))が次式により定義される。
4.CM-step2(残響パラメータ推定値の更新処理)
次の手続きにより、残響パラメータの推定値が更新される。
5.終了条件判定
所定の終了条件を満たしているならばsΘ^=sΘ^(i+1),gΘ^=gΘ^(i+1)として終了。そうでなければ、iを1だけ漸増させて「2.E-step」へ戻る。
以下では、E-step、CM-step1及びCM-step2の各計算方法を説明する。
1.E-stepの計算方法
すべてのセンサにおける、源信号、残響重畳信号、雑音残響重畳信号のw番目の周波数帯域の離散フーリエ係数系列を、それぞれまとめて次のように表す。
式(77)の残響重畳信号の条件付事後分布p(x|y, Θ^(i))は、次式に示すように周波数帯域wごとに独立な複数の複素正規分布によって表現できる。
dΛT-1 ~(2πw/N)= dΛT-2 ~(2πw/N)=...=dΛ0 ~(2πw/N)=dΛ~(2πw/N) (89)
である。
また、後の処理のために、μvm,w (i)を平均μw(Θ^(i),y)のM(T-m-1)+1からM(T-m)番目までの要素で構成される部分ベクトルとし、μvm:n,w (i)(m≧n)を平均μw(Θ^(i),y)のM(T-m-1)+1からM(T-m)番目までの要素で構成される部分ベクトルとする。また、ΣV(m1:n1,m2:n2),w (i)を共分散行列Σw(Θ^ (i))の(M(T-m1-1)+1,M(T-m2-1)+1)番目の要素から(M(T-n1),M(T-n2))番目の要素で構成される部分行列とする。
t番目のフレームにおける源信号の線形予測係数とその推定値が、式(35)のようなベクトルで表現される。
信号源パラメータsΘとその推定値sΘ^は、それぞれ{at, sσt 2}及び{at^, sσ^t 2}の全フレーム(0≦t≦T-1)にわたる集合と等価である。
式(78)による信号源パラメータの更新は、式(36)(37)に示したat及びsσt 2の推定値の更新を全フレーム(0≦t≦T-1)にわたって実行することで実現される。ただし、本実施形態では、式(41)(42)に代えて
3.CM-step2の計算方法
w番目の周波数帯域における残響パラメータとその推定値が、それぞれ次のようなベクトルで表現される。
式(78)による残響パラメータの更新は、次式に示すGwの推定値の更新を全周波数帯域(0≦w≦N-1)にわたって実行することで実現される。
次に、本実施形態の信号強調装置の構成を説明する。
図6は、第2実施形態の信号強調装置100の構成を示すブロック図である。また、図7は、源信号推定部127の詳細構成を示すブロック図である。
図8は、第2実施形態の信号強調方法を説明するためのフローチャートである。以下、このフローチャートに沿って本実施形態の信号強調方法を説明する。
まず、信号強調装置100の帯域分割部121に、M個のセンサによってそれぞれ観測され、量子化された時間領域の観測信号Yκ (m)(1≦m≦M)を要素とする観測信号ベクトル[Yκ (1),...,Yκ (M)]τが入力される。帯域分割部121は、短時間フーリエ変換等によって観測信号ベクトル[Yκ (1),...,Yκ (M)]τを、時間周波数領域の観測信号ベクトルyt,w= [Yt,w (1),...,Yt,w (M)]τに変換し、観測信号記憶部111に格納する(ステップS101)。
算出された源信号の推定値St,w^はパラメータ記憶部112に格納される。
その後、帯域合成部28に源信号の推定値St,w^が入力され、帯域合成部28は、これを、逆短時間フーリエ変換などによって、源信号の推定値Sκ^に変換して出力する(ステップS112)。
次に、本実施形態の処理を行って得られる効果を確認する実験を行った。男女2話者により発話された音声を用意した。各音声の音響信号に対して、残響時間が約0.5秒の部屋で2個のマイクロホンで収録したインパルス応答を畳み込むことで、残響音声信号を合成した。これに、SN比が15dBとなる白色雑音を加算することで、雑音残響音声信号をシミュレートした。
次に、第3実施形態を説明する。
<本実施形態のパラメータ推定処理の概要>
まず、本実施形態のパラメータ推定部における処理の概要を説明する。本実施形態では、第2パラメータ群は、信号源パラメータに加えて、少なくとも、ステアリングベクトルを含む。また、本実施形態では、第1更新部は第2パラメータ群の推定値を更新し、第2更新部は第1パラメータ群のパラメータの推定値を更新する。
まず、観測信号記憶処理によって、観測信号が記憶部に格納される。
[初期化処理]
次に、初期化処理によって、第1パラメータ群のパラメータの推定値と、第2パラメータ群のパラメータの推定値とが初期化される。
[第1更新処理]
本実施形態の第1更新処理では、第1パラメータ群、すなわち残響パラメータの推定値が固定された状態で、第2パラメータ群、すなわち信号源パラメータの推定値が更新される。本実施形態の第1更新処理は、具体的には、源信号推定値更新処理、ステアリングベクトル推定値更新処理、信号源パラメータ推定値更新処理を含む。
源信号推定値更新処理では、まず、観測信号と残響パラメータの推定値を用いて、雑音重畳信号の推定値を算出する。この処理は、雑音残響重畳信号を入力として雑音重畳信号を出力するという点において、残響抑圧処理に相当すると解釈される。
ステアリングベクトル推定値更新処理では、雑音重畳信号推定値と源信号推定値とを用いて、ステアリングベクトルの推定値が更新される。ステアリングベクトルの推定値は、パラメータに関する対数尤度関数が増加するように、更新される。
信号源パラメータ推定値更新処理では、源信号の推定値と誤差分散から、源信号のパワースペクトルの推定値を算出する。このパワースペクトルの推定値に基づいて、信号源パラメータの推定値が更新される。この更新処理は、パラメータに関する対数尤度関数を増加させる。
本実施形態の第2更新処理では、第2パラメータ群、すなわち信号源パラメータ、雑音パラメータ、ステアリングベクトルの各々の推定値が固定された状態で、第1パラメータの群、すなわち残響パラメータの推定値が更新される。本実施形態の第2更新処理は、具体的には、源信号短時間パワースペクトル推定値更新処理、残響パラメータ推定値更新処理、雑音パラメータ推定値更新処理を含む。
源信号短時間パワースペクトル推定値更新処では、信号源パラメータ推定値を用いて源信号のパワースペクトルの推定値を更新する。
次に、雑音パラメータ推定値更新処理では、雑音重畳信号の推定値、源信号の推定値、ステアリングベクトルの推定値を用いて、雑音パラメータの推定値を更新する。この更新処理は、パラメータに関する対数尤度関数を増加させる。
残響パラメータ推定値更新処理では、観測信号と、更新された源信号のパワースペクトルの推定値と、雑音パラメータの推定値を用いて、残響パラメータの推定値を更新する。残響パラメータの推定値は、信号源パラメータの推定値と雑音パラメータの推定値とステアリングベクトルの推定値とが固定されている条件の下で、パラメータに関する対数尤度関数が最大になるように更新される。
終了条件判定処理では、所定の終了条件が満たされているか否かが判定される。終了条件がを満たされていない場合、第1更新処理に戻る。終了条件が満たされている場合、その時点におけるパラメータの推定値を出力する。
次に、本実施形態の原理を説明する。
本実施形態の信号強調装置の源信号推定部は、観測信号に含まれる残響を線形フィルタ処理で抑圧して雑音重畳信号を推定した後に、Wienerフィルタ等の非線形フィルタ処理により雑音重畳信号から雑音を抑圧する。この手順を実現するために、本実施形態のパラメータ推定部が生成するパラメータが第1,2実施形態のパラメータと異なる。
源信号の短時間パワースペクトル密度はP次の全極型の関数で与えられる。すなわち、第tフレームにおける源信号のパワースペクトル密度は、式(102)で与えられる。
《雑音のモデル》
雑音は定常であると仮定すると、雑音の短時間パワースペクトル密度と短時間クロススペクトル密度は時不変である。すなわち、これらはフレーム番号tに依存しない。そこで、これらを式(106)のような行列で表現する。
雑音ベクトルvt,wは、平均O M=[0,…,0]τ、共分散行列が雑音短時間パワークロススペクトル行列vΛwに等しいM次元複素正規分布に従う。すなわち、雑音ベクトルvt,wの確率密度関数は式(108)で与えられる。
したがって、本実施形態のパラメータΘは式(109)~式(113)で定義される。
本実施形態の源信号推定部は、まず、式(114)に従って観測信号ベクトルyt,wから残響を抑圧して雑音重畳信号ベクトルの推定値残響抑圧信号φt,w^を求める。
《パラメータの対数尤度関数》
上記した源信号及び雑音と、観測信号ベクトルの生成モデル式(99)と式(100)とに基づき、パラメータΘの対数尤度関数
L(Θ;y)=log p(y|Θ) (117)
は、式(118)で表せる。
これと式(99)により、過去の観測信号ベクトルが与えられた下での観測信号ベクトルyt,wの条件付確率密度関数が、式(120)で与えられることが分る。
<本実施形態の構成及び処理>
図9は、第3実施形態の信号強調装置200の機能構成例を示すブロック図である。図10は、第3実施形態の処理を説明するためのフローチャートである。
図11は、第3実施形態のパラメータ推定部310の機能構成例を示すブロック図である。また、図12は、第3実施形態のパラメータ推定処理を説明するためのフローチャートである。本実施形態のパラメータ推定部310は、未知のパラメータΘを最尤推定するために残響パラメータgΘ、ステアリングベクトルbΘ、信号源パラメータsΘ、雑音パラメータvΘのそれぞれの推定値を繰り返し更新する。
信号源パラメータ推定値更新部314は、源信号の推定値St,w (i+1)^のパワーとその誤差分散εt,w (i+1)を式(124)に示すように加算してパワースペクトルγt,w (i+1)を求める。
次に、1フレーム前の観測信号行列MYt-1,wを式(128)のように定義する。
本実施形態の信号強調方法の効果を確認する目的で実験を行った。実験条件を説明する。源信号には、ASJ-JNASデータベースから抽出した10名(男性5名、女性5名)による発話を用いた。これらの音声を残響時間が約0.6秒の部屋でスピーカーから再生し、スピーカーから1.8m離して設置した2個のマイクロホンで録音した。また、同じ部屋、同じマイクロホンで、4箇所に設置したスピーカーから同時に再生したピンクノイズを録音した。その後、録音された残響音声と雑音をSN比が10dBとなるように加算したものを時間領域の観測信号として用いた。なお、録音時の標本化周波数は8kHzとした。
源信号の線形予測次数はP=12とした。回帰次数Kwは、観測信号の周波数が100Hz未満ならばKw=5、100Hz~200HzならばKw=10、200Hz~1000HzならばKw=30、1000Hz~1500HzならばKw=20、1500Hz~2000HzならばKw=15、2000Hz~3000HzならばKw=10、3000Hz以上ならばKw=5とした。また、収束判定部は、繰り返し回数が3回で収束したと判定する。
Claims (17)
- 観測された時間領域信号から変換された時間周波数領域の観測信号を格納する記憶部と、
前記観測信号に含まれる残響の推定値を算出する線形畳み込み演算の回帰係数を含む残響パラメータ推定値と、源信号のパワースペクトルを特定する線形予測係数と予測残差パワーとの推定値を含む信号源パラメータ推定値と、雑音のパワースペクトルの推定値を含む雑音パラメータ推定値と、を含むパラメータ推定値の初期値を設定する初期化部と、
前記観測信号と前記パラメータ推定値とが入力され、前記残響パラメータ推定値および雑音パラメータ推定値の少なくとも一部の更新処理、あるいは前記信号源パラメータ推定値の更新処理、のいずれか一方を実行するように構成され、当該更新処理が前記パラメータ推定値に関する対数尤度関数の値が増加するように実行される処理である、第1更新部と、
前記第1更新部で得られたパラメータ推定値の更新値の少なくとも一部が入力され、前記残響パラメータ推定値および雑音パラメータ推定値の少なくとも一部の更新処理、あるいは前記信号源パラメータ推定値の更新処理のうち、前記第1更新部で実行されなかったものを実行するように構成され、当該更新処理が前記パラメータ推定値の更新値に関する対数尤度関数の値が増加するように実行される処理である、第2更新部と、
終了条件が満たされるか否かを判定する終了条件判定部と、を有し、
前記終了条件が満たされない場合、前記第1更新部と前記第2更新部の処理が再び実行される、信号強調装置。 - 請求項1の信号強調装置であって、
前記時間領域信号が、M個のセンサで観測された信号であり、
前記残響パラメータ推定値が、前記回帰係数を要素にもつM行M列の回帰行列推定値を含み、
前記雑音パラメータ推定値が、前記雑音のパワースペクトルを対角要素とするM行M列の雑音パワークロススペクトル行列推定値を含み、
前記パラメータ推定値が、前記残響パラメータ推定値と、前記信号源パラメータ推定値と、前記雑音パラメータ推定値と、M次元のステアリングベクトル推定値と、を含み、
前記第1更新部が、
源信号推定値更新部と、ステアリングベクトル推定値更新部と、信号源パラメータ推定値更新部と、を含み、
前記源信号推定値更新部は、前記観測信号と前記パラメータ推定値とが入力され、雑音重畳信号推定値と、源信号推定値と、前記源信号推定値の誤差分散とを算出するように構成され、
前記ステアリングベクトル推定値更新部は、前記雑音重畳信号推定値と前記源信号推定値とが入力され、ステアリングベクトル推定値の更新値を算出するように構成され、
前記信号源パラメータ推定値更新部は、前記源信号推定値のパワーと前記誤差分散とを加算してパワースペクトルを算出し、前記パワースペクトルを用いて信号源パラメータ推定値の更新値を算出するように構成され、
前記第2更新部が、源信号パワースペクトル推定値更新部と、雑音パラメータ推定値更新部と、残響パラメータ推定値更新部と、を含み、
前記源信号パワースペクトル推定値更新部は、前記信号源パラメータ推定値の更新値が入力され、前記信号源パラメータ推定値の更新値に対応する源信号パワースペクトル推定値の更新値を算出するように構成され、
前記雑音パラメータ推定値更新部は、前記源信号推定値と、前記雑音重畳信号推定値と、前記ステアリングベクトル推定値の更新値とが入力され、前記雑音パラメータ推定値の更新値を生成するように構成され、
前記残響パラメータ推定値更新部は、前記観測信号と、前記ステアリングベクトル推定値の更新値と、前記源信号パワースペクトル推定値の更新値と、前記雑音パラメータ推定値の更新値とが入力され、前記回帰行列推定値の更新値を算出するように構成される、
信号強調装置。 - 請求項2の信号強調装置であって、
前記雑音パワークロススペクトル行列推定値のm行m列(m∈1,...,M)の要素が、m番目のセンサに対応する前記雑音のパワースペクトルであり、前記雑音パワークロススペクトル行列推定値のm1行m2列(m1,m2∈1,...,M)の要素が、m1番目のセンサに対応する前記観測信号の雑音と、m2番目のセンサに対応する前記観測信号の雑音との間のクロススペクトルであり、
前記雑音重畳信号推定値が、それぞれの要素が各センサに対応する前記観測信号であるM次元ベクトルの非共役転置である観測信号ベクトルから、前記回帰行列推定値と前記観測信号ベクトルとの畳み込み演算結果を減じたM次元ベクトルであり、
前記源信号推定値が、前記源信号パワースペクトル推定値と前記雑音パワークロススペクトル行列推定値と前記ステアリングベクトル推定値とに対応するWienerフィルタのゲインベクトルと、前記雑音重畳信号推定値と、の積であり、
前記源信号推定値の誤差分散が、前記ステアリングベクトル推定値の非共役転置と前記雑音パワークロススペクトル行列推定値の逆行列と前記ステアリングベクトル推定値との積と、前記信号源パラメータ推定値に対応する源信号パワースペクトル推定値の逆数と、の加算値の逆数であり、
前記ステアリングベクトル推定値の更新値が、前記源信号推定値の複素共役値と前記雑音重畳信号推定値との積和を、前記源信号推定値のパワーの積和で割ったベクトルであり、
前記雑音パワークロススペクトル行列推定値の更新値が、前記雑音重畳信号推定値から前記源信号推定値と前記ステアリングベクトル推定値の更新値との積を減じた雑音ベクトルと、当該雑音ベクトルの共役転置との積和であり、
前記回帰行列推定値の更新値の要素からなる成分ベクトルが、前記観測信号を要素とする観測信号行列の共役転置と雑音重畳信号の共分散行列の推定値の逆行列と前記観測信号行列との積和の逆行列と、前記観測信号行列の共役転置と雑音重畳信号の共分散行列の推定値の逆行列と前記観測信号ベクトルとの積和と、の積の共役転置であり、
前記雑音重畳信号の共分散行列の推定値が、前記源信号パワースペクトル推定値の更新値と前記ステアリングベクトル推定値の更新値と前記ステアリングベクトル推定値の更新値の共役転置との積と、前記雑音パワークロススペクトル行列推定値の更新値との和である、信号強調装置。 - 請求項2の信号強調装置であって、
前記残響パラメータ推定値又はその更新値に含まれる回帰行列推定値の回帰次数が、周波数帯域によって異なる、信号強調装置。 - 請求項2の信号強調装置であって、
前記観測信号と残響パラメータ最終推定値とが入力され、前記観測信号ベクトルから、前記残響パラメータ最終推定値と前記観測信号との畳み込み演算結果を減じたM次元ベクトルである雑音重畳信号最終推定値を生成する線形フィルタ処理部と、
信号源パラメータ最終推定値によって特定される源信号パワースペクトル最終推定値と、雑音パラメータ最終推定値に含まれる雑音パワークロススペクトル行列最終推定値と、ステアリングベクトル最終推定値と、前記雑音重畳信号最終推定値とが入力され、前記源信号パワースペクトル最終推定値と前記雑音パワークロススペクトル行列最終推定値と前記ステアリングベクトル最終推定値とに対応するWienerフィルタのゲインベクトルと、前記雑音重畳信号最終推定値と、の積を源信号最終推定値とする非線形フィルタ処理部と、を有し、
前記残響パラメータ最終推定値、前記信号源パラメータ最終推定値、前記雑音パラメータ最終推定値、及び前記ステアリングベクトル最終推定値が、前記終了条件を満たした時点における前記回帰行列推定値の更新値、前記信号源パラメータ推定値の更新値、前記雑音パラメータ最終推定値の更新値、及び前記ステアリングベクトル推定値の更新値を含む、信号強調装置。 - 請求項1の信号強調装置であって、
前記観測信号が1個のセンサで観測された信号であり、
前記残響パラメータ推定値が、前記回帰係数の推定値を含み、
前記雑音パラメータ推定値が、前記雑音のパワースペクトルの推定値を含み、
前記パラメータ推定値が、前記信号源パラメータ推定値と、前記残響パラメータ推定値と、前記雑音パラメータ推定値と、を含み、
前記第1更新部が、
雑音抑圧処理部と、信号源パラメータ推定値更新部と、を含み、
前記雑音抑圧処理部は、
前記観測信号と前記パラメータ推定値とが入力され、所定の観測区間に属する前記観測信号の集合と前記パラメータ推定値との組合せを前提条件とした前記観測区間に属する残響重畳信号の集合の条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)を特定する複素正規分布の平均及び共分散行列を算出するように構成され、
前記残響重畳信号が、前記観測信号から雑音が取り除かれた信号であり、
前記信号源パラメータ推定値更新部は、
前記残響パラメータ推定値と、前記複素正規分布の平均及び共分散行列とが入力され、 信号源パラメータ推定値の更新値を算出するように構成され、
前記信号源パラメータ推定値の更新値は、残響パラメータが前記残響パラメータ推定値に固定された条件下で、第1補助関数値を最大化する値であり、
前記第1補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第2パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第2パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値であり、
前記第2更新部が、
前記信号源パラメータ推定値の更新値と、前記複素正規分布の平均及び共分散行列とが入力され、残響パラメータ推定値の更新値を算出するように構成された残響パラメータ推定値更新部を含み、
前記残響パラメータ推定値の更新値は、信号源パラメータが前記信号源パラメータ推定値の更新値に固定された条件下で、第2補助関数値を最大化する値であり、
前記第2補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値の更新値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第3パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第3パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値である、信号強調装置。 - 請求項1の信号強調装置であって、
前記時間領域信号が、M個のセンサで観測された信号であり、Mが2以上であり、
前記残響パラメータ推定値が、前記回帰係数を要素にもつM行M列の回帰行列推定値を含み、
前記雑音パラメータ推定値が、前記雑音のパワースペクトルの推定値を対角要素とする、M行M列の雑音パワークロススペクトル行列推定値を含み、
前記パラメータ推定値が、前記信号源パラメータ推定値と、前記残響パラメータ推定値と、前記雑音パラメータ推定値と、を含み、
前記第1更新部が、雑音抑圧処理部と、信号源パラメータ推定値更新部と、を含み、
前記雑音抑圧処理部は、
前記観測信号と前記パラメータ推定値とが入力され、所定の観測区間に属する前記観測信号の集合と前記パラメータ推定値との組合せを前提条件とした前記観測区間に属する前記残響重畳信号の集合の条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)を特定する複素正規分布の平均及び共分散行列を算出するように構成され、
前記残響重畳信号が、前記観測信号から雑音が取り除かれた信号であり、
前記信号源パラメータ推定値更新部は、
前記残響パラメータ推定値と、前記複素正規分布の平均及び共分散行列とが入力され、信号源パラメータ推定値の更新値を算出するように構成され、
前記信号源パラメータ推定値の更新値は、残響パラメータが前記残響パラメータ推定値に固定された条件下で、第1補助関数値を最大化する値であり、
前記第1補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第2パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第2パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値であり、
前記第2更新部が、
前記信号源パラメータ推定値の更新値と、前記複素正規分布の平均及び共分散行列とが入力され、残響パラメータ推定値の更新値を算出するように構成された残響パラメータ推定値更新部を含み、
前記残響パラメータ推定値の更新値は、信号源パラメータが信号源パラメータ推定値の更新値に固定された条件下で、第2補助関数値を最大化する値であり、
前記第2補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値の更新値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第3パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第3パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値である、信号強調装置。 - 請求項6又は7の信号強調装置であって、
前記雑音パラメータ推定値は、前記雑音の確率分布を示す複素正規分布の分散である、前記雑音のパワースペクトルの推定値を含み、前記残響重畳信号の集合の条件付事後分布p(残響重畳信号の集合|観測信号,パラメータ推定値)の共分散行列のスケールは、前記雑音の確率分布を示す複素正規分布の分散に対して単調増加する値である、信号強調装置。 - 請求項6又は7の信号強調装置であって、
前記観測信号と、前記終了条件を満たした場合の前記第3パラメータ推定値とが入力され、前記源信号の推定値を生成する源信号推定部を有し、
前記源信号推定部は、
前記観測信号と、前記終了条件を満たした場合の前記第3パラメータ推定値とが入力され、前記残響重畳信号の集合の条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の平均を残響重畳信号最終推定値として算出する残響重畳信号推定部と、
前記残響重畳信号最終推定値と、前記終了条件を満たした場合の前記第3パラメータ推定値が含む前記第2残響パラメータ推定値とが入力され、前記残響重畳信号最終推定値から、前記残響重畳信号最終推定値と当該第2残響パラメータ推定値に含まれる回帰係数又は回帰行列との畳み込み演算結果を減じ、源信号最終推定値を生成する線形フィルタ適用部と、を有する、信号強調装置。 - 請求項6又は7の信号強調装置であって、
前記雑音成分のパワースペクトルの推定値が、前記源信号が存在しないと推定される区間の前記観測信号から推定された値である、信号強調装置。 - 請求項6又は7の信号強調装置であって、
前記残響パラメータ推定値及び前記残響パラメータ推定値の更新値に含まれる回帰行列推定値の回帰次数が、周波数帯域によって異なる、信号強調装置。 - (A) 観測された時間領域信号から変換された時間周波数領域の観測信号を記録部に格納するステップと、
(B) 初期化部において、前記観測信号に含まれる残響の推定値を算出する線形畳み込み演算の回帰係数を含む残響パラメータ推定値と、源信号のパワースペクトルを特定する線形予測係数と予測残差パワーとの推定値を含む信号源パラメータ推定値と、雑音のパワースペクトルの推定値を含む雑音パラメータ推定値と、を含むパラメータ推定値の初期値を設定するステップと、
(C) 前記観測信号と前記パラメータ推定値とを第1更新部に入力し、当該第1更新部において、前記残響パラメータ推定値および雑音パラメータ推定値の少なくとも一部の更新処理、あるいは前記信号源パラメータ推定値の更新処理、のいずれか一方を、前記パラメータ推定値に関する対数尤度関数の値が増加するように実行するステップと、
(D) 前記ステップ(C)で得られたパラメータ推定値の更新値の少なくとも一部を第2更新部に入力し、当該第2更新部において、残響パラメータ推定値および雑音パラメータ推定値の少なくとも一部の更新処理、あるいは前記信号源パラメータ推定値の更新処理のうち、前記ステップ(C)で実行されなかったものを、前記パラメータ推定値の更新値に関する対数尤度関数の値が増加するように実行するステップと、
(E) 終了条件判定部において、終了条件が満たされるか否かを判定するステップと、を有し、
前記終了条件が満たされない場合、前記第1更新部と前記第2更新部の処理が再び実行される、信号強調方法。 - 請求項12の信号強調方法であって、
前記時間領域信号が、M個のセンサで観測された信号であり、
前記残響パラメータ推定値が、前記回帰係数を要素にもつM行M列の回帰行列推定値を含み、
前記雑音パラメータ推定値が、前記雑音のパワースペクトルを対角要素とするM行M列の雑音パワークロススペクトル行列推定値を含み、
前記パラメータ推定値が、前記残響パラメータ推定値と、前記信号源パラメータ推定値と、前記雑音パラメータ推定値と、M次元のステアリングベクトル推定値と、を含み、
前記第1更新部が、
源信号推定値更新部と、ステアリングベクトル推定値更新部と、信号源パラメータ推定値更新部と、を含み、
前記ステップ(C)が、
(C-1) 前記源信号推定値更新部において、前記観測信号と前記パラメータ推定値とが入力され、雑音重畳信号推定値と、源信号推定値と、前記源信号推定値の誤差分散とを算出するステップと、
(C-2) 前記ステアリングベクトル推定値更新部において、前記雑音重畳信号推定値と前記源信号推定値とが入力され、ステアリングベクトル推定値の更新値を算出するステップと、
(C-3) 前記信号源パラメータ推定値更新部において、前記源信号推定値のパワーと前記誤差分散とを加算してパワースペクトルを算出し、前記パワースペクトルを用いて信号源パラメータ推定値の更新値を算出するステップと、を含み、
前記第2更新部が、源信号パワースペクトル推定値更新部と、雑音パラメータ推定値更新部と、残響パラメータ推定値更新部とを含み、
前記ステップ(D)が、
(D-1) 前記信号源パラメータ推定値の更新値を前記源信号パワースペクトル推定値更新部に入力し、前記源信号パワースペクトル推定値更新部において、前記信号源パラメータ推定値の更新値に対応する源信号パワースペクトル推定値の更新値を算出するステップと、
(D-2) 前記源信号推定値と、前記雑音重畳信号推定値と、前記ステアリングベクトル推定値の更新値を前記雑音パラメータ推定値更新部に入力し、前記雑音パラメータ推定値更新部において、前記雑音パラメータ推定値の更新値を生成するステップと、
(D-3)前記観測信号と、前記ステアリングベクトル推定値の更新値と、前記源信号パワースペクトル推定値の更新値と、前記雑音パラメータ推定値の更新値とを前記残響パラメータ推定値更新部に入力し、前記残響パラメータ推定値更新部において、前記回帰行列推定値の更新値を算出するステップと、を含む、信号強調方法。 - 請求項12の信号強調方法であって、
前記時間領域信号が1個のセンサで観測された信号であり、
前記残響パラメータ推定値が、前記回帰係数の推定値を含み、
前記雑音パラメータ推定値が、前記雑音のパワースペクトルの推定値を含み、
前記パラメータ推定値が、前記信号源パラメータ推定値と、前記残響パラメータ推定値と、前記雑音パラメータ推定値と、を含み、
前記第1更新部が、
雑音抑圧処理部と、信号源パラメータ推定値更新部と、を含み、
前記ステップ(C)が、
(C-1) 前記観測信号と前記パラメータ推定値とを前記雑音抑圧処理部に入力し、前記雑音抑圧処理部において、所定の観測区間に属する前記観測信号の集合と前記パラメータ推定値との組合せを前提条件とした前記観測区間に属する残響重畳信号の集合の条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)を特定する複素正規分布の平均及び共分散行列を算出するステップと、
(C-2) 前記残響パラメータ推定値と、前記複素正規分布の平均及び共分散行列とを前記信号源パラメータ推定値更新部に入力し、前記信号源パラメータ推定値更新部において、信号源パラメータ推定値の更新値を算出するステップと、を含み、
前記残響重畳信号が、前記観測信号から雑音が取り除かれた信号であり、
前記信号源パラメータ推定値の更新値は、残響パラメータが前記残響パラメータ推定値に固定された条件下で、第1補助関数値を最大化する値であり、
前記第1補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第2パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第2パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値であり、
前記第2更新部が、残響パラメータ推定値更新部を含み、
前記ステップ(D)が、
前記信号源パラメータ推定値の更新値と、前記複素正規分布の平均及び共分散行列とを前記残響パラメータ推定値更新部に入力し、前記残響パラメータ推定値更新部において、前記残響パラメータ推定値の更新値を算出するステップを含み、
前記残響パラメータ推定値の更新値は、信号源パラメータが前記信号源パラメータ推定値の更新値に固定された条件下で、第2補助関数値を最大化する値であり、
前記第2補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値の更新値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第3パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第3パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値である、信号強調方法。 - 請求項12の信号強調方法であって、
前記時間領域信号が、M個のセンサで観測された信号であり、Mが2以上であり、
前記残響パラメータ推定値が、前記回帰係数を要素にもつM行M列の回帰行列推定値を含み、
前記雑音パラメータ推定値が、前記雑音のパワースペクトルの推定値を対角要素とする、M行M列の雑音パワークロススペクトル行列推定値を含み、
前記パラメータ推定値が、前記信号源パラメータ推定値と、前記残響パラメータ推定値と、前記雑音パラメータ推定値と、を含み、
前記第1更新部が、雑音抑圧処理部と、信号源パラメータ推定値更新部と、を含み、
前記ステップ(C)が、
(C-1) 前記観測信号と前記パラメータ推定値とを前記雑音抑圧処理部に入力し、前記雑音抑圧処理部において、所定の観測区間に属する前記観測信号の集合と前記パラメータ推定値との組合せを前提条件とした前記観測区間に属する前記残響重畳信号の集合の条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)を特定する複素正規分布の平均及び共分散行列を算出するステップと、
(C-2) 前記残響パラメータ推定値と、前記複素正規分布の平均及び共分散行列を前記信号源パラメータ推定値更新部に入力し、前記信号源パラメータ推定値更新部ににおいて、信号源パラメータ推定値の更新値を算出するステップと、を含み、
前記残響重畳信号が、前記観測信号から雑音が取り除かれた信号であり、
前記信号源パラメータ推定値の更新値は、残響パラメータが前記残響パラメータ推定値に固定された条件下で、第1補助関数値を最大化する値であり、
前記第1補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第2パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第2パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値であり、
前記第2更新部が、残響パラメータ推定値更新部を含み、
前記ステップ(D)が、
前記信号源パラメータ推定値の更新値と、前記複素正規分布の平均及び共分散行列とを前記残響パラメータ推定値更新部に入力し、前記残響パラメータ推定値更新部において、前記残響パラメータ推定値の更新値を算出するステップを含み、
前記残響パラメータ推定値の更新値は、信号源パラメータが前記信号源パラメータ推定値の更新値に固定された条件下で、第2補助関数値を最大化する値であり、
前記第2補助関数値が、前記観測信号の集合と前記残響重畳信号の集合とが与えられたときの、前記残響パラメータの推定値の更新値と、前記信号源パラメータ推定値の更新値と、前記雑音パラメータ推定値とを含む第3パラメータ推定値に関する尤度関数値p(観測信号の集合,残響重畳信号の集合|第3パラメータ推定値)の対数関数と、前記条件付事後分布p(残響重畳信号の集合|観測信号の集合,パラメータ推定値)の積を、当該残響重畳信号の集合について積分した関数の関数値である、信号強調方法。 - 請求項12から15の何れかの信号強調方法の各ステップをコンピュータに実行させるためのプログラム。
- 請求項16のプログラムを格納したコンピュータ読み取り可能な記録媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010501966A JP5124014B2 (ja) | 2008-03-06 | 2009-03-05 | 信号強調装置、その方法、プログラム及び記録媒体 |
US12/920,222 US8848933B2 (en) | 2008-03-06 | 2009-03-05 | Signal enhancement device, method thereof, program, and recording medium |
CN2009801069459A CN101965613B (zh) | 2008-03-06 | 2009-03-05 | 信号增强装置及方法 |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008056757 | 2008-03-06 | ||
JP2008-056757 | 2008-03-06 | ||
JP2008-214066 | 2008-08-22 | ||
JP2008214066 | 2008-08-22 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2009110574A1 true WO2009110574A1 (ja) | 2009-09-11 |
Family
ID=41056126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2009/054215 WO2009110574A1 (ja) | 2008-03-06 | 2009-03-05 | 信号強調装置、その方法、プログラム及び記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8848933B2 (ja) |
JP (1) | JP5124014B2 (ja) |
CN (1) | CN101965613B (ja) |
WO (1) | WO2009110574A1 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039265A (ja) * | 2009-08-11 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 目的信号強調装置とその方法と、プログラム |
JP2011043547A (ja) * | 2009-08-19 | 2011-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧装置とその方法と、プログラムと記録媒体 |
CN102592606A (zh) * | 2012-03-23 | 2012-07-18 | 福建师范大学福清分校 | 一种补偿小空间听音声环境的均衡信号处理方法 |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
JP2013195511A (ja) * | 2012-03-16 | 2013-09-30 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル推定装置、その方法及びプログラム |
US10152986B2 (en) | 2017-02-14 | 2018-12-11 | Kabushiki Kaisha Toshiba | Acoustic processing apparatus, acoustic processing method, and computer program product |
US11133019B2 (en) | 2017-09-21 | 2021-09-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
JP5550456B2 (ja) * | 2009-06-04 | 2014-07-16 | 本田技研工業株式会社 | 残響抑圧装置、及び残響抑圧方法 |
JP5561195B2 (ja) * | 2011-02-07 | 2014-07-30 | 株式会社Jvcケンウッド | ノイズ除去装置およびノイズ除去方法 |
JP5699844B2 (ja) * | 2011-07-28 | 2015-04-15 | 富士通株式会社 | 残響抑制装置および残響抑制方法並びに残響抑制プログラム |
US8712951B2 (en) | 2011-10-13 | 2014-04-29 | National Instruments Corporation | Determination of statistical upper bound for estimate of noise power spectral density |
US8943014B2 (en) | 2011-10-13 | 2015-01-27 | National Instruments Corporation | Determination of statistical error bounds and uncertainty measures for estimates of noise power spectral density |
US8706657B2 (en) * | 2011-10-13 | 2014-04-22 | National Instruments Corporation | Vector smoothing of complex-valued cross spectra to estimate power spectral density of a noise signal |
WO2014085978A1 (en) * | 2012-12-04 | 2014-06-12 | Northwestern Polytechnical University | Low noise differential microphone arrays |
CN103886867B (zh) * | 2012-12-21 | 2017-06-27 | 华为技术有限公司 | 一种噪声抑制装置及其方法 |
CN105122359B (zh) * | 2013-04-10 | 2019-04-23 | 杜比实验室特许公司 | 语音去混响的方法、设备和系统 |
US20160314800A1 (en) * | 2013-12-23 | 2016-10-27 | Analog Devices, Inc. | Computationally efficient method for filtering noise |
EP2916321B1 (en) * | 2014-03-07 | 2017-10-25 | Oticon A/s | Processing of a noisy audio signal to estimate target and noise spectral variances |
CN104459509B (zh) * | 2014-12-04 | 2017-12-29 | 北京中科新微特科技开发股份有限公司 | 测量待测器件的热阻的方法 |
CN105791722B (zh) * | 2014-12-22 | 2018-12-07 | 深圳Tcl数字技术有限公司 | 电视机声音调整方法及电视机 |
CN108292508B (zh) * | 2015-12-02 | 2021-11-23 | 日本电信电话株式会社 | 空间相关矩阵估计装置、空间相关矩阵估计方法和记录介质 |
US11304000B2 (en) * | 2017-08-04 | 2022-04-12 | Nippon Telegraph And Telephone Corporation | Neural network based signal processing device, neural network based signal processing method, and signal processing program |
US10481831B2 (en) * | 2017-10-02 | 2019-11-19 | Nuance Communications, Inc. | System and method for combined non-linear and late echo suppression |
US10572770B2 (en) * | 2018-06-15 | 2020-02-25 | Intel Corporation | Tangent convolution for 3D data |
CN111489760B (zh) * | 2020-04-01 | 2023-05-16 | 腾讯科技(深圳)有限公司 | 语音信号去混响处理方法、装置、计算机设备和存储介质 |
CN113689869B (zh) * | 2021-07-26 | 2024-08-16 | 浙江大华技术股份有限公司 | 语音增强方法、电子设备以及计算机可读存储介质 |
CN113469388B (zh) * | 2021-09-06 | 2021-11-23 | 江苏中车数字科技有限公司 | 轨道交通车辆维保系统及方法 |
CN113840034B (zh) * | 2021-11-29 | 2022-05-20 | 荣耀终端有限公司 | 声音信号处理方法和终端设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998039946A1 (fr) * | 1997-03-06 | 1998-09-11 | Asahi Kasei Kogyo Kabushiki Kaisha | Procede et dispositif de traitement de la parole |
JP2005249816A (ja) * | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
JP2006243290A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2007041508A (ja) * | 2005-07-06 | 2007-02-15 | Nippon Telegr & Teleph Corp <Ntt> | 混合信号分析装置、目的信号区間推定装置、混合信号分析方法、目的信号区間推定方法、プログラム及び記録媒体 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE521024C2 (sv) * | 1999-03-08 | 2003-09-23 | Ericsson Telefon Ab L M | Metod och anordning för att separera en blandning av källsignaler |
JP2007235646A (ja) * | 2006-03-02 | 2007-09-13 | Hitachi Ltd | 音源分離装置、方法及びプログラム |
JP4774100B2 (ja) * | 2006-03-03 | 2011-09-14 | 日本電信電話株式会社 | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 |
CN101416237B (zh) * | 2006-05-01 | 2012-05-30 | 日本电信电话株式会社 | 基于源和室内声学的概率模型的语音去混响方法和设备 |
-
2009
- 2009-03-05 WO PCT/JP2009/054215 patent/WO2009110574A1/ja active Application Filing
- 2009-03-05 JP JP2010501966A patent/JP5124014B2/ja active Active
- 2009-03-05 US US12/920,222 patent/US8848933B2/en active Active
- 2009-03-05 CN CN2009801069459A patent/CN101965613B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998039946A1 (fr) * | 1997-03-06 | 1998-09-11 | Asahi Kasei Kogyo Kabushiki Kaisha | Procede et dispositif de traitement de la parole |
JP2005249816A (ja) * | 2004-03-01 | 2005-09-15 | Internatl Business Mach Corp <Ibm> | 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム |
JP2006243290A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 外乱成分抑圧装置、コンピュータプログラム、及び音声認識システム |
JP2007041508A (ja) * | 2005-07-06 | 2007-02-15 | Nippon Telegr & Teleph Corp <Ntt> | 混合信号分析装置、目的信号区間推定装置、混合信号分析方法、目的信号区間推定方法、プログラム及び記録媒体 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011039265A (ja) * | 2009-08-11 | 2011-02-24 | Nippon Telegr & Teleph Corp <Ntt> | 目的信号強調装置とその方法と、プログラム |
JP2011043547A (ja) * | 2009-08-19 | 2011-03-03 | Nippon Telegr & Teleph Corp <Ntt> | 残響抑圧装置とその方法と、プログラムと記録媒体 |
WO2013132926A1 (ja) * | 2012-03-06 | 2013-09-12 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
JPWO2013132926A1 (ja) * | 2012-03-06 | 2015-07-30 | 日本電信電話株式会社 | 雑音推定装置、雑音推定方法、雑音推定プログラム及び記録媒体 |
JP2013195511A (ja) * | 2012-03-16 | 2013-09-30 | Nippon Telegr & Teleph Corp <Ntt> | スペクトル推定装置、その方法及びプログラム |
CN102592606A (zh) * | 2012-03-23 | 2012-07-18 | 福建师范大学福清分校 | 一种补偿小空间听音声环境的均衡信号处理方法 |
US10152986B2 (en) | 2017-02-14 | 2018-12-11 | Kabushiki Kaisha Toshiba | Acoustic processing apparatus, acoustic processing method, and computer program product |
US11133019B2 (en) | 2017-09-21 | 2021-09-28 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Signal processor and method for providing a processed audio signal reducing noise and reverberation |
Also Published As
Publication number | Publication date |
---|---|
JP5124014B2 (ja) | 2013-01-23 |
JPWO2009110574A1 (ja) | 2011-07-14 |
CN101965613B (zh) | 2013-01-02 |
US20110044462A1 (en) | 2011-02-24 |
US8848933B2 (en) | 2014-09-30 |
CN101965613A (zh) | 2011-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
Wang et al. | Complex spectral mapping for single-and multi-channel speech enhancement and robust ASR | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
CN108172231B (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
Kinoshita et al. | Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction | |
US7895038B2 (en) | Signal enhancement via noise reduction for speech recognition | |
JP5227393B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体 | |
JP5550456B2 (ja) | 残響抑圧装置、及び残響抑圧方法 | |
Xiao et al. | The NTU-ADSC systems for reverberation challenge 2014 | |
EP3685378B1 (en) | Signal processor and method for providing a processed audio signal reducing noise and reverberation | |
JP6348427B2 (ja) | 雑音除去装置及び雑音除去プログラム | |
Zhao et al. | Robust speech recognition using beamforming with adaptive microphone gains and multichannel noise reduction | |
CN114220453A (zh) | 基于频域卷积传递函数的多通道非负矩阵分解方法及系统 | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
JP4348393B2 (ja) | 信号歪み除去装置、方法、プログラム及びそのプログラムを記録した記録媒体 | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
Parchami et al. | Speech reverberation suppression for time-varying environments using weighted prediction error method with time-varying autoregressive model | |
CN113160842B (zh) | 一种基于mclp的语音去混响方法及系统 | |
Miyazaki et al. | Theoretical analysis of parametric blind spatial subtraction array and its application to speech recognition performance prediction | |
KR101537653B1 (ko) | 주파수 또는 시간적 상관관계를 반영한 잡음 제거 방법 및 시스템 | |
Raikar et al. | Multi-channel joint dereverberation and denoising using deep priors | |
CN115588438B (zh) | 一种基于双线性分解的wls多通道语音去混响方法 | |
JP5172797B2 (ja) | 残響抑圧装置とその方法と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WWE | Wipo information: entry into national phase |
Ref document number: 200980106945.9 Country of ref document: CN |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 09717711 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2010501966 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
WWE | Wipo information: entry into national phase |
Ref document number: 12920222 Country of ref document: US |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 09717711 Country of ref document: EP Kind code of ref document: A1 |