[go: up one dir, main page]

JP2003280696A - Voice enhancement device and voice enhancement method - Google Patents

Voice enhancement device and voice enhancement method

Info

Publication number
JP2003280696A
JP2003280696A JP2002077327A JP2002077327A JP2003280696A JP 2003280696 A JP2003280696 A JP 2003280696A JP 2002077327 A JP2002077327 A JP 2002077327A JP 2002077327 A JP2002077327 A JP 2002077327A JP 2003280696 A JP2003280696 A JP 2003280696A
Authority
JP
Japan
Prior art keywords
noise
comb filter
voice
spectrum
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002077327A
Other languages
Japanese (ja)
Other versions
JP3960834B2 (en
Inventor
Yoka O
幼華 王
Koji Yoshida
幸司 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2002077327A priority Critical patent/JP3960834B2/en
Publication of JP2003280696A publication Critical patent/JP2003280696A/en
Application granted granted Critical
Publication of JP3960834B2 publication Critical patent/JP3960834B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Noise Elimination (AREA)

Abstract

(57)【要約】 【課題】 音声の歪みが少なくかつ雑音を十分に除
去すること。 【解決手段】 第二コムフィルタ生成部109は、雑音
情報に影響されないように、第二音声/非音声識別部1
07の閾値を高く設定して、各周波数成分における音声
成分の有無に基づいて音声ピッチ調波構造を修復する基
準コムフィルタとして生成する。ピッチ推定部111
は、周波数分割部104から出力された音声スペクトル
から音声ピッチ周期を推定し、推定結果をピッチ調波構
造修復部112に出力する。ピッチ調波構造修復部11
2は、この推定結果と第二コムフィルタ生成部109の
結果に基づいてピッチ調波構造の修復を行い、その結果
をコムフィルタ修正部113に出力する。コムフィルタ
修正部113は、ピッチ調波構造修復部112から出力
された推定結果と第一コムフィルタ生成部108から出
力された結果を組み合せてコムフィルタの修正を行う。
(57) [Summary] [PROBLEMS] To reduce voice distortion and sufficiently remove noise. SOLUTION: A second comb filter generation unit 109 controls a second speech / non-speech discrimination unit 1 so as not to be affected by noise information.
A threshold value of 07 is set high, and a reference comb filter for restoring the voice pitch harmonic structure based on the presence or absence of the voice component in each frequency component is generated. Pitch estimation section 111
Estimates the speech pitch period from the speech spectrum output from the frequency division unit 104, and outputs the estimation result to the pitch harmonic structure restoration unit 112. Pitch harmonic structure restoration unit 11
2 restores the pitch harmonic structure based on the estimation result and the result of the second comb filter generation unit 109, and outputs the result to the comb filter correction unit 113. The comb filter correction unit 113 corrects the comb filter by combining the estimation result output from the pitch harmonic structure recovery unit 112 and the result output from the first comb filter generation unit 108.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声強調装置及び
音声強調方法に関し、特に通信に用いて好適な音声強調
装置及び音声強調方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a voice enhancement device and a voice enhancement method, and more particularly to a voice enhancement device and a voice enhancement method suitable for use in communication.

【0002】[0002]

【従来の技術】従来の音声符号化通信において、低ビッ
トレートで音声を符号化して通信を行うと、背景雑音の
ない音声に対しては高品質な音声での通話を提供するこ
とができるが、背景雑音が含まれた音声に対しては低ビ
ットレート符号化特有の耳障りな歪みが生じ、音質が劣
化する。
2. Description of the Related Art In conventional voice coded communication, when voice is coded at a low bit rate for communication, it is possible to provide a voice call with high quality for voice without background noise. , The sound with background noise causes annoying distortion peculiar to low bit rate coding, and the sound quality deteriorates.

【0003】この音質が劣化する問題の対処するため雑
音抑圧処理を行うことがある。この雑音抑圧処理に関す
る音声強調技術としてスペクトルサブトラクション法、
およびコムフィルタ法がある。
In order to deal with this problem of sound quality deterioration, noise suppression processing may be performed. The spectral subtraction method is used as a speech enhancement technology for this noise suppression processing.
And there is a comb filter method.

【0004】スペクトルサブトラクション法(SS法)
は、雑音情報に着目して無音区間で雑音の性質を推定し
て雑音を含む音声信号の短時間パワスペクトルから雑音
の短時間パワスペクトルを減算する、または減衰係数を
乗算することにより音声信号のパワスペクトルを推定し
て雑音を抑圧する方法である。SS法は、例えば、文献
1(S.Boll,Suppression of acoustic noise in speech
using spectral subtraction,IEEE Trans.Acoustics,S
peech,and Signal Processing,vol.ASSP-27,pp.113-12
0,1979)、文献2(R.J.McAulay,M.L.Malpass,Speech en
hancement usinga soft-decision noise suppression f
ilter,IEEE.Trans.Acoustics,Speech,and Signal Proce
ssing,vol.ASSP-28,pp.137-145.1980)に記載されている
ものがある。
Spectral subtraction method (SS method)
Pays attention to the noise information, estimates the nature of noise in a silent section, subtracts the short-time power spectrum of noise from the short-time power spectrum of the voice signal containing noise, or multiplies the attenuation coefficient by This is a method of estimating the power spectrum and suppressing noise. The SS method is described in, for example, Document 1 (S. Boll, Suppression of acoustic noise in speech.
using spectral subtraction, IEEE Trans.Acoustics, S
peech, and Signal Processing, vol.ASSP-27, pp.113-12
0,1979), reference 2 (RJMcAulay, MLMalpass, Speech en.
hancement using a soft-decision noise suppression f
ilter, IEEE.Trans.Acoustics, Speech, and Signal Proce
ssing, vol.ASSP-28, pp.137-145.1980).

【0005】しかしながら、SS法では、音声からノイ
ズを差し引いた後の残留ノイズとして、音声ピッチ間の
残留ノイズに起因する歪を生じる。
However, in the SS method, distortion resulting from residual noise between voice pitches occurs as residual noise after the noise is subtracted from the voice.

【0006】例えば、音声強調方法として用いられる文
献1に示したSS法では、ノイズ情報のみに着目し、短
時間のノイズ特性を定常と見なして、音声とノイズを区
別せず、一律にノイズベース(推定されたノイズのスペ
クトル特性)を差し引く。しかし、SS法では、音声の
情報(例えば、音声のピッチ)は利用していない。実際
の通信では、ノイズの特性が定常でないため、差し引か
れた後の残留ノイズ、特に音声ピッチ間の残留ノイズに
より、いわゆる「ミュジカルノイズ」と呼ばれる不自然
な歪を生じる。
[0006] For example, in the SS method shown in Document 1 used as a speech enhancement method, only noise information is focused on, noise characteristics in a short time are regarded as stationary, and speech and noise are not distinguished, and a noise base is uniformly applied. Subtract the (estimated noise spectral characteristics). However, the SS method does not use voice information (for example, voice pitch). In actual communication, since the noise characteristic is not stationary, residual noise after the subtraction, particularly residual noise between voice pitches causes an unnatural distortion called "musical noise".

【0007】この不自然な歪みの改善法として、音声パ
ワ対ノイズパワの比(SNR)に基づき、減衰係数を乗
じてノイズを減衰する方法、例えば、特許第27146
56号及び特願平9-518820号に開示されたもの
が提案されている。
As a method for improving this unnatural distortion, a method of multiplying an attenuation coefficient based on the ratio of voice power to noise power (SNR) to attenuate noise, for example, Japanese Patent No. 27146.
No. 56 and Japanese Patent Application No. 9-518820 have been proposed.

【0008】これらに開示された方法では、音声の大き
い(SNRが大きい)帯域とノイズの大きい(SNRが
小さい)帯域を区別して異なる減衰係数を用いるため、
ミュジカルノイズを抑制し、音質を向上させた。
[0008] In the methods disclosed in these, different attenuation coefficients are used by distinguishing a band of large speech (large SNR) and a band of large noise (small SNR) from each other.
Suppressed musical noise and improved sound quality.

【0009】しかし、特許第2714656号及び特願
平9-518820号に開示された方法では、処理する
周波数チャネル数(16チャネル)は十分でないので、
音声ピッチ調波情報を雑音から分離し抽出することがむ
ずかしい。
However, in the methods disclosed in Japanese Patent No. 2714656 and Japanese Patent Application No. 9-518820, the number of frequency channels to be processed (16 channels) is not sufficient.
It is difficult to separate voice pitch harmonic information from noise and extract it.

【0010】また、音声とノイズ両方の帯域に減衰係数
を用いるため、互いに影響を及ぼし合う結果、減衰係数
は大きくすることができない。例えば、減衰係数を大き
くすると、SNR推定の誤りによって、音声の歪みを生
じる可能性がある。この結果、ノイズの減衰が不十分と
なる。
Further, since the attenuation coefficient is used for both the voice and noise bands, they influence each other, so that the attenuation coefficient cannot be increased. For example, if the attenuation coefficient is increased, the SNR estimation error may cause distortion of the voice. As a result, noise attenuation is insufficient.

【0011】一方、コムフィルタ法は、音声情報に着目
し、音声ピッチにコムフィルタをかけることにより雑音
減衰を行う方法である。コムフィルタとは、周波数領域
単位で入力された信号を所定の比率で減衰させ、または
減衰させずに信号を出力するフィルタであり、櫛状の減
衰特性をもつ。デジタルデータ処理でコムフィルタ法を
実現する場合、コムフィルタ法では、コムフィルタの減
衰特性を周波数領域毎に減衰特性のデータを作成し、周
波数毎に音声スペクトルを乗算することにより雑音を抑
圧できる。
On the other hand, the comb filter method is a method of paying attention to voice information and applying noise to the voice pitch by applying a comb filter. The comb filter is a filter that outputs a signal with or without attenuating a signal input in a frequency domain unit at a predetermined ratio, and has a comb-like attenuation characteristic. When the comb filter method is realized by digital data processing, in the comb filter method, noise can be suppressed by creating attenuation characteristic data of the comb filter for each frequency domain and multiplying the voice spectrum for each frequency.

【0012】コムフィルタ法に関する文献として、文献
3(J.S.Lim etc.,Evaluation of anadaptive comb filt
ering method for enhancing speech degraded by whit
e noise addition,IEEE Trans.Acoustics,Speech,and S
ignal Processing,vol.ASSP26,pp.354-358,1978)に示す
ものがある。
As a document relating to the comb filter method, a document 3 (JSLim etc., Evaluation of anadaptive comb filt
ering method for enhancing speech degraded by whit
e noise addition, IEEE Trans. Acoustics, Speech, and S
ignal Processing, vol.ASSP26, pp.354-358, 1978).

【0013】従来のコムフィルタ法では、基本周波数で
あるピッチに推定誤差があると、その高調波では誤差分
が拡大し、本来の高調波成分がその通過帯域からはずれ
る可能性がより大きくなる。また、準周期性を持つ音声
とそうでない音声を判別する必要があるため、実現性に
問題がある。また、移動体通信において、単に雑音を抑
圧することによって、自然感のある周囲騒音も抑圧さ
れ、通話の違和感を生じることがある。
In the conventional comb filter method, if there is an estimation error in the pitch, which is the fundamental frequency, the error increases in the higher harmonics, and the original higher harmonic component is more likely to deviate from its pass band. Further, there is a problem in feasibility because it is necessary to distinguish between voices having quasi-periodicity and voices that do not. Further, in mobile communication, by simply suppressing noise, ambient noise having a natural feeling is also suppressed, which may cause discomfort in a call.

【0014】通話の違和感を解消する方法として、音声
と雑音を分離し、それぞれ符号化と復号化を行うことに
よって良好な音声と周囲騒音を再生する技術がある。例
えば、文献4(三関 公生, 押切 正浩, 音声・背景雑音
分離にもとづく低レート音声符号化, 日本音響学会講演
論文集, pp.235-236, 平成10年3月)に示した方法があ
る。
As a method of eliminating the discomfort of a telephone call, there is a technique of separating voice and noise, and reproducing and reproducing good voice and ambient noise by performing encoding and decoding, respectively. For example, the method shown in Reference 4 (Kimio Mizeki, Masahiro Oshikiri, Low-rate speech coding based on speech / background noise separation, Proceedings of the Acoustical Society of Japan, pp.235-236, March 1998) is used. is there.

【0015】文献4に示した方法は、SS法を用いて音
声強調を行い、雑音抑圧された入力信号を音声成分と
し、入力信号と音声成分を減算した結果を雑音成分とす
る方法である。基本的にはSS法と同じ方法であるた
め、本方法による分離方法では良好な音声と雑音特性を
得ることが難しい。
The method described in Document 4 is a method in which voice enhancement is performed using the SS method, a noise-suppressed input signal is used as a voice component, and a result obtained by subtracting the input signal and the voice component is used as a noise component. Since it is basically the same method as the SS method, it is difficult to obtain good voice and noise characteristics by the separation method according to this method.

【0016】[0016]

【発明が解決しようとする課題】このように、従来の装
置においては、音声の歪みが少なくかつ雑音を十分に除
去することが難しいという問題がある。
As described above, in the conventional device, there is a problem that the distortion of the voice is small and it is difficult to sufficiently remove the noise.

【0017】発明は、かかる点に鑑みてなされたもので
あり、音声の歪みが少なくかつ雑音を十分に除去するこ
とができる音声強調装置を提供するとともに、良好な音
声と雑音の特性を得られる音声強調装置及び音声強調方
法を提供することを目的とする。
The present invention has been made in view of the above points, and provides a voice emphasizing device which has a small amount of distortion of voice and is capable of sufficiently removing noise, and at the same time, excellent characteristics of voice and noise can be obtained. An object is to provide a voice enhancement device and a voice enhancement method.

【0018】[0018]

【課題を解決するための手段】本発明の音声強調装置
は、入力信号のスペクトルを所定の周波数単位で分割し
た周波数分割スペクトルを出力する周波数分割手段と、
周波数分割スペクトルに基づいて無音と判定した周波数
領域の信号を減衰する第一コムフィルタを作成する第一
コムフィルタ作成手段と、周波数分割スペクトルに基づ
いて第一コムフィルタより多くの雑音のピークを取り除
いたフィルタである第二コムフィルタを作成する第二コ
ムフィルタ作成手段と、前記第二コムフィルタと前記周
波数分割スペクトルとから推定した音声ピッチで前記第
一コムフィルタに含まれる音声ピッチ調波構造を修正す
るコムフィルタ修正手段と、前記コムフィルタ修正手段
において修正された第一コムフィルタを用いて前記周波
数分割スペクトルのノイズを抑圧する抑圧手段と、ノイ
ズを抑圧した前記周波数分割スペクトルを周波数領域で
連続したスペクトル信号に合成する音声周波数合成手段
と、を具備する構成を採る。
A speech emphasizing apparatus according to the present invention comprises frequency division means for outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in predetermined frequency units,
A first comb filter creating means for creating a first comb filter for attenuating a frequency domain signal determined to be silent based on the frequency divided spectrum, and removing more noise peaks than the first comb filter based on the frequency divided spectrum Second comb filter creating means for creating a second comb filter which is a filter, and a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from the second comb filter and the frequency division spectrum. Comb filter modifying means for modifying, suppressing means for suppressing the noise of the frequency-divided spectrum using the first comb filter modified by the comb-filter modifying means, and the frequency-divided spectrum in which the noise is suppressed is continuous in the frequency domain. And a voice frequency synthesizing means for synthesizing the same into the spectrum signal. The take.

【0019】この構成によれば、音声信号のスペクトル
から音声ピークである可能性の高いピークを取り出して
音声ピッチを推定するコムフィルタを作成し、このコム
フィルタから正確な音声ピッチ情報を取得し、また、で
きる限り多くの音声情報を取り出してノイズ信号の抑圧
を行うコムフィルタを作成し、このコムフィルタを用い
て雑音に埋もれた音声スペクトルのピークを抑圧しない
ことにより、正しい音声ピッチ情報に基づいて欠落した
音声ピッチ調波構造を補ったコムフィルタを作成するこ
とができ、このコムフィルタを用いてノイズ信号を抑圧
することにより、音声歪みの少ない音声強調を行うこと
ができる。
According to this configuration, a comb filter for estimating a voice pitch by extracting a peak which is likely to be a voice peak from the spectrum of the voice signal is created, and accurate voice pitch information is acquired from the comb filter. In addition, a comb filter that extracts as much speech information as possible to suppress the noise signal is created, and the peak of the speech spectrum buried in noise is not suppressed by using this comb filter. It is possible to create a comb filter that compensates for the missing voice pitch harmonic structure, and by suppressing noise signals using this comb filter, it is possible to perform voice enhancement with less voice distortion.

【0020】本発明の音声強調装置は、第一コムフィル
タと第二コムフィルタとから音声スペクトルに音声成分
が含まれているか否か判定する音声/雑音フレーム検出
手段を具備し、コムフィルタ修正手段は、前記音声/雑
音フレーム検出手段の判定が音声成分を含まない結果で
ある場合、前記第一コムフィルタに各周波数成分で信号
を減衰する修正をする構成を採る。
The speech enhancement apparatus of the present invention comprises speech / noise frame detection means for determining whether or not the speech spectrum includes a speech component from the first comb filter and the second comb filter, and the comb filter correction means. If the result of the determination by the voice / noise frame detection means is that the voice component is not included, the first comb filter is modified to attenuate the signal at each frequency component.

【0021】本発明の音声強調装置は、前記音声/雑音
フレーム検出手段は、第一コムフィルタの通過域におけ
る入力信号のパワスペクトルの和と第一コムフィルタの
阻止域における入力信号のパワスペクトルの和の比を第
一結果とし、第二コムフィルタの通過域における入力信
号のパワスペクトルの和と第二コムフィルタの阻止域に
おける入力信号のパワスペクトルの和の比を第二結果と
し、第一結果と第二結果を加算した結果が所定の閾値よ
り大きい場合、前記加算結果を用い、前記加算結果が所
定の閾値以下である場合、第二結果を用いて音声スペク
トルに音声が含まれるか否か判定する構成を採る。
In the speech emphasizing apparatus of the present invention, the speech / noise frame detecting means includes a sum of power spectra of the input signal in the pass band of the first comb filter and a power spectrum of the input signal in the stop band of the first comb filter. The first result is the ratio of the sums, and the second result is the ratio of the sum of the power spectra of the input signals in the pass band of the second comb filter to the sum of the power spectra of the input signals in the stop band of the second comb filter. If the result of adding the result and the second result is larger than a predetermined threshold value, the addition result is used, and if the addition result is less than or equal to the predetermined threshold value, whether the voice spectrum is included in the voice spectrum using the second result. Take the configuration to judge whether or not.

【0022】これらの構成によれば、第一コムフィルタ
と第二コムフィルタとから音声スペクトルに音声成分が
含まれているか否か判定し、この判定が音声成分を含ま
ない結果である場合、前記第一コムフィルタに各周波数
成分で信号を減衰することにより、突発的に発生するノ
イズを抑圧することができる。
According to these configurations, it is determined from the first comb filter and the second comb filter whether or not the voice spectrum includes a voice component, and when the determination result is that the voice component does not include the voice component, By attenuating the signal with each frequency component in the first comb filter, it is possible to suppress the noise that is suddenly generated.

【0023】本発明の音声強調装置は、第一コムフィル
タ生成手段は、入力信号のパワスペクトルの極小値から
所定の範囲を阻止域とする第一コムフィルタを作成する
構成を採る。
In the voice emphasizing device of the present invention, the first comb filter generating means adopts a construction for forming a first comb filter having a predetermined range as a stop band from the minimum value of the power spectrum of the input signal.

【0024】この構成によれば、入力信号のパワスペク
トルの極小値から所定の範囲を阻止域とするコムフィル
タを作成し、このコムフィルタを用いてノイズ信号を抑
圧することにより、音声とノイズのレベル差が少ない場
合でも、音声ピッチ調波構造を抽出して修復して音声歪
を低減することができる。
According to this configuration, a comb filter having a predetermined range from the minimum value of the power spectrum of the input signal as a stop band is created, and the noise signal is suppressed by using this comb filter, whereby the voice signal and the noise signal are suppressed. Even if the level difference is small, the voice pitch harmonic structure can be extracted and repaired to reduce the voice distortion.

【0025】本発明の音声強調装置は、入力信号のパワ
スペクトルからノイズベースを減算し、減算結果の自己
相関関数を用いて音声ピッチを推定するピッチ推定手段
を具備し、コムフィルタ修正手段は、前記ピッチ推定手
段において推定した音声ピッチで前記第一コムフィルタ
に含まれる音声ピッチ調波構造を修正する構成を採る。
The speech emphasizing device of the present invention comprises pitch estimating means for subtracting the noise base from the power spectrum of the input signal and estimating the speech pitch using the autocorrelation function of the subtraction result. The voice pitch harmonic structure included in the first comb filter is modified by the voice pitch estimated by the pitch estimating means.

【0026】この構成によれば、入力信号のパワスペク
トルからノイズベースを減算し、減算結果の自己相関関
数に基づいて音声ピッチを推定し、推定した音声ピッチ
でコムフィルタに含まれる音声ピッチ調波構造を修正す
ることにより、コムフィルタのピッチ調波構造の修復を
行うことができ、音声歪みの少ない音声強調を行うこと
ができる。
According to this configuration, the noise base is subtracted from the power spectrum of the input signal, the voice pitch is estimated based on the autocorrelation function of the subtraction result, and the voice pitch harmonic included in the comb filter is estimated with the estimated voice pitch. By modifying the structure, the pitch harmonic structure of the comb filter can be restored, and the voice enhancement with less voice distortion can be performed.

【0027】本発明の音声強調装置は、入力信号のパワ
スペクトルからノイズベースを減算した結果に、直流成
分に所定のパワを持つ擬似ピークを生成する直流成分生
成手段を具備し、ピッチ推定手段は、前記直流成分生成
手段において擬似ピークを生成した前記パワスペクトル
から音声ピッチを推定する構成を採る。
The speech emphasizing device of the present invention comprises a direct current component generating means for generating a pseudo peak having a predetermined power in the direct current component as a result of subtracting the noise base from the power spectrum of the input signal, and the pitch estimating means is The voice pitch is estimated from the power spectrum in which the pseudo peak is generated by the DC component generating means.

【0028】この構成によれば、入力信号のパワスペク
トルからノイズベースを減算した結果に直流成分に所定
のパワを持つ擬似ピークを生成し、直流成分を生成した
スペクトルの自己相関関数に基づいて音声ピッチを推定
し、推定した音声ピッチでコムフィルタに含まれる音声
ピッチ調波構造を修正することにより、音声スペクトル
の調波ピークが少ない場合でも、ピッチ情報を得てコム
フィルタのピッチ調波構造の修復を行うことができ、音
声歪みの少ない音声強調を行うことができる。
According to this structure, a pseudo peak having a predetermined power in the DC component is generated as a result of subtracting the noise base from the power spectrum of the input signal, and the voice is generated based on the autocorrelation function of the spectrum in which the DC component is generated. By estimating the pitch and modifying the voice pitch harmonic structure included in the comb filter with the estimated voice pitch, pitch information can be obtained by obtaining pitch information even if there are few harmonic peaks in the voice spectrum. Restoration can be performed, and voice enhancement with less voice distortion can be performed.

【0029】本発明の音声強調装置は、入力信号のパワ
スペクトルからノイズベースを減算した結果において、
パワが所定の閾値以上である周波数領域の数の移動平均
を算出するノイズ特性推定手段を具備し、第二コムフィ
ルタ作成手段は、前記移動平均から入力信号に音声が含
まれるか否か判断した結果より第二コムフィルタを作成
する構成を採る。
The speech enhancement apparatus of the present invention has the following result obtained by subtracting the noise base from the power spectrum of the input signal:
The noise characteristic estimating means for calculating the moving average of the number of frequency regions whose power is equal to or higher than the predetermined threshold is provided, and the second comb filter creating means determines whether or not the input signal includes voice from the moving average. The configuration that creates the second comb filter from the result is adopted.

【0030】この構成によれば、入力信号のノイズレベ
ルの分布を検出し、この分布に基づいて音声スペクトル
からコムフィルタを生成する基準を決定し、作成したコ
ムフィルタからピッチ情報を取得することにより、雑音
の状態に応じたピッチ情報を取得してコムフィルタを作
成することができ、音声歪みの少ない音声強調を行うこ
とができる。
According to this configuration, the distribution of the noise level of the input signal is detected, the reference for generating the comb filter is determined from the voice spectrum based on this distribution, and the pitch information is acquired from the created comb filter. , It is possible to obtain pitch information according to the state of noise and create a comb filter, and it is possible to perform speech enhancement with less speech distortion.

【0031】本発明の音声強調装置は、入力信号のパワ
スペクトルからノイズベースを減算した結果において、
パワが所定の閾値以上である周波数領域の数の移動平均
を算出するノイズ特性推定手段を具備し、第二コムフィ
ルタ作成手段は、ノイズ特性推定手段において算出され
た移動平均が所定の値以下である場合、所定の周波数領
域を阻止域とする第二コムフィルタを作成する構成を採
る。
The speech enhancement apparatus of the present invention has the following result obtained by subtracting the noise base from the power spectrum of the input signal.
The second comb filter creating means has a noise characteristic estimating means for calculating a moving average of the number of frequency regions whose power is equal to or higher than a predetermined threshold, and the second comb filter creating means has a moving average calculated by the noise characteristic estimating means at a predetermined value or less. In some cases, a second comb filter having a predetermined frequency range as a stop band is used.

【0032】この構成によれば、ノイズ特性の推定結果
に基づいて周波数成分を選択し、第二コムフィルタにお
いて、選択された周波数領域をすべて阻止域に変換する
ことによって、分散値の大きいノイズにより生成した偽
のピッチ調波を減少し、偽のピッチ調波を生じにくい低
周波数領域におけるピッチ調波を基準に、ピッチ調波構
造の修復を行えば、正確にピッチ調波構造を修復するこ
とができる。
According to this structure, the frequency component is selected based on the estimation result of the noise characteristic, and the selected frequency region is converted into the stop band in the second comb filter. Accurate restoration of the pitch harmonic structure by reducing the generated false pitch harmonics and repairing the pitch harmonic structure based on the pitch harmonics in the low frequency range where false pitch harmonics are less likely to occur. You can

【0033】本発明の音声強調装置は、入力信号のパワ
スペクトルとノイズベースから信号対雑音比を算出する
SNR推定手段を具備し、抑圧手段は、前記信号対雑音
比から周波数分割スペクトルのノイズの抑圧量を決定す
る構成を採る。
The speech emphasizing apparatus of the present invention comprises SNR estimating means for calculating a signal-to-noise ratio from the power spectrum of the input signal and the noise base, and the suppressing means suppresses the noise of the frequency division spectrum from the signal-to-noise ratio. Adopt a configuration that determines the amount of suppression.

【0034】この構成によれば、修正コムフィルタの通
過域と阻止域において、入力音声パワスペクトルからノ
イズベースを減算する量とノイズ減衰の度合いをSNR
推定値の大きさに応じて調整することによって、異なる
SNRの環境下でも適切なノイズ減衰を行い、音声歪と
残留ノイズの少ない音声強調を実現できる。
According to this configuration, in the pass band and stop band of the modified comb filter, the amount by which the noise base is subtracted from the input speech power spectrum and the degree of noise attenuation are calculated as SNR.
By adjusting according to the magnitude of the estimated value, it is possible to perform appropriate noise attenuation even in environments with different SNRs, and realize voice enhancement with less voice distortion and residual noise.

【0035】本発明の音声強調装置は、SNR推定手段
は、音声成分のレベルを入力信号のパワスペクトルの移
動平均値より算出し、雑音成分のレベルをノイズベース
の推定値に各周波数成分別に重み計数を乗算した値より
算出し、前記音声成分のレベルと前記雑音成分のレベル
の比から信号対雑音比を算出する構成を採る。
In the speech emphasizing apparatus of the present invention, the SNR estimating means calculates the level of the speech component from the moving average value of the power spectrum of the input signal, and weights the noise component level to the noise-based estimation value for each frequency component. It is calculated from the value multiplied by the count, and the signal-to-noise ratio is calculated from the ratio of the level of the voice component and the level of the noise component.

【0036】この構成によれば、入力音声パワスペクト
ルの移動平均値からノイズベースを減算して音声レベル
の計算することにより、ノイズの影響を減少し、低SN
Rの環境下でも正確な音声レベルを計算することができ
る。また、ノイズベース推定値の各周波数成分に重み係
数を乗算して計算することにより、異なるノイズに対し
て適切な減衰を行い、音声歪を低減することができる。
According to this structure, the noise base is subtracted from the moving average value of the input voice power spectrum to calculate the voice level, thereby reducing the influence of noise and reducing the SN.
An accurate voice level can be calculated even under the R environment. In addition, by multiplying each frequency component of the noise-based estimated value by a weighting coefficient for calculation, it is possible to appropriately attenuate different noises and reduce voice distortion.

【0037】本発明の音声強調装置は、信号対雑音比と
前記信号対雑音比の移動平均値との偏差を算出し、前記
偏差を用いて前記信号対雑音比の移動平均値を更新する
変動抑圧手段を具備し、抑圧手段は、変動抑圧手段にお
いて更新された前記信号対雑音比の移動平均値から周波
数分割スペクトルのノイズの抑圧量を決定する構成を採
る。
The speech enhancement apparatus of the present invention calculates the deviation between the signal-to-noise ratio and the moving average value of the signal-to-noise ratio, and uses the deviation to update the moving-average value of the signal-to-noise ratio. The suppressing means is provided with a suppressing means, and the suppressing means determines a noise suppressing amount of the frequency division spectrum from the moving average value of the signal-to-noise ratio updated by the fluctuation suppressing means.

【0038】この構成によれば、SNR推定値とSNR
推定値の長期移動平均値の偏差を計算し、SNR推定値
の長期移動平均値と前記偏差の一部を加算してSNR推
定値として用いることによって、SNRの変動を有効に
抑制し、安定的にSNRの大きさに応じてノイズ減衰の
レベル調整を行うことができる。
According to this configuration, the SNR estimated value and the SNR
The deviation of the long-term moving average of the estimated value is calculated, and the long-term moving average of the SNR estimated value and a part of the deviation are added and used as the SNR estimated value, thereby effectively suppressing the fluctuation of the SNR and stabilizing Further, the level of noise attenuation can be adjusted according to the magnitude of SNR.

【0039】本発明の音声強調装置は、所定の時間単位
で更新速度の異なる二つのノイズベースの移動平均値を
算出し、第一移動平均値より更新速度の速い第二移動平
均値で第一移動平均値の更新条件を変更し、第一移動平
均値をノイズベース推定値として出力するノイズベース
更新手段を具備する構成を採る。
The speech emphasizing device of the present invention calculates two noise-based moving average values having different update speeds in a predetermined time unit, and uses the second moving average value having a faster update speed than the first moving average value as the first moving average value. A configuration is provided that includes a noise base updating unit that changes a moving average value update condition and outputs the first moving average value as a noise base estimated value.

【0040】この構成によれば、更新速度の速い移動平
均係数を用いてノイズベースの推定を行うことによっ
て、音声区間においても雑音レベルの急激な変動を追跡
することができる。また、更新速度の遅いノイズベース
の更新は、更新速度の速いノイズベースに基づいて行う
ことによって、正確にノイズベースの推定を行うことが
でき、雑音レベルの急激な変動によるノイズベース更新
の停止を防止することができる。
According to this configuration, noise-based estimation can be performed using the moving average coefficient having a high update rate, so that a rapid change in the noise level can be tracked even in the voice section. In addition, the noise-based update with a slow update speed can be accurately estimated by performing the noise-based update with a fast update speed, and the noise-based update can be stopped due to a sudden change in the noise level. Can be prevented.

【0041】本発明の無線通信装置は、上記いずれかに
記載の音声強調装置を具備する構成を採る。
The wireless communication apparatus of the present invention has a configuration including any one of the above-described voice enhancing apparatuses.

【0042】この構成によれば、音声信号のスペクトル
から音声ピークである可能性の高いピークを取り出して
音声ピッチを推定するコムフィルタを作成し、このコム
フィルタから正確な音声ピッチ情報を取得し、また、で
きる限り多くの音声情報を取り出して力信号の抑圧を行
うコムフィルタを作成し、このコムフィルタを用いて雑
音に埋もれた音声スペクトルのピークを抑圧しないこと
により、正しい音声ピッチ情報に基づいて欠落した音声
ピッチ調波構造を補ったコムフィルタを作成することが
でき、このコムフィルタを用いてノイズ信号を抑圧する
ことにより、音声歪みの少ない音声強調を行うことがで
きる。
According to this structure, a comb filter for estimating a voice pitch by extracting a peak which is likely to be a voice peak from the spectrum of the voice signal is created, and accurate voice pitch information is obtained from this comb filter. In addition, a comb filter that extracts as much speech information as possible and suppresses the force signal is created, and the peak of the speech spectrum buried in noise is not suppressed by using this comb filter. It is possible to create a comb filter that compensates for the missing voice pitch harmonic structure, and by suppressing noise signals using this comb filter, it is possible to perform voice enhancement with less voice distortion.

【0043】本発明の雑音抑圧装置は、入力信号のスペ
クトルを所定の周波数単位で分割した周波数分割スペク
トルを出力する周波数分割手段と、周波数分割スペクト
ルに基づいて無音と判定した周波数領域の信号を通過域
とする雑音分離コムフィルタを作成する雑音分離コムフ
ィルタ作成手段と、前記雑音分離コムフィルタを用いて
前記周波数分割スペクトルの雑音成分を分離する抑圧手
段と、雑音成分を分離した前記周波数分割スペクトルを
周波数領域で連続したスペクトル信号に合成する音声周
波数合成手段と、を具備する構成を採る。
The noise suppression apparatus of the present invention passes through a frequency division means for outputting a frequency division spectrum obtained by dividing the spectrum of the input signal in a predetermined frequency unit, and a signal in the frequency domain determined to be silent based on the frequency division spectrum. Noise separating comb filter creating means for creating a noise separating comb filter as a frequency band, a suppressing means for separating a noise component of the frequency divided spectrum using the noise separating comb filter, and the frequency divided spectrum obtained by separating the noise component. And a voice frequency synthesizing means for synthesizing a continuous spectrum signal in the frequency domain.

【0044】この構成によれば、雑音専用コムフィルタ
を生成することにより、雑音の特性を最大限に抽出する
ことができる。
According to this structure, the noise characteristic can be extracted to the maximum extent by generating the noise dedicated comb filter.

【0045】本発明の雑音抑圧装置は、雑音分離手段
は、雑音分離用コムフィルタの通過域において、入力音
声スペクトルの実数部と虚数部に別々の乱数とノイズベ
ースの推定値とを乗算する構成を採る。
In the noise suppressing device of the present invention, the noise separating means is configured to multiply the real part and the imaginary part of the input speech spectrum by different random numbers and noise-based estimation values in the pass band of the noise separating comb filter. Take.

【0046】この構成によれば、雑音分離コムフィルタ
の阻止域において、雑音成分を減衰せず、雑音分離コム
フィルタの通過域において、入力音声スペクトルの実数
部と虚数部に対して、別々の乱数とノイズベースの推定
値を乗算することによって、雑音成分の実数部と虚数部
の振幅と位相はすべてランダム化され、良好な雑音分離
特性を得ることができる。
According to this configuration, noise components are not attenuated in the stop band of the noise separation comb filter, and separate random numbers are provided for the real part and the imaginary part of the input speech spectrum in the pass band of the noise separation comb filter. And the noise-based estimation value are multiplied, the amplitudes and phases of the real and imaginary parts of the noise component are all randomized, and good noise separation characteristics can be obtained.

【0047】本発明の雑音抑圧装置は、音声分離用コム
フィルタの阻止域における入力音声のスペクトル成分を
記憶する雑音成分保存手段を具備し、雑音分離手段は、
メモリに保存したスペクトル成分を雑音分離用コムフィ
ルタの通過域に用いる構成を採る。
The noise suppressing device of the present invention comprises a noise component storing means for storing the spectral component of the input voice in the stop band of the voice separating comb filter, and the noise separating means is
A configuration is used in which the spectral components stored in the memory are used in the pass band of the noise separation comb filter.

【0048】この構成によれば、雑音分離用コムフィル
タの阻止域における入力音声のスペクトル成分をメモリ
に保存し、その値を雑音分離用コムフィルタの通過域に
用いることにより、実際の雑音と特性の近い擬似雑音を
再構成することができ、良好な雑音分離特性を得ること
ができる。
According to this configuration, the spectral component of the input voice in the stop band of the noise separating comb filter is stored in the memory, and the value is used in the pass band of the noise separating comb filter to obtain the actual noise and characteristics. Can be reconstructed, and good noise separation characteristics can be obtained.

【0049】本発明の無線通信装置は、上記いずれかに
記載の雑音抑圧装置を具備する構成を採る。
A radio communication apparatus of the present invention has a configuration including any one of the noise suppressing apparatuses described above.

【0050】この構成によれば、雑音専用コムフィルタ
を生成することにより、雑音の特性を最大限に抽出する
ことができる。
According to this configuration, the noise characteristic can be maximized by generating the noise-only comb filter.

【0051】本発明の音源分離装置は、上記いずれかに
記載の音声強調装置と、上記いずれかに記載の雑音抑圧
装置と、を具備する構成を採る。
The sound source separation device of the present invention has a configuration including any one of the above speech enhancement device and any one of the above noise suppression devices.

【0052】この構成によれば、音声信号のスペクトル
から音声ピークである可能性の高いピークを取り出して
音声ピッチを推定するコムフィルタを作成し、このコム
フィルタから正確な音声ピッチ情報を取得し、また、で
きる限り多くの音声情報を取り出して力信号の抑圧を行
うコムフィルタを作成し、このコムフィルタを用いて雑
音に埋もれた音声スペクトルのピークを抑圧しないこと
により、正しい音声ピッチ情報に基づいて欠落した音声
ピッチ調波構造を補ったコムフィルタを作成することが
でき、このコムフィルタを用いてノイズ信号を抑圧する
ことにより、音声歪みの少ない音声強調を行うことがで
きる。また、この構成によれば、雑音専用コムフィルタ
を生成することにより、雑音の特性を最大限に抽出する
ことができる。
According to this structure, a comb filter for estimating a voice pitch by extracting a peak that is likely to be a voice peak from the spectrum of the voice signal is created, and accurate voice pitch information is acquired from this comb filter. In addition, a comb filter that extracts as much speech information as possible and suppresses the force signal is created, and the peak of the speech spectrum buried in noise is not suppressed by using this comb filter. It is possible to create a comb filter that compensates for the missing voice pitch harmonic structure, and by suppressing noise signals using this comb filter, it is possible to perform voice enhancement with less voice distortion. Further, according to this configuration, the noise characteristics can be maximized by generating the noise-only comb filter.

【0053】本発明の音声強調方法は、入力信号のスペ
クトルを所定の周波数単位で分割した周波数分割スペク
トルを出力する周波数分割行程と、周波数分割スペクト
ルに基づいて無音と判定した周波数領域の信号を減衰す
る第一コムフィルタを作成する第一コムフィルタ作成行
程と、周波数分割スペクトルに基づいて第一コムフィル
タより多くの雑音のピークを取り除いたフィルタである
第二コムフィルタを作成する第二コムフィルタ作成行程
と、前記第二コムフィルタと前記周波数分割スペクトル
とから推定した音声ピッチで前記第一コムフィルタに含
まれる音声ピッチ調波構造を修正するコムフィルタ修正
行程と、前記コムフィルタ修正行程において修正された
第一コムフィルタを用いて前記周波数分割スペクトルの
ノイズを抑圧する抑圧行程と、ノイズを抑圧した前記周
波数分割スペクトルを周波数領域で連続したスペクトル
信号に合成する音声周波数合成行程と、を具備するよう
にした。
The speech emphasizing method of the present invention includes a frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in predetermined frequency units, and a signal in a frequency domain determined to be silent based on the frequency division spectrum. Create a first comb filter Create a first comb filter and create a second comb filter that is a filter that removes more noise peaks than the first comb filter based on the frequency division spectrum A step, a comb filter correction step that corrects a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from the second comb filter and the frequency division spectrum, and is corrected in the comb filter correction step. Suppress the noise of the frequency division spectrum using the first comb filter And as stroke, and to be provided with audio frequency synthesizing step of synthesizing the frequency division spectrum suppressed noise spectrum signals continuous in the frequency region.

【0054】この方法によれば、音声信号のスペクトル
から音声ピークである可能性の高いピークを取り出して
音声ピッチを推定するコムフィルタを作成し、このコム
フィルタから正確な音声ピッチ情報を取得し、また、で
きる限り多くの音声情報を取り出して力信号の抑圧を行
うコムフィルタを作成し、このコムフィルタを用いて雑
音に埋もれた音声スペクトルのピークを抑圧しないこと
により、正しい音声ピッチ情報に基づいて欠落した音声
ピッチ調波構造を補ったコムフィルタを作成することが
でき、このコムフィルタを用いて音声信号を抑圧するこ
とにより、音声歪みの少ない音声強調を行うことができ
る。
According to this method, a comb filter for estimating a voice pitch by extracting a peak which is likely to be a voice peak from the spectrum of a voice signal is created, and accurate voice pitch information is obtained from this comb filter. In addition, a comb filter that extracts as much speech information as possible and suppresses the force signal is created, and the peak of the speech spectrum buried in noise is not suppressed by using this comb filter. It is possible to create a comb filter that compensates for the missing voice pitch harmonic structure, and by suppressing a voice signal using this comb filter, voice enhancement with less voice distortion can be performed.

【0055】本発明の雑音抑圧方法は、入力信号のスペ
クトルを所定の周波数単位で分割した周波数分割スペク
トルを出力する周波数分割行程と、周波数分割スペクト
ルに基づいて無音と判定した周波数領域の信号を通過域
とする雑音分離コムフィルタを作成する雑音分離コムフ
ィルタ作成行程と、前記雑音分離コムフィルタを用いて
前記周波数分割スペクトルの雑音成分を分離する抑圧行
程と、雑音成分を分離した前記周波数分割スペクトルを
周波数領域で連続したスペクトル信号に合成する音声周
波数合成行程と、を具備するようにした。
The noise suppression method of the present invention passes the frequency division process of outputting the frequency division spectrum obtained by dividing the spectrum of the input signal in a predetermined frequency unit, and the signal in the frequency domain determined to be silent based on the frequency division spectrum. A noise separation comb filter creation step for creating a noise separation comb filter as a band, a suppression step for separating a noise component of the frequency division spectrum by using the noise separation comb filter, and the frequency division spectrum obtained by separating the noise component. And a voice frequency synthesizing step for synthesizing a continuous spectrum signal in the frequency domain.

【0056】この方法によれば、雑音専用コムフィルタ
を生成することにより、雑音の特性を最大限に抽出する
ことができる。
According to this method, the noise characteristics can be extracted to the maximum extent by generating the noise dedicated comb filter.

【0057】本発明の音声強調プログラムは、入力信号
のスペクトルを所定の周波数単位で分割した周波数分割
スペクトルを出力する周波数分割ステップと、周波数分
割スペクトルに基づいて無音と判定した周波数領域の信
号を減衰する第一コムフィルタを作成する第一コムフィ
ルタ作成ステップと、周波数分割スペクトルに基づいて
第一コムフィルタより多くの雑音のピークを取り除いた
フィルタである第二コムフィルタを作成する第二コムフ
ィルタ作成ステップと、前記第二コムフィルタと前記周
波数分割スペクトルとから推定した音声ピッチで前記第
一コムフィルタに含まれる音声ピッチ調波構造を修正す
るコムフィルタ修正ステップと、前記コムフィルタ修正
手段において修正された第一コムフィルタを用いて前記
周波数分割スペクトルのノイズを抑圧する抑圧ステップ
と、ノイズを抑圧した前記周波数分割スペクトルを周波
数領域で連続したスペクトル信号に合成する音声周波数
合成ステップと、をコンピュータに実行させる構成を採
る。
A speech emphasizing program of the present invention outputs a frequency-divided spectrum obtained by dividing the spectrum of an input signal into predetermined frequency units, and attenuates a signal in a frequency domain determined to be silent based on the frequency-divided spectrum. The first comb filter creation step to create the first comb filter and the second comb filter creation to create the second comb filter, which is a filter that removes more noise peaks than the first comb filter based on the frequency division spectrum Step, a comb filter correction step of correcting a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from the second comb filter and the frequency division spectrum, and corrected by the comb filter correction means. The frequency division spectrum using the first comb filter Take a suppression step of suppressing Le noise, the structure to execute the audio frequency synthesizing step of synthesizing said frequency division spectrum suppressed noise spectrum signals continuous in the frequency domain, to the computer.

【0058】この構成によれば、音声信号のスペクトル
から音声ピークである可能性の高いピークを取り出して
音声ピッチを推定するコムフィルタを作成し、このコム
フィルタから正確な音声ピッチ情報を取得し、また、で
きる限り多くの音声情報を取り出してノイズ信号の抑圧
を行うコムフィルタを作成し、このコムフィルタを用い
て雑音に埋もれた音声スペクトルのピークを抑圧しない
ことにより、正しい音声ピッチ情報に基づいて欠落した
音声ピッチ調波構造を補ったコムフィルタを作成するこ
とができ、このコムフィルタを用いてノイズ信号を抑圧
することにより、音声歪みの少ない音声強調を行うこと
ができる。
According to this configuration, a comb filter for estimating a voice pitch by extracting a peak which is likely to be a voice peak from the spectrum of the voice signal is created, and accurate voice pitch information is acquired from this comb filter. In addition, a comb filter that extracts as much speech information as possible to suppress the noise signal is created, and the peak of the speech spectrum buried in noise is not suppressed by using this comb filter. It is possible to create a comb filter that compensates for the missing voice pitch harmonic structure, and by suppressing noise signals using this comb filter, it is possible to perform voice enhancement with less voice distortion.

【0059】本発明の雑音分離プログラムは、入力信号
のスペクトルを所定の周波数単位で分割した周波数分割
スペクトルを出力する周波数分割ステップと、周波数分
割スペクトルに基づいて無音と判定した周波数領域の信
号を通過域とする雑音分離コムフィルタを作成する雑音
分離コムフィルタ作成ステップと、前記雑音分離コムフ
ィルタを用いて前記周波数分割スペクトルの雑音成分を
分離する抑圧ステップと、雑音成分を分離した前記周波
数分割スペクトルを周波数領域で連続したスペクトル信
号に合成する音声周波数合成ステップと、をコンピュー
タに実行させる構成を採る。
The noise separation program of the present invention passes a frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal into predetermined frequency units, and a signal in the frequency domain determined to be silent based on the frequency division spectrum. A noise separation comb filter creating step for creating a noise separation comb filter, a suppression step for separating a noise component of the frequency division spectrum using the noise separation comb filter, and the frequency division spectrum obtained by separating the noise component. An audio frequency synthesizing step of synthesizing a continuous spectrum signal in the frequency domain, and a configuration for causing a computer to execute.

【0060】この構成によれば、雑音専用コムフィルタ
を生成することにより、雑音の特性を最大限に抽出する
ことができる。
According to this configuration, the noise characteristic can be maximized by generating the noise-only comb filter.

【0061】本発明のサーバ装置は、入力信号のスペク
トルを所定の周波数単位で分割した周波数分割スペクト
ルを出力する周波数分割ステップと、周波数分割スペク
トルに基づいて無音と判定した周波数領域の信号を減衰
する第一コムフィルタを作成する第一コムフィルタ作成
ステップと、周波数分割スペクトルに基づいて第一コム
フィルタより多くの雑音のピークを取り除いたフィルタ
である第二コムフィルタを作成する第二コムフィルタ作
成ステップと、前記第二コムフィルタと前記周波数分割
スペクトルとから推定した音声ピッチで前記第一コムフ
ィルタに含まれる音声ピッチ調波構造を修正するコムフ
ィルタ修正ステップと、前記コムフィルタ修正ステップ
において修正された第一コムフィルタを用いて前記周波
数分割スペクトルのノイズを抑圧する抑圧ステップと、
ノイズを抑圧した前記周波数分割スペクトルを周波数領
域で連続したスペクトル信号に合成する音声周波数合成
ステップと、をコンピュータに実行させることを特徴と
する音声強調プログラムを記憶し、要求に応じて前記音
声強調プログラムを出力する構成を採る。
The server device of the present invention outputs a frequency division spectrum obtained by dividing the spectrum of the input signal in predetermined frequency units, and attenuates the signal in the frequency domain determined to be silent based on the frequency division spectrum. First comb filter creation step to create the first comb filter, and second comb filter creation step to create the second comb filter, which is a filter that removes more noise peaks than the first comb filter based on the frequency division spectrum. A comb filter correction step of correcting the voice pitch harmonic structure included in the first comb filter with the voice pitch estimated from the second comb filter and the frequency division spectrum, and the comb filter correction step. The frequency division spectrum using the first comb filter And suppression step of suppressing noise,
Storing a voice emphasizing program characterized by causing a computer to execute a voice frequency synthesizing step of synthesizing the frequency-divided spectrum in which noise is suppressed into a continuous spectrum signal in the frequency domain, and the voice emphasizing program according to a request. Take the configuration to output.

【0062】この構成によれば、音声信号のスペクトル
から音声ピークである可能性の高いピークを取り出して
音声ピッチを推定するコムフィルタを作成し、このコム
フィルタから正確な音声ピッチ情報を取得し、また、で
きる限り多くの音声情報を取り出して力信号の抑圧を行
うコムフィルタを作成し、このコムフィルタを用いて雑
音に埋もれた音声スペクトルのピークを抑圧しないこと
により、正しい音声ピッチ情報に基づいて欠落した音声
ピッチ調波構造を補ったコムフィルタを作成することが
でき、このコムフィルタを用いてノイズ信号を抑圧する
ことにより、音声歪みの少ない音声強調を行うことがで
きる。
According to this configuration, a comb filter for estimating a voice pitch by extracting a peak that is likely to be a voice peak from the spectrum of the voice signal is created, and accurate voice pitch information is acquired from this comb filter. In addition, a comb filter that extracts as much speech information as possible and suppresses the force signal is created, and the peak of the speech spectrum buried in noise is not suppressed by using this comb filter. It is possible to create a comb filter that compensates for the missing voice pitch harmonic structure, and by suppressing noise signals using this comb filter, it is possible to perform voice enhancement with less voice distortion.

【0063】本発明のサーバ装置は、入力信号のスペク
トルを所定の周波数単位で分割した周波数分割スペクト
ルを出力する周波数分割ステップと、周波数分割スペク
トルに基づいて無音と判定した周波数領域の信号を通過
域とする雑音分離コムフィルタを作成する雑音分離コム
フィルタ作成ステップと、前記雑音分離コムフィルタを
用いて前記周波数分割スペクトルの雑音成分を分離する
抑圧ステップと、雑音成分を分離した前記周波数分割ス
ペクトルを周波数領域で連続したスペクトル信号に合成
する音声周波数合成ステップと、をコンピュータに実行
させることを特徴とする雑音分離プログラムを記憶し、
要求に応じて前記雑音分離プログラムを出力する構成を
採る。
The server device of the present invention outputs a frequency division spectrum obtained by dividing the spectrum of the input signal in predetermined frequency units, and a signal in the frequency domain determined to be silent based on the frequency division spectrum in the pass band. And a noise separation comb filter creation step of creating a noise separation comb filter, a suppression step of separating a noise component of the frequency division spectrum using the noise separation comb filter, and a frequency division of the frequency division spectrum separated noise component. A voice frequency synthesizing step for synthesizing a continuous spectrum signal in a region, and storing a noise separation program characterized by causing a computer to execute,
The noise separation program is output in response to a request.

【0064】この構成によれば、雑音専用コムフィルタ
を生成することにより、雑音の特性を最大限に抽出する
ことができる。
According to this configuration, the noise characteristic can be extracted to the maximum extent by generating the noise-only comb filter.

【0065】[0065]

【発明の実施の形態】本発明の骨子は、音声信号の周波
数分割スペクトルに基づいて音声抑圧に用いるコムフィ
ルタより多くの雑音のピークを取り除いたコムフィルタ
を生成し、このコムフィルタを用いて音声信号のピッチ
情報を取得し、コムフィルタの音声ピッチを補うことで
ある。
BEST MODE FOR CARRYING OUT THE INVENTION The essence of the present invention is to generate a comb filter in which more noise peaks are removed than a comb filter used for voice suppression based on a frequency-divided spectrum of a voice signal, and to use this comb filter for voice This is to acquire the pitch information of the signal and supplement the voice pitch of the comb filter.

【0066】以下、本発明の実施の形態について図面を
参照して詳細に説明する。 (実施の形態1)図1は、本発明の実施の形態1に係る
音声強調装置の構成を示すブロック図である。図1にお
いて、音声強調装置100は、時間分割部101と、窓
掛け部102と、FFT部103と、周波数分割部10
4と、ノイズベース推定部105と、第一音声/非音声
識別部106と、第二音声/非音声識別部107と、第
一コムフィルタ生成部108と、第二コムフィルタ生成
部109と、有声/無声判別部110と、ピッチ推定部
111と、ピッチ調波構造修復部112と、コムフィル
タ修正部113と、音声分離係数計算部114と、乗算
部115と、音声周波数合成部116と、IFFT部1
17と、から主に構成される。
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. (Embodiment 1) FIG. 1 is a block diagram showing a configuration of a speech emphasizing apparatus according to Embodiment 1 of the present invention. In FIG. 1, the speech enhancement device 100 includes a time division unit 101, a windowing unit 102, an FFT unit 103, and a frequency division unit 10.
4, a noise base estimation unit 105, a first voice / non-voice identification unit 106, a second voice / non-voice identification unit 107, a first comb filter generation unit 108, a second comb filter generation unit 109, Voiced / unvoiced discrimination unit 110, pitch estimation unit 111, pitch harmonic structure restoration unit 112, comb filter correction unit 113, speech separation coefficient calculation unit 114, multiplication unit 115, speech frequency synthesis unit 116, IFFT section 1
It is mainly composed of 17.

【0067】時間分割部101は、入力された音声信号
から所定時間単位で区切られたフレームを構成し、窓掛
け部102に出力する窓掛け部102は、時間分割部1
01から出力されたフレームにハニングウインドウ等を
利用した窓掛け処理を行ってFFT部103に出力す
る。FFT部103は、窓掛け部102から出力された
音声信号にFFT(Fast Fourier Transform)を行
い、音声スペクトル信号を周波数分割部104に出力す
る。
The time division unit 101 forms a frame divided from the input audio signal in units of a predetermined time, and the window division unit 102 outputs the frame to the window division unit 102.
The frame output from 01 is subjected to windowing processing using a Hanning window or the like and output to the FFT unit 103. FFT section 103 performs FFT (Fast Fourier Transform) on the audio signal output from windowing section 102, and outputs the audio spectrum signal to frequency division section 104.

【0068】周波数分割部104は、FFT部103か
ら出力された音声スペクトルを各周波数成分に分割し
て、周波数成分毎に分割された音声スペクトルS
f(k)(ただし、kは周波数成分を特定する番号)を
ノイズベース推定部105、第一音声/非音声識別部1
06、第二音声/非音声識別部107、及び乗算部11
5に出力する。なお、周波数成分は、所定の周波数単位
で分割された音声スペクトルの最小単位を示すものであ
る。Sf(k)は式(1)で示される。
The frequency division unit 104 divides the voice spectrum output from the FFT unit 103 into frequency components, and the voice spectrum S divided for each frequency component.
f (k) (where k is a number identifying a frequency component) is used as the noise base estimation unit 105 and the first voice / non-voice identification unit 1
06, the second voice / non-voice identification unit 107, and the multiplication unit 11
Output to 5. The frequency component indicates the minimum unit of the voice spectrum divided by a predetermined frequency unit. S f (k) is represented by equation (1).

【0069】[0069]

【数1】 ここで、Re{Df(k)}2は、FFT変換後の入力音
声信号のスペクトルの実数部を示し、Im{D
f(k)}2は、FFT変換後の入力音声信号のスペクト
ルの虚数部を示す。
[Equation 1] Here, Re {D f (k)} 2 represents the real part of the spectrum of the input speech signal after FFT conversion, and Im {D f
f (k)} 2 indicates the imaginary part of the spectrum of the input voice signal after FFT conversion.

【0070】ノイズベース推定部105は、フレームに
音声成分が含まれていない判定結果が出力された場合、
周波数分割部104から出力された音声スペクトルの周
波数成分毎の短時間パワスペクトルを用いてノイズベー
スを更新する。
The noise-base estimation unit 105 outputs, when the determination result that the frame does not include a voice component is output,
The noise base is updated using the short-time power spectrum for each frequency component of the audio spectrum output from the frequency division unit 104.

【0071】具体的には、式(2)を用いて各周波数成
分におけるノイズベースを推定し、推定されたノイズベ
ースを音声/非音声識別部106と音声/非音声識別部1
07に出力する。
Specifically, the noise base in each frequency component is estimated using equation (2), and the estimated noise base is used as the speech / non-speech discrimination unit 106 and the speech / non-speech discrimination unit 1.
It outputs to 07.

【0072】[0072]

【数2】 ここで、Pbase(n−1、k)はノイズベース、nは処
理を行うフレームを特定する番号、kは周波数成分を特
定する番号を示す。また、Θbaseは音声とノイズを判別
する閾値、αは移動平均係数を示す。
[Equation 2] Here, P base (n−1, k) is a noise base, n is a number identifying a frame to be processed, and k is a number identifying a frequency component. Further, Θ base represents a threshold for discriminating between speech and noise, and α represents a moving average coefficient.

【0073】第一音声/非音声識別部106と第二音声/
非音声識別部107は、周波数分割部104から出力さ
れた音声スペクトル信号とノイズベース推定部105か
ら出力されるノイズベースの値の差が所定の閾値以上で
ある場合、音声成分を含む有音部分と判定し、それ以外
の場合、音声成分を含まない雑音のみの無音部分である
と判定する。
First voice / non-voice identification unit 106 and second voice /
When the difference between the voice spectrum signal output from the frequency division unit 104 and the noise base value output from the noise base estimation unit 105 is equal to or greater than a predetermined threshold, the non-voice identification unit 107 includes a voiced part including a voice component. Otherwise, in other cases, it is determined to be a silent part including only noise that does not include a voice component.

【0074】そして、第一音声/非音声識別部106
は、判定結果を第一コムフィルタ生成部108に出力
し、第二音声/非音声識別部107は、判定結果を第二
コムフィルタ生成部109に出力する。
Then, the first voice / non-voice discrimination section 106
Outputs the determination result to the first comb filter generation unit 108, and the second voice / non-voice identification unit 107 outputs the determination result to the second comb filter generation unit 109.

【0075】第一コムフィルタ生成部108は、音声ピ
ッチ調波情報を多く抽出するように、第一音声/非音声
識別部106の閾値を低く設定して、各周波数成分にお
ける音声成分の有無に基づいて音声ピッチ調波構造を強
調するコムフィルタを生成して、このコムフィルタ結果
をコムフィルタ修正部113に出力する。
The first comb filter generation unit 108 sets the threshold value of the first voice / non-voice discrimination unit 106 low so as to extract a large amount of voice pitch harmonic information, and determines whether or not there is a voice component in each frequency component. Based on this, a comb filter that emphasizes the voice pitch harmonic structure is generated, and this comb filter result is output to comb filter correction section 113.

【0076】具体的には、以下の式(3)を用いて第一
コムフィルタCOMB_low(k)を生成する。
Specifically, the first comb filter COMB_low (k) is generated using the following equation (3).

【0077】[0077]

【数3】 ここでΘlowは第1コムフィルタ用閾値である。また、
HBは、FFT変換長つまり高速フーリエ変換を行うデ
ータ数であり、例えばHB=512とする。
[Equation 3] Where Θ low is the threshold value for the first comb filter. Also,
HB is the FFT transform length, that is, the number of data items to be subjected to the fast Fourier transform, and is set to HB = 512, for example.

【0078】第二コムフィルタ生成部109は、雑音情
報に影響されないように、第二音声/非音声識別部10
7の閾値を高く設定して、各周波数成分における音声成
分の有無に基づいて音声ピッチ調波構造を修復する基準
コムフィルタとして生成して、このコムフィルタの結果
を有声/無声判別部110およびピッチ調波構造修復部
112に出力する。具体的には、以下の式(4)を用い
て第二コムフィルタを生成する。
The second comb filter generation unit 109 includes a second voice / non-voice discrimination unit 10 so as not to be affected by noise information.
7 is set to a high threshold value, a reference comb filter for restoring the voice pitch harmonic structure is generated based on the presence or absence of a voice component in each frequency component, and the result of the comb filter is generated by the voiced / unvoiced discrimination unit 110 and the pitch. Output to the harmonic structure restoration unit 112. Specifically, the second comb filter is generated using the following equation (4).

【数4】 ここでΘhighは第2コムフィルタ用閾値であり、Θhigh
はΘlowより大きい値である。
[Equation 4] Where Θ high is the threshold value for the second comb filter, and Θ high
Is greater than Θ low .

【0079】有声/無声判別部110は、第二コムフィ
ルタ生成部109から出力された結果に基づいて有声と
無声を判別し、判別結果をピッチ推定部111に出力す
る。
Voiced / unvoiced discrimination section 110 discriminates between voiced and unvoiced based on the result output from second comb filter generation section 109, and outputs the discrimination result to pitch estimation section 111.

【0080】具体的には、以下の式(5)と式(6)を
用いて入力音声信号の低周波数領域と高周波数領域に分
けて、第二コムフィルタの通過域(すなわち、COMB_hi
gh(k)=1)の周波数成分の個数を加算する。
Specifically, the passband of the second comb filter (that is, COMB_hi) is divided into the low frequency region and the high frequency region of the input audio signal using the following equations (5) and (6).
Add the number of frequency components of gh (k) = 1).

【0081】[0081]

【数5】 [Equation 5]

【0082】[0082]

【数6】 ここで、式(5)と式(6)共に設定された閾値より大
きい場合、または式(5)は設定された閾値より大き
く、かつ式(6)は設定された閾値より小さい場合は有
声と判別し、それ以外の場合は無声と判別する。
[Equation 6] Here, if both Expressions (5) and (6) are larger than the set threshold value, or if Expression (5) is larger than the set threshold value and Expression (6) is smaller than the set threshold value, it is voiced. If not, it is determined to be unvoiced.

【0083】有声と判別した場合は音声ピッチの推定と
音声ピッチ調波構造の修復を行い、無声と判別した場合
は音声ピッチの推定と音声ピッチ調波構造の修復を行わ
ない。
When it is determined that the voice is present, the voice pitch is estimated and the voice pitch harmonic structure is restored. When it is determined that the voice is unvoiced, the voice pitch is not estimated and the voice pitch harmonic structure is not restored.

【0084】ピッチ推定部111は、周波数分割部10
4から出力された音声スペクトルから音声ピッチ周期を
推定し、推定結果をピッチ調波構造修復部112に出力
する。
The pitch estimating section 111 includes a frequency dividing section 10
The speech pitch period is estimated from the speech spectrum output from No. 4 and the estimation result is output to the pitch harmonic structure restoration unit 112.

【0085】ピッチ調波構造修復部112は、ピッチ推
定部111から出力された推定結果と第二コムフィルタ
生成部109の結果に基づいてピッチの修復を行い、そ
の結果をコムフィルタ修正部113に出力する。
The pitch harmonic structure restoration unit 112 restores the pitch based on the estimation result output from the pitch estimation unit 111 and the result of the second comb filter generation unit 109, and the result is sent to the comb filter correction unit 113. Output.

【0086】具体的には、音声ピッチ調波構造の修復は
以下のステップで行う。第1のステップでは、第二コム
フィルタCOMB_high(k)の通過域毎の音声スペクトルの
パワのピークを抽出し、全ての通過域からピッチ調波構
造修復の基準となるピッチ基準コムフィルタCOMB_int
(k)を生成する。
Specifically, the restoration of the voice pitch harmonic structure is performed in the following steps. In the first step, the power peak of the speech spectrum for each pass band of the second comb filter COMB_high (k) is extracted, and the pitch reference comb filter COMB_int that serves as a reference for the pitch harmonic structure restoration is extracted from all pass bands.
Generate (k).

【0087】第2のステップでは、ピッチ基準コムフィ
ルタのピークとピークの間隔を計算し、所定の閾値(例
えば1.5倍のピッチ周期)を超えたら、ピッチ推定の
結果に基づいて欠落したピッチ調波の挿入を行い、ピッ
チ調波挿入コムフィルタCOMB_rec(k)を生成する。
In the second step, the peak-to-peak interval of the pitch reference comb filter is calculated, and when a predetermined threshold value (for example, a pitch period of 1.5 times) is exceeded, the missing pitch is determined based on the result of pitch estimation. Harmonics are inserted to generate a pitch harmonic insertion comb filter COMB_rec (k).

【0088】第3のステップでは、ピッチ周期の値に応
じてピッチ調波挿入コムフィルタの櫛、すなわち通過域
の幅を広くするピッチ調波修復コムフィルタCOMB_ext
(k)を生成する。
In the third step, the comb of the pitch harmonic insertion comb filter, that is, the pitch harmonic restoration comb filter COMB_ext that widens the width of the pass band according to the value of the pitch period.
Generate (k).

【0089】コムフィルタ修正部113は、ピッチ調波
構造修復部112から出力された推定結果と第一コムフ
ィルタ生成部108から出力された結果を組み合せてコ
ムフィルタの修正を行い、その結果を音声分離係数計算
部114に出力する。
The comb filter modification unit 113 modifies the comb filter by combining the estimation result output from the pitch harmonic structure repair unit 112 and the result output from the first comb filter generation unit 108, and outputs the result to the voice. It outputs to the separation coefficient calculation unit 114.

【0090】具体的には、ピッチ調波修復コムフィルタ
COMB_ext(k)の通過域と第一コムフィルタCOMB_low(k)
の通過域を比較して、重複する部分があれば、第一コム
フィルタの通過域を修正後のコムフィルタの通過域と
し、それ以外の部分は修正後のコムフィルタの阻止域と
することによって修正後のコムフィルタCOMB_res(k)を
生成する。
Specifically, a pitch harmonic restoration comb filter
COMB_ext (k) passband and first comb filter COMB_low (k)
By comparing the passbands of, and if there is an overlapping part, the passband of the first comb filter is set as the passband of the modified comb filter, and the other parts are set as the stopband of the modified comb filter. A modified comb filter COMB_res (k) is generated.

【0091】音声分離係数計算部114は、コムフィル
タ修正部113において生成されたコムフィルタに、周
波数特性に基づいた分離係数を乗算して、周波数成分毎
に入力信号の分離係数の設定を行い、各周波数成分の分
離係数を乗算部115に出力する。
The voice separation coefficient calculation unit 114 multiplies the comb filter generated in the comb filter correction unit 113 by the separation coefficient based on the frequency characteristic, and sets the separation coefficient of the input signal for each frequency component. The separation coefficient of each frequency component is output to the multiplication unit 115.

【0092】例えば、以下の式(7)から分離係数seps
(k)を算出して入力信号に乗算することもできる。
For example, from the following equation (7), the separation coefficient seps
It is also possible to calculate (k) and multiply the input signal.

【0093】[0093]

【数7】 ここでgcは定数、kは周波数成分を特定する変数、γ
はノイズベースの減算量を調整する係数である。また、
MAX(n)は、Pbase(n、k)の最大値を示す。ま
た、gc・PMAX(n)/Pbase(n、k)はフレーム毎
にノイズベース推定値の正規化を行い、その逆数を利用
した減衰係数であり、COMB_res(k)はコムフィルタの修
正結果である。
[Equation 7] Where gc is a constant, k is a variable that identifies the frequency component, and γ
Is a coefficient for adjusting the noise-based subtraction amount. Also,
P MAX (n) indicates the maximum value of P base (n, k). In addition, gc · P MAX (n) / P base (n, k) is an attenuation coefficient that normalizes the noise base estimation value for each frame and uses its reciprocal, and COMB_res (k) is a modification of the comb filter. The result.

【0094】図2及び図3は本発明の音声強調結果の一
例であり、上記のコムフィルタの生成、ピッチ調波構造
の修復、コムフィルタの修正の各過程および音声分離係
数(減衰係数)を示す。図2は、本実施の形態にかかる音
声強調装置で作成されるコムフィルタの例を示す図であ
る。図2において、縦軸はスペクトルのパワ及び、フィ
ルタの減衰度を示し、横軸は周波数を示す。
FIG. 2 and FIG. 3 are examples of the speech enhancement result of the present invention. The steps of generating the comb filter, repairing the pitch harmonic structure, modifying the comb filter and the speech separation coefficient (attenuation coefficient) are shown in FIG. Show. FIG. 2 is a diagram showing an example of a comb filter created by the voice enhancement device according to the present embodiment. In FIG. 2, the vertical axis represents the power of the spectrum and the attenuation of the filter, and the horizontal axis represents the frequency.

【0095】コムフィルタは、S1に示す減衰特性を持
ち、減衰特性は、周波数成分毎に設定される。第一コム
フィルタ生成部108は、音声成分を含まない周波数領
域の信号を減衰し、音声信号を含む周波数領域の信号を
減衰しない減衰特性のコムフィルタを作成する。
The comb filter has the attenuation characteristic shown in S1, and the attenuation characteristic is set for each frequency component. The first comb filter generation unit 108 creates a comb filter having an attenuation characteristic that attenuates a frequency domain signal that does not include a voice component and does not attenuate a frequency domain signal that includes a voice signal.

【0096】雑音成分を含む音声スペクトルS2は、S
1の減衰特性を持つコムフィルタをかけることにより、
雑音成分を含む周波数領域の信号が減衰されてパワが小
さくなり、音声信号を含む部分は減衰されずパワが変化
しない。得られた音声スペクトルは、雑音成分の周波数
領域がより低くなりピークが失われずに強調されたスペ
クトル形状となり、ピッチ調波情報が失われない雑音を
抑圧した音声スペクトルS3が出力される。
The speech spectrum S2 including the noise component is S
By applying a comb filter with an attenuation characteristic of 1,
The signal in the frequency domain including the noise component is attenuated to reduce the power, and the portion including the voice signal is not attenuated and the power does not change. The obtained voice spectrum has a spectrum shape in which the frequency region of the noise component becomes lower and the peak is emphasized without being lost, and the voice spectrum S3 in which the noise in which the pitch harmonic information is not suppressed is suppressed is output.

【0097】図3に、本実施の形態にかかる音声処理装
置におけるコムフィルタの修復の例を示す。図3におい
て、縦軸は減衰度を示し、横軸は、周波数成分を示す。
具体的には、横軸には、256の周波数成分があり、0
kHzから4kHzの領域を示す。
FIG. 3 shows an example of restoration of the comb filter in the voice processing device according to this embodiment. In FIG. 3, the vertical axis represents the degree of attenuation and the horizontal axis represents the frequency component.
Specifically, the horizontal axis has 256 frequency components, and
The region from 4 kHz to 4 kHz is shown.

【0098】C1は生成されたコムフィルタを、C2は
コムフィルタC1にピッチの修復を行ったコムフィルタ
を、C3は、コムフィルタC2にピッチの幅を修正した
コムフィルタを示す。
C1 is a generated comb filter, C2 is a comb filter in which the pitch of the comb filter C1 is restored, and C3 is a comb filter in which the pitch width is corrected in the comb filter C2.

【0099】コムフィルタC1は、100から140ま
での周波数成分でピッチ情報が失われている。ピッチ調
波構造修復部112は、ピッチ推定部111において推
定されたピッチ周期情報に基づいてコムフィルタC1の
100から140までの周波数成分にあるピッチ調波情
報を補う。これによりコムフィルタC2が得られる。
In the comb filter C1, pitch information is lost in frequency components from 100 to 140. The pitch harmonic structure restoration unit 112 supplements the pitch harmonic information in the frequency components 100 to 140 of the comb filter C1 based on the pitch period information estimated by the pitch estimation unit 111. As a result, the comb filter C2 is obtained.

【0100】次に、ピッチ調波構造修復部112は、周
波数分割部104から出力された音声スペクトルに基づ
いてコムフィルタC2のピッチ調波の幅を修正する。こ
れによりコムフィルタC3が得られる。
Next, the pitch harmonic structure restoration section 112 corrects the pitch harmonic width of the comb filter C2 based on the voice spectrum output from the frequency division section 104. As a result, the comb filter C3 is obtained.

【0101】乗算部115は、周波数分割部104から
出力された音声スペクトルに音声分離係数計算部114
から出力された分離係数を周波数成分毎に乗算する。そ
して、乗算した結果を音声周波数合成部116に出力す
る。
The multiplication section 115 adds the speech separation coefficient calculation section 114 to the speech spectrum output from the frequency division section 104.
The separation coefficient output from is multiplied by each frequency component. Then, the result of the multiplication is output to the audio frequency synthesis unit 116.

【0102】音声周波数合成部116は、乗算部115
から出力された各周波数成分のスペクトルを所定の処理
時間単位で周波数領域の連続する音声スペクトルに合成
してIFFT部117に出力する。
The voice frequency synthesizer 116 has a multiplier 115.
The spectrum of each frequency component output from the above is synthesized into a continuous voice spectrum in the frequency domain in a predetermined processing time unit and output to the IFFT unit 117.

【0103】IFFT部117は、音声周波数合成部1
16から出力された音声スペクトルにIFFT(Invers
e Fast Fourier Transform)を行って音声信号に変
換した信号を出力する。
The IFFT unit 117 is a voice frequency synthesis unit 1.
The IFFT (Invers
e Fast Fourier Transform) is performed to output a signal converted into an audio signal.

【0104】このように、本実施の形態の音声強調装置
によれば、音声信号のスペクトルから音声ピークである
可能性の高いピークを取り出して音声ピッチを推定する
コムフィルタを作成し、このコムフィルタから正確な音
声ピッチ情報を取得し、また、できる限り多くの音声情
報を取り出してノイズ信号の抑圧を行うコムフィルタを
作成し、このコムフィルタを用いて雑音に埋もれた音声
スペクトルのピークを抑圧しないことにより、正しい音
声ピッチ情報に基づいて欠落した音声ピッチ調波構造を
補ったコムフィルタを作成することができ、このコムフ
ィルタを用いてノイズ信号を抑圧することにより、音声
歪みの少ない音声強調を行うことができる。
As described above, according to the voice emphasizing device of this embodiment, a comb filter for estimating a voice pitch by extracting a peak which is likely to be a voice peak from the spectrum of a voice signal is created, and this comb filter is used. We obtain a precise voice pitch information from the voice, and create a comb filter that suppresses the noise signal by extracting as much voice information as possible, and do not suppress the peak of the voice spectrum buried in noise using this comb filter. As a result, it is possible to create a comb filter that compensates for the missing voice pitch harmonic structure based on the correct voice pitch information. By suppressing noise signals using this comb filter, voice enhancement with less voice distortion can be achieved. It can be carried out.

【0105】具体的には、本発明の実施の形態の音声強
調装置によれば、周波数成分毎のノイズベースの推定及
び音声/非音声識別を行うことによって周波数領域にお
いて、音声ピッチ調波情報を抽出する第一コムフィルタ
を生成することができる。
Specifically, according to the speech emphasizing device of the embodiment of the present invention, the noise pitch estimation and the speech / non-speech discrimination for each frequency component are performed so that the speech pitch harmonic information is obtained in the frequency domain. A first comb filter to extract can be generated.

【0106】また、第二コムフィルタはピッチ調波の基
本構造を提供することによって、ピッチ推定誤差による
音声の高調波成分がコムフィルタの通過域からはずれる
ことはない。
Further, since the second comb filter provides the basic structure of pitch harmonics, the harmonic component of the voice due to the pitch estimation error does not deviate from the pass band of the comb filter.

【0107】また、第二コムフィルタの生成結果に基づ
いて有声/無声の判別を行い、ピッチ調波構造を持つ有
声の場合のみ音声ピッチの推定を行い、その結果に基づ
いて欠落したピッチ調波構造を修復することにより、雑
音に埋もれた音声情報の復元が可能となり、音声ピッチ
調波欠落による音声歪を減少することができる。また、
修正後のコムフィルタの結果に基づいて周波数成分毎に
音声スペクトルの減衰を行うかどうかを決めるので、減
衰を大きくしても音声歪の少ない音声強調を行うことが
できる。
Further, voiced / unvoiced discrimination is performed based on the generation result of the second comb filter, the voice pitch is estimated only in the case of voiced voice having a pitch harmonic structure, and the missing pitch harmonic is estimated based on the result. By repairing the structure, it becomes possible to restore voice information buried in noise, and reduce voice distortion due to voice pitch harmonic loss. Also,
Since whether or not to attenuate the voice spectrum is determined for each frequency component based on the result of the modified comb filter, it is possible to perform voice enhancement with less voice distortion even if the attenuation is increased.

【0108】また、第一音声/非音声識別閾値を低く設
定して第一コムフィルタを生成することによって、音声
情報をより多く抽出することができる。一方、第二音声
/非音声識別閾値を高く設定して第二コムフィルタを生
成することによって、雑音情報の影響を受け難いコムフ
ィルタを生成することができる。その結果に基づいて正
確に音声ピッチ調波構造の修復を行うことができる。
Further, by setting the first voice / non-voice discrimination threshold to be low and generating the first comb filter, more voice information can be extracted. Meanwhile, the second voice
/ By setting the non-voice discrimination threshold to a high value and generating the second comb filter, it is possible to generate a comb filter that is not easily affected by noise information. Based on the result, the voice pitch harmonic structure can be accurately restored.

【0109】また、第二コムフィルタの生成結果に基づ
いて有声と無声の判別を行うことによって、少ない演算
量で簡単に有声と無声を判別することができる。また、
無声区間の場合は音声ピッチ推定と音声ピッチ調波構造
の修復を行わないことによって、ピッチ調波構造を持た
ない無声区間にも対応できる。
Further, by distinguishing between voiced and unvoiced based on the result of the second comb filter generation, it is possible to easily distinguish between voiced and unvoiced with a small amount of calculation. Also,
In the case of the unvoiced section, the unvoiced section without the pitch harmonic structure can be dealt with by not performing the speech pitch estimation and the restoration of the speech pitch harmonic structure.

【0110】また、音声ピッチ推定結果に基づいてピッ
チ調波を挿入することによって、音声ピッチ調波を修復
することができる。また、ピッチ調波の幅はピッチの推
定結果によって自動的に調整することによって、音声ピ
ッチ推定誤差による影響を低減し、より確実に音声ピッ
チ調波構造を修復することができる。更に、音声ピッチ
調波構造修復の結果と第一コムフィルタの結果を比較
し、重複する部分があれば、第一コムフィルタの通過域
を修正後のコムフィルタの通過域とし、それ以外は修正
後のコムフィルタの阻止域とすることによって、音声ピ
ッチ調波情報のみ抽出し、ピッチ調波間のノイズ情報を
抑圧することができる。
Also, the voice pitch harmonic can be restored by inserting the pitch harmonic based on the voice pitch estimation result. Further, the width of the pitch harmonic is automatically adjusted according to the pitch estimation result, so that the influence of the voice pitch estimation error can be reduced and the voice pitch harmonic structure can be more reliably restored. Furthermore, the results of voice pitch harmonic structure restoration and the results of the first comb filter are compared. If there is an overlapping part, the pass band of the first comb filter is set as the corrected pass band of the comb filter, and the others are corrected. By setting it as the stop band of the subsequent comb filter, only the voice pitch harmonic information can be extracted and the noise information between the pitch harmonics can be suppressed.

【0111】(実施の形態2)図4は実施の形態2にか
かる音声強調装置の構成の例を示すブロック図である。
但し、図1と共通する構成については図1と同一番号を
付し、詳しい説明を省略する。
(Second Embodiment) FIG. 4 is a block diagram showing an example of the configuration of a voice emphasizing device according to the second embodiment.
However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof will be omitted.

【0112】図4の音声強調装置300は、音声/雑音
フレーム検出部301を具備し、第一コムフィルタと第
二コムフィルタとから音声スペクトルに音声成分が含ま
れているか否か判定し、この判定が音声成分を含まない
結果である場合、前記第一コムフィルタに各周波数成分
で信号を減衰する修正をする点が図1の音声強調装置と
異なる。
The speech emphasizing apparatus 300 of FIG. 4 comprises a speech / noise frame detector 301, judges whether or not the speech spectrum contains a speech component from the first comb filter and the second comb filter, and When the determination result is that the voice component is not included, the point that the first comb filter is modified to attenuate the signal at each frequency component is different from the voice enhancement apparatus of FIG.

【0113】具体的には、図4の音声強調装置300
は、第一コムフィルタの通過域における入力音声パワス
ペクトルの和と第一コムフィルタの阻止域における入力
音声パワスペクトルの和の比を第1結果とし、第二コム
フィルタの通過域における入力音声パワスペクトルの和
と第二コムフィルタの阻止域における入力音声パワスペ
クトルの和の比を第2結果として、それが所定の閾値よ
り大きい場合は第1結果と第2結果を加算し、所定の閾
値より小さい場合は第2結果を用いることによって音声
/雑音フレームを検出する点が、図1の音声強調装置と
異なる。
Specifically, the voice emphasizing device 300 shown in FIG.
Is the ratio of the sum of the input voice power spectrum in the pass band of the first comb filter and the sum of the input voice power spectrum in the stop band of the first comb filter as the first result, and the input voice power in the pass band of the second comb filter is If the ratio of the sum of the spectrum and the sum of the input speech power spectrum in the stop band of the second comb filter is the second result, and if it is larger than a predetermined threshold value, the first result and the second result are added and When it is small, the speech / noise frame is detected by using the second result, which is different from the speech enhancement apparatus of FIG.

【0114】図4において、第一コムフィルタ生成部1
08と第二コムフィルタ生成部109から出力された結
果および入力音声パワスペクトルを音声/雑音フレーム
検出部301に入力し、音声/雑音フレーム検出部30
1で計算した音声/雑音フレーム検出結果をコムフィル
タ修正部113に出力する。
In FIG. 4, the first comb filter generator 1
08 and the result output from the second comb filter generation unit 109 and the input voice power spectrum are input to the voice / noise frame detection unit 301, and the voice / noise frame detection unit 30 is input.
The speech / noise frame detection result calculated in 1 is output to the comb filter correction unit 113.

【0115】具体的には、まず、以下の式(8)と式
(9)を用いて第一コムフィルタと第二コムフィルタに
基づく音声と雑音のSN比を計算する。
Specifically, first, the SN ratio of voice and noise based on the first comb filter and the second comb filter is calculated using the following formulas (8) and (9).

【0116】[0116]

【数8】 [Equation 8]

【0117】[0117]

【数9】 次に、以下の式(10)により当該フレームのSN比
(SNR_frame(n))を算出する。
[Equation 9] Next, the SN ratio (SNR_frame (n)) of the frame is calculated by the following equation (10).

【0118】[0118]

【数10】 ここで、Θsnは閾値である。そして、SNR_frame(n)と
Θsnの比較により音声/雑音フレームの検出を行う。音
声/雑音フレームの検出結果が雑音フレーム(すなわ
ち、SNR_frame(n)<Θsn)であれば、修正コムフィル
タCOMB_res(k)の各周波数成分をすべて阻止域にする。
[Equation 10] Where Θ sn is a threshold. Then, the speech / noise frame is detected by comparing SNR_frame (n) with Θ sn . If the detection result of the voice / noise frame is a noise frame (that is, SNR_frame (n) <Θ sn ), all the frequency components of the modified comb filter COMB_res (k) are set to the stop band.

【0119】このように、本実施の形態の音声強調装置
によれば、第一コムフィルタと第二コムフィルタとから
音声スペクトルに音声成分が含まれているか否か判定
し、この判定が音声成分を含まない結果である場合、前
記第一コムフィルタに各周波数成分で信号を減衰する修
正をすることにより、突発的に発生するノイズを抑圧す
ることができる。
As described above, according to the voice emphasizing device of the present embodiment, it is determined from the first comb filter and the second comb filter whether or not the voice spectrum includes a voice component, and this determination is a voice component. In the case where the result does not include the above, the first comb filter can be modified so as to attenuate the signal at each frequency component, so that noise that occurs suddenly can be suppressed.

【0120】具体的には、本実施の形態の音声強調装置
によれば、音声/非音声識別閾値の低い第一コムフィル
タの結果に基づいて音声とノイズのSN比を計算するこ
とによって、音声と雑音をより検出しやすくなる。一
方、音声/非音声識別閾値の高い第二コムフィルタの結
果に基づいて音声と雑音のSN比を計算することによっ
て、突発ノイズによる誤検出を少なくすることができ
る。上記音声/雑音フレーム検出を用いれば、両方の長
所を活かすことができ、より確実に音声/雑音フレーム
を検出し、突発ノイズによる音声/雑音フレームの検出
への影響を最小限にすることができる。
Specifically, according to the voice emphasizing device of the present embodiment, the SN ratio of voice and noise is calculated based on the result of the first comb filter having a low voice / non-voice discrimination threshold. And noise becomes easier to detect. On the other hand, by calculating the SN ratio of voice and noise based on the result of the second comb filter having a high voice / non-voice discrimination threshold, it is possible to reduce false detection due to sudden noise. By using the above voice / noise frame detection, both advantages can be utilized, the voice / noise frame can be detected more reliably, and the influence of sudden noise on the detection of the voice / noise frame can be minimized. .

【0121】(実施の形態3)図5は実施の形態3にか
かる音声強調装置の構成の例を示すブロック図である。
但し、図1と共通する構成については図1と同一番号を
付し、詳しい説明を省略する。
(Third Embodiment) FIG. 5 is a block diagram showing an example of the configuration of a voice emphasizing device according to the third embodiment.
However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG.

【0122】図5の音声強調装置400は、局部最小値
計算部401を具備し、入力信号のパワスペクトルの極
小値から所定の範囲を阻止域とするコムフィルタを作成
する点が図1の音声強調装置と異なる。
The speech emphasizing apparatus 400 of FIG. 5 is provided with a local minimum value calculating section 401, and a point of creating a comb filter having a predetermined range from the minimum value of the power spectrum of the input signal as a comb filter is shown in FIG. Different from the highlighter.

【0123】具体的には、図5の音声強調装置400
は、所定の周波数領域において、入力音声パワスペクト
ルの局部最小値を第一コムフィルタの阻止域とし、それ
以外の周波数成分を通過域とすることによって第一コム
フィルタを生成する点が、図1の音声強調装置と異な
る。
Specifically, the voice emphasizing device 400 of FIG.
1 is that, in a predetermined frequency region, the local minimum value of the input speech power spectrum is used as the stop band of the first comb filter, and the other frequency components are used as the pass band to generate the first comb filter. Different from the voice enhancement device.

【0124】図5において、入力音声スペクトルを局部
最小値計算部401に入力し、局部最小値計算部401
の出力は第一音声/非音声識別部106により設定され
た閾値と共に第一コムフィルタ生成部108に入力し、
第一コムフィルタ生成部108の結果をコムフィルタ修
正部113に出力する。
In FIG. 5, the input speech spectrum is input to the local minimum value calculation unit 401, and the local minimum value calculation unit 401 is input.
Is output to the first comb filter generation unit 108 together with the threshold value set by the first voice / non-voice identification unit 106,
The result of the first comb filter generation unit 108 is output to the comb filter correction unit 113.

【0125】局部最小値計算部401は入力された音声
パワスペクトルに基づいて、所定の周波数領域における
局部最小値に位置する周波数成分を第一コムフィルタの
通過域と阻止域の変換点の周波数成分とする。具体的に
は、所定の周波数領域において、以下の手順で第一コム
フィルタを生成する。
The local minimum value calculation unit 401 determines the frequency component located at the local minimum value in a predetermined frequency region based on the input voice power spectrum, as the frequency components at the conversion points of the pass band and stop band of the first comb filter. And Specifically, in the predetermined frequency domain, the first comb filter is generated by the following procedure.

【0126】周波数成分毎に分割された音声スペクトル
f(k)(ただし、kは周波数成分を特定する番号)
について、隣接する周波数成分Sf(k−1)及びS
f(k+1)の両方のパワより小さい場合、第一コムフ
ィルタを阻止域とし、上記条件を満たさない場合、第一
コムフィルタを通過域とする。所定の周波数領域以外の
周波数領域に対しては、実施の形態1と同じ手段で第一
コムフィルタを生成する。
Speech spectrum S f (k) divided for each frequency component (where k is a number identifying the frequency component)
For adjacent frequency components S f (k−1) and S
If both powers of f (k + 1) are smaller than the above, the first comb filter is set as a stop band, and if the above conditions are not satisfied, the first comb filter is set as a pass band. For frequency regions other than the predetermined frequency region, the first comb filter is generated by the same means as in the first embodiment.

【0127】このように、本実施の形態の音声強調装置
によれば、入力信号のパワスペクトルの極小値から所定
の範囲を阻止域とするコムフィルタを作成し、このコム
フィルタを用いて入力信号を抑圧することにより、音声
とノイズのレベル差が少ない場合でも、音声ピッチ調波
構造を抽出して修復して音声歪を低減することができ
る。
As described above, according to the voice emphasizing device of the present embodiment, a comb filter having a predetermined range from the minimum value of the power spectrum of the input signal as a stop band is created, and the input signal is output using this comb filter. By suppressing the noise, even if the level difference between the voice and the noise is small, the voice pitch harmonic structure can be extracted and restored to reduce the voice distortion.

【0128】具体的には、本実施の形態の音声強調装置
によれば、所定の周波数領域(特に、低域の周波数帯域
帯域)において、局部最小値を抽出し、局部最小値の周
波数成分を第一コムフィルタの阻止域とし、それ以外の
周波数成分を通過域とすることによって、音声がノイズ
に埋もれやすい低SN比の環境下でも音声ピッチ調波構
造をより確実に抽出して修復することができ、音声ピッ
チ調波構造の欠落による音声歪を低減することができ
る。
Specifically, according to the voice emphasizing device of the present embodiment, the local minimum value is extracted in a predetermined frequency region (particularly, the low frequency band), and the frequency component of the local minimum value is extracted. By making the stop band of the first comb filter and the other frequency components the pass band, it is possible to more reliably extract and restore the voice pitch harmonic structure even in a low SN ratio environment where voice is easily buried in noise. Therefore, it is possible to reduce the voice distortion due to the lack of the voice pitch harmonic structure.

【0129】(実施の形態4)図6は、実施の形態4に
かかる音声強調装置の構成の例を示すブロック図であ
る。但し、図1と共通する構成については図1と同一番
号を付し、詳しい説明を省略する。
(Embodiment 4) FIG. 6 is a block diagram showing an example of the configuration of a voice emphasizing device according to Embodiment 4. In FIG. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof will be omitted.

【0130】図6の音声強調装置500は、ノイズベー
ス減算部501を具備し、入力信号のパワスペクトルか
らノイズベースを減算し、減算結果の自己相関関数に基
づいて音声ピッチを推定し、推定した音声ピッチで第一
コムフィルタに含まれる音声ピッチ調波構造を修正する
点が図1の音声強調装置と異なる。
The speech emphasizing apparatus 500 of FIG. 6 comprises a noise base subtraction unit 501, subtracts the noise base from the power spectrum of the input signal, and estimates and estimates the speech pitch based on the autocorrelation function of the subtraction result. The point that the voice pitch harmonic structure included in the first comb filter is corrected by the voice pitch is different from the voice enhancing apparatus of FIG.

【0131】具体的には、図6の音声強調装置500
は、入力音声のパワスペクトルからノイズベースを減算
して自己相関関数を計算し、周波数領域で入力音声のパ
ワスペクトルの自己相関関数に基づいてピッチ推定値を
計算する方法を採る点が、図1の音声強調装置と異な
る。
Specifically, the voice emphasizing device 500 shown in FIG.
1 adopts a method of subtracting a noise base from the power spectrum of the input speech to calculate an autocorrelation function, and calculating a pitch estimation value based on the autocorrelation function of the power spectrum of the input speech in the frequency domain. Different from the voice enhancement device.

【0132】図6において、入力音声パワスペクトルと
ノイズベース推定部105により推定されたノイズベー
スの推定値をノイズベース減算部501に入力し、ノイ
ズベース減算部501は入力音声パワスペクトルからノ
イズベースの推定値を減算し、その結果をピッチ推定部
111に入力する。また、有声/無声判別部110から
出力されたピッチ推定を行うかどうかの信号もピッチ推
定部111に入力する。ピッチ推定部111で推定され
たピッチ周期はピッチ調波構造修復部112に出力す
る。
In FIG. 6, the input speech power spectrum and the noise base estimation value estimated by the noise base estimation unit 105 are input to the noise base subtraction unit 501, and the noise base subtraction unit 501 extracts the noise base from the input speech power spectrum. The estimated value is subtracted and the result is input to pitch estimation section 111. Further, the signal output from the voiced / unvoiced discrimination unit 110 indicating whether or not to perform pitch estimation is also input to the pitch estimation unit 111. The pitch period estimated by the pitch estimation unit 111 is output to the pitch harmonic structure restoration unit 112.

【0133】ピッチ推定部111は入力音声パワスペク
トルからノイズベースを減算した結果を用いて自己相関
関数を計算し、自己相関関数の最大値に対応する遅延を
ピッチ周期とする。
Pitch estimating section 111 calculates an autocorrelation function using the result of subtracting the noise base from the input speech power spectrum, and sets the delay corresponding to the maximum value of the autocorrelation function as the pitch period.

【0134】具体的には、以下の式(11)を用いて入
力音声パワスペクトルからノイズベースを減算し、式
(12)を用いて自己相関関数を計算する。
Specifically, the noise base is subtracted from the input speech power spectrum using the following equation (11), and the autocorrelation function is calculated using equation (12).

【0135】[0135]

【数11】 [Equation 11]

【0136】[0136]

【数12】 ここでKMは周波数の上限である。式(12)で計算さ
れた自己相関関数の最大値に対応するτをピッチ周期と
する。
[Equation 12] Here, K M is the upper limit of the frequency. Let τ corresponding to the maximum value of the autocorrelation function calculated by equation (12) be the pitch period.

【0137】このように、本実施の形態の音声強調装置
によれば、入力信号のパワスペクトルからノイズベース
を減算し、減算結果の自己相関関数に基づいて音声ピッ
チを推定し、推定した音声ピッチで第一コムフィルタに
含まれる音声ピッチ調波構造を修正することにより、ピ
ッチ調波構造の修復を行うことができ、音声歪みの少な
い音声強調を行うことができる。
As described above, according to the voice emphasizing apparatus of the present embodiment, the noise base is subtracted from the power spectrum of the input signal, the voice pitch is estimated based on the autocorrelation function of the subtraction result, and the estimated voice pitch is obtained. By correcting the voice pitch harmonic structure included in the first comb filter, the pitch harmonic structure can be restored, and voice enhancement with less voice distortion can be performed.

【0138】具体的には、本実施の形態の音声強調装置
によれば、ピッチ推定部111は入力音声パワスペクト
ルからノイズベースを減算した結果を用いて自己相関関
数を計算することによって、ノイズによるピッチ推定誤
差を減少し、より正確にピッチ調波構造の修復を行うこ
とができる。
Specifically, according to the speech emphasizing apparatus of this embodiment, the pitch estimating unit 111 calculates the autocorrelation function using the result of subtracting the noise base from the input speech power spectrum, and The pitch estimation error can be reduced, and the pitch harmonic structure can be more accurately restored.

【0139】(実施の形態5)図7は、実施の形態5に
かかる音声強調装置の構成の例を示すブロック図であ
る。但し、図1と共通する構成については図1と同一番
号を付し、詳しい説明を省略する。
(Fifth Embodiment) FIG. 7 is a block diagram showing an example of the configuration of a voice emphasizing device according to a fifth embodiment. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof will be omitted.

【0140】図7の音声強調装置600は、入力信号の
パワスペクトルからノイズベースを減算した結果に直流
成分に所定のパワを持つ擬似ピークを生成し、直流成分
を生成したスペクトルの自己相関関数に基づいて音声ピ
ッチを推定し、推定した音声ピッチでコムフィルタの音
声ピッチを修正する点が図1の音声強調装置と異なる。
The speech emphasizing apparatus 600 of FIG. 7 generates a pseudo peak having a predetermined power in the DC component as a result of subtracting the noise base from the power spectrum of the input signal, and calculates the DC component as an autocorrelation function of the generated spectrum. 1 is different in that the voice pitch is estimated based on the estimated voice pitch and the voice pitch of the comb filter is corrected with the estimated voice pitch.

【0141】具体的には、図7の音声強調装置600
は、直流成分生成部601を具備し、自己相関関数を計
算するとき、適当なエネルギを持つ擬似パワスペクトル
を直流成分として生成し、それに基づいて自己相関関数
を計算する点が図1の音声強調装置と異なる。
Specifically, the voice emphasizing device 600 shown in FIG.
1 includes a DC component generator 601. When calculating an autocorrelation function, a pseudo power spectrum having appropriate energy is generated as a DC component, and the autocorrelation function is calculated based on the generated DC spectrum. Different from the device.

【0142】図7において、直流成分生成部601は直
流成分に適当なエネルギを持つパワスペクトルを生成
し、ピッチ推定部111に入力する。また、有声/無声
判別部110によりピッチ推定を行うかどうかの信号も
ピッチ推定部111に入力する。ピッチ推定部111で
推定されたピッチ周期はピッチ調波構造修復部112に
出力する。
In FIG. 7, the DC component generator 601 generates a power spectrum having an appropriate energy for the DC component and inputs it to the pitch estimator 111. Further, a signal indicating whether or not pitch estimation is performed by the voiced / unvoiced discrimination unit 110 is also input to the pitch estimation unit 111. The pitch period estimated by the pitch estimation unit 111 is output to the pitch harmonic structure restoration unit 112.

【0143】具体的には、第一音声ピッチ調波のパワス
ペクトルと同じエネルギを持つ擬似パワスペクトルを直
流成分として付加した入力スペクトルを用いて自己相関
関数を計算し、その結果に基づいてピッチ周期を推定す
る。
Specifically, an autocorrelation function is calculated using an input spectrum in which a pseudo power spectrum having the same energy as the power spectrum of the first voice pitch harmonic is added as a DC component, and the pitch period is calculated based on the result. To estimate.

【0144】このように、本実施の形態の音声強調装置
によれば、入力信号のパワスペクトルからノイズベース
を減算した結果に直流成分に所定のパワを持つ擬似ピー
クを生成し、直流成分を生成したスペクトルの自己相関
関数に基づいて音声ピッチを推定し、推定した音声ピッ
チでピッチ調波構造を修復することにより、ピッチ調波
の一部がノイズに埋もれても、ピッチ情報を得てピッチ
調波構造の修復を行うことができ、音声歪みの少ない音
声強調を行うことができる。
As described above, according to the voice emphasizing device of the present embodiment, a pseudo peak having a predetermined power in the DC component is generated as a result of subtracting the noise base from the power spectrum of the input signal, and the DC component is generated. By estimating the voice pitch based on the autocorrelation function of the spectrum, and restoring the pitch harmonic structure with the estimated voice pitch, even if a part of the pitch harmonic is buried in noise, the pitch information is obtained and the pitch tuning is performed. The wave structure can be restored, and the voice enhancement with less voice distortion can be performed.

【0145】具体的には、本実施の形態の音声強調装置
によれば、入力音声信号は直流成分が含まれなくても、
周波数領域において、直流成分はピッチ調波の基点とし
て利用することができる。直流成分に適当なエネルギを
持つ擬似パワスペクトルを生成することによって、参照
となるピッチ調波は一つが増える。それを利用して自己
相関関数を計算すれば、より正確にピッチ推定を行うこ
とができる。特に第一音声ピッチ調波のエネルギが大き
く高次ピッチ調波のエネルギが小さい場合、あるいは低
周波数領域における雑音レベルが高いときにピッチ推定
の誤差を減少するために非常に有効である。
Specifically, according to the voice emphasizing device of the present embodiment, even if the input voice signal does not include a DC component,
In the frequency domain, the DC component can be used as a base point for pitch harmonics. By generating a pseudo power spectrum having an appropriate energy for a DC component, one reference pitch harmonic is increased. If the autocorrelation function is calculated using this, pitch estimation can be performed more accurately. Particularly, it is very effective for reducing the pitch estimation error when the energy of the first voice pitch harmonic is large and the energy of the higher order pitch harmonic is small, or when the noise level in the low frequency region is high.

【0146】なお、実施の形態5は、実施の形態4と組
み合せることができる。すなわち、図7の音声強調装置
に実施の形態4に記載のノイズベース減算部501を用
いれば、実施の形態4の効果も得ることができる。
The fifth embodiment can be combined with the fourth embodiment. That is, if the noise-based subtraction unit 501 described in the fourth embodiment is used in the voice enhancement device in FIG. 7, the effect of the fourth embodiment can be obtained.

【0147】(実施の形態6)図8は実施の形態6にか
かる音声強調装置の構成の例を示すブロック図である。
但し、図1または図4と共通する構成については図1ま
たは図4と同一番号を付し、詳しい説明を省略する。
(Sixth Embodiment) FIG. 8 is a block diagram showing an example of the configuration of a voice emphasizing device according to the sixth embodiment.
However, the same components as those in FIG. 1 or 4 are denoted by the same reference numerals as those in FIG.

【0148】図8の音声強調装置700は、第三音声/
非音声識別部701と、第三コムフィルタ生成部702
と、ノイズ特性推定部703とを具備し、入力信号のノ
イズ分散値を推定し、第三コムフィルタの通過域におけ
る周波数成分の個数の移動平均を計算し、その値が大き
い場合はノイズの分散値が大きいと判断し、逆にノイズ
の分散値が小さいと判断し、その結果に基づいて第二コ
ムフィルタを生成するときの音声/非音声識別閾値を設
定する点が、図1の音声強調装置と異なる。
The voice emphasizing device 700 of FIG.
Non-voice identification unit 701 and third comb filter generation unit 702
And a noise characteristic estimation unit 703, estimate the noise variance value of the input signal, calculate the moving average of the number of frequency components in the pass band of the third comb filter, and if the value is large, the noise variance It is judged that the value is large, and conversely it is judged that the noise variance value is small, and based on the result, the voice / non-voice discrimination threshold when the second comb filter is generated is set. Different from the device.

【0149】具体的には、図8の音声強調装置700
は、ノイズの特性を推定する第三コムフィルタを周波数
領域で生成し、雑音フレームにおいて、第三コムフィル
タの通過域の周波数成分の個数を加算し、その移動平均
値に基づいて第二音声/非音声の識別閾値を決定する点
が、図1の音声強調装置と異なる。
Specifically, the voice emphasizing device 700 shown in FIG.
Generates a third comb filter that estimates the characteristics of noise in the frequency domain, adds the number of frequency components in the passband of the third comb filter in the noise frame, and then outputs the second voice / The difference from the voice emphasizing device in FIG. 1 is that the non-voice discrimination threshold is determined.

【0150】第三音声/非音声識別部701は、周波数
分割部104から出力された音声スペクトル信号とノイ
ズベース推定部105から出力されるノイズベースの値
の差が所定の閾値以上である場合、通過域と判定し、そ
れ以外の場合、阻止域と判定する。判定結果を第三コム
フィルタ生成部702に出力する。
The third speech / non-speech discrimination section 701, when the difference between the speech spectrum signal output from the frequency division section 104 and the noise base value output from the noise base estimation section 105 is equal to or larger than a predetermined threshold value, It is determined to be the pass band, and otherwise it is determined to be the stop band. The determination result is output to the third comb filter generation unit 702.

【0151】第三コムフィルタ生成部702は、第三音
声/非音声識別部701から出力された音声/非音声識別
結果に基づいてコムフィルタの通過域/阻止域を生成
し、その結果をノイズ特性推定部703に出力する。ノ
イズ特性推定部703は、音声/雑音フレーム検出部3
01から検出された雑音フレームにおいて、第三コムフ
ィルタの通過域における周波数成分の個数を加算し、所
定のフレーム数に渡って平均値を計算し、その結果を第
二音声/非音声識別部107に出力する。具体的には、
以下の式(13)を用いてノイズ特性の推定を行う。
The third comb filter generation unit 702 generates a pass band / stop band of the comb filter based on the voice / non-voice discrimination result output from the third voice / non-voice discrimination unit 701, and outputs the result as noise. It is output to the characteristic estimation unit 703. The noise characteristic estimation unit 703 uses the speech / noise frame detection unit 3
In the noise frame detected from 01, the number of frequency components in the pass band of the third comb filter is added, the average value is calculated over a predetermined number of frames, and the result is calculated by the second voice / non-voice discriminating unit 107. Output to. In particular,
The noise characteristic is estimated using the following equation (13).

【0152】[0152]

【数13】 ここで、COMB_var(k)は第三コムフィルタ、NS_var(n)
はノイズ特性の推定結果、αVは移動平均係数である。
[Equation 13] Where COMB_var (k) is the third comb filter, NS_var (n)
Is a noise characteristic estimation result, and α V is a moving average coefficient.

【0153】そして、第二音声/非音声識別閾値をNS_v
ar(n)で適応的に制御するようにし、NS_var(n)の値が
大きければ、雑音の特性として分散が大きいと判断し、
第二音声/非音声識別閾値を高く設定し、逆に、その値
が小さければ、雑音の特性として分散が小さいと判断
し、第二音声/非音声識別閾値を低く設定する。
Then, the second voice / non-voice discrimination threshold is NS_v
ar (n) is adaptively controlled, and if the value of NS_var (n) is large, it is determined that the variance is large as a noise characteristic,
The second voice / non-voice discrimination threshold is set high, and conversely, if the value is small, it is determined that the variance of the noise characteristics is small, and the second voice / non-voice discrimination threshold is set low.

【0154】このように、本実施の形態の音声強調装置
によれば、入力信号のノイズレベルの分布を検出し、こ
の分布に基づいて音声スペクトルからコムフィルタを生
成する基準を決定し、ノイズの種類に対応して雑音を抑
圧することができ、音声歪みの少ない音声強調を行うこ
とができる。
As described above, according to the voice emphasizing device of the present embodiment, the distribution of the noise level of the input signal is detected, and the reference for generating the comb filter is determined from the voice spectrum based on this distribution to determine the noise level. Noise can be suppressed according to the type, and speech enhancement with less speech distortion can be performed.

【0155】具体的には、本実施の形態の音声強調装置
によれば、ノイズの特性を推定するための第三コムフィ
ルタを設けることによって、簡単な計算で間接的にノイ
ズの分散値を推定することができ、その結果に基づいて
第二音声/非音声識別閾値を設定すれば、第二コムフィ
ルタを生成するとき、分散値の大きいノイズによる偽の
ピッチ調波の混入を減少することができる。また、分散
値の小さいノイズの場合は、より多くの音声ピッチ調波
情報を残すことができる。
Specifically, according to the voice emphasizing device of the present embodiment, the third comb filter for estimating the noise characteristic is provided to indirectly estimate the noise variance value by a simple calculation. By setting the second voice / non-voice discrimination threshold based on the result, it is possible to reduce the mixing of false pitch harmonics due to noise with large variance when generating the second comb filter. it can. Further, in the case of noise having a small variance value, more voice pitch harmonic information can be left.

【0156】(実施の形態7)図9は、実施の形態7に
かかる音声強調装置の構成の例を示すブロック図であ
る。但し、図1及び図4と共通する構成については図1
及び図4と同一番号を付し、詳しい説明を省略する。
(Seventh Embodiment) FIG. 9 is a block diagram showing an example of the configuration of a voice emphasizing device according to a seventh embodiment. However, the configuration common to FIG. 1 and FIG.
4, and the same numbers as in FIG. 4 are given, and detailed description is omitted.

【0157】図9の音声強調装置800は、周波数領域
選択部801を具備し、音声ピッチ調波構造の修復を行
うとき、第三コムフィルタの結果に基づいて第二コムフ
ィルタの所定の周波数領域における周波数成分をすべて
阻止域に変換する点が、図1の音声強調装置と異なる。
The speech emphasizing apparatus 800 of FIG. 9 is equipped with a frequency domain selection unit 801, and when the speech pitch harmonic structure is restored, a predetermined frequency domain of the second comb filter is obtained based on the result of the third comb filter. The point that all the frequency components in are converted to the stop band is different from the speech enhancement apparatus of FIG.

【0158】図9において、ノイズ特性推定部703
は、第三コムフィルタ生成部702から出力された結果
に基づいてノイズの特性を推定し、その結果を周波数領
域選択部801に出力する。周波数領域選択部801
は、ノイズ特性の推定結果に基づいて第二コムフィルタ
を阻止域にする中間周波数領域を決定し、その結果を第
二コムフィルタ生成部109に出力する。
In FIG. 9, noise characteristic estimating section 703
Estimates the noise characteristic based on the result output from the third comb filter generation unit 702, and outputs the result to the frequency domain selection unit 801. Frequency domain selection unit 801
Determines the intermediate frequency region in which the second comb filter is in the stop band based on the noise characteristic estimation result, and outputs the result to the second comb filter generation unit 109.

【0159】具体的には、ノイズ特性推定部703によ
り計算されたノイズ特性の移動平均値がある閾値を越え
たら、分散値の大きいノイズと判断し、第二コムフィル
タの中間周波数領域、例えば1kHz〜2kHz間の周波数
成分をすべて阻止域に変換する。
Specifically, if the moving average value of the noise characteristic calculated by the noise characteristic estimating unit 703 exceeds a certain threshold, it is determined that the noise has a large variance value, and the intermediate frequency region of the second comb filter, for example, 1 kHz. All frequency components between 2 kHz are converted to the stop band.

【0160】このように、本実施の形態の音声強調装置
によれば、ノイズ特性の推定結果に基づいて周波数成分
を選択し、第二コムフィルタにおいて、選択された周波
数領域をすべて阻止域に変換することによって、分散値
の大きいノイズにより生成した偽のピッチ調波を減少
し、偽のピッチ調波を生じにくい低周波数領域における
ピッチ調波を基準に、実施の形態1に記載したピッチ調
波構造の修復を行えば、正確にピッチ調波構造を修復す
ることができる。
As described above, according to the voice emphasizing device of the present embodiment, the frequency component is selected based on the estimation result of the noise characteristic, and the second comb filter converts all the selected frequency region into the stop band. By doing so, false pitch harmonics generated by noise having a large variance value are reduced, and the pitch harmonics described in the first embodiment are based on the pitch harmonics in the low frequency region in which false pitch harmonics are less likely to occur. If the structure is repaired, the pitch harmonic structure can be accurately repaired.

【0161】なお、実施の形態7は、実施の形態6と組
み合せることができる。すなわち、図9の音声強調装置
に実施の形態6に記載のノイズ特性推定部703を用い
れば、実施の形態6の効果も得ることができる。
The seventh embodiment can be combined with the sixth embodiment. That is, if the noise characteristic estimation unit 703 described in the sixth embodiment is used in the speech enhancement apparatus of FIG. 9, the effect of the sixth embodiment can be obtained.

【0162】(実施の形態8)図10は、実施の形態8
にかかる音声強調装置の構成の例を示すブロック図であ
る。但し、図1と共通する構成については図1と同一番
号を付し、詳しい説明を省略する。
(Embodiment 8) FIG. 10 shows Embodiment 8.
It is a block diagram showing an example of composition of a voice emphasis device concerning. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof will be omitted.

【0163】図10の音声強調装置900は、SNR推
定部901を具備し、音声分離係数計算手段において、
ノイズの減衰量をSNR推定値の大きさに応じて調整す
る点が、図1の音声強調装置と異なる。
The speech emphasizing apparatus 900 of FIG. 10 comprises an SNR estimating section 901, and in the speech separation coefficient calculating means,
The difference from the speech enhancement apparatus of FIG. 1 is that the amount of noise attenuation is adjusted according to the magnitude of the estimated SNR value.

【0164】図10において、SNR推定部901は入
力音声パワスペクトルおよびノイズベース推定部105
から出力されたノイズベースの推定値に基づいて音声レ
ベルと雑音レベルの比を計算し、その結果を音声分離係
数計算部114に出力する。音声分離係数計算部114
はSNR推定値の大きさに応じて周波数成分毎のノイズ
の減衰量を計算し、乗算部115で入力音声スペクトル
と乗算する。具体的には、以下の式(14)〜(16)
を用いてSNRを計算する。
In FIG. 10, SNR estimating section 901 is input speech power spectrum and noise base estimating section 105.
The ratio of the voice level to the noise level is calculated based on the noise-based estimated value output from the voice separation coefficient calculation unit 114, and the result is output to the voice separation coefficient calculation unit 114. Speech separation coefficient calculation unit 114
Calculates the amount of noise attenuation for each frequency component according to the magnitude of the SNR estimated value, and multiplies the input speech spectrum by the multiplication unit 115. Specifically, the following equations (14) to (16)
To calculate the SNR.

【0165】[0165]

【数14】 [Equation 14]

【0166】[0166]

【数15】 [Equation 15]

【0167】[0167]

【数16】 ここで、Sp(n)は音声レベルの移動平均値を、N
s(n)はノイズの移動平均値を、αSは移動平均係数を
示す。
[Equation 16] Here, S p (n) is the moving average value of the voice level, N
s (n) is a moving average value of noise, and α S is a moving average coefficient.

【0168】SNRの値に応じて、修正コムフィルタの
通過域と阻止域において、音声分離係数(ノイズの減衰
量)は以下の式(17)を用いて計算する。
According to the SNR value, the voice separation coefficient (amount of noise attenuation) in the pass band and stop band of the modified comb filter is calculated using the following equation (17).

【0169】[0169]

【数17】 ここで、γ(n)はノイズベースを減算する量を示す係
数で、gc(n)はノイズ減衰の度合い係数である。異
なるSN比の環境に対応できるように、γ(n)とgc
(n)の値をSNRの推定値より自動的に調整できるよ
うにする。例えば、γ(n)の大きさはSNR(n)の
値に正比例し、gc(n)の大きさはSNR(n)の値
に反比例するように自動的に調整する。
[Equation 17] Here, γ (n) is a coefficient indicating the amount by which the noise base is subtracted, and gc (n) is a noise attenuation degree coefficient. Γ (n) and gc are set so that they can handle environments with different SN ratios.
The value of (n) can be automatically adjusted from the estimated value of SNR. For example, the magnitude of γ (n) is directly proportional to the value of SNR (n), and the magnitude of gc (n) is automatically adjusted to be inversely proportional to the value of SNR (n).

【0170】このように、本実施の形態の音声分離装置
によれば、修正コムフィルタの通過域と阻止域におい
て、入力音声パワスペクトルからノイズベースを減算す
る量とノイズ減衰の度合いをSNR推定値の大きさに応
じて調整することによって、異なるSNRの環境下でも
適切なノイズ減衰を行い、音声歪と残留ノイズの少ない
音声強調を実現できる。
As described above, according to the speech separation apparatus of the present embodiment, the amount of subtraction of the noise base from the input speech power spectrum and the degree of noise attenuation in the pass band and stop band of the modified comb filter are used as the SNR estimated value. By adjusting in accordance with the magnitude of, the appropriate noise attenuation can be performed even under the environment of different SNR, and the voice enhancement with less voice distortion and residual noise can be realized.

【0171】(実施の形態9)図11は、実施の形態9
にかかる音声強調装置の構成の例を示すブロック図であ
る。但し、図1及び図10と共通する構成については図
1及び図10と同一番号を付し、詳しい説明を省略す
る。
(Ninth Embodiment) FIG. 11 shows a ninth embodiment.
It is a block diagram showing an example of composition of a voice emphasis device concerning. However, components common to those in FIGS. 1 and 10 are designated by the same reference numerals as those in FIGS. 1 and 10, and detailed description thereof is omitted.

【0172】図11の音声強調装置1000は、ノイズ
ベース減算部1001と、重み係数計算部1002とを
具備し、音声成分のレベルを入力信号のパワスペクトル
の移動平均値より算出し、雑音成分のレベルをノイズベ
ースの推定値に各周波数成分別に重み計数を乗算した値
より算出し、前記音声成分のレベルと前記雑音成分のレ
ベルの比から信号対雑音比を算出する点が、図1の音声
強調装置と異なる。
The speech emphasizing apparatus 1000 of FIG. 11 comprises a noise base subtraction unit 1001 and a weighting coefficient calculation unit 1002, calculates the level of the speech component from the moving average value of the power spectrum of the input signal, and calculates the noise component 1 is that a level is calculated from a value obtained by multiplying a noise-based estimated value by a weighting coefficient for each frequency component, and a signal-to-noise ratio is calculated from a ratio between the level of the voice component and the level of the noise component. Different from the highlighter.

【0173】図11において、ノイズベース推定部10
5はノイズベースを推定し、その結果をノイズベース減
算部1001と重み係数計算部1002に出力する。ノ
イズベース減算部1001は入力音声パワスペクトルの
移動平均値を計算し、移動平均値からノイズベースの推
定値を減算してSNR推定部901に出力する。重み係
数計算部1002はノイズベース推定値の各周波数成分
に重み係数を計算し、その結果をSNR推定部901に
出力する。SNR推定部901は音声レベルと雑音レベ
ルの比を計算し、その結果を音声分離係数計算部114
に出力する。具体的には、以下の式(18)〜式(2
0)を用いてSNRを計算する。
In FIG. 11, the noise base estimation unit 10
5 estimates the noise base, and outputs the result to the noise base subtraction unit 1001 and the weight coefficient calculation unit 1002. The noise-based subtraction unit 1001 calculates the moving average value of the input speech power spectrum, subtracts the noise-based estimated value from the moving average value, and outputs it to the SNR estimation unit 901. Weighting coefficient calculation section 1002 calculates a weighting coefficient for each frequency component of the noise-based estimated value, and outputs the result to SNR estimation section 901. The SNR estimation unit 901 calculates the ratio between the voice level and the noise level, and the result is used as the voice separation coefficient calculation unit 114.
Output to. Specifically, the following equations (18) to (2
0) is used to calculate the SNR.

【0174】[0174]

【数18】 [Equation 18]

【0175】[0175]

【数19】 [Formula 19]

【0176】[0176]

【数20】 ここで、βはノイズベースを減算する量を示す係数で、
δ(k)は重み係数である。重み係数δ(k)は音声の
特性を利用して設定する。例えば、中間周波数領域にお
ける音声スペクトルのエネルギが小さいが音声の明瞭性
に与える影響が大きいので、中間周波数領域におけるノ
イズに対して重み係数の値を増やして雑音レベルを計算
すれば、異なるノイズに対して適切な減衰を行うことが
できる。
[Equation 20] Where β is a coefficient indicating the amount by which the noise base is subtracted,
δ (k) is a weighting coefficient. The weighting factor δ (k) is set by utilizing the characteristics of voice. For example, since the energy of the voice spectrum in the intermediate frequency region is small, but the influence on the intelligibility of the voice is great, if the noise level is calculated by increasing the value of the weighting coefficient for the noise in the intermediate frequency region, different noises To provide appropriate damping.

【0177】このように、本実施の形態の音声強調装置
によれば、入力音声パワスペクトルの移動平均値からノ
イズベースを減算して音声レベルの計算することによ
り、ノイズの影響を減少し、低SNRの環境下でも正確
な音声レベルを計算することができる。また、ノイズベ
ース推定値の各周波数成分に重み係数を乗算して計算す
ることにより、異なるノイズに対して適切な減衰を行
い、音声歪を低減することができる。
As described above, according to the voice emphasizing apparatus of the present embodiment, the noise base is calculated by subtracting the noise base from the moving average value of the input voice power spectrum, thereby reducing the influence of noise and reducing the noise level. An accurate voice level can be calculated even in an SNR environment. In addition, by multiplying each frequency component of the noise-based estimated value by a weighting coefficient for calculation, it is possible to appropriately attenuate different noises and reduce voice distortion.

【0178】なお、実施の形態9は、実施の形態8と組
み合せることができる。すなわち、図11の音声強調装
置に実施の形態8に記載のSNR推定部901を用いれ
ば、実施の形態8の効果も得ることができる。
Note that the ninth embodiment can be combined with the eighth embodiment. That is, if the SNR estimation unit 901 described in the eighth embodiment is used in the speech enhancement apparatus in FIG. 11, the effect of the eighth embodiment can be obtained.

【0179】(実施の形態10)図12は、実施の形態
10にかかる音声強調装置の構成の例を示すブロック図
である。但し、図1、図10及び図11と共通する構成
については図1、図10及び図11と同一番号を付し、
詳しい説明を省略する。
(Tenth Embodiment) FIG. 12 is a block diagram showing an example of the configuration of a voice emphasizing device according to the tenth embodiment. However, the same components as those in FIG. 1, FIG. 10 and FIG.
Detailed explanation is omitted.

【0180】図12の音声強調装置1100は、SNR
の変動を抑えるSNR変動抑圧部1101を具備し、S
NR変動抑圧部1101は、SNR推定値とSNR推定
値の長期移動平均値の結果に基づいてSNRの変動を抑
圧する点が、図1の音声強調装置と異なる。
The speech enhancement apparatus 1100 shown in FIG.
SNR fluctuation suppressing section 1101 for suppressing fluctuation of
The NR variation suppressing unit 1101 is different from the speech enhancement apparatus of FIG. 1 in that the NR variation suppressing unit 1101 suppresses the SNR variation based on the result of the SNR estimated value and the long-term moving average value of the SNR estimated value.

【0181】図12において、SNR推定部901は音
声レベルと雑音レベルの比を計算し、その結果をSNR
変動抑圧部1101に出力する。SNR変動抑圧部11
01はSNR推定値に基づいてSNRの長期移動平均値
を計算し、その結果とSNR推定値の偏差を計算し、S
NR推定値の長期移動平均値と前記偏差の一部を加算し
てSNR変動抑圧結果として用いる。そして、変動が抑
圧されたSNR推定値を音声分離係数計算部114に出
力する。
In FIG. 12, the SNR estimation unit 901 calculates the ratio between the voice level and the noise level, and outputs the result as the SNR.
Output to the fluctuation suppressing unit 1101. SNR fluctuation suppressing section 11
01 calculates the long-term moving average value of SNR based on the SNR estimated value, calculates the deviation between the result and the SNR estimated value, and
The long-term moving average value of the NR estimated value and a part of the deviation are added and used as the SNR fluctuation suppression result. Then, the SNR estimated value in which the fluctuation is suppressed is output to the voice separation coefficient calculation unit 114.

【0182】具体的には、以下の式(21)を用いてS
NRの長期移動平均値を計算し、式(22)を用いてS
NRの変動を抑圧するSNRの推定値を計算する。
Specifically, S is calculated using the following equation (21).
Calculate the long-term moving average value of NR and use equation (22) to calculate S
An estimated value of SNR that suppresses fluctuations in NR is calculated.

【0183】[0183]

【数21】 [Equation 21]

【0184】[0184]

【数22】 ここで、αrは移動平均係数で、μは加算する偏差の大
きさを決める係数である。
[Equation 22] Here, α r is a moving average coefficient, and μ is a coefficient that determines the magnitude of deviation to be added.

【0185】このように、本実施の形態の音声強調装置
によれば、SNR推定値とSNR推定値の長期移動平均
値の偏差を計算し、SNR推定値の長期移動平均値と前
記偏差の一部を加算してSNR推定値として用いること
によって、SNRの変動を有効に抑制し、安定的にSN
Rの大きさに応じてノイズ減衰のレベル調整を行うこと
ができる。
As described above, according to the speech emphasizing apparatus of the present embodiment, the deviation between the SNR estimated value and the long-term moving average value of the SNR estimated value is calculated, and the long-term moving average value of the SNR estimated value and one of the deviations are calculated. By adding the parts and using them as the SNR estimation value, the SNR variation is effectively suppressed, and the SN is stable.
The level of noise attenuation can be adjusted according to the magnitude of R.

【0186】なお、実施の形態10は、実施の形態8あ
るいは実施の形態9と組み合せることができる。すなわ
ち、図12の音声強調装置に実施の形態8に記載のSN
R推定部901を用いれば、実施の形態8の効果も得る
ことができ、図12の音声強調装置に実施の形態9に記
載のノイズベース減算と重み係数計算手段を用いてSN
Rの推定を行えば、実施の形態9の効果も得ることがで
きる。
Note that the tenth embodiment can be combined with the eighth or ninth embodiment. That is, the SN described in the eighth embodiment in the voice emphasizing device of FIG.
If the R estimation unit 901 is used, the effect of the eighth embodiment can also be obtained, and SN can be obtained by using the noise-based subtraction and weighting factor calculation means described in the ninth embodiment in the speech enhancement apparatus of FIG.
If R is estimated, the effect of the ninth embodiment can be obtained.

【0187】(実施の形態11)図13は、実施の形態
11にかかる音声強調装置の構成の例を示すブロック図
である。但し、図1と共通する構成については図1と同
一番号を付し、詳しい説明を省略する。
(Embodiment 11) FIG. 13 is a block diagram showing an example of the configuration of a speech emphasizing device according to Embodiment 11. However, the same components as those in FIG. 1 are denoted by the same reference numerals as those in FIG. 1, and detailed description thereof will be omitted.

【0188】図13の音声強調装置1200は、更新速
度の速いノイズベース更新部1201を具備し、音声区
間においてもノイズベースの追跡を行うことができる点
が、図1の音声強調装置と異なる。
The speech emphasizing apparatus 1200 of FIG. 13 is different from the speech emphasizing apparatus of FIG. 1 in that it is equipped with a noise base updating unit 1201 having a high updating speed, and noise-based tracking can be performed even in a voice section.

【0189】図13において、ノイズベース更新部12
01は、入力音声パワスペクトルに基づいて更新速度の
速い移動平均係数を用いてノイズベースを推定し、その
結果をノイズベース推定部105に出力する。ノイズベ
ース推定部105は、更新速度の遅い移動平均係数を用
いてノイズベースを推定し、その結果を第一音声/非音
声識別部106および第二音声/非音声識別部107に
出力する。
In FIG. 13, the noise base updating unit 12
01 estimates a noise base based on the input speech power spectrum using a moving average coefficient with a high update speed, and outputs the result to the noise base estimation unit 105. The noise base estimation unit 105 estimates the noise base using the moving average coefficient having a slow update rate, and outputs the result to the first voice / non-voice identification unit 106 and the second voice / non-voice identification unit 107.

【0190】具体的には、以下の式(23)と式(2
4)を用いて更新速度の速いノイズベースと更新速度の
遅いノイズベースを推定する。
Specifically, the following equations (23) and (2)
4) is used to estimate a noise base with a fast update speed and a noise base with a slow update speed.

【0191】[0191]

【数23】 [Equation 23]

【0192】[0192]

【数24】 ここで、αfとαsはそれぞれ速い更新係数と遅い更新係
数であり、Θfastは音声と雑音を識別する閾値である。
[Equation 24] Here, α f and α s are a fast update coefficient and a slow update coefficient, respectively, and Θ fast is a threshold value for distinguishing between speech and noise.

【0193】このように、本実施の形態の音声強調装置
によれば、更新速度の速い移動平均係数を用いてノイズ
ベースの推定を行うことによって、音声区間においても
雑音レベルの急激な変動を追跡することができる。ま
た、更新速度の遅いノイズベースの更新は、更新速度の
速いノイズベースに基づいて行うことによって、正確に
ノイズベースの推定を行うことができ、雑音レベルの急
激な変動によるノイズベース更新の停止を防止すること
ができる。
As described above, according to the speech emphasizing apparatus of the present embodiment, noise-based estimation is performed using the moving average coefficient with a high update rate, so that a rapid change in the noise level is tracked even in the speech section. can do. In addition, the noise-based update with a slow update speed can be accurately estimated by performing the noise-based update with a fast update speed, and the noise-based update can be stopped due to a sudden change in the noise level. Can be prevented.

【0194】(実施の形態12)図14は、本発明の実
施の形態12に係る雑音分離装置の構成を示すブロック
図である。本実施の形態の雑音分離装置1300は、雑
音を含む音声信号から雑音信号を分離、抽出するもので
ある。
(Embodiment 12) FIG. 14 is a block diagram showing the structure of a noise separating apparatus according to Embodiment 12 of the present invention. The noise separation device 1300 of the present embodiment separates and extracts a noise signal from a speech signal containing noise.

【0195】図14において、雑音分離装置1300
は、時間分割部101と、窓掛け部102と、FFT部
103と、周波数分割部104と、ノイズベース推定部
105と、音声/非音声識別部1301と、雑音コムフ
ィルタ生成部1302と、実数虚数分離部1303と、
雑音分離係数計算部1304と、乗算部1305と、雑
音周波数合成部1306と、IFFT部1307と、か
ら主に構成される。
In FIG. 14, the noise separation device 1300
Is a time division unit 101, a windowing unit 102, an FFT unit 103, a frequency division unit 104, a noise base estimation unit 105, a voice / non-voice identification unit 1301, a noise comb filter generation unit 1302, and a real number. An imaginary number separating unit 1303,
The noise separation coefficient calculation unit 1304, the multiplication unit 1305, the noise frequency synthesis unit 1306, and the IFFT unit 1307 are mainly included.

【0196】ここで、但し、図1と共通する構成につい
ては図1と同一番号を付し、詳しい説明を省略する。
Here, the same components as those in FIG. 1 are designated by the same reference numerals as those in FIG. 1, and detailed description thereof will be omitted.

【0197】音声/非音声識別部1301は、周波数分
割部104から出力された音声スペクトル信号とノイズ
ベース推定部105から出力されたノイズベースの推定
値の差が所定の閾値以上である場合、音声成分を含む有
音部分と判定し、それ以外の場合、音声成分を含まない
雑音のみの無音部分であると判定し、その結果を雑音コ
ムフィルタ生成部1302に出力する。雑音コムフィル
タ生成部1302は、音声/非音声識別部1301の結
果に基づいて雑音分離コムフィルタを生成して、このコ
ムフィルタを実数虚数分離部1303に出力する。
The speech / non-speech discriminating section 1301 discriminates the speech if the difference between the speech spectrum signal outputted from the frequency dividing section 104 and the noise base estimation value outputted from the noise base estimating section 105 is equal to or larger than a predetermined threshold value. It is determined to be a voiced portion including a component, and in other cases, it is determined to be a silent portion including only noise that does not include a voice component, and the result is output to the noise comb filter generation unit 1302. The noise comb filter generation unit 1302 generates a noise separation comb filter based on the result of the speech / non-speech discrimination unit 1301 and outputs this comb filter to the real number imaginary number separation unit 1303.

【0198】具体的には、雑音コムフィルタ生成部13
02は、音声情報を抑制するように音声/非音声識別の
閾値を低く設定して以下の式(25)を用いて雑音分離
コムフィルタを生成する。
Specifically, the noise comb filter generator 13
02 sets a low threshold value for voice / non-voice discrimination so as to suppress voice information, and generates a noise separation comb filter using the following equation (25).

【0199】[0199]

【数25】 ここでΘnosは雑音分離用閾値である。[Equation 25] Where Θ nos is a noise separation threshold.

【0200】実数虚数分離部1303は、入力音声スペ
クトルの実数部と虚数部を分離し、その結果を雑音分離
係数計算部1304に出力する。雑音分離係数計算部1
304は、雑音分離コムフィルタの通過域と阻止域に対
して、周波数成分毎に別々の分離係数を計算し、その結
果を乗算部1305に出力する。
The real imaginary number separation unit 1303 separates the real number part and the imaginary number part of the input speech spectrum and outputs the result to the noise separation coefficient calculation unit 1304. Noise separation coefficient calculation unit 1
304 calculates different separation coefficients for each frequency component with respect to the pass band and the stop band of the noise separation comb filter, and outputs the result to the multiplication unit 1305.

【0201】具体的には、以下の式(26)と式(2
7)を用いて、雑音分離コムフィルタの阻止域におい
て、雑音分離係数は1とし、雑音分離コムフィルタの通
過域において、雑音分離係数は入力音声スペクトルの実
数部と虚数部に対して、別々の乱数とノイズベースの推
定値を乗算する。
Specifically, the following equations (26) and (2)
7) is used, the noise separation coefficient is set to 1 in the stop band of the noise separation comb filter, and the noise separation coefficient is set separately for the real part and the imaginary part of the input speech spectrum in the pass band of the noise separation comb filter. Multiply a random number by a noise-based estimate.

【0202】[0202]

【数26】 [Equation 26]

【0203】[0203]

【数27】 ここでrdre(i)は、実数部に用いられるランダム関
数で均一分布の乱数により構成され、rdim(i)は、
虚数部に用いられるランダム関数で均一分布の乱数によ
り構成される。
[Equation 27] Here, rd re (i) is a random function used for the real part and is composed of uniformly distributed random numbers, and rd im (i) is
It is a random function used for the imaginary part and is composed of uniformly distributed random numbers.

【0204】乗算部1305は、周波数分割部104か
ら出力された音声スペクトルに雑音分離係数計算部13
04から出力された分離係数を周波数成分毎に乗算す
る。そして、乗算の結果得られた雑音スペクトルを雑音
周波数合成部1306に出力する。
The multiplying unit 1305 calculates the noise separation coefficient calculating unit 13 based on the speech spectrum output from the frequency dividing unit 104.
The separation coefficient output from 04 is multiplied for each frequency component. Then, the noise spectrum obtained as a result of the multiplication is output to the noise frequency synthesis unit 1306.

【0205】雑音周波数合成部1306は、乗算部13
05から出力された周波数成分のスペクトルを所定の処
理時間単位で、周波数領域で連続する雑音スペクトルに
合成してIFFT部1307に出力する。
The noise frequency synthesizer 1306 has a multiplier 13
The frequency component spectrum output from 05 is combined into a continuous noise spectrum in the frequency domain in a predetermined processing time unit and output to the IFFT unit 1307.

【0206】IFFT部1307は、雑音周波数合成部
1306から出力された雑音スペクトルにIFFT(In
verse Fast Fourier Transform)を行って雑音信号
に変換した信号を出力する。
The IFFT unit 1307 adds IFFT (In) to the noise spectrum output from the noise frequency synthesis unit 1306.
verse Fast Fourier Transform) is performed to output a signal converted into a noise signal.

【0207】このように、本実施の形態の雑音分離装置
によれば、雑音専用コムフィルタを生成することによ
り、雑音の特性を最大限に抽出することができる。ま
た、雑音分離コムフィルタの阻止域において、雑音成分
を減衰せず、雑音分離コムフィルタの通過域において、
入力音声スペクトルの実数部と虚数部に対して、別々の
乱数とノイズベースの推定値を乗算することによって、
雑音成分の実数部と虚数部の振幅と位相はすべてランダ
ム化され、良好な雑音分離特性を得ることができる。
As described above, according to the noise separating apparatus of the present embodiment, the noise characteristic can be extracted to the maximum extent by generating the noise dedicated comb filter. In the stopband of the noise separation comb filter, the noise component is not attenuated, and in the passband of the noise separation comb filter,
By multiplying the real and imaginary parts of the input speech spectrum by separate random numbers and noise-based estimates,
The amplitude and phase of the real and imaginary parts of the noise component are all randomized, and good noise separation characteristics can be obtained.

【0208】(実施の形態13)図15は、実施の形態
13に係る雑音分離装置の構成の例を示すブロック図で
ある。但し、図1及び図14と共通する構成については
図1及び図14と同一番号を付し、詳しい説明を省略す
る。
(Thirteenth Embodiment) FIG. 15 is a block diagram showing an example of the configuration of a noise separation device according to the thirteenth embodiment. However, the same components as those in FIGS. 1 and 14 are denoted by the same reference numerals as those in FIGS. 1 and 14, and detailed description thereof is omitted.

【0209】図15の雑音分離装置は、雑音成分保存部
1401を具備し、雑音分離用コムフィルタの阻止域に
おける入力音声のスペクトル成分をメモリに保存し、そ
の値を雑音分離用コムフィルタの通過域に用いる点が、
図14と異なる。
The noise separation device of FIG. 15 comprises a noise component storage unit 1401, stores the spectral component of the input voice in the stop band of the noise separation comb filter in the memory, and passes the value through the noise separation comb filter. The points used for the area are
Different from FIG.

【0210】図15において、雑音成分保存部1401
は、雑音コムフィルタ生成部1302から出力された雑
音コムフィルタの阻止域において入力音声スペクトルを
保存し、雑音コムフィルタの通過域において雑音成分保
存結果を雑音分離係数計算部1304に出力する。
In FIG. 15, noise component storage unit 1401
Stores the input speech spectrum in the stop band of the noise comb filter output from the noise comb filter generation unit 1302, and outputs the noise component storage result to the noise separation coefficient calculation unit 1304 in the pass band of the noise comb filter.

【0211】具体的には、例えば所定数のメモリを用意
して雑音コムフィルタの阻止域における入力音声スペク
トルを低周波数領域から高周波数領域まで順次に保存
し、雑音コムフィルタの通過域において同じ低周波数領
域から高周波数領域までの順で、最新の保存されたデー
タかつもっとも近い周波数成分を有するものを選択して
雑音コムフィルタの通過域における入力音声スペクトル
として用いる。
Specifically, for example, a predetermined number of memories are prepared to sequentially store the input speech spectrum in the stop band of the noise comb filter from the low frequency region to the high frequency region, and the same low frequency band is used in the pass band of the noise comb filter. In order from the frequency domain to the high frequency domain, the latest stored data and the one having the closest frequency component are selected and used as the input speech spectrum in the pass band of the noise comb filter.

【0212】このように、本実施の形態の雑音分離装置
によれば、雑音分離用コムフィルタの阻止域における入
力音声のスペクトル成分をメモリに保存し、その値を雑
音分離用コムフィルタの通過域に用いることにより、実
際の雑音と特性の近い擬似雑音を再構成することがで
き、良好な雑音分離特性を得ることができる。
As described above, according to the noise separating apparatus of the present embodiment, the spectral component of the input voice in the stop band of the noise separating comb filter is stored in the memory, and the value is stored in the pass band of the noise separating comb filter. , It is possible to reconstruct pseudo noise having characteristics close to those of actual noise, and obtain good noise separation characteristics.

【0213】なお、実施の形態13は、実施の形態12
と組み合せることができる。すなわち、図15の雑音分
離装置に実施の形態12に雑音分離係数計算部1304
を用いれば、実施の形態12の効果も得ることができ
る。
The thirteenth embodiment is the twelfth embodiment.
Can be combined with. That is, in the noise separation device of FIG. 15, the noise separation coefficient calculation unit 1304 according to the twelfth embodiment is used.
By using, the effect of the twelfth embodiment can be obtained.

【0214】なお、本発明は上記実施の形態に限定され
ず、複数の実施の形態を組み合わせる、または種々変更
して実施することが可能である。例えば、上記実施の形
態では、音声強調装置または雑音抑圧装置として行う場
合について説明しているが、これに限られるものではな
く、この音声強調方法または雑音抑圧方法をソフトウェ
アとして行うことも可能である。
The present invention is not limited to the above-described embodiments, and a plurality of embodiments can be combined or variously modified and carried out. For example, although cases have been described with the above embodiments where a speech enhancement apparatus or noise suppression apparatus is used, the present invention is not limited to this, and this speech enhancement method or noise suppression method can also be implemented as software. .

【0215】例えば、上記音声強調方法または雑音抑圧
方法を実行するプログラムを予めROM(Read Only Me
mory)に格納しておき、そのプログラムをCPU(Cent
ralProcessor Unit)によって動作させるようにしても
良い。
For example, a program for executing the above speech enhancement method or noise suppression method is stored in advance in a ROM (Read Only Me).
mory) and store the program in the CPU (Cent
ralProcessor Unit).

【0216】また、上記音声強調方法または雑音抑圧方
法を実行するプログラムをコンピュータで読み取り可能
な記憶媒体に格納し、記憶媒体に格納されたプログラム
をコンピュータのRAM(Random Access memory)に記
録して、コンピュータをそのプログラムにしたがって動
作させるようにしても良い。
Further, a program for executing the above speech enhancement method or noise suppression method is stored in a computer-readable storage medium, and the program stored in the storage medium is recorded in a RAM (Random Access Memory) of the computer, The computer may be operated according to the program.

【0217】また、上記音声強調または雑音抑圧を行う
プログラムをサーバに格納し、サーバに格納されたプロ
グラムをクライアントに転送して、クライアント上でそ
のプログラムを実行させてもよい。このような場合にお
いても、上記実施の形態と同様の作用及び効果を呈す
る。
It is also possible to store a program for performing the above speech enhancement or noise suppression in a server, transfer the program stored in the server to a client, and execute the program on the client. Even in such a case, the same operation and effect as those of the above-described embodiment are exhibited.

【0218】また、上記いずれかの実施の形態に係る音
声強調装置または雑音抑圧装置は、無線通信装置、通信
端末、基地局装置等に搭載することもできる。この結
果、通信時の音声を音声強調または雑音抽出できる。
[0218] Further, the voice emphasizing device or the noise suppressing device according to any one of the above-mentioned embodiments can be installed in a radio communication device, a communication terminal, a base station device, or the like. As a result, the voice during communication can be emphasized or noise can be extracted.

【0219】[0219]

【発明の効果】以上説明したように、本発明の音声強調
装置及び音声強調方法によれば、音声信号の周波数分割
スペクトルに基づいて音声抑圧に用いるコムフィルタよ
り多くの雑音のピークを取り除いたコムフィルタを生成
し、このコムフィルタを用いて音声信号のピッチ情報を
取得し、コムフィルタの音声ピッチを補うことにより、
音声の歪みが少なくかつ雑音を十分に除去することがで
きる。
As described above, according to the voice emphasizing device and the voice emphasizing method of the present invention, a comb in which more noise peaks are removed than the comb filter used for the voice suppression based on the frequency-divided spectrum of the voice signal. By generating a filter, using this comb filter to obtain pitch information of the voice signal, and supplementing the voice pitch of the comb filter,
The distortion of the voice is small and the noise can be sufficiently removed.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施の形態1に係る音声強調装置の構
成を示すブロック図
FIG. 1 is a block diagram showing a configuration of a voice emphasizing device according to a first embodiment of the present invention.

【図2】上記実施の形態にかかる音声強調装置で作成さ
れるコムフィルタの例を示す図
FIG. 2 is a diagram showing an example of a comb filter created by the voice enhancement device according to the above embodiment.

【図3】上記実施の形態にかかる音声処理装置における
コムフィルタの修復の例を示す図
FIG. 3 is a diagram showing an example of restoration of a comb filter in the voice processing device according to the embodiment.

【図4】本発明の実施の形態2に係る音声強調装置の構
成を示すブロック図
FIG. 4 is a block diagram showing a configuration of a voice emphasizing device according to a second embodiment of the present invention.

【図5】本発明の実施の形態3に係る音声強調装置の構
成を示すブロック図
FIG. 5 is a block diagram showing a configuration of a voice emphasizing device according to a third embodiment of the present invention.

【図6】本発明の実施の形態4に係る音声強調装置の構
成を示すブロック図
FIG. 6 is a block diagram showing a configuration of a voice emphasizing device according to a fourth embodiment of the present invention.

【図7】本発明の実施の形態5に係る音声強調装置の構
成を示すブロック図
FIG. 7 is a block diagram showing a configuration of a voice emphasizing device according to a fifth embodiment of the present invention.

【図8】本発明の実施の形態6に係る音声強調装置の構
成を示すブロック図
FIG. 8 is a block diagram showing a configuration of a voice emphasizing device according to a sixth embodiment of the present invention.

【図9】本発明の実施の形態7に係る音声強調装置の構
成を示すブロック図
FIG. 9 is a block diagram showing a configuration of a voice emphasizing device according to a seventh embodiment of the present invention.

【図10】本発明の実施の形態8に係る音声強調装置の
構成を示すブロック図
FIG. 10 is a block diagram showing a configuration of a voice emphasizing device according to an eighth embodiment of the present invention.

【図11】本発明の実施の形態9に係る音声強調装置の
構成を示すブロック図
FIG. 11 is a block diagram showing a configuration of a voice emphasizing device according to a ninth embodiment of the present invention.

【図12】本発明の実施の形態10に係る音声強調装置
の構成を示すブロック図
FIG. 12 is a block diagram showing a configuration of a voice emphasizing device according to a tenth embodiment of the present invention.

【図13】本発明の実施の形態11に係る音声強調装置
の構成を示すブロック図
FIG. 13 is a block diagram showing a configuration of a voice emphasizing device according to an eleventh embodiment of the present invention.

【図14】本発明の実施の形態12に係る雑音分離装置
の構成を示すブロック図
FIG. 14 is a block diagram showing a configuration of a noise separation device according to a twelfth embodiment of the present invention.

【図15】本発明の実施の形態13に係る雑音分離装置
の構成を示すブロック図
FIG. 15 is a block diagram showing a configuration of a noise separation device according to a thirteenth embodiment of the present invention.

【符号の説明】[Explanation of symbols]

103 FFT部 104 周波数分割部 105 ノイズベース推定部 106 第一音声/非音声識別部 107 第二音声/非音声識別部 108 第一コムフィルタ生成部 109 第二コムフィルタ生成部 110 有音/無声判別部 111 ピッチ推定部 112 ピッチ調波構造修復部 113 コムフィルタ修正部 114 音声分離係数計算部 115、1305 乗算部 116 音声周波数合成部 117 IFFT部 301 音声/雑音フレーム検出部 401 局部最小値計算部 501、1001 ノイズベース減算部 601 直流成分生成部 701 第3音声/非音声識別部 702 第三コムフィルタ生成部 703 ノイズ特性推定部 801 周波数領域選択部 901 SNR推定部 1002 重み係数計算部 1101 SNR変動抑圧部 1201 ノイズベース更新部 1301 音声/非音声識別部 1302 雑音コムフィルタ生成部 1303 実数虚数分離部 1304 雑音分離係数計算部 1306 雑音周波数合成部 1401 雑音成分保存部 103 FFT section 104 Frequency division unit 105 noise base estimation unit 106 First voice / non-voice discrimination unit 107 Second voice / non-voice discrimination section 108 First Comb Filter Generation Unit 109 Second comb filter generator 110 voiced / unvoiced discriminator 111 Pitch estimation unit 112 Pitch harmonic structure restoration section 113 Comfilter correction unit 114 Speech Separation Coefficient Calculation Unit 115, 1305 multiplication unit 116 Speech frequency synthesizer 117 IFFT section 301 voice / noise frame detector 401 Local minimum value calculation unit 501, 1001 Noise base subtraction unit 601 DC component generator 701 Third voice / non-voice discrimination unit 702 Third comb filter generation unit 703 Noise characteristic estimation unit 801 Frequency domain selector 901 SNR estimation unit 1002 Weighting factor calculation unit 1101 SNR fluctuation suppression unit 1201 Noise base update unit 1301 voice / non-voice discriminator 1302 Noise comb filter generation unit 1303 Real number imaginary number separation part 1304 Noise Separation Coefficient Calculation Unit 1306 Noise frequency synthesizer 1401 Noise component storage unit

Claims (24)

【特許請求の範囲】[Claims] 【請求項1】 入力信号のスペクトルを所定の周波数単
位で分割した周波数分割スペクトルを出力する周波数分
割手段と、周波数分割スペクトルに基づいて無音と判定
した周波数領域の信号を減衰する第一コムフィルタを作
成する第一コムフィルタ作成手段と、周波数分割スペク
トルに基づいて第一コムフィルタより多くの雑音のピー
クを取り除いたフィルタである第二コムフィルタを作成
する第二コムフィルタ作成手段と、前記第二コムフィル
タと前記周波数分割スペクトルとから推定した音声ピッ
チで前記第一コムフィルタに含まれる音声ピッチ調波構
造を修正するコムフィルタ修正手段と、前記コムフィル
タ修正手段において修正された第一コムフィルタを用い
て前記周波数分割スペクトルのノイズを抑圧する抑圧手
段と、ノイズを抑圧した前記周波数分割スペクトルを周
波数領域で連続したスペクトル信号に合成する音声周波
数合成手段と、を具備することを特徴とする音声強調装
置。
1. A frequency division means for outputting a frequency division spectrum obtained by dividing the spectrum of an input signal by a predetermined frequency unit, and a first comb filter for attenuating a signal in a frequency domain determined to be silent based on the frequency division spectrum. A first comb filter creating means for creating, a second comb filter creating means for creating a second comb filter which is a filter in which more noise peaks are removed than the first comb filter based on the frequency division spectrum; A comb filter correcting unit that corrects a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from a comb filter and the frequency-divided spectrum, and a first comb filter corrected by the comb filter correcting unit. Suppressing means for suppressing the noise of the frequency division spectrum using the And a voice frequency synthesizing unit for synthesizing the frequency-divided spectrum into a continuous spectrum signal in the frequency domain.
【請求項2】 第一コムフィルタと第二コムフィルタと
から音声スペクトルに音声成分が含まれているか否か判
定する音声/雑音フレーム検出手段を具備し、コムフィ
ルタ修正手段は、前記音声/雑音フレーム検出手段の判
定が音声成分を含まない結果である場合、前記第一コム
フィルタに各周波数成分で信号を減衰する修正をするこ
とを特徴とする請求項1に記載の音声強調装置。
2. A voice / noise frame detection means for determining whether or not a voice component is included in a voice spectrum from the first comb filter and the second comb filter, wherein the comb filter correction means comprises the voice / noise. The speech enhancement apparatus according to claim 1, wherein, when the result of the frame detection means does not include a speech component, the first comb filter is modified to attenuate the signal at each frequency component.
【請求項3】 前記音声/雑音フレーム検出手段は、第
一コムフィルタの通過域における入力信号のパワスペク
トルの和と第一コムフィルタの阻止域における入力信号
のパワスペクトルの和の比を第一結果とし、第二コムフ
ィルタの通過域における入力信号のパワスペクトルの和
と第二コムフィルタの阻止域における入力信号のパワス
ペクトルの和の比を第二結果とし、第一結果と第二結果
を加算した結果が所定の閾値より大きい場合、前記加算
結果を用い、前記加算結果が所定の閾値以下である場
合、第二結果を用いて音声スペクトルに音声が含まれる
か否か判定することを特徴とする請求項2に記載の音声
強調装置。
3. The speech / noise frame detection means sets a ratio of a sum of a power spectrum of an input signal in a pass band of the first comb filter and a sum of power spectra of an input signal in a stop band of the first comb filter to a first ratio. As a result, the ratio of the sum of the power spectrum of the input signal in the pass band of the second comb filter and the sum of the power spectrum of the input signal in the stop band of the second comb filter is set as the second result. When the addition result is larger than a predetermined threshold value, the addition result is used, and when the addition result is less than or equal to the predetermined threshold value, it is determined whether or not the voice spectrum includes a voice using the second result. The voice enhancement device according to claim 2.
【請求項4】 第一コムフィルタ生成手段は、入力信号
のパワスペクトルの極小値から所定の範囲を阻止域とす
る第一コムフィルタを作成することを特徴とする請求項
1から請求項3のいずれかに記載の音声強調装置。
4. The first comb filter generation means creates a first comb filter having a stop band within a predetermined range from the minimum value of the power spectrum of the input signal. The voice enhancement device according to any one of claims.
【請求項5】 入力信号のパワスペクトルからノイズベ
ースを減算し、減算結果の自己相関関数を用いて音声ピ
ッチを推定するピッチ推定手段を具備し、コムフィルタ
修正手段は、前記ピッチ推定手段において推定した音声
ピッチで前記第一コムフィルタに含まれる音声ピッチ調
波構造を修正することを特徴とする請求項1から請求項
4のいずれかに記載の音声強調装置。
5. A pitch estimating means for subtracting a noise base from a power spectrum of an input signal and estimating a voice pitch by using an autocorrelation function of the subtraction result, wherein a comb filter correcting means estimates the speech pitch in the pitch estimating means. The speech enhancement apparatus according to any one of claims 1 to 4, wherein the speech pitch harmonic structure included in the first comb filter is modified with the defined speech pitch.
【請求項6】 入力信号のパワスペクトルからノイズベ
ースを減算した結果に、直流成分に所定のパワを持つ擬
似ピークを生成する直流成分生成手段を具備し、ピッチ
推定手段は、前記直流成分生成手段において擬似ピーク
を生成した前記パワスペクトルから音声ピッチを推定す
ることを特徴とする請求項5に記載の音声強調装置。
6. A direct current component generating means for generating a pseudo peak having a predetermined power in a direct current component as a result of subtracting a noise base from a power spectrum of an input signal, wherein the pitch estimating means comprises the direct current component generating means. The speech enhancement apparatus according to claim 5, wherein the speech pitch is estimated from the power spectrum in which the pseudo peak is generated.
【請求項7】 入力信号のパワスペクトルからノイズベ
ースを減算した結果において、パワが所定の閾値以上で
ある周波数領域の数の移動平均を算出するノイズ特性推
定手段を具備し、第二コムフィルタ作成手段は、前記移
動平均から入力信号に音声が含まれるか否か判断した結
果より第二コムフィルタを作成することを特徴とする請
求項1から請求項6のいずれかに記載の音声強調装置。
7. A second comb filter is provided, comprising noise characteristic estimating means for calculating a moving average of the number of frequency regions in which the power is equal to or more than a predetermined threshold, as a result of subtracting the noise base from the power spectrum of the input signal. 7. The voice emphasizing device according to claim 1, wherein the means creates a second comb filter based on a result of determining whether or not the input signal includes a voice from the moving average.
【請求項8】 入力信号のパワスペクトルからノイズベ
ースを減算した結果において、パワが所定の閾値以上で
ある周波数領域の数の移動平均を算出するノイズ特性推
定手段を具備し、第二コムフィルタ作成手段は、ノイズ
特性推定手段において算出された移動平均が所定の値以
下である場合、所定の周波数領域を阻止域とする第二コ
ムフィルタを作成することを特徴とする請求項1から請
求項7のいずれかに記載の音声強調装置。
8. A second comb filter is provided, comprising noise characteristic estimating means for calculating a moving average of the number of frequency regions in which the power is equal to or more than a predetermined threshold, as a result of subtracting the noise base from the power spectrum of the input signal. The means for creating a second comb filter having a predetermined frequency range as a stop band when the moving average calculated by the noise characteristic estimating means is equal to or smaller than a predetermined value. The voice enhancement device according to any one of 1.
【請求項9】 入力信号のパワスペクトルとノイズベー
スから信号対雑音比を算出するSNR推定手段を具備
し、抑圧手段は、前記信号対雑音比から周波数分割スペ
クトルのノイズの抑圧量を決定することを特徴とする請
求項1から請求項8のいずれかに記載の音声強調装置。
9. An SNR estimating means for calculating a signal-to-noise ratio from a power spectrum of an input signal and a noise base, wherein the suppressing means determines a noise suppression amount of the frequency division spectrum from the signal-to-noise ratio. The voice enhancement device according to any one of claims 1 to 8.
【請求項10】 SNR推定手段は、音声成分のレベル
を入力信号のパワスペクトルの移動平均値より算出し、
雑音成分のレベルをノイズベースの推定値に各周波数成
分別に重み計数を乗算した値より算出し、前記音声成分
のレベルと前記雑音成分のレベルの比から信号対雑音比
を算出することを特徴とする請求項9に記載の音声強調
装置。
10. The SNR estimating means calculates a level of a voice component from a moving average value of a power spectrum of an input signal,
A noise component level is calculated from a value obtained by multiplying a noise-based estimated value by a weighting coefficient for each frequency component, and a signal-to-noise ratio is calculated from a ratio between the voice component level and the noise component level. The voice enhancement device according to claim 9.
【請求項11】 信号対雑音比と前記信号対雑音比の移
動平均値との偏差を算出し、前記偏差を用いて前記信号
対雑音比の移動平均値を更新する変動抑圧手段を具備
し、抑圧手段は、変動抑圧手段において更新された前記
信号対雑音比の移動平均値から周波数分割スペクトルの
ノイズの抑圧量を決定することを特徴とする請求項9ま
たは請求項10に記載の音声強調装置。
11. A fluctuation suppressing means for calculating a deviation between a signal-to-noise ratio and a moving average value of the signal-to-noise ratio, and updating the moving average value of the signal-to-noise ratio using the deviation, The speech enhancement apparatus according to claim 9 or 10, wherein the suppression unit determines a noise suppression amount of the frequency division spectrum from the moving average value of the signal-to-noise ratio updated by the fluctuation suppression unit. .
【請求項12】 所定の時間単位で更新速度の異なる二
つのノイズベースの移動平均値を算出し、第一移動平均
値より更新速度の速い第二移動平均値で第一移動平均値
の更新条件を変更し、第一移動平均値をノイズベース推
定値として出力するノイズベース更新手段を具備するこ
とを特徴とする請求項1から請求項11のいずれかに記
載の音声強調装置。
12. A condition for updating a first moving average value with a second moving average value having a faster updating speed than the first moving average value, by calculating two noise-based moving average values having different updating speeds in a predetermined time unit. The speech enhancement apparatus according to any one of claims 1 to 11, further comprising a noise base updating unit configured to change the first moving average value and output the first moving average value as a noise base estimation value.
【請求項13】 請求項1から請求項12のいずれかに
記載の雑音抑圧装置を具備することを特徴とする無線通
信装置。
13. A wireless communication device comprising the noise suppressing device according to claim 1. Description:
【請求項14】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割手段と、周波数分割スペクトルに基づいて無音と判
定した周波数領域の信号を通過域とする雑音分離コムフ
ィルタを作成する雑音分離コムフィルタ作成手段と、前
記雑音分離コムフィルタを用いて前記周波数分割スペク
トルの雑音成分を分離する抑圧手段と、雑音成分を分離
した前記周波数分割スペクトルを周波数領域で連続した
スペクトル信号に合成する音声周波数合成手段と、を具
備することを特徴とする雑音抑圧装置。
14. A frequency division means for outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in a predetermined frequency unit, and a noise separation comb having a passband for a signal in a frequency domain determined to be silent based on the frequency division spectrum. A noise separation comb filter creation means for creating a filter, a suppression means for separating a noise component of the frequency division spectrum using the noise separation comb filter, and a spectrum in which the frequency division spectrum obtained by separating the noise component is continuous in the frequency domain. And a voice frequency synthesizing means for synthesizing into a signal.
【請求項15】 雑音分離手段は、雑音分離用コムフィ
ルタの通過域において、入力音声スペクトルの実数部と
虚数部に別々の乱数とノイズベースの推定値とを乗算す
ることを特徴とする請求項14に記載の雑音抑圧装置。
15. The noise separating means multiplies the real part and the imaginary part of the input speech spectrum by different random numbers and a noise-based estimation value in the pass band of the noise separating comb filter. 14. The noise suppression device according to 14.
【請求項16】 音声分離用コムフィルタの阻止域にお
ける入力音声のスペクトル成分を記憶する雑音成分保存
手段を具備し、雑音分離手段は、メモリに保存したスペ
クトル成分を雑音分離用コムフィルタの通過域に用いる
ことを特徴とする請求項14または請求項15に記載の
雑音抑圧装置。
16. A noise component storage means for storing a spectral component of an input voice in a stop band of a voice separation comb filter, wherein the noise separation means stores the spectral component stored in the memory in a pass band of the noise separation comb filter. 16. The noise suppression device according to claim 14 or 15, which is used for.
【請求項17】 請求項14から請求項16のいずれか
に記載の雑音抑圧装置を具備することを特徴とする無線
通信装置。
17. A wireless communication device comprising the noise suppressing device according to claim 14.
【請求項18】 請求項1から請求項12のいずれかに
記載の音声強調装置と、請求項14から請求項16のい
ずれかに記載の雑音抑圧装置と、を具備することを特徴
とする音源分離装置。
18. A sound source comprising the speech enhancement apparatus according to any one of claims 1 to 12 and the noise suppression apparatus according to any one of claims 14 to 16. Separation device.
【請求項19】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割行程と、周波数分割スペクトルに基づいて無音と判
定した周波数領域の信号を減衰する第一コムフィルタを
作成する第一コムフィルタ作成行程と、周波数分割スペ
クトルに基づいて第一コムフィルタより多くの雑音のピ
ークを取り除いたフィルタである第二コムフィルタを作
成する第二コムフィルタ作成行程と、前記第二コムフィ
ルタと前記周波数分割スペクトルとから推定した音声ピ
ッチで前記第一コムフィルタに含まれる音声ピッチ調波
構造を修正するコムフィルタ修正行程と、前記コムフィ
ルタ修正行程において修正された第一コムフィルタを用
いて前記周波数分割スペクトルのノイズを抑圧する抑圧
行程と、ノイズを抑圧した前記周波数分割スペクトルを
周波数領域で連続したスペクトル信号に合成する音声周
波数合成行程と、を具備することを特徴とする音声強調
方法
19. A frequency division process for outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in a predetermined frequency unit, and a first comb filter for attenuating a signal in a frequency domain determined to be silent based on the frequency division spectrum. A first comb filter creation step to create, a second comb filter creation step to create a second comb filter which is a filter in which more noise peaks are removed than the first comb filter based on the frequency division spectrum, and the second A comb filter correction step for correcting a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from a comb filter and the frequency division spectrum, and a first comb filter corrected in the comb filter correction step. The suppression process of suppressing the noise of the frequency division spectrum by using A voice frequency synthesizing step of synthesizing the compressed frequency-divided spectrum into a continuous spectrum signal in the frequency domain.
【請求項20】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割行程と、周波数分割スペクトルに基づいて無音と判
定した周波数領域の信号を通過域とする雑音分離コムフ
ィルタを作成する雑音分離コムフィルタ作成行程と、前
記雑音分離コムフィルタを用いて前記周波数分割スペク
トルの雑音成分を分離する抑圧行程と、雑音成分を分離
した前記周波数分割スペクトルを周波数領域で連続した
スペクトル信号に合成する音声周波数合成行程と、を具
備することを特徴とする雑音抑圧方法。
20. A frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in a predetermined frequency unit, and a noise separation comb having a passband of a signal in a frequency domain determined to be silent based on the frequency division spectrum. A noise separation comb filter creation process for creating a filter, a suppression process for separating a noise component of the frequency division spectrum using the noise separation comb filter, and a spectrum in which the frequency division spectrum obtained by separating the noise component is continuous in the frequency domain. And a voice frequency synthesizing step of synthesizing into a signal.
【請求項21】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割ステップと、周波数分割スペクトルに基づいて無音
と判定した周波数領域の信号を減衰する第一コムフィル
タを作成する第一コムフィルタ作成ステップと、周波数
分割スペクトルに基づいて第一コムフィルタより多くの
雑音のピークを取り除いたフィルタである第二コムフィ
ルタを作成する第二コムフィルタ作成ステップと、前記
第二コムフィルタと前記周波数分割スペクトルとから推
定した音声ピッチで前記第一コムフィルタに含まれる音
声ピッチ調波構造を修正するコムフィルタ修正ステップ
と、前記コムフィルタ修正手段において修正された第一
コムフィルタを用いて前記周波数分割スペクトルのノイ
ズを抑圧する抑圧ステップと、ノイズを抑圧した前記周
波数分割スペクトルを周波数領域で連続したスペクトル
信号に合成する音声周波数合成ステップと、をコンピュ
ータに実行させることを特徴とする音声強調プログラ
ム。
21. A frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in a predetermined frequency unit, and a first comb filter for attenuating a signal in a frequency domain determined to be silent based on the frequency division spectrum. A first comb filter creating step, a second comb filter creating step that creates a second comb filter that is a filter with more noise peaks removed than the first comb filter based on the frequency division spectrum, and the second A comb filter correcting step of correcting a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from a comb filter and the frequency division spectrum; and a first comb filter corrected by the comb filter correcting means. Suppressor for suppressing the noise of the frequency division spectrum using A speech enhancement program characterized by causing a computer to execute a step and a speech frequency synthesizing step of synthesizing the frequency-divided spectrum in which noise is suppressed into a continuous spectrum signal in the frequency domain.
【請求項22】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割ステップと、周波数分割スペクトルに基づいて無音
と判定した周波数領域の信号を通過域とする雑音分離コ
ムフィルタを作成する雑音分離コムフィルタ作成ステッ
プと、前記雑音分離コムフィルタを用いて前記周波数分
割スペクトルの雑音成分を分離する抑圧ステップと、雑
音成分を分離した前記周波数分割スペクトルを周波数領
域で連続したスペクトル信号に合成する音声周波数合成
ステップと、をコンピュータに実行させることを特徴と
する雑音分離プログラム。
22. A frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in a predetermined frequency unit, and a noise separation comb having a passband of a signal in a frequency domain determined to be silent based on the frequency division spectrum. A noise separation comb filter creation step of creating a filter, a suppression step of separating a noise component of the frequency division spectrum using the noise separation comb filter, and a spectrum in which the frequency division spectrum obtained by separating the noise component is continuous in the frequency domain. A noise separation program characterized by causing a computer to execute a voice frequency synthesizing step of synthesizing into a signal.
【請求項23】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割ステップと、周波数分割スペクトルに基づいて無音
と判定した周波数領域の信号を減衰する第一コムフィル
タを作成する第一コムフィルタ作成ステップと、周波数
分割スペクトルに基づいて第一コムフィルタより多くの
雑音のピークを取り除いたフィルタである第二コムフィ
ルタを作成する第二コムフィルタ作成ステップと、前記
第二コムフィルタと前記周波数分割スペクトルとから推
定した音声ピッチで前記第一コムフィルタに含まれる音
声ピッチ調波構造を修正するコムフィルタ修正ステップ
と、前記コムフィルタ修正ステップにおいて修正された
第一コムフィルタを用いて前記周波数分割スペクトルの
ノイズを抑圧する抑圧ステップと、ノイズを抑圧した前
記周波数分割スペクトルを周波数領域で連続したスペク
トル信号に合成する音声周波数合成ステップと、をコン
ピュータに実行させることを特徴とする音声強調プログ
ラムを記憶し、要求に応じて前記音声強調プログラムを
出力することを特徴とするサーバ装置。
23. A frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal by a predetermined frequency unit, and a first comb filter for attenuating a signal in a frequency domain determined to be silent based on the frequency division spectrum. A first comb filter creating step, a second comb filter creating step that creates a second comb filter that is a filter with more noise peaks removed than the first comb filter based on the frequency division spectrum, and the second A comb filter correction step of correcting a voice pitch harmonic structure included in the first comb filter with a voice pitch estimated from a comb filter and the frequency division spectrum, and a first comb filter corrected in the comb filter correction step. Suppressing to suppress the noise of the frequency division spectrum using Storing a voice emphasizing program characterized by causing a computer to execute a pressure step and a voice frequency synthesizing step of synthesizing the frequency-divided spectrum in which noise is suppressed into a continuous spectrum signal in the frequency domain, A server device which outputs the voice enhancement program.
【請求項24】 入力信号のスペクトルを所定の周波数
単位で分割した周波数分割スペクトルを出力する周波数
分割ステップと、周波数分割スペクトルに基づいて無音
と判定した周波数領域の信号を通過域とする雑音分離コ
ムフィルタを作成する雑音分離コムフィルタ作成ステッ
プと、前記雑音分離コムフィルタを用いて前記周波数分
割スペクトルの雑音成分を分離する抑圧ステップと、雑
音成分を分離した前記周波数分割スペクトルを周波数領
域で連続したスペクトル信号に合成する音声周波数合成
ステップと、をコンピュータに実行させることを特徴と
する雑音分離プログラムを記憶し、要求に応じて前記雑
音分離プログラムを出力することを特徴とするサーバ装
置。
24. A frequency division step of outputting a frequency division spectrum obtained by dividing the spectrum of an input signal in a predetermined frequency unit, and a noise separation comb having a passband as a frequency domain signal determined to be silent based on the frequency division spectrum. A noise separation comb filter creation step of creating a filter, a suppression step of separating a noise component of the frequency division spectrum using the noise separation comb filter, and a spectrum in which the frequency division spectrum obtained by separating the noise component is continuous in the frequency domain. A server device, which stores a noise separation program characterized by causing a computer to execute a voice frequency synthesis step of combining with a signal, and outputs the noise separation program in response to a request.
JP2002077327A 2002-03-19 2002-03-19 Speech enhancement device and speech enhancement method Expired - Lifetime JP3960834B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002077327A JP3960834B2 (en) 2002-03-19 2002-03-19 Speech enhancement device and speech enhancement method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002077327A JP3960834B2 (en) 2002-03-19 2002-03-19 Speech enhancement device and speech enhancement method

Publications (2)

Publication Number Publication Date
JP2003280696A true JP2003280696A (en) 2003-10-02
JP3960834B2 JP3960834B2 (en) 2007-08-15

Family

ID=29227943

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002077327A Expired - Lifetime JP3960834B2 (en) 2002-03-19 2002-03-19 Speech enhancement device and speech enhancement method

Country Status (1)

Country Link
JP (1) JP3960834B2 (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266797A (en) * 2004-02-20 2005-09-29 Sony Corp Method and apparatus for separating sound-source signal and method and device for detecting pitch
WO2005124739A1 (en) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. Noise suppression device and noise suppression method
WO2006006366A1 (en) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. Pitch frequency estimation device, and pitch frequency estimation method
WO2006032760A1 (en) * 2004-09-16 2006-03-30 France Telecom Method of processing a noisy sound signal and device for implementing said method
WO2006082636A1 (en) * 2005-02-02 2006-08-10 Fujitsu Limited Signal processing method and signal processing device
WO2006132159A1 (en) * 2005-06-09 2006-12-14 A.G.I. Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
WO2008001779A1 (en) * 2006-06-27 2008-01-03 National University Corporation Toyohashi University Of Technology Reference frequency estimation method and acoustic signal estimation system
JP2008085520A (en) * 2006-09-27 2008-04-10 Kyushu Univ Broadcast equipment
WO2008081920A1 (en) * 2007-01-05 2008-07-10 Kyushu University, National University Corporation Voice enhancement processing device
JP2008186010A (en) * 2007-01-05 2008-08-14 Kyushu Univ Speech enhancement processor
JP2009503568A (en) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド Steady separation of speech signals in noisy environments
JP2009151299A (en) * 2007-12-20 2009-07-09 Toshiba Corp Method and device for detecting speech spectrum peak, and speech recognition method and speech recognition system
JP2011203500A (en) * 2010-03-25 2011-10-13 Toshiba Corp Apparatus and method for determination of sound information
US8073145B2 (en) 2004-02-20 2011-12-06 Sony Corporation Method and apparatus for separating sound-source signal and method and device for detecting pitch
JP2011253543A (en) * 2010-06-03 2011-12-15 Electronics And Telecommunications Research Institute Interpretation terminal, and interpretation method using mutual communication between interpretation terminals
US9865279B2 (en) 2013-12-26 2018-01-09 Kabushiki Kaisha Toshiba Method and electronic device
JP2021157082A (en) * 2020-03-27 2021-10-07 株式会社トランストロン Fundamental frequency estimation device, active noise control device, fundamental frequency estimation method and fundamental frequency estimation program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01257224A (en) * 1988-04-06 1989-10-13 Ono Sokki Co Ltd Processing method for time series signal
JPH0282710A (en) * 1988-09-19 1990-03-23 Nippon Telegr & Teleph Corp <Ntt> After-treatment filter
JPH02137889A (en) * 1988-11-19 1990-05-28 Sony Corp Signal recording method
JPH03212698A (en) * 1990-01-18 1991-09-18 Matsushita Electric Ind Co Ltd Signal processor
JPH04230796A (en) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd Audio signal processing device
JP2001249676A (en) * 2000-03-06 2001-09-14 Japan Science & Technology Corp Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Audio processing device and audio processing method

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01257224A (en) * 1988-04-06 1989-10-13 Ono Sokki Co Ltd Processing method for time series signal
JPH0282710A (en) * 1988-09-19 1990-03-23 Nippon Telegr & Teleph Corp <Ntt> After-treatment filter
JPH02137889A (en) * 1988-11-19 1990-05-28 Sony Corp Signal recording method
JPH03212698A (en) * 1990-01-18 1991-09-18 Matsushita Electric Ind Co Ltd Signal processor
JPH04230796A (en) * 1990-05-28 1992-08-19 Matsushita Electric Ind Co Ltd Audio signal processing device
JP2001249676A (en) * 2000-03-06 2001-09-14 Japan Science & Technology Corp Extraction method of fundamental period or fundamental frequency of periodic waveform with added noise
JP2002149200A (en) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd Audio processing device and audio processing method

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005266797A (en) * 2004-02-20 2005-09-29 Sony Corp Method and apparatus for separating sound-source signal and method and device for detecting pitch
US8073145B2 (en) 2004-02-20 2011-12-06 Sony Corporation Method and apparatus for separating sound-source signal and method and device for detecting pitch
EP1768108A4 (en) * 2004-06-18 2008-03-19 Matsushita Electric Ind Co Ltd NOISE SUPPRESSION DEVICE AND NOISE SUPPRESSION METHOD
WO2005124739A1 (en) * 2004-06-18 2005-12-29 Matsushita Electric Industrial Co., Ltd. Noise suppression device and noise suppression method
WO2006006366A1 (en) * 2004-07-13 2006-01-19 Matsushita Electric Industrial Co., Ltd. Pitch frequency estimation device, and pitch frequency estimation method
US7359838B2 (en) 2004-09-16 2008-04-15 France Telecom Method of processing a noisy sound signal and device for implementing said method
JP2008513819A (en) * 2004-09-16 2008-05-01 フランス テレコム Method for processing a noisy speech signal and apparatus for performing the method
KR101168002B1 (en) 2004-09-16 2012-07-26 프랑스 텔레콤 Method of processing a noisy sound signal and device for implementing said method
CN101031963B (en) * 2004-09-16 2010-09-15 法国电信 Method for processing noisy sound signal and device for realizing the method
WO2006032760A1 (en) * 2004-09-16 2006-03-30 France Telecom Method of processing a noisy sound signal and device for implementing said method
JP4519169B2 (en) * 2005-02-02 2010-08-04 富士通株式会社 Signal processing method and signal processing apparatus
JPWO2006082636A1 (en) * 2005-02-02 2008-06-26 富士通株式会社 Signal processing method and signal processing apparatus
WO2006082636A1 (en) * 2005-02-02 2006-08-10 Fujitsu Limited Signal processing method and signal processing device
CN100593197C (en) * 2005-02-02 2010-03-03 富士通株式会社 Signal processing method and device
WO2006132159A1 (en) * 2005-06-09 2006-12-14 A.G.I. Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
RU2403626C2 (en) * 2005-06-09 2010-11-10 А.Г.И. Инк. Base frequency detecting speech analyser, speech analysis method and speech analysis program
US8738370B2 (en) 2005-06-09 2014-05-27 Agi Inc. Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
JP2009503568A (en) * 2005-07-22 2009-01-29 ソフトマックス,インコーポレイテッド Steady separation of speech signals in noisy environments
WO2008001779A1 (en) * 2006-06-27 2008-01-03 National University Corporation Toyohashi University Of Technology Reference frequency estimation method and acoustic signal estimation system
JP2008085520A (en) * 2006-09-27 2008-04-10 Kyushu Univ Broadcast equipment
JP2008186010A (en) * 2007-01-05 2008-08-14 Kyushu Univ Speech enhancement processor
WO2008081920A1 (en) * 2007-01-05 2008-07-10 Kyushu University, National University Corporation Voice enhancement processing device
JP2009151299A (en) * 2007-12-20 2009-07-09 Toshiba Corp Method and device for detecting speech spectrum peak, and speech recognition method and speech recognition system
JP2011203500A (en) * 2010-03-25 2011-10-13 Toshiba Corp Apparatus and method for determination of sound information
JP2011253543A (en) * 2010-06-03 2011-12-15 Electronics And Telecommunications Research Institute Interpretation terminal, and interpretation method using mutual communication between interpretation terminals
US8798985B2 (en) 2010-06-03 2014-08-05 Electronics And Telecommunications Research Institute Interpretation terminals and method for interpretation through communication between interpretation terminals
US9865279B2 (en) 2013-12-26 2018-01-09 Kabushiki Kaisha Toshiba Method and electronic device
JP2021157082A (en) * 2020-03-27 2021-10-07 株式会社トランストロン Fundamental frequency estimation device, active noise control device, fundamental frequency estimation method and fundamental frequency estimation program
JP7461192B2 (en) 2020-03-27 2024-04-03 株式会社トランストロン Fundamental frequency estimation device, active noise control device, fundamental frequency estimation method, and fundamental frequency estimation program

Also Published As

Publication number Publication date
JP3960834B2 (en) 2007-08-15

Similar Documents

Publication Publication Date Title
US7286980B2 (en) Speech processing apparatus and method for enhancing speech information and suppressing noise in spectral divisions of a speech signal
JP3591068B2 (en) Noise reduction method for audio signal
EP2546831B1 (en) Noise suppression device
JP4520732B2 (en) Noise reduction apparatus and reduction method
JP4173641B2 (en) Voice enhancement by gain limitation based on voice activity
US7680653B2 (en) Background noise reduction in sinusoidal based speech coding systems
JP3574123B2 (en) Noise suppression device
JP3960834B2 (en) Speech enhancement device and speech enhancement method
US20100198588A1 (en) Signal bandwidth extending apparatus
JP5153886B2 (en) Noise suppression device and speech decoding device
JP5595605B2 (en) Audio signal restoration apparatus and audio signal restoration method
WO2005124739A1 (en) Noise suppression device and noise suppression method
JP4006770B2 (en) Noise estimation device, noise reduction device, noise estimation method, and noise reduction method
JP5840087B2 (en) Audio signal restoration apparatus and audio signal restoration method
WO2006077934A1 (en) Band division noise suppressor and band division noise suppressing method
JP2004020679A (en) Noise suppression device and noise suppression method
JP4445460B2 (en) Audio processing apparatus and audio processing method
JP4173525B2 (en) Noise suppression device and noise suppression method
JP2002175099A (en) Noise suppression method and noise suppression device
EP1635331A1 (en) Method for estimating a signal to noise ratio
JP2006126859A5 (en)
JP4098271B2 (en) Noise suppressor
JPH113094A (en) Noise eliminating device
JP6559576B2 (en) Noise suppression device, noise suppression method, and program
Anderson et al. NOISE SUPPRESSION IN SPEECH USING MULTI {RESOLUTION SINUSOIDAL MODELING

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070508

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070515

R150 Certificate of patent or registration of utility model

Ref document number: 3960834

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term