JP5644934B2 - Signal feature extraction apparatus and signal feature extraction method - Google Patents
Signal feature extraction apparatus and signal feature extraction method Download PDFInfo
- Publication number
- JP5644934B2 JP5644934B2 JP2013253726A JP2013253726A JP5644934B2 JP 5644934 B2 JP5644934 B2 JP 5644934B2 JP 2013253726 A JP2013253726 A JP 2013253726A JP 2013253726 A JP2013253726 A JP 2013253726A JP 5644934 B2 JP5644934 B2 JP 5644934B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- feature extraction
- complex
- filter
- mask pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 45
- 238000000034 method Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims 1
- 239000013598 vector Substances 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 102100028971 HLA class I histocompatibility antigen, C alpha chain Human genes 0.000 description 8
- 101100395312 Homo sapiens HLA-C gene Proteins 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000001228 spectrum Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
- Complex Calculations (AREA)
Description
本発明は、信号特徴抽出装置および信号特徴抽出方法に関するものであり、特に音声、音響信号あるいはその他の時系列信号から特徴を抽出する信号特徴抽出装置および信号特徴抽出方法に関する。 The present invention relates to a signal feature extraction device and a signal feature extraction method, and more particularly to a signal feature extraction device and a signal feature extraction method for extracting features from speech, acoustic signals or other time series signals.
従来、例えば音声認識や機械の故障診断等のために、音声あるいはその他の音響信号から音源を認識、識別する技術が各種提案されている。下記特許文献1にはこのような音源の識別方法の一例が開示されている。この音源の識別方法は、機械装置からの音響信号を高速フーリエ変換して周波数スペクトルを求め、次にこの周波数スペクトルに対してファジィルールによるフィルタリング処理を行うことにより、周波数スペクトルの特徴部を抽出する。
Conventionally, various techniques for recognizing and identifying a sound source from voice or other acoustic signals have been proposed for voice recognition, machine failure diagnosis, and the like.
次に、この抽出されたスペクトルデータを階層型ニューラルネットワークに入力し、この階層型ニューラルネットワーク内で、上記スペクトルデータに基づき演算された演算データと予め記憶されている判断用データとを比較するとともに、この比較データを所定の評価関数により判断して音源を識別する際に、上記判断用データを入力されたスペクトルデータに応じて切り換える。 Next, the extracted spectrum data is input to the hierarchical neural network, and the calculation data calculated based on the spectrum data is compared with the judgment data stored in advance in the hierarchical neural network. When the comparison data is judged by a predetermined evaluation function to identify the sound source, the judgment data is switched according to the input spectrum data.
前記した従来の信号特徴抽出方法においては、下記のような問題点があった。
(1)信号に含まれる各周波数成分の位相情報が抽出されておらず、位相に特徴がある信号の識別精度が低かった。
(2)各周波数成分からの線形特徴を抽出しており、周波数間での関係性に注目した特徴量はほとんど提案されていない。
The above-described conventional signal feature extraction method has the following problems.
(1) The phase information of each frequency component included in the signal has not been extracted, and the identification accuracy of the signal characterized by the phase was low.
(2) Linear features are extracted from each frequency component, and few feature quantities that focus on the relationship between frequencies have been proposed.
本発明の目的は、前記のような従来技術の問題点を解決し、音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出する信号特徴抽出装置および信号特徴抽出方法を提供することにある。 An object of the present invention is to provide a signal feature extraction apparatus and a signal feature extraction method for solving features of the prior art as described above and extracting features with high accuracy from speech, acoustic signals or other time series signals. It is in.
本発明の信号特徴抽出装置は、所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換手段と、前記複素フーリエ変換手段において変換されたデータから高次局所相関特徴データを抽出する特徴抽出手段とを備えたことを主要な特徴とする。 The signal feature extraction apparatus of the present invention extracts a complex Fourier transform means for converting a digital input signal sampled for a predetermined period into a frequency axis, and extracts higher-order local correlation feature data from the data transformed by the complex Fourier transform means. The main feature is the provision of a feature extraction means.
また、前記した信号特徴抽出装置において、前記高次局所相関特徴は、時間軸および周波数軸にそって2次元に配列された多数のデータの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの相関値を算出するものである点にも特徴がある。 In the signal feature extraction apparatus described above, the higher-order local correlation feature focuses on one of a large number of data arranged two-dimensionally along the time axis and the frequency axis, and is determined in advance as the attention data. Another feature is that a correlation value with neighboring data determined by the mask pattern is calculated.
また、前記した信号特徴抽出装置において、前記高次局所相関特徴は、フーリエ変換手段から入力された複素データの位相情報をベクトル表現に変換するベクトル変換手段を備えている点にも特徴がある。 In the signal feature extraction apparatus described above, the higher-order local correlation feature is characterized in that it includes a vector conversion unit that converts phase information of complex data input from the Fourier transform unit into a vector representation.
また、前記した信号特徴抽出装置において、複数のバンドパスフィルターからなるフィルターバンクを適用可能であり、入力されたデータに重みを乗算して加算し、出力する複数のバンドパスフィルター手段が、前記複素フーリエ変換手段と前記特徴抽出手段の間に、あるいは前記特徴抽出手段の後に配置される点にも特徴がある。 In the signal feature extraction apparatus described above, a filter bank composed of a plurality of bandpass filters can be applied, and a plurality of bandpass filter means for multiplying and adding the input data to the weighted data and outputting the data, There is also a feature in that it is arranged between the Fourier transform means and the feature extraction means or after the feature extraction means.
また、前記した信号特徴抽出装置において、前記フィルター手段は、入力信号を参照して、各バンドパスフィルターの帯域幅が振幅の時間平均値の周波数分布が一様になるように決定された分布平滑化フィルターである点にも特徴がある。 In the signal feature extraction apparatus described above, the filter means refers to the input signal, and the distribution smoothing in which the bandwidth of each bandpass filter is determined so that the frequency distribution of the time average value of the amplitude is uniform. Another characteristic is that it is a filter.
また、前記した信号特徴抽出装置において、前記特徴抽出手段の後にあるいは前記フィルター手段の後に振幅情報の対数変換手段が配置された点にも特徴がある。 Further, the signal feature extraction device described above is characterized in that logarithmic conversion means for amplitude information is arranged after the feature extraction means or after the filter means.
本発明の信号特徴抽出方法は、所定期間だけサンプリングされたデジタル入力信号を周波数軸に変換する複素フーリエ変換処理を行うステップと、前記複素フーリエ変換処理において変換されたデータから高次局所相関特徴データを抽出する特徴抽出処理を行うステップとを含むことを主要な特徴とする。 The signal feature extraction method of the present invention includes a step of performing a complex Fourier transform process for converting a digital input signal sampled for a predetermined period into a frequency axis, and higher-order local correlation feature data from the data transformed in the complex Fourier transform process. And a step of performing a feature extraction process for extracting.
本発明の信号特徴抽出装置および信号特徴抽出方法には以下のような効果がある。
(1)音声、音響信号あるいはその他の時系列信号から高精度に特徴を抽出することができ、位相に特徴がある信号の識別精度が向上する。
(2)高次局所自己相関により、周波数間の関係性を効果的に抽出することが可能となり、識別精度が向上する。
The signal feature extraction apparatus and signal feature extraction method of the present invention have the following effects.
(1) Features can be extracted with high accuracy from speech, acoustic signals, or other time-series signals, and the identification accuracy of signals having characteristics in phase is improved.
(2) The high-order local autocorrelation can effectively extract the relationship between frequencies, and the identification accuracy is improved.
以下に、この発明の実施の形態を実施例によって、図面に基づき詳細に説明する。なお、実施例においては音をマイクにて入力する例を開示するが、本発明はコンピューターに入力可能な任意の電気信号に適用可能である。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In addition, although the example which inputs a sound with a microphone is disclosed in the Example, this invention is applicable to the arbitrary electric signals which can be input into a computer.
図1は本発明の信号特徴抽出装置のハードウェア構成を示すブロック図である。マイク10は例えば対象物から発生する可聴音を電気信号に変換し、コンピューター11に出力する。コンピューター11は例えば音信号を取り込むためのインターフェイス回路(マイク入力回路:サンプリング、A/D変換回路)を備えた周知のパソコン(PC)であってもよい。本発明は、パソコンなどの周知の任意のコンピューター11に後述する処理を実行するプログラムを作成、インストールすることにより実現される。
FIG. 1 is a block diagram showing a hardware configuration of a signal feature extraction apparatus according to the present invention. The
モニタ装置12はコンピューター11の周知の出力装置であり、例えば対象物が発する音の種別などの認識結果等をオペレータに表示するために使用される。キーボード13およびマウス14は、オペレータが入力に使用する周知の入力装置である。
The
図2(a)は本発明の信号特徴抽出方法を使用した信号認識処理(1)の内容を示すフローチャートである。S10においては、マイク10から入力されたアナログ信号が所定の周期でサンプリングされ、A/D変換されたデジタル信号データから、移動する時間窓を用いた公知の複素フーリエ変換処理を行う。
FIG. 2A is a flowchart showing the contents of the signal recognition process (1) using the signal feature extraction method of the present invention. In S10, the analog signal input from the
図3はフーリエ変換処理の内容を示す説明図である。マイク10から入力されたアナログ信号は所定の周期(例えば50μ秒(サンプリング周波数20kHz))でサンプリングされ、A/D変換されて、一旦保存される。このデジタル信号データは所定の長さ(例えば数秒)の時間窓を用いて切り出され、公知の短時間複素フーリエ変換処理によって、下記の数式1に示す周波数軸上の複数の離散複素数値Fに変換される。なお、Aはその周波数成分の振幅、θは位相を表している。
FIG. 3 is an explanatory diagram showing the contents of the Fourier transform process. The analog signal input from the
時間窓は1〜複数サンプリング周期毎に移動され、所定の期間(例えば数十秒)だけフーリエ変換処理が行われる。この結果、図3右側に示すような、時間軸および周波数軸にそって配列された多数の複素数データFが得られる。 The time window is moved every one to a plurality of sampling periods, and Fourier transform processing is performed for a predetermined period (for example, several tens of seconds). As a result, a large number of complex data F arranged along the time axis and the frequency axis as shown on the right side of FIG. 3 is obtained.
S11においては、特徴抽出処理として、(1)フーリエHLAC(Fourier HLAC、以下FHLACと記す)、(2)フェーズインデックスHLAC(Phase Index HLAC、以下PHLAC)と記す)のいずれか1つの特徴データを算出する。 In S11, one feature data of (1) Fourier HLAC (Fourier HLAC, hereinafter referred to as FHLAC) or (2) Phase index HLAC (hereinafter referred to as PHLAC) is calculated as feature extraction processing. To do.
(1)FHLAC:
FHLACは本発明者が発明したフーリエ高次局所自己相関特徴である。まず、図3右側に示された時間軸および周波数軸にそって配列された多数の複素数データFの内の1つに注目し、その注目複素数データと予め定められたマスクパターンによって決定される近傍の複素数データとの相関値を算出する。この処理を全てのマスクパターンについて実行することによって、1つの注目複素数データに関して、マスクパターンの数と等しい複数の複素数データXの集合からなる特徴データが得られる。
(1) FHLAC:
FHLAC is a Fourier higher order local autocorrelation feature invented by the inventors. First, pay attention to one of a large number of complex data F arranged along the time axis and the frequency axis shown on the right side of FIG. 3, and the neighborhood determined by the complex data of interest and a predetermined mask pattern. The correlation value with the complex number data is calculated. By executing this process for all mask patterns, feature data consisting of a set of a plurality of complex data X equal to the number of mask patterns is obtained for one target complex data.
図4は本発明の特徴抽出処理において使用するマスクパターンの内容を示す説明図である。マスクパターンの決定においては注目データを中心とする3×3の正方形の内部に限定し、中心の注目データは必ず1回以上選択されるものとする。また、上下左右および斜め方向に並行移動して重なるマスクパターンは注目データを移動させれば重複するので1つを残して他を削除する。 FIG. 4 is an explanatory diagram showing the contents of the mask pattern used in the feature extraction processing of the present invention. In determining the mask pattern, it is limited to the inside of a 3 × 3 square centering on the attention data, and the attention data at the center is always selected at least once. In addition, mask patterns that overlap by moving in parallel in the up / down / left / right and diagonal directions overlap if the data of interest is moved.
この重複排除の結果、中心および他の1点を選択する1次のマスクパターンが(1)〜(4)の4種類、中心および他の2点を選択する2次のマスクパターンが(1)〜(20)の20種類残る。また、中心を2回選択する1次のマスクパターン(5)が1種類、中心を2回および他の1点を選択する2次のマスクパターン(21)〜(28)が8種類、中心を3回選択する2次のマスクパターン(29)が1種類存在する。
マスクパターンの黒丸●のある位置の複素数データ同士の相関値が算出される。同じ位置に2個以上の黒丸●があるときは、その値が2個以上あると考えて他と同様に相関を取る(自分自身を2回以上かける)。なお、特徴データの抽出には1次あるいは2次マスクの一方のみを使用してもよいし、1次および2次マスクの双方を使用してもよい。
As a result of this de-duplication, there are four types of primary mask patterns (1) to (4) for selecting the center and another one point, and a secondary mask pattern for selecting the center and the other two points (1). 20 types of (20) remain. In addition, there are one type of primary mask pattern (5) for selecting the center twice, eight types of secondary mask patterns (21) to (28) for selecting the center twice and another point, and the center. There is one type of secondary mask pattern (29) selected three times.
Correlation values between complex number data at positions with black circles ● in the mask pattern are calculated. If there are two or more black circles ● at the same position, consider that there are two or more values and correlate like the others (multiply yourself twice or more). Note that only one of the primary and secondary masks may be used for extracting feature data, or both the primary and secondary masks may be used.
1次および2次のマスクパターンを用いた1次および2次相関の演算式を下記の数式2、3に示す。演算においては一方の複素数の虚数の正負を反転させる複素共役をとっており、(Fの上部のバーで表現)相関値も複素数である。1次相関値の位相情報はその周波数成分の位相の1次微分情報を示しており、2次相関値の位相情報はその周波数成分の位相の2次微分情報を示している。
なお、図4のパターン(5)、(29)など、自分自身のみのマスクパターンの場合には、実数値の特徴が得られ、これは従来のパワースペクトル特徴に一致する。
In the case of a mask pattern only for itself, such as the patterns (5) and (29) in FIG. 4, a real-valued feature is obtained, which matches the conventional power spectrum feature.
なお、上記数式2、3においては複数の振幅Aを乗算しているが、演算は乗算以外に、*(内積)、min(A,B)(A、Bの小さい方)などであってもよい。従って、演算を任意の関数fとすれば以下の数式4、5のように表現できる。
In the
注目複素数データを周波数軸および時間軸方向に走査(スキャン)して全ての複素数データFについて上記の処理を行って複素数データXの集合を求めたものがFHLACである。 The FHLAC is a set of complex data X obtained by scanning the complex data of interest in the frequency axis and time axis directions and performing the above processing on all the complex data F.
(2)PHLAC:
PHLACはやはり本発明者が発明したフーリエ高次局所自己相関特徴である。図3右側に示された時間軸および周波数軸にそって2次元に配列された多数の複素数データFの1つに注目し、その注目複素数データと予め定められたマスクパターンによって決定される近傍の複素数データとの相関値を算出する。この際、各複素数データについて位相情報を量子化表現(ベクトル表現)に変換してから相関をとる。
なお、PHLACにおいては、自分自身を2回以上選択する相関(図4のマスクパターン(5)、(21)〜(29))はとらない。
(2) PHLAC:
PHLAC is also a Fourier higher order local autocorrelation feature invented by the inventors. Attention is paid to one of a large number of complex data F arranged two-dimensionally along the time axis and the frequency axis shown on the right side of FIG. 3, and the vicinity of the neighborhood determined by the complex data of interest and a predetermined mask pattern. A correlation value with complex number data is calculated. At this time, the phase information is converted into a quantized expression (vector expression) for each complex number data, and then correlation is obtained.
In PHLAC, the correlation (mask patterns (5), (21) to (29) in FIG. 4) for selecting itself twice or more is not taken.
図5は本発明のPHLAC(フェーズインデックスHLAC)における量子化方法(1)を示す説明図である。前記した数式1の複素数Fを複素平面上で表すと、図5左側に示すように表すことができる。ここで、位相θは、それぞれが均等な角度だけ他と方向が異なる複数(図5では8個)の基準方向(1〜8)の内、複素数Fを挟む2個の基準方向の重み付け和によって表すことができる。
FIG. 5 is an explanatory diagram showing a quantization method (1) in PHLAC (phase index HLAC) of the present invention. When the complex number F of
例えば図5に示す複素数Fの場合には、θがベクトル2と3のちょうど中間にあるので、ベクトル2とベクトル3の重みがそれぞれ0.5、他の重みは0である8個の実数によって表すことができる。そこでこの8個の重み値を8次元のベクトルhとすると、複素数Fは以下の数式6のように表わされる。
For example, in the case of the complex number F shown in FIG. 5, since θ is exactly in the middle of the
ここで、数式6の表現を使用し、前記した1次および2次のマスクパターンを用いた1次および2次相関の演算式を下記の数式7、8に示す。なお、関数fは前記したものと同一である。
Here, using the expression of
演算は数式7においてはベクトルの外積(outer-product)となり、数式8においてはテンソル積となる。数式7の1つのマスクパターンと対応する1次相関特徴は8×8個の実数値からなるベクトル、数式8の1つのマスクパターンと対応する2次相関特徴は8×8×8個の実数値からなるベクトルとなる。
The calculation is a vector outer product in
次に、PHLACの変形例について説明する。上記したPHLACにおいては位相θを8次元のベクトルhによる量子化表現に変換する例を開示したが、数式4あるいは5に示す複素数データXの位相差分情報をベクトルhを用いた量子化表現に変換することも可能である。
Next, a modified example of PHLAC will be described. In the above-described PHLAC, the example in which the phase θ is converted into the quantized representation by the 8-dimensional vector h has been disclosed. However, the phase difference information of the complex number data X shown in
下記の数式9においては数式4の位相差分情報を8次元のベクトルhによる量子化表現に変換している。また、下記の数式10においては数式5の位相情報を2つの位相差分情報の和に変形し、2個の8次元のベクトルhの積による量子化表現に変換している。数式9、10においては数式4、5よりも次元が低下し、データ量が減少している。
In the following Expression 9, the phase difference information of
次に、PHLACの他の変形例について説明する。上記したPHLACにおいては位相情報θを量子化表現に変換する例を開示したが、この変形例は位相情報の代わりに位相の周波数微分値である群遅延あるいは位相の時間微分値である瞬時周波数を用いる。 Next, another modification of PHLAC will be described. In the above-described PHLAC, an example in which the phase information θ is converted into a quantized expression has been disclosed. Use.
図6は本発明のフェーズインデックスHLACにおいて、位相情報の代わりに群遅延あるいは瞬時周波数を用いる場合の量子化方法を示す説明図である。群遅延あるいは瞬時周波数は周期性のない値であるので、最小値と最大値の間を複数の区間に分割し、量子化する。 FIG. 6 is an explanatory diagram showing a quantization method when a group delay or an instantaneous frequency is used instead of phase information in the phase index HLAC of the present invention. Since the group delay or instantaneous frequency is a value having no periodicity, the minimum value and the maximum value are divided into a plurality of sections and quantized.
群遅延あるいは瞬時周波数の値(θハット)は、複数(図6では8個)の基準値(1〜8)の内、群遅延あるいは瞬時周波数の値(θハット)を挟む2個の基準値の重み付け和によって表すことができる。そこでこの8個の重み値を上述した8次元のベクトルhとする。以下は前述した処理と同一である。最小値、最大値、区間の分け方は学習データ(入力信号データ)から決定してもよいし、事前にパラメータとして与えてもよい。 The group delay or instantaneous frequency value (θ hat) is two reference values sandwiching the group delay or instantaneous frequency value (θ hat) among a plurality (eight in FIG. 6) of reference values (1 to 8). Can be represented by a weighted sum of Therefore, these eight weight values are set as the above-described 8-dimensional vector h. The following is the same as the processing described above. The method of dividing the minimum value, maximum value, and section may be determined from learning data (input signal data), or may be given as a parameter in advance.
S12においてはフィルター処理として(1)分布平滑化フィルター処理、(2)Melフィルター処理のいずれかを行う。フィルター処理においては、複数のバンドパスフィルター機能を使用して下記の数式11に示す演算が行われる。各バンドパスフィルターは入力されたデータに重みを乗算して加算(積算、合算)し、出力する。なお、wはフィルターの重みである。この結果、特徴データXの周波数方向のデータ数がフィルターの数に減少する。
In S12, either (1) distribution smoothing filter processing or (2) Mel filter processing is performed as filter processing. In the filter processing, the calculation shown in the following
Melフィルター処理:
図7はMelフィルターの特性例を示す説明図である。公知のMelフィルターは、複数のバンドパスフィルターからなるフィルターバンクである。各フィルターの特性は図7に示すような3角形の形をしており、それぞれのフィルターの重みを積分した値は同一となっている。
Mel filter processing:
FIG. 7 is an explanatory diagram showing a characteristic example of the Mel filter. A known Mel filter is a filter bank composed of a plurality of bandpass filters. The characteristic of each filter has a triangular shape as shown in FIG. 7, and the integrated value of the weight of each filter is the same.
各フィルターの中心周波数の間隔は周波数が高くなるほど広くなっており、周波数軸を対数スケールで表わした場合に、Melフィルターの各フィルターの中心周波数は等間隔に配置されている。また、各フィルターの帯域幅も同じ幅になる。 The intervals between the center frequencies of the filters become wider as the frequency becomes higher. When the frequency axis is expressed in a logarithmic scale, the center frequencies of the filters of the Mel filter are arranged at equal intervals. Also, the bandwidth of each filter is the same.
分布平滑化フィルター処理:
前記したMelフィルターは各バンドパスフィルターの中心周波数が対数スケールにおいて等間隔に配置されているが、信号によってはこれが最適な配置とは限らない。そこで、本発明者は以下に示す分布平滑化フィルターを発明した。この分布平滑化フィルターにおいては、Melフィルターと同様に複数のバンドパスフィルターからなるフィルターバンクを用いる。
Distribution smoothing filter processing:
In the above-described Mel filter, the center frequencies of the bandpass filters are arranged at regular intervals on a logarithmic scale, but this is not always the optimal arrangement depending on the signal. Therefore, the present inventor has invented the following distribution smoothing filter. In this distributed smoothing filter, a filter bank composed of a plurality of band pass filters is used in the same manner as the Mel filter.
分布平滑化フィルターの各バンドパスフィルターの帯域幅は、入力信号の特性に合わせて以下のように決定される。まず、下記の数式12によって、複素数データFの振幅AからH、qを求める。Hは周波数kのヒストグラム値(=振幅の時間平均値)であり、qは周波数軸におけるHの累積分布関数となる。また、gは任意の関数であり、対数(log)関数あるいは閾値をもつステップ関数などでもよい。
The bandwidth of each bandpass filter of the distributed smoothing filter is determined as follows according to the characteristics of the input signal. First, H and q are obtained from the amplitude A of the complex number data F by the following
このqは、周波数kが増加するに従って0から1まで単調増加する関数である。このqによって周波数軸を変換すると、振幅の小さい帯域は狭くなり、振幅の大きな帯域は広くなるので、変換された周波数軸を均等に区切ると、各区間における振幅の加算値が同一(一様分布)になるような新たな周波数軸が得られる。この新たな周波数軸上で均等な重みとなる、即ち、各バンドパスフィルターの中心周波数の間隔が均等であり、かつフィルター特性の形状も同一となるようなフィルター群を構成する。 This q is a function that monotonously increases from 0 to 1 as the frequency k increases. When the frequency axis is converted by q, the band with small amplitude becomes narrow and the band with large amplitude becomes wide. Therefore, when the converted frequency axis is equally divided, the added value of the amplitude in each section is the same (uniform distribution) A new frequency axis can be obtained. A filter group is formed in which the weights are even on the new frequency axis, that is, the intervals between the center frequencies of the bandpass filters are equal, and the filter characteristics have the same shape.
具体的には、例えばこのqの値を均等に分割する点(例えば10等分であれば、0、0.1、0.2…0.9、1.0)の周波数を求め、この周波数を各バンドパスフィルターの境界の周波数あるいは中心周波数とする。
フィルターをこのように構成すれば、入力信号の特性に合わせて、振幅の大きな帯域はバンドパスフィルターの帯域幅が狭くなり、特徴を細かく抽出することができる。従って、認識、識別精度が向上する。
Specifically, for example, the frequency of a point that equally divides the value of q (for example, 0, 0.1, 0.2,... Is the boundary frequency or center frequency of each bandpass filter.
If the filter is configured in this manner, the bandwidth of the band-pass filter becomes narrow in the band having a large amplitude in accordance with the characteristics of the input signal, and the feature can be extracted finely. Therefore, recognition and identification accuracy are improved.
S13においては、必要に応じて振幅Aについて対数変換を行う。この処理によって例えば大きな雑音の影響を抑制することができる。 In S13, logarithmic conversion is performed on the amplitude A as necessary. By this processing, for example, the influence of large noise can be suppressed.
S14においては、抽出された特徴データに基づき、公知の認識、識別処理が行われる。例えばxiを時間窓を用いて得られた学習用の特徴ベクトル群であるとすると、xiに対して主成分分析(フーリエHLACの場合には複素固有値問題になる。)を行うことによって、学習データに頻繁に含まれる(正常な)特徴ベクトルの張る空間Vが求まる。そして、入力特徴ベクトルをxとするとき、以下に示す数式13によってd2を求め、この値の大小によって異音かどうか、即ち故障か否かを判定する。
In S14, known recognition and identification processing is performed based on the extracted feature data. For example, if xi is a feature vector group for learning obtained using a time window, learning data is obtained by performing principal component analysis (in the case of Fourier HLAC, a complex eigenvalue problem) on xi. A space V spanned by (normal) feature vectors frequently included in is obtained. Then, when the input feature vector is x, d 2 is obtained by the following
図2(b)は本発明の信号特徴抽出方法を使用した信号認識処理の実施例2の内容を示すフローチャートである。前述した実施例1においてはS11の特徴抽出処理を行った後にS12のフィルター処理を行う例を開示したが、実施例2は、実施例1のS11とS12の実行順序を入れ替えてS16(=S12)、S17(=S11)としたものである。その他の処理は実施例1と同一である。実施例2においてはフィルター処理によってデータ量が減少するので、特徴抽出処理の負荷が軽減され、全体の処理速度が向上する。 FIG. 2B is a flowchart showing the contents of a second embodiment of the signal recognition process using the signal feature extraction method of the present invention. In the first embodiment described above, the example in which the filtering process in S12 is performed after the feature extraction process in S11 has been disclosed. However, in the second embodiment, the execution order of S11 and S12 in the first embodiment is switched to S16 (= S12 ), S17 (= S11). Other processes are the same as those in the first embodiment. In the second embodiment, the amount of data is reduced by the filter processing, so that the load of the feature extraction processing is reduced and the overall processing speed is improved.
以上実施例を説明したが、本発明の装置には更に以下のような変形例も考えられる。実施例においてはA/D変換後に一旦保存し、オフライン処理を行う例を開示したが、処理速度が間に合えばリアルタイムで処理してもよい。 Although the embodiments have been described above, the following modifications can be considered for the apparatus of the present invention. In the embodiment, an example is disclosed in which after A / D conversion is temporarily stored and offline processing is performed, but processing may be performed in real time if the processing speed is in time.
本発明は音声その他の音響信号を初め、コンピューターに入力可能な任意の信号の認識、識別、機械の故障等による異音検出に適用可能である。 The present invention can be applied to the detection of abnormal sounds such as speech and other acoustic signals, as well as recognition and identification of arbitrary signals that can be input to a computer, and machine failure.
10…マイク
11…コンピューター
12…モニタ装置
13…キーボード
14…マウス
DESCRIPTION OF
Claims (7)
前記複素数データの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの間において、一方のデータの複素数の虚数の正負を反転させる複素共役をとって積を求める演算により相関値を算出し、この演算を前記マスクパターン毎に時間軸および周波数軸にそって全ての前記複素数データについて行って、前記マスクパターン毎に前記相関値の集合を求めることによりフーリエ高次局所相関特徴データを抽出する特徴抽出手段と
を備えたことを特徴とする信号特徴抽出装置。 A complex Fourier transform means for transforming a digital input signal sampled for a predetermined period into a large number of complex data arranged two-dimensionally along a time axis and a frequency axis;
Focusing on one of the complex number data, a complex conjugate that inverts the sign of the imaginary number of the complex number of one data is taken between the target data and neighboring data determined by a predetermined mask pattern. The correlation value is calculated by calculating the product, and the calculation is performed for all the complex number data along the time axis and the frequency axis for each mask pattern, and the set of correlation values is determined for each mask pattern. A signal feature extraction apparatus comprising: feature extraction means for extracting Fourier higher-order local correlation feature data using
前記複素数データの内の1つに注目し、その注目データと予め定められたマスクパターンによって決定される近傍のデータとの間において、一方のデータの複素数の虚数の正負を反転させる複素共役をとって積を求める演算により相関値を算出し、この演算を前記マスクパターン毎に時間軸および周波数軸にそって全ての前記複素数データについて行って、前記マスクパターン毎に前記相関値の集合を求めることによりフーリエ高次局所相関特徴データを抽出する特徴抽出処理を行うステップと
を含むことを特徴とする信号特徴抽出方法。 Performing a complex Fourier transform process for converting a digital input signal sampled only for a predetermined period into a large number of complex data arranged two-dimensionally along a time axis and a frequency axis;
Focusing on one of the complex number data, a complex conjugate that inverts the sign of the imaginary number of the complex number of one data is taken between the target data and neighboring data determined by a predetermined mask pattern. The correlation value is calculated by calculating the product, and the calculation is performed for all the complex number data along the time axis and the frequency axis for each mask pattern, and the set of correlation values is determined for each mask pattern. And a step of performing feature extraction processing for extracting Fourier higher-order local correlation feature data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253726A JP5644934B2 (en) | 2013-12-09 | 2013-12-09 | Signal feature extraction apparatus and signal feature extraction method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013253726A JP5644934B2 (en) | 2013-12-09 | 2013-12-09 | Signal feature extraction apparatus and signal feature extraction method |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010118536A Division JP5598815B2 (en) | 2010-05-24 | 2010-05-24 | Signal feature extraction apparatus and signal feature extraction method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014044447A JP2014044447A (en) | 2014-03-13 |
JP5644934B2 true JP5644934B2 (en) | 2014-12-24 |
Family
ID=50395697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013253726A Active JP5644934B2 (en) | 2013-12-09 | 2013-12-09 | Signal feature extraction apparatus and signal feature extraction method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5644934B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648763A (en) * | 2018-04-04 | 2018-10-12 | 深圳大学 | Personal computer usage behavior monitoring method based on acoustic channels and system |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110794352B (en) * | 2018-08-02 | 2023-05-26 | 上海康达卡勒幅医疗科技有限公司 | Method for inhibiting magnetic resonance image artifact |
CN113269216A (en) * | 2020-02-17 | 2021-08-17 | 富士通株式会社 | Apparatus and method for detecting sound event and storage medium |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5051746B2 (en) * | 2006-11-01 | 2012-10-17 | 独立行政法人産業技術総合研究所 | Feature extraction apparatus and method, and program |
JP4905962B2 (en) * | 2007-01-30 | 2012-03-28 | 独立行政法人産業技術総合研究所 | Method and apparatus for extracting HLAC feature from conversion value of one-dimensional signal |
WO2009035108A1 (en) * | 2007-09-14 | 2009-03-19 | The University Of Tokyo | Correspondence learning apparatus and method and correspondence learning program, annotation apparatus and method and annotation program, and retrieval apparatus and method and retrieval program |
JP5131863B2 (en) * | 2009-10-30 | 2013-01-30 | 独立行政法人産業技術総合研究所 | HLAC feature extraction method, abnormality detection method and apparatus |
-
2013
- 2013-12-09 JP JP2013253726A patent/JP5644934B2/en active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108648763A (en) * | 2018-04-04 | 2018-10-12 | 深圳大学 | Personal computer usage behavior monitoring method based on acoustic channels and system |
WO2019192252A1 (en) * | 2018-04-04 | 2019-10-10 | 深圳大学 | Method and system for monitoring personal computer usage behaviour based on acoustic channel |
CN108648763B (en) * | 2018-04-04 | 2019-11-29 | 深圳大学 | Personal computer usage behavior monitoring method and system based on acoustic channels |
Also Published As
Publication number | Publication date |
---|---|
JP2014044447A (en) | 2014-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101122838B1 (en) | Method and apparatus for separating sound-source signal and method and device for detecting pitch | |
JP5101316B2 (en) | Pitch extraction using fundamental frequency harmonics and subharmonic suppression | |
CN107305774A (en) | Speech detection method and device | |
JP6334895B2 (en) | Signal processing apparatus, control method therefor, and program | |
Aravind et al. | Audio spoofing verification using deep convolutional neural networks by transfer learning | |
JP5644934B2 (en) | Signal feature extraction apparatus and signal feature extraction method | |
JP4705480B2 (en) | How to find the fundamental frequency of a harmonic signal | |
Talmon et al. | Transient noise reduction using nonlocal diffusion filters | |
JP5598815B2 (en) | Signal feature extraction apparatus and signal feature extraction method | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
JP5825607B2 (en) | Signal feature extraction apparatus and signal feature extraction method | |
JP2005084244A (en) | Restoration method of target speech based on speech segment detection under stationary noise | |
JP6056527B2 (en) | Intruder detection device | |
JP5131863B2 (en) | HLAC feature extraction method, abnormality detection method and apparatus | |
US7895033B2 (en) | System and method for determining a common fundamental frequency of two harmonic signals via a distance comparison | |
Ram et al. | Deep neural network based speech enhancement | |
JP4790319B2 (en) | Unified processing method for resolved and unresolved harmonics | |
Baghel et al. | Classification of multi speaker shouted speech and single speaker normal speech | |
Livi et al. | On the long-term correlations and multifractal properties of electric arc furnace time series | |
JP7152112B2 (en) | Signal processing device, signal processing method and signal processing program | |
Chithra et al. | A Comprehensive Study of Time-Frequency Analysis of Musical Signals | |
US11881200B2 (en) | Mask generation device, mask generation method, and recording medium | |
Chadha et al. | A Unique Glottal Flow Parameters based Features for Anti-spoofing Countermeasures in Automatic Speaker Verification | |
CN113703568B (en) | Gesture recognition method, gesture recognition device, gesture recognition system, and storage medium | |
Shetty et al. | Study of Emotion Detection in Tunes Using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140718 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141020 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5644934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |