JP5997007B2 - Sound source position estimation device - Google Patents
Sound source position estimation device Download PDFInfo
- Publication number
- JP5997007B2 JP5997007B2 JP2012239919A JP2012239919A JP5997007B2 JP 5997007 B2 JP5997007 B2 JP 5997007B2 JP 2012239919 A JP2012239919 A JP 2012239919A JP 2012239919 A JP2012239919 A JP 2012239919A JP 5997007 B2 JP5997007 B2 JP 5997007B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- source position
- position estimation
- estimated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012546 transfer Methods 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 23
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000009792 diffusion process Methods 0.000 claims description 17
- 238000000034 method Methods 0.000 description 40
- 238000012545 processing Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000007796 conventional method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000013598 vector Substances 0.000 description 5
- KAKZBPTYRLMSJV-UHFFFAOYSA-N Butadiene Chemical compound C=CC=C KAKZBPTYRLMSJV-UHFFFAOYSA-N 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 239000000463 material Substances 0.000 description 4
- 238000003491 array Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- NLHHRLWOUZZQLW-UHFFFAOYSA-N Acrylonitrile Chemical compound C=CC#N NLHHRLWOUZZQLW-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 229920000122 acrylonitrile butadiene styrene Polymers 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 229920001577 copolymer Polymers 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 229920003002 synthetic resin Polymers 0.000 description 1
- 239000000057 synthetic resin Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Description
本発明は、複数のマイクロホンで収音した観測信号を用いて、任意の音源の到来方向・位置を推定する技術(以下、「音源位置推定技術」と呼ぶ)に関する。なお、音源方向推定は音源位置推定に含まれると定義する。 The present invention relates to a technique for estimating the arrival direction / position of an arbitrary sound source using observation signals collected by a plurality of microphones (hereinafter referred to as “sound source position estimation technique”). Note that the sound source direction estimation is defined as being included in the sound source position estimation.
複数のマイクロホン(例えばマイクロホンアレー)で収音した観測信号間に生じる位相・振幅差を利用することで、音源の位置を推定する技術方式は様々研究されてきた。これまでの音源位置推定技術では、主に、i)収音した観測信号に対して行う信号処理に関する工夫と、ii)マイクロホン等の配置を工夫する2つの方針で研究が進められてきた。 Various techniques have been studied for estimating the position of a sound source by using a phase / amplitude difference generated between observation signals picked up by a plurality of microphones (for example, microphone arrays). In the sound source position estimation technology so far, research has been carried out mainly with two policies: i) ingenuity regarding signal processing performed on collected observation signals, and ii) in arrangement of microphones.
[従来方式i):信号処理に関する工夫]
代表的な信号処理として、a)GCC-PHAT法(Generalized Cross Correlation with PHAse Transform法、非特許文献1参照)、b)MUSIC法(MUltiple SIgnal Classification法、非特許文献2参照)、c)ビームフォーマ法(非特許文献3参照)が知られている。
[Conventional method i): Device for signal processing]
Typical signal processing includes: a) GCC-PHAT method (Generalized Cross Correlation with PHAse Transform method, see Non-Patent Document 1), b) MUSIC method (MUltiple SIgnal Classification method, see Non-Patent Document 2), c) Beamformer The law (see Non-Patent Document 3) is known.
[従来方式ii):アレーの配置に関する工夫]
従来方式i)では、信号処理を用いて音源の位置を推定しようとしてきたが、観測する系(e.g.マイクロホンのアレンジ)によって性能は大きく変わる。例えば、a)マイクロホンアレーのサイズを大きくすることで球面波と平面波の違いを検出できるようにすることで、音源位置の推定精度を高めたり、b)複数のマイクロホンアレーを距離を離して配置することで、音源の位置を推定する問題を方向推定の組み合わせとして解決するアプローチが提案されている(非特許文献4参照)。基本的には両方式ともアレーサイズを大きくする方針であり、観測した後の信号処理については、従来方式i)に挙げた処理を例として、任意方式を用いればよい。
[Conventional method ii): Device for array layout]
In the conventional method i), the position of the sound source has been estimated using signal processing. However, the performance varies greatly depending on the observation system (eg microphone arrangement). For example, a) Increasing the size of the microphone array can detect the difference between spherical and plane waves, thereby improving the accuracy of sound source position estimation, or b) arranging multiple microphone arrays at a distance. Thus, an approach for solving the problem of estimating the position of the sound source as a combination of direction estimation has been proposed (see Non-Patent Document 4). Basically, both systems have a policy of increasing the array size, and for the signal processing after observation, an arbitrary method may be used by taking the processing given in the conventional method i) as an example.
音源を取り囲むようにマイクロホンを配置して、アレーサイズを大きくすることができる状況であればよいが、通常は、マイクロホン本数Mや設置できるエリアは限られる。その場合、従来方式i)のような信号処理を工夫したとしても、観測した信号内に音源位置を推定するための情報量が少なくて、推定できない可能性がある。例えば、ディスプレイ近くに設置されたTV会議での収音装置を用いて、5〜10m程度離れた位置に並んで発話者が座っているとする。その場合、音源の角度間が狭いので、音源を識別することが困難となる。 Although it is sufficient that the microphone can be arranged so as to surround the sound source and the array size can be increased, the number M of microphones and the area where the microphone can be installed are usually limited. In that case, even if the signal processing as in the conventional method i) is devised, there is a possibility that the amount of information for estimating the sound source position in the observed signal is small and cannot be estimated. For example, it is assumed that a speaker sits side by side at a position about 5 to 10 m away using a sound collecting device for a video conference installed near the display. In that case, since the angle between the sound sources is narrow, it is difficult to identify the sound source.
本発明は、音源同士が狭い角度差、距離で配置されていたとしても、音源の位置を推定することができる技術を提供することを目的とする。 An object of the present invention is to provide a technique capable of estimating the position of a sound source even if the sound sources are arranged with a narrow angle difference and distance.
上記の課題を解決するために、本発明の第一の態様によれば、音源位置推定装置は、複数個のマイクロホンと、音を反射可能な素材により作成され、推定対象の音源の複数の想定位置のそれぞれから発せられる音に対して、各マイクホロンにおいて1つ以上の反射音が収音できるように、複数個のマイクロホンの近傍に配置された反射手段と、推定対象の音源の複数の想定位置から複数個のマイクロホンまでの、反射手段により生ずる反射音の影響を含む伝達特性が格納される伝達特性記憶部と、複数個のマイクロホンから得られる周波数領域の観測信号と、複数の想定位置に対応する伝達特性とを用いて、想定位置に推定対象の音源が存在している可能性の高さを表す指標を求める拡散センシング部と、推定対象の音源が存在している可能性が高いことを表す指標に対応する位置を推定対象の音源の位置として推定する音源位置推定部とを含む。 In order to solve the above-described problem, according to the first aspect of the present invention, a sound source position estimation device is created from a plurality of microphones and a material capable of reflecting sound, and a plurality of assumptions of a sound source to be estimated Reflection means arranged in the vicinity of a plurality of microphones and a plurality of assumptions of the sound source to be estimated so that one or more reflected sounds can be collected in each microphone holon for the sound emitted from each of the positions. A transfer characteristic storage unit that stores transfer characteristics including the influence of reflected sound generated by the reflection means from a position to a plurality of microphones, an observation signal in a frequency domain obtained from a plurality of microphones, and a plurality of assumed positions. Using a corresponding transfer characteristic, a diffuse sensing unit that obtains an index indicating the high possibility that the estimation target sound source exists at the assumed position, and the estimation target sound source may exist And a sound source position estimating section for estimating a position corresponding to the index representing the higher the position of the sound source to be estimated.
本発明では、拡散センシングにより、音源同士が狭い角度差、距離で配置されていたとしても、音源位置を推定することができるという効果を奏する。 In the present invention, even if the sound sources are arranged with a narrow angle difference and distance by the diffusion sensing, there is an effect that the sound source position can be estimated.
以下、本発明の実施形態について説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「-」は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。 Hereinafter, embodiments of the present invention will be described. In the drawings used for the following description, constituent parts having the same function and steps for performing the same process are denoted by the same reference numerals, and redundant description is omitted. In the following description, the symbol “ - ” used in the text should be described immediately above the immediately preceding character, but it is described immediately after the character due to restrictions on text notation. In the formula, these symbols are written in their original positions. Further, the processing performed for each element of a vector or matrix is applied to all elements of the vector or matrix unless otherwise specified.
狭い間隔で音源が配列している状況でも、音源の位置を識別して、音源位置推定を行うために、拡散センシング(Diffusedsensing)に基づく制御(参考文献1参照)を取り入れる。
[参考文献1]K. Niwa et al., ”Diffused sensing for sharp directivity microphone array”, ICASSP ,2012, pp. 225-228.
In order to identify the position of the sound source and estimate the sound source position even in a situation where the sound sources are arranged at a narrow interval, control based on diffuse sensing (see Reference 1) is incorporated.
[Reference 1] K. Niwa et al., “Diffused sensing for sharp directivity microphone array”, ICASSP, 2012, pp. 225-228.
参考文献1では、トンネルや洞窟の中のような全方位からパワーの強い反射音がランダムに到来する環境下で、マイクロホン間隔をできるだけ広くしたアレーを配置して収音することで、ターゲット音とその他の音源を空間的に見分けるための情報を最大限に得られるので、狭指向性の収音を可能にできることが明らかになっている。拡散センシングは、例えばマイクロホンアレーの周りに反射板をつけることで実装することができる。
In
収音後の信号処理については、任意の方式を使用して良い。例えば、b)MUSIC法、c)ビームフォーマ法など、従来方式で挙げた方式を利用できる。各方式では、マイクロホン間に生じる時間差や伝達特性を、推定対象の音源が存在すると想定されうる位置(以下、単に「想定位置」という)r- n毎に用意する。ただし、従来方式では、直接音のみをモデル化していたので、計算によってそれらを簡単に算出することができていたが、拡散センシングに基づく方式では、実際に伝達特性を測定するか、反射板の音響特性をシミュレートするなどして、反射音の影響を含めた伝達特性を用意する必要がある。 For signal processing after sound collection, any method may be used. For example, the conventional methods such as b) MUSIC method and c) beamformer method can be used. In each method, a time difference and a transfer characteristic generated between microphones are prepared for each position r − n where the sound source to be estimated can be assumed (hereinafter simply referred to as “assumed position”). However, in the conventional method, only the direct sound was modeled, so it was possible to calculate them easily by calculation.However, in the method based on diffuse sensing, the transfer characteristics were actually measured or the reflector It is necessary to prepare transfer characteristics including the effect of reflected sound, such as by simulating acoustic characteristics.
<第一実施形態に係る音源位置推定装置2>
第一実施形態では、b)MUSIC法により、音源位置を推定する。MUSIC法は、音場に存在する音源数Kより多くの個数のマイクロホンを用いて、観測信号中に含まれる手掛かりからK個の音源kの位置を推定する。なお、音源数Kは予め与えるか観測した信号から推定することとする。図1は音源位置推定装置2の機能ブロック図を、図2はその処理フローを示す。
<Sound source
In the first embodiment, b) the sound source position is estimated by the MUSIC method. The MUSIC method estimates the positions of K sound sources k from the cues included in the observation signal using a larger number of microphones than the number of sound sources K existing in the sound field. Note that the number of sound sources K is estimated from a signal given or observed in advance. FIG. 1 is a functional block diagram of the sound source
音源位置推定装置2は、M個のマイクロホン110−mと、反射手段200と、AD変換部120と、周波数領域変換部130と、伝達特性記憶部210と、拡散センシング部220と、音源位置推定部160とを含む。拡散センシング部220は、雑音空間相関行列計算部140と、ミュージックスペクトル計算部150とを含む。ただし、M>Kであり、m=1,2,…,Mである。
The sound source
音源位置推定装置2は、M個のマイクロホン110−mでそれぞれ収音したアナログ観測信号xm(i)を用いて、K個の音源kの推定し、推定位置r-(τ)=[r- 1(τ),…,r- K(τ)]を出力する。以下、各部における処理の詳細を説明する。
The sound source
<マイクロホン110−m及び反射手段200>
反射手段200は、音を反射可能な素材により作成され、想定位置r- nのそれぞれから発せられる音に対して、マイクホロン110−mにおいて1つ以上の反射音が収音できるように、M個のマイクロホン110−mの近傍に配置される。ただし、想定位置の個数をN(≧1)とすると、n=1,2,…,Nである。M個のマイクロホン110−mは、位置推定の対象となる音源が発する音を収音し(s3)、アナログ観測信号xm(i)をAD変換部120に出力する。
<Microphone 110-m and reflection means 200>
The reflecting
本実施形態では、拡散センシング(参考文献1参照)を実装し、狭間隔に推定対象の音源が配置されていたとしても音源の位置を推定する技術を実現している。なお、拡散センシングとは”拡散状態にある信号を観測することで、多チャネルのセンサーを効果的に利用した空間制御を可能にすること”である。以下、一回以上反射して、マイクロホンに到来する場合の観測信号を拡散信号と呼ぶ。反射の回数は、多い方がのぞましい。 In the present embodiment, diffusion sensing (see Reference 1) is implemented, and a technique for estimating the position of a sound source is realized even if sound sources to be estimated are arranged at narrow intervals. Note that diffusion sensing means “allowing space control that effectively uses a multi-channel sensor by observing a signal in a diffusion state”. Hereinafter, an observation signal that is reflected once or more and arrives at the microphone is referred to as a spread signal. The higher the number of reflections, the better.
本実施形態では、拡散信号が収音できるようにM個のマイクロホン110−mと反射手段200とを適宜配置する。例えば、参考文献1に記載されているように、反射手段200は、暑さ8mmのABS樹脂(アクリロニトリル(Acrylonitrile)、ブタジエン(Butadiene)、スチレン(Styrene)共重合合成樹脂)からなり、その形状を先を切り取った八面体とし、その内部の頂点に24個のマイクロホンを配置してもよい。図3Aは推定対象の音源100−kから発せられた音が反射手段200に反射し、マイクロホン110−mに等方位的に到来する状態を示し、図3Bは図3Aの反射手段200による鏡像を示す。このようにしてマイクロホン110−mで収音した観測信号が拡散信号である。拡散信号は拡散状態に近い信号と言える。例えば、トンネルや洞窟の中で発せられた際の残響がかった音が拡散信号に近い。
In the present embodiment, M microphones 110-m and reflecting
推定対象の音源100−kから放射された音がマイクロホン110−mで観測されるまでの間に反射回数が多くなるほど観測信号は拡散的な信号となり、音源位置推定精度が向上する(参考文献1参照)。よって、反射手段200の素材は、音をあまり吸収せずに反射するものであることが望ましい。また、その形状は、反射回数が多くなるような形状であることが望ましい。例えば、前述の先を切り取った八面体である。また、図4(A)及び(B)にそれぞれ示すように十二面体及び二十面体の一面を開口面とした形状であってもよいし、図4(C)及び(D)にそれぞれ示すように菱形十二面体及び球体に開口部を設ける形状であってもよい。また、開口面や開口部に、ホーン等を取り付けた形状であってあってもよい。 As the number of reflections increases before the sound radiated from the sound source 100-k to be estimated is observed by the microphone 110-m, the observation signal becomes a diffuse signal and the sound source position estimation accuracy is improved (Reference Document 1). reference). Therefore, it is desirable that the material of the reflecting means 200 is a material that reflects without absorbing much sound. Moreover, it is desirable that the shape be a shape that increases the number of reflections. For example, the above-mentioned octahedron is cut off. Moreover, as shown to FIG. 4 (A) and (B), respectively, the shape which made the one surface of the dodecahedron and the icosahedron open may be sufficient, and it shows to FIG. 4 (C) and (D), respectively. In this way, the rhombus dodecahedron and the sphere may be provided with openings. Moreover, the shape which attached the horn etc. to the opening surface or the opening part may be sufficient.
<伝達特性記憶部210>
伝達特性記憶部210は、想定位置r- nからM個のマイクロホン110−mまでの、反射手段200により生ずる反射音の影響を含む伝達特性a-(ω,r- n)が予め格納される(s1)。ただし、マイクロホン110−mの位置をp- mとすると、a-(ω,r- n)=[a1(ω,p- 1,r- n),…,aM(ω,p- M,r- n)]Tと定義される。
<Transfer
The transfer
なお、伝達特性a-(ω,r- n)は、想定位置r- nからの音がM個のマイクロホン110−mに直接届く直接音の伝達特性と、当該音が反射物で反射してM個のマイクロホン110−mに届く一つ以上の反射音の各伝達特性との和で表される。 Incidentally, transfer characteristics a - (ω, r - n ) is assumed position r - a transfer characteristic of the direct reach direct sound to the sound from the n is M microphones 110-m, the sound is reflected by the reflector This is expressed as the sum of one or more reflected sounds that reach the M microphones 110-m.
伝達特性a-(ω,r- n)は、例えば、直接音のステアリングベクトルと、反射による音の減衰及び直接音に対する到来時間差が補正された一つ以上の反射音の各伝達特性との和とする。参考文献1では、次式により伝達特性a-(ω,r- n)は求められる。
Transfer characteristics a - (ω, r - n ) , for example, the sum of the steering vectors of the direct sound, the respective transfer characteristics of one or more reflected sound difference of arrival time is corrected for attenuation and the direct sound of the sound by reflection And In
ただし、h-(0)(ω,r- n)は直接音のステアリングベクトルを、h-(d)(ω,r- n)(但し1≦d≦D)は反射音のステアリングベクトルを、κ(d)(ω)はd番目の反射音に対する反射係数を、p- m (d)はマイクロホン110−mのd番目の仮想マイクロホン(鏡像)の位置を、vは音速を表し、||p- m (d)―r- n||は、音源nからマイクロホン110−mのd番目の鏡像までの距離を表す。また、伝達特性a-(ω,r- n)は、実環境下において実測で得られたものでもよいし、反射板の音響特性を用いてシミュレートして得られたものでもよい。 However, h- (0) (ω, r - n ) is a direct sound steering vector, h- (d) (ω, r - n ) (where 1≤d≤D) is a reflected sound steering vector, κ (d) (ω) is the reflection coefficient for the d-th reflected sound, p - m (d) is the position of the d-th virtual microphone (mirror image) of the microphone 110-m, v is the speed of sound, and || p − m (d) −r − n || represents the distance from the sound source n to the d-th mirror image of the microphone 110-m. Further, the transfer characteristic a − (ω, r − n ) may be obtained by actual measurement in an actual environment, or may be obtained by simulation using the acoustic characteristics of the reflector.
<AD変換部120及び周波数領域変換部130>
AD変換部120は、M個のアナログ観測信号xm(i)を受け取り、それぞれデジタル観測信号xm(t)(以下、単に「観測信号xm(t)」ともいう)に変換し(s5)、周波数領域変換部130に出力する。ただし、i及びtはそれぞれ連続時間及び離散時間のインデックスを表す。
<
The
さらに、周波数領域変換部130は、M個の観測信号xm(t)を受け取り、それぞれ周波数領域の観測信号Xm(ω,τ)(以下、単に「観測信号Xm(ω,τ)」ともいう)に変換し(s7)、拡散センシング部220内の雑音空間相関行列計算部140に出力する。ただし、ω、τはそれぞれ離散周波数、フレーム時間のインデックスを表し、ω=1,2,…,Ωとする。なお、m番目のマイクロホンで収音した観測信号の周波数領域表現をXm(ω,τ)とし、X-(ω,τ)=[X1(ω,τ),…,XM(ω,τ)]Tとする。Tは転置を表わす。
Further, the frequency
<拡散センシング部220>
拡散センシング部220は、Ω個の観測信号X-(ω,τ)を受け取る。また、拡散センシング部220は、予め伝達特性記憶部210からN×Ω個の伝達特性a-(ω,r- n)を取り出しておく。そして、拡散センシング部220は、Ω個の観測信号X-(ω,τ)とN×Ω個の伝達特性a-(ω,r- n)とを用いて、想定位置r- nに推定対象の音源が存在している可能性の高さを表す指標を求め(s8)、音源位置推定部160に出力する。以下、その処理内容をより詳しく説明する。
<
The
(雑音空間相関行列計算部140)
雑音空間相関行列計算部140は、Ω個の観測信号X-(ω,τ)を受け取り、この値を用いて、周波数ω毎に、雑音の空間相関行列R- N(ω,τ)を計算し(s9)、ミュージックスペクトル計算部150に出力する。
(Noise spatial correlation matrix calculation unit 140)
The noise spatial correlation
雑音空間相関行列計算部140は、まず、Ω個の観測信号X-(ω,τ)を用いて、空間相関行列R-(ω,τ)を計算する。
The noise spatial correlation
ここで、Hは共役転置を表わす。また、E[・]は期待値演算子で、例えば時間的な平均化処理で置き換えても問題ない。次に、雑音空間の空間相関行列を生成するために、空間相関行列R-(ω,τ)を固有分解する。 Here, H represents conjugate transposition. E [•] is an expected value operator, and can be replaced by, for example, temporal averaging. Next, in order to generate a spatial correlation matrix of the noise space, the spatial correlation matrix R − (ω, τ) is eigendecomposed.
ここで、V-(ω,τ)=[v- 1(ω,τ),…,v- M(ω,τ)]はM個の固有ベクトルv- m(ω,τ)で構成された固有ベクトル行列である。また、Λ-(ω,τ)=diag([Λ1(ω,τ),…,ΛM(ω,τ)])は、M個の固有値Λm(ω,τ)で構成された固有値行列である。なお、M個の固有値Λm(ω,τ)は、Λ1(ω,τ)≧…≧ΛM(ω,τ)の順とする(参考文献1参照)。1番目からK番目までの固有ベクトルv- 1(ω,τ),…,v- K(ω,τ)には推定対象の音源に起因する成分が含まれるので、K+1番目からM番目までの固有ベクトルv- K+1(ω,τ),…,v- M(ω,τ)で構成される空間には定常的な雑音しか存在しないことになる。その性質を利用して、雑音の空間相関行列R- N(ω,τ)を生成する。 Here, V - (ω, τ) = [v - 1 (ω, τ), ..., v - M (ω, τ)] is M eigenvectors v - m (ω, τ) configured eigenvectors It is a matrix. Also, Λ - (ω, τ) = diag ([Λ 1 (ω, τ), ..., Λ M (ω, τ)]) is, M eigenvalues Λ m (ω, τ) eigenvalues composed of It is a matrix. The M eigenvalues Λ m (ω, τ) are in the order of Λ 1 (ω, τ) ≧... ≧ Λ M (ω, τ) (see Reference 1). The first to Kth eigenvectors v - 1 (ω, τ), ..., v - K (ω, τ) contain components due to the sound source to be estimated, so from K + 1th to Mth , V − M (ω, τ), there is only stationary noise in the space composed of eigenvectors v − K + 1 (ω, τ),. Using the property, a noise spatial correlation matrix R − N (ω, τ) is generated.
つまり、推定対象の音源に起因する成分が含まれていない固有ベクトルv- K+1(ω,τ),…,v- M(ω,τ)と固有値ΛK+1(ω,τ),…,ΛM(ω,τ)とから雑音の空間相関行列R- N(ω,τ)を求める。 That is, eigenvectors v − K + 1 (ω, τ),..., V − M (ω, τ) and eigenvalues Λ K + 1 (ω, τ),. , Λ M (ω, τ) and the noise spatial correlation matrix R − N (ω, τ).
(ミュージックスペクトル計算部150)
ミュージックスペクトル計算部150は、Ω個の雑音の空間相関行列R- N(ω,τ)を受け取り、この値と、伝達特性記憶部210から取り出しておいたN×Ω個の伝達特性a-(ω,r- n)とから、次式により、周波数ω毎、かつ、想定位置r- n毎に、ミュージックスペクトルPMUSIC(ω,τ,r- n)を計算し(s11)、音源位置推定部160に出力する。ただし、n=1,2,…,Nである。
(Music spectrum calculator 150)
The music
従来技術では、直接音のみをモデル化して伝達特性a-(ω,r- n)を計算していたが、本実施形態では、前述の通り、直接音と反射音とからモデル化して計算している。なお、本実施形態では、このミュージックスペクトルPMUSIC(ω,τ,r- n)を、想定位置に推定対象の音源が存在している可能性が高さを表す指標として用いる。 In the prior art, the transfer characteristic by modeling only the direct sound a - (ω, r - n ) but was not calculated, in the present embodiment, as described above, and calculated by modeling from the direct sound and the reflected sound ing. In the present embodiment, this music spectrum P MUSIC (ω, τ, r − n ) is used as an index indicating the high possibility that the estimation target sound source exists at the assumed position.
<音源位置推定部160>
音源位置推定部160は、N×Ω個のミュージックスペクトルPMUSIC(ω,τ,r- n)を受け取る。ここで、ミュージックスペクトルPMUSIC(ω,τ,r- n)は、その値が大きいほど、対応する想定位置r- nに音源が存在している可能性が高いことを表す。そこで、音源位置推定部160は、大きいミュージックスペクトルPMUSIC(ω,τ,r- n)に対応する位置をK個抽出し、これを音源の位置として推定し(s13)、推定位置r-(τ)=[r- 1(τ),…,r- K(τ)]を出力する。
<Sound source
The sound source
例えば、以下のコストCMUSIC(τ,r- n)が大きいものをK個抽出し、そのコストCMUSIC(τ,r- k)に対応するK個の推定位置r- k(τ)を出力する。 For example, K items having the following large cost C MUSIC (τ, r - n ) are extracted, and K estimated positions r - k (τ) corresponding to the cost C MUSIC (τ, r - k ) are output. To do.
<効果>
拡散性反射音を生じさせて音を観測することで、狭間隔に音源が配置されていたとしても、ターゲット音とそれ以外の音源を見分けるための手掛かりが観測信号に含まれる。拡散性反射音を考慮して信号処理することで(具体的には伝達特性を用いることに対応)、狭間隔に音源が配置されていたとしても音源の位置を推定することが可能になる。
<Effect>
By observing the sound by generating a diffuse reflection sound, the observation signal includes a clue for distinguishing the target sound from other sound sources even if the sound sources are arranged at narrow intervals. By performing signal processing in consideration of diffusive reflected sound (specifically, using transfer characteristics), it is possible to estimate the position of the sound source even if the sound sources are arranged at narrow intervals.
<変形例>
AD変換処理(s5)や周波数領域変換処理(s7)は、マイクロホン110−mの内部で行われてもよい。その場合、AD変換部120や周波数領域変換部130は、マイクロホン110−m内に設けられる構成となる。
<Modification>
The AD conversion process (s5) and the frequency domain conversion process (s7) may be performed inside the microphone 110-m. In that case, the
<第二実施形態に係る音源位置推定装置3>
第一実施形態と異なる部分についてのみ説明する。
<Sound source position estimation apparatus 3 according to the second embodiment>
Only parts different from the first embodiment will be described.
第二実施形態では、c)ビームフォーマ法により、音源位置を推定する。ビームフォーマ法は、多数のビームフォーマを用意して、空間を走査することにより、音源位置を推定する方式である。 In the second embodiment, c) the sound source position is estimated by the beamformer method. The beam former method is a method of estimating a sound source position by preparing a large number of beam formers and scanning a space.
図5は音源位置推定装置3の機能ブロック図を、図6はその処理フローを示す。 FIG. 5 is a functional block diagram of the sound source position estimating apparatus 3, and FIG.
音源位置推定装置3は、M個のマイクロホン110−mと、反射手段200と、AD変換部120と、周波数領域変換部130と、伝達特性記憶部210と、拡散センシング部330と、音源位置推定部160とを含む。拡散センシング部330は、フィルタ計算部340と、空間スペクトル計算部350とを含む。なお、拡散センシング部330における処理(s32)の概要は、拡散センシング部220における処理(s8)と同様であり、その詳細が異なる。第一実施形態とは異なるフィルタ計算部340及び空間スペクトル計算部350について詳細を説明する。
The sound source position estimation device 3 includes M microphones 110-m, a
<フィルタ計算部340>
フィルタ計算部340は、伝達特性記憶部210から取り出しておいたN×Ω個の伝達特性a-(ω,r- n)から空間を走査するためのフィルタw-(ω,r- n)=[W1(ω,r- n),…,WM(ω,r- n)]Tを、周波数ω毎、走査する位置毎(言い換えると、想定位置r- n毎)に計算し(s33)、空間スペクトル計算部350に出力する。フィルタの設計法は様々あるが、本実施形態では、a)遅延和法とb)最小分散法とについて説明する。
<Filter calculation unit 340>
Filter calculation unit 340, had been taken out from the transfer characteristic storage unit 210 N × Omega number of transfer characteristics a - (ω, r - n ) filter to scan the space from the w - (ω, r - n ) = [W 1 (ω, r - n), ..., W M (ω, r - n)] and T, each frequency omega, (in other words, assuming the position r - each n) each position of scanning computed (s33 ) And output to the spatial spectrum calculation unit 350. Although there are various filter design methods, in this embodiment, a) the delay sum method and b) the minimum variance method will be described.
a)遅延和法では、以下のように、想定位置r- nにある音を強調するコストでフィルタw-(ω,r- n)が設計される。 In a) delay and sum method, as follows, assuming the position r - filter emphasizing cost sound in the n w - (ω, r - n) is designed.
b)最小分散無歪応答法(MVDR method;minimum variance distortion response method)では、以下のように、想定位置r- nにある音を強調しつつ、雑音のエネルギーを最小化するコストで設計される。 b) The minimum variance distortion response method (MVDR method) is designed at the cost of minimizing noise energy while emphasizing the sound at the assumed position r - n as follows: .
他にも様々なフィルタ設計法があるが、任意の方式を用いてフィルタを設計して良い。 There are various other filter design methods, but the filter may be designed using any method.
なお、フィルタw-(ω,r- n)は、伝達特性a-(ω,r- n)の測定後、空間スペクトル計算部350における処理を行うまでに計算すればよい。 The filter w - (ω, r - n ) , the transfer characteristics a - (ω, r - n ) After measurement of the may be calculated until the processing in the spatial spectrum calculation section 350.
<空間スペクトル計算部350>
空間スペクトル計算部350は、N×Ω個のフィルタw-(ω,r- n)とΩ個の観測信号X-(ω,τ)とを受け取り、次式のように、フィルタw-(ω,r- n)と観測信号X-(ω,τ)とを畳み込み、空間スペクトルPBF(ω,τ,r- n)を計算し(s35)、音源位置推定部160に出力する。
<Spatial spectrum calculation unit 350>
The spatial spectrum calculation unit 350 receives N × Ω filters w − (ω, r − n ) and Ω observation signals X − (ω, τ), and filters w − (ω , r − n ) and the observation signal X − (ω, τ) are convolved to calculate a spatial spectrum P BF (ω, τ, r − n ) (s35) and output to the sound source
なお、本実施形態では、この空間スペクトルPBF(ω,τ,r- n)を、想定位置に推定対象の音源が存在している可能性が高さを表す指標として用いる。よって、音源位置推定部160では、ミュージックスペクトルPMUSIC(ω,τ,r- n)に代えて、空間スペクトルPBF(ω,τ,r- n)を用いて、同様の処理を行う。
In the present embodiment, this spatial spectrum P BF (ω, τ, r − n ) is used as an index representing the high possibility that the estimation target sound source is present at the assumed position. Therefore, the sound source
このような構成により第一実施形態と同様の効果を得ることができる。 With this configuration, the same effect as that of the first embodiment can be obtained.
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<Other variations>
The present invention is not limited to the above-described embodiments and modifications. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. In addition, it can change suitably in the range which does not deviate from the meaning of this invention.
<プログラム及び記録媒体>
上述した音源位置推定装置は、コンピュータにより機能させることもできる。この場合はコンピュータに、目的とする装置(各種実施形態で図に示した機能構成をもつ装置)として機能させるためのプログラム、またはその処理手順(各実施形態で示したもの)の各過程をコンピュータに実行させるためのプログラムを、CD−ROM、磁気ディスク、半導体記憶装置などの記録媒体から、あるいは通信回線を介してそのコンピュータ内にダウンロードし、そのプログラムを実行させればよい。
<Program and recording medium>
The above-described sound source position estimation apparatus can be functioned by a computer. In this case, each process of a program for causing a computer to function as a target device (a device having the functional configuration shown in the drawings in various embodiments) or a process procedure (shown in each embodiment) is processed by the computer. A program to be executed by the computer may be downloaded from a recording medium such as a CD-ROM, a magnetic disk, or a semiconductor storage device or via a communication line into the computer, and the program may be executed.
Claims (5)
複数個のマイクロホンと、
音を反射可能な素材により作成され、推定対象の音源の複数の想定位置のそれぞれから発せられる音に対して、各マイクホロンにおいて1つ以上の反射音が収音できるように、前記複数個のマイクロホンの近傍に配置された反射手段と、
推定対象の音源の複数の想定位置から前記複数個のマイクロホンまでの、前記反射手段により生ずる反射音の影響を含む伝達特性が格納される伝達特性記憶部と、
前記複数個のマイクロホンから得られる周波数領域の観測信号と、前記複数の想定位置に対応する前記伝達特性とを用いて、前記想定位置に推定対象の音源が存在している可能性の高さを表す指標を求める拡散センシング部と、
推定対象の音源が存在している可能性が高いことを表す指標に対応する位置を推定対象の音源の位置として推定する音源位置推定部と、を含み、
前記複数の想定位置同士が狭い角度差及び距離で配置されている、
音源位置推定装置。 There are multiple sound sources to be estimated, and the sound sources to be estimated are arranged with a narrow angle difference and distance,
A plurality of microphones;
A plurality of the plurality of reflected sounds can be collected in each microphone holon with respect to the sound generated from each of a plurality of assumed positions of the sound source to be estimated. Reflection means arranged in the vicinity of the microphone;
A transfer characteristic storage unit that stores transfer characteristics including the influence of reflected sound generated by the reflecting means from a plurality of assumed positions of a sound source to be estimated to the plurality of microphones;
Using the frequency domain observation signals obtained from the plurality of microphones and the transfer characteristics corresponding to the plurality of assumed positions, it is possible to increase the possibility that a sound source to be estimated exists at the assumed positions. A diffuse sensing unit for obtaining an index to represent,
It is seen including a sound source position estimating section for estimating a position at which the estimation target sound source corresponds to the index indicating the high possibility to be present as the estimated position of the target sound source, and
The plurality of assumed positions are arranged with a narrow angle difference and distance,
Sound source position estimation device.
前記反射手段は、反射回数が多くなる形状である、 The reflection means has a shape that increases the number of reflections.
音源位置推定装置。 Sound source position estimation device.
前記反射手段は、 The reflecting means is
(i)十二面体の一面を開口面とした形状、 (i) a shape having one surface of the dodecahedron as an opening surface;
(ii)二十面体の一面を開口面とした形状、 (ii) a shape having one surface of an icosahedron as an opening surface;
(iii)菱形十二面体に開口部を設けた形状、 (iii) a shape having an opening in a rhomboid dodecahedron,
(iv)球体に開口部を設けた形状、 (iv) a shape in which an opening is provided in a sphere,
(v)八面体の頂点の一つを切り取って開口部を設けた形状、 (v) a shape in which one of the vertices of the octahedron is cut out to provide an opening,
の何れかである、 Either
音源位置推定装置。 Sound source position estimation device.
前記拡散センシング部は、
前記観測信号を用いて、空間相関行列を計算し、この空間相関行列を固有分解し、推定対象の音源に起因する成分が含まれていない固有ベクトルと固有値とから雑音の空間相関行列を求める雑音空間相関行列計算部と、
前記複数の想定位置に対応する前記伝達特性と前記雑音の空間相関行列とから、前記指標としてミュージックスペクトルを計算するミュージックスペクトル計算部と、を含む、
音源位置推定装置。 The sound source position estimation device according to any one of claims 1 to 3 ,
The diffusion sensing unit is
A noise space in which a spatial correlation matrix is calculated using the observed signal, a spatial correlation matrix is calculated, and the spatial correlation matrix is eigendecomposed to obtain a noise spatial correlation matrix from eigenvectors and eigenvalues that do not include components derived from the sound source to be estimated A correlation matrix calculator,
A music spectrum calculation unit for calculating a music spectrum as the index from the transfer characteristics corresponding to the plurality of assumed positions and the spatial correlation matrix of the noise,
Sound source position estimation device.
前記拡散センシング部は、
前記伝達関数を用いて空間を走査するためのフィルタを計算するフィルタ計算部と、
前記フィルタと前記観測信号とを畳み込み、前記指標として、空間スペクトルを計算する空間スペクトル計算部と、を含む、
音源位置推定装置。 The sound source position estimation device according to any one of claims 1 to 3 ,
The diffusion sensing unit is
A filter calculation unit for calculating a filter for scanning the space using the transfer function;
A spatial spectrum calculation unit that convolves the filter and the observation signal and calculates a spatial spectrum as the index,
Sound source position estimation device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012239919A JP5997007B2 (en) | 2012-10-31 | 2012-10-31 | Sound source position estimation device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012239919A JP5997007B2 (en) | 2012-10-31 | 2012-10-31 | Sound source position estimation device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014090353A JP2014090353A (en) | 2014-05-15 |
JP5997007B2 true JP5997007B2 (en) | 2016-09-21 |
Family
ID=50791934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012239919A Expired - Fee Related JP5997007B2 (en) | 2012-10-31 | 2012-10-31 | Sound source position estimation device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5997007B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200088119A (en) * | 2019-01-14 | 2020-07-22 | 한국과학기술원 | System and method for localization for non-line of sight sound source using diffraction aware |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104360309B (en) * | 2014-11-28 | 2017-03-01 | 北京智谷睿拓技术服务有限公司 | Moving sound information determines method and determines device, user equipment |
CN104360308B (en) * | 2014-11-28 | 2017-03-01 | 北京智谷睿拓技术服务有限公司 | Moving sound information determines method and determines device, user equipment |
CN108292508B (en) * | 2015-12-02 | 2021-11-23 | 日本电信电话株式会社 | Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and recording medium |
CN112858999B (en) * | 2020-12-25 | 2023-04-07 | 清华大学 | Multi-sound-source positioning method and device, electronic equipment and storage medium |
CN113917395A (en) * | 2021-09-30 | 2022-01-11 | 清华大学 | A sound source localization method, device and electronic device based on reflection surface expansion |
CN114089279A (en) * | 2021-10-15 | 2022-02-25 | 浙江工业大学 | Sound target positioning method based on uniform concentric circle microphone array |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4195267B2 (en) * | 2002-03-14 | 2008-12-10 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Speech recognition apparatus, speech recognition method and program thereof |
JP3999689B2 (en) * | 2003-03-17 | 2007-10-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Sound source position acquisition system, sound source position acquisition method, sound reflection element for use in the sound source position acquisition system, and method of forming the sound reflection element |
KR100936684B1 (en) * | 2005-01-13 | 2010-01-13 | 후지쯔 가부시끼가이샤 | Sound receiver |
US10037357B1 (en) * | 2010-08-17 | 2018-07-31 | Google Llc | Selecting between global and location-specific search results |
JP5486694B2 (en) * | 2010-12-21 | 2014-05-07 | 日本電信電話株式会社 | Speech enhancement method, apparatus, program, and recording medium |
-
2012
- 2012-10-31 JP JP2012239919A patent/JP5997007B2/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200088119A (en) * | 2019-01-14 | 2020-07-22 | 한국과학기술원 | System and method for localization for non-line of sight sound source using diffraction aware |
KR102174598B1 (en) | 2019-01-14 | 2020-11-05 | 한국과학기술원 | System and method for localization for non-line of sight sound source using diffraction aware |
Also Published As
Publication number | Publication date |
---|---|
JP2014090353A (en) | 2014-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5997007B2 (en) | Sound source position estimation device | |
TWI556654B (en) | Apparatus and method for deriving a directional information and systems | |
TWI530201B (en) | Sound acquisition via the extraction of geometrical information from direction of arrival estimates | |
Mohan et al. | Localization of multiple acoustic sources with small arrays using a coherence test | |
US9689959B2 (en) | Method, apparatus and computer program product for determining the location of a plurality of speech sources | |
Kotus et al. | Detection and localization of selected acoustic events in acoustic field for smart surveillance applications | |
EP2774143B1 (en) | Computationally efficient broadband filter-and-sum array focusing | |
US20110317522A1 (en) | Sound source localization based on reflections and room estimation | |
US20090034756A1 (en) | System and method for extracting acoustic signals from signals emitted by a plurality of sources | |
Ginn et al. | Noise source identification techniques: simple to advanced applications | |
JP6420402B2 (en) | Sound collector | |
Talagala et al. | Binaural sound source localization using the frequency diversity of the head-related transfer function | |
CN104931928B (en) | A kind of signal source localization method and device | |
US11830471B1 (en) | Surface augmented ray-based acoustic modeling | |
KR101086304B1 (en) | Apparatus and method for removing echo signals generated by robot platform | |
CN103235286A (en) | A high-precision positioning method for electrical noise sources | |
Dang et al. | A feature-based data association method for multiple acoustic source localization in a distributed microphone array | |
KR20090128221A (en) | Sound source location estimation method and system according to the method | |
Dang et al. | An iteratively reweighted steered response power approach to multisource localization using a distributed microphone network | |
Su et al. | Acoustic imaging using a 64-node microphone array and beamformer system | |
JP6650245B2 (en) | Impulse response generation device and program | |
KR101483271B1 (en) | Method for Determining the Representative Point of Cluster and System for Sound Source Localization | |
Townsend | Enhancements to the generalized sidelobe canceller for audio beamforming in an immersive environment | |
Zhao et al. | Large-region acoustic source mapping using a movable array and sparse covariance fitting | |
US9800973B1 (en) | Sound source estimation based on simulated sound sensor array responses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150217 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160122 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160330 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160825 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5997007 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |