JP2018191255A - 収音装置、その方法、及びプログラム - Google Patents
収音装置、その方法、及びプログラム Download PDFInfo
- Publication number
- JP2018191255A JP2018191255A JP2017094927A JP2017094927A JP2018191255A JP 2018191255 A JP2018191255 A JP 2018191255A JP 2017094927 A JP2017094927 A JP 2017094927A JP 2017094927 A JP2017094927 A JP 2017094927A JP 2018191255 A JP2018191255 A JP 2018191255A
- Authority
- JP
- Japan
- Prior art keywords
- matrix
- correlation matrix
- target sound
- estimated value
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】MVDR法をもちいて従来よりも精度良くターゲット音を取り出すことができる収音装置等を提供する。【解決手段】収音装置は、Nチャネルの周波数領域のマイクロホン信号を用いて周波数毎に空間相関行列を算出し、空間相関行列からK個の方向からの到来波の強度の推定値及び各マイクロホン信号に含まれるノイズパワーの推定値を求め、ターゲット音の到来方向の推定値ktを求め、K個のベクトルak(f)とN×N単位行列からなる行列A(f)Hと、強度の推定値とノイズパワーの推定値を対角成分とする対角行列の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて、ターゲット音の相関行列の推定値と非ターゲット音の相関行列の推定値とを求め、相関行列の推定値を用いてフィルタ係数ベクトルを求め、マイクロホン信号にフィルタ係数ベクトルを適用し、出力信号を求める。【選択図】図2
Description
本発明は、複数のマイクロホンを用いてビームを形成するビームフォーミング技術を用いた収音装置、その方法、及びプログラムに関する。
複数のマイクロホンを音場に設置してマルチチャネルのマイクロホン信号を取得し、そこからターゲットとする音声や音(以下、ターゲット音ともいう)をクリアに、ノイズやその他音声(以下、非ターゲット音ともいう)をできる限り取り除いて、取り出す技術のニーズが近年高まっている。そのために、複数のマイクロホンをもちいてビームを形成するビームフォーミング技術が近年さかんに研究開発されている。
ビームフォーミング技術では、図1のようにN個のマイクロホン91−n(ただし、n=1,2,…,N)で収音した各マイクロホン信号yn(t)にフィルタリング部92−nにおいてフィルタを適用する。なお、tは時刻を示すインデックスである。次に、加算部93においてフィルタリング部92−nの出力値の総和をとる。求めた総和を収音装置の出力信号z(t)として出力する。このような構成により雑音を大幅に減らし、ターゲット音をより明瞭に取り出すことができる。このようなビームフォーミングのフィルタを求める方法として、minimum variance distortionless response法(MVDR法)がよく使われる(非特許文献1参照)。
Habets, E., Benesty, J., Cohen, I., Gannot, S., Dmochowski, J., "New Insights Into the MVDR Beamformer in Room Acoustics", IEEE Transactions on Audio, Speech, and Language Processing, 18, 1, pp. 158 - 170, 2010.
MVDR法をもちいるためには、ターゲット音以外の音(非ターゲット音)の相関行列およびターゲット音の音源位置から各マイクロホンまでの伝達特性を適切に推定する必要がある。しかしながら、複数のマイクロホン信号には、そもそもターゲット音に由来する成分と非ターゲット音に由来する成分が混在しており、そのままでは所望の相関行列と伝達特性をとりだすことができない。そのため、MVDR法単独では、マイクロホン信号のみからターゲット音声をクリアに取り出せない。
そこで本発明では、ターゲット音と非ターゲット音の混在するマイクロホン信号から、それぞれの相関行列を推定し、MVDR法をもちいてターゲット音を取り出す収音装置、その方法、及びプログラムを提供することを目的とする。
上記の課題を解決するために、本発明の一態様によれば、収音装置は、N及びKをそれぞれ2以上の整数の何れかとし、n=1,2,…,N、k=1,2,…,Kとし、Nチャネルの周波数領域のマイクロホン信号Yn(f,l)を用いて周波数毎に空間相関行列R(f,l)を算出し、空間相関行列R(f,l)からK個の方向からの到来波の強度の推定値pk(f,l)及び各マイクロホン信号Yn(f,l)に含まれるノイズパワーの推定値qn(f,l)を求める到来波分解部と、ターゲット音の到来方向の推定値ktを求めるターゲット音判定部と、N個のマイクロホンからなるマイクロホンアレーにk番目の方向から振幅1の平面波が到達したときのマイクロホンアレーの出力信号からなるベクトルをak(f)とし、K個のベクトルak(f)とN×N単位行列INからなる行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、強度の推定値pk(f,l)とノイズパワーの推定値qn(f,l)を対角成分とする対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)とを求める相関行列合成部と、相関行列の推定値R^T(f,l)及びR^NT(f,l)を用いてフィルタ係数ベクトルh(f,l)を求め、マイクロホン信号Yn(f,l)にフィルタ係数ベクトルh(f,l)を適用し、出力信号z(f,l)を求めるアレーフィルタリング部と、を含む。
上記の課題を解決するために、本発明の他の態様によれば、収音方法は、N及びKをそれぞれ2以上の整数の何れかとし、n=1,2,…,N、k=1,2,…,Kとし、Nチャネルの周波数領域のマイクロホン信号Yn(f,l)を用いて周波数毎に空間相関行列R(f,l)を算出し、空間相関行列R(f,l)からK個の方向からの到来波の強度の推定値pk(f,l)及び各マイクロホン信号Yn(f,l)に含まれるノイズパワーの推定値qn(f,l)を求める到来波分解ステップと、ターゲット音の到来方向の推定値ktを求めるターゲット音判定ステップと、N個のマイクロホンからなるマイクロホンアレーにk番目の方向から振幅1の平面波が到達したときのマイクロホンアレーの出力信号からなるベクトルをak(f)とし、K個のベクトルak(f)とN×N単位行列INからなる行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、強度の推定値pk(f,l)とノイズパワーの推定値qn(f,l)を対角成分とする対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)とを求める相関行列合成ステップと、相関行列の推定値R^T(f,l)及びR^NT(f,l)を用いてフィルタ係数ベクトルh(f,l)を求め、マイクロホン信号Yn(f,l)にフィルタ係数ベクトルh(f,l)を適用し、出力信号z(f,l)を求めるアレーフィルタリングステップと、を含む。
本発明によれば、MVDR法をもちいて従来よりも精度良くターゲット音を取り出すことができるという効果を奏する。
以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、テキスト中で使用する記号「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。また、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態>
図2は第一実施形態に係る収音装置100の機能ブロック図を、図3はその処理フローを示す。
図2は第一実施形態に係る収音装置100の機能ブロック図を、図3はその処理フローを示す。
本実施形態の収音装置100は、N個のマイクロホン91−nからなるマイクロホンアレイの出力信号(マイクロホン信号)yn(t)を入力とする。例えば、マイクロホン91−nは、無指向性マイクロホン素子からなる。Nは2以上の整数の何れかであり、n=1,2,…,Nである。本実施形態の収音装置100は、そのNチャネルのマイクロホン信号yn(t)から非ターゲット音の相関行列の推定値R^NT(f,l)をとりだし、MVDR法によりターゲット音の成分を抽出し、抽出した信号を出力信号z(t)として出力する。
収音装置100は、CPUと、RAMと、以下の処理を実行するためのプログラムを記録したROMを備えたコンピュータで構成され、機能的には次に示すように構成されている。
収音装置100は、ノイズ・到来波分解部101、ターゲット音判定部103、相関行列合成部104、アレーフィルタリング部105、フーリエ変換部107及び逆フーリエ変換部108を含む。
<フーリエ変換部107>
フーリエ変換部107は、Nチャネルの時間領域のマイクロホン信号yn(t)を入力とし、フレームl(エル)毎に周波数領域のマイクロホン信号Yn(f,l)に短時間フーリエ変換し(S107)、出力する。その周波数f、フレームlでの変換結果を
フーリエ変換部107は、Nチャネルの時間領域のマイクロホン信号yn(t)を入力とし、フレームl(エル)毎に周波数領域のマイクロホン信号Yn(f,l)に短時間フーリエ変換し(S107)、出力する。その周波数f、フレームlでの変換結果を
のようにベクトル化して扱う。なお、Nチャネルの周波数領域のマイクロホン信号Yn(f,l)からなるマイクロホン信号y(f,l)は、
y(f,l)=x(f,l)+v(f,l)
のようにターゲット音の直接波からなるマルチチャネル信号x(f,l)と、その反射及び残響成分と雑音からなるマルチチャネル信号v(f,l)とに分解される。
y(f,l)=x(f,l)+v(f,l)
のようにターゲット音の直接波からなるマルチチャネル信号x(f,l)と、その反射及び残響成分と雑音からなるマルチチャネル信号v(f,l)とに分解される。
<ノイズ・到来波分解部101>
ノイズ・到来波分解部101は、周波数領域のマイクロホン信号y(f,l)を入力とし、周波数f、フレームlにおけるマイクロホン信号y(f,l)を用いて、その空間相関行列R(f,l)を算出する。例えば、次式により算出する。
R(f,l)=E[y(f,l)y(f,l)H] (2)
ノイズ・到来波分解部101は、周波数領域のマイクロホン信号y(f,l)を入力とし、周波数f、フレームlにおけるマイクロホン信号y(f,l)を用いて、その空間相関行列R(f,l)を算出する。例えば、次式により算出する。
R(f,l)=E[y(f,l)y(f,l)H] (2)
ただしE[ ]は期待値をとることを意味する。また、y(f,l)Hは、y(f,l)を転置し複素共役をとったベクトルである。実際の処理では通常E[ ]の代わりに短時間平均を用いる。そして、空間相関行列R(f,l)からK個の方向からの到来波の強度の推定値pk(f,l)及び各マイクロホン信号Yn(f,l)に含まれるノイズパワーの推定値qn(f,l)を求め(S101)、pk(f,l)及びqn(f,l)を対角成分とする対角行列V(f,l)を出力する。ただし、kを到来方向のインデックスとし、平面波の到来可能方向としてK方向を想定し、k=1,2,…,Kとする。よって、対角行列V(f,l)は、以下のように表される。
なおK>Nである。強度の推定値pk(f,l)及びノイズパワーの推定値qn(f,l)の推定方法として、例えば、参考文献1の方法をもちいることができる。
(参考文献1)P. Stoica, P. Babu, and J. Li, "SPICE A sparse covariance-based estimation method for array processing", IEEE Transactions on signal processing, vol. 59, no. 2, 2011, 629-638.
(参考文献1)P. Stoica, P. Babu, and J. Li, "SPICE A sparse covariance-based estimation method for array processing", IEEE Transactions on signal processing, vol. 59, no. 2, 2011, 629-638.
この方法では、あらかじめ平面波の到来可能方向としてK方向(>N)を想定する。周波数fにおいて、k番目の方向から振幅1の平面波がマイクロホンアレイに到達したとき、その各マイクロホンのレスポンス(出力信号)をak(f)=[ak,1(f) ak,2(f) … ak,N(f)]Tとする。ak,n(f)は、周波数fにおいて、k番目の方向からの到来する振幅1の平面波に対するn番目のマイクロホンのレスポンス(出力信号)を表す。なお、ak(f)は、収音に先立ち予め求めておく。だだし、ak(f)は、実験(実測)やシミュレーションにより予め求めてもよいし、計算による理論値を用いてもよい。K個のレスポンスベクトルak(f)とN×N単位行列INからなる行列
A(f)H=[a1(f) a2(f) … aK(f) IN] (3)
を用いて、参考文献1では
R(f,l)=A(f)HV(f,l)A(f) (4)
の形に行列R(f,l)を行列A(f)H、対角行列V(f,l)と行列A(f)の積に分解する。この分解により、対角行列V(f,l)に含まれるk番目の方向からの平面波の強度の推定値pk(f,l)と、n番目のマイクロホン91−nのノイズパワーの推定値qn(f,l)とが得られる。なお実際には、上記の分解は、
||(A(f)HV(f,l)A(f))-1/2(R(f,l)-A(f)HV(f,l)A(f))R(f,l)-1/2||2 (5)
を最小にする対角行列V(f,l)を求めることに対応する。なお、この式(5)で||x||は行列xのフロベニウスノルムをとることを意味する。
A(f)H=[a1(f) a2(f) … aK(f) IN] (3)
を用いて、参考文献1では
R(f,l)=A(f)HV(f,l)A(f) (4)
の形に行列R(f,l)を行列A(f)H、対角行列V(f,l)と行列A(f)の積に分解する。この分解により、対角行列V(f,l)に含まれるk番目の方向からの平面波の強度の推定値pk(f,l)と、n番目のマイクロホン91−nのノイズパワーの推定値qn(f,l)とが得られる。なお実際には、上記の分解は、
||(A(f)HV(f,l)A(f))-1/2(R(f,l)-A(f)HV(f,l)A(f))R(f,l)-1/2||2 (5)
を最小にする対角行列V(f,l)を求めることに対応する。なお、この式(5)で||x||は行列xのフロベニウスノルムをとることを意味する。
<ターゲット音判定部103>
ターゲット音判定部103は、ターゲット音の到来方向の推定値ktを求め(S103)、出力する。例えば、ターゲット音判定部103は、対角行列V(f,l)を入力とし、対角行列V(f,l)に含まれる各到来方向kの強度の推定値pk(f,l)を用いて、強度が最も大きい方向をターゲット音の到来方向と判定し(S103)、判定結果(到来方向の推定値)ktを出力する。この例では、ターゲット音判定部103は、音声パワーが集中している帯域100〜500Hzの強度の推定値pk(f,l)を用いてターゲット音の到来方向の推定値ktを求める。この帯域で各到来方向kの強度は
ターゲット音判定部103は、ターゲット音の到来方向の推定値ktを求め(S103)、出力する。例えば、ターゲット音判定部103は、対角行列V(f,l)を入力とし、対角行列V(f,l)に含まれる各到来方向kの強度の推定値pk(f,l)を用いて、強度が最も大きい方向をターゲット音の到来方向と判定し(S103)、判定結果(到来方向の推定値)ktを出力する。この例では、ターゲット音判定部103は、音声パワーが集中している帯域100〜500Hzの強度の推定値pk(f,l)を用いてターゲット音の到来方向の推定値ktを求める。この帯域で各到来方向kの強度は
になる。この例では、f0は100Hz、f1は500Hzに相当する。b(k,l)を最大にするkを、フレームlでのターゲット音の到来方向ktと判定する。方向ktからの到来波をターゲット音と見做し、kt以外の方向からの到来波を非ターゲット音と見做す。
<相関行列合成部104>
相関行列合成部104は、対角行列V(f,l)及び到来方向の推定値ktを入力とし、行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)(対角行列V(f,l)に含まれるK個のpk(f,l)のうち、(kt,kt)の要素以外の要素を全て0にした行列であり、ターゲット音の到来方向(の推定値)から到来する音の強度(の推定値)のみを残し、他の要素を0とした行列Vs(f,l))とを用いて、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)を求め(S104)、出力する。なお、前述の通り、ak(f)は、収音に先立ち予め求めておく。
相関行列合成部104は、対角行列V(f,l)及び到来方向の推定値ktを入力とし、行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)(対角行列V(f,l)に含まれるK個のpk(f,l)のうち、(kt,kt)の要素以外の要素を全て0にした行列であり、ターゲット音の到来方向(の推定値)から到来する音の強度(の推定値)のみを残し、他の要素を0とした行列Vs(f,l))とを用いて、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)を求め(S104)、出力する。なお、前述の通り、ak(f)は、収音に先立ち予め求めておく。
例えば、相関行列合成部104は、次式により、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)とを求める。
R^T(f,l)=A(f)HVs(f,l)A(f)
R^NT(f,l)=A(f)H(V(f,l)-Vs(f,l))A(f) (7)
R^T(f,l)=A(f)HVs(f,l)A(f)
R^NT(f,l)=A(f)H(V(f,l)-Vs(f,l))A(f) (7)
<アレーフィルタリング部105>
アレーフィルタリング部105は、周波数領域のマイクロホン信号y(f,l)、ターゲット音の相関行列の推定値R^T(f,l)及び非ターゲット音の相関行列の推定値R^NT(f,l)を入力とする。
アレーフィルタリング部105は、周波数領域のマイクロホン信号y(f,l)、ターゲット音の相関行列の推定値R^T(f,l)及び非ターゲット音の相関行列の推定値R^NT(f,l)を入力とする。
まず、ターゲット音の相関行列の推定値R^T(f,l)及び非ターゲット音の相関行列の推定値R^NT(f,l)を用いてフィルタ係数ベクトル(N次元複素数ベクトル)h(f,l)を求める。例えば、推定された相関行列の推定値R^NT(f,l)をもとにMVDR法をもちいて、フィルタ係数ベクトルを求める。MVDR法は、次の拘束条件つき最適化問題を解いて、そのフィルタ係数ベクトルh(f,l)を求める。
ここでg(d)(f)はターゲット音の音源位置から各マイクロホンまでの直接経路の周波数伝達特性からなるベクトルである。g1 (d)(f)は、ターゲット音の音源位置からリファレンスとするマイクロホン91−1までの直接経路の周波数伝達特性である。なお、この例では、リファレンスとするマイクロホンをマイクロホン91−1としているが、他のマイクロホン91−2〜91−Nの何れかをリファレンスとしてもよい。
この拘束条件は、(ターゲット音の)音源信号S(f,l)およびターゲット音の音源からマイクロホン91−1に直接到達する信号成分X1 (d)(f,l)をもちいて書き換えることができる。なお、X1 (d)(f,l)=g1 (d)(f)S(f,l)である。
上記の拘束条件式に、右からS(f,l)X1 (d)*(f,l)をかけて、期待値をとる。ただし、上付き添え字*は複素共役をとることを意味する。書き換えられた拘束条件は
hH(f,l)E[x(d)(f,l)X1 (d)*(f,l)]=E[X1 (d)(f,l)X1 (d)*(f,l)] (9)
になる。ただしx(d)(f,l)は、ターゲット音の音源から各マイクロホンに直接到達する信号成分のベクトルである。
hH(f,l)E[x(d)(f,l)X1 (d)*(f,l)]=E[X1 (d)(f,l)X1 (d)*(f,l)] (9)
になる。ただしx(d)(f,l)は、ターゲット音の音源から各マイクロホンに直接到達する信号成分のベクトルである。
ここで、式(9)の左辺のE[ ]は、ターゲット音の相関行列の推定値R^T(f,l)の第1縦ベクトルになっている。また右辺のE[ ]は、ターゲット音の相関行列の推定値R^T(f,l)の(1,1)要素になっている。ターゲット音の音源信号S(f,l)やターゲット音の音源から各マイクロホンまでの周波数伝達特性g(d)(f)は未知である。しかし上記の期待値をとる統計的手続きによって、新しい拘束条件の係数は、ターゲット音の相関行列の推定値R^T(f,l)から求めることが可能になっている。
アレーフィルタリング部105は、求めたフィルタ係数ベクトルh(f,l)をマイクロホン信号y(f,l)に適用し(次式参照)、出力信号z(f,l)を求め(S105)、出力する。
z(f,l)=hH(f,l)y(f,l) (15)
このような構成により、ターゲット音の周波数fの成分を取り出すことができる。
z(f,l)=hH(f,l)y(f,l) (15)
このような構成により、ターゲット音の周波数fの成分を取り出すことができる。
<逆フーリエ変換部108>
逆フーリエ変換部108は、周波数領域の出力信号z(f,l)を入力とし、全周波数での処理結果を短時間逆フーリエ変換し(S108)、時間領域の出力信号z(t)を得、出力する。
逆フーリエ変換部108は、周波数領域の出力信号z(f,l)を入力とし、全周波数での処理結果を短時間逆フーリエ変換し(S108)、時間領域の出力信号z(t)を得、出力する。
<効果>
以上の構成により、ターゲット音と非ターゲット音の混在するマイクロホン信号から、それぞれの相関行列を推定し、MVDR法をもちいてターゲット音を取り出すことができる。
以上の構成により、ターゲット音と非ターゲット音の混在するマイクロホン信号から、それぞれの相関行列を推定し、MVDR法をもちいてターゲット音を取り出すことができる。
<変形例>
本実施形態では、ノイズ・到来波分解部101からターゲット音判定部103へ対角行列V(f,l)を出力しているが、対角行列V(f,l)に含まれる強度の推定値pk(f,l)のみを出力する構成としてもよい。要は、ターゲット音判定部103において、ターゲット音の到来方向を判定することができればよい。
本実施形態では、ノイズ・到来波分解部101からターゲット音判定部103へ対角行列V(f,l)を出力しているが、対角行列V(f,l)に含まれる強度の推定値pk(f,l)のみを出力する構成としてもよい。要は、ターゲット音判定部103において、ターゲット音の到来方向を判定することができればよい。
本実施形態では、収音装置100は、フーリエ変換部107及び逆フーリエ変換部108を含む構成としているが、フーリエ変換部107及び逆フーリエ変換部108を別装置とし、収音装置100は、周波数領域のマイクロホン信号y(f,l)を入力してもよいし、周波数領域の出力信号z(f,l)を出力してもよい。
<第二実施形態>
第一実施形態と異なる部分を中心に説明する。
第一実施形態と異なる部分を中心に説明する。
図2は第二実施形態に係る収音装置200の機能ブロック図を、図3はその処理フローを示す。
収音装置200は、ノイズ・到来波分解部101、強度補正部202(図2中、破線で示す)、ターゲット音判定部103、相関行列合成部204、アレーフィルタリング部105、フーリエ変換部107及び逆フーリエ変換部108を含む。
<強度補正部202>
強度補正部202は、対角行列V(f,l)を入力とし、空間相関行列R(f,l)の総信号パワーと、行列A(f)H=[a1(f) a2(f) … aK(f) IN]と対角行列V(f,l)とから得られる総信号パワーとから補正係数β(f,l)を求め(S202、図3中、破線で示す)、出力する。
強度補正部202は、対角行列V(f,l)を入力とし、空間相関行列R(f,l)の総信号パワーと、行列A(f)H=[a1(f) a2(f) … aK(f) IN]と対角行列V(f,l)とから得られる総信号パワーとから補正係数β(f,l)を求め(S202、図3中、破線で示す)、出力する。
例えば、強度補正部202では、次式により補正係数β(f,l)を求める。
ただしtr()は行列のトレースをとる関数である。例えば、空間相関行列R(f,l)はノイズ・到来波分解部101で算出したものを用いればよく、行列A(f)Hは第一実施形態で説明した方法により収音に先立ち予め求めておいたものを用いればよい。
<相関行列合成部204>
相関行列合成部204は、空間相関行列R(f,l)と、補正係数β(f,l)と、対角行列V(f,l)及び到来方向の推定値ktとを入力とし、空間相関行列R(f,l)と、補正係数β(f,l)と、収音に先立ち予め求めておいた行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて相関行列の推定値R^NT(f,l)を求め(S204)、出力する。例えば、次式により相関行列の推定値R^NT(f,l)を求める。
R^NT(f,l)=R(f,l)-β(f,l)A(f)HVs(f,l)A(f)
なお、ターゲット音の相関行列の推定値R^T(f,l)については第一実施形態と同様の方法により求めることができる。
相関行列合成部204は、空間相関行列R(f,l)と、補正係数β(f,l)と、対角行列V(f,l)及び到来方向の推定値ktとを入力とし、空間相関行列R(f,l)と、補正係数β(f,l)と、収音に先立ち予め求めておいた行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて相関行列の推定値R^NT(f,l)を求め(S204)、出力する。例えば、次式により相関行列の推定値R^NT(f,l)を求める。
R^NT(f,l)=R(f,l)-β(f,l)A(f)HVs(f,l)A(f)
なお、ターゲット音の相関行列の推定値R^T(f,l)については第一実施形態と同様の方法により求めることができる。
<効果>
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、補正係数を用いることで、非ターゲット音の相関行列をより良く求めることができる。
このような構成とすることで、第一実施形態と同様の効果を得ることができる。さらに、補正係数を用いることで、非ターゲット音の相関行列をより良く求めることができる。
<その他の変形例>
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
また、上記の実施形態及び変形例で説明した各装置における各種の処理機能をコンピュータによって実現してもよい。その場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶部に格納する。そして、処理の実行時、このコンピュータは、自己の記憶部に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実施形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよい。さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、プログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、コンピュータ上で所定のプログラムを実行させることにより、各装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (5)
- N及びKをそれぞれ2以上の整数の何れかとし、n=1,2,…,N、k=1,2,…,Kとし、Nチャネルの周波数領域のマイクロホン信号Yn(f,l)を用いて周波数毎に空間相関行列R(f,l)を算出し、前記空間相関行列R(f,l)からK個の方向からの到来波の強度の推定値pk(f,l)及び各マイクロホン信号Yn(f,l)に含まれるノイズパワーの推定値qn(f,l)を求める到来波分解部と、
ターゲット音の到来方向の推定値ktを求めるターゲット音判定部と、
N個のマイクロホンからなるマイクロホンアレーにk番目の方向から振幅1の平面波が到達したときのマイクロホンアレーの出力信号からなるベクトルをak(f)とし、K個のベクトルak(f)とN×N単位行列INからなる行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、前記強度の推定値pk(f,l)と前記ノイズパワーの推定値qn(f,l)を対角成分とする対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)とを求める相関行列合成部と、
前記相関行列の推定値R^T(f,l)及びR^NT(f,l)を用いてフィルタ係数ベクトルh(f,l)を求め、前記マイクロホン信号Yn(f,l)に前記フィルタ係数ベクトルh(f,l)を適用し、出力信号z(f,l)を求めるアレーフィルタリング部と、を含む、
収音装置。 - 請求項1の収音装置であって、
前記空間相関行列R(f,l)の総信号パワーtr(R(f,l))と、前記行列A(f)H=[a1(f) a2(f) … aK(f) IN]と前記対角行列V(f,l)とから得られる総信号パワーtr(A(f)HV(f,l)A(f))とから補正係数β(f,l)を求める強度補正部を含み、
前記相関行列合成部では、前記空間相関行列R(f,l)と、前記補正係数β(f,l)と、前記行列A(f)Hと、前記行列Vs(f,l)とを用いて、前記相関行列の推定値R^NT(f,l)を求める、
収音装置。 - N及びKをそれぞれ2以上の整数の何れかとし、n=1,2,…,N、k=1,2,…,Kとし、Nチャネルの周波数領域のマイクロホン信号Yn(f,l)を用いて周波数毎に空間相関行列R(f,l)を算出し、前記空間相関行列R(f,l)からK個の方向からの到来波の強度の推定値pk(f,l)及び各マイクロホン信号Yn(f,l)に含まれるノイズパワーの推定値qn(f,l)を求める到来波分解ステップと、
ターゲット音の到来方向の推定値ktを求めるターゲット音判定ステップと、
N個のマイクロホンからなるマイクロホンアレーにk番目の方向から振幅1の平面波が到達したときのマイクロホンアレーの出力信号からなるベクトルをak(f)とし、K個のベクトルak(f)とN×N単位行列INからなる行列A(f)H=[a1(f) a2(f) … aK(f) IN]と、前記強度の推定値pk(f,l)と前記ノイズパワーの推定値qn(f,l)を対角成分とする対角行列V(f,l)の(kt,kt)の要素以外の要素を全て0にした行列Vs(f,l)とを用いて、ターゲット音の相関行列の推定値R^T(f,l)と非ターゲット音の相関行列の推定値R^NT(f,l)とを求める相関行列合成ステップと、
前記相関行列の推定値R^T(f,l)及びR^NT(f,l)を用いてフィルタ係数ベクトルh(f,l)を求め、前記マイクロホン信号Yn(f,l)に前記フィルタ係数ベクトルh(f,l)を適用し、出力信号z(f,l)を求めるアレーフィルタリングステップと、を含む、
収音方法。 - 請求項3の収音方法であって、
前記空間相関行列R(f,l)の総信号パワーtr(R(f,l))と、前記行列A(f)H=[a1(f) a2(f) … aK(f) IN]と前記対角行列V(f,l)とから得られる総信号パワーtr(A(f)HV(f,l)A(f))とから補正係数β(f,l)を求める強度補正ステップを含み、
前記相関行列合成ステップでは、前記空間相関行列R(f,l)と、前記補正係数β(f,l)と、前記行列A(f)Hと、前記行列Vs(f,l)とを用いて、前記相関行列の推定値R^NT(f,l)を求める、
収音方法。 - 請求項1または請求項2の収音装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017094927A JP2018191255A (ja) | 2017-05-11 | 2017-05-11 | 収音装置、その方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017094927A JP2018191255A (ja) | 2017-05-11 | 2017-05-11 | 収音装置、その方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018191255A true JP2018191255A (ja) | 2018-11-29 |
Family
ID=64479127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017094927A Pending JP2018191255A (ja) | 2017-05-11 | 2017-05-11 | 収音装置、その方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018191255A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
-
2017
- 2017-05-11 JP JP2017094927A patent/JP2018191255A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110838307A (zh) * | 2019-11-18 | 2020-02-25 | 苏州思必驰信息科技有限公司 | 语音消息处理方法及装置 |
CN110838307B (zh) * | 2019-11-18 | 2022-02-25 | 思必驰科技股份有限公司 | 语音消息处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6903611B2 (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
US20210089967A1 (en) | Data training in multi-sensor setups | |
JP5124014B2 (ja) | 信号強調装置、その方法、プログラム及び記録媒体 | |
JP4774100B2 (ja) | 残響除去装置、残響除去方法、残響除去プログラム及び記録媒体 | |
JP2002510930A (ja) | 多重非相関化法を用いた未知の混在ソースの分離 | |
JP6987075B2 (ja) | オーディオ源分離 | |
CN108172231A (zh) | 一种基于卡尔曼滤波的去混响方法及系统 | |
JP6594839B2 (ja) | 話者数推定装置、話者数推定方法、およびプログラム | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
JP2007526511A (ja) | 周波数領域で多重経路多チャネル混合信号のブラインド分離のための方法及びその装置 | |
JP6815956B2 (ja) | フィルタ係数算出装置、その方法、及びプログラム | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
JP2017083566A (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
CN115421099B (zh) | 一种语音波达方向估计方法及系统 | |
JP2019090930A (ja) | 音源強調装置、音源強調学習装置、音源強調方法、プログラム | |
JP6644356B2 (ja) | 音源分離システム、方法及びプログラム | |
US11676619B2 (en) | Noise spatial covariance matrix estimation apparatus, noise spatial covariance matrix estimation method, and program | |
JP6790659B2 (ja) | 音響処理装置および音響処理方法 | |
JP7270869B2 (ja) | 情報処理装置、出力方法、及び出力プログラム | |
JP6989031B2 (ja) | 伝達関数推定装置、方法及びプログラム | |
JP5498452B2 (ja) | 背景音抑圧装置、背景音抑圧方法、およびプログラム | |
CN113689869B (zh) | 语音增强方法、电子设备以及计算机可读存储介质 | |
Stern | Robust speech recognition | |
Zhang et al. | Fast Blind Source Separation Algorithm Based on Mutual Information Frequency Bin Screening and Time-domain Non-causal Components Truncation | |
WO2021100094A1 (ja) | 音源信号推定装置、音源信号推定方法、プログラム |