JP6822505B2

JP6822505B2 - 収音装置、収音プログラム及び収音方法

Info

Publication number: JP6822505B2
Application number: JP2019053617A
Authority: JP
Inventors: 一浩片桐
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2019-03-20
Filing date: 2019-03-20
Publication date: 2021-01-27
Anticipated expiration: 2039-03-20
Also published as: US11095979B2; JP2020155972A; US20200304907A1

Description

本発明は、収音装置、収音プログラム及び収音方法に関し、例えば特定のエリアの音を強調し、それ以外のエリアの音を抑圧するエリア収音処理に適用し得る。

従来、複数の音源が存在する環境下において、ある特定の方向の音のみ分離し収音する技術として、マイクロホンアレイを用いたビームフォーマ（ＢｅａｍＦｏｒｍｅｒ；以下、「ＢＦ」と呼ぶ）がある。ＢＦとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である（非特許文献１参照）。ＢＦは、加算型と減算型の大きく２つの種類に分けられる。特に減算型ＢＦは、加算型ＢＦに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。

図５は、マイクロホン数が２個の場合の減算型ＢＦ３００に係る構成を示すブロック図である。

図５に示す減算型ＢＦ３００は、遅延器３１０と減算器３２０とを有している。

減算型ＢＦ３００は、まず遅延器３１０により目的とする方向に存在する音（以下、「目的音」と呼ぶ）が各マイクロホンに到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は下記（１）式により算出される。ここで「ｄ」はマイクロホン間の距離であり、「ｃ」は音速であり、「τ_L」は遅延量である。また、ここで「θ_Ｌ」は、各マイクロホン（Ｍ１、Ｍ２）の間を結んだ直線に対する垂直方向から目的方向への角度である。
τ_Ｌ＝（ｄｓｉｎθ_Ｌ）／ｃ …（１）

ここで、死角がマイクロホンＭ１とマイクロホンＭ２の中心に対し、マイクロホンＭ１の方向に存在する場合、遅延器３１０は、マイクロホンＭ１の入力信号ｘ_１（ｔ）に対し遅延処理を行う。その後、減算型ＢＦ３００では、減算器３２０が（２）式に従い減算処理を行う。
ｍ（ｔ）＝ｘ_２（ｔ）−ｘ_１（ｔ−τ_Ｌ） …（２）

減算器３２０では、周波数領域でも同様に減算処理を行うことができ、その場合（２）式は以下（３）式のように変更される。

図６は、２個のマイクロホンＭ１、Ｍ２を用いた減算型ＢＦ３００により形成される指向特性を示す図である。

ここでθ_Ｌ＝±π／２の場合、減算器３２０で形成される指向性は図６（ａ）に示すように、カージオイド型の単一指向性となり、θ_Ｌ＝０，πの場合は、図６（ｂ）のような８の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。

また、減算器３２０では、スペクトル減算法（ＳｐｅｃｔｒａｌＳｕｂｔｒａｃｔｉｏｎ；以下単に「ＳＳ」とも呼ぶ）を用いることで、双指向性の死角に強い指向性を形成することもできる。ＳＳによる指向性は、（４）式に従い全周波数、又は指定した周波数帯域で形成される。（４）式では、マイクロホンＭ１の入力信号Ｘ_１を用いているが、マイクロホンＭ２の入力信号Ｘ_２でも同様の効果を得ることができる。ここでβはＳＳの強度を調節するための係数である。

減算器３２０では、減算処理時に値がマイナスになった場合は、０または元の値を小さくした値に置き換える処理（フロアリング処理）を行う。この方式により、減算器３２０では、双指向性フィルタにより目的方向以外に存在する音（以下、「非目的音」と呼ぶ）を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音を強調することができる。
Ｙ（ｎ）＝Ｘ_１（ｎ）−βＭ（ｎ） …（４）

ところで、ある特定のエリア内に存在する音（以下、「目的エリア音」と呼ぶ）だけを収音したい場合、減算型ＢＦを用いるだけでは、そのエリアの周囲に存在する音源（以下、「非目的エリア音」と呼ぶ）も収音してしまう可能性がある。そこで特許文献１の記載技術では、複数のマイクロホンアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法（以下、「エリア収音」と呼ぶ）を提案している。

従来のエリア収音では、まず各マイクロホンアレイのＢＦ出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする。例えば、２つのマイクロホンアレイを使用する場合、目的エリア音振幅スペクトルの補正係数は、（５）式、（６）式または（７）式、（８）式により算出される。

ここで、「Ｙ_１ｋ（ｎ）」、「Ｙ_２ｋ（ｎ）」は、それぞれ第１、第２のマイクロホンアレイのＢＦ出力の振幅スペクトルである。また、「Ｎ」は周波数ビンの総数であり、「ｋ」は周波数である。さらに、「α_１（ｎ）」、「α_２（ｎ）」は、それぞれ第１、第２のマイクロホンアレイのＢＦ出力に対する振幅スペクトル補正係数である。さらにまた、「ｍｏｄｅ」は最頻値、「ｍｅｄｉａｎ」は中央値をそれぞれ表している。

従来のエリア収音処理では、その後、補正係数により各ＢＦ出力を補正し、ＳＳすることで、目的エリア方向に存在する非目的エリア音を抽出する。更に抽出した非目的エリア音を各ＢＦの出力からＳＳすることにより目的エリア音を抽出することができる。

この場合、従来のエリア収音処理では、第１のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_１（ｎ）を抽出するには、（９）式に示すように、第１のマイクロホンアレイのＢＦ出力Ｙ_１（ｎ）から第２のマイクロホンアレイのＢＦ出力Ｙ_２（ｎ）に振幅スペクトル補正係数α_２を掛けたものをＳＳする。同様に（１０）式に従い、第２のマイクロホンアレイからみた目的エリア方向に存在する非目的エリア音Ｎ_２（ｎ）を抽出する。
Ｎ_１（ｎ）＝Ｙ_１（ｎ）−α_２（ｎ）Ｙ_２（ｎ） …（９）
Ｎ_２（ｎ）＝Ｙ_２（ｎ）−α_１（ｎ）Ｙ_１（ｎ） …（１０）

その後、従来のエリア収音処理では、（１１）式、（１２）式に従い、各ＢＦ出力から非目的エリア音をＳＳして目的エリア音を抽出する。（１１）式は第１のマイクロホンアレイを基準として目的エリア音を抽出する処理を示しており、（１２）式は第２のマイクロホンアレイを基準として目的エリア音を抽出する処理を示している。
Ｚ_１（ｎ）＝Ｙ_１（ｎ）−γ_１（ｎ）Ｎ_１（ｎ） …（１１）
Ｚ_２（ｎ）＝Ｙ_２（ｎ）−γ_２（ｎ）Ｎ_２（ｎ） …（１２）

ここでγ_１（ｎ）、γ_２（ｎ）はＳＳ時の強度を変更するための係数である。

従来のエリア収音処理では、目的エリア音を抽出するために、（４）式と（１１）及び（１２）式で非線形処理であるＳＳを行っているため、高雑音環境下ではミュージカルノイズと呼ばれる不快な異音が発生する恐れがある。

そこで、特許文献２の記載技術では、入力信号に目的エリア音が存在している区間と存在していない区間を判定し、目的エリア音が存在していない区間ではエリア収音処理した音を出力しないことにより、ミュージカルノイズなどの異音を抑えている。特許文献２の記載技術では、目的エリア音が存在しているかどうかを判定するために、まず（１３）式に従い入力信号と目的エリア音を抽出した出力（以後、「エリア音出力」と呼ぶ）間の振幅スペクトル比Ｒ（＝エリア音出力／入力信号）を算出する。また、目的エリア内に音源が存在する場合、入力信号Ｘ_１とエリア音出力Ｚ_１には目的エリア音が共通に含まれるため、目的エリア音成分の振幅スペクトル比は１に近い値となる。逆に、非目的エリア音成分は、エリア音出力では抑圧されているため、振幅スペクトル比は小さい値となる。その他の背景雑音成分に関してもエリア収音処理では複数回のＳＳを行うため、専用の雑音抑圧処理を事前にしなくてもある程度抑圧され、振幅スペクトル比は小さい値となる。逆に、目的エリア音が存在しない場合、エリア音出力には、入力信号と比べて消し残りの弱い雑音しか含まれていないため、振幅スペクトル比は全体域で小さい値となる。特許文献２の記載技術では、この特徴により、（１４）式に従い各周波数で求めた振幅スペクトル比の平均値Ｕを取ると、目的エリア音が存在するときと存在しないときとで大きな差が生まれることになる。ここでｍとｎは、それぞれ処理帯域（周波数帯域）の上限と下限であり、例えば音声情報が十分に含まれる１００Ｈｚから６ｋＨｚとする。そして、特許文献２の記載技術では、平均パワースペクトル比を予め設定した閾値で判定し、目的エリア音が存在しないと判定された場合は、エリア音出力データを出力せずに無音、もしくは入力信号のゲインを小さくした音を出力する。

また、特許文献３では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれに調節し、抽出した目的エリア音に混合することにより、ミュージカルノイズをマスキングして影響を抑えている。目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、特許文献３の記載技術では、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくしている。また、特許文献３の記載技術において、背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出する。さらに、特許文献３の記載技術において、非目的エリア音の音量レベルは、それぞれ（３）式で抽出する非目的音と（９）式、（１０）式で抽出する非目的エリア音を合わせたものから算出する。さらにまた、特許文献３の記載技術では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると、目的エリア音が存在しないときには、非目的エリア音だけが聞こえ、どちらが目的エリア音なのかが分からなくなってしまう。そこで、特許文献３の記載技術では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。特許文献３の手法は、ミュージカルノイズをマスキングするだけでなく、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善する効果もある。

特開２０１４−０７２７０８号公報特開２０１６−１２７４５７号公報特開２０１７−１８３９０２号公報

浅野太著，"音響テクノロジーシリーズ１６音のアレイ信号処理−音源の定位・追跡と分離−"，日本音響学会編，コロナ社，２０１１年２月２５日発行

しかしながら、特許文献２に記載された手法では、高雑音環境下において、ミュージカルノイズの発生を抑えることはできるが、目的エリア音の歪を改善することができない。また、特許文献２に記載された手法では、目的エリア音が存在しないと判定された際に無音とする場合は、誤判定してしまうと音が欠落する。さらに、特許文献２に記載された手法では、目的エリア音が存在しないと判定された際に入力信号を小さくした音を出力する場合は、目的エリア音と切り替わったときに、歪んだ目的エリア音と入力信号とで音が不連続になり違和感が生じる可能性がある。

一方、特許文献３に記載された手法では、高雑音環境下において、ミュージカルノイズの影響を抑え、かつ目的エリア音の歪を改善することができる。しかしながら、特許文献３に記載された手法では、背景雑音と非目的エリア音のレベルがどちらも大きい場合は、混合信号のレベルも大きくなるため、目的エリア音が存在しない区間での雑音抑圧の効果が弱まってしまう問題がある。

そのため、エリア収音処理の際に音質劣化を抑制する収音装置、収音プログラム及び収音方法が望まれている。

第１の本発明の収音装置は、（１）複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、（３）前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、（４）前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、（５）前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と、（６）前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段とを有し、（７）前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、（８）前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、（９）前記混合用信号は前記入力信号であることを特徴とする。
第２の本発明の収音装置は、（１）複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、（３）前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、（４）前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、（５）前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と、（６）前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段とを有し、（７）前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、（８）前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、（９）それぞれの前記入力信号に対して背景雑音を抑圧する背景雑音抑圧処理を行って背景雑音抑圧済入力信号を生成する背景雑音抑圧手段をさらに備え、（１０）前記指向性形成手段は、前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号のそれぞれに対し、ビームフォーマによって前記目的エリアが存在する前記目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの前記目的方向信号を取得し、（１１）前記混合用信号は前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号であることを特徴とする。

第３の本発明の収音プログラムは、コンピュータを、（１）複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、（３）前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、（４）前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、（５）前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段として機能させ、（６）前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段とを有し、（７）前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、（８）前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、（９）前記混合用信号は前記入力信号であることを特徴とする。
第４の本発明の収音プログラムは、コンピュータを、（１）複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、（２）それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、（３）前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、（４）前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、（５）前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段として機能させ、（６）前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段とを有し、（７）前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、（８）前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、（９）前記コンピュータを、それぞれの前記入力信号に対して背景雑音を抑圧する背景雑音抑圧処理を行って背景雑音抑圧済入力信号を生成する背景雑音抑圧手段としてさらに機能させ、（１０）前記指向性形成手段は、前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号のそれぞれに対し、ビームフォーマによって前記目的エリアが存在する前記目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの前記目的方向信号を取得し、（１１）前記混合用信号は前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号であることを特徴とする。

第５の本発明は、収音方法において、（１）指向性形成手段、目的エリア音抽出手段、目的エリア音判定手段、混合レベル調整手段、混合手段、及び雑音レベル算出手段を有し、（２）前記指向性形成手段は、複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得し、（３）前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、（４）前記目的エリア音判定手段は、前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定し、（５）前記混合レベル調整手段は、前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定し、（６）前記混合手段は、前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力し、（７）前記雑音レベル算出手段は、前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出し、（８）前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、（９）前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、（１０）前記混合用信号は前記入力信号であることを特徴とする。
第６の本発明は、収音方法において、（１）指向性形成手段、目的エリア音抽出手段、目的エリア音判定手段、混合レベル調整手段、混合手段、雑音レベル算出手段及び背景雑音抑圧手段を有し、（２）前記指向性形成手段は、複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得し、（３）前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、（４）前記目的エリア音判定手段は、前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定し、（５）前記混合レベル調整手段は、前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定し、（６）前記混合手段は、前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力し、（７）前記雑音レベル算出手段は、前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出し、（８）前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、（９）前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、（１０）前記背景雑音抑圧手段は、それぞれの前記入力信号に対して背景雑音を抑圧する背景雑音抑圧処理を行って背景雑音抑圧済入力信号を生成し、（１１）前記指向性形成手段は、前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号のそれぞれに対し、ビームフォーマによって前記目的エリアが存在する前記目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの前記目的方向信号を取得し、（１２）前記混合用信号は前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号であることを特徴とする。

本発明によれば、エリア収音処理の際に音質劣化を抑制する収音装置、収音プログラム及び収音方法を提供することができる。

第１の実施形態に係る収音装置の機能的構成を示すブロック図である。第１及び第２の実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。第１の実施形態に係る収音装置で混合される信号の例について示した図である。第２の実施形態に係る収音装置の機能的構成を示すブロック図である。従来の減算型ＢＦの構成を示すブロック図である。従来の減算型ＢＦにより形成される指向性フィルタの例について示した説明図である。

（Ａ）第１の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第１の実施形態を図面を参照して説明する。

（Ａ−１）第１の実施形態の構成
図１は、第１の実施形態に係る収音装置１００の機能的構成を示すブロック図である。

収音装置１００は、２つのマイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）を用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。

マイクロホンアレイＭＡ１、ＭＡ２は、目的エリアが存在する空聞の任意の場所に配置される。目的エリアに対するマイクロホンアレイＭＡ１、ＭＡ２の位置は、指向性が目的エリアでのみ重なればどこでも良く、例えば目的エリアを挟んで対向に配置しても良い。各マイクロホンアレイＭＡは２つ以上のマイクロホンＭから構成され、各マイクロホンＭにより音響信号を収音する。この実施形態では、各マイクロホンアレイＭＡに、音響信号を収音する２つのマイクロホンＭ１、Ｍ２が配置されるものとして説明する。すなわち、この実施形態において、各マイクロホンアレイＭＡは、２ｃｈマイクロホンアレイを構成しているものとする。２個のマイクロホンＭ１、Ｍ２の間の距離は限定されないものであるが、この実施形態の例では、２個のマイクロホンＭ１、Ｍ２の間の距離は３ｃｍとする。なお、マイクロホンアレイＭＡの数は２つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクロホンアレイＭＡを配置する必要がある。

次に、図１、図２を用いて収音装置１００の内部構成について説明する。

図１に示す通り、収音装置１００は、信号入力部１、指向性形成部２、遅延補正部３、空間座標データ４、補正係数算出部５、目的エリア音抽出部６、目的エリア音判定部７、雑音レベル算出部８、混合レベル調整部９、及び信号混合部１０。

収音装置１００は、全てハードウェア（例えば、専用チップ等）により構成するようにしてもよいし一部又は全部についてソフトウェア（プログラム）として構成するようにしてもよい。収音装置１００は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム（実施形態の収音プログラムを含む）をインストールすることにより構成するようにしてもよい。

次に、図２を用いて、収音装置１００のハードウェア構成について説明する。

図２は、収音装置１００のハードウェア構成の例について示したブロック図である。

図２では、収音装置１００を、ソフトウェア（コンピュータ）を用いて構成する際のハードウェア構成の例について示している。

図２に示す収音装置１００は、ハードウェア的な構成要素として、プログラム（実施形態の収音プログラムを含む）がインストールされたコンピュータ２００を有している。また、コンピュータ２００は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。

図２に示すコンピュータ２００は、プロセッサ２０１、一次記憶部２０２、及び二次記憶部２０３を有している。一次記憶部２０２は、プロセッサ２０１の作業用メモリ（ワークメモリ）として機能する記憶手段であり、例えば、ＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の高速動作するメモリを適用することができる。二次記憶部２０３は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）やプログラムデータ（実施形態に係る収音プログラムのデータを含む）等の種々のデータを記録する記憶手段であり、例えば、ＦＬＡＳＨメモリやＨＤＤ等の不揮発性メモリを適用することができる。この実施形態のコンピュータ２００では、プロセッサ２０１が起動する際、二次記憶部２０３に記録されたＯＳやプログラム（実施形態に係る収音プログラムを含む）を読み込み、一次記憶部２０２上に展開して実行する。

なお、コンピュータ２００の具体的な構成は図２の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部２０２が不揮発メモリ（例えば、ＦＬＡＳＨメモリ等）であれば、二次記憶部２０３については除外した構成としてもよい。

（Ａ−２）第１の実施形態の動作
次に、以上のような構成を有する第１の実施形態の収音装置１００の動作（実施形態の収音方法）を説明する。

信号入力部１は、各マイクロホンアレイＭＡ（ＭＡ１、ＭＡ２）が収音した音響信号の入力をうけるとその音響信号をアナログ信号からデジタル信号に変換する。そして、信号入力部１は、当該音響信号（デジタル信号）を、所定の方法（例えば、高速フーリエ変換）を用いて、時間領域から周波数領域へ変換する。以下では、各マイクロホンアレイＭＡにおいて、マイクロホンＭ１、Ｍ２の周波数領域の入力信号を、それぞれＸ_１、Ｘ_２として説明する。

指向性形成部２は、マイクロホンアレイ毎に入力信号に対し、（４）式に従いＢＦにより目的エリア方向に指向性を形成する。以下では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力の振幅スペクトルを、それぞれＹ_１ｋ（ｎ）、Ｙ_２ｋ（ｎ）として説明する。

遅延補正部３は、目的エリアと各マイクロホンアレイの距離の違いにより発生する遅延を算出し、補正する。遅延補正部３は、まず空間座標データ４から目的エリアの位置とマイクロホンアレイの位置を取得し、各マイクロホンアレイへの目的エリア音の到達時間の差を算出する。次に、遅延補正部３は、最も目的エリアから遠い位置に配置されたマイクロホンアレイを基準として、全てのマイクロホンアレイに目的エリア音が同時に到達するように遅延を加える。

空間座標データ４は、全ての目的エリアと各マイクロホンアレイと各マイクロホンアレイを構成するマイクロホンの位置情報を保持する。

補正係数算出部５は、各ＢＦ出力に含まれる目的エリア音成分の振幅スペクトルを同じにするための補正係数を算出する。以下では、マイクロホンアレイＭＡ１、ＭＡ２のＢＦ出力に対する補正係数を、α_１（ｎ）、α_２（ｎ）として説明する。補正係数算出部５は、「（５）式、（６）式」または「（７）式、（８）式」に従い補正係数を算出する。

目的エリア音抽出部６は、補正係数算出部５で算出した補正係数により補正した各ＢＦ出力から、目的エリア方向に存在する非目的エリア音を抽出する。そして、目的エリア音抽出部６は、補正係数算出部５で算出した補正係数により補正した各ＢＦ出力データを、例えば、（９）式もしくは（１０）式に従いＳＳし、目的エリア方向に存在する非目的エリア音（Ｎ_１（ｎ）又はＮ_２（ｎ））を抽出する。

さらに、目的エリア音抽出部６は、抽出した非目的エリア音（Ｎ_１（ｎ）又はＮ_２（ｎ））を、各ＢＦの出力から（１１）式、もしくは（１２）式に従いＳＳすることにより、目的エリア音（Ｚ_１（ｎ）又はＺ_２（ｎ））を抽出する。

目的エリア音判定部７は、入力信号に目的エリア音が存在するか否かを判定する処理（以下、「目的エリア音判定処理」と呼ぶ）を行う。目的エリア音判定部７は、目的エリア音判定処理で、入力信号に目的エリア音が存在すると判定した場合には、「目的エリア音有り」を示すデータ（信号）を出力し、入力信号に目的エリア音が存在しない判定した場合には、「目的エリア音無し」を示すデータ（信号）を出力する。以下では、目的エリア音判定部７が「目的エリア音有り」を出力している状態（入力信号に目的エリア音が含まれていると判定される状態）を「目的エリア音含有判定状態」と呼び、目的エリア音判定部７が「目的エリア音無し」を出力している状態（入力信号に目的エリア音が含まれていないと判定される状態）を「目的エリア音非含有判定状態」とする。

目的エリア音判定部７における目的エリア音判定処理の方式は限定されないものであり種々の方式を適用することができる。この実施形態では、目的エリア音判定部７は、特許文献２の方式により目的エリア音判定処理を行うものとする。例えば、目的エリア音判定部７は、各周波数について目的エリア音と入力信号の振幅スペクトル比を（１３）式に従って求め、各周波数で求めた振幅スペクトル比Ｒの平均値Ｕを（１４）式に従って求める。そして、目的エリア音判定部７は、求めたＵを予め設定した閾値と比較することで、目的エリア音が存在するかしないかを判定する。

雑音レベル算出部８は、目的エリア音判定部７で「目的エリア音無し」と判定したときの入力信号のレベルを、推定した雑音のレベル（以下、「推定雑音レベルＰ_Ｎ」と呼ぶ）として算出するものとする。例えば、雑音レベル算出部８は、目的エリア音判定部７が、「目的エリア音無し」と１回判定したときの入力信号のレベルを推定雑音レベルＰ_Ｎとして取得するようにしてもよい。また、例えば、雑音レベル算出部８は、目的エリア音判定部７が「目的エリア音無し」と判定したときの入力信号を複数回分取得して、その平均値（平均レベル）を推定雑音レベルＰ_Ｎとして取得するようにしてもよい。さらに、雑音レベル算出部８は、複数回分の入力レベルの平均値を推定雑音レベルＰ_Ｎとして取得する場合、忘却係数を設定し、過去の信号と現在の信号とで重み付け（時系列が古い信号ほど低い重み付け）をしても良い。

また、雑音レベル算出部８は、目的エリア音判定部７で「目的エリア音有り」と判定しているときの入力信号を仮の目的エリア音（簡易的な推定目的エリア音）の推定レベル（以下、「仮目的エリア音推定レベルＰ_Τ」と呼ぶ）として算出する。例えば、雑音レベル算出部８は、目的エリア音判定部７が「目的エリア音有り」と１回判定したときの入力信号のレベルを仮目的エリア音推定レベルＰ_Τとして取得するようにしてもよいし、目的エリア音判定部７が「目的エリア音有り」と判定したときの入力レベルを複数回分取得して、その平均値（平均レベル）を仮目的エリア音推定レベルＰ_Τとして取得するようにしてもよい。

なお、このとき、雑音レベル算出部８は、推定雑音レベルＰ_Ｎと仮目的エリア音推定レベルＰ_Τとを同様の方式で算出することが望ましい。例えば、雑音レベル算出部８は、目的エリア音判定部７が「目的エリア音無し」と１回判定したときの入力信号のレベルを推定雑音レベルＰ_Ｎとして取得する場合、同様に目的エリア音判定部７が「目的エリア音有り」と１回判定したときの入力信号のレベルを仮目的エリア音推定レベルＰ_Τとして取得するようにすることが望ましい。

そして、雑音レベル算出部８は、推定雑音レベルＰ_Ｎと仮目的エリア音推定レベルＰ_Τを、以下の（１５）式に適用して簡易的なＳＮ比Ｑを算出する。

混合レベル調整部９は、目的エリア音判定部７における判定結果を含む要素を考慮して、混合信号のレベルを調整するための係数（以下、「レベル調整係数」とよぶ）を決定する。すなわち、混合レベル調整部９は、目的エリア音判定部７における判定結果が「目的エリア音有り」の状態（目的エリア音含有判定状態）であるか、「目的エリア音無し」の状態（目的エリア音非含有判定状態）であるかで、レベル調整係数を変更するようにしてもよい。例えば、混合レベル調整部９は、予め、「目的エリア音有り」の状態と「目的エリア音無し」の状態とで、それぞれに対応するレベル調整係数を設定しておくようにしてもよい。また、混合レベル調整部９では、ユーザの操作（例えば、ユーザによるコンピュータ２００に対する操作）に応じて、適用するレベル調整係数の変更を可能とするようにしてもよい。

以上のように、混合レベル調整部９には、目的エリア音判定部７における判定結果を含む要素を考慮してレベル調整係数を決定するポリシーが設定されている。

図３は、混合レベル調整部９がレベル調整係数を決定するポリシーに応じた混合信号（レベル調整係数に基づいて調整された後の混合信号）を目的エリア音（目的エリア音抽出部６が抽出した目的エリア音）と共に時間領域で図示したグラフである。図３では、目的エリア音の成分に斜線（ハッチ）を付して示し、混合信号（入力信号）の成分を黒塗りで示している。

例えば、混合レベル調整部９は、「目的エリア音有り」の状態の方が、「目的エリア音無し」の状態よりも混合信号レベルが大きくなるようにレベル調整係数を決定するようにしてもよい。例えば、混合レベル調整部９は、「目的エリア音無し」の状態における混合信号レベルを、「目的エリア音有り」の状態の混合信号レベルよりも１０ｄＢ小さい値とするようにレベル調整係数を決定するようにしてもよい。この場合における、調整後の混合信号と目的エリア音は図３（Ａ）のような内容となる。

また、例えば、混合レベル調整部９は、図３（Ｂ）に示すように、「目的エリア音無し」の状態の場合に、混合信号のレベルが０となるように、レベル調整係数を決定するようにしてもよい。

さらに、例えば、混合レベル調整部９は、図３（Ｃ）のように「目的エリア音有り」の状態と「目的エリア音無し」の状態で、結果として混合レベルを同じとなるようにレベル調整係数が調整される場合があってもよい。例えば、混合レベル調整部９では、「目的エリア音有り」の状態と「目的エリア音無し」の状態で異なるポリシーでレベル調整係数を決定した結果、一定の条件下で欠課としてレベル調整係数が一致する場合があってもよい。

さらにまた、例えば、混合レベル調整部９は、「目的エリア音無し」の状態の方が、「目的エリア音有り」の状態よりも混合信号レベルが大きくなるようにレベル調整係数を決定するようにしてもよい。例えば、混合レベル調整部９は、「目的エリア音無し」の状態における混合信号レベルを、「目的エリア音有り」の状態の混合信号レベルよりも１０ｄＢ大きい値とするようにレベル調整係数を決定するようにしてもよい。この場合における、調整後の混合信号と目的エリア音は図３（Ｄ）のような内容となる。図３（Ｄ）の場合、目的エリア音が存在しないときの出力音は入力信号と同じだが、目的エリア音が存在したときは雑音が抑圧され、目的エリア音を強調する効果がある。

また、例えば、混合レベル調整部９は、全周波数でレベル調整係数を同じ値としても良いし、周波数毎に異なる値を設定しても良い。具体的には、例えば、混合レベル調整部９は、ある周波数ｋ以下のレベル調整係数を０とすれば、混合信号にハイパスフィルタ（高周波濾波フィルタ）を掛けたのと同じ効果が得られる。

さらに、例えば、混合レベル調整部９は、雑音レベル算出部８において算出した推定雑音レベルＰ_ＮもしくはＳＮ比Ｑを考慮して、動的にレベル調整係数を変更するようにしてもよい。例えば、ＳＮ比Ｑが低い場合（例えば、所定の閾値より低い場合）、入力信号に含まれる雑音レベルが大きく、目的エリア音抽出部６で抽出される目的エリア音の歪やミュージカルノイズが大きくなる傾向にある。そこで、混合レベル調整部９は、ＳＮ比Ｑが低く且つ「目的エリア音有り」の状態の場合に、混合信号レベルがより大きくなるようにレベル調整係数を調整する（例えば、レベル調整係数を一定レベル分加算する）ようにしてもよい。一方、ＳＮ比Ｑが高い場合（例えば、所定の閾値以上の場合）は、目的エリア音抽出部６で抽出される目的エリア音の歪やミュージカルノイズは小さい傾向にある。そこで、混合レベル調整部９は、ＳＮ比Ｑが高い場合は、「目的エリア音有り」の状態及び「目的エリア音無し」の状態いずれの場合であっても、混合信号レベルを小さくするようにレベル調整係数を調整する（例えば、レベル調整係数を一定レベル分減算する）ようにしてもよい。

信号混合部１０は、混合レベル調整部９で設定したレベル調整係数を入力信号に掛け、目的エリア音抽出部６で抽出した目的エリア音と混合した出力信号を出力する。以下では、信号混合部１０が出力する出力信号を「Ｗ」と表すものとする。なお、以下では、マイクロホンアレイＭＡ１を基準とした目的エリア音Ｚ_１を用いて生成された出力信号を「Ｗ_１」と表し、マイクロホンアレイＭＡ２を基準とした目的エリア音Ｚ_２を用いて生成された出力信号を「Ｗ_２」と表すものとする。

例えば、目的エリア音抽出部６が（１１）式に従いマイクロホンアレイＭＡ１を基準としてエリア収音処理を行った場合、信号混合部１０が出力する最終的な出力信号Ｗ_１は以下の（１６）式に従い生成（混合）される。ここで、Ｘ_ＭＩＸは入力信号、μはレベル調整係数である。また、ρは、目的エリア音の大きさを調整するパラメータである。

なお、目的エリア音抽出部６が（１２）式に従いマイクロホンアレイＭＡ２を基準としてエリア収音処理を行った場合、信号混合部１０が出力する最終的な出力信号Ｗ_２は以下の（１７）式に従い生成（混合）される。
Ｗ_１＝ρＺ_１＋μＸ_ＭＩＸ …（１６）
Ｗ_２＝ρＺ_２＋μＸ_ＭＩＸ …（１７）

また、例えば、信号混合部１０は、目的エリア音判定部７における判定が「目的エリア音無し」の場合、ρを０と設定することで、結果として混合信号Ｘ_ＭＩＸの成分だけを出力する状態となってもよい。これにより、出力信号Ｗにおいてミュージカルノイズの発生を完全に抑えることができる。すなわち、収音装置１００は、結果として混合信号のみが出力する構成としてもよい。さらに、例えば、目的エリア音判定部７における判定が「目的エリア音有り」の場合、信号混合部１０は、目的エリア音の平均振幅スペクトルが一定になるようにρを動的に変更することで、出力レベルを安定させることができる。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、以下のような効果を奏することができる。

第１の実施形態の収音装置１００では、入力信号に目的エリア音が存在する区間と存在しない区間とで、異なるポリシーに従ってレベル調整係数を決定することで、目的エリア音に混合する混合信号（第１の実施形態では入力信号）のレベルを設定し、目的エリア音に入力信号を混合信号として混合している。これにより、第１の実施形態の収音装置１００では、混合後の出力信号におけるミュージカルノイズの影響を抑え、目的エリア音の音質を改善すると共に、目的エリア音が存在しないときの雑音の混入を抑えること等の効果を奏することができる。

また、第１の実施形態の収音装置１００では、目的エリア音が存在する区間と存在しない区間で同じ混合信号（第１の実施形態では入力信号）を使用するため、目的エリア音を自然に強調することができる。

（Ｂ）第２の実施形態
以下、本発明による収音装置、収音プログラム及び収音方法の第２の実施形態を図面を参照して説明する。

（Ｂ−１）第２の実施形態の構成
図４は、第２の実施形態に係る収音装置１００Ａの機能的構成について示したブロック図である。図４では、上述の図１と同一部分又は対応する部分に同一又は対応する符号を付している。

以下では、第２の実施形態の収音装置１００Ａについて、第１の実施形態との差異を中心に説明する。

従来の収音装置では、入力信号に背景雑音が多く含まれる場合、目的エリア音を抽出する際にミュージカルノイズの発生や、目的エリア音の歪が強くなる可能性がある。そこで、第２の実施形態の収音装置１００Ａでは、入力信号の背景雑音を抑圧してから目的エリア音を抽出する。また、第２の実施形態の収音装置１００Ａでは、背景雑音を抑圧した入力信号を混合信号とすることで、混合後の出力信号Ｗにおける背景雑音の混入を抑えることができる。

具体的には、第２の実施形態の収音装置１００Ａでは、背景雑音抑圧部１１が追加され、さらに雑音レベル算出部８及び混合レベル調整部９が、雑音レベル算出部８Ａ及び混合レベル調整部９Ａに置き換わっている点で第１の実施形態と異なっている。

（Ｂ−２）第２の実施形態の動作
次に、以上のような構成を有する第２の実施形態の収音装置１００Ａの動作（実施形態の収音方法）を説明する。

背景雑音抑圧部１１は、信号入力部１で取得した信号に含まれる背景雑音の成分（例えば、人間の音声以外の成分）を推定し（以下、推定した結果を「推定背景雑音」と呼ぶ）、抑圧し、雑音を抑圧した後の入力信号（以下、「雑音抑圧後入力信号」と呼ぶ）を出力する。背景雑音抑圧部１１における雑音抑圧処理の方式については限定されないものであり、例えば、ＳＳやウィーナーフィルタリング法（Ｗｉｅｎｅｒｆｉｌｔｅｒｉｎｇ）などを用いることができる。

第２の実施形態の目的エリア音判定部７は、雑音抑圧後入力信号（背景雑音抑圧部１１で背景雑音を抑圧した入力信号）の振幅スペクトルと目的エリア音抽出部６で抽出した目的エリア音とに基づいて目的エリア音判定処理を行う。

雑音レベル算出部８Ａは、第１の実施形態と同様にも目的エリア音と、推定雑音レベルとのＳＮ比（Ｓ：目的エリア音、Ｎ：目的エリア音以外の雑音；以下、以下「第１のＳＮ比」と呼ぶ）を算出する他に、背景雑音抑圧部１１で抽出する推定背景雑音、及び目的エリア音抽出部６で抽出した目的エリア音とのＳＮ比（Ｓ：目的エリア音の平均振幅スペクトル、Ｎ：推定背景雑音の平均振幅スペクトル；以下、「第２のＳＮ比」と呼ぶ）を算出する。また、雑音レベル算出部８Ａは、指向性形成部２で抽出される非目的音と目的エリア音抽出部６で抽出する非目的エリア音とのＳＮ比（Ｓ：目的エリア音の平均振幅スペクトル、Ｎ：非目的音＋非目的エリア音の平均振幅スペクトル；以下、「第３のＳＮ比」と呼ぶ）も算出する。

混合レベル調整部９Ａは、第１の実施形態と同様に混合信号レベル係数を設定する他に、雑音レベル算出部８Ａで算出した各種ＳＮ比（第２、第３のＳＮ比）も考慮して混合信号レベル係数を設定するようにしてもよい。例えば、混合レベル調整部９Ａは、第２のＳＮ比（Ｓ：目的エリア音、Ｎ：推定背景雑音）と比較して第３のＳＮ比（Ｓ：目的エリア音、Ｎ：非目的音＋非目的エリア音）が大きい場合、ミュージカルノイズや歪の影響よりも、非目的音と非目的エリア音が混入する影響の方が大きいため、「目的エリア音有り」の状態のときの混合信号レベルを弱く調整する（例えば、レベル調整係数を一定レベル分減算する）ようにしてもよい。

第２の実施形態の信号混合部１０は、雑音抑圧後入力信号（背景雑音抑圧部１１で背景雑音を抑圧した入力信号）を混合信号として、（１６）式に基づき目的エリア音に混合して出力信号Ｗを得る。

（Ｂ−３）第２の実施形態の効果
第２の実施形態によれば、第１の実施形態の効果を比較して以下のような効果を奏することができる。

第２の実施形態の収音装置１００Ａでは、入力信号を背景雑音抑圧処理してから目的エリア音を抽出することで、ミュージカルノイズの発生や、目的エリア音の歪を抑えることができる。

また、第２の実施形態の収音装置１００Ａでは、背景雑音を抑圧した入力信号（雑音抑圧後入力信号）を混合信号とすることで、混合後の出力信号Ｗにおける背景雑音の混入を抑えることができる。

さらに、第２の実施形態の収音装置１００Ａでは、目的エリア音以外の雑音成分を背景雑音、非目的音、及び非目的エリア音として抽出できるため、それぞれの雑音成分に対するＳＮ比（第１〜第３のＳＮ比）を算出でき、騒音環境に応じた混合レベルの調節が可能になる。

（Ｃ）他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。

（Ｃ−１）上記の各実施形態において、遅延補正部３および空間座標データ４は必須ではないため除外するようにしてもよい。例えば、各マイクロホンアレイＭＡと目的エリア音の配置により、当初から遅延が発生しないか無視できる程度であれば、遅延補正部３の処理および空間座標データ４を除外するようにしてもよい。

（Ｃ−２）上記の各実施形態において、補正係数算出部５は必須ではないため除外するようにしてもよい。例えば、各マイクロホンアレイＭＡと目的エリア音の配置により、各マイクロホンＭ（各マイクロホンアレイＭＡを構成する各マイクロホンＭ）で捕捉される目的エリア音の振幅スペクトルの差が小さいことが明白な場合は、補正係数算出部５の処理を除外してもよい。

（Ｃ−３）上記の各実施形態において、ＳＮ比Ｑ（第１のＳＮ比）を考慮せずにレベル調整係数を決定する場合には、雑音レベル算出部８は除外するようにしてもよい。

１００、１００Ａ…収音装置、１…信号入力部、２…指向性形成部、３…遅延補正部、４…空間座標データ、５…補正係数算出部、６…目的エリア音抽出部、７…目的エリア音判定部、８…雑音レベル算出部、８Ａ…雑音レベル算出部、９…混合レベル調整部、９Ａ…混合レベル調整部、１０…信号混合部、１０Ａ…信号混合部、１１…背景雑音抑圧部、１６…音響テクノロジーシリーズ、２００…コンピュータ、２０１…プロセッサ、２０２…一次記憶部、２０３…二次記憶部。

Claims

複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、
前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と、
前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段とを有し、
前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、
前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、
前記混合用信号は前記入力信号である
ことを特徴とする収音装置。
前記混合レベル調整手段は、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態の場合と、前記目的エリア音判定手段の判定結果が目的エリア音非含有判定状態の場合とで、異なる値の前記レベル調整係数を決定することを特徴とする請求項１に記載の収音装置。
前記混合レベル調整手段は、前記目的エリア音判定手段の判定結果が目的エリア音非含有判定状態の場合、前記目的エリア音判定手段の判定結果が目的エリア音含有判定状態の場合よりも小さい値の前記レベル調整係数を決定することを特徴とする請求項２に記載の収音装置。
前記混合レベル調整手段は、前記第１のＳＮ比が閾値以上の場合、前記レベル調整係数を減算する調整を行うことを特徴とする請求項１〜３のいずれかに記載の収音装置。
複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、
前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と、
前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段とを有し、
前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、
前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、
それぞれの前記入力信号に対して背景雑音を抑圧する背景雑音抑圧処理を行って背景雑音抑圧済入力信号を生成する背景雑音抑圧手段をさらに備え、
前記指向性形成手段は、前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号のそれぞれに対し、ビームフォーマによって前記目的エリアが存在する前記目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの前記目的方向信号を取得し、
前記混合用信号は前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号である
ことを特徴とする収音装置。
前記背景雑音抑圧手段は、処理の過程で前記入力信号に含まれる背景雑音を推定して推定背景雑音として取得し、
前記指向性形成手段は、処理の過程で前記入力信号から、前記目的エリア方向以外の方向からの非目的音を抽出し、
前記混合レベル調整手段は、前記目的エリア音抽出手段が抽出した目的エリア音と、前記背景雑音抑圧手段が取得した推定背景雑音とに基づく第２のＳＮ比より、前記目的エリア音抽出手段が抽出した目的エリア音と、前記目的エリア音抽出手段が取得した前記非目的エリア音及び前記指向性形成手段が取得した非目的音を加算した信号とに基づく第３のＳＮ比が大きい場合、目的エリア音含有判定状態における前記レベル調整係数を減算する調整を行う
ことを特徴とする請求項５に記載の収音装置。
コンピュータを、
複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、
前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と、
前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段として機能させ、
前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、
前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、
前記混合用信号は前記入力信号である
ことを特徴とする収音プログラム。
コンピュータを、
複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得する指向性形成手段と、
それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出する目的エリア音抽出手段と、
前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定する目的エリア音判定手段と、
前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定する混合レベル調整手段と、
前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力する混合手段と、
前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出する雑音レベル算出手段として機能させ、
前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、
前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、
前記コンピュータを、それぞれの前記入力信号に対して背景雑音を抑圧する背景雑音抑圧処理を行って背景雑音抑圧済入力信号を生成する背景雑音抑圧手段としてさらに機能させ、
前記指向性形成手段は、前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号のそれぞれに対し、ビームフォーマによって前記目的エリアが存在する前記目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの前記目的方向信号を取得し、
前記混合用信号は前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号である
ことを特徴とする収音プログラム。
収音方法において、
指向性形成手段、目的エリア音抽出手段、目的エリア音判定手段、混合レベル調整手段、混合手段、及び雑音レベル算出手段を有し、
前記指向性形成手段は、複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得し、
前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、
前記目的エリア音判定手段は、前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定し、
前記混合レベル調整手段は、前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定し、
前記混合手段は、前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力し、
前記雑音レベル算出手段は、前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出し、
前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、
前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、
前記混合用信号は前記入力信号である
ことを特徴とする収音方法。
収音方法において、
指向性形成手段、目的エリア音抽出手段、目的エリア音判定手段、混合レベル調整手段、混合手段、雑音レベル算出手段、及び背景雑音抑圧手段を有し、
前記指向性形成手段は、複数のマイクアレイから供給される入力信号又は前記入力信号に基づく信号のそれぞれに対し、ビームフォーマによって目的エリアが存在する目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの目的方向信号を取得し、
前記目的エリア音抽出手段は、それぞれの前記目的方向信号をスペクトル減算することで前記目的エリア方向に存在する非目的エリア音を抽出し、抽出した前記非目的エリア音をいずれかの前記目的方向信号からスペクトル減算することにより目的エリア音を抽出し、
前記目的エリア音判定手段は、前記入力信号と目的エリア音の振幅スペクトルに基づいて、前記入力信号に目的エリア音の成分が含まれる目的エリア音含有判定状態又は、前記入力信号に目的エリア音の成分が含まれない目的エリア音非含有判定状態のいずれかを判定し、
前記混合レベル調整手段は、前記目的エリア音判定手段の判定結果を含む要素に基づいて、前記目的エリア音抽出手段で抽出された目的エリア音に混合する混合用信号のレベルを調整するためのレベル調整係数を決定し、
前記混合手段は、前記混合用信号のレベルを前記混合レベル調整手段で決定した前記レベル調整係数で調整したレベル調整済混合用信号を、前記目的エリア音抽出手段で抽出された目的エリア音と混合し、混合した後の混合後信号を、前記目的エリアのエリア収音結果として出力し、
前記雑音レベル算出手段は、前記目的エリア音判定手段の判定結果と前記入力信号に基づいて第１のＳＮ比を算出し、
前記混合レベル調整手段は、前記第１のＳＮ比も考慮して前記レベル調整係数を決定し、
前記混合レベル調整手段は、前記第１のＳＮ比が閾値よりも小さく、且つ、目的エリア音含有判定状態の場合に、前記レベル調整係数を加算する調整を行い、
前記背景雑音抑圧手段は、それぞれの前記入力信号に対して背景雑音を抑圧する背景雑音抑圧処理を行って背景雑音抑圧済入力信号を生成し、
前記指向性形成手段は、前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号のそれぞれに対し、ビームフォーマによって前記目的エリアが存在する前記目的エリア方向へ指向性を形成して、前記マイクアレイごとに前記目的エリア方向からの前記目的方向信号を取得し、
前記混合用信号は前記背景雑音抑圧手段が生成した前記背景雑音抑圧済入力信号である
ことを特徴とする収音方法。