JP2005525717A

JP2005525717A - 選択的な音の増幅

Info

Publication number: JP2005525717A
Application number: JP2003531458A
Authority: JP
Inventors: アレクサンドルエルゴノポルスキー
Original assignee: クラリティーリミテッドライアビリティカンパニー
Priority date: 2001-09-24
Filing date: 2002-09-24
Publication date: 2005-08-25
Also published as: US20030061032A1; AU2002339995A1; KR20040044982A; WO2003028006A3; WO2003028006A2; EP1430472A2

Abstract

異なる方向に向けられた、２つのマイクロフォン又はマイクロフォンの組が、該マイクロフォンから受け取られた信号の相関性及びコヒーレンスに基づいてフィルタパラメータを生成するのに用いられる。第１の信号は、少なくとも１つの第１のマイクロフォンによって受け取られた音から取得される。各々の第１のマイクロフォンは、第１の主要な感度方向を含む第１の方向の組からの音を受け取る。所望の音方向は、第１の方向の組に含まれる。第２の信号は、少なくとも１つの第２のマイクロフォンによって受け取られた音から取得される。各々の第２のマイクロフォンは、第１の主要な感度方向とは異なる第２の主要な感度方向を含む第２の方向の組からの音を受け取る。所望の音方向は、第２の方向の組に含まれる。フィルタ係数は、第１の信号及び第２の信号のコヒーレンス、及び、該第１の信号及び該第２の信号の相関性に基づいて求められる。第１の信号及び第２の信号の組み合わせは、求められたフィルタ係数によりフィルタ処理される。

Description

本発明は、雑音がある状態でのスピーチ（会話）のような所望の音を検出して増幅することに関する。

多くの用途において、他の方向から発生する音を大幅に除去することにより、特定の方向から明瞭な音を求めることを必要とする。このような適用例は、電話、コンピュータ、補聴器、セキュリティ及び音声作動式制御を含む多種多様の製品における音声認識及び検出、マン・マシン・インターフェース、スピーチの増幅その他同様なものを含む。

空間的フィルタ処理は、信号源の物理的位置に基づいて多数の信号源の間を区別するために意図的に設計される場合には、効果的な方法となることがある。このような区別は、例えば、指向性マイクロフォンアレイにより可能になる。しかしながら、空間的フィルタ処理のために用いられる通常のビーム形成技術は、いくつかの問題を有する。第１に、このような技術は、適切な大きさのアパーチャーを実現するために、大きなマイクロフォン間隔を必要とする。第２に、このような技術は、狭帯域信号に対してより適用できるものであり、相対的に広帯域信号であるスピーチについては、必ずしも十分な性能をもたらすわけではない。

必要とされているのは、スピーチについて良好な性能及び小さな寸法の両方を提供するスピーチの増幅である。

本発明は、異なる方向に向けられた、２つのマイクロフォン、又は、マイクロフォンの組からの入力を用いて、該マイクロフォンから受け取られた信号の相関性及びコヒーレンスに基づいてフィルタパラメータを生成するようにするものである。

所望の音方向から来る所望の音を増幅する方法が提供される。第１の信号は、少なくとも１つの第１のマイクロフォンにより受け取られた音から取得される。各々の第１のマイクロフォンは、第１の主要な感度方向を含む第１の方向の組からの音を受け取る。所望の音方向は、第１の方向の組に含まれる。第２の信号は、少なくとも１つの第２のマイクロフォンにより受け取られた音から取得される。各々の第２のマイクロフォンは、第１の主要な感度方向とは異なる第２の主要な感度方向を含む第２の方向の組からの音を受け取る。所望の音方向は、第２の方向の組に含まれる。フィルタ係数は、第１の信号及び第２の信号のコヒーレンス、及び、該第１の信号及び該第２の信号の間の相関性に基づいて求められる。第１の信号及び第２の信号の組み合わせは、求められたフィルタ係数によりフィルタ処理される。

本発明の実施形態においては、第１の主要な感度方向も第２の主要な感度方向も、所望の音方向と同じではない。

本発明の別の実施形態においては、所望の音方向と第１の主要な感度方向との間の角度オフセットは、該所望の音方向と第２の主要な感度方向との間の角度オフセットと大きさが等しい。

本発明のさらに別の実施形態においては、フィルタ係数は、第１の信号及び第２の信号に基づいてコヒーレンス係数を求め、該第１の信号及び該第２の信号に基づいて相関係数を求め、次いで、コヒーレンス係数を該相関係数で基準化することにより見出される。

本発明によるさらに別の実施形態においては、第１の信号及び第２の信号は、フィルタ係数を求める前に空間的フィルタ処理される。この空間的フィルタ処理は、第１の信号の遅延バージョンを第２の信号から引くことにより、及び該第２の信号の遅延バージョンを該第１の信号から引くことにより達成できる。
本発明のさらに別の実施形態においては、所望の音はスピーチを含む。

さらに、所望の音方向から受け取られた所望の音を再生するためのシステムが提供される。少なくとも１つのマイクロフォンを有する第１のマイクロフォンの組は、第１の方向に向けられる。第１のマイクロフォンの組は、所望の音を含む受け取った音に応答して第１の信号を生成する。少なくとも１つのマイクロフォンを有する第２のマイクロフォンの組は、第１の方向とは異なる第２の方向に向けられる。第２のマイクロフォンの組は、所望の音を含む受け取った音に応答して第２の信号を生成する。フィルタ推定器は、第１の信号及び第２の信号のコヒーレンス、及び、該第１の信号及び該第２の信号の相関性に基づいてフィルタ係数を求める。フィルタは、第１の信号及び第２の信号を、求められたフィルタ係数によりフィルタ処理する。

さらに、所望の音を増幅するために複数の受け取った音の信号をフィルタ処理するのに用いられるフィルタ係数を生成する方法が提供される。第１の音の信号は、所望の音方向を含む第１の方向の組から受け取られる。第２の音の信号は、所望の音方向を含む第２の方向の組から受け取られる。第２の方向の組は、第１の組の方向ではない方向を含む。コヒーレンス係数は、第１の音の信号及び第２の音の信号に基づいて求められる。相関係数は第１の音の信号及び第２の音の信号に基づいて求められる。フィルタ係数は、コヒーレンス係数を相関係数で基準化することにより生成される。

図１を参照すると、本発明において用いることのできる異なる方向性をもつ２つのマイクロフォンのパターンを示す概略図が示されている。本発明は、異なる方向性ピックアップパターンをもった２つ又はそれ以上のマイクロフォンが、特定の方向から届く１つ又はそれ以上の信号を選択するように配置されるものとして示される方向性パターンを利用するものである。

図１は、異なる方向性をもつ２つのマイクロフォンの一例を示す。以下の説明において、一方又は両方のマイクロフォンは、マイクロフォン群と置き換えてもよい。同様に、２つより多い方向を、同時であるか、又は、複数のマイクロフォンによって支持される多くの方向から２つ又はそれ以上を選択することのいずれかにより考えることができる。

信号方向１から届く信号及び他の源から届く多数の雑音源を選択するように配置された２つのマイクロフォンを考える。左のマイクロフォンは、主要な感度方向２を有し、右のマイクロフォンは、主要な感度方向３を有する。左のマイクロフォンは、４で示される極性応答プロットを有し、右のマイクロフォンは、５で示される極性応答プロットを有する。領域６は、左及び右のマイクロフォンのスピーチ方向１に対する共同応答領域を示す。

各々の複数の雑音源は、Ｎ_x（ｊ）と表示が付けられ、ここでは、Ｘは方向（左又は右）を定義し、ｊは指定された番号である。これらは、実際の物理的な雑音源である必要はない。各Ｎ_x（ｊ）は、例えば、マイクロフォンに届く雑音信号の近似とすることができる。すべての音源は、異なる位置から受け取られた場合には、独立した源であるものと仮定される。

図１に示されるシステムは、両方のマイクロフォンが、方向１からの本質的に同じ信号の解釈であるが、異なる雑音の解釈を拾い上げることを示す。左のマイクロフォンの信号（Ｍ_L）及び右のマイクロフォンの信号（Ｍ_R）は、以下のように表すことができ、

ここで、Ｓｐｅｅｃｈ_Lは、左のマイクロフォン又はマイクロフォン群に登録されたスピーチの解釈であり、Ｓｐｅｅｃｈ_Rは、右のマイクロフォン又はマイクロフォン群に登録されたスピーチの解釈である。スピーチの信号自体（従って、このような左及び右の解釈の両方）は、スピーチ方向１から届き、しかも、合計された雑音Ｎ_L及びＮ_Rは、左及び右の方向それぞれから届く音を構成する。

図２は、マイクロフォンの多数の群を用いる本発明の実施形態を示す。マイクロフォンの組２０を用いて、より大きな方向性を達成することができる。さらに、多数のマイクロフォン２０又はマイクロフォン群２０は、スピーチが取得される方向１を選択するために使用することができる。

ここで図３を参照すると、本発明の実施形態を示すブロック図が示される。全体を４０で示されるスピーチ獲得システムは、少なくとも２つのマイクロフォン又はマイクロフォン群を含む。図示例においては、左のマイクロフォン４２は応答パターン３を有し、右のマイクロフォン４４は応答パターン５を有する。マイクロフォン４２、４４の重なり合う領域６は、スピーチ方向１において、組み合わされた応答パターン４６を生成する。

左のマイクロフォン４２は、左の信号４８を生成する。右のマイクロフォン４４は、右の信号５０を生成する。フィルタ推定器５２は左の信号４８及び右の信号５０を受け取り、フィルタ係数５４を生成する。加算器５６は、左の信号４８及び右の信号５０を合計して、合計信号５８を生成する。フィルタ６０は、フィルタ係数５４を用いて、合計信号５８をフィルタ処理して、方向１以外の方向からの無相関雑音による影響が減少された、方向１からのスピーチを有する出力信号６２を生成するようにする。

ここで図４を参照すると、本発明の実施形態によるフィルタ係数推定を示すブロック図が示される。フィルタ推定器５２は、左のマイクロフォン４２からの左の信号４８、及び、右のマイクロフォン４４からの右の信号５０を受け取る空間フィルタ７０を含む。空間フィルタ７０は、マイクロフォン信号４８、５０のうちの少なくとも１つより高い比率の雑音、又はより高い比率の信号を有する少なくとも１つの信号を含むことのできるフィルタ処理された信号７２を生成する。空間フィルタ７０はさらに、環境における雑音源の特定のサブセット、又は、マイクロフォン４２、４４に対して特定の方向の組から発生する雑音源からのより大きい容量を含むフィルタ処理された信号７２を生成できる。

コヒーレンス推定器７４は、フィルタ処理された信号７２の少なくとも１つを受け取り、コヒーレンス係数７６を生成する。相関係数推定器７８は、フィルタ処理された信号７２の少なくとも１つを受け取り、少なくとも１つの相関係数８０を生成する。フィルタ係数５４は、コヒーレンス係数７６及び相関係数８０に基づくものである。図示実施形態においては、コヒーレンス係数７６は、相関係数８０で基準化される。

ここで、本発明の実施形態の数学的実装が与えられる。ここでの仮定は、合計された雑音Ｎ_L及びＮ_Rはコヒーレントではないが、左のマイクロフォン４４（Ｓｐｅｅｃｈ_L）及び右のマイクロフォン４８（Ｓｐｅｅｃｈ_R）による解釈はコヒーレントであるというものである。このことは、所望のスピーチ信号と合計された雑音Ｎ_L及びＮ_Rとの間の信号対雑音の比を最大にするコヒーレンス関数に基づいた最適なフィルタの構成を可能にする。

２つの信号Ｘ及びＹのコヒーレンス関数は、以下のように定義でき、

ここで、Ｓ_x（ω）及びＳ_y（ω）は、信号Ｘ及びＹの複素フーリエ変換であり、Ｓ_xy（ω）は信号Ｘ及びＹの複素コスペクトルであり、〈＊〉は、１コマごとの記号の平均である。

スペクトルＳ_L（ω）及びＳ_R（ω）は、スピーチＳ_SP（ω）の複素スペクトル、及び、合計された雑音の複素スペクトルにより定義することができ、Ｓ_NL（ω）は合計されたＮ_Lであり、Ｓ_NR（ω）は合計されたＮ_Rである。このように、左及び右のチャネルについてのフーリエ変換は、以下のように表すことができる。
Ｓ_L（ω）＝Ｓ_SP（ω）＋Ｓ_NL（ω）
Ｓ_R（ω）＝Ｓ_SP（ω）＋Ｓ_NR（ω）
次いで、スペクトルの大きさの二乗は以下のようになる。
Ｓ_L ²（ω）＝Ｓ_SP ²（ω）＋Ｓ_NL ²（ω）
Ｓ_R ²（ω）＝Ｓ_SP ²（ω）＋Ｓ_NR ²（ω）
左及び右のチャネルの複素コスペクトルは、以下のように表すことができる。

Ｓ_P、Ｎ_L及びＮ_Rは、独立した源であるので、以下の不等式は、それぞれの積について成り立つ。

さらに、その帯域におけるスピーチのパワーが大きい場合には、スピーチにより占められる周波数帯ωにおいて、Ｃｏｈ_LR（ω）⇒１である。しかしながら、スピーチがない場合には、Ｃｏｈ_LR（ω）は、ゼロと１との間にある。

スピーチ周波数帯においては、マイクロフォン２０及びマイクロフォン２０群の間に小さい距離が与えられると、無音の期間中のコヒーレンス（すなわち、スピーチが存在しないとき）は、１に近づくことになる。

従って、コヒーレンス関数は、スピーチ期間中は、スピーチについて良好な最適の濾過を有することになるが、無音期間中は、雑音を減少させるのにほとんど助けにならない。無音期間中に雑音を減少させるために、相関係数を用いることができる。

２つの信号Ｘ及びＹの相関関数は、以下のように定義することができ、

ここで、ＣＯＶは共分散を示し、ＶＡＲは、分散を示す。

周波数領域を用いる場合には、ＦＦＴフレームにおける平均を用いることができる。時間相関係数、Ｃｃｏｒｒ（κ）は、以下のように定義される。

ここで、κは、使用されたフレームの数（又はその等価な区分時間）であり、Ｎは、各フレームにおけるサンプルの数である。さらに、

及び

このように、スピーチ時間中は、Ｃｃｏｒｒ（κ）→１であり、無音期間中は、Ｃｃｏｒｒ（κ）→０である。

本発明の一実施形態においては、フレームκにおける推定フィルタＧ（ω、κ）は、以下のように、Ｃｃｏｒｒ（κ）及びＣｏｈ（ω、κ）の積を用いることにより得ることができる。
Ｇ（ω、κ）＝Ｃｏｈ（ω、κ）・Ｃｃｏｒｒ（κ）

多数のフレーム（Ｍ）を平均することを含むＣｃｏｒｒ（κ）を得るための別の方法は、以下の通りである。

この場合においては、同様に、
Ｇ（ω、κ）＝Ｃｏｈ（ω、κ）・Ｃｃｏｒｒ（κ）である。

ここで図５を参照すると、本発明の実施形態による空間的フィルタ処理を示すブロック図が示される。空間フィルタ７０は、左の信号４８及び右の信号５０を受け入れる。左の信号は、ブロック９０において遅延される。右の信号５０は、ブロック９２において遅延される。減算器９４は右の信号５０と遅延した左の信号４８との差を生成する。減算器９６は左の信号４８と遅延した右の信号５０との差を生成する。このように、一方のフィルタ処理された信号７２は、左側の雑音源により重畳されたスピーチ信号を含み、他方のものは、右側の雑音源により重畳されたスピーチ信号を含む。

ここで図６を参照すると、本発明の実施形態による複数の所望の音の信号を受け取るように配置されたマイクロフォンを示す概略図が示されている。多数の方向から届く多数の音は、２つ又はそれ以上のマイクロフォン群を用いて取得することができる。４つの群が示され、これらは、４つの関心のあるスピーチ源に向けることができる。

本発明の実施形態が図示及び説明されたが、これらの実施形態は、本発明のすべての可能な形態を図示し説明することを意図するものではない。例えば、説明においてスピーチが実施例として用いられたが、如何なる音源も、本発明により増幅することができる。明細書の中で用いられる用語は、限定ではなく説明の用語であり、本発明の精神及び範囲から離れることなく種々の変更が可能であることを理解すべきである。

本発明において用いることのできる異なる方向性をもつ２つのマイクロフォンのパターンを示す概略図である。本発明において用いることのできる異なる方向性を生成するために用いられる多数のマイクロフォンを示す概略図である。本発明の実施形態を示すブロック図である。本発明の実施形態によるフィルタ係数推定を示すブロック図である。本発明の実施形態による空間的フィルタ処理を示すブロック図である。本発明の実施形態による複数の所望の音の信号を受け取るように配置されたマイクロフォンを示す概略図である。

Claims

所望の音方向から来る所望の音を増幅する方法であって、
各々が、第１の主要な感度方向を含みかつ前記所望の音方向を含む第１の方向の組からの音を受け取る第１のマイクロフォンの、少なくとも１つにより受け取られた音から第１の信号を取得する工程、
各々が、前記第１の主要な感度方向とは異なる第２の主要な感度方向を含みかつ前記所望の音方向を含む第２の方向の組からの音を受け取る第２のマイクロフォンの、少なくとも１つにより受け取られた音から第２の信号を取得する工程、
前記第１の信号及び前記第２の信号のコヒーレンス、及び前記第１の信号及び前記第２の信号の間の相関性に基づいてフィルタ係数を求める工程、及び
前記第１の信号及び前記第２の信号の組み合わせを前記求められたフィルタ係数によりフィルタ処理する工程、
を含む方法。
前記第１の主要な感度方向が前記所望の音方向とは異なるものであり、前記第２の主要な感度方向が前記所望の音方向とは異なるものである請求項１に記載の所望の音を増幅する方法。
前記所望の音方向と前記第１の主要な感度方向との間の角度のオフセットと、前記所望の音方向と前記第２の主要な感度方向との間の角度オフセットとの大きさが等しい請求項１に記載の所望の音を増幅する方法。
フィルタ係数を求める工程が、
コヒーレンス係数を前記第１の信号及び前記第２の信号に基づいて求める工程、
相関係数を前記第１の信号及び前記第２の信号に基づいて求める工程、及び
前記コヒーレンス係数を前記相関係数で基準化する工程、
を含む請求項１に記載の所望の音を増幅する方法。
フィルタ係数を求める工程の前に、前記第１の信号及び前記第２の信号を空間的にフィルタ処理する工程をさらに含む請求項１に記載の所望の音を増幅する方法。
空間的にフィルタ処理する工程が、前記第１の信号の遅延バージョンを前記第２の信号から引き、前記第２の信号の遅延バージョンを前記第１の信号から引くことを含む請求項５に記載の所望の音を増幅する方法。
前記所望の音がスピーチを含む請求項５記載の所望の音を増幅する方法。
所望の音方向から受け取った所望の音を再生するシステムであって、
第１の方向に向けられ、少なくとも１つのマイクロフォンを含み、所望の音を含む受け取った音に応答して第１の信号を生成する第１のマイクロフォンの組と、
前記第１の方向とは異なる第２の方向に向けられ、少なくとも１つのマイクロフォンを含み、前記所望の音を含む受け取った音に応答して第２の信号を生成する第２のマイクロフォンの組と、
前記第１のマイクロフォンの組及び前記第２のマイクロフォンの組と接続し、前記第１の信号及び前記第２の信号のコヒーレンス並びに前記第１の信号及び前記第２の信号の間の相関性に基づいてフィルタ係数を求めるフィルタ推定器と、
前記フィルタ推定器、前記第１のマイクロフォンの組、及び前記第２のマイクロフォンの組と接続し、前記第１の信号及び前記第２の信号を前記求められたフィルタ係数によりフィルタ処理するフィルタと、
を備えることを特徴とするシステム。
前記第１の方向が前記所望の音方向とは異なり、前記第２の方向が前記所望の音方向とは異なる請求項８に記載の所望の音を再生するシステム。
前記所望の音方向が、実質的に前記第１の方向と前記第２の方向との間の中心にある請求項８に記載の所望の音を再生するシステム。
前記フィルタ推定器が、
前記第１の信号及び前記第２の信号を空間的にフィルタ処理することによりフィルタ処理された信号を生成する空間フィルタと、
前記フィルタ処理された信号に基づいてコヒーレンス係数を生成するコヒーレンス推定器と、
前記フィルタ処理された信号に基づいて相関係数を生成する相関係数推定器と、
前記コヒーレンス係数を前記相関係数で基準化することにより前記フィルタ係数を生成するスカラと、
を備える請求項８に記載の所望の音を再生するシステム。
前記相関係数が複数のフレームにわたる平均として求められる請求項１１に記載の所望の音を再生するシステム。
前記空間フィルタが、遅延された第１の信号を第２の信号から引くことにより、及び遅延された第２の信号を第１の信号から引くことにより、フィルタ処理された信号を生成する請求項１１に記載の所望の音を再生するシステム。
前記所望の音がスピーチを含む請求項８に記載の所望の音を再生するシステム。
各々の音の信号に含まれる所望の音方向からの所望の音を増幅するために、複数の受け取った音の信号をフィルタ処理するのに用いられるフィルタ係数を生成する方法であって、
所望の音方向を含む第１の方向の組から第１の音の信号を受け取る工程、
前記所望の音方向を含み、前記第１の方向の組の方向ではない方向を含む第２の方向の組から第２の音の信号を受け取る工程、
前記第１の音の信号及び前記第２の音の信号に基づいてコヒーレンス係数を求める工程、
前記第１の音の信号及び前記第２の音の信号に基づいて相関係数を求める工程、及び
前記コヒーレンス係数を前記相関係数で基準化することにより前記フィルタ係数を生成する工程、
を含む方法。
コヒーレンス係数を求める工程及び相関係数を求める工程の前に、前記第１の音の信号及び前記第２の音の信号を空間的にフィルタ処理する工程をさらに含む請求項１５に記載のフィルタ係数を生成する方法。
空間的にフィルタ処理する工程が、
前記第１の音の信号をバッファする工程、
前記第２の音の信号をバッファする工程、
前記第１の音の信号と前記バッファされた第２の音の信号との間の差を取得する工程、及び
前記第２の音の信号と前記バッファされた第１の音の信号との間の差を取得する工程、
を含む請求項１６に記載のフィルタ係数を生成する方法。
相関係数を求める工程が、複数のサンプリングフレームにわたる相関係数を平均する工程を含む請求項１５に記載のフィルタ係数を生成する方法。
前記所望の音がスピーチを含む請求項１５に記載のフィルタ係数を生成する方法。