JP2014194437A

JP2014194437A - 音声処理装置、音声処理方法および音声処理プログラム

Info

Publication number: JP2014194437A
Application number: JP2011140668A
Authority: JP
Inventors: Takayuki Arakawa; 隆行荒川; Osamu Hojuyama; 治宝珠山; Takenori Tsujikawa; 剛範辻川
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2011-06-24
Filing date: 2011-06-24
Publication date: 2014-10-09
Also published as: WO2012176932A1

Abstract

【課題】精度良く所望音声を検出すること。
【解決手段】雑音源から第１マイクまでの第１減衰率と、雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出手段と、減衰率比と第２マイクが入力した第２入力信号とを積算する積算手段と、積算手段による積算結果を、第１マイクが入力した第１入力信号から減算する減算手段と、減算手段による減算結果と、あらかじめ定めた閾値とを比較して、減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、を備えたことを特徴とする。
【選択図】図１

Description

本発明は、所望音声と雑音とが混在する混在信号を処理する音声処理技術に関する。

上記技術分野において、特許文献１に複数の指向性マイクを備えた音声検出装置の技術が開示されている。特許文献１では、２つのマイクで収音された信号のレベル差とパワー比を組み合せて用いることによって、雑音の大小によらず所望の音声を検知する技術が開示されている。

特開２００８−３０４４９８号公報

しかしながら、上記特許文献１の音声検出装置では、所望の音声が存在するときと存在しないときとで、信号のレベル差とパワー比の変化が少ない場合には、閾値の設定が困難で、精度良く音声検出を行なうことができなかった。

本発明の目的は、以上のような問題を解決することにある。

上記目的を達成するため、本発明に係る装置は、
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第１マイクが入力した第１入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする。

上記目的を達成するため、本発明に係る方法は、
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第１マイクが入力した第１入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする。

上記目的を達成するため、本発明に係るプログラムは、
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第１マイクが入力した第１入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする。

本発明によれば、精度良く所望音声を検出することができる。

本発明の第１実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置を説明する図である。本発明の第２実施形態に係る音声処理装置を説明する図である。本発明の第２実施形態に係る音声処理装置を説明する図である。本発明の第２実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第２実施形態に係る音声処理装置の処理の流れを説明するフローチャートである。本発明の第３実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第４実施形態に係る音声処理装置の構成を示すブロック図である。本発明の第４実施形態に係る音声処理装置の構成を説明する図である。

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。

［第１実施形態］
本発明の第１実施形態としての音声処理装置１００について、図１を用いて説明する。音声処理装置１００は、導出部１０１と積算部１０２と減算部１０３と判定部１０４とを備えている。

導出部１０１は、雑音源から第１マイク１１０までの第１減衰率と、雑音源から第２マイク１２０までの第２減衰率との減衰率比を導出する。

積算部１０２は、減衰率比と第２マイク１２０が入力した第２入力信号とを積算する。さらに、減算部１０３は、積算部１０２による積算結果を、第１マイク１１０が入力した第１入力信号から減算する。そして、判定部１０４は、減算１０３による減算結果と、あらかじめ定めた閾値とを比較して、減算結果が大きい場合に所望音声が存在するものと判定する。

以上のような構成によれば、精度良く所望音声を検出することができる。

［第２実施形態］
（前提技術）
図２に示すように２つのマイクと２つの音源が存在する場合を仮定する。

２つの音源のうち所望音声の発生源を音源２１０とし、雑音源を音源２２０とする。音源２１０で発生した音信号のパワーの時系列をＰＡ（ｔ）とし、音源２２０で発生した音信号のパワーの時系列をＰＢ（ｔ）とする。ＰＡ（ｔ）およびＰＢ（ｔ）は直接観測することのできない値である。

２つのマイクのうち音源２１０に近いものをマイク２０１とし、音源２１０から遠いものをマイク２０２とする。マイク２０１で収音された音信号のパワーの時系列をＰ１（ｔ）とし、マイク２０２で収音された音信号のパワーの時系列をＰ２（ｔ）とする。Ｐ１（ｔ）およびＰ２（ｔ）は直接観測可能な値である。

音源２１０で発生した音信号がマイク２０１およびマイク２０２に届くまでのパワーの減衰率をそれぞれｄＡ１、ｄＢ１とし、音源２２０で発生した音信号がマイク２０１およびマイク２０２に届くまでのパワーの減衰率をそれぞれｄＡ２，ｄＢ２とする。音源が点音源と考えられるとき、音声のパワーは距離の二乗に反比例して減少するため、減衰率は距離の二乗の逆数となる。

マイク２０１およびマイク２０２で収音される音信号のパワーの時系列は以下の関係を満たす。
Ｐ１（ｔ）＝ＰＡ（ｔ）×ｄＡ１＋ＰＢ（ｔ）×ｄＢ１
Ｐ２（ｔ）＝ＰＡ（ｔ）×ｄＡ２＋ＰＢ（ｔ）×ｄＢ２
マイク２０１とマイク２０２で収音される音信号のパワーの差の時系列Ｄ（ｔ）は以下の式で定義される。

Ｄ（ｔ）＝Ｐ１（ｔ）− Ｐ２（ｔ）
マイク２０１とマイク２０２で収音される音信号のパワーの比の時系列Ｒ（ｔ）は以下の式で定義される。

Ｒ（ｔ）＝Ｐ１（ｔ）／Ｐ２（ｔ）
所望の音声が存在せず雑音のみの場合、ＰＡ（ｔ）＝０、ＰＢ（ｔ）＞０となる。

このとき、パワーの差の時系列ＤＢ（ｔ）およびパワーの比の時系列ＲＢ（ｔ）は以下のように計算される。

ＤＢ（ｔ）＝ＰＢ（ｔ）×（ｄＢ１−ｄＢ２）
ＲＢ（ｔ）＝ｄＢ１／ｄＢ２
雑音が存在せず音声のみの場合、ＰＡ（ｔ）＞０、ＰＢ（ｔ）＝０となる。

このとき、パワーの差の時系列ＤＡ（ｔ）およびパワーの比の時系列ＲＡ（ｔ）は以下のように計算される。

ＤＡ（ｔ）＝ＰＡ（ｔ）×（ｄＡ１−ｄＡ２）
ＲＡ（ｔ）＝ｄＡ１／ｄＡ２
Ｄ（ｔ）とＤＡ（ｔ）およびＤＢ（ｔ）の間には以下の関係がある。

Ｄ（ｔ）＝ＤＡ（ｔ）＋ＤＢ（ｔ）
図３にＤ（ｔ）、ＤＡ（ｔ）、ＤＢ（ｔ）の時間変化の一例を示す。

また、Ｒ（ｔ）とＲＡ（ｔ）およびＲＢ（ｔ）の間には以下の関係がある。

Ｒ（ｔ）＝ α（ｔ）×ＲＡ（ｔ）＋（１−α（ｔ））×ＲＢ（ｔ）
ここで、α （ｔ）＝１／（１＋ＰＢ（ｔ）／ＰＡ（ｔ）×ｄＢ２／ｄＡ２）である。αは０から１の間の値となる。

図４にＲ（ｔ）、ＲＡ（ｔ）、ＲＢ（ｔ）の時間変化の一例を示す。図４に示すようにＲ（ｔ）の時系列はＲＡ（ｔ）とＲＢ（ｔ）の時系列の各時刻の値をα（ｔ）：１−α（ｔ）で内分した値の時系列である。

パワーの差の時系列Ｄ（ｔ）およびパワーの比の時系列Ｒ（ｔ）を用いた音声検出は、条件に応じて不得手がある。

音声検出では、特徴量と閾値の大小を比較することにより所望の音声の存在を判定する。この為、所望の音声が存在する時とそうでない時とで差分が大きい特徴量はよい特徴量であり、差分が少ない特徴量は悪い特徴量である。

パワーの差の時系列Ｄ（ｔ）が悪い特徴量となる条件は以下の４つの条件である。

・条件１−１：所望の音声のパワーの時系列ＰＡ（ｔ）の時間的変化（最大値と最小値の差）が小さい。→ＤＡ（ｔ）の時間的変化が小さくなる。

・条件１−２：雑音のパワーの時系列ＰＢ（ｔ）の時間的変化が大きい。→ＤＢ（ｔ）の時間的変化が大きくなる。

・条件１−３：所望の音声がマイク１およびマイク２に均等に入力する。→ｄＡ１≒ｄＡ２となるため、ＤＡ（ｔ）≒０となり、時間的変化が小さくなる。

・条件１−４：雑音がマイク２に多く入力し、マイク１に少なく入力する。→ＤＢ（ｔ）の時間的変化が大きくなる。

上記条件が当てはまる場合には、ＤＡ（ｔ）の時間変化がＤＢ（ｔ）の時間変化よりも小さくなり、閾値を決める事が困難になる。

これに対し、パワーの比の時系列Ｒ（ｔ）を用いた音声検出が悪い特徴量となる条件は以下の２つの条件である。

・条件２−１：所望の音声がマイク１およびマイク２に均等に入力する。→ｄＡ１≒ｄＡ２となるため、ＲＡ（ｔ）≒１となる。

・条件２−２：雑音がマイク１およびマイク２に均等に入力する。→ｄＢ１≒ｄＢ２となるため、ＲＢ（ｔ）≒１となる。

上記条件が当てはまる場合には、ＲＡ（ｔ）とＲＢ（ｔ）の差が小さくなり、閾値を決めることが困難になる。

マイクと口元の距離が遠いと、マイク１とマイク２に入力する所望の音声のレベルが近づいてしまう。この為、パワーの差Ｄ（ｔ）およびパワーの比Ｒ（ｔ）はともに閾値を決めることが困難となる。

本実施形態では、Ｄ（ｔ）やＲ（ｔ）を用いる代わりに、マイク１の音信号から雑音を抑圧したパワーの時系列Ｅ（ｔ）を用いて音声検出を行う。

雑音抑圧パワー時系列Ｅ（ｔ）を以下の式で定義する。

Ｅ（ｔ）＝Ｐ１（ｔ）−Ｑ（ｔ）×Ｐ２（ｔ）
ここで、Ｑ（ｔ）はＲＢ（ｔ）の推定値である。

仮にＲＢ（ｔ）を正しく推定できた場合、Ｅ（ｔ）は以下のように計算される。

Ｅ（ｔ）＝Ｐ１（ｔ）−ＲＢ（ｔ）×Ｐ２（ｔ）＝ＰＡ（ｔ）×ｄＡ１×（１ − ｄＢ１／ｄＢ２×ｄＡ２／ｄＡ１）
ｄＡ１／ｄＡ２＞ｄＢ１／ｄＢ２を満たすときＥ（ｔ）は必ず０以上の値となるため、閾値を０より少し大きい値に設定しておけば、所望の音声の存在の判定を行うことができる。閾値の値を小さく設定できるため、音声のパワーの値が小さくてもよい。この式には雑音のパワーの値が含まれないため、雑音の大小には依存しない。

Ｅ（ｔ）を音声の判定に用いることで、音声の大きさによらず閾値を０より少し大きさの大きい固定値に設定しておけばよいため、音声の大きさによらず音声検出ができる。またＥ（ｔ）には雑音の項が含まれないため、雑音の大きさには依存しない音声検出ができる。

（装置構成）
本発明の第２実施形態としての音声処理装置５００について、図５を用いて説明する。

図５に示すように、音声処理装置５００は、マイク２０１と、マイク２０２と、パワー算出部５０３と、パワー算出部５０４と、雑音パワー比推定部５０５と、雑音パワー推定部５０６と、雑音抑圧パワー推定部５０７と、閾値比較部５０８とを含む。マイク２０１はマイク２０２に較べ所望の音声の発生源に近いことが望ましい。マイク２０１では、所望の音声と雑音とが混在した第１混在信号を取得する。マイク２０２では、第１混在信号とは異なる割合で所望音声と雑音とが混在した第２混在信号を取得する。パワー算出部５０３は、第１混在信号を入力とし、パワーを算出し出力する。パワー算出部５０４は、第２混在信号を入力とし、パワーを算出し出力する。雑音パワー比推定部５０５は、第１混在信号のパワーと第２混在信号のパワーを入力とし、雑音パワー比を推定し出力する。雑音パワー推定部５０６は、第２混在信号のパワーと雑音パワー比を入力とし、第１混在信号に含まれる雑音パワーを推定し出力する。雑音抑圧パワー推定部５０７は、第１混在信号のパワーと第１混在信号に含まれる雑音パワーの推定値を入力とし、雑音抑圧パワーを推定し出力する。閾値比較部５０８は、雑音抑圧パワーとあらかじめ設定した閾値を入力とし、大小関係を比較することにより所望の音声が存在するか否かを判定する。

次に、図６および図７のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。

まず、マイク２０１において所望音声と雑音とが混在した第１混在信号を取得する（ステップＳ６０１）。また、マイク２０２において第１入力信号とは異なる割合で所望音声と雑音とが混在した第２混在信号を取得する。第１混在信号および第２混在信号は電位差などのアナログデータの時系列をＡＤ変換器でたとえば量子化サイズ１６ｂｉｔ，サンプリング数４４ｋＨｚのデジタルデータに変換し取得する。

パワー算出部１０３において第１混在信号からパワーの時系列を算出する。また、パワー算出部１０４において第２混在信号からパワーの時系列を算出する（ステップＳ６０２）。パワーは２０ミリ秒などの短時間単位ごとに切り出した単位に対して求める。単位時間ｔに対して算出された第１混在信号のパワーの時系列および第２混在信号のパワーの値をそれぞれ、Ｐ１（ｔ）、Ｐ２（ｔ）とする。パワーの算出方法としては、たとえば入力波形データをサンプルごとに二乗し、単位時間サンプリング点数に渡り平均したものを用いる。もしくは短時間フーリエ変換を行い周波数ごとに求まるスペクトルの二乗を計算し、周波数方向に平均したものを用いる方法などが考えられる。以降の処理は単位時間ごとに行うものとする。

雑音パワー比推定部１０５において、第１混在信号に含まれる雑音のパワーと第２混在信号に含まれる雑音のパワーの比Ｑ（ｔ）を推定する（ステップＳ６０３）。Ｑ（ｔ）の推定方法を求めるとしては以下の方法が考えられる。

雑音源が１つであり移動しないような理想環境では、この比は雑音源で発生するパワーの値には依存せず、位置関係にのみ依存し一定の値となる。このため、ユーザによる発声が行われる前の複数単位時間に対して第１混在信号のパワーＰ１（ｔ）と第２混在信号のパワーＰ２（ｔ）の比を求め、この平均値をＲＢ（ｔ）の推定値とし、以降同じ値を用い続ける。

あるいは、立ち上がりが遅く立ち下りが早い平均を用いてＱ（ｔ）を推定する方法も考えられる。具体的には以下の式を用いる。

Ｑ（ｔ）＝ β×Ｐ１（ｔ）／Ｐ２（ｔ）＋（１−β）×Ｑ（ｔ−１）
ここでβは０から１までの値である。Ｐ１（ｔ）／Ｐ２（ｔ）＞Ｑ（ｔ−１）のとき、βに０に近い値を用いる。Ｐ１（ｔ）／Ｐ２（ｔ）≦ Ｑ（ｔ−１）のとき、βに１に近い値を用いる。

他にも一般的な雑音推定法と同様の手順を用いてＱ（ｔ）を推定することが考えられる。一般的な雑音推定法を用いる際は、Ｐ１（ｔ）／Ｐ２（ｔ）を所望音声と雑音が混在した入力信号のパワーとみなし、この信号のパワーから雑音推定法を用いて雑音のパワーを推定し、Ｑ（ｔ）とする。一般的な雑音推定法の例としては、一定時間にわたり入力信号のパワーの最小値を覚えておき雑音のパワーとする方法などが考えられる。

雑音パワー推定部１０６において、第１混在信号に含まれる雑音のパワーを推定する（ステップＳ６０４）。雑音のパワーは、第２混在信号のパワーＰ２（ｔ）に、雑音パワー比Ｑ（ｔ）を乗算することによって推定する。

第１混在信号のパワーＰ２（ｔ）を直接推定する方法に較べて、このように第２混在信号のパワーＰ２（ｔ）と雑音パワー比ＲＢ（ｔ）を乗算する方法は、より精度が高く雑音を推定することができる。これは、雑音パワー比Ｑ（ｔ）の値が雑音の大きさにほとんど依存しないためである。

雑音抑圧パワー推定部１０７において、第１混在信号に含まれる雑音を抑圧し、雑音抑圧パワーＥ（ｔ）を推定する（ステップＳ６０５）。具体的には、第１混在信号から推定した雑音パワーを減算する。

Ｅ（ｔ）＝Ｐ１（ｔ）−Ｑ（ｔ）×Ｐ２（ｔ）
この他にも第１混在信号から推定した雑音パワーを数倍して減算してもよい。また、一般的な雑音除去の方法を用いて雑音抑圧パワーＥ（ｔ）を推定することも考えられる。一般的な雑音除去の方法を用いる際は、Ｐ１（ｔ）を所望音声と雑音が混在した入力信号のパワーとみなし、Ｑ（ｔ）×Ｐ２（ｔ）を推定した雑音のパワーとみなし、雑音除去の方法を用いて入力信号のパワーから推定した雑音のパワーを除去する。一般的な雑音除去の方法の例としては、単純な減算に加えて、雑音低減フィルタを算出し、入力信号のパワーに乗算することで、雑音のパワーを抑圧する方法などが考えられる。

閾値比較部１０８において、雑音抑圧パワーＥ（ｔ）とあらかじめ設定した閾値Θを比較し、所望の音声が存在するか否かを判定する（ステップＳ６０６）。Ｅ（ｔ）が閾値Θより大きければ音声があると判定し、そうでなければ音声が無いと判定する。閾値Θの値は０より少し大きい値に設定しておく。

雑音抑圧パワーＥ（ｔ）は雑音の大小によらず雑音をほぼ完全に除去する。第２混在信号に所望の音声が含まれる場合、雑音と共に所望の音声の一部が抑圧される。しかしながら、所望の音声がマイク２０２よりも少しでも多くマイク２０１に混入していれば、所望の音声すべてを消してしまうことは無い。このため、雑音抑圧パワーＥ（ｔ）と閾値Θを比較することにより所望の音声の存在を検出することができる。また、閾値Θの値は雑音の大きさには依存しないため、雑音によらない一定の値を用いることができる。この為、本構成を用いることで本発明の目的を達成することができる。

また、上記構成による音声検出は、周波数帯域を分割し、それぞれの周波数帯域ごとに行ってもよい。この場合、周波数帯域ごとに雑音抑圧パワーＥ（ｔ）を求め、その平均あるいは和と閾値を比較してもよいし、周波数帯域ごとに閾値との比較を行い、その結果を多数決など用いて統合してもよい。

［第３実施形態］
本発明の第３実施形態としての音声処理装置７００について図７を用いて説明する。

図７に示すとおり本実施形態は適応フィルタ７０１を備えることを特徴とする。

適応フィルタ７０１は、前記第２混在信号を入力とし、第２混在信号に含まれる雑音が第１混在信号に至るまでの経路（ノイズパス）のインパルス応答を近似し擬似雑音信号を生成する。第１混在信号から前記擬似雑音信号を差し引くことによって擬似強調信号が得られる。適応フィルタ７０１としては、特開平０８‐０５６１８０の従来例に記載の適応フィルタを使うことが考えられる。

擬似強調信号をパワー算出部１０３の入力とし、擬似雑音信号をパワー算出部２０４の入力とし、第１実施形態と同様の処理を行う。

第１混在信号に雑音が多く混入する、もしくは第２混在信号に音声が多く混入する場合、雑音抑圧パワーＥ（ｔ）は雑音だけでなく音声の一部も除去してしまう。第１混在信号の代わりに擬似強調信号を用い、第２混在信号の代わりに擬似雑音信号を用いることで、雑音抑圧パワーＥ（ｔ）を雑音だけを抑圧した値に近づけることができる。このため、第１実施形態に較べて誤りの少ない音声検出を行うことができる。

本実施形態に適したマイク配置を図２に示す。所望の音声の発生源２１０はマイク２０１に近くマイク２０２から遠く、雑音源２２０はマイク２０２に近くマイク２０１から遠い程、望ましい。所望の音声の発生源２１０からマイク２０１およびマイク２０２までの距離をそれぞれ、ｒＡ１、ｒＢ１とし、雑音源２２０からマイク２０１およびマイク２０２までの距離をそれぞれ、ｒＡ２、ｒＢ２とする。このとき、ｒＡ１／ｒＢ１の値がｒＡ２／ｒＢ２の値に較べて小さいほど望ましい。

［第４実施形態］
本発明の第４実施形態としての音声処理装置８００について図８を用いて説明する。図８に示すとおり本実施形態は第２実施形態の前段にビームフォーマ８０１とビームフォーマ８０２を備えることを特徴とする。

ビームフォーマ８０１では、第１混在信号と第２混在信号を時間波形領域での和を算出し、和信号を得る。ビームフォーマ８０２では、第１混在信号と第２混在信号の時間波形領域での差を算出し、差信号を得る。

和信号をパワー算出部５０３の入力とし、差信号をパワー算出部５０４の入力とし、第２実施形態と同様の処理を行う。

本実施形態に適したマイク配置を図９に示す。所望の音声の発生源２１０はマイク２０１とマイク２０２から等距離にあり、雑音源２２０はマイク２０１もしくはマイク２０２のどちらかに近い程、望ましい。

また、所望の音声の発生源２１０がマイク２０１もしくはマイク２０２のどちらかに近く、雑音源２２０がマイク２０１とマイク２０２から等距離にある場合には、ビームフォーマ８０１で差信号を算出し、ビームフォーマ８０２で和信号を算出し、差信号をパワー算出部１０３の入力とし、和信号をパワー算出部１０４の入力とする。

また、ビームフォーマ８０１で、所望の音声のある方向に対してビームを向けるビームフォーマを行い、ビームフォーマ８０２で、雑音のある方向に対してビームを向ける適応ビームフォーマを行う方法も考えられる。

［他の実施形態］
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。

また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるＷＷＷ（ＷｏｒｌｄＷｉｄｅＷｅｂ）サーバも、本発明の範疇に含まれる。
［実施形態の他の表現］
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
（付記１）
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第１マイクが入力した第１入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする音声処理装置。
（付記２）
所望音声が発生していない状態での前記第１入力信号と前記第２入力信号との入力信号比を算出する入力信号比算出手段をさらに有し、
前記導出手段は前記入力信号比を用いて、前記減衰率比を導出することを特徴とする付記１に記載の音声処理装置。
（付記３）
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第１入力信号と前記第２入力信号の比の平均値を計算し、前記入力信号比とすることを特徴とする付記１記載の音声処理装置。
（付記４）
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第１入力信号と前記第２入力信号の比であって、該比の立上りが早い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする付記３に記載の音声処理装置。
（付記５）
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第１入力信号と前記第２入力信号の比であって、該比の立下りが遅い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする付記３または４に記載の音声処理装置。
（付記６）
前記第１入力信号に混在した擬似雑音信号を前記第２入力信号から生成する線形フィルタをさらに備え、
前記第１入力信号から前記擬似雑音信号を減算することにより擬似音声信号を求める手段と、
をさらに備え、
前記積算手段は、前記減衰率比と前記擬似雑音信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似音声信号から減算することを特徴とする付記１乃至５のいずれか１項に記載の音声処理装置。
（付記７）
前記第１入力信号と前記第２入力信号との和信号を生成する第１ビームフォーマと、
前記第１入力信号と前記第２入力信号との差信号を生成する第２ビームフォーマと、
をさらに備え、
前記積算手段は、前記減衰率比と前記差信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記和信号から減算することを特徴とする付記１乃至６のいずれか１項に記載の音声処理装置。
（付記８）
所望音声の音源にビームを向けることにより前記第１入力信号と第２入力信号とから擬似音声信号を生成する第１ビームフォーマと、
雑音源にビームを向けることにより前記第１入力信号と第２入力信号から擬似雑音信号を生成する第２ビームフォーマとを備え、
前記積算手段は、前記減衰率比と前記擬似音声信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似雑音信号から減算することを特徴とする付記１乃至７のいずれか１項に記載の音声処理装置。
（付記９）
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第１マイクが入力した第１入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする音声処理方法。
（付記１０）
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第１マイクが入力した第１入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。

Claims

雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第１マイクが入力した第１入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする音声処理装置。
所望音声が発生していない状態での前記第１入力信号と前記第２入力信号との入力信号比を算出する入力信号比算出手段をさらに有し、
前記導出手段は前記入力信号比を用いて、前記減衰率比を導出することを特徴とする請求項１に記載の音声処理装置。
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第１入力信号と前記第２入力信号の比の平均値を計算し、前記入力信号比とすることを特徴とする請求項２に記載の音声処理装置。
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第１入力信号と前記第２入力信号の比であって、該比の立上りが早い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする請求項３に記載の音声処理装置。
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第１入力信号と前記第２入力信号の比であって、該比の立下りが遅い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする請求項３または４に記載の音声処理装置。
前記第１入力信号に混在した擬似雑音信号を前記第２入力信号から生成する線形フィルタと、
前記第１入力信号から前記擬似雑音信号を減算することにより擬似音声信号を求める手段と、
をさらに備え、
前記積算手段は、前記減衰率比と前記擬似雑音信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似音声信号から減算することを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。
前記第１入力信号と前記第２入力信号との和信号を生成する第１ビームフォーマと、
前記第１入力信号と前記第２入力信号との差信号を生成する第２ビームフォーマと、
をさらに備え、
前記積算手段は、前記減衰率比と前記差信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記和信号から減算することを特徴とする請求項１乃至５のいずれか１項に記載の音声処理装置。
所望音声の音源にビームを向けることにより前記第１入力信号と第２入力信号とから擬似音声信号を生成する第１ビームフォーマと、
雑音源にビームを向けることにより前記第１入力信号と第２入力信号から擬似雑音信号を生成する第２ビームフォーマとを備え、
前記積算手段は、前記減衰率比と前記擬似音声信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似雑音信号から減算することを特徴とする請求項１乃至７のいずれか１項に記載の音声処理装置。
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第１マイクが入力した第１入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする音声処理方法。
雑音源から第１マイクまでの第１減衰率と、前記雑音源から第２マイクまでの第２減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第２マイクが入力した第２入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第１マイクが入力した第１入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。