JP2014194437A - 音声処理装置、音声処理方法および音声処理プログラム - Google Patents
音声処理装置、音声処理方法および音声処理プログラム Download PDFInfo
- Publication number
- JP2014194437A JP2014194437A JP2011140668A JP2011140668A JP2014194437A JP 2014194437 A JP2014194437 A JP 2014194437A JP 2011140668 A JP2011140668 A JP 2011140668A JP 2011140668 A JP2011140668 A JP 2011140668A JP 2014194437 A JP2014194437 A JP 2014194437A
- Authority
- JP
- Japan
- Prior art keywords
- input signal
- ratio
- microphone
- signal
- noise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
【課題】精度良く所望音声を検出すること。
【解決手段】雑音源から第1マイクまでの第1減衰率と、雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、減衰率比と第2マイクが入力した第2入力信号とを積算する積算手段と、積算手段による積算結果を、第1マイクが入力した第1入力信号から減算する減算手段と、減算手段による減算結果と、あらかじめ定めた閾値とを比較して、減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、を備えたことを特徴とする。
【選択図】 図1
【解決手段】雑音源から第1マイクまでの第1減衰率と、雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、減衰率比と第2マイクが入力した第2入力信号とを積算する積算手段と、積算手段による積算結果を、第1マイクが入力した第1入力信号から減算する減算手段と、減算手段による減算結果と、あらかじめ定めた閾値とを比較して、減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、を備えたことを特徴とする。
【選択図】 図1
Description
本発明は、所望音声と雑音とが混在する混在信号を処理する音声処理技術に関する。
上記技術分野において、特許文献1に複数の指向性マイクを備えた音声検出装置の技術が開示されている。特許文献1では、2つのマイクで収音された信号のレベル差とパワー比を組み合せて用いることによって、雑音の大小によらず所望の音声を検知する技術が開示されている。
しかしながら、上記特許文献1の音声検出装置では、所望の音声が存在するときと存在しないときとで、信号のレベル差とパワー比の変化が少ない場合には、閾値の設定が困難で、精度良く音声検出を行なうことができなかった。
本発明の目的は、以上のような問題を解決することにある。
上記目的を達成するため、本発明に係る装置は、
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第1マイクが入力した第1入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする。
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第1マイクが入力した第1入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする。
上記目的を達成するため、本発明に係る方法は、
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする。
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする。
上記目的を達成するため、本発明に係るプログラムは、
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする。
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする。
本発明によれば、精度良く所望音声を検出することができる。
以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
[第1実施形態]
本発明の第1実施形態としての音声処理装置100について、図1を用いて説明する。 音声処理装置100は、導出部101と積算部102と減算部103と判定部104とを備えている。
本発明の第1実施形態としての音声処理装置100について、図1を用いて説明する。 音声処理装置100は、導出部101と積算部102と減算部103と判定部104とを備えている。
導出部101は、雑音源から第1マイク110までの第1減衰率と、雑音源から第2マイク120までの第2減衰率との減衰率比を導出する。
積算部102は、減衰率比と第2マイク120が入力した第2入力信号とを積算する。さらに、減算部103は、積算部102による積算結果を、第1マイク110が入力した第1入力信号から減算する。そして、判定部104は、減算103による減算結果と、あらかじめ定めた閾値とを比較して、減算結果が大きい場合に所望音声が存在するものと判定する。
以上のような構成によれば、精度良く所望音声を検出することができる。
[第2実施形態]
(前提技術)
図2に示すように2つのマイクと2つの音源が存在する場合を仮定する。
(前提技術)
図2に示すように2つのマイクと2つの音源が存在する場合を仮定する。
2つの音源のうち所望音声の発生源を音源210とし、雑音源を音源220とする。音源210で発生した音信号のパワーの時系列をPA(t)とし、音源220で発生した音信号のパワーの時系列をPB(t)とする。PA(t)およびPB(t)は直接観測することのできない値である。
2つのマイクのうち音源210に近いものをマイク201とし、音源210から遠いものをマイク202とする。マイク201で収音された音信号のパワーの時系列をP1(t)とし、マイク202で収音された音信号のパワーの時系列をP2(t)とする。P1(t)およびP2(t)は直接観測可能な値である。
音源210で発生した音信号がマイク201およびマイク202に届くまでのパワーの減衰率をそれぞれdA1、dB1とし、音源220で発生した音信号がマイク201およびマイク202に届くまでのパワーの減衰率をそれぞれdA2,dB2とする。音源が点音源と考えられるとき、音声のパワーは距離の二乗に反比例して減少するため、減衰率は距離の二乗の逆数となる。
マイク201およびマイク202で収音される音信号のパワーの時系列は以下の関係を満たす。
P1(t)= PA(t)×dA1 + PB(t)×dB1
P2(t)= PA(t)×dA2 + PB(t)×dB2
マイク201とマイク202で収音される音信号のパワーの差の時系列D(t)は以下の式で定義される。
P1(t)= PA(t)×dA1 + PB(t)×dB1
P2(t)= PA(t)×dA2 + PB(t)×dB2
マイク201とマイク202で収音される音信号のパワーの差の時系列D(t)は以下の式で定義される。
D(t)= P1(t)− P2(t)
マイク201とマイク202で収音される音信号のパワーの比の時系列R(t)は以下の式で定義される。
マイク201とマイク202で収音される音信号のパワーの比の時系列R(t)は以下の式で定義される。
R(t)= P1(t)/ P2(t)
所望の音声が存在せず雑音のみの場合、PA(t)=0、PB(t)>0となる。
所望の音声が存在せず雑音のみの場合、PA(t)=0、PB(t)>0となる。
このとき、パワーの差の時系列DB(t)およびパワーの比の時系列RB(t)は以下のように計算される。
DB(t)= PB(t)×(dB1−dB2)
RB(t)= dB1/dB2
雑音が存在せず音声のみの場合、PA(t)>0、PB(t)=0となる。
RB(t)= dB1/dB2
雑音が存在せず音声のみの場合、PA(t)>0、PB(t)=0となる。
このとき、パワーの差の時系列DA(t)およびパワーの比の時系列RA(t)は以下のように計算される。
DA(t)= PA(t)×(dA1−dA2)
RA(t)= dA1/dA2
D(t)とDA(t)およびDB(t)の間には以下の関係がある。
RA(t)= dA1/dA2
D(t)とDA(t)およびDB(t)の間には以下の関係がある。
D(t)= DA(t)+DB(t)
図3にD(t)、DA(t)、DB(t)の時間変化の一例を示す。
図3にD(t)、DA(t)、DB(t)の時間変化の一例を示す。
また、R(t)とRA(t)およびRB(t)の間には以下の関係がある。
R(t)= α(t)×RA(t)+(1−α(t))×RB(t)
ここで、α (t)= 1/(1+PB(t)/PA(t)×dB2/dA2)である。αは0から1の間の値となる。
ここで、α (t)= 1/(1+PB(t)/PA(t)×dB2/dA2)である。αは0から1の間の値となる。
図4にR(t)、RA(t)、RB(t)の時間変化の一例を示す。図4に示すようにR(t)の時系列はRA(t)とRB(t)の時系列の各時刻の値をα(t):1−α(t)で内分した値の時系列である。
パワーの差の時系列D(t)およびパワーの比の時系列R(t)を用いた音声検出は、条件に応じて不得手がある。
音声検出では、特徴量と閾値の大小を比較することにより所望の音声の存在を判定する。この為、所望の音声が存在する時とそうでない時とで差分が大きい特徴量はよい特徴量であり、差分が少ない特徴量は悪い特徴量である。
パワーの差の時系列D(t)が悪い特徴量となる条件は以下の4つの条件である。
・条件1−1:所望の音声のパワーの時系列PA(t)の時間的変化(最大値と最小値の差)が小さい。→DA(t)の時間的変化が小さくなる。
・条件1−2:雑音のパワーの時系列PB(t)の時間的変化が大きい。→DB(t)の時間的変化が大きくなる。
・条件1−3:所望の音声がマイク1およびマイク2に均等に入力する。→dA1≒dA2となるため、DA(t)≒0となり、時間的変化が小さくなる。
・条件1−4:雑音がマイク2に多く入力し、マイク1に少なく入力する。→DB(t)の時間的変化が大きくなる。
上記条件が当てはまる場合には、DA(t)の時間変化がDB(t)の時間変化よりも小さくなり、閾値を決める事が困難になる。
これに対し、パワーの比の時系列R(t)を用いた音声検出が悪い特徴量となる条件は以下の2つの条件である。
・条件2−1:所望の音声がマイク1およびマイク2に均等に入力する。→dA1≒dA2となるため、RA(t)≒1となる。
・条件2−2:雑音がマイク1およびマイク2に均等に入力する。→dB1≒dB2となるため、RB(t)≒1となる。
上記条件が当てはまる場合には、RA(t)とRB(t)の差が小さくなり、閾値を決めることが困難になる。
マイクと口元の距離が遠いと、マイク1とマイク2に入力する所望の音声のレベルが近づいてしまう。この為、パワーの差D(t)およびパワーの比R(t)はともに閾値を決めることが困難となる。
本実施形態では、D(t)やR(t)を用いる代わりに、マイク1の音信号から雑音を抑圧したパワーの時系列E(t)を用いて音声検出を行う。
雑音抑圧パワー時系列E(t)を以下の式で定義する。
E(t)= P1(t)−Q(t)×P2(t)
ここで、Q(t)はRB(t)の推定値である。
ここで、Q(t)はRB(t)の推定値である。
仮にRB(t)を正しく推定できた場合、E(t)は以下のように計算される。
E(t)= P1(t)−RB(t)×P2(t)= PA(t)×dA1×(1 − dB1/dB2×dA2/dA1)
dA1/dA2 > dB1/dB2を満たすときE(t)は必ず0以上の値となるため、閾値を0より少し大きい値に設定しておけば、所望の音声の存在の判定を行うことができる。閾値の値を小さく設定できるため、音声のパワーの値が小さくてもよい。この式には雑音のパワーの値が含まれないため、雑音の大小には依存しない。
dA1/dA2 > dB1/dB2を満たすときE(t)は必ず0以上の値となるため、閾値を0より少し大きい値に設定しておけば、所望の音声の存在の判定を行うことができる。閾値の値を小さく設定できるため、音声のパワーの値が小さくてもよい。この式には雑音のパワーの値が含まれないため、雑音の大小には依存しない。
E(t)を音声の判定に用いることで、音声の大きさによらず閾値を0より少し大きさの大きい固定値に設定しておけばよいため、音声の大きさによらず音声検出ができる。またE(t)には雑音の項が含まれないため、雑音の大きさには依存しない音声検出ができる。
(装置構成)
本発明の第2実施形態としての音声処理装置500について、図5を用いて説明する。
本発明の第2実施形態としての音声処理装置500について、図5を用いて説明する。
図5に示すように、音声処理装置500は、マイク201と、マイク202と、パワー算出部503と、パワー算出部504と、雑音パワー比推定部505と、雑音パワー推定部506と、雑音抑圧パワー推定部507と、閾値比較部508とを含む。マイク201はマイク202に較べ所望の音声の発生源に近いことが望ましい。マイク201では、所望の音声と雑音とが混在した第1混在信号を取得する。マイク202では、第1混在信号とは異なる割合で所望音声と雑音とが混在した第2混在信号を取得する。パワー算出部503は、第1混在信号を入力とし、パワーを算出し出力する。パワー算出部504は、第2混在信号を入力とし、パワーを算出し出力する。雑音パワー比推定部505は、第1混在信号のパワーと第2混在信号のパワーを入力とし、雑音パワー比を推定し出力する。雑音パワー推定部506は、第2混在信号のパワーと雑音パワー比を入力とし、第1混在信号に含まれる雑音パワーを推定し出力する。雑音抑圧パワー推定部507は、第1混在信号のパワーと第1混在信号に含まれる雑音パワーの推定値を入力とし、雑音抑圧パワーを推定し出力する。閾値比較部508は、雑音抑圧パワーとあらかじめ設定した閾値を入力とし、大小関係を比較することにより所望の音声が存在するか否かを判定する。
次に、図6および図7のフローチャートを参照して本実施形態の全体の動作について詳細に説明する。
まず、マイク201において所望音声と雑音とが混在した第1混在信号を取得する(ステップS601)。また、マイク202において第1入力信号とは異なる割合で所望音声と雑音とが混在した第2混在信号を取得する。第1混在信号および第2混在信号は電位差などのアナログデータの時系列をAD変換器でたとえば量子化サイズ16bit, サンプリング数44kHzのデジタルデータに変換し取得する。
パワー算出部103において第1混在信号からパワーの時系列を算出する。また、パワー算出部104において第2混在信号からパワーの時系列を算出する(ステップS602)。パワーは20ミリ秒などの短時間単位ごとに切り出した単位に対して求める。単位時間tに対して算出された第1混在信号のパワーの時系列および第2混在信号のパワーの値をそれぞれ、P1(t)、P2(t)とする。パワーの算出方法としては、たとえば入力波形データをサンプルごとに二乗し、単位時間サンプリング点数に渡り平均したものを用いる。もしくは短時間フーリエ変換を行い周波数ごとに求まるスペクトルの二乗を計算し、周波数方向に平均したものを用いる方法などが考えられる。以降の処理は単位時間ごとに行うものとする。
雑音パワー比推定部105において、第1混在信号に含まれる雑音のパワーと第2混在信号に含まれる雑音のパワーの比Q(t)を推定する(ステップS603)。Q(t)の推定方法を求めるとしては以下の方法が考えられる。
雑音源が1つであり移動しないような理想環境では、この比は雑音源で発生するパワーの値には依存せず、位置関係にのみ依存し一定の値となる。このため、ユーザによる発声が行われる前の複数単位時間に対して第1混在信号のパワーP1(t)と第2混在信号のパワーP2(t)の比を求め、この平均値をRB(t)の推定値とし、以降同じ値を用い続ける。
あるいは、立ち上がりが遅く立ち下りが早い平均を用いてQ(t)を推定する方法も考えられる。具体的には以下の式を用いる。
Q(t) = β×P1(t)/P2(t)+(1−β)×Q(t−1)
ここでβは0から1までの値である。P1(t)/P2(t)> Q(t−1)のとき、βに0に近い値を用いる。P1(t)/P2(t)≦ Q(t−1)のとき、βに1に近い値を用いる。
ここでβは0から1までの値である。P1(t)/P2(t)> Q(t−1)のとき、βに0に近い値を用いる。P1(t)/P2(t)≦ Q(t−1)のとき、βに1に近い値を用いる。
他にも一般的な雑音推定法と同様の手順を用いてQ(t)を推定することが考えられる。一般的な雑音推定法を用いる際は、P1(t)/P2(t)を所望音声と雑音が混在した入力信号のパワーとみなし、この信号のパワーから雑音推定法を用いて雑音のパワーを推定し、Q(t)とする。一般的な雑音推定法の例としては、一定時間にわたり入力信号のパワーの最小値を覚えておき雑音のパワーとする方法などが考えられる。
雑音パワー推定部106において、第1混在信号に含まれる雑音のパワーを推定する(ステップS604)。雑音のパワーは、第2混在信号のパワーP2(t)に、雑音パワー比Q(t)を乗算することによって推定する。
第1混在信号のパワーP2(t)を直接推定する方法に較べて、このように第2混在信号のパワーP2(t)と雑音パワー比RB(t)を乗算する方法は、より精度が高く雑音を推定することができる。これは、雑音パワー比Q(t)の値が雑音の大きさにほとんど依存しないためである。
雑音抑圧パワー推定部107において、第1混在信号に含まれる雑音を抑圧し、雑音抑圧パワーE(t)を推定する(ステップS605)。具体的には、第1混在信号から推定した雑音パワーを減算する。
E(t)=P1(t)−Q(t)×P2(t)
この他にも第1混在信号から推定した雑音パワーを数倍して減算してもよい。また、一般的な雑音除去の方法を用いて雑音抑圧パワーE(t)を推定することも考えられる。一般的な雑音除去の方法を用いる際は、P1(t)を所望音声と雑音が混在した入力信号のパワーとみなし、Q(t)×P2(t)を推定した雑音のパワーとみなし、雑音除去の方法を用いて入力信号のパワーから推定した雑音のパワーを除去する。一般的な雑音除去の方法の例としては、単純な減算に加えて、雑音低減フィルタを算出し、入力信号のパワーに乗算することで、雑音のパワーを抑圧する方法などが考えられる。
この他にも第1混在信号から推定した雑音パワーを数倍して減算してもよい。また、一般的な雑音除去の方法を用いて雑音抑圧パワーE(t)を推定することも考えられる。一般的な雑音除去の方法を用いる際は、P1(t)を所望音声と雑音が混在した入力信号のパワーとみなし、Q(t)×P2(t)を推定した雑音のパワーとみなし、雑音除去の方法を用いて入力信号のパワーから推定した雑音のパワーを除去する。一般的な雑音除去の方法の例としては、単純な減算に加えて、雑音低減フィルタを算出し、入力信号のパワーに乗算することで、雑音のパワーを抑圧する方法などが考えられる。
閾値比較部108において、雑音抑圧パワーE(t)とあらかじめ設定した閾値Θを比較し、所望の音声が存在するか否かを判定する(ステップS606)。E(t)が閾値Θより大きければ音声があると判定し、そうでなければ音声が無いと判定する。閾値Θの値は0より少し大きい値に設定しておく。
雑音抑圧パワーE(t)は雑音の大小によらず雑音をほぼ完全に除去する。第2混在信号に所望の音声が含まれる場合、雑音と共に所望の音声の一部が抑圧される。しかしながら、所望の音声がマイク202よりも少しでも多くマイク201に混入していれば、所望の音声すべてを消してしまうことは無い。このため、雑音抑圧パワーE(t)と閾値Θを比較することにより所望の音声の存在を検出することができる。また、閾値Θの値は雑音の大きさには依存しないため、雑音によらない一定の値を用いることができる。この為、本構成を用いることで本発明の目的を達成することができる。
また、上記構成による音声検出は、周波数帯域を分割し、それぞれの周波数帯域ごとに行ってもよい。この場合、周波数帯域ごとに雑音抑圧パワーE(t)を求め、その平均あるいは和と閾値を比較してもよいし、周波数帯域ごとに閾値との比較を行い、その結果を多数決など用いて統合してもよい。
[第3実施形態]
本発明の第3実施形態としての音声処理装置700について図7を用いて説明する。
本発明の第3実施形態としての音声処理装置700について図7を用いて説明する。
図7に示すとおり本実施形態は適応フィルタ701を備えることを特徴とする。
適応フィルタ701は、前記第2混在信号を入力とし、第2混在信号に含まれる雑音が第1混在信号に至るまでの経路(ノイズパス)のインパルス応答を近似し擬似雑音信号を生成する。第1混在信号から前記擬似雑音信号を差し引くことによって擬似強調信号が得られる。適応フィルタ701としては、特開平08‐056180の従来例に記載の適応フィルタを使うことが考えられる。
擬似強調信号をパワー算出部103の入力とし、擬似雑音信号をパワー算出部204の入力とし、第1実施形態と同様の処理を行う。
第1混在信号に雑音が多く混入する、もしくは第2混在信号に音声が多く混入する場合、雑音抑圧パワーE(t)は雑音だけでなく音声の一部も除去してしまう。第1混在信号の代わりに擬似強調信号を用い、第2混在信号の代わりに擬似雑音信号を用いることで、雑音抑圧パワーE(t)を雑音だけを抑圧した値に近づけることができる。このため、第1実施形態に較べて誤りの少ない音声検出を行うことができる。
本実施形態に適したマイク配置を図2に示す。所望の音声の発生源210はマイク201に近くマイク202から遠く、雑音源220はマイク202に近くマイク201から遠い程、望ましい。所望の音声の発生源210からマイク201およびマイク202までの距離をそれぞれ、rA1、rB1とし、雑音源220からマイク201およびマイク202までの距離をそれぞれ、rA2、rB2とする。このとき、rA1/rB1の値がrA2/rB2の値に較べて小さいほど望ましい。
[第4実施形態]
本発明の第4実施形態としての音声処理装置800について図8を用いて説明する。図8に示すとおり本実施形態は第2実施形態の前段にビームフォーマ801とビームフォーマ802を備えることを特徴とする。
本発明の第4実施形態としての音声処理装置800について図8を用いて説明する。図8に示すとおり本実施形態は第2実施形態の前段にビームフォーマ801とビームフォーマ802を備えることを特徴とする。
ビームフォーマ801では、第1混在信号と第2混在信号を時間波形領域での和を算出し、和信号を得る。ビームフォーマ802では、第1混在信号と第2混在信号の時間波形領域での差を算出し、差信号を得る。
和信号をパワー算出部503の入力とし、差信号をパワー算出部504の入力とし、第2実施形態と同様の処理を行う。
本実施形態に適したマイク配置を図9に示す。所望の音声の発生源210はマイク201とマイク202から等距離にあり、雑音源220はマイク201もしくはマイク202のどちらかに近い程、望ましい。
また、所望の音声の発生源210がマイク201もしくはマイク202のどちらかに近く、雑音源220がマイク201とマイク202から等距離にある場合には、ビームフォーマ801で差信号を算出し、ビームフォーマ802で和信号を算出し、差信号をパワー算出部103の入力とし、和信号をパワー算出部104の入力とする。
また、ビームフォーマ801で、所望の音声のある方向に対してビームを向けるビームフォーマを行い、ビームフォーマ802で、雑音のある方向に対してビームを向ける適応ビームフォーマを行う方法も考えられる。
[他の実施形態]
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する情報処理プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされるプログラム、あるいはそのプログラムを格納した媒体、そのプログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第1マイクが入力した第1入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする音声処理装置。
(付記2)
所望音声が発生していない状態での前記第1入力信号と前記第2入力信号との入力信号比を算出する入力信号比算出手段をさらに有し、
前記導出手段は前記入力信号比を用いて、前記減衰率比を導出することを特徴とする付記1に記載の音声処理装置。
(付記3)
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比の平均値を計算し、前記入力信号比とすることを特徴とする付記1記載の音声処理装置。
(付記4)
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比であって、該比の立上りが早い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする付記3に記載の音声処理装置。
(付記5)
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比であって、該比の立下りが遅い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする付記3または4に記載の音声処理装置。
(付記6)
前記第1入力信号に混在した擬似雑音信号を前記第2入力信号から生成する線形フィルタをさらに備え、
前記第1入力信号から前記擬似雑音信号を減算することにより擬似音声信号を求める手段と、
をさらに備え、
前記積算手段は、前記減衰率比と前記擬似雑音信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似音声信号から減算することを特徴とする付記1乃至5のいずれか1項に記載の音声処理装置。
(付記7)
前記第1入力信号と前記第2入力信号との和信号を生成する第1ビームフォーマと、
前記第1入力信号と前記第2入力信号との差信号を生成する第2ビームフォーマと、
をさらに備え、
前記積算手段は、前記減衰率比と前記差信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記和信号から減算することを特徴とする付記1乃至6のいずれか1項に記載の音声処理装置。
(付記8)
所望音声の音源にビームを向けることにより前記第1入力信号と第2入力信号とから擬似音声信号を生成する第1ビームフォーマと、
雑音源にビームを向けることにより前記第1入力信号と第2入力信号から擬似雑音信号を生成する第2ビームフォーマとを備え、
前記積算手段は、前記減衰率比と前記擬似音声信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似雑音信号から減算することを特徴とする付記1乃至7のいずれか1項に記載の音声処理装置。
(付記9)
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする音声処理方法。
(付記10)
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。
[実施形態の他の表現]
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第1マイクが入力した第1入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする音声処理装置。
(付記2)
所望音声が発生していない状態での前記第1入力信号と前記第2入力信号との入力信号比を算出する入力信号比算出手段をさらに有し、
前記導出手段は前記入力信号比を用いて、前記減衰率比を導出することを特徴とする付記1に記載の音声処理装置。
(付記3)
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比の平均値を計算し、前記入力信号比とすることを特徴とする付記1記載の音声処理装置。
(付記4)
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比であって、該比の立上りが早い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする付記3に記載の音声処理装置。
(付記5)
前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比であって、該比の立下りが遅い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする付記3または4に記載の音声処理装置。
(付記6)
前記第1入力信号に混在した擬似雑音信号を前記第2入力信号から生成する線形フィルタをさらに備え、
前記第1入力信号から前記擬似雑音信号を減算することにより擬似音声信号を求める手段と、
をさらに備え、
前記積算手段は、前記減衰率比と前記擬似雑音信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似音声信号から減算することを特徴とする付記1乃至5のいずれか1項に記載の音声処理装置。
(付記7)
前記第1入力信号と前記第2入力信号との和信号を生成する第1ビームフォーマと、
前記第1入力信号と前記第2入力信号との差信号を生成する第2ビームフォーマと、
をさらに備え、
前記積算手段は、前記減衰率比と前記差信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記和信号から減算することを特徴とする付記1乃至6のいずれか1項に記載の音声処理装置。
(付記8)
所望音声の音源にビームを向けることにより前記第1入力信号と第2入力信号とから擬似音声信号を生成する第1ビームフォーマと、
雑音源にビームを向けることにより前記第1入力信号と第2入力信号から擬似雑音信号を生成する第2ビームフォーマとを備え、
前記積算手段は、前記減衰率比と前記擬似音声信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似雑音信号から減算することを特徴とする付記1乃至7のいずれか1項に記載の音声処理装置。
(付記9)
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする音声処理方法。
(付記10)
雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。
Claims (10)
- 雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出手段と、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算手段と、
前記積算手段による積算結果を、前記第1マイクが入力した第1入力信号から減算する減算手段と、
前記減算手段による減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定手段と、
を備えたことを特徴とする音声処理装置。 - 所望音声が発生していない状態での前記第1入力信号と前記第2入力信号との入力信号比を算出する入力信号比算出手段をさらに有し、
前記導出手段は前記入力信号比を用いて、前記減衰率比を導出することを特徴とする請求項1に記載の音声処理装置。 - 前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比の平均値を計算し、前記入力信号比とすることを特徴とする請求項2に記載の音声処理装置。 - 前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比であって、該比の立上りが早い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする請求項3に記載の音声処理装置。 - 前記入力信号比算出手段は、
所望音声が発生する前の所定期間に入力した前記第1入力信号と前記第2入力信号の比であって、該比の立下りが遅い部分を除いた期間の平均値を計算し、前記入力信号比とすることを特徴とする請求項3または4に記載の音声処理装置。 - 前記第1入力信号に混在した擬似雑音信号を前記第2入力信号から生成する線形フィルタと、
前記第1入力信号から前記擬似雑音信号を減算することにより擬似音声信号を求める手段と、
をさらに備え、
前記積算手段は、前記減衰率比と前記擬似雑音信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似音声信号から減算することを特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。 - 前記第1入力信号と前記第2入力信号との和信号を生成する第1ビームフォーマと、
前記第1入力信号と前記第2入力信号との差信号を生成する第2ビームフォーマと、
をさらに備え、
前記積算手段は、前記減衰率比と前記差信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記和信号から減算することを特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。 - 所望音声の音源にビームを向けることにより前記第1入力信号と第2入力信号とから擬似音声信号を生成する第1ビームフォーマと、
雑音源にビームを向けることにより前記第1入力信号と第2入力信号から擬似雑音信号を生成する第2ビームフォーマとを備え、
前記積算手段は、前記減衰率比と前記擬似音声信号とを積算し、
前記減算手段は、前記積算手段による積算結果を、前記擬似雑音信号から減算することを特徴とする請求項1乃至7のいずれか1項に記載の音声処理装置。 - 雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
を含むことを特徴とする音声処理方法。 - 雑音源から第1マイクまでの第1減衰率と、前記雑音源から第2マイクまでの第2減衰率との減衰率比を導出する導出ステップと、
前記減衰率比と前記第2マイクが入力した第2入力信号とを積算する積算ステップと、
前記積算ステップによる積算結果を、前記第1マイクが入力した第1入力信号から減算する減算ステップと、
前記減算ステップによる減算結果と、あらかじめ定めた閾値とを比較して、前記減算結果が大きい場合に所望音声が存在するものと判定する判定ステップと、
をコンピュータに実行させることを特徴とする音声処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011140668A JP2014194437A (ja) | 2011-06-24 | 2011-06-24 | 音声処理装置、音声処理方法および音声処理プログラム |
PCT/JP2012/066449 WO2012176932A1 (ja) | 2011-06-24 | 2012-06-21 | 音声処理装置、音声処理方法および音声処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011140668A JP2014194437A (ja) | 2011-06-24 | 2011-06-24 | 音声処理装置、音声処理方法および音声処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014194437A true JP2014194437A (ja) | 2014-10-09 |
Family
ID=47422754
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011140668A Withdrawn JP2014194437A (ja) | 2011-06-24 | 2011-06-24 | 音声処理装置、音声処理方法および音声処理プログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2014194437A (ja) |
WO (1) | WO2012176932A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020504966A (ja) * | 2017-01-04 | 2020-02-13 | ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー | 遠距離音の捕捉 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106024004B (zh) * | 2016-05-11 | 2019-03-26 | Tcl移动通信科技(宁波)有限公司 | 一种移动终端双麦降噪处理方法、系统及移动终端 |
JP6436180B2 (ja) * | 2017-03-24 | 2018-12-12 | 沖電気工業株式会社 | 収音装置、プログラム及び方法 |
CN107331407B (zh) * | 2017-06-21 | 2020-10-16 | 深圳市泰衡诺科技有限公司 | 下行通话降噪方法及装置 |
CN111586547B (zh) * | 2020-04-28 | 2022-05-06 | 北京小米松果电子有限公司 | 音频输入模组的检测方法及装置、存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03212697A (ja) * | 1990-01-18 | 1991-09-18 | Matsushita Electric Ind Co Ltd | 信号処理装置 |
CN1589127A (zh) * | 2001-11-21 | 2005-03-02 | 爱利富卡姆公司 | 从电信号中去除噪声的方法和装置 |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
-
2011
- 2011-06-24 JP JP2011140668A patent/JP2014194437A/ja not_active Withdrawn
-
2012
- 2012-06-21 WO PCT/JP2012/066449 patent/WO2012176932A1/ja active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020504966A (ja) * | 2017-01-04 | 2020-02-13 | ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー | 遠距離音の捕捉 |
Also Published As
Publication number | Publication date |
---|---|
WO2012176932A1 (ja) | 2012-12-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6134078B1 (ja) | ノイズ抑制 | |
CN103650040B (zh) | 使用多特征建模分析语音/噪声可能性的噪声抑制方法和装置 | |
CN103456310B (zh) | 一种基于谱估计的瞬态噪声抑制方法 | |
US8239196B1 (en) | System and method for multi-channel multi-feature speech/noise classification for noise suppression | |
Erkelens et al. | Tracking of nonstationary noise based on data-driven recursive noise power estimation | |
CN102077274B (zh) | 多麦克风语音活动检测器 | |
US9336767B1 (en) | Detecting device proximities | |
TWI437555B (zh) | 空間前處理目標干擾比權衡之濾波裝置及其方法 | |
WO2019112468A1 (en) | Multi-microphone noise reduction method, apparatus and terminal device | |
CN106161751B (zh) | 一种噪声抑制方法及装置 | |
JP2017021385A (ja) | シングルチャンネル音声残響除去方法及びその装置 | |
Ratnarajah et al. | Towards improved room impulse response estimation for speech recognition | |
CN106558315B (zh) | 异质麦克风自动增益校准方法及系统 | |
KR20130117750A (ko) | 컴퓨테이셔널 청각 장면 분석에 기초한 단청 노이즈 억제 | |
AU2009203194A1 (en) | Noise spectrum tracking in noisy acoustical signals | |
EP2752848B1 (en) | Method and apparatus for generating a noise reduced audio signal using a microphone array | |
JP2014194437A (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
CN112272848A (zh) | 使用间隙置信度的背景噪声估计 | |
Taseska et al. | Spotforming using distributed microphone arrays | |
JP4568733B2 (ja) | 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体 | |
CN110148421B (zh) | 一种残余回声检测方法、终端和装置 | |
Zhang et al. | Fast nonstationary noise tracking based on log-spectral power mmse estimator and temporal recursive averaging | |
JP6265136B2 (ja) | 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム | |
KR20160116440A (ko) | 음성인식 시스템의 신호대잡음비 추정 장치 및 방법 | |
CN113160846A (zh) | 噪声抑制方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20141007 |