JP3877271B2 - 音声認識用オーディオキャンセル装置 - Google Patents
音声認識用オーディオキャンセル装置 Download PDFInfo
- Publication number
- JP3877271B2 JP3877271B2 JP2000223170A JP2000223170A JP3877271B2 JP 3877271 B2 JP3877271 B2 JP 3877271B2 JP 2000223170 A JP2000223170 A JP 2000223170A JP 2000223170 A JP2000223170 A JP 2000223170A JP 3877271 B2 JP3877271 B2 JP 3877271B2
- Authority
- JP
- Japan
- Prior art keywords
- input
- voice
- step size
- size parameter
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000003044 adaptive effect Effects 0.000 claims description 44
- 230000005236 sound signal Effects 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 9
- 230000007423 decrease Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
【発明の属する技術分野】
本発明は、音声認識装置において、マイクから入力されるオーディオ音を消去することにより音声認識率を高める音声認識用オーディオキャンセル装置に関し、特に、適応フィルタを用いてマイクからの信号と適応フィルタからの信号の誤差信号により適応フィルタのタップ係数を適応アルゴリズムで制御し、オーディオキャンセルを行うシステムで生じる、エコーがかかったような音声信号の出力を防止するようにした、音声認識用オーディオキャンセル装置に関する。
【0002】
【従来の技術】
近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。
【0003】
近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばナビゲーション装置の近隣施設検索を音声で指示し、ナビゲーション装置では音声でこれに応える、というシステムが考えられており、一部実用化されている。
【0004】
しかしながら、音声認識装置を上記のような車載機器の制御を行うために、車両に搭載すると、車内にはエンジン音、タイヤの走行音、車の風切り音、更にはオーディ音や周囲の人の話し声等が混在し、このような騒音の中でマイクに向かって話した言葉に基づいて、操作指示の内容を認識することはきわめて困難である。したがって、広く研究開発が行われている音声認識の技術分野において、車載機器の操作指示のための音声認識は、最も困難な分野の一つということができる。このように騒音の多い環境下で音声認識を行うためには、マイクから入力される音声に混って入ってくる騒音成分を取り除いて、できる限り使用者の音声のみを入力することが必要となる。
【0005】
一方、従来から例えば車の騒音対策として、車において最も大きな騒音源である排気音の消去に際し、排気音をマイクにより検出し、これを分析して、排気音に対応する音をスピーカから出力し、両者の音の相殺により排気音を消去することが試みられている。また、車室内の居住環境を向上させるため、車内の音をマイクにより検出し、これを分析して、車内の音を人間にとって心地よい程度のノイズである所定の白色ノイズになるように、スピーカから騒音消去用の所定の音を出力することも試みられている。また、車以外の分野においても、マイクで入力された音をその場でスピーカにより出力する際、マイクから現在入力されている音声以外の音をできる限り入力しないように、また、スピーカーの音が再びマイクに入力してエコーがかかることを防止するため、周囲の音やスピーカからの音を消し、音声を際立たせるための研究がなされている。更に、特に近年急速に普及している携帯電話の技術分野において、マイクから入力される小さな音声でも明瞭に送信することができるように、通話中における周囲の騒音のみを消去し、音声を際だたせる研究も行われている。
【0006】
上記のような種々の技術においては、騒音や音声を適応フィルタを通し、各種処理を行い、所望の特性を得る研究が行われている。適応フィルタによる制御方式自体は広く知られている技術であり、例えば図6に示すように、第1信号入力x(n)をタップ係数w(n)が可変のFIRフィルタ(有限インパルス応答フィルタ)21を通し、出力y(n)を得る。この出力y(n)と目標信号としての第2信号入力d(n)を減算器22に入れ、その誤差e(n)を得る。この誤差e(n)によって変化する適応アルゴリズム(LMS)23により、FIRフィルタ21のタップ係数w(n)を制御し、誤差e(n)のパワーをできる限り0に近づける。ここで、第1信号入力側をマイクからの信号とし、第2信号入力側を目標信号とすることができ、逆に、第1入力側を目標信号とし、第2入力側をマイク等からの信号とすることもできる。この適応フィルタで用いられる適応アルゴリズムとしては種々のものが提案されており、例えば学習同定法、LMS法、RMS法、射影法等が知られている。このような適応フィルタを用いることにより、フィルタ係数は、任意の初期状態から逐次書き換えられ、徐々に誤差を最小にするタップ係数w0に近づけていくことができる。
【0007】
上記適応フィルタにおいて例えばLMSアルゴリズムを用いてタップ係数をリアルタイムに更新するものにおいては、
wj(n+1)=wj(n)+2μ・e(n)・xj(n) ・・・(1)
j=0,1・・・,N
e(n)=d(n)−y(n)
の更新式を用いている。
ここでμはステップサイズパラメータと呼ばれ、適応フィルタのタップ係数の更新の度合いを制御するパラメータであり、これが大きいとタップ係数の修正量が多くなるため収束が速くなる。しかしながら、修正量が大きい分だけ、係数更新の妨害となる成分が存在する場合にはその影響を強く受けて、残留誤差量が多くなる。一方、反対にステップサイズパラメータが小さい場合には、収束が遅くなるが、妨害信号成分の影響が少なく残留誤差量は小さくなる。
【0008】
一方、例えば車室内で音声認識装置を用いるに際して、車室内で最も音声認識を妨害する大きな音としては、オーディオ装置からの音が存在し、したがって、音声認識時にはこのオーディオ装置の音を消すことが好ましい。しかしながら、音声で指示を行うたびにオーディオ装置を消す操作は面倒であり、且つ、例えばオーディオの使用中にオーディオ装置に対して音量の変更等の操作指示を行うときには、そのたび毎にオーディオ装置の音を消すことは適切ではない。その対策として、音声認識装置において、マイクから入るオーディオ音をキャンセルするために、スピーカから出力されるオーディオ信号を直接入力して、このオーディオ信号を前記適応フィルタに入力し、適応フィルタから出力されたオーディオの調整信号と、マイクから音声信号と共に入力されたオーディオ信号とを減算器に入力し、その誤差が最小になるように、あるいは所定の状態になるように適応フィルタを調整し、それにより減算器からの出力信号中にオーディオ信号が残留しないようにすることが考えられている。
【0009】
このようなオーディオキャンセルシステムの基本的な構成は、図7に示すように、前記図6の適応フィルタの構成を備え、特にこのシステムにおいては、LMSアルゴリズム23でタップ係数w(n)が制御されるFIRフィルタ21への入力信号である第1入力としては、車室内のスピーカ25に出力するオーディオ出力部が参照信号発生部26を対応させて接続しており、また、減算器22への第2入力としては、車室内に設けた音声認識装置用のマイク27からの信号を対応させ、このマイク27からの信号は遅延回路28を介して減算器22に出力するようにしている。この時マイク27からは、利用者30からの認識すべき音声CsXsと、音声認識装置作動中はキャンセルされるべき騒音となるオーディオ音CnXnが入力される。減算器22における誤差信号e(n)はLMSアルゴリズム23に入力すると共に、この信号は音声認識装置31に出力するシステムを形成している。
【0010】
このようなシステムにおいて、利用者30が車室内でスピーカ25からのオーディオを聴いている状態で、音声認識装置31を利用するためマイク27に音声を発するときには、マイク27には車室内において特に大きな音であるオーディオからの音も入力される。マイク27から入力されたこれら音声等の信号は、遅延回路28を介して減算器22のプラス側にd(n)として入力される。一方、スピーカ25にオーディオ信号を出力しているオーディオ出力部の信号を参照信号x(n)としてFIRフィルタ21に入力し、FIRフィルタ21においてはLMSアルゴリズム23によりタップ係数w(n)が制御され、出力信号y(n)を得る。
【0011】
この出力信号y(n)を減算器のマイナス側に入力し、両者の減算値、即ち両者の誤差である、e(n)=d(n)−y(n)を得る。この誤差e(n)は理想的には車室内のスピーカからマイクに入力されたオーディオ音が、適応フィルタで処理されたオーディオ信号によりキャンセルされたものとなる。したがって、これを音声認識装置31に入力すると、車室内のオーディ音がキャンセルされた、ほぼ利用者の音声のみの信号となる。しかしながら、両者に誤差が生じているときには、この誤差e(n)をフィードバックしてLMSアルゴリズム23に入れ、FIRフィルタ21のタップ係数w(n)を調整して、前記誤差e(n)のパワーを最小にするように制御する。
【0012】
【発明が解決しようとする課題】
上記のように、車室内においてオーディオ装置が作動しスピーカから音が出ている状態の中で、音声認識装置により各種機器の作動を行わせるため、マイクから音声認識装置に音声を入力するとき、音声と共にオーディオの音も入力され、音声認識の精度が悪くなる。これを防止するため、上記のようなLMSアルゴリズムにより変化するタップ係数wを用いる適応フィルタを使用する際には、その誤差e(n)にはオーディオ部分の誤差の他に、音声信号成分が含まれており、これもLMSアルゴリズムにフィードバックせざるを得ない。
【0013】
このように音声信号成分もフィードバックされることにより、前記更新式に影響を及ぼし、e(n)が最小になるように更新しているw(n)が微少に変動してしまうこととなる。そのため、減算器22から音声認識装置31に入力される音声信号にエコーがかかったような信号等の不適切な信号を出力してしまい、音声認識性能を悪化させる原因となる。また、このような音声認識装置に入力される信号の中には更に種々の不適切な信号が存在し、音声認識性能を悪化させていることが考えられ、これらの信号を除去する必要がある。
【0014】
したがって、本発明は、マイクから入力される音声とオーディオ音の混合した音声信号と、オーディオ信号を適応フィルタで制御した信号との誤差信号を、適応アルゴリズムに入れて適応フィルタのタップ係数を制御するように音声認識用オーディオキャンセル装置を構成しても、誤差信号の中に音声信号が入ることによりエコーのかかったような信号等の不適切な信号を出力することを防止することを目的とする。
【0015】
【課題を解決するための手段】
本発明は、上記課題を解決するため、音声認識装置に入力する音声とオーディオ音とを集音するマイクと、オーディオ信号を入力し適応アルゴリズムによりタップ係数を変化させる適応フィルタと、適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、減算器から出力する両信号の誤差信号をステップサイズパラメータ変更部に入力し、前記ステップサイズパラメータ変更部からの出力を、前記適応アルゴリズムに入力すると共に、音声認識装置に出力するようにした音声認識用オーディオキャンセル装置において、前記減算器の誤差信号出力部に前記適応フィルタのタップ係数の変更度合いを調節するステップサイズパラメータ変更部を備え、前記ステップサイズパラメータ変更部は、音声入力SWにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータを小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータを小に変更することを特徴とする音声認識用オーディオキャンセル装置としたものである。
【0016】
また、他の態様として、前記ステップサイズパラメータ変更部には複数のステップサイズパラメータのいずれかを選択するステップサイズパラメータ選択部を備え、前記ステップサイズパラメータ選択部は、音声入力SWにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータの小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータの小の方を選択するように構成したものである。
【0017】
また、他の態様として、前記ステップサイズパラメータ変更部は、音声入力SWの操作による音声認識装置の音声入力時には、タップ係数の変更度合いの小さなステップサイズパラメータとしたものである。
【0019】
また、他の態様として、前記入力音声のパワーとして、入力音声のパワーの加算平均値を用いたものである。
【0020】
また、他の態様として、前記入力音声のパワーとして、入力音声の最大パワーの平均値を用いたものである。
【0021】
【発明の実施の形態】
本発明の実施の形態を図面に沿って説明する。図1は本発明の音声認識用オーディオキャンセル装置の第1の実施例を示し、この実施例においては車内用オーディオ装置1から左右のオーディオ出力x1(n)とx2(n)が出力されており、各出力は車室内に左右に配置した第1スピーカ2と第2スピーカ3に出力すると共に、同じ信号を各々の出力に対して独立して設けた、適応フィルタとしての第1FIRフィルタ4と第2FIRフィルタ5に対しても出力している。第1FIRフィルタ4と第1FIRフィルタ5は前記図6の基本原理に基づき作動するものであり、各々図7に示す音声認識装置用オーディオキャンセルシステムにおける適応フィルタと同様に作動する。
【0022】
左右のオーディオ信号に各々対応する第1FIRフィルタの出力y1(n)と第2FIRフィルタの出力y2(n)は加算器6で加算され、適応フィルタ出力信号y(n)として減算器7のマイナス側に出力している。一方、車室内に設けたマイク8には、利用者9の発する音声Xs(n)が伝わる伝達関数Cs、及び第1スピーカ2と第2スピーカ3から伝わる伝達関数Cn1、Cn2等のを経由して室内の音が入力される。このマイクからの信号は適宜の時定数をもつ遅延回路10を介して減算器7のプラス側に出力している。減算器7においては両信号に基づいて、e(n)=d(n)−y(n)を演算し、誤差信号e(n)を得ている。
【0023】
減算器7において誤差信号e(n)を出力する出力端には、本発明においてはステップサイズパラメータ変更部11を備え、互いに並列に設けた第1ステップサイズパラメータ12と、第2ステップサイズパラメータ13を、図中模式的に示している切替スイッチ16でいずれかを選択するように構成している。この切替スイッチ16は音声入力時に利用者9が音声認識装置18に対して音声信号を入力すること、入力を停止することを伝えるために操作される音声入力スイッチ17と連動して切替作動がなされる。
【0024】
図示実施例において、第2ステップサイズパラメータ13の値μ2は、第1ステップサイズパラメータ12の値μ1より小さな値に設定している。そして、利用者9が音声認識のために音声入力スイッチ17を音声入力側に操作したとき、切替スイッチ16はその値の小さな第2ステップサイズパラメータμ2を選択し、逆に音声入力スイッチ17を音声入力停止側に操作したとき、切替スイッチ16は図に示すようにその値の大きな第1ステップサイズパラメータμ1を選択する側に戻るように構成している。もしくは音声認識が終了したというステータスを受けると、戻るようにしてもよく、また、音声入力SWが押下された後、一定の時間経過後に戻るようにしてもよい。
【0025】
このようなステップサイズパラメータ変更部11により、いずれかのステップサイズパラメータを選択した出力信号は、第1FIRフィルタ4のタップ係数w1を変化させる適応アルゴリズムとしての第1LMSアルゴリズム14と、第2FIRフィルタ5のタップ係数w2を変化させる第2LMSアルゴリズム15に入力し、各FIRフィルタ4,5のタップ係数の変化の度合いを、選択したステップサイズパラメータの大きさにより変化させる。また、前記ステップサイズパラメータ変更部11からの出力は、音声認識装置18に入り、音声認識処理がなされる。
【0026】
上記構成からなる図1に示す音声認識装置用オーディオキャンセル装置においては、車室内においてオーディオ装置からの音楽等の音が出力されているときに、利用者9が例えばナビゲーション装置に対して周辺施設情報検索等を行うために、「この近くのレストランは?」のように音声入力する際には、従来の装置と同様に、音声認識装置18に対して音声入力を開始することを知らせる音声入力スイッチ17を操作した後に前記音声入力を行う。
【0027】
この時、前記音声入力スイッチの作動と連動して、ステップサイズパラメータ変更部11の切替スイッチ16は、その値の小さな第2ステップサイズパラメータμ2を選択するように切替えられる。その結果、このステップサイズパラメータμ2が入力される第1FIRフィルタ4と第2FIRフィルタ5のタップ係数の更新度合いが小さくなる。それにより、FIRフィルタによる収束速度は遅くなるものの、従来の装置における、FIRフィルタに対するフィードバック成分としての誤差信号e(n)中に、入力された音声が混入することにより、前記タップ係数の更新式に影響を及ぼしてしまい、音声認識装置に入力する音声信号が、エコーがかかったような信号となってしまう、という作用を防止することができ、安定した音声信号を送ることができるので、音声認識装置18における音声認識率が向上する。
【0028】
一方、音声認識のための音声入力を一時的に停止するとき、あるいは音声認識装置の利用を終了するときには、利用者9が音声入力スイッチ17を音声入力停止側に操作するので、その操作と連動するステップサイズパラメータ変更部11の切替スイッチ16は、その値の大きな第1ステップサイズパラメータμ1を選択するように切替えられる。このステップサイズパラメータμ1は、オーディオキャンセル処理を可能な限り最大限に行うために適した値に設定している。それによりFIRフィルタにおけるタップ係数の修正度合いが大きくなるので、このフィードパック制御系の収束速度が速くなり、高速のオーディオキャンセル処理が可能となる。
【0029】
このように、FIRフィルタのタップ係数w(n)の修正度合いを調節する第1ステップサイズパラメータμ1及び第2ステップサイズパラメータμ2の関係は、
μ2=k・μ1 0<k<1
を満たすように設定する。上記kの値の設定に際しては、キャンセル性能を大きく損なうことなく、また、そのときのタップ計数w(n)の変動が音声認識装置に大きな影響を及ぼさない範囲に設定する。上記の作用は適応アルゴリズムとして前記LMSアルゴリズム以外に、学習同定法などで更新されている場合も同様であり、その際の音声入力時には、音声入力スイッチをONする直前のステップサイズパラメータをμ1とする。
【0030】
上記のような本発明の音声認識用オーディオキャンセル装置は、図2に示される作動フローに沿って処理される。即ち、このフローの開始後、音声認識装置に対する入力待ちが行われ(ステップS1)、利用者が音声入力を開始するために音声入力スイッチをONするまでこの入力待ちが行われる(ステップS2)。ここで音声入力スイッチがONされると、ステップサイズパラメータ切替装置を作動し、ステップサイズパラメータμの値を、大きな値のμ1から小さな値のμ2に切替え(ステップS3)、この状態で音声認識処理が行われる(ステップS5)。その後音声入力操作を一時停止するか、終了するために、音声入力スイッチをOFFするか、あるいは所定時間経過するか、または音声認識装置側から認識処理終了の信号を受信するまではこの状態を保持し(ステップS5)、音声入力スイッチをOFFしたときには(ステップS5)、ステップサイズパラメータ切替装置を作動し、ステップサイズパラメータμの値を、音声認識用の小さな値のμ2から通常の大きな値のμ1に切替える(ステップS6)。その後は再び音声入力スイッチがONされる迄入力待ちとなる(ステップS1)。
【0031】
上記実施例においては、適応フィルタの作動のために誤差e(n)をフィードバックする際に音声信号も戻るために、エコーのかかったような出力信号を発生することを防止するため、音声認識時には適応フィルタのタップ係数の変化を調節するためのステップサイズパラメータを通常時の大きなμ1から小さなμ2に変化させたものであるが、音声認識装置に入力される上記信号中には種々の信号が存在し、これらが音声認識に悪影響を及ぼしていることが考えられる。したがって、これらの各種信号のうち、使用状況等に応じて特定の信号を除去するために、前記とは逆に音声認識時にステップサイズパラメータを通常時よりも大きくし、より高速で誤差信号をフィードバックするように構成する等、種々の態様を取ることができる。
【0032】
図3には本発明の第2の実施例を示している。この実施例においては、前記第1の実施例が適応フィルタに誤差e(n)をフィードバックする際、誤差信号の中に音声信号が入ることによりエコーのかかったような信号を発生することを防止するため、音声入力時にはステップサイズパラメータを小さな値とし、ステップゲインを小さくすることにより防止したものであるが、このような手段を用いることによりかなりの改善効果があるものの、未だ完全ではない。即ち、ステップゲインを切り替えることにより、タップ係数w(n)の変動は押さえられるものの、エコーの大きさ(長さ)は、ステップゲインの大きさにも比例するが入力された音声の大きさにも比例しており、ステップゲインを切り替えるのみでは、特に大音量の音声入力時には不十分な場合がある。そのため、大音量の音声が入力してもエコーを生じることがないようステップゲインを小さく設定すると、ノイズのキャンセル性能が不十分となる。
【0033】
また、ステップゲインに関しては上記のように、その値が大きいほど誤差の収束が早いが、音声入力中のエコーを引き起こす度合いが大きくなる。前記第1の実施例においては音声認識中と非音声認識中の状態別に、それぞれのステップゲインをμ1,μ2とするとき、μ1>μ2=kμ1(0<k<1)を切り替えるものであるが、それは単に既定のステップゲインに切り替えること、即ち既定の係数kを用いるのみであり、音声認識中の音量に応じたステップゲインμ2の適切な算出方法迄は考慮していなかった。即ち、非音声認識中の既定のステップゲインμに対する音声認識中のステップゲインの値を、既定の係数であるkの値を用いる以外に、音声認識中の音量等に応じて動的に変化させることは考慮していなかった。
【0034】
この点に関して図3に示す第2実施例においては、上記のような入力される音声の大きさに比例してエコーの大きさが変わることを、音声の大きさに応じてステップゲインを調整することによって解決し、その調整に際しては既定の係数kを用いる以外に、従来考慮されることがなかった音声の大きさに応じて更に変化させることにより解決したものである。以下第2実施例を図3の機能ブロック図、及び図4のフローチャートに基づいて、特に前記第1実施例と異なる点を中心に説明する。
【0035】
図3に示す第2実施例においては、減算器7迄の機能構成部分は前記第1実施例と同様であるのでその説明は省略する。減算器7からの差信号e(n)は音声パワー計算部19に入力され、入力音声のパワーの加算平均、もしくは最大パワーの平均値としてのP(n)を計算する。この計算に際しては、入力された音声はほぼ雑音が除去された例えば図5に示す音声レベル線図のような出力が得られる。
【0036】
図5において(a)は図3の利用者9が音声認識を行わせるため音声入力SW17を操作して比較的大きな声で所定の言葉を発し、その後その言葉の入力が終了した状態を示し、同図(b)は同じ言葉を同じ利用者が比較的小さな声で音声入力したときの状態を示す。なお、同じ言葉を発声した際の音量の相違は、上記のような同一人である場合の他、例えば大声で話をする習慣のある人と、比較的静かに話をする人との相違によっても当然生じるが、その際は同じ言葉でも波形が一部異なることが多い。同図(c)は他の言葉を発したときの音声レベル線図であり、同図(a)(b)の言葉よりも音声パワーを必要とする言葉であるか、あるいは他の言葉を比較的大きな声で発声した状態が示されている。
【0037】
上記のような音声の入力があったとき、前記音声パワー計算部19においては、例えばこの音声波形のパワーを積分してトータルパワーを算出するか、あるいはこの音声入力区間における最大パワー値Hmaxを得ることによりこれをp(i)とし、これをメモリする。この特定の音声入力区画における一時的なp(i)に基づいて現在入力されている音声のパワー平均値を計算するため、メモリに記憶している任意の回数であるj+1回分のp(i)の値を加算した後、これをj+1で割って過去(j+1)回分の発声の平均パワーもしくは最大パワーの平均値P(n)を得る。この計算は次の数式(2)で表され、この値が図5の音声パワー計算部19から出力される。
【数1】
【0038】
図3において減算器7からの差信号e(n)は、前記第1の実施例と同様に図中模式的に示している切替スイッチ16でステップサイズパラメータ12のみで処理される第1の回路と、ステップサイズパラメータ12と同じμの値を持つステップサイズパラメータ13に対して更に後述するような処理を行う第2の回路とに切替えられる。前記音声入力SW17が操作されて音声入力を行うときにはそのスイッチ操作と連動して後者の第2の回路に切り替えられ、音声入力がとぎれたことを自動的に検出することにより、あるいは利用者が音声入力を一時止める信号の入力操作を行ったことを検出することにより前者の第1の回路に切り替えられる。
【0039】
音声入力が行われることによりステップサイズパラメータ13側に切替スイッチ16が切り替えられると、ステップサイズパラメータ13でμが乗算され、次いで係数乗算部131で係数k(0<k<1)を乗算する。この処理は前記第1の実施例において、第1ステップサイズパラメータμ1と、この第1ステップサイズパラメータより所定の比率小さな値のステップサイズパラメータを得るため、第2ステップサイズパラメータμ2についてはμ2=kμ1(0<k<1)としたことと同様の処理となる。
【0040】
その後パワー補正計算部132において、前記音声パワー計算部19で計算された平均パワーもしくは最大パワーの平均値P(n)を用いて(α・P(n)+1)−1の計算、即ち入力された値をα・P(n)+1で割り算を行う。ここで「+1」は、音声の平均パワーもしくは最大パワーの平均値が充分に小さいときに1/(α・P(n)+1)の値が1に近づき、0とはならない条件を満たすようにするためのものである。またαの設定に際しては、実際にこの演算処理が行われるとき通常取り得る最大の音声の平均パワーもしくは最大パワーの平均がP(n)maxとするときに、1/(α・P(n)max+1)が数分の1から十数分の1程度になるように設定する。
【0041】
パワー補正計算部132において上記のような計算を行う結果、音声入力時に音声入力SW17が操作され、切替スイッチ16がステップサイズパラメータ13側に切り替えられたときには、この回路部分での演算により入力したe(n)に対してμ・k/(α・P(n)+1)を乗算する処理がなされる。ここにおいてk/(α・P(n)+1)の値は0より大きく1より小さな値であるので、切替スイッチ16がステップサイズパラメータ12側に切り替えられているときのステップサイズパラメータμよりも小さな値となる。そのため、音声入力時にはより小さなステップサイズパラメータμに変更したことと同等となり、しかも入力した音声の平均パワーもしくは最大パワーの平均が大きいほど小さな値となり、その結果音量が大きいほどエコーを生じやすい前記欠点を解消することができる。
【0042】
上記のような処理は例えば図4に示すような作動フローに沿って処理される。即ち、このフローの開始後、音声認識装置に対する入力待ちが行われ(ステップS11)、利用者が音声入力を開始するために音声入力スイッチをONするまでこの入力待ちが行われる(ステップS12)。ここで音声入力スイッチがONされると、図3の音声パワー計算部19におけるメモリで記憶されている前回までの音声の平均パワーもしくは最大パワーの平均であるP(n-1)を取り出して後述する計算式への入力データのためのP(n)とする(ステップS13)。
【0043】
次いで、今回入力された音声データに基づき、パワー加算平均又は最大パワーを算出し、この値を新たにP(n-1)のメモリ部分に書き込む(ステップS14)。次いで、前記P(n)の値及び予め設定されているステップサイズパラメータμ、係数k、αの各値を用いてμ・k/(α・P(n)+1)を演算し、この値を適応フィルタに出力する新たなステップサイズパラメータμとすると共に、これを音声認識装置18に出力し、音声認識処理が行われる(ステップS16)。音声認識処理終了後はその旨の信号を受け、あるいは音声入力スイッチが押された後所定時間経過した信号の検出等、種々の手段により音声認識終了を検出し、図3の切替スイッチ16を切り替えてステップサイズパラメータを元のμの値に戻し(ステップS17)、再びステップS11に戻って次の音声入力待ちを行う。
【0044】
上記実施例においては、認識用音声入力時に音声入力SW17の操作に連動して切替スイッチ16を切り替えるように構成した例を示したが、これは機能を模式的に示したものであり、認識用音声入力信号を検出したときにステップサイズパラメータを変更することができるならば、例えば演算用ソフト内での処理等、種々の手段を採用することができる。また、上記第2実施例においてパワーの算出手段として音声の平均パワーもしくは最大パワーの平均を用いる例を示したが、そのほか音声のパワーを得る従来公知の種々の手段を採用することができることは当然である。
【0045】
【発明の効果】
本発明は、上記のように構成したので、マイクから入力される音声とオーディオ音の混合した音声信号と、オーディオ信号を適応フィルタで制御した信号との誤差信号を、適応アルゴリズムに入れて適応フィルタのタップ係数を制御するように音声認識用オーディオキャンセル装置を構成しても、音声認識装置への不適切な信号入力を防止することができ、音声認識装置の認識率を向上させることができる。また、前記ステップサイズパラメータ変更部を、入力音声のパワーが大きい程ステップサイズパラメータを小さくしたので、入力音声のパワーが大きいほどエコーのかかったような信号の出力が大きくなることを防止することができ、音声認識装置の音声認識率を向上することができる。
【0046】
また、前記ステップサイズパラメータ変更部には複数のステップサイズパラメータのいずれかを選択するステップサイズパラメータ選択部を備え、前記ステップサイズパラメータ選択部は、音声入力SWにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータの小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータの小の方を選択するように構成したものにおいては、認識用音声入力時に予め設定したステップサイズパラメータを用いて変更することができ、容易に、且つ高速に適切なステップサイズパラメータの変更を行うことができる。
【0047】
また、前記ステップサイズパラメータ変更部は、音声認識装置の音声入力時には、タップ係数の変更度合いの小さなステップサイズパラメータとしたものにおいては、前記誤差信号の中に音声信号が入ることにより生じるエコーのかかったような信号の出力を防止することができ、音声認識装置の音声認識率を向上することができる。
【0049】
また、前記入力音声のパワーとして、入力音声のパワーの加算平均値を用いるものにおいては、入力音声のパワーの値を正確に求めることができ、前記入力音声のパワーが大きいほどエコーのかかったような信号の出力が大きくなることを確実に防止することができ、音声認識装置の音声認識率をより向上することができる。
【0050】
また、前記入力音声のパワーとして、入力音声の最大パワーの平均値を用いるものにおいては、入力音声のパワーの値を容易に求めることができ、簡単な手段で高速演算処理を行うことができ、前記入力音声のパワーが大きいほどエコーのかかったような信号の出力が大きくなることを容易に防止することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施例の機能ブロック図である。
【図2】本発明の第1の実施例の作動フロー図である。
【図3】本発明の第2の実施例の機能ブロック図である。
【図4】本発明の第2の実施例の作動フロー図である。
【図5】音声認識装置に入力される音声のパワー信号の例を示す音声パワー線図である。
【図6】オーディオキャンセル装置等に用いられる適応フィルタの原理図である。
【図7】従来の音声認識装置において、図3の適応フィルタを用いてオーディオキャンセルを行う機能ブロック図である。
【符号の説明】
1 オーディオ装置
4 第1FIRフィルタ
5 第2FIRフィルタ
7 減算器
8 マイク
11 ステップサイズパラメータ変更部
12 第1ステップサイズパラメータ
13 第2ステップサイズパラメータ
16 切替スイッチ
17 音声入力スイッチ
18 音声認識装置
Claims (5)
- 音声認識装置に入力する音声とオーディオ音とを集音するマイクと、オーディオ信号を入力し適応アルゴリズムによりタップ係数を変化させる適応フィルタと、適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、減算器から出力する両信号の誤差信号をステップサイズパラメータ変更部に入力し、前記ステップサイズパラメータ変更部からの出力を、前記適応アルゴリズムに入力すると共に、音声認識装置に出力するようにした音声認識用オーディオキャンセル装置において、
前記減算器の誤差信号出力部に前記適応フィルタのタップ係数の変更度合いを調節するステップサイズパラメータ変更部を備え、
前記ステップサイズパラメータ変更部は、音声入力SWにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータを小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータを小に変更することを特徴とする音声認識用オーディオキャンセル装置。 - 前記ステップサイズパラメータ変更部には複数のステップサイズパラメータのいずれかを選択するステップサイズパラメータ選択部を備え、前記ステップサイズパラメータ選択部は、音声入力SWにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータの小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータの小の方を選択することを特徴とする請求項1記載の音声認識用オーディオキャンセル装置。
- 前記ステップサイズパラメータ変更部は、音声入力SWの操作による音声認識装置の音声入力時には、タップ係数の変更度合いの小さなステップサイズパラメータとしたことを特徴とする請求項1記載の音声認識用オーディオキャンセル装置。
- 前記入力音声のパワーとして、入力音声のパワーの加算平均値を用いることを特徴とする請求項1記載の音声認識用オーディオキャンセル装置。
- 前記入力音声のパワーとして、入力音声の最大パワーの平均値を用いることを特徴とする請求項1記載の音声認識用オーディオキャンセル装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000223170A JP3877271B2 (ja) | 1999-11-05 | 2000-07-24 | 音声認識用オーディオキャンセル装置 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11-314465 | 1999-11-05 | ||
JP31446599 | 1999-11-05 | ||
JP2000223170A JP3877271B2 (ja) | 1999-11-05 | 2000-07-24 | 音声認識用オーディオキャンセル装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001195085A JP2001195085A (ja) | 2001-07-19 |
JP3877271B2 true JP3877271B2 (ja) | 2007-02-07 |
Family
ID=26567954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000223170A Expired - Fee Related JP3877271B2 (ja) | 1999-11-05 | 2000-07-24 | 音声認識用オーディオキャンセル装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3877271B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8363821B2 (en) | 2010-03-31 | 2013-01-29 | Kabushiki Kaisha Toshiba | Apparatus and method for canceling echo |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102592605A (zh) * | 2003-09-02 | 2012-07-18 | 日本电气株式会社 | 信号处理方法和装置 |
EP1833163B1 (en) | 2004-07-20 | 2019-12-18 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
JP4734126B2 (ja) | 2005-03-23 | 2011-07-27 | 三洋電機株式会社 | エコー防止回路、デジタル信号処理回路、エコー防止回路のフィルタ係数設定方法、デジタル信号処理回路のフィルタ係数設定方法、エコー防止回路のフィルタ係数を設定するためのプログラム、デジタル信号処理回路のフィルタ係数を設定するためのプログラム |
JP4734127B2 (ja) | 2005-03-23 | 2011-07-27 | 三洋電機株式会社 | エコー防止回路、デジタル信号処理回路、エコー防止回路のフィルタ係数設定方法、デジタル信号処理回路のフィルタ係数設定方法、エコー防止回路のフィルタ係数を設定するためのプログラム、デジタル信号処理回路のフィルタ係数を設定するためのプログラム |
EP1720249B1 (en) * | 2005-05-04 | 2009-07-15 | Harman Becker Automotive Systems GmbH | Audio enhancement system and method |
ATE460809T1 (de) * | 2006-01-06 | 2010-03-15 | Koninkl Philips Electronics Nv | Akustischer echokompensator |
JP5115944B2 (ja) * | 2006-04-20 | 2013-01-09 | アルパイン株式会社 | 音声認識装置 |
JP2009031809A (ja) * | 2008-09-19 | 2009-02-12 | Denso Corp | 音声認識装置 |
JP5815614B2 (ja) * | 2013-08-13 | 2015-11-17 | 日本電信電話株式会社 | 残響抑圧装置とその方法と、プログラムとその記録媒体 |
CN115762552B (zh) * | 2023-01-10 | 2023-06-27 | 阿里巴巴达摩院(杭州)科技有限公司 | 训练回声消除模型的方法、回声消除方法及对应装置 |
-
2000
- 2000-07-24 JP JP2000223170A patent/JP3877271B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8363821B2 (en) | 2010-03-31 | 2013-01-29 | Kabushiki Kaisha Toshiba | Apparatus and method for canceling echo |
Also Published As
Publication number | Publication date |
---|---|
JP2001195085A (ja) | 2001-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4283212B2 (ja) | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 | |
US20080249779A1 (en) | Speech dialog system | |
US9947318B2 (en) | System and method for processing an audio signal captured from a microphone | |
US8098848B2 (en) | System for equalizing an acoustic signal | |
US8165310B2 (en) | Dereverberation and feedback compensation system | |
US9002027B2 (en) | Space-time noise reduction system for use in a vehicle and method of forming same | |
CN111489750B (zh) | 声音处理设备和声音处理方法 | |
US20090175459A1 (en) | Voice Intelligibility Enhancement System and Voice Intelligibility Enhancement Method | |
US20030138118A1 (en) | Method for control of a unit comprising an acoustic output device | |
JP3877271B2 (ja) | 音声認識用オーディオキャンセル装置 | |
JP2005195895A (ja) | 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置 | |
JP2002501337A (ja) | 通信システムのコンフォートノイズ提供方法及び装置 | |
CN1666495A (zh) | 与平稳频谱功率相关的音频增强系统 | |
WO2007138741A1 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
JP5115944B2 (ja) | 音声認識装置 | |
JP3524370B2 (ja) | 音声起動システム | |
WO2020223304A1 (en) | Speech dialog system aware of ongoing conversations | |
JP3611493B2 (ja) | エコーキャンセラ装置 | |
JP4166000B2 (ja) | 音声認識装置 | |
JP3688934B2 (ja) | マイクロホンシステム | |
JP4765394B2 (ja) | 音声対話装置 | |
JP2004309536A (ja) | 音声処理装置 | |
JP4924652B2 (ja) | 音声認識装置及びカーナビゲーション装置 | |
JP3049261B2 (ja) | 音響選択装置 | |
JPH11298382A (ja) | ハンズフリー装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060605 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060724 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061009 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061030 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091110 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101110 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101110 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111110 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111110 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121110 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121110 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131110 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |