JP3877271B2

JP3877271B2 - 音声認識用オーディオキャンセル装置

Info

Publication number: JP3877271B2
Application number: JP2000223170A
Authority: JP
Inventors: 孝一中田; 望斉藤; 真吾木内
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 1999-11-05
Filing date: 2000-07-24
Publication date: 2007-02-07
Anticipated expiration: 2020-07-24
Also published as: JP2001195085A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置において、マイクから入力されるオーディオ音を消去することにより音声認識率を高める音声認識用オーディオキャンセル装置に関し、特に、適応フィルタを用いてマイクからの信号と適応フィルタからの信号の誤差信号により適応フィルタのタップ係数を適応アルゴリズムで制御し、オーディオキャンセルを行うシステムで生じる、エコーがかかったような音声信号の出力を防止するようにした、音声認識用オーディオキャンセル装置に関する。
【０００２】
【従来の技術】
近年、各種機器の作動を音声により指示し、音声認識装置によりこれを認識して機器の作動制御を行うことが、パソコンを初めとして一般家庭用機器等の各種の分野で広く行われており、その研究開発が急速に進められている。このような音声により機器の作動を制御する分野の一つとして、各種の車載機器を音声により操作することが注目されている。即ち、車載機器の多くは運転者が操作する場合が多く、一方、運転者は安全運転のために、できる限り車載機器の操作に注意をそらせることは好ましくない。
【０００３】
近年の車載機器はオーディオ装置の高度化、ナビゲーション装置の機能の多様化等のため、これらの機器に対して各種の作動指示を行うことが多くなっている。この対策として、上記音声認識装置を用い、運転者は前方を注視したままで、例えばナビゲーション装置の近隣施設検索を音声で指示し、ナビゲーション装置では音声でこれに応える、というシステムが考えられており、一部実用化されている。
【０００４】
しかしながら、音声認識装置を上記のような車載機器の制御を行うために、車両に搭載すると、車内にはエンジン音、タイヤの走行音、車の風切り音、更にはオーディ音や周囲の人の話し声等が混在し、このような騒音の中でマイクに向かって話した言葉に基づいて、操作指示の内容を認識することはきわめて困難である。したがって、広く研究開発が行われている音声認識の技術分野において、車載機器の操作指示のための音声認識は、最も困難な分野の一つということができる。このように騒音の多い環境下で音声認識を行うためには、マイクから入力される音声に混って入ってくる騒音成分を取り除いて、できる限り使用者の音声のみを入力することが必要となる。
【０００５】
一方、従来から例えば車の騒音対策として、車において最も大きな騒音源である排気音の消去に際し、排気音をマイクにより検出し、これを分析して、排気音に対応する音をスピーカから出力し、両者の音の相殺により排気音を消去することが試みられている。また、車室内の居住環境を向上させるため、車内の音をマイクにより検出し、これを分析して、車内の音を人間にとって心地よい程度のノイズである所定の白色ノイズになるように、スピーカから騒音消去用の所定の音を出力することも試みられている。また、車以外の分野においても、マイクで入力された音をその場でスピーカにより出力する際、マイクから現在入力されている音声以外の音をできる限り入力しないように、また、スピーカーの音が再びマイクに入力してエコーがかかることを防止するため、周囲の音やスピーカからの音を消し、音声を際立たせるための研究がなされている。更に、特に近年急速に普及している携帯電話の技術分野において、マイクから入力される小さな音声でも明瞭に送信することができるように、通話中における周囲の騒音のみを消去し、音声を際だたせる研究も行われている。
【０００６】
上記のような種々の技術においては、騒音や音声を適応フィルタを通し、各種処理を行い、所望の特性を得る研究が行われている。適応フィルタによる制御方式自体は広く知られている技術であり、例えば図６に示すように、第１信号入力ｘ（ｎ）をタップ係数ｗ（ｎ）が可変のＦＩＲフィルタ（有限インパルス応答フィルタ）２１を通し、出力ｙ（ｎ）を得る。この出力ｙ（ｎ）と目標信号としての第２信号入力ｄ（ｎ）を減算器２２に入れ、その誤差ｅ（ｎ）を得る。この誤差ｅ（ｎ）によって変化する適応アルゴリズム（ＬＭＳ）２３により、ＦＩＲフィルタ２１のタップ係数ｗ（ｎ）を制御し、誤差ｅ（ｎ）のパワーをできる限り０に近づける。ここで、第１信号入力側をマイクからの信号とし、第２信号入力側を目標信号とすることができ、逆に、第１入力側を目標信号とし、第２入力側をマイク等からの信号とすることもできる。この適応フィルタで用いられる適応アルゴリズムとしては種々のものが提案されており、例えば学習同定法、ＬＭＳ法、ＲＭＳ法、射影法等が知られている。このような適応フィルタを用いることにより、フィルタ係数は、任意の初期状態から逐次書き換えられ、徐々に誤差を最小にするタップ係数ｗ０に近づけていくことができる。
【０００７】
上記適応フィルタにおいて例えばＬＭＳアルゴリズムを用いてタップ係数をリアルタイムに更新するものにおいては、
ｗｊ（ｎ＋１）＝ｗｊ（ｎ）＋２μ・ｅ（ｎ）・ｘｊ（ｎ）・・・（１）
ｊ＝０，１・・・，Ｎ
ｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）
の更新式を用いている。
ここでμはステップサイズパラメータと呼ばれ、適応フィルタのタップ係数の更新の度合いを制御するパラメータであり、これが大きいとタップ係数の修正量が多くなるため収束が速くなる。しかしながら、修正量が大きい分だけ、係数更新の妨害となる成分が存在する場合にはその影響を強く受けて、残留誤差量が多くなる。一方、反対にステップサイズパラメータが小さい場合には、収束が遅くなるが、妨害信号成分の影響が少なく残留誤差量は小さくなる。
【０００８】
一方、例えば車室内で音声認識装置を用いるに際して、車室内で最も音声認識を妨害する大きな音としては、オーディオ装置からの音が存在し、したがって、音声認識時にはこのオーディオ装置の音を消すことが好ましい。しかしながら、音声で指示を行うたびにオーディオ装置を消す操作は面倒であり、且つ、例えばオーディオの使用中にオーディオ装置に対して音量の変更等の操作指示を行うときには、そのたび毎にオーディオ装置の音を消すことは適切ではない。その対策として、音声認識装置において、マイクから入るオーディオ音をキャンセルするために、スピーカから出力されるオーディオ信号を直接入力して、このオーディオ信号を前記適応フィルタに入力し、適応フィルタから出力されたオーディオの調整信号と、マイクから音声信号と共に入力されたオーディオ信号とを減算器に入力し、その誤差が最小になるように、あるいは所定の状態になるように適応フィルタを調整し、それにより減算器からの出力信号中にオーディオ信号が残留しないようにすることが考えられている。
【０００９】
このようなオーディオキャンセルシステムの基本的な構成は、図７に示すように、前記図６の適応フィルタの構成を備え、特にこのシステムにおいては、ＬＭＳアルゴリズム２３でタップ係数ｗ（ｎ）が制御されるＦＩＲフィルタ２１への入力信号である第１入力としては、車室内のスピーカ２５に出力するオーディオ出力部が参照信号発生部２６を対応させて接続しており、また、減算器２２への第２入力としては、車室内に設けた音声認識装置用のマイク２７からの信号を対応させ、このマイク２７からの信号は遅延回路２８を介して減算器２２に出力するようにしている。この時マイク２７からは、利用者３０からの認識すべき音声ＣｓＸｓと、音声認識装置作動中はキャンセルされるべき騒音となるオーディオ音ＣｎＸｎが入力される。減算器２２における誤差信号ｅ（ｎ）はＬＭＳアルゴリズム２３に入力すると共に、この信号は音声認識装置３１に出力するシステムを形成している。
【００１０】
このようなシステムにおいて、利用者３０が車室内でスピーカ２５からのオーディオを聴いている状態で、音声認識装置３１を利用するためマイク２７に音声を発するときには、マイク２７には車室内において特に大きな音であるオーディオからの音も入力される。マイク２７から入力されたこれら音声等の信号は、遅延回路２８を介して減算器２２のプラス側にｄ（ｎ）として入力される。一方、スピーカ２５にオーディオ信号を出力しているオーディオ出力部の信号を参照信号ｘ（ｎ）としてＦＩＲフィルタ２１に入力し、ＦＩＲフィルタ２１においてはＬＭＳアルゴリズム２３によりタップ係数ｗ（ｎ）が制御され、出力信号ｙ（ｎ）を得る。
【００１１】
この出力信号ｙ（ｎ）を減算器のマイナス側に入力し、両者の減算値、即ち両者の誤差である、ｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）を得る。この誤差ｅ（ｎ）は理想的には車室内のスピーカからマイクに入力されたオーディオ音が、適応フィルタで処理されたオーディオ信号によりキャンセルされたものとなる。したがって、これを音声認識装置３１に入力すると、車室内のオーディ音がキャンセルされた、ほぼ利用者の音声のみの信号となる。しかしながら、両者に誤差が生じているときには、この誤差ｅ（ｎ）をフィードバックしてＬＭＳアルゴリズム２３に入れ、ＦＩＲフィルタ２１のタップ係数ｗ（ｎ）を調整して、前記誤差ｅ（ｎ）のパワーを最小にするように制御する。
【００１２】
【発明が解決しようとする課題】
上記のように、車室内においてオーディオ装置が作動しスピーカから音が出ている状態の中で、音声認識装置により各種機器の作動を行わせるため、マイクから音声認識装置に音声を入力するとき、音声と共にオーディオの音も入力され、音声認識の精度が悪くなる。これを防止するため、上記のようなＬＭＳアルゴリズムにより変化するタップ係数ｗを用いる適応フィルタを使用する際には、その誤差ｅ（ｎ）にはオーディオ部分の誤差の他に、音声信号成分が含まれており、これもＬＭＳアルゴリズムにフィードバックせざるを得ない。
【００１３】
このように音声信号成分もフィードバックされることにより、前記更新式に影響を及ぼし、ｅ（ｎ）が最小になるように更新しているｗ（ｎ）が微少に変動してしまうこととなる。そのため、減算器２２から音声認識装置３１に入力される音声信号にエコーがかかったような信号等の不適切な信号を出力してしまい、音声認識性能を悪化させる原因となる。また、このような音声認識装置に入力される信号の中には更に種々の不適切な信号が存在し、音声認識性能を悪化させていることが考えられ、これらの信号を除去する必要がある。
【００１４】
したがって、本発明は、マイクから入力される音声とオーディオ音の混合した音声信号と、オーディオ信号を適応フィルタで制御した信号との誤差信号を、適応アルゴリズムに入れて適応フィルタのタップ係数を制御するように音声認識用オーディオキャンセル装置を構成しても、誤差信号の中に音声信号が入ることによりエコーのかかったような信号等の不適切な信号を出力することを防止することを目的とする。
【００１５】
【課題を解決するための手段】
本発明は、上記課題を解決するため、音声認識装置に入力する音声とオーディオ音とを集音するマイクと、オーディオ信号を入力し適応アルゴリズムによりタップ係数を変化させる適応フィルタと、適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、減算器から出力する両信号の誤差信号をステップサイズパラメータ変更部に入力し、前記ステップサイズパラメータ変更部からの出力を、前記適応アルゴリズムに入力すると共に、音声認識装置に出力するようにした音声認識用オーディオキャンセル装置において、前記減算器の誤差信号出力部に前記適応フィルタのタップ係数の変更度合いを調節するステップサイズパラメータ変更部を備え、前記ステップサイズパラメータ変更部は、音声入力ＳＷにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータを小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータを小に変更することを特徴とする音声認識用オーディオキャンセル装置としたものである。
【００１６】
また、他の態様として、前記ステップサイズパラメータ変更部には複数のステップサイズパラメータのいずれかを選択するステップサイズパラメータ選択部を備え、前記ステップサイズパラメータ選択部は、音声入力ＳＷにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータの小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータの小の方を選択するように構成したものである。
【００１７】
また、他の態様として、前記ステップサイズパラメータ変更部は、音声入力ＳＷの操作による音声認識装置の音声入力時には、タップ係数の変更度合いの小さなステップサイズパラメータとしたものである。
【００１９】
また、他の態様として、前記入力音声のパワーとして、入力音声のパワーの加算平均値を用いたものである。
【００２０】
また、他の態様として、前記入力音声のパワーとして、入力音声の最大パワーの平均値を用いたものである。
【００２１】
【発明の実施の形態】
本発明の実施の形態を図面に沿って説明する。図１は本発明の音声認識用オーディオキャンセル装置の第１の実施例を示し、この実施例においては車内用オーディオ装置１から左右のオーディオ出力ｘ１（ｎ）とｘ２（ｎ）が出力されており、各出力は車室内に左右に配置した第１スピーカ２と第２スピーカ３に出力すると共に、同じ信号を各々の出力に対して独立して設けた、適応フィルタとしての第１ＦＩＲフィルタ４と第２ＦＩＲフィルタ５に対しても出力している。第１ＦＩＲフィルタ４と第１ＦＩＲフィルタ５は前記図６の基本原理に基づき作動するものであり、各々図７に示す音声認識装置用オーディオキャンセルシステムにおける適応フィルタと同様に作動する。
【００２２】
左右のオーディオ信号に各々対応する第１ＦＩＲフィルタの出力ｙ１（ｎ）と第２ＦＩＲフィルタの出力ｙ２（ｎ）は加算器６で加算され、適応フィルタ出力信号ｙ（ｎ）として減算器７のマイナス側に出力している。一方、車室内に設けたマイク８には、利用者９の発する音声Ｘｓ（ｎ）が伝わる伝達関数Ｃｓ、及び第１スピーカ２と第２スピーカ３から伝わる伝達関数Ｃｎ１、Ｃｎ２等のを経由して室内の音が入力される。このマイクからの信号は適宜の時定数をもつ遅延回路１０を介して減算器７のプラス側に出力している。減算器７においては両信号に基づいて、ｅ（ｎ）＝ｄ（ｎ）−ｙ（ｎ）を演算し、誤差信号ｅ（ｎ）を得ている。
【００２３】
減算器７において誤差信号ｅ（ｎ）を出力する出力端には、本発明においてはステップサイズパラメータ変更部１１を備え、互いに並列に設けた第１ステップサイズパラメータ１２と、第２ステップサイズパラメータ１３を、図中模式的に示している切替スイッチ１６でいずれかを選択するように構成している。この切替スイッチ１６は音声入力時に利用者９が音声認識装置１８に対して音声信号を入力すること、入力を停止することを伝えるために操作される音声入力スイッチ１７と連動して切替作動がなされる。
【００２４】
図示実施例において、第２ステップサイズパラメータ１３の値μ２は、第１ステップサイズパラメータ１２の値μ１より小さな値に設定している。そして、利用者９が音声認識のために音声入力スイッチ１７を音声入力側に操作したとき、切替スイッチ１６はその値の小さな第２ステップサイズパラメータμ２を選択し、逆に音声入力スイッチ１７を音声入力停止側に操作したとき、切替スイッチ１６は図に示すようにその値の大きな第１ステップサイズパラメータμ１を選択する側に戻るように構成している。もしくは音声認識が終了したというステータスを受けると、戻るようにしてもよく、また、音声入力ＳＷが押下された後、一定の時間経過後に戻るようにしてもよい。
【００２５】
このようなステップサイズパラメータ変更部１１により、いずれかのステップサイズパラメータを選択した出力信号は、第１ＦＩＲフィルタ４のタップ係数ｗ１を変化させる適応アルゴリズムとしての第１ＬＭＳアルゴリズム１４と、第２ＦＩＲフィルタ５のタップ係数ｗ２を変化させる第２ＬＭＳアルゴリズム１５に入力し、各ＦＩＲフィルタ４，５のタップ係数の変化の度合いを、選択したステップサイズパラメータの大きさにより変化させる。また、前記ステップサイズパラメータ変更部１１からの出力は、音声認識装置１８に入り、音声認識処理がなされる。
【００２６】
上記構成からなる図１に示す音声認識装置用オーディオキャンセル装置においては、車室内においてオーディオ装置からの音楽等の音が出力されているときに、利用者９が例えばナビゲーション装置に対して周辺施設情報検索等を行うために、「この近くのレストランは？」のように音声入力する際には、従来の装置と同様に、音声認識装置１８に対して音声入力を開始することを知らせる音声入力スイッチ１７を操作した後に前記音声入力を行う。
【００２７】
この時、前記音声入力スイッチの作動と連動して、ステップサイズパラメータ変更部１１の切替スイッチ１６は、その値の小さな第２ステップサイズパラメータμ２を選択するように切替えられる。その結果、このステップサイズパラメータμ２が入力される第１ＦＩＲフィルタ４と第２ＦＩＲフィルタ５のタップ係数の更新度合いが小さくなる。それにより、ＦＩＲフィルタによる収束速度は遅くなるものの、従来の装置における、ＦＩＲフィルタに対するフィードバック成分としての誤差信号ｅ（ｎ）中に、入力された音声が混入することにより、前記タップ係数の更新式に影響を及ぼしてしまい、音声認識装置に入力する音声信号が、エコーがかかったような信号となってしまう、という作用を防止することができ、安定した音声信号を送ることができるので、音声認識装置１８における音声認識率が向上する。
【００２８】
一方、音声認識のための音声入力を一時的に停止するとき、あるいは音声認識装置の利用を終了するときには、利用者９が音声入力スイッチ１７を音声入力停止側に操作するので、その操作と連動するステップサイズパラメータ変更部１１の切替スイッチ１６は、その値の大きな第１ステップサイズパラメータμ１を選択するように切替えられる。このステップサイズパラメータμ１は、オーディオキャンセル処理を可能な限り最大限に行うために適した値に設定している。それによりＦＩＲフィルタにおけるタップ係数の修正度合いが大きくなるので、このフィードパック制御系の収束速度が速くなり、高速のオーディオキャンセル処理が可能となる。
【００２９】
このように、ＦＩＲフィルタのタップ係数ｗ（ｎ）の修正度合いを調節する第１ステップサイズパラメータμ１及び第２ステップサイズパラメータμ２の関係は、
μ２＝ｋ・μ１０＜ｋ＜１
を満たすように設定する。上記ｋの値の設定に際しては、キャンセル性能を大きく損なうことなく、また、そのときのタップ計数ｗ（ｎ）の変動が音声認識装置に大きな影響を及ぼさない範囲に設定する。上記の作用は適応アルゴリズムとして前記ＬＭＳアルゴリズム以外に、学習同定法などで更新されている場合も同様であり、その際の音声入力時には、音声入力スイッチをＯＮする直前のステップサイズパラメータをμ１とする。
【００３０】
上記のような本発明の音声認識用オーディオキャンセル装置は、図２に示される作動フローに沿って処理される。即ち、このフローの開始後、音声認識装置に対する入力待ちが行われ（ステップＳ１）、利用者が音声入力を開始するために音声入力スイッチをＯＮするまでこの入力待ちが行われる（ステップＳ２）。ここで音声入力スイッチがＯＮされると、ステップサイズパラメータ切替装置を作動し、ステップサイズパラメータμの値を、大きな値のμ１から小さな値のμ２に切替え（ステップＳ３）、この状態で音声認識処理が行われる（ステップＳ５）。その後音声入力操作を一時停止するか、終了するために、音声入力スイッチをＯＦＦするか、あるいは所定時間経過するか、または音声認識装置側から認識処理終了の信号を受信するまではこの状態を保持し（ステップＳ５）、音声入力スイッチをＯＦＦしたときには（ステップＳ５）、ステップサイズパラメータ切替装置を作動し、ステップサイズパラメータμの値を、音声認識用の小さな値のμ２から通常の大きな値のμ１に切替える（ステップＳ６）。その後は再び音声入力スイッチがＯＮされる迄入力待ちとなる（ステップＳ１）。
【００３１】
上記実施例においては、適応フィルタの作動のために誤差ｅ（ｎ）をフィードバックする際に音声信号も戻るために、エコーのかかったような出力信号を発生することを防止するため、音声認識時には適応フィルタのタップ係数の変化を調節するためのステップサイズパラメータを通常時の大きなμ１から小さなμ２に変化させたものであるが、音声認識装置に入力される上記信号中には種々の信号が存在し、これらが音声認識に悪影響を及ぼしていることが考えられる。したがって、これらの各種信号のうち、使用状況等に応じて特定の信号を除去するために、前記とは逆に音声認識時にステップサイズパラメータを通常時よりも大きくし、より高速で誤差信号をフィードバックするように構成する等、種々の態様を取ることができる。
【００３２】
図３には本発明の第２の実施例を示している。この実施例においては、前記第１の実施例が適応フィルタに誤差ｅ（ｎ）をフィードバックする際、誤差信号の中に音声信号が入ることによりエコーのかかったような信号を発生することを防止するため、音声入力時にはステップサイズパラメータを小さな値とし、ステップゲインを小さくすることにより防止したものであるが、このような手段を用いることによりかなりの改善効果があるものの、未だ完全ではない。即ち、ステップゲインを切り替えることにより、タップ係数ｗ（ｎ）の変動は押さえられるものの、エコーの大きさ（長さ）は、ステップゲインの大きさにも比例するが入力された音声の大きさにも比例しており、ステップゲインを切り替えるのみでは、特に大音量の音声入力時には不十分な場合がある。そのため、大音量の音声が入力してもエコーを生じることがないようステップゲインを小さく設定すると、ノイズのキャンセル性能が不十分となる。
【００３３】
また、ステップゲインに関しては上記のように、その値が大きいほど誤差の収束が早いが、音声入力中のエコーを引き起こす度合いが大きくなる。前記第１の実施例においては音声認識中と非音声認識中の状態別に、それぞれのステップゲインをμ１，μ２とするとき、μ１＞μ２＝ｋμ１（０＜ｋ＜１）を切り替えるものであるが、それは単に既定のステップゲインに切り替えること、即ち既定の係数ｋを用いるのみであり、音声認識中の音量に応じたステップゲインμ２の適切な算出方法迄は考慮していなかった。即ち、非音声認識中の既定のステップゲインμに対する音声認識中のステップゲインの値を、既定の係数であるｋの値を用いる以外に、音声認識中の音量等に応じて動的に変化させることは考慮していなかった。
【００３４】
この点に関して図３に示す第２実施例においては、上記のような入力される音声の大きさに比例してエコーの大きさが変わることを、音声の大きさに応じてステップゲインを調整することによって解決し、その調整に際しては既定の係数ｋを用いる以外に、従来考慮されることがなかった音声の大きさに応じて更に変化させることにより解決したものである。以下第２実施例を図３の機能ブロック図、及び図４のフローチャートに基づいて、特に前記第１実施例と異なる点を中心に説明する。
【００３５】
図３に示す第２実施例においては、減算器７迄の機能構成部分は前記第１実施例と同様であるのでその説明は省略する。減算器７からの差信号ｅ（ｎ）は音声パワー計算部１９に入力され、入力音声のパワーの加算平均、もしくは最大パワーの平均値としてのＰ（ｎ）を計算する。この計算に際しては、入力された音声はほぼ雑音が除去された例えば図５に示す音声レベル線図のような出力が得られる。
【００３６】
図５において（ａ）は図３の利用者９が音声認識を行わせるため音声入力ＳＷ１７を操作して比較的大きな声で所定の言葉を発し、その後その言葉の入力が終了した状態を示し、同図（ｂ）は同じ言葉を同じ利用者が比較的小さな声で音声入力したときの状態を示す。なお、同じ言葉を発声した際の音量の相違は、上記のような同一人である場合の他、例えば大声で話をする習慣のある人と、比較的静かに話をする人との相違によっても当然生じるが、その際は同じ言葉でも波形が一部異なることが多い。同図（ｃ）は他の言葉を発したときの音声レベル線図であり、同図（ａ）（ｂ）の言葉よりも音声パワーを必要とする言葉であるか、あるいは他の言葉を比較的大きな声で発声した状態が示されている。
【００３７】
上記のような音声の入力があったとき、前記音声パワー計算部１９においては、例えばこの音声波形のパワーを積分してトータルパワーを算出するか、あるいはこの音声入力区間における最大パワー値Ｈmaxを得ることによりこれをｐ(i)とし、これをメモリする。この特定の音声入力区画における一時的なｐ(i)に基づいて現在入力されている音声のパワー平均値を計算するため、メモリに記憶している任意の回数であるｊ＋１回分のｐ(i)の値を加算した後、これをｊ＋１で割って過去（ｊ＋１）回分の発声の平均パワーもしくは最大パワーの平均値Ｐ(n)を得る。この計算は次の数式（２）で表され、この値が図５の音声パワー計算部１９から出力される。
【数１】

【００３８】
図３において減算器７からの差信号ｅ(n)は、前記第１の実施例と同様に図中模式的に示している切替スイッチ１６でステップサイズパラメータ１２のみで処理される第１の回路と、ステップサイズパラメータ１２と同じμの値を持つステップサイズパラメータ１３に対して更に後述するような処理を行う第２の回路とに切替えられる。前記音声入力ＳＷ１７が操作されて音声入力を行うときにはそのスイッチ操作と連動して後者の第２の回路に切り替えられ、音声入力がとぎれたことを自動的に検出することにより、あるいは利用者が音声入力を一時止める信号の入力操作を行ったことを検出することにより前者の第１の回路に切り替えられる。
【００３９】
音声入力が行われることによりステップサイズパラメータ１３側に切替スイッチ１６が切り替えられると、ステップサイズパラメータ１３でμが乗算され、次いで係数乗算部１３１で係数ｋ（０＜ｋ＜１）を乗算する。この処理は前記第１の実施例において、第１ステップサイズパラメータμ１と、この第１ステップサイズパラメータより所定の比率小さな値のステップサイズパラメータを得るため、第２ステップサイズパラメータμ２についてはμ２＝ｋμ１（０＜ｋ＜１）としたことと同様の処理となる。
【００４０】
その後パワー補正計算部１３２において、前記音声パワー計算部１９で計算された平均パワーもしくは最大パワーの平均値Ｐ(n)を用いて（α・Ｐ(n)＋１）^−１の計算、即ち入力された値をα・Ｐ(n)＋１で割り算を行う。ここで「＋１」は、音声の平均パワーもしくは最大パワーの平均値が充分に小さいときに１／（α・Ｐ(n)＋１）の値が１に近づき、０とはならない条件を満たすようにするためのものである。またαの設定に際しては、実際にこの演算処理が行われるとき通常取り得る最大の音声の平均パワーもしくは最大パワーの平均がＰ(n)maxとするときに、１／（α・Ｐ(n)max＋１）が数分の１から十数分の１程度になるように設定する。
【００４１】
パワー補正計算部１３２において上記のような計算を行う結果、音声入力時に音声入力ＳＷ１７が操作され、切替スイッチ１６がステップサイズパラメータ１３側に切り替えられたときには、この回路部分での演算により入力したｅ(n)に対してμ・ｋ／（α・Ｐ(n)＋１）を乗算する処理がなされる。ここにおいてｋ／（α・Ｐ(n)＋１）の値は０より大きく１より小さな値であるので、切替スイッチ１６がステップサイズパラメータ１２側に切り替えられているときのステップサイズパラメータμよりも小さな値となる。そのため、音声入力時にはより小さなステップサイズパラメータμに変更したことと同等となり、しかも入力した音声の平均パワーもしくは最大パワーの平均が大きいほど小さな値となり、その結果音量が大きいほどエコーを生じやすい前記欠点を解消することができる。
【００４２】
上記のような処理は例えば図４に示すような作動フローに沿って処理される。即ち、このフローの開始後、音声認識装置に対する入力待ちが行われ（ステップＳ１１）、利用者が音声入力を開始するために音声入力スイッチをＯＮするまでこの入力待ちが行われる（ステップＳ１２）。ここで音声入力スイッチがＯＮされると、図３の音声パワー計算部１９におけるメモリで記憶されている前回までの音声の平均パワーもしくは最大パワーの平均であるＰ(n-1)を取り出して後述する計算式への入力データのためのＰ(n)とする（ステップＳ１３）。
【００４３】
次いで、今回入力された音声データに基づき、パワー加算平均又は最大パワーを算出し、この値を新たにＰ(n-1)のメモリ部分に書き込む（ステップＳ１４）。次いで、前記Ｐ(n)の値及び予め設定されているステップサイズパラメータμ、係数ｋ、αの各値を用いてμ・ｋ／（α・Ｐ(n)＋１）を演算し、この値を適応フィルタに出力する新たなステップサイズパラメータμとすると共に、これを音声認識装置１８に出力し、音声認識処理が行われる（ステップＳ１６）。音声認識処理終了後はその旨の信号を受け、あるいは音声入力スイッチが押された後所定時間経過した信号の検出等、種々の手段により音声認識終了を検出し、図３の切替スイッチ１６を切り替えてステップサイズパラメータを元のμの値に戻し（ステップＳ１７）、再びステップＳ１１に戻って次の音声入力待ちを行う。
【００４４】
上記実施例においては、認識用音声入力時に音声入力ＳＷ１７の操作に連動して切替スイッチ１６を切り替えるように構成した例を示したが、これは機能を模式的に示したものであり、認識用音声入力信号を検出したときにステップサイズパラメータを変更することができるならば、例えば演算用ソフト内での処理等、種々の手段を採用することができる。また、上記第２実施例においてパワーの算出手段として音声の平均パワーもしくは最大パワーの平均を用いる例を示したが、そのほか音声のパワーを得る従来公知の種々の手段を採用することができることは当然である。
【００４５】
【発明の効果】
本発明は、上記のように構成したので、マイクから入力される音声とオーディオ音の混合した音声信号と、オーディオ信号を適応フィルタで制御した信号との誤差信号を、適応アルゴリズムに入れて適応フィルタのタップ係数を制御するように音声認識用オーディオキャンセル装置を構成しても、音声認識装置への不適切な信号入力を防止することができ、音声認識装置の認識率を向上させることができる。また、前記ステップサイズパラメータ変更部を、入力音声のパワーが大きい程ステップサイズパラメータを小さくしたので、入力音声のパワーが大きいほどエコーのかかったような信号の出力が大きくなることを防止することができ、音声認識装置の音声認識率を向上することができる。
【００４６】
また、前記ステップサイズパラメータ変更部には複数のステップサイズパラメータのいずれかを選択するステップサイズパラメータ選択部を備え、前記ステップサイズパラメータ選択部は、音声入力ＳＷにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータの小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータの小の方を選択するように構成したものにおいては、認識用音声入力時に予め設定したステップサイズパラメータを用いて変更することができ、容易に、且つ高速に適切なステップサイズパラメータの変更を行うことができる。
【００４７】
また、前記ステップサイズパラメータ変更部は、音声認識装置の音声入力時には、タップ係数の変更度合いの小さなステップサイズパラメータとしたものにおいては、前記誤差信号の中に音声信号が入ることにより生じるエコーのかかったような信号の出力を防止することができ、音声認識装置の音声認識率を向上することができる。
【００４９】
また、前記入力音声のパワーとして、入力音声のパワーの加算平均値を用いるものにおいては、入力音声のパワーの値を正確に求めることができ、前記入力音声のパワーが大きいほどエコーのかかったような信号の出力が大きくなることを確実に防止することができ、音声認識装置の音声認識率をより向上することができる。
【００５０】
また、前記入力音声のパワーとして、入力音声の最大パワーの平均値を用いるものにおいては、入力音声のパワーの値を容易に求めることができ、簡単な手段で高速演算処理を行うことができ、前記入力音声のパワーが大きいほどエコーのかかったような信号の出力が大きくなることを容易に防止することができる。
【図面の簡単な説明】
【図１】本発明の第１の実施例の機能ブロック図である。
【図２】本発明の第１の実施例の作動フロー図である。
【図３】本発明の第２の実施例の機能ブロック図である。
【図４】本発明の第２の実施例の作動フロー図である。
【図５】音声認識装置に入力される音声のパワー信号の例を示す音声パワー線図である。
【図６】オーディオキャンセル装置等に用いられる適応フィルタの原理図である。
【図７】従来の音声認識装置において、図３の適応フィルタを用いてオーディオキャンセルを行う機能ブロック図である。
【符号の説明】
１オーディオ装置
４第１ＦＩＲフィルタ
５第２ＦＩＲフィルタ
７減算器
８マイク
１１ステップサイズパラメータ変更部
１２第１ステップサイズパラメータ
１３第２ステップサイズパラメータ
１６切替スイッチ
１７音声入力スイッチ
１８音声認識装置

Claims

音声認識装置に入力する音声とオーディオ音とを集音するマイクと、オーディオ信号を入力し適応アルゴリズムによりタップ係数を変化させる適応フィルタと、適応フィルタの出力信号と前記マイクからの信号を入力する減算器と、減算器から出力する両信号の誤差信号をステップサイズパラメータ変更部に入力し、前記ステップサイズパラメータ変更部からの出力を、前記適応アルゴリズムに入力すると共に、音声認識装置に出力するようにした音声認識用オーディオキャンセル装置において、
前記減算器の誤差信号出力部に前記適応フィルタのタップ係数の変更度合いを調節するステップサイズパラメータ変更部を備え、
前記ステップサイズパラメータ変更部は、音声入力ＳＷにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータを小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータを小に変更することを特徴とする音声認識用オーディオキャンセル装置。
前記ステップサイズパラメータ変更部には複数のステップサイズパラメータのいずれかを選択するステップサイズパラメータ選択部を備え、前記ステップサイズパラメータ選択部は、音声入力ＳＷにより当該音声認識装置へ音声が入力するよう制御された場合はステップサイズパラメータの小にし、且つ入力音声の音量が大きい程該ステップサイズパラメータの小の方を選択することを特徴とする請求項１記載の音声認識用オーディオキャンセル装置。
前記ステップサイズパラメータ変更部は、音声入力ＳＷの操作による音声認識装置の音声入力時には、タップ係数の変更度合いの小さなステップサイズパラメータとしたことを特徴とする請求項１記載の音声認識用オーディオキャンセル装置。
前記入力音声のパワーとして、入力音声のパワーの加算平均値を用いることを特徴とする請求項１記載の音声認識用オーディオキャンセル装置。
前記入力音声のパワーとして、入力音声の最大パワーの平均値を用いることを特徴とする請求項１記載の音声認識用オーディオキャンセル装置。