WO1998039946A1

WO1998039946A1 - Procede et dispositif de traitement de la parole

Info

Publication number: WO1998039946A1
Application number: PCT/JP1998/000915
Authority: WO
Inventors: Makoto Shozakai; Tomohiro Tani
Original assignee: Asahi Kasei Kogyo Kabushiki Kaisha
Priority date: 1997-03-06
Filing date: 1998-03-05
Publication date: 1998-09-11
Also published as: KR100382024B1; EP0969692A1; KR20000075980A; EP0969692B1; US7440891B1; EP0969692A4; ATE509477T1; JP3229335B2; CN1159948C; CN1545368A; JPH10257583A; CN1249889A; CN100512510C; AU6120398A

Description

明細書

音声処理装置および方法技術分野

本発明は、リモートスピーカーからリモートマイクへの音響エコーをキャンセルすることにより通話品質の向上を計ったハンズフリ一系の通話システム（テレビ会議システム、自動車電話）およびリモートスピーカーからリモートマイクへの回り込み音声をキヤンセルすることにより音声認識性能の向上を計ったハンズフリ一系の音声認識装置（カーオーディォ、カーナビゲーシヨン、 p cなど）に適用可能な音声処理装置および方法に関する。背景技術

リモートスピーカーからリモートマイクへ回り込む音響信号は、しばしば音響エコーと呼ばれる。音響エコーを除去する技術（音響エコーキャンセラー）の用途は以下の 2つである。

1 ) ハンズフリー系通話システム（テレビ会議システム、自動車電話）において、通話をしている相手に対し送出される音声の音質を向上させる。

リモートスピーカーから出力された相手側の音声が部屋の壁や窓ガラスに反射し、その部屋固有の音響特性の影響を受けて、リモートマイクに音響的に回り込む場合がある。この場合、相手にとっては自分の声がある時間遅れを伴って音響エコーとして戻ってくるため、聞きづらく話しづらいという不具合がある。従って、リモートマイクが集音した音声の中で、スピーカーから回り込んだ音響エコーをキヤンセルして、残りの音声を通話をしている相手に送出することにより、上記の不具合を改善することが望まれる。

2 ) ハンズフリ一系の音声認識装置において音声認識率を向上させる。例えば、自動車内においては、カーオーディオや力一ナビゲ一シヨンのスピーカー出力音が上記音響エコーと同様にダッシユボードゃ窓ガラスに反射して音声認識用マイクに回り込み、それが非定常の加法性雑音として作用して、音声認識率が低下するという不具合がある。従って、音声認識用マイクが集音した音声の中で、スピーカーから回り込んだ音声をキャンセルして、残りの音声の認識を行うことにより、より高い音声認識性能を実現することが望まれる。

上記 2つの用途においてはいずれも、リモートスピーカーからの出力音響の直接音および部屋の壁、ダッシュボードゃ窓ガラスなどで反射した反射音が常時リモートマイクに回り込む。ここでは、リモートスピーカーからリモートマイクへの直接音および反射音をまとめて音響エコーと呼ぶことにする。また、リモートスピーカー出力音から音響エコーが生成される経路を音響エコー生成経路と呼ぶことにする。

一般に、音響エコー生成経路の特性は、 F I R (Finite Impulse

Response)フィルターでモデル化できる力 ^?、部屋内の状況（人間の動作、人数などの要因）や自動車内の状況（人間の動作、人数、窓の開閉などの要因）により変化すると考えられる。音響エコー生成経路の特性の変化がほとんど起こらない場合には、あらかじめ最適なフィルター係数を求めておき、フィルター係数を固定して、音響エコーをキャンセルする方法で良いと思われる。しかしながら、音響エコー生成経路の特性の変化がいつ発生するかは、一般に予測が困難である。この場合、適応フィルターの利用により、最適なフィルター係数を動的に推定しながら、適応的に音響エコーのキヤンセルを行う方法の採用が望ましい。適応フィルターとは、観測信号が、音源既知の信号に対しあるインパルス応答を持つフィルターが畳み込まれて生成されたものであると仮定し、観測信号と（音源既知信号とフィルタ一係数の推定値との畳込みにより計算される）疑似信号の差が 0 (ゼロ）になるように、フィルタ一の係数を動的に適応させるアプローチをいう。音響エコー生成経路を近似する F I Rフィルターの係数とスピーカーからの出力信号の畳み込みにより得られる信号を観測信号から引くことにより、音響エコーをキャンセルすることが可能である。適応フィルターのアルゴリズムとして、これまでに LMS

(Least Mean Square error) [S . Havkin, "Adaptive Filter Theory, " 2nd ed. Englewood Cliffs, NJ, Prentice-Hall, 1991]、 NLMS (Normalized Least Mean Square error) [S. Haykin, "Adaptive Filter Theory, " 2nd ed.

Englewood Cliffs, NJ, Prentice-Hall, 1991]、 A P A(Affine Projection Algorithm) [尾関和彦，南雲仁一， "ァフィン部分空間への直交射影を用いた適応フィルター · アルゴリズムとその諸性質，' '信学論， Vol.J67-A， No.2, pp.126- 132， 1984.]、 R L S (Recursive Least Squares) [S. Haykin, "Adaptive Filter Theory, " 2nd ed. Englewood Cliffs, NJ, Prentice-Hall, 1991]などが提案されている。特に、 NLMSは、演算量が少なく、収束速度が既知の音源信号の大きさに依存しないため、広く採用されている。しかし、音声のような有色信号に対する、フィルター係数の収束速度が、 A

P Aや R L Sに比べて遅いことが指摘されている。

時刻 tにおける F I Rフィルタ一の係数、 F I Rフィルタ一への入力データ（既知の音源信号）をそれぞれ

x(t)=[x(t), x(t- l)，...，x - Μ+1)]^τ (2) で表現する。ここで、 ^τは転置を示す。 Μは F I Rフィルターの次数である c また、時刻 tのマイク入力信号を y(t)とすると、 NLMSは、一般に以下の式で与えられる。 r(t)=h(t)^Tx(t) (3) e(t)=y(t)-r(t) (4)

h(t + l)= h(t)+- -x(輔 (5)

a+ χι (t)ll^ ここで、 · fはベクトルのエネルギーを表す。 μは、フィルター係数の更新速度を決定する定数（ステップゲインと呼ばれる）で、フィルター係数が収束するために、 0< μ <2を満たす必要がある。 aは、 |_x(t)||²が微小値の場合に（5)式の右辺第 2項が発散するのを防止するための正の定数である。図 1に上述の式を回路で表した N LMSのプロック図を示す。ここで、 r(t)を疑似音響エコー信号、 e(t)を音響ェコ一キャンセル信号と呼ぶことにする。図 2に、 NLMSをはじめとする適応フィルタ一を使用した音響エコーキャンセラ一（AEC) を室内に設置した例を示す。説明の便宜上、スピーカー 2から出力される信号の AE C 1への入力を遠端入力、マイク 3の入力を近端入力、スピーカー 2の出力を近端出力、音響エコーキャンセル後の AE C 1の出力信号を遠端出力と呼ぶ。また、遠端入力と近端出力は全く等価であると仮定し、遠端入力から近端出力が生成される系の特性（スピーカー特性など）は、音響エコー生成経路の特性に含めるものとする。

このような音響エコーキャンセラーに関しては、特に、以下の課題について精力的に研究が進められてきた。 1 ) ステツプゲインの制御

ステツプゲインは可能な限り大きくして収束速度を上げることが必要である力大きくしすぎるとハウリングの原因となるため、使用環境に適した設定が必要である。代表的なステップゲインの制御方法として、 E S (Exponential Step)法 [S. Makino, Y. Kaneda and N. Koizumi,

"Exponentially Weighted Steps ize NLMS Adaptive Filter Based on the

Statistics of a Room Impulse Response" IEEE Trans. SAP, Vol.1 , No.1 , pp.101-108, 1993.]が提案されている。室内における、適応フィルター係数更新時の変化量が指数減衰特性を有することから、ステツプゲインを指数的に（変化量の大きいインパルス応答前半では大きく、後半は小さく）設定する。残留エコーレベルが減少するのに要する時間が通常の N LMSの半分程度で済むことが示されている。

2 ) ダブルトーク検出

一般に、ダブルトーク（遠端話者と近端話者の双方が同時に発声した状態）において、 AE C (NLMS) 1 により適応フィルタ一係数の更新を継続すると、フィルターの係数が大きく乱れ、その結果としてエコー消去量が減少してハウリングが起こりやすくなる。従って、ダブルトークを如何に速やかに検出して、 AE C 1の適応フィルタ一の更新動作を制御（停止 ·再開）するかは重要なポイントである。ダブルトークの検出には、残留エコーのパワーを用いる方法が有効とされる [藤井健作，大賀寿郎， "ェコ一経路変動検出を併用するダブルトーク検出法,"信学論， Vol.J78-A， No.3, pp.314-322, 1995.]。音響エコーに埋もれる小ざな、近端話者音声を検出することが可能であるからである。

3 ) 音響エコー経路変動検出

近端話者が移動した時などに伴う音響ェコ一経路の変動が発生した場合、残留エコーが増大してダブルトークと判断され、適応フィルターの係数更新が停止されるという不具合が生じる。そこで、ダブルトークと音響ェコ一経路変動を区別し、音響エコー経路変動の場合には適応フィルターの係数更新を継続することが必要になる。その方法として、近端入力と疑似ェコ一の相関を利用する方法 [藤井健作，大賀寿郎， "エコー経路変動検出を併用するダブルトーク検出法，"信学論， Vol. J78-A, No.3, pp.314-322, 1995. ] などが提案されている。

力一オーディォゃ力一ナビの音響 ·音声信号がスピーカ一から出力されている自動車環境内での口バストな音声認識機能を高める目的で、車室内に N L M Sによる A E C 1 を設置して音源既知の加法性雑音の除去する例を図 3に示す。図 3に示す図 2 と同一個所の符号は図 2に示す符号と同一である。

スピーカ一 2からガイダンス音声が出力されている最中に発声された音声を認識できる機能、いわゆる Barge-In(Talk-Through)機能の実現に向けて、 A E C 1 を利用する手法が試みられている。ここで、スピーカー 2の出力に起因する音声の誤認識の中で、適応フィルターの効果により正認識となる回復率を R R E (Recovery Rate of Error)と呼ぶことにする。

例えば、会議室に設置された音声対話システムにおいて、スピーカ一 2 からマイク 3へのガイダンス音声の回り込みを A E C 1 により抑圧することにより、 7 0〜8 0 %の1^ 1¾ £が得られることが示されている [高橋敏，嵯峨山茂樹， " N O V 0合成法を用いた B a r g e - i n音声の認識, "音講

¾6.

tJ冊集， 2-5-1 , pp.59-60, 1996-3. ]₀

しかしながら、音源未知の加法性雑音が存在し、その雑音レベルが常時変動する車室内における、音響エコーキャンセラーに関する研究成果はあまり報告されていない。自動車電話のハンズフリー装置においては、音声スィッチ（近端入力と遠端入力のエネルギー比較による交互通話方式）と音響エコーキャンセラーとの併用によるものもあるが、語頭、語尾の切断が多く通話品質が不十分である点が指摘されている。

一般に、近端入力に近端出力から生成される音以外の音が混入する（以下、近端入力が存在するという）状況で係数の適応化を継続した場合、フィルタ一係数の推定精度が劣化し、音響ェコ一のキャンセル性能が悪化する。そこで、遠端入力が存在し、かつ近端入力が存在する状態（ダブルトーク状態と呼ぶ）では、（5)式によるフィルタ一係数の更新を停止させることが一般に行われる。遠端入力が存在するかどうかの判断は、遠端入力のエネルギーと予め定められたしきい値との単純な比較で可能である。

一方、近端入力が存在するかどうかの判断を同様に行うと、音響エコーの影響で近端入力が存在すると判断する場合が多くなり、（5)式によるフィルター係数の更新を頻繁に停止して、結果的にフィルター係数の推定精度が劣化するという不具合が生じる。そこで、近端入力信号 y(t)ではなく、音響エコーキャンセル信号 e(t)のエネルギーを用いて、近端入力が存在するかどうかを判断するという方法が考えられる。近端出力から生成された音以外で近端入力に混入する音としては、大きく分けて走行雑音などの音源未知の加法性雑音と人間の音声の 2つが考えられる力 ^s、いずれも適応フィルターで除去されずに遠端出力に残存する。

一般に、走行中の自動車環境では、音源未知の加法性雑音のエネルギーレベルが、 6 0〜8 0 d B Aの間で大きく変動するため [金指久則，則松武志，新居康彦， "車載用単語音声認識装置, "音講論集， 1 -Q-32, pp. 159- 160， 1995-3. ] [鈴木邦一，中村一雄，宇尾野豊，浅田博重， "車載騒音環境下における連続音声認識, "音講論集， 2-Q-4, pp. 155- 156, 1993- 10. ]、近端入力の存在を判断するための最適なしきい値を一意に決めることは難しいという問題がある。

また、音源未知の加法性雑音の影響により、近端入力と疑似音響エコー信号の相関が低下するため、先述の音響エコー経路変動検出法 [藤井健作，大賀寿郎， "エコー経路変動検出を併用するダブルトーク検出法,"信学論， Vol.J78-A, No.3, pp.314-322, 1995.]の適用も困難な場合があると予想される。音源未知の加法性雑音と人間の音声を正確に識別する能力を持つ、音声検出アルゴリズムがあれば、有力な解決法になると思われる。

まず走行雑音のみが存在する場合での、 NLMSによる音響エコーのキヤンセル性能を評価する。図 4 A、図 4 B、図 4 C、図 4 D、図 4 Eに、それぞれ遠端入力信号（ポッブス音楽）のスペクトログラム、アイドリング時での近端入力信号のスぺクトログラム、同じく音響エコーキヤンセル信号のスペクトログラム、時速 1 0 0 k m走行時の近端入力信号のスぺクトログラム、同じく音響エコーキャンセル信号のスぺクトログラムを示す。

カーオーディォの音量は、アイドリング時と時速 1 0 0 km走行時で、男性 1名が快適と感じるレベルにセットした。従って、時速 1 0 0 k m走行時の方が、スピーカー出力レベルは大きく、音響エコーレベルも大きい。近端入力信号は、 2 0 0 0 c cの自動車の運転席サンバイザーに単一指向性マイクを設置して収録した。フィルター係数の初期値は全て 0. 0とし、時刻 0秒から継続的に（3)-(5)式によりフィルター係数を更新しながら音響エコーキャンセル信号を求めた。サンプリング周波数は 8 k H zであり、音響エコーの最大遅延は 3 2 m sまで考慮した。従って、 F I Rフィルタ一のタツプ数は 2 56である。

また、適応フィルターの性能を評価する尺度として、 E R L E(Echo Return Loss Enhancement)がよく用いられる。 E R L Eは近端入力信号の減衰量を表し、次式で定義される [北脇信彦編著， "音のコミュニケーシヨンェ学一マルチメディァ時代の音声 ·音響技術一，'' コロナ社， 1996.

ERLE=10- log₁₀ (6)

⁶¹⁰ E[e(t)²]

E[.]は推定値を表し、次式により求める。

E[z(t)²]=(l-^)-E[z(t-l)²]+ λ- z(t)² (7) 但し、 = 1 Z 2 56である。 E R L Eの単位は、 d Bである。アイドリング時の E R L Eの最大値、平均値はそれぞれ 1 8. 8 0 d B、 1 0 , 1 3 d Bである。また、時速 1 0 0 km走行時の E R L Eの最大値、平均値はそれぞれ 9. 3 3 d B、 5. 8 9 d Bである。近端入力の音源未知の加法性雑音のレベルが大きいほど、（6)式で与えられる E R L Eは低い値になることに注意する必要がある。

図 4 C、図 4 Eからアイドリング時、時速 1 0 0 k m時いずれの場合も音響エコーをほぼキャンセルできていることが分かる。近端入力に人間の音声が含まれない場合は、フィルタ一係数を継続的に更新することにより音響エコーの大部分はキャンセル可能であると思われる。すなわち、音源未知の加法性雑音の中で定常的かつ音声と無相関である走行雑音は、フィル夕一係数の推定に与える影響が小さいと考えられる。

次に、近端入力に人間の音声が含まれる場合について調べる。 2 0 0 0 c cの自動車でカーオーディオからポップス音楽を再生しながら市街地を時速 6 0 kmで走行し、加法性雑音データを収録した。この時、音楽のボリュームは女性 1名が快適と感じるレベルにセットした。次に、停止中

(ェンジンオフ）の同一の自動車内で同一女性 1名が発声した音声データ

( 「明るい」）を同一の録音レベルで収録した。そして、加法性雑音デ一タと音声データとを計算機上で加算した信号のスぺクト口グラムを図 7 Aに示す。図 7 Bにフィルタ一係数の初期値を 0 . 0 とし、時刻 0秒から連続的にフィルター係数を更新した場合の音響ェコ —キャンセル信号のスペクトログラムを示す。また、図 7 Cにフィルター係数の 1 0番目の係数の値の変化を示す。この時の、 E R L Eの最大値、平均値はそれぞれ 8 . 4 8 d B、 4 . 1 8 d Bである。

特に、時刻 0 . 5秒あたりから 0 . 1 5秒の間、フィルター係数値が激しく振動し、不安定になっている様子が分かる。また、時刻 1 . 0秒以降の音響エコー（図 7 Bの楕円で囲まれた部分）をキャンセルできていない。近端入力に音声が存在する間はフィルター係数の更新を停止し、近端入力に音声が存在しない間は、定常的な加法性雑音の存在の如何に関わらずフィルター係数の更新を継続する必要がある。そのためには、音源未知の加法性雑音が混入する近端入力に音声が含まれているかどうかを正確に判定する音声検出ァルゴリズムが必要となる。

音声認識システムにおいては、正確に音声区間を検出すること（音声検出）が極めて重要である。背景雑音がほとんどない環境では、正確な音声検出はそれほど難しくはない。しかしながら、走行中の車室内のように背景雑音の存在が無視できない環境においては、音声の検出はかなり困難である。特に、音声の最初に位置する弱い摩擦音、弱い鼻音や音声の最初または最後に位置する無声化した母音などは背景雑音に埋もれてしまうケースが多く、検出は難しい。呼吸音、舌打ち音などは本来非音声として検出されるべきであるが、しばしば音声として検出され、誤認識につながることが多い。

通常、あるしきい値以上の短時間パワーが連続して一定フレーム以上継続するかどうかにより音声の開始点を検出し、あるしきい値以下の短時間パワーが連続して一定フレーム以上継続するかどうかにより音声の終了点を検出する方法が一般的である。また、 2つのレベルのしきい値を用いて、より正確に音声を検出しょうとする試みや、音声信号の零交差回数を用いることもある [古井貞熙， "ディジタル音声処理，'' ディジタルテクノ口ジーシリーズ，東海大学出版会， 1985. ]。音源未知の加法性雑音の存在が無視できる環境においては、短時間パワーや零交差回数などの時間情報のみを用いる音声検出法でも問題は生じない。

しかし、音源未知の加法性雑音の存在が無視できない環境においては、従来の音声検出法を用いた場合の音響エコーキャンセラーには、以下の不具合がある。まず、第一にマイク入力に音声が存在しないにも関わらず、音源未知の加法性雑音を音声であると判断し、フィルター係数の更新が行われず、音響特性の変化に追随できなくなり、音響エコーのキャンセル性能が低下する。第 2に、マイク入力に音声が存在するにも関わらず、音声がないと判断し、フィルタ一係数の更新が行われて、所望の値から乖離し、音響エコーのキャンセル性能が低下する。従って、時間情報ばかりではなく、スぺクトルなどの周波数情報も併用する方法が望ましい。

特開平 9— 2 1 3 9 4 6号（N T T ) においては、入力音声信号（ェコ一キャンセル前の信号）と音源既知の加法性雑音の音源情報の時間情報および周波数情報を用いて入力音声信号に音声が含まれているかどうかを判定するダブルトーク検出回路を用いた音響エコーキャンセラーが説明されている。しかしながら入力音声信号に入り込むエコーとして音源信号の影響を受けたものだけを前提にしており、周囲の雑音がある場合に、ダブルトーク検出精度が悪いという不具合がある。また、適応フィルタ一により推定したインパルス応答（F I Rフィルタ一の係数値）を保持するバッファを有していない。特開平 5— 1 02887号（東芝）では、エコーキヤンセル後の信号の大きさでダブルトークかどうか判定するダブルトーク検出回路を用いている力時間情報および周波数情報を併用する判定ではないため、周囲の雑音が存在する環境における判定精度が十分ではないという不具合がある。

特開平 7— 303066号（NTT DOCOMO) では、ィンパルス応答レジスタで判定手段の遅れを補償する構成を取っている力、エコーキヤンセル後の信号の時間情報および周波数情報を用いて入力音声信号に音声が含まれているかどうかをフレーム毎に判定する手段を具えていないため、ダブルトーク検出性能に限界がある。

WO 96 / 42 142号（NOK I A) では、エコーキヤンセル後の信号の時間情報および周波数情報を用いて入力音声信号に音声が含まれているかどうかをフレーム毎に判定する手段を具えているが、自動車電話の基地局の送出信号のゲインを小さくすることにより音響エコーが直接送出されるのを押さえる構造を持つ音響エコーサブレッサに関する発明であり、音響エコーキヤンセラ一に関する発明ではない。発明の開示

本発明の目的は、音響などの雑音が混在しやすい環境下で音声信号からの雑音除去性能を改善することができる音声処理装置および方法を提供するとる。

音響エコーの伝達経路を模擬する現時点のィンパルス応答および音源信号に基づき疑似音響ェコー信号を生成する生成手段と、

現時点のィンパルス応答を保持し、前記生成手段に供給する供給手段と、

マイク入力信号から該疑似音響ェコ一信号を減算することにより音響エコー成分を除去し、音響エコーキャンセル信号を生成する除去手段と、前記音源信号と前記音響ェコーキャンセル信号と前記供給手段が保持している現時点のインパルス応答を用いて継続的にィンパルス応答を更新し、更新されたインパルス応答を前記供給手段に供給する更新手段と、前記音響エコーキャンセル信号の時間情報および周波数情報を利用して、マイク入力信号に音声が含まれているか否かをフレーム毎に判定する判定手段と、

1つ以上のィンパルス応答を保存する保存手段と、

前記判定手段の判定結果が否定判定のフレームでは前記供給手段が保持している現時点のィンパルス応答を前記保存手段に保存し、肯定判定のフレームでは前記保存手段に保存されているィンパルス応答の 1つを取り出して、前記供給手段に供給する制御手段と

を具えたことを特徴とする。

本発明では前記音響ェコ一がキヤンセルされた後の信号を音声認識に用いてもよい。

本発明ではさらに前記音響エコーがキャンセルされた後の信号から、フ一リェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスぺクトルに基づき各フレーム毎に連続的にスぺクトル平均を求める手段と、当該得られたスぺクトル平均を前記音響エコーがキャンセルされた後の信号から各フレーム毎に計算されたスぺクトルから連続的に減算することにより、音源未知の加法性雑音を除去する手段とを具えてもよい。

本発明ではさらに前記音響エコーがキャンセルされた後の信号から、フ ―リェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスぺクトルから各フレーム毎に連続的にスぺクトル平均を求める手段と、当該得られたスぺクトル平均を前記音響エコーがキャンセルされた後のィ肯号から各フレーム毎に計算されたスぺクトルから連続的に減算することにより、音源未知の加法性雑音を除去する手段と、当該加法性雑音が除まされたスぺクトルからケプストラムを求める手段と、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求め手段と、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算して、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段とを具えてもよい。

本発明ではさらに、前記音響エコーがキャンセルされた後の信号から、フーリエ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスペクトルからケプストラムを求める手段と、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求める手段と、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算することにより、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段とを具えてもよい。

本発明では、フーリェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスペクトルからからケプストラムを求める手段と、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求める手段と、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算することにより、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段とを具えてもよい。

本発明では、擬似音響エコー信号を使用してエコーキャンセルを行う際に、擬似音響エコー信号の発生のために使用するィンパルス応答として、マイク入力信号が音声の場合には前の時点のフレームで使用したィンパルス応答を連続的に使用し、マイク入力信号が音声ではない場合には新規に更新されたインパルス応答を使用することで音響エコーキャンセリングの性能を改善する。

さらに本発明は音響エコーをキャンセルした後の信号からフレーム毎のスぺクトルおよびスぺクトル平均を求め、得られたスぺクトルおよびスぺクトル平均を使用して加法性雑音を除去する。図面の簡単な説明

図 1は N L M S (Normalized Least Mean Square error)の機能構成を示すブロック図である。

図 2は音響エコーキヤンセラーの設置例を示す図である。

図 3は車室内における音源既知の加法性雑音を除去する例を示す図である

図 4 A—図 4 Eはそれぞれ N L M S (Normalized Least Mean Square error)の性能（横軸： s e c . ) を示す図である。

図 5は V A D (Voice Activity Detection)の処理内容を示すブロック図で

¾> Ό

図 6は V A Dの動作タイミングを示す図である。

図 7 A—図 7 Gはそれぞれ N L M S - V A D (Normalized Least Mean Square error with frame-wise Voice Activity Detection)のカ果 (横軸： s e c . ) を示す図である。

図 8はフィルター係数バッファの動作を説明するための図である。

図 9は N LMS— V ADの構成を示すプロック図である。

図 1 0 Aおよび図 1 0 Bはそれぞれ N LMS— V A D/C S S法によるスぺクトログラムを示す図である（横軸： s e c . ) 。

図 1 1は時不変フィルタを示す図である。

図 1 2は N LMS— VAD/C S S /E— C MN法の処理内容を示すブロック図である（横軸： s e c . ) 。

図 1 3はNLMS—VADZC S S/E— CM Nの評価を示す図である。図 1 4は本発明第 1実施形態の音声処理装置の構成を示すプロック図であ■©

図 1 5は本発明第 2実施形態のシステムの構成を示すプロック図である。図 1 6は本発明第 3実施形態のシステムの構成を示すプロック図である。図 1 7は本発明第 4実施形態のシステムの構成を示すプロック図である。図 1 8は本発明第 5実施形態のシステムの構成を示すプロック図である。図 1 9は本発明第 6実施形態のシステムの構成を示すプロック図である。発明を実施するための最良の形態

短時間パヮーゃピッチなどの時間情報とスぺクトルなどの周波数情報を利用した音声検出アルゴリズムの 1つとして、欧州の携帯電話 · 自動車電話システムである G SMで標準規格化されている音声検出 V AD(Voice Activity Detection) [Recommendation GSM 06.32.]カぁる。この V A Dは音声 C OD E C (圧縮 .伸張）などのデジタル信号処理の動作を細かく制御し、低消費電力化を計って電池寿命を延ばす目的で用いられている。図 5 にこの VADの簡単な構成を示す。まず、音声信号からフレーム毎に自己相関関数（時間情報）が求められる。この自己相関関数から線形予測分析 L P C (Linear Predictive Coding) により、線形予測係数（時間情報）力求められる。線形予測係数から構成できる逆 L P Cフィルターと自己相関関数から音声信号の短時間パワー（時間情報）を求めることができる。この短時間パワーとしきい値を比較し、 V A D判定を行う。

短時間パワーがしきい値よりも大きい場合は、値 1 の局所的な V A Dフラグが出力される。そうでない場合は、値 0 (ゼロ）の局所的な V A Dフラグが出力される。そして、 V A D後処理において過去の複数のフレームの局所的な V A Dフラグの値の履歴を用いて最終的な V A Dフラグの値が決定される。

一方、 V A D判定において短時間パワーとの比較に用いられるしきい値は、以下のように適応化される。平滑化された自己相関関数と自己相関予測係数により表されるスペクトル（周波数情報）変化が連続するフレーム間で十分小さい場合は、スペクトルの定常性が高いと判断される。スぺクトルの定常性が高いと判断される音声信号としては背景雑音または母音が考えられる。

背景雑音のフレームにおいてはしきい値適応を行い、母音のフレームではしきい値適応を行うべきではない。背景雑音と母音を区別するためにピッチ情報を利用する。音声信号から計算される自己相関関数からピッチラグ (ピッチ周期）（時間情報）が計算される。連続するフレーム間でピッチラグの変化が小さい場合は、そのフレームは母音であると判断され、値 1 のピッチフラグが出力される。そうでない場合は、値 0 (ゼロ）のピッチフラグが出力される。

上記の短時間パワー、逆 L P Cフィルターから求められる残差信号自己相関予測係数、ピッチフラグ、定常性の情報を利用してスペクトルの定常性が高く、ピッチ性が低いフレームにおいてしきい値の適応化が行われる。この V A Dはエンジン音やロードノイズなどの比較的定常的な背景雑音にたいしてはそのレベルに関わらず、正確な音声検出性能を発揮する。

自動車内において、安全性の見地からマイクがサンバイザーなど口元から離れた場所に設置される場合、信号雑音比（S NR) は 1 0 d B以下にまで悪化する。その場合には、上記の VADアルゴリズムの音声検出性能は著しく劣化することが分かった。

そこで、 S NR 1 0 d B程度でも正確に音声検出ができるようにしきい値の適応化などの部分を改良した。現在、 VADに用いている音声の窓長は 3 2 m s、フレームシフトは 1 0 m sである。以後、 V ADにより音声の存在が検出された場合、 VADが ONであると言う。逆に、検出されなかった場合、 V ADが 0 F Fであると言う。この VADは、 1 フレームに 1回近端入力に音声が含まれているかどうかの判断を行うため、音声の検出タイミングが実際の音声の立ち上がりから遅延することが起こりえる。

図 6に、フレーム、 V ADの動作タイミングおよび V ADが使用する窓長の関係を示す。実際の音声の開始がフレーム nの中心である場合、 VA Dによりその音声の開始を検出できるのは、フレーム n + 1以降である可能性が高い。仮に、フレーム n + 2の V ADで検出できた場合、実際の音声の開始からの検出遅れは 2 5 m sにもなり、その間、エコーパスの推定値が不安定になることが考えられる。

図 7 Dに VADによる音声検出の様子を示す。レベル 1が音声が検出されたことを示す。矢印を用いて示すように、 2フレーム程度の音声検出遅れが認められる。不安定になったフィルター係数値をより精度の高い値に回復することができれば、音響エコーキヤンセル性能の低下を避けることが可能だと考えられる。そこで、 m個分のフィルター係数を格納できるバッファ（フィルター係数バッファと呼ぶ）を用意する。 V A Dが 0 F Fのフレームでは、 _n ( _m _ 1≥ n≥ 1 ) 番目の格納位置に格納されたフィルター係数を順次 _n + 1 番目の格納位置に移すと同時に、現時点での適応フィルターの係数をフィルター係数バッファの第 1番目の格納位置に格納する。この時、結果として、 m番目の格納位置に格納されていたフィルター係数は捨てられる。一方、 V A Dが O Nのフレームでは、フィルター係数バッファの _m番目の格納位置に格納されたフィルター係数を取り出し、その値で劣化したフィルター係数をリセットすれば良い。

図 8にフィルター係数バッファの動作の様子を示す。 mを 0〜 4 とした場合の E R L Eの最大値、平均値を表 1 に示す。

表 1 フィルターバッファのサイズと E R L E (Echo Return Loss

Enhancement)の関係

m= 0は係数値の保存およびリセットを行わない場合を示す。 m≥ 2では、 E R L Eにほとんど違いが見られないため、 m= 2を選択する。これは、 V A Dの検出遅れ（2フレーム程度）と対応している。

上記の特徴を持ったアルゴリズムを N LMS— V AD (NLMS with frame-wise VAD) と呼び、全体のブロック図を図 9に示す。ここで、 [s]、 [f]はそれぞれサンプルワイズ、フレームワイズの信号の流れおよび処理の動作を示す。 VADがいつたん ONになると、次に VADが OF Fになるフレームまでフィルター係数の更新は停止される。図 7 Eに、フィルター係数の初期値を全て 0. 0とし、 VADを動作させ、フィルター係数値の格納およびリセットを行いながら、時刻 0秒からフィルター係数を更新した場合の音響エコーキヤンセル信号のスぺクト口グラムを示す。図 7 Fにその時のフィルタ一係数の 1 0番目の係数の値の変化を示す。フィルター係数の更新が停止されたフレームの直前で、フィルター係数値が不安定になっている力 ^s、上記フィルター係数の格納およびリセットにより、フィルタ一係数が回復されている様子が示されている。これにより、時刻 1. 0 秒以降の音響エコー（図 7 Bの楕円で囲まれた部分）もキャンセルされている。

但し、図 7 Eで時刻 0. 1秒前後の音響エコー（図 7 Eの楕円で囲まれた部分）がキャンセルされていないことが分かる。発声毎に推定されたフィルター係数および V A Dに用いられるパラメータを保存しておき、次の発声時にそれらを初期値として用いれば、フィルター係数の推定速度は速まると考えられる。図 7 Gにその例を示す。時刻 0. 0秒直後の音響エコーは若干残存している力 ^?、それ以後の音響エコー（図 7 Eの楕円で囲まれた部分）はほぼキャンセルされていることが分かる。この時の、 ER L Eの最大値、平均値はそれぞれ 9. 2 9 d B、 4. 5 0 d Bである。また、本願出願人は N L M S— V A D法に関連して、時間情報および周波数情報に基づく音声検出を用いた音響ェコ一キャンセラーの日本国出願を既に済ませている（特願平 0 9— 0 5 1 5 7 7号、 1 9 9 7年 3月 6 日出願）。なお、本願発明では時間情報および周波数情報に基づく音声検出をフレーム毎に行う点が、上記先願発明との相違点である。

次に、音源既知の加法性雑音および音源未知の加法性雑音が存在する環境における口バストな音声認識方法として、 N LMS— V AD法と C S S (Continuous Spectral Subtraction)法を組み合わせる方法について説明する。時刻 t における周波数 ωでの観測スぺクトル、音声スぺクトル S(o ;t)の推定値、加法性雑音の推定値をそれぞれ 0( w ;t)、 s( ^ ;t), ( _w ;t)と表すとすると、 C S S法は以下のように与えられる。

N (ω; t) = ■ N (ω; t - 1) + (1 - 7) · 0(ω; t) (8)

O(co;t) -«-N(ft);t) if o(G);t) -a--^{ ;t)> β-ο{ω;€)

S(«;t) =

β·0{ω;€) otherwise

(9) ここで、 «は over-estimation factor、 3は flooring factor、 yは smoothing factorであり、以下では予備実験の結果から、それぞれ 2. 4、 0. 1、 0. 97 4 と設定した。 C S Sは、音声フレームと非音声フレームを区別せず、連続的にスぺクトルの移動平均を求め、これを雑音スぺクトルの推定値とみなして、入カスペクトルから減算する方法である。雑音スぺクトルの推定値に音声スぺクトルの影響が含まれるため、エネルギーの弱い音声スぺクトルがマスクされてしまい、歪みが生じるという問題点があるが、過去のある一定時間長の区間に対して、相対的に大きなエネルギーを持つ周波数成分を残し、エネルギーの微弱な周波数成分を雑音、音声を問わず、マスクするという働きを持つ。このため、クリーンな音声に C S Sを施した後に得られる特徴パラメータと加法性雑音が重畳した音声に C S Sを施した後に得られる特徴パラメータの間の変動が、通常のスぺクトル減算法や最小平均二乗誤差推定法に比べて小さい。この特長は、低い S NRでの音声認識にとって有効である。図 1 O Aに、停止中（アイドリング）の自動車内で女性が発声した音声（「明るい」、図 7 Aに示した音声を計算機上で加算して作成した際に用いた音声と同一）に C S Sを施した後のスぺクトログラムを、図 7 Bに同一音声に時速 6 0 k m走行時の音源未知の加法性雑音と音響エコーが重畳した雑音データを計算機上で加算した後（図 7

A) 、 NLMS— VAD法で音響エコーをキャンセルし（図 7 G) 、 C S

S法を施して得られるスぺクトログラムを示す。図 7 Gと図 1 0 Bを比較すると、時刻 0. 9秒近辺の周波数 1 k H zの音響エコーの残存成分（図

7 Gの楕円で囲まれた部分）が C S S法により除去されていることが分か

Ό o

C S S法は、定常的な加法性雑音だけでなく、 NLMS— VAD法でキヤンセルできなかった残存音響エコーを抑圧する効果も持っている。音響ェコ一キャンセル信号 e(t)に F FTを施して得られたスぺクトルに対して C S S法を施した後のスぺクトルを逆 F FTにより時間領域に戻して得られる波形信号を、（6)式の e(t)の代わりに用いた場合の E R L Eの平均値は 1 3. 6 0 d Bであった。これに対し、 N LMS— V AD法による音響ェコ一キヤンセルを行わず、 C S S法による加法性雑音のキヤンセルのみを行つて同様に求めた E R L Eの平均値は 9. 8 7 d Bであった。 C S Sのみでは、約 3. 7 d B相当の音源既知の加法性雑音がキャンセルできなかったと見ることができる。図 1 O Aと図 1 O Bを比較すると 2つのスぺクトログラムがきわめて類似していることが分かる。 N LMS— VAD法と C S S法の組み合わせにより、音源既知の加法性雑音と音源未知の加法性雑音に対して、ロバストな特徴パラメ一タを抽出できることが示唆されている。

次に、音声スぺクトルに対する乗法性歪みの補正方法について述べる。ある個人の発声器官で生成される、時刻 tにおける周波数 ωでの短時間スぺクトル S(i«; の音声フレームにおける長時間平均を話者の個人性

«。_η(ω)と呼ぶこととし、

1

Hper_Son(iO) =一 .∑ 5(«； t) (10)

T t=l

と定義する。ここで、 Tは十分大きな自然数である。 Η_Ρ 。_η(ω)は、声帯音源特性およぴ声道長に依存する話者固有の周波数特性を表しているとみなすことができる。また、短時間スペクトルを話者の個人性で除したもの

S*(co;t) = S(m;t)/H_Person(w) (ID

を正規化音声スぺクトルと定義する。この時、図 1 1 に示すように、音声スぺクトルは、正規化音声スぺクトル S*(«;t)が時不変フィルタ一 i_Per_SOT(«) を通過することにより生成される、あるいは、正規化音声スぺクトル

に乗法性歪み ίί „。_η(ω)が重畳して生成されると解釈することができる。

S( ;t)= Η—(ω)' 5*(6);t) (12)

車室内のような実環境においては、正規化音声スぺクトルに対する乗法性歪みとして、上記の話者の個人性に加えて、以下の 3種類が考えられる [A. Acero, "Acoustical and environmental Robustness in Automatic Speech Recognition, " Kluwer Academic Publishers, 1992.]。 ( 1 ) 発話様式 ¾_tyie(in(«)

加法性雑音 Nに依存する発話様式（しゃべり方、発話速度，発話の大きさ， Lombard効果など）に固有の周波数伝達特性である。 Lombard効果とは、加法性雑音が存在する環境下で発声をする場合に、静寂な環境下とは異なつて、無意識のうちに発声スぺクトルが変形する現象のことをいう。文献 [Y. Chen, "CeDstral Domain Talker Stress Compensation for Robust Speech Recognition," IEEE Trans. ASSP, Vol.36, No.4, pp.433-439, 1988.]では、ソフトなしゃべり方の場合は、 1 k H z以下のエネルギーが強く、 l k H z以上のエネルギーが弱いという特性があること、一方で、大きな声、早口、叫び声、 Lombard効果の場合は、逆の特性を持つことが示されている。

(2 ) 空間伝達特性 H_Trans((o)

口からマイクまでの空間的な周波数伝達特性を表す。

(3) マイク特性 _ic(o>)

マイクなどの入力系の電気的な周波数伝達特性を表す。

一般に，音声と雑音の線形スぺクトル領域での加法性が成り立つとすると、時刻 tにおける周波数 ωでの観測スぺクトル ο(ω;ί;)は、

0(ω;ί)= Η_Μία(ω)-[ Η_ΤΓ3ηε(ω) - {H_styleW( ) - (H_Person(©) - S (_m-,t))} + Ν(ω;ί) + Ε(ω;ί)]

(13) でモデル化できる [J. H. L. Hansen, B. D. Womack, and L. M. Arslan, "A Source Generator Based Production Model for Environmental Robustness in Speech Recognition," Pro ICS LP 94, Yokohama, Japan, pp.1003-1006, 1994.]。ここで、 N((o;t)は音源未知の加法性雑音スぺクトルを表し、 E(o);t) は音源既知の加法性雑音スぺクトルを表す。

4種類の乗法性歪みの内、 Η_Μ»はあらかじめ測定可能であるが、 Η_Ρ (ω)、 H_sty2em(w), H_{T s}(o>)を，実環境において音声認識システムのュ一ザ一に負荷をかけることなく分離して測定することは困難であると考えられる。また、例え加法性雑音 N(CO;t)、 _B(Q);t)が存在しないとしても、観測スぺクトルの長時間平均として（10)式と同様に求められた時不変フィルタ一のゲインには、上記 4種類の乗法性歪みの混在が避けられない。そこで、改めて乗法性歪み H (ω)、加法性雑音 Ν(ω;ί；)、 £(ω;<;)を、それぞれ

Η_Μ1σ(ω) · H_Trans · Η_{5ί 1 Ν)}(ω) · Η_ΡθΓεοη(ω) (14)

Ν(ω; t) = Η_Μ1α(ω) - Ν(ω; t) (15)

E(w,t) = Η^(ω)■ E( ;t) (16) と定義すると、（13)式を以下のように簡単化できる。

0{ ;t) = H (ω)·5 {ω;€) + Ν(ω;€) + Ε{ω€) (¹⁷) 一方、（17)式を変形すると、

が得られる。不特定話者音素モデルを観測されたスぺクトルではなく、 (11)式により正規化されたスぺクトルを用いて作成しておけば、観測スぺクトル 0(ω;ί;)に対し、実環境における w(o);t)、；)、の除去を行つて、正規化音声スペクトル (ω;ί:)の推定値を求めることにより、頑健な音声認識システムを実現できると考えられる。 Μω; 、 E(6);t)の除去に関しては、 N L M S— V A D法と C S S法を組み合わせる方法が有効であることを先述した。

音声認識システムにおいては、音響パラメータとして、通常、スぺクトルの代わりに、ケプストラムが用いられる。ケプストラムは、スペクトルの対数値に逆離散コサイン変換（D C T ： Discrete Cosine Transform) を施したものとして定義される。ケプストラムはスぺクトルに比べて、少ないパラメータ数で同等の音声認識性能が得られるためよく用いられる。

正規化音声スぺクトル (《;t)に対する乗法性歪み (ω)の除去に関しては、次の Ε - C M N (Exact Cepstrum Mean Normalization)法が有効であること力既に示されてレ、る [M. Shozakai, S . Nakamura and K. Shikano, "A Non-Iterative Model-Adaptive E-CMN/PMC Approach for Speech

Recognition in Car Environments, " Proc. Eurospeech, Rhodes, Greece, pp.287-290, 1997. ]。 E— C M N法は次の 2つのステップから構成される。推定ステップ：話者毎に音声/非音声フレームで別々にケプストラム平均を求める。フレーム tにおける次数 iのケプストラムを c t)と表すとき、フレーム tにおける音声フレームのケプストラム平均 C_speec i，t)は、例えば (19)式により求めることができる。

η · G _Sp_eeCh (i, t - 1) + (1 - 77) · c(i, t) if frame t is speech , _nヽ speech \ し)一一 y)

C _speech t— 1) otherwise ここで、は音声フレームのケプストラム平均を求める際の平滑化係数であり、 1 . 0よりも小さく 1 . 0に近い値を設定すればよい。また、フレーム tにおける非音声フレームのケプストラム平均 C„。_nspe ^ (： )は、例えば (20)式により求めることができる。ここで、 jは非音声フレームのケプストラム平均を求める際の平滑化係数であり、 1. 0よりも小さく 1. 0に近い値を設定すればよい。

7? - C _Sp_esCh (i, t - 1) + (1 - 77)■ C(JL, t) if frame t is not speech

C nonspeech ( り ―

Cnonspeech (i, t - 1) otherwise

(20) 音声フレームのケプストラム平均は、乗法性歪み Η*(ω)のケプストラム表現であり、話者に依存する。一方、非音声フレームのケプストラム平均は、マイク特性などの入力系の乗法性歪み ·¾ (ω)に依存する。

正規化ステップ：観測ケプストラムごから、（21)式に従って、音声フレームにおいては音声フレームのケプストラム平均 C_spe ^ t)を、非音声フレームにおいては非音声フレームのケプストラム平均 c _speech (i, t)を話者毎に引き、正規化ケプストラムを求めることにより、観測スぺクトルを正規化する。

C(i, t) - Cspeech t) if frame t is speech

C(i,t) =

C(i, t) - Cnonspeech ( t) otherwise 尚、 E— CMN法に関する発明について本願出願人は、既に日本国出願を済ませている（特願平 0 9— 05 1 5 78号、 1 99 7年 3月 1 1 日）。

E— CMN法は、様々な乗法性歪みの積を 1 0単語程度の少量の音声から、音声区間のケプストラム平均として推定し、それを入力ケプストラムから引くという方法である。不特定話者音素モデルを観測されたスぺクトルから求められたケプストラムではなく、 E— CMN法により正規化されたケプストラムを用いて作成しておくことにより、様々な乗法性歪みを一括して補正することが可能であることが明らかにされている。

最後に、音源既知および音源未知の加法性雑音、乗法性歪みが存在する実環境におけるロバストな音声認識手法として、 NLMS— VAD法、 C S S法、 E— CMN法を組み合わせる手法について述べる。図 12に本組み合わせ手法に従って構成した演算回路のブロック図を示す。まず、第 1の回路 1 0 1において NLMS— VAD法により、入力音声から音源既知の加法性雑音が除去された波形信号が生成される。次に、第 2の回路 1 02においてこの波形信号に対して、フーリエ変換が施された後、 C S

S法により音源未知の加法性雑音 w_(£o;_t)が除去されたスぺクトルの時系列が生成される。

さらに、第 3の回路 1 0 3においてこのスぺクトルの時系列はケプストラムの時系列に変換され、 E— CMN法により正規化されたケプストラムの時系列に変換される。最後に、第 4の回路 1 04においてケプストラムの時系列は、公知のビタビアルゴリズムにより、不特定話者用に予め作成された音素モデルと照合され、音声認識結果が出力される。

この際に使用される不特定話者用音素モデルは、先述のように E— CM N法により正規化されたケプストラムを用いて作成されている必要がある。尚、 E— CMN法で必要な音声フレーム ·非音声フレームの区別は、 NL MS—VAD法に組み込まれた VADの結果をそのまま用いればよい。

次に、本組み合わせ手法の効果についてまとめる。単一指向性マイクを 2 0 0 0 c cの自動車の運転席サンバイザーに設置し、男性 2名女性 2名が各々好みの位置にセットした運転席に座って発声した 5 2 0単語（AT R音声データベース Cセット）の音声（データ 1 ) を収録した。音声区間の前後に 2 5 0 m sずつの無音区間が付属するように手動で切り出しを行つた。また、アイドリング、時速 6 0 km、時速 1 0 0 kmの走行状態で、 5種類の音楽ソース（ポップス、ジャズ、ロック、クラシック、落語）を順番にカーオーディオで再生し、音楽ソースの左右チヤンネルを混合した信号（データ 2 ) と、マイク入力信号（データ 3 ) のペアを同時に録音した。力一オーディオの出力ボリュームは、各走行状態毎に男性 1名が快適と感じる音量にセットした。

アイドリング、時速 6 O km, 時速 1 00 k mでの音響エコーのマイクへの最大入力レベルはそれぞれ、 6 0. 7 d BA、 6 5. 9 d BA、 7 0. 6 d B Aであった。データ 1 とデータ 3を計算機上で加算して評価データを作成した。データ 2は、 NLMS—VAD法の遠端入力として使用した。認識には、環境独立な 54音素の不特定話者用 Tied- MixtureHMMモデル (4 0名の音声データから作成）を用いた。分析条件は 8 k H zサンプリング、フレーム長 3 2 m s、フレームシフト 1 0 m sで、特徴パラメ一タは、 1 0次 MF C C、 1 0次 AMF C C、 Δエネルギーであり、 HMMモデルが共有する正規分布の数は、それぞれ 2 56、 2 5 6、 64である。

不特定話者、 52 0単語の認識タスクで、アイドリング、時速 6 0 km、時速 1 0 0 k mの走行状態で、スピーカ—出力音が存在しない場合（w/o Speaker Out) 、スピーカー出力音が存在するが、 NLMS—VAD法を行わない場合（w/ Speaker Out w/o NLMS-VAD) 、スピーカー出力音が存在し、 N L M S— V A D法を行う場合（w/ Speaker Out w/ NLMS-VAD) の認識性能（ 5種類の音楽ソースの平均）および RREを図 1 3に示す。

いずれの走行状態でも 8 0 %以上の R R Eが得られた。また、 NLMS 一 VAD法でも回復できない誤認識率は、アイドリング、時速 6 0 km、時速 1 0 0 k mでそれぞれ 0 . 7 %、 2 . 1 %、 1 . 8 %と僅かであり、先の組み合わせ法の有効性が確認できた。

(第 1実施形態）

第 1実施形態の音声処理装置の回路構成を図 1 4に示す。以下に述べる個々の手段は周知の回路、たとえば、デジタル回路、コンピュータやデジタルプロセッサの演算処理により実現する回路を使用できるので、当業者であれば、図 1 3により音声処理装置を製作できるであろう。まず、サンプル毎の処理について説明する。音源信号 1 1はスピーカー出力信号 1 3 として、スピ一カーから出力される。供給手段 a a 7は、現時点のィンパルス応答（F I Rフィルターの係数）を保持し、生成手段 a a 4 に現時点のィンパルス応答 1 6を供給する。

音源信号 1 1は生成手段 a a 4に送られ、生成手段 a a 4で F I Rフィルターにより、疑似音響エコー信号 1 5が生成される。除去手段 a a 5において、疑似音響エコー信号 1 5はマイク入力信号 1 2から減じられ、音源ェコ一キャンセル信号 1 4が生成される。更新手段 a a 3において、音源信号 1 1 と音源エコーキャンセル信号 1 4 と供給手段 a a 7が保持する現時点のインパルス応答 1 6から、インパルス応答を更新し、更新インパルス応答 1 7を生成して、それを供給手段 a a 7に供給する。

供給手段 a a 7は後述の音声判定フラグ 1 8が O F Fの間にのみ、更新手段 a a 3から供給された更新ィンパルス応答 1 7を新しい現時点のィンパルス応答として保持し、音声判定フラグ 1 8が O Nの間は、更新手段 a a 3から供給された更新ィンパルス応答 1 7を棄却する。除去手段 a a 5 で生成された音響エコーキャンセル信号 1 4は、判定手段 a a 1 にも送られる。

次に、フレーム毎の処理について説明する。サンプル毎に判定手段 a a 1に送られた音響エコーキヤンセル信号 1 4は判定手段 a a 1 においてバッファに格納され、 1 フレーム分たまった段階で判定手段 a a 1でマイク入力手段（不図示）に音声が存在するかどうかの判定が行われ、音声判定フラグ 1 8が出力される。肯定判定の場合（音声の存在が検出される場合）は、音声判定フラグの値は O Nであるという。否定判定の場合（音声の存在が検出されない場合）は、音声判定フラグの値は O F Fであるという。

この判定処理では、音響エコーキャンセル信号 1 4の時間情報および周波数情報を利用して、音声信号がマイク入力信号 1 2に含まれているかどうかを判定する。判定の方法としては、音源未知の加法性雑音に重畳した音声を検出できるアルゴリズム VAD(Voice Activity Detection)を用いると良レ、。例えば、 Recommendation GSM 06.32では、信号の L P C分析後の残差エネルギーをしきい値と比較することにより音声の検出を行う力、音源未知の加法性雑音のエネルギーレベルに合わせてしきい値を変動させることができるため、音源未知の加法性雑音と音声を分離することができる。

しきい値の適応化を行う際には、スペクトルの定常性（周波数情報）とピッチ性（時間情報）を利用している。上記判定処理の結果、音声判定フラグ 1 8が O F Fの場合は、制御手段 a a 6が供給手段 a a 7に保持された現時点ィンパルス応答 1 6を取り出し、所望のィンパルス応答として保存手段 a a 2に格納する。

一方、音声判定フラグ 1 8が O Nの場合は、供給手段 a a 7が保持しているィンパルス応答が所望の値から乖離している可能性があるため、制御手段 a a 6は保存手段 a a 2から保存ィンパルス応答を 1つ取り出し、供給手段 a a 7が保持しているインパルス応答に上書きする。保存手段 a a 2は、 1つ以上のィンパルス応答を保存できる F I F 0であればよい。 (第 2実施形態）

図 1 5に第 2実施形態の基本構成を示す。まず、第 1の実施形態で説明した図 1 4の構成を持つ音声処理装置 1 0 0は、音源信号 1 1およびマイク入力信号 1 2を用いて、マイク入力信号 1 2に含まれる音響エコーをキヤンセルし、音響エコーキヤンセル信号 1 4を生成する。次に、スぺクトル計算手段 b b 1 において、一定フレーム周期毎にフーリエ変換により音響エコーキャンセル信号 1 4のスぺクトル 2 1 を算出する。

スペクトル 2 1はケプストラム計算手段 b b 4に送られ、一定フレーム毎のケプストラム 2 4に変換される。照合手段 b b 5では、一定フレーム毎のケプストラム 2 4を用いて、照合が行われ、認識結果 2 5が出力される。照合に当たっては、周知の隠れマルコフモデルによる手法または周知の動的計画法による手法または周知のニューラルネットワークによる手法のいずれかを用いればよい。

(第 3実施形態）

図 1 6に第 3実施形態の基本構成をを示す。図 1 5の第 2実施形態と同様の個所には同一の符号を付している。まず、図 1 4の構成を持つ音声処理装置 1 0 0は、音源信号 1 1およびマイク入力信号 1 2を用いて、マイク入力信号 1 2に含まれる音響エコーをキャンセルし、音響エコーキャンセル信号 1 4を生成する。次に、スぺクトル計算手段 b b 1 において、一定フレーム周期毎にフーリェ変換により音響エコーキャンセル信号 1 4のスペクトル 2 1 を算出する。スぺクトル 2 1 は、スぺクトル平均計算手段 b b 2に送られ、一定フレーム毎に（8)式によりスぺクトル平均 2 2が求められる。

一方、スぺクトル計算手段 b b 1 で求められたスぺクトル 2 1 は、スぺクトル平均減算手段 b b 3に供給され、（9)式によりスぺクトル平均 2 2 i 減じられ、雑音除去スぺクトル 2 3が求められる。雑音除丟スぺクトル 2 3はケプストラム計算手段 b b 4に送られ、一定フレーム毎のケプストラム 2 4に変換される。照合手段 b b 5では、一定フレーム毎のケプストラム 2 4を用いて、照合が行われ、認識結果 2 5が出力される。照合に当たつては、周知の隠れマルコフモデルによる手法または周知の動的計画法による手法または周知のニューラルネットワークによる手法のいずれかを用いればよい。

(第 4実施形態）

図 1 7に第 4実施形態の基本構成を示す。図 1 7において第 2または第 3実施形態と同様の個所には同一の符号を付している。まず、図 1 4の構成を持つ音声処理装置 1 0 0は、音源信号 1 1およびマイク入力信号 1 2 を用いて、マイク入力信号 1 2に含まれる音響エコーをキャンセルし、音響エコーキャンセル信号 1 4 を生成する。次に、スぺクトル計算手段 b b 1 において、一定フレーム周期毎にフーリェ変換により音響エコーキャンセル信号 1 4のスぺクトル 2 1 を算出する。スぺクトル 2 1 は、スぺクトル平均計算手段 b b 2に送られ、一定フレーム毎に（8)式によりスぺクトル平均 2 2が求められる。

一方、スぺクトル計算手段 b b 1 で求められたスぺクトル 2 1 は、スぺクトル平均減算手段 b b 3に供給され、（9)式によりスぺクトル平均 2 2が減じられ、雑音除去スぺクトル 2 3が求められる。雑音除丟スぺクトル 2 3はケプストラム計算手段 b b 4に送られ、一定フレーム毎のケプストラム 2 4に変換される。

ケプストラム 2 4はケプストラム平均計算手段 c c 1 に送られ、そこでケプストラム平均 3 1が求められる。ケプストラム平均の算出に当たっては、例えば（19)式、（20)式を用いればよい。次に、ケプストラム平均減算手段 c c 2 において、ケプストラム 2 4からケプストラム平均 3 1が減算し、正規化ケプストラム 3 2が算出される。尚、減算に当たっては、（21 )式を用いればよい。照合手段 b b 5では、一定フレーム毎の正規化ケプストラム 3 2を用いて、照合が行われ、認識結果 2 5が出力される。照合に当たつては、周知の隠れマルコフモデルによる手法または周知の動的計画法による手法または周知のニューラルネットワークによる手法のいずれかを用いればよい。

(第 5実施形態）

図 1 8に第 5実施形態の基本構成を示す。図 1 8 において第 2、第 3または第 4実施形態と同様の個所には同一の符号を付している。まず、図 1 4の構成を持つ音声処理装置 1 0 0は、音源信号 1 1およびマイク入力信号 1 2を用いて、マイク入力信号 1 2に含まれる音響エコーをキャンセルし、音響エコーキャンセル信号 1 4を生成する。次に、スぺクトル計算手段 b b 1 において、一定フレーム周期毎にフーリェ変換により音響エコーキャンセル信号 1 4のスぺクトル 2 1 を算出する。スぺクトル 2 1 は、ケブストラム計算手段 b b 4に送られ、一定フレーム毎のケプストラム 2 4 に変換される。ケプストラム 2 4はケプストラム平均計算手段 c c 1 に送られ、そこでケプストラム平均 3 1が求められる。ケプストラム平均の算出に当たっては、例えば（19)式、（20)式を用いればよい。

次に、ケプストラム平均減算手段 c c 2において、ケプストラム 2 4力らケブストラム平均 3 1 を減算し、正規化ケプストラム 3 2が算出される。尚、減算に当たっては、（21)式を用いればよい。照合手段 b b 5では、一定フレーム毎の正規化ケプストラム 3 2を用いて、照合が行われ、認識結果 2 5が出力される。照合に当たっては、周知の隠れマルコフモデルによる手法または周知の動的計画法による手法または衆知のニューラルネットワークによる手法のいずれかを用いればよい。

(第 6実施形態）

図 1 9に第 6実施形態の基本構成を示す。図 1 6においても第 2、第 3 第 4または第 5実施形態と同様の個所には同一の符号を付している。まず、図 1 4の構成を持つ音声処理装置 1 0 0により、音源信号 1 1およびマイク入力信号 1 2を用いて、マイク入力信号 1 2に含まれる音響エコーをキヤンセルし、音響エコーキャンセル信号 1 4 を生成する。次に、スペクトル計算手段 b b 1 において、一定フレーム周期毎にフーリエ変換により音響エコーキャンセル信号 1 4のスぺクトル 2 1 を算出する。スぺクトル 2 1 は、ケプストラム計算手段 b b 4に送られ、一定フレーム毎のケプストラム 2 4に変換される。

ケプストラム 2 4はケプストラム平均計算手段 c c 1に送られ、そこでケプストラム平均 3 1が求められる。ケプストラム平均の算出に当たっては、例えば（19)式、（20)式を用いればよい。次に、ケプストラム平均減算手段 c c 2において、ケプストラム 2 4からケプストラム平均 3 1 を減算し、正規化ケプストラム 3 2が算出される。尚、減算に当たっては、（21)式を用いればよい。照合手段 b b 5では、一定フレーム毎の正規化ケプストラム 3 2を用いて、照合が行われ、認識結果 2 5が出力される。照合に当たつては、周知の隠れマルコフモデルによる手法または周知の動的計画法による手法または公知のニューラルネットワークによる手法のいずれかを用いればよい。

Claims

請求の範囲

1 . 音響エコーの伝達経路を模擬する現時点のィンパルス応答および音源信号に基づき疑似音響ェコー信号を生成する生成手段と、

マイク入力信号から前記疑似音響エコー信号を減算することにより音響エコー成分を除去し、音響エコーキャンセル信号を生成する除去手段と、前記音源信号と前記音響ェコ—キャンセル信号と前記供給手段が保持している現時点のインパルス応答を用いて継続的にィンパルス応答を更新し、更新されたインパルス応答を前記供給手段に供給する更新手段と、前記音響エコーキャンセル信号の時間情報および周波数情報を利用して、マイク入力信号に音声が含まれているか否かをフレーム毎に判定する判定手段と、

1つ以上のインパルス応答を保存する保存手段と、

を具えたことを特徴とする音声処理装置。

2 . 請求の範囲第 1項に記載の音声処理装置において、前記音響エコーがキャンセルされた後の信号を音声認識に用いることを特徴とする音声処理装置。

3 . 請求の範囲第 2項に記載の音声処理装置において、前記音響エコーがキヤンセルされた後の信号から、フーリェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスぺクトルに基づき各フレーム毎に連続的にスぺクトル平均を求める手段と、当該得られたスぺクトル平均を前記音響エコーがキャンセルされた後の信号から各フレーム毎に計算されたスぺクトルから連続的に減算することにより、音源未知の加法性雑音を除去する手段とをさらに具えたことを特徴とする音声処理装置。

4 . 請求の範囲第 2項に記載の音声処理装置において、前記音響エコーがキヤンセルされた後の信号から、フーリェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスぺクトルから各フレーム毎に連続的にスぺクトル平均を求める手段と、当該得られたスぺクトル平均を前記音響エコーがキヤンセルされた後の信号から各フレーム毎に計算されたスベクトルを連続的に減算する手段と、当該減算する手段により、音源未知の加法性雑音が除去されたスぺクトルからケプストラムを求める手段と、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求める手段と、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算して、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段をさらに具えたことを特徴とする音声処理装置。

5 . 請求の範囲第 2項に記載の音声処理装置において、前記音響エコーがキャンセルされた後の信号から、フーリェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスぺクトルからケプストラムを求める手段と、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求める手段と、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケブストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算することにより、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段とをさらに具えたことを特徴とする。

6 . フ一リェ変換により各フレーム毎にスぺクトルを求める手段と、当該得られたスぺクトルからケプストラムを求める手段と、

当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求める手段と、

話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算することによりマイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正する手段と

を具えたことを特徴とする音声処理装置。

7 . 音響エコーの伝達経路を模擬する現時点のィンパルス応答および音源信号に基づき疑似音響ェコー信号を生成する生成ステップと、

現時点のィンパルス応答を保持し、前記生成手段に供給する供給ステツプと、

マイク入力信号から前記疑似音響ェコー信号を減算することにより音響エコー成分を除まし、音響エコーキャンセル信号を生成する除去ステツプと、

前記音源信号と前記音響ェコーキャンセル信号と前記供給ステップで保持している現時点のインパルス応答を用いて继続的にインパルス応答を更新し、更新されたインパルス応答を前記供給ステップに供給する更新ステツプと、前記音響ェコーキャンセル信号の時間情報および周波数情報を利用して、マイク入力信号に音声が含まれているか否かをフレーム毎に判定する判定ステップと、

1つ以上のィンパルス応答を保存する保存ステツプと、

前記判定ステップの判定結果が否定判定のフレ—ムでは前記供給ステップが保持している現時点のィンパルス応答を前記保存ステツプで保存し、肯定判定のフレームでは前記保存ステツプで保存されているィンパルス応答の 1つを取り出して、前記供給ステツプに供給する制御ステツプと

を具えたことを特徴とする音声処理方法。

8 . 請求の範囲第 7項に記載の音声処理方法において、前記音響エコーがキャンセルされた後の信号を音声認識に用いることを特徴とする音声処理方法。

9 . 請求の範囲第 8項に記載の音声処理方法において、前記音響エコーがキャンセルされた後の信号から、フーリエ変換により各フレーム毎にスぺクトルを求めるステップと、当該得られたスぺクトルに基づき各フレーム毎に連続的にスぺクトル平均を求めるステップと、当該得られたスぺクトル平均を前記音響エコーがキャンセルされた後の信号から各フレーム毎に計算されたスぺクトルを連続的に減算することにより、音源未知の加法性雑音を除去するステツプとをさらに具えたことを特徴とする音声処理方法。

1 0 . 請求の範囲第 8項に記載の音声処理方法において、前記音響エコーがキヤンセルされた後の信号から、フーリェ変換により各フレーム毎にスぺクトルを求めるステツプと、当該得られたスぺクトルから各フレーム毎に連続的にスぺクトル平均を求めるステツプと、当該得られたスぺクトル平均を前記音響エコーがキャンセルされた後の信号から各フレーム毎に計算されたスぺクトルから連続的に減算することにより、音源未知の加法性雑音を除去するステツプと、当該加法性雑音が除去されたスぺクトルからケプストラムを求めるステップと、当該得られたケプストラムの音声フレ一ムのケブストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求めるステツプと、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケブストラムからはその話者の非音声フレームのケプストラム平均を減算して、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正するステツプをさらに具えたことを特徴とする音声処理方法。

1 1 . 請求の範囲第 8項に記載の音声処理方法において、前記音響エコーがキヤンセルされた後の信号から、フーリェ変換により各フレーム毎にスぺクトルを求めるステップと、当該得られたスぺクトルからケプストラムを求めるステップと、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求めるステップと、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、その話者の非音声フレームのケプストラムからは非音声フレームのケプストラム平均を減算することにより、マイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正するステツプとをさらに具えたことを特徴とする音声処理方法。

1 2 . フーリエ変換により各フレーム毎にスぺクトルを求めるステップと、当該得られたスぺクトルからからケプストラムを求めるステツプと、当該得られたケプストラムの音声フレームのケプストラム平均および非音声フレームのケプストラム平均を話者毎に別々に求めるステツプと、話者毎に音声フレームのケプストラムからはその話者の音声フレームのケプストラム平均を減算し、非音声フレームのケプストラムからはその話者の非音声フレームのケプストラム平均を減算することによりマイク特性や口からマイクまでの空間伝達特性に依存する乗法性歪みを補正するステツプと

を具えたことを特徴とする音声処理方法。