JP4438720B2

JP4438720B2 - エコーキャンセラ及びマイク装置

Info

Publication number: JP4438720B2
Application number: JP2005236251A
Authority: JP
Inventors: 貴義川口; 洋平櫻庭
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-08-17
Filing date: 2005-08-17
Publication date: 2010-03-24
Anticipated expiration: 2025-08-17
Also published as: CN100514982C; US20070041576A1; US8913737B2; CN1949795A; JP2007053512A

Description

本発明はエコーキャンセラ及びマイク装置に関し、特に音声入力信号に混入されるエコー成分を除去するための適応処理を行うエコーキャンセラと、このエコーキャンセラを具備するマイク装置に関する。

従来、テレビ会議システムに代表されるように、遠隔地間など多地点に設置された複数の端末を介して音声や映像などを送受することによって、多地点間で会議を行うことを可能にする会議システムがある。会議システムなどで用いるマイク装置（以下、マイクとする）には、マイクが集音した音声入力信号を処理する音声処理部が搭載されている。音声処理部では、音声入力信号に対し、自らのスピーカから出力した音声がマイクに回り込むエコーを除去する処理がエコーキャンセラによって施される。

このようなエコーキャンセラでは、音声入力信号に含まれるエコー成分を学習し、たとえば、適応フィルタなどを用いた適応動作を行って、エコーキャンセル処理の安定化を図っている。話者が単独で話しているシングルトークの状態では、適応動作は正常に働くが、自身を含む２以上の話者が同時に話しているダブルトークの状態では、他者の音声信号が混入するため、適応動作が正しく動作せず、ダブルトークの状態で適応処理を行うと、エコー成分ばかりでなく、話者の音声成分も打ち消してしまうように働く。このため、エコーキャンセラでは、ダブルトークであるかシングルトークであるかを識別し、ダブルトークの場合には適応処理のための学習を行わないよう制御がなされている。

シングルトークであるかダブルトークであるかを判別するための手法のひとつに、ゲイゲル（Geigel）アルゴリズムとして知られている手法がある。ゲイゲルアルゴリズムでは、スピーカから出力される音声信号の音量と、マイクが入力した音声信号の音量との比を算出し、比がある固定値以下ならシングルトークと判断し、固定値以上ならばダブルトークと判断する。

また、マイクから入力した音声入力信号が流れる経路と、スピーカなどに出力する音声出力信号が流れる経路とを監視し、両方の経路の音声信号がともに有音の状態が一定時間以上継続すればダブルトークと判定するエコーキャンセラがある（たとえば、特許文献１参照）。
特許第３５７９２４５号公報（段落番号〔００４７〕〜〔００６２〕、図６）

しかし、従来のエコーキャンセラでは、シングルトークとダブルトークの状態判定を間違ってしまう場合があるという問題点があった。
たとえば、ゲイゲルアルゴリズムでは、スピーカから出力される音声信号の音量と、マイクが入力した音声信号の音量との比を算出し、比がある固定値以下であるかどうかによってシングルトークかダブルトークであるかを判定しているため、スピーカの音量や、スピーカとマイクの位置関係によっては、判断を間違えてしまう可能性が大きい。

また、出力側と入力側の音声信号がともに有音であればダブルトークと見なす手法では、それぞれの音量を所定の閾値を比較することによって有音／無音の判別を行っている。このため、背景ノイズが大きい場合に有音と判定したり、話者がマイクから離れている場合や発声レベルが低い場合などに無音と判定するなど、有音／無音の判定を誤ってしまう可能性があり、結果として、ダブルトークとシングルトークの判定も誤ってしまう。

本発明はこのような点に鑑みてなされたものであり、ダブルトークであるかシングルトークであるかの判定を確実に行い、ダブルトーク制御を正しく行うことが可能なエコーキャンセラ及びマイク装置を提供することを目的とする。

本発明では上記課題を解決するために、音声入力信号に混入されるエコー成分を除去するための適応処理を行うエコーキャンセラであって、音量比学習手段、ダブルトーク検出手段及びエコーキャンセル処理手段を具備するエコーキャンセラが提供される。音量比学習手段は、外部へ音声出力された音声出力信号と、その音声出力の回り込みによってエコー成分が混入した音声入力信号の音量比を算出し、自装置における通常状態の音量比を学習する。ダブルトーク検出手段は、音量比学習手段によって今回算出された今回音量比が、これまでに音量比の学習から予測されるダブルトークの状態に適合するか否かによってダブルトークを検出する。エコーキャンセル処理手段は、ダブルトーク検出手段によるダブルトークの検出結果に基づき、適応処理のためのエコー成分の学習動作を制御する。

このようなエコーキャンセラによれば、音量比学習手段は、外部へ音声出力された音声出力信号と、その音声出力の回り込みによるエコー成分が混入した音声入力信号の音量比を算出するとともに、自装置における通常状態（シングルトーク）の音量比を学習する。ダブルトーク検出手段は、音量比学習手段が今回算出した音量比が、これまでの音量比の学習から予測されるダブルトークの状態に適合するかどうかに応じてダブルトークを検出する。すなわち、ダブルトークであれば、音量比は通常状態の音量比の範囲を超えていると予測されるので、今回算出された音量比と、学習された通常状態における音量比の範囲と比較し、ダブルトークを検出する。エコーキャンセル処理手段は、ダブルトーク検出手段の検出結果に応じて、適応制御のための学習動作を実行するかどうかを制御する。

また、上記課題を解決するために、音声入力信号に混入されるエコー成分を除去するための適応処理を含む音声信号処理を行って音声入力信号から話者の音声信号を取り出すマイク装置において、集音した音声をデジタル信号に変換して音声入力信号として出力する音声入力手段と、外部へ音声出力された音声出力信号と、音声出力の回り込みによってエコー成分が混入した音声入力信号の音量比を算出し、自装置における通常状態の音量比を学習する音量比学習手段と、音量比学習手段によって今回算出された今回音量比が、音量比の学習から予測されるダブルトークの状態に適合するか否かによってダブルトークを検出するダブルトーク検出手段と、ダブルトーク検出手段によるダブルトークの検出結果に基づき、適応処理のためのエコー成分の学習動作を含む音声入力信号から音声信号を抽出する前記音声信号処理を制御する音声信号処理手段と、を具備することを特徴とするマイク装置、が提供される。

このようなマイク装置によれば、音声入力手段が生成した音声入力信号は、音量比学習手段において音声出力信号との音量比が算出される。音量比学習手段は、算出された音量比に基づき、状況に応じて変動する音声入力信号と音声出力信号の通常状態（シングルトーク）における音量比を学習する。ダブルトーク検出手段は、今回算出された音量比が、これまで学習された音量比から予測されるダブルトークの状態に適合するか否かによってダブルトークを検出する。音声信号処理手段は、ダブルトークが検出された場合と検出されなかった場合のそれぞれのケースに応じてエコーキャンセルの適応処理を含む音声処理を行い、外部へ出力する音声信号を生成する。

本発明では、音声出力信号と音声入力信号の音量比を常時学習しており、音量比の学習から予測されるダブルトークの状態の音量比に基づいてダブルトークの検出を行うので、当該装置の状況に適した判定を行うことができる。したがって、ダブルトーク制御が正しく行えるという利点がある。

以下、本発明の実施の形態を図面を参照して説明する。まず、実施の形態に適用される発明の概念について説明し、その後、実施の形態の具体的な内容を説明する。
図１は、実施の形態に適用される発明の概念図である。

本発明に係るエコーキャンセラは、音声出力信号と音声入力信号との音量比を学習する音量比学習手段１、ダブルトークを検出するダブルトーク検出手段２及びエコーキャンセル処理を行うエコーキャンセル処理手段３を具備する。

音量比学習手段１は、スピーカなどから出力された音声出力信号と、マイクなどが集音した音声入力信号との音量比を算出し、自装置における通常状態の音量比を学習する。この音量比は、音声出力信号を出力するスピーカの音量、音声入力信号を生成するマイクの感度、マイクとスピーカの距離などのさまざまな要因で決まり、また、時間の経過とともに変動していく。そこで、音声入力信号と音声出力信号の音量比を常時観測し、現在の自装置における通常状態の音量比を学習する。なお、学習は、信号を所定の周波数領域に分割し、周波数領域ごとに独立して行う。以下、音量比は、周波数領域ごとに、
音量比＝音声入力信号の信号レベル／音声出力信号の信号レベル・・・（１）
によって算出することとする。また、音量比の算出では、音声出力信号が回り込みによって音声入力信号に混入するまでの遅延時間を考慮する。さらに、スピーカが音声出力しない周波数領域については、学習する必要がない。

なお、学習は、通常状態、すなわちシングルトークの状態で行われる。会議システムもしくは電話などにおける実際の会話では、通常、シングルトークまたは、話者がいない状態が大部分である。そこで、算出された音量比が急激に変化した場合などは、この音量比を学習に利用しないなどの処理を行って通常状態の音量比を学習する。さらに、たとえば、ゲイゲルアルゴリズムなどの従来のダブルトーク判定手法、すなわち、今回音量比が予め設定された閾値を超えたかどうかによるダブルトーク判定の結果に基づき、学習するか否かを制御するようにすれば、より正確に通常状態の学習を行うことができる。今回算出された音量比と、学習された音量比に関する情報は、ダブルトーク検出手段２へ出力される。

ダブルトーク検出手段２は、音量比学習手段１から取得した今回算出された音量比と、学習された音量比に関する情報に基づき、ダブルトークの状態であるか否かを検出する。上記のように、音量比学習手段１では、シングルトークの状態の音量比に関する学習が行われている。ダブルトークの状態では音声入力信号に他の話者の音声が重畳されており、式（１）で算出される音量比は、シングルトークの状態よりも高い値になる。したがって、音量比学習手段１によって学習されたシングルトークの状態の音量比範囲を超えた音量比であればダブルトークであるという予測ができる。そこで、シングルトークの状態の音量比の範囲に基づき、ダブルトークと見なす閾値を規定する。ダブルトーク検出手段２では、周波数領域ごとに、今回算出された音量比がシングルトークの状態の音量比の範囲から予測されるダブルトークの音量比に適合するかどうかを判定する。そして、所定の周波数領域でダブルトークが検出された場合、ダブルトークと判定する。判定結果は、エコーキャンセル処理手段３に通知される。

エコーキャンセル処理手段３は、音声入力信号を受け取ると、スピーカなどから出力された音声出力が回り込むことによって音声入力信号に混入したエコーを除去する。エコー成分は、会議システムや電話などにおいて、自身が検出し、相手側装置へ送信した音声信号が音声出力されることによって、また戻って音声入力された音声信号成分である。そこで、スピーカから出力された音声出力信号を用いて音声入力信号に含まれるエコー成分を学習し、学習結果から予測されるエコー成分を音声入力信号から除去する適応処理を行う。このとき、スピーカから出た音は少し時間がたってからマイクに到達するので、その遅延時間を考慮する。また、学習は、ダブルトーク検出手段２がダブルトークを検出していないとき、すなわちシングルトークの場合にのみ行う。ダブルトークの場合には、音声入力信号に他の話者の音声信号が混入しているので、正しく学習ができないからである。

このような構成のエコーキャンセラでは、音量比学習手段１は、周波数領域ごとに独立して、該周波数領域の音声出力信号と音声入力信号の信号レベルの比（音量比）を算出し、算出された音量比に基づき、シングルトークの状態における音量比の範囲を学習する。

図２は、シングルトークの状態における音声入力信号と音声出力信号の一例を示した図である。
音量比学習手段１は、周波数領域ｆ１、ｆ２、ｆ３及びｆ４ごとに、それぞれ音声出力信号（以下、出力信号とする）２１と、音声入力信号（以下、入力信号とする）２２の信号レベルの比（音量比）を、式（１）にしたがって算出する。たとえば、図の例の周波数領域ｆ１では、出力信号２１の最大振幅レベルＡと、入力信号２２の最大振幅レベルＡ’の比は、およそ０．５になる。同様に、周波数領域ｆ２、ｆ３及びｆ４についても、音量比としておよそ０．５が得られる。このようにして周波数領域ごとに入力信号と出力信号の音量比を算出し、音量比を学習する。なお、学習は、ゲイゲルアルゴリズムなどによってシングルトークの状態と判定されたときに実行する。

以上の処理手順により、学習結果として、周波数領域ｆ１、ｆ２、ｆ３、ｆ４において、シングルトークの状態における音量比として、０．５近傍の値が得られたとする。
ダブルトーク検出手段２は、算出される音量比が０．５＋α（αは、システムに応じて設定されるマージン）を超えたかどうかを判定し、超えていない場合は、シングルトークと判定する。シングルトークと判定された場合、エコーキャンセル処理手段３は、出力信号に基づきエコー成分を学習するとともに、学習結果の推定エコー成分に基づき、入力信号からエコー成分をキャンセルする処理を行う。

このような状態で、ダブルトークの状態が発生したとする。
図３は、ダブルトークの状態における音声入力信号と音声出力信号の一例を示した図である。

ダブルトークの場合、出力信号３１は、図２と同様にスピーカなどから出力された音声であるが、入力信号３２には、本来の入力信号（話者の音声信号＋出力信号３１が回り込んだエコー成分）に対し、さらに他の話者の音声信号が重畳されている。

音量比学習手段１は、周波数領域ｆ１、ｆ２、ｆ３及びｆ４ごとに、それぞれ出力信号３１と、入力信号３２の信号レベルの比を、式（１）にしたがって算出する。図の例の周波数領域ｆ１では、出力信号３１の最大振幅レベルＢと、入力信号３２の最大振幅レベルＢ’の比は、およそ０．５で、図２に示したシングルトークの場合と同様である。しかしながら、周波数領域ｆ３では、出力信号３１の最大振幅レベルＣと、入力信号３２の最大振幅レベルＣ’の比は、およそ７であり、シングルトークの状態の０．５とは大きく異なる。

ダブルトーク検出手段２において、音量比学習手段１で算出された音量比と、学習されたシングルトークの状態の音量比範囲とを照合すると、周波数領域ｆ１や周波数領域ｆ２では、シングルトークの状態とほぼ変わらない音量比であるが、周波数領域ｆ３において大きく異なり、音量比はシングルトークの状態の範囲を大きく超えている。したがって、この場合、ダブルトークであると判定される。ダブルトークと判定された場合、エコーキャンセル処理手段３は、出力信号に基づきエコー成分の学習を停止し、これまでに学習された推定エコー成分に基づき、入力信号からエコー成分をキャンセルする処理を行う。

話者の音声の周波数分布は、話者に応じて異なる場合が多い。たとえば、ダブルトークの状態で重畳される他の話者の音声レベルが小さい場合、信号全体の音量比で照合すると、ダブルトークを検出できない場合がある。そこで、周波数領域に分割し、その周波数領域ごとに処理を行うことによって、特徴のある周波数領域で違いを検出し、ダブルトークと判定することが可能となる。

以上のように、所定の周波数領域ごとに通常状態の入力信号と出力信号の音量比を学習し、学習結果から予測されるダブルトークの音量比と今回算出された音量比とを比較することによってダブルトークであるか否かを検出することにより、装置の状況に応じた最適な閾値でダブルトークを検出することができる。また、周波数領域ごとに算出するため、検出の精度を向上させることができるという効果も得られる。

なお、学習するかどうかの判断を、他のダブルトーク検出アルゴリズムを用いて行っているが、その判断を多少間違えた場合であっても、学習を継続することによって、最終的なダブルトークかどうかの判断の精度は向上する。

以下、実施の形態を、テレビ会議システムのマイクに適用した場合を例に図面を参照して詳細に説明する。
図４は、実施の形態のテレビ会議システムの構成図である。

実施の形態のテレビ会議システムは、テレビ会議システム本体（以下、本体とする）２００に対し、マイク１（１００）、マイク２（１０１）が通信路３０１、３０２と電源信号路３１１、３１２によってカスケード接続されている。また、本体２００は、ネットワーク５００を介して別室に設置される本体２１０とマイク１０（１０３）から成るシステムに接続する。各マイクは同じ構成であるので、以下、マイク１（１００）の場合で説明する。

マイク１（１００）は、音声処理を行うＤＳＰ（Digital Signal Processor）１１０、電源処理を行う電源制御回路１２０とＤＣ−ＤＣ変換器１２１、シリアル通信を制御するシリアルＩ／ＦＦＰＧＡ（Field Programmable Gate Array）１３０及び音声を入力する集音部１５０とＡ／Ｄ変換器１５１を有する。以下、シリアルＩ／ＦＦＰＧＡ１３０をシリアルＩ／Ｆ１３０と表記する。

ＤＳＰ１１０は、ダブルトーク検出部１１１、エコーキャンセラ１１２、ノイズキャンセラ１１３、サプレッサ１１４及び加算器１１５を具備する。
ダブルトーク検出部１１１は、音量比を学習する音量比学習手段１と、ダブルトークを検出するダブルトーク検出手段２で構成され、周波数領域ごとの出力信号と入力信号の音量比を学習し、学習結果と今回算出された音量比とを用いて、ダブルトークが発生しているかどうかを検出し、エコーキャンセラ１１２、ノイズキャンセラ１１３及びサプレッサ１１４の音声処理手段へ出力する。エコーキャンセラ１１２は、エコー成分の予測を行ってエコー除去する適応制御を行っており、ダブルトーク検出部１１１によってダブルトークが検出された場合は、適応制御のための学習を行わない。ノイズキャンセラ１１３は、エコーキャンセラ１１２によってエコーが除去された入力信号からノイズを除去する。サプレッサ１１４は、入力信号に音声信号が含まれていない場合には、音声出力信号のサプレス処理を行う。ノイズキャンセラ１１３及びサプレッサ１１４は、必要に応じて、ダブルトーク検出部１１１によるダブルトークの検出結果を参照し、処理を行う。加算器１１５は、シリアルＩ／Ｆ１３０から入力されるカスケード接続された他マイクの音声情報と（Cascade In）、自マイクの音声信号を加算し、シリアルＩ／Ｆ１３０を介して送信する（Cascade Out）。また、図示しない制御部によって、シリアルＩ／Ｆ１３０を介して制御指令を入力し、指令に応じた処理を行う（Control I/O）。なお、ＤＳＰ１１０は、シリアルＩ／Ｆ１３０を介して入力する下りデータに応じて動作クロックを発生させる。

電源制御回路１２０は、上流の本体２００から供給されたＤＣ電源をＤＣ−ＤＣ１２１へ送るとともに、下流に電源を供給するかどうかを判断し、供給する場合は、電源信号路３１２を介してマイク２（１０１）へ電源を供給する制御を行う。このとき、自マイクに外部ＤＣ電源４００が接続されているか否か、下流に接続する電源信号路の長短なども考慮し、下流に電源供給を行うかどうかを判断する。

シリアルＩ／Ｆ１３０は、本体２００から送信される下りデータを入力し、所定の処理を行うとともに、下りデータを下流のマイク２（１０１）へ出力する。また、下流のマイク２（１０１）から入力された上りデータに対し音声情報に自マイクの音声信号を加算するなどの処理を行った後、上流の本体２００に出力する。以下、通信される下りデータ及び上りデータを総称して通信コマンドとする。

集音部１５０は、外部の音声を入力してＡ／Ｄ変換器１５１へ送る。Ａ／Ｄ変換器１５１は、集音部１５０の生成したアナログの音声信号をデジタル信号に変換してエコーキャンセラ１１２へ出力する。

本体２００は、カスケード接続するマイク１（１００）、マイク２（１０１）と通信コマンドを介して情報交換して、これらのマイクを管理する。また、スピーカ２０１を備え、音声出力を行う。

外部ＤＣ電源４００は、必要に応じて、各マイクに接続され、電源を供給する。
以上の構成のテレビ会議システムの動作について説明する。ここでは、ＤＳＰ１１０による音声処理を中心として、マイク及びマイクシステムの動作について説明する。

集音部１５０は、周囲の音声を入力し、音声に応じたアナログ信号を生成してＡ／Ｄ変換器１５１へ出力する。Ａ／Ｄ変換器１５１は、音声に応じて生成されたアナログ信号をデジタル信号に変換し、音声入力信号としてＤＳＰ１１０に出力する。

ＤＳＰ１１０では、ダブルトーク検出部１１１が、シリアルＩ／Ｆ１３０を介して入力する音声出力信号と、Ａ／Ｄ変換器１５１を介して入力する音声入力信号のシングルトークの状態における音量比を学習するとともに、学習結果に応じてダブルトークを検出する。エコーキャンセラ１１２は、ダブルトーク検出部１１１によってダブルトークが検出されなければ、適応制御のための学習を行うとともに、Ａ／Ｄ変換器１５１から入力された音声入力信号からエコー成分を除去し、音声信号を生成する。この音声信号は、さらに、ノイズキャンセラ１１３でノイズが除去され、サプレッサ１１４でサプレス処理が施され、加算器１１５へ出力される。加算器１１５は、サプレッサ１１４を介して入力する音声信号と、シリアルＩ／Ｆ１３０を介して入力する下流のマイクの音声信号（Cascade In）を加算し、出力する（Cascade Out）。

以上の説明の本実施の形態のマイク装置では、スピーカ２０１からの出力信号が回り込んで集音部１５０が拾う入力信号に混入したエコー成分を除去するエコーキャンセル処理を正確に実行するため、ダブルトークであるか否かによって動作制御を行っている。ダブルトーク検出部１１１は、出力信号と入力信号の音量比を周波数領域ごとに算出するとともに、シングルトークの状態における音量比を学習しておく。そして、算出された音量比を学習結果に照らし合わせ、ダブルトークを検出するので、スピーカ２０１の音量や集音部１５０の感度、もしくはスピーカ２０１と集音部１５０の位置関係によって通常状態の音量比が変動してもこれに合わせてダブルトーク検出を正しく行うことができる。また、周波数領域ごとに独立して判定するため、検出の精度が向上する。

実施の形態に適用される発明の概念図である。シングルトークの状態における音声入力信号と音声出力信号の一例を示した図である。ダブルトークの状態における音声入力信号と音声出力信号の一例を示した図である。実施の形態のテレビ会議システムの構成図である。

符号の説明

１・・・音量比学習手段、２・・・ダブルトーク検出手段、３・・・エコーキャンセル処理手段

Claims

音声入力信号に混入されるエコー成分を除去するための適応処理を行うエコーキャンセラにおいて、
外部へ音声出力された音声出力信号と、前記音声出力の回り込みによってエコー成分が混入した前記音声入力信号とを入力して前記音声出力信号と前記音声入力信号とを所定の周波数領域に分割し、前記周波数領域ごとに前記周波数領域における前記音声出力信号の最大振幅の信号レベルと前記音声入力信号の最大振幅の信号レベルとの比を音量比として算出するとともに、通常状態と判定されるときに算出された前記音量比に基づいて自装置における通常状態の音量比の範囲を学習する音量比学習手段と、
前記周波数領域ごとに前記音量比学習手段によって今回算出された今回音量比が、前記音量比の範囲の学習から予測される前記周波数領域ごとのダブルトークの音量比に適合するか否かを判定し、前記周波数領域ごとの判定結果に基づいて前記ダブルトークを検出するダブルトーク検出手段と、
前記ダブルトーク検出手段による前記ダブルトークの検出結果に基づき、前記適応処理のための前記エコー成分の学習動作を制御するエコーキャンセル処理手段と、
を具備することを特徴とするエコーキャンセラ。
前記音量比学習手段は、前記今回音量比が予め設定された閾値を超えたか否かによって判定されるダブルトーク判定の結果に応じて、学習を行うか否かを制御する、
ことを特徴とする請求項１記載のエコーキャンセラ。
前記音量比学習手段は、前記音声出力信号が回り込みによって前記音声入力信号に混入するまでの遅延時間を加味して前記音量比の学習を行う、
ことを特徴とする請求項１記載のエコーキャンセラ。
音声入力信号に混入されるエコー成分を除去するための適応処理を含む音声信号処理を行って前記音声入力信号から話者の音声信号を取り出すマイク装置において、
集音した音声をデジタル信号に変換して音声入力信号として出力する音声入力手段と、
外部へ音声出力された音声出力信号と、前記音声出力の回り込みによってエコー成分が混入した前記音声入力信号とを入力して前記音声出力信号と前記音声入力信号とを所定の周波数領域に分割し、前記周波数領域ごとに前記周波数領域における前記音声出力信号の最大振幅の信号レベルと前記音声入力信号の最大振幅の信号レベルとの比を音量比として算出するとともに、通常状態と判定されるときに算出された前記音量比に基づいて自装置における通常状態の音量比の範囲を学習する音量比学習手段と、
前記周波数領域ごとに前記音量比学習手段によって今回算出された今回音量比が、前記音量比の範囲の学習から予測される前記周波数領域ごとのダブルトークの音量比に適合するか否かを判定し、前記周波数領域ごとの判定結果に基づいて前記ダブルトークを検出するダブルトーク検出手段と、
前記ダブルトーク検出手段による前記ダブルトークの検出結果に基づき、前記適応処理のための前記エコー成分の学習動作を含む前記音声入力信号から前記音声信号を抽出する前記音声信号処理を制御する音声信号処理手段と、
を具備することを特徴とするマイク装置。