JP5698110B2 - Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program - Google Patents
Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program Download PDFInfo
- Publication number
- JP5698110B2 JP5698110B2 JP2011261375A JP2011261375A JP5698110B2 JP 5698110 B2 JP5698110 B2 JP 5698110B2 JP 2011261375 A JP2011261375 A JP 2011261375A JP 2011261375 A JP2011261375 A JP 2011261375A JP 5698110 B2 JP5698110 B2 JP 5698110B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency
- echo
- echo replica
- channel
- setn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Description
本発明は、マルチチャネル拡声通話系において音響エコーを消去するマルチチャネルエコー消去方法、マルチチャネルエコー消去装置、およびプログラムに関する。 The present invention relates to a multi-channel echo cancellation method, a multi-channel echo cancellation apparatus, and a program for canceling acoustic echo in a multi-channel loudspeaker communication system.
近年、マルチチャネル再生技術は、ステレオから5.1チャネルへとチャネル数拡大の方向に進んでいる。しかし、音が高い立体感を持って再生されるリスニングエリアは狭く、スィートスポット化しており、スィートスポットの外では音の立体感がかなり低減することが知られている。マルチチャネル再生をもちいるテレプレゼンスTV会議は、10人以上の参加者にも均しく音の立体感を提供可能なリスニングエリアの広い再生が求められている。このようなマルチチャネル再生技術として、Wave Field Synthesis(以下、WFSと略す。)の研究開発が盛んに進められている(非特許文献1参照)。 In recent years, multi-channel playback technology has progressed in the direction of expanding the number of channels from stereo to 5.1 channels. However, it is known that the listening area where the sound is reproduced with a high three-dimensional feeling is narrow and is a sweet spot, and the three-dimensional sound is considerably reduced outside the sweet spot. Telepresence TV conferences that use multi-channel playback require playback of a wide listening area that can provide a three-dimensional sound equally to more than 10 participants. As such a multi-channel reproduction technique, research and development of Wave Field Synthesis (hereinafter abbreviated as WFS) has been actively promoted (see Non-Patent Document 1).
テレプレゼンス会議のようなマルチチャネル拡声型の双方向通信会議システムでは、受話音声がスピーカから再生されマイクロホンに収音されて音響エコーが生じるため、そのまま送信されると通話の障害や不快感などの問題が生じる。快適な通話環境を実現するために、スピーカからマイクロホンに音響的に回り込む信号成分を、マイクロホン収音信号から消去する音響エコーキャンセラを備えることがある。 In a two-channel communication conference system of multi-channel loudspeaker type such as a telepresence conference, the received voice is reproduced from the speaker and picked up by a microphone to generate an acoustic echo. Problems arise. In order to realize a comfortable calling environment, an acoustic echo canceller that erases a signal component that circulates acoustically from a speaker to a microphone may be provided.
マルチチャネル通信会議システムがM(≧2)チャネル再生系とN(≧1)チャネル収音系からなるとき、音響エコーキャンセラは、図1の構成によりエコー消去を行う。図1を参照して従来のマルチチャネルエコー消去装置10の動作を説明する。従来のマルチチャネルエコー消去装置10は、M(1≦m≦M)個のスピーカ21〜2M、N(1≦n≦N)個のマイクロホン31〜3N、受話信号ベクトル変換部100、N個のエコーレプリカ生成部2001〜200N、エコー消去部500を備える。受話信号はスピーカ21〜2Mで音響信号として再生され、音響エコー経路を経てマイクロホン31〜3Nに回り込む。受話信号は受話信号ベクトル変換部100でベクトル化され、エコーレプリカ生成部2001〜200Nはベクトル化された受話信号とエコー経路推定値からエコーレプリカを生成する。エコー消去部500は、マイクロホン収音信号からエコーレプリカを引くことでエコー消去を行う。エコー消去部500の出力である誤差信号は、エコーレプリカ生成部2001〜200Nに入力される。エコーレプリカ生成部2001〜200Nは、受話信号と誤差信号から、エコー経路推定値を更新する。エコー経路が精度よく推定された状態では、エコー信号とエコーレプリカ信号がほぼ等しくなり、誤差信号中にエコーは殆ど含まれなくなる。
When the multi-channel communication conference system includes an M (≧ 2) channel reproduction system and an N (≧ 1) channel sound collection system, the acoustic echo canceller performs echo cancellation with the configuration shown in FIG. The operation of the conventional multi-channel
演算量を削減するために、時間領域ではなく周波数領域でエコー計算とフィルタ係数更新を行うアルゴリズムが提案されている(非特許文献2参照)。図2は非特許文献2のアルゴリズムをマルチチャネルに適用したマルチチャネルエコー消去装置11の構成を示すブロック図である。図3は従来のマルチチャネルエコー消去装置11の動作を示すフローチャートである。以下、図2,3を参照しながら、マルチチャネルエコー消去装置11の動作を詳細に説明する。なお、以下の説明では、kは時間を表し、fは周波数を表し、jはフレーム番号を表す。
In order to reduce the amount of calculation, an algorithm that performs echo calculation and filter coefficient update in the frequency domain instead of the time domain has been proposed (see Non-Patent Document 2). FIG. 2 is a block diagram showing a configuration of a
従来のマルチチャネルエコー消去装置11は、M(1≦m≦M)個のスピーカ21〜2Mと、N(1≦n≦N)個のマイクロホン31〜3Nと、受話信号ベクトル変換部110と、N個のエコーレプリカ生成部2101〜210Nと、逆FFT部400と、エコー消去部510と、FFT部600を備える。
The conventional
受話信号ベクトル変換部110は、Mチャネルの受話信号xm(k)をLサンプルごとにブロック化し、1フレーム=2Lサンプルとして、1フレーム分を高速フーリエ変換により周波数領域に変換し、式(1)のように受話信号Xm(f,j)を生成する(S110)。ここで、Lは自然数であり、フレーム分割数DはLを割り切る自然数であり、高速フーリエ変換を簡略化・高速化するために、Lを2のべき乗にとることが多い。
The received signal
エコーレプリカ生成部210nは、周波数fごとに、式(2)のように、受話信号Xm(f,j)とフィルタ係数Hm,n(f,j)を掛けることで、受話信号Xm(f,j)をフィルタ処理し、これをMチャネル分加算する。これによりエコーレプリカY^n(f,j)を求める(S210)。
The echo
逆FFT部400は、エコーレプリカY^n(f,j)を逆高速フーリエ変換により時間領域に変換し、式(3)のようにエコーレプリカy^n(j)を求める(S400)。
The
ここで、0LはL×Lの零行列、ILはL×Lの単位行列である。 Here, 0 L is an L × L zero matrix, and IL is an L × L unit matrix.
エコー消去部510は、時間領域でN個のマイクロホン31〜3Nから収音されるNチャネルの送話信号yn(j)とエコーレプリカy^n(j)から誤差信号en(j)を求める(S510)。
The echo canceling unit 510 receives an error signal e n (j) from the N-channel transmission signal y n (j) and the echo replica y ^ n (j) collected from the N
FFT部600は、誤差信号en(j)を高速フーリエ変換により周波数領域に変換し、式(4)のように誤差信号En(f,j)を求める(S600)。
The
エコーレプリカ生成部210nは、誤差信号En(f,j)と受話信号Xm(f,j)から、式(5)のようにフィルタ係数の修正量dHm,n(f,j)を求める。
The echo
ただし、*(上付きアスタリスク)は、複素共役を表す。 However, * (superscript asterisk) represents a complex conjugate.
次に、各チャネルのフィルタ係数Hm,n(f,j)を、式(6)のように更新する(S700)。 Next, the filter coefficient H m, n (f, j) of each channel is updated as shown in Expression (6) (S700).
ここで、p(f,j)は、周波数成分ごとに、Nチャネル分の送話信号パワーの総和を、式(7)のように計算することで求めたものであり、修正量dHm,n(f,j)を補正している。 Here, p (f, j) is obtained by calculating the sum of transmission signal powers for N channels for each frequency component as shown in Expression (7), and the correction amount dH m, n (f, j) is corrected.
ただし、μは0〜1の値をとるステップサイズであり、δは分母が0になることを防止するための微小な正定数であり、βは0〜1の値をとるパワー計算で短時間平均をとるための平滑化定数である。 However, μ is a step size that takes a value of 0 to 1, δ is a small positive constant for preventing the denominator from becoming 0, and β is a short time in power calculation that takes a value of 0 to 1. This is a smoothing constant for averaging.
しかしながら、非特許文献1に記載されたWFSは、ある地点での音波面を取得し別の地点で再合成するために、数十以上のマイクロホンと数十以上のスピーカを必要とする。そのため、WFSを双方向テレビ会議に導入しようとする場合、スピーカ・マイクロホンの間の音響パスはチャネル数の二乗になるため、エコーキャンセラが推定する音響パス数はチャネル数の二乗で急激に増大する。
However, WFS described in
また、エコーキャンセラの演算量を下げるために、非特許文献2に記載された周波数領域でエコー計算とフィルタ係数更新を行う方法を用いても、エコーレプリカ生成とフィルタ係数更新の処理は、入力チャネル数と出力チャネル数の積、すなわちM×Nで増大してしまう。
Even if the method of performing echo calculation and filter coefficient update in the frequency domain described in Non-Patent
本発明はこのような点に鑑みてなされたものであり、マルチチャネル拡声通話系において音響エコーを消去するマルチチャネルエコー消去処理における演算量を低減することができるマルチチャネルエコー消去装置を提供することを目的とする。 The present invention has been made in view of the above points, and provides a multi-channel echo canceling apparatus capable of reducing the amount of computation in multi-channel echo canceling processing for canceling acoustic echoes in a multi-channel loudspeaker communication system. With the goal.
上記の課題を解決するために、本発明のマルチチャネルエコー消去装置は、M(1≦m≦M)個のスピーカと直線上に等間隔に配置されたN(3≦n≦N)個のマイクロホンと受話信号ベクトル変換部とエコーレプリカ生成部とエコーレプリカ空間補間部と逆FFT部とエコー消去部とFFT部を備える。kは時間を表し、fは周波数を表し、jはフレーム番号を表し、iは適応フィルタのタップ番号を表し、mはスピーカの番号を表し、nはマイクロホンの番号を表し、SetN(f)は直線状に等間隔に配置されたN個のマイクロホンから周波数fが低いほど空間サンプリング間隔が広くなるように選択されるマイクロホンの番号の集合を表すとする。受話信号ベクトル変換部は、スピーカから出力されるMチャネルの受話信号xm(k)を、チャネルmごとに、周波数領域に変換して、受話信号Xm(f,j)を生成する。エコーレプリカ生成部は、受話信号Xm(f,j)が入力されると、当該受話信号Xm(f,j)から、周波数fごとに、SetN(f)に含まれるマイクロホンnについて、タップ数がI(1≦i≦I、Iは1以上)のフィルタ係数Hm,n,i(f,j)を用いて、空間的に間引かれたエコーレプリカY^SetN(f)(f,j)を生成する。エコーレプリカ空間補間部は、空間的に間引かれたエコーレプリカY^SetN(f)(f,j)から、周波数fごとに、空間補間を行い、エコーレプリカY^n(f,j)を生成する。逆FFT部は、エコーレプリカY^n(f,j)を、時間領域に変換して、エコーレプリカy^n(j)を生成する。エコー消去部は、マイクロホンから収音されるNチャネルの送話信号yn(j)とエコーレプリカy^n(j)から、誤差信号en(k)を生成する。FFT部は、誤差信号en(k)を、周波数領域に変換して、誤差信号En(f,j)を生成する。エコーレプリカ生成部は、誤差信号En(f,j)が入力されると、当該誤差信号En(f,j)と受話信号Xm(f,j)から、周波数fごとに、SetN(f)に含まれるマイクロホンnについて、修正量dHm,n,i(f,j)を求め、当該修正量dHm,n,i(f,j)を用いて、フィルタ係数Hm,n,i(f,j)を更新する。 In order to solve the above problems, the multi-channel echo canceller of the present invention has M (1 ≦ m ≦ M) speakers and N (3 ≦ n ≦ N) speakers arranged at equal intervals on a straight line. A microphone, a received signal vector conversion unit, an echo replica generation unit, an echo replica space interpolation unit, an inverse FFT unit, an echo cancellation unit, and an FFT unit are provided. k represents time, f represents frequency, j represents frame number, i represents adaptive filter tap number, m represents speaker number, n represents microphone number, and SetN (f) is It is assumed that a set of microphone numbers selected so that the spatial sampling interval becomes wider as the frequency f becomes lower from N microphones arranged at equal intervals in a straight line is assumed. The received signal vector conversion unit converts the M channel received signal x m (k) output from the speaker into a frequency domain for each channel m, and generates a received signal X m (f, j). When the reception signal X m (f, j) is input, the echo replica generation unit taps the microphone n included in SetN (f) for each frequency f from the reception signal X m (f, j). Echo replica Y ^ SetN (f) (f ) spatially thinned using filter coefficients H m, n, i (f, j) having a number I (1 ≦ i ≦ I, I is 1 or more) , J). The echo replica spatial interpolation unit performs spatial interpolation for each frequency f from the spatially thinned echo replica Y ^ SetN (f) (f, j), and obtains the echo replica Y ^ n (f, j). Generate. The inverse FFT unit converts the echo replica Y ^ n (f, j) into the time domain and generates an echo replica y ^ n (j). Echo cancellation unit, the transmission signals of N channels picked up from the microphone y n (j) and the echo replica y ^ n (j), generates an error signal e n (k). FFT unit, an error signal e n (k), is converted into the frequency domain to generate an error signal E n (f, j). When the error signal E n (f, j) is input, the echo replica generation unit sets Set N (f) for each frequency f from the error signal E n (f, j) and the received signal X m (f, j). f) A correction amount dH m, n, i (f, j) is obtained for the microphone n included in f), and a filter coefficient H m, n, i is obtained using the correction amount dH m, n, i (f, j) . Update i (f, j).
本発明のマルチチャネルエコー消去装置によれば、周波数ごとにエコー信号の空間方向形状に着目し、低い周波数では空間補間を用いてエコーレプリカを生成することで、エコーレプリカの生成とフィルタ係数の更新における演算回数を低減し、マルチチャネル拡声通話系におけるエコー消去処理全体での演算量を低減することができる。 According to the multi-channel echo canceller of the present invention, focusing on the spatial shape of the echo signal for each frequency, generating an echo replica using spatial interpolation at a low frequency, generating an echo replica and updating a filter coefficient The number of computations can be reduced, and the amount of computation in the entire echo cancellation processing in a multi-channel loudspeaker communication system can be reduced.
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Hereinafter, embodiments of the present invention will be described in detail. In addition, the same number is attached | subjected to the structure part which has the same function, and duplication description is abbreviate | omitted.
[本発明の原理]
実施例の説明に先立ち、本発明のマルチチャネルエコー消去方法の原理を説明する。本発明は、周波数ごとのエコー信号の空間方向の形状に着目し、低い周波数では空間補間を用いてエコーレプリカを生成することで、エコーキャンセラ演算量の急激な増大を抑えることができる。マイクロホンが等間隔に直線状に並んでいる場合、各周波数でのエコー信号の空間形状は、周波数が低いほど滑らかになる。それは、音波の波長λと周波数fの間に、波長λ×周波数f=音速c(一定)の関係があるために、周波数fが低いほど波長λは長くなるためである。さらにナイキスト定理によれば、低い周波数ではサンプリング間隔をマイクロホン間隔よりもずっと大きくすることができる。これは、低い周波数では空間サンプリングの間隔を広げられること、すなわちサンプリングを間引けること、を意味する。
[Principle of the present invention]
Prior to the description of the embodiments, the principle of the multi-channel echo cancellation method of the present invention will be described. The present invention focuses on the shape of the echo signal in the spatial direction for each frequency and generates an echo replica using spatial interpolation at a low frequency, thereby suppressing a rapid increase in the amount of echo canceller computation. When the microphones are arranged in a straight line at equal intervals, the spatial shape of the echo signal at each frequency becomes smoother as the frequency is lower. This is because there is a relationship of wavelength λ × frequency f = sound speed c (constant) between the wavelength λ of the sound wave and the frequency f, and the wavelength λ becomes longer as the frequency f is lower. Furthermore, according to the Nyquist theorem, the sampling interval can be much larger than the microphone interval at low frequencies. This means that the spatial sampling interval can be increased at low frequencies, that is, sampling can be thinned out.
ここではWFS収音再生系の一例として、直線状スピーカアレーと直線状マイクロホンアレーをサンプリング周波数16kHzで動作させることを考える。ナイキスト定理より、マイクロホン間隔すなわち空間波のサンプリング間隔はλ/2以下である必要がある。帯域上限8kHzの波をサンプリングするには、音速を330[m/s]として、マイクロホン間隔を2cmにする必要がある。しかし周波数が低くなるほど波形は滑らかになる。図4にこの状況を示す。33本のマイクロホンで収音したエコー信号1フレーム分を高速フーリエ変換により周波数分解して得られた、4kHz,2kHz,1kHz,500Hz,250Hz,125Hzのエコー信号の空間形状をそれぞれプロットしている。なお、実線は実数成分を表し、点線は虚数成分を表している。滑らかな波形に対して空間サンプリングを間引きすることができる。すなわち低い周波数については、全マイクロホンではなく一部のマイクロホンでエコー消去処理を行い、残りのマイクロホンについては適応フィルタを用いずに一部のマイクロホンのエコー消去済み信号から、空間補間によって全マイクロホンのエコー消去済み信号を求めることができる。 Here, as an example of the WFS sound collection / reproduction system, consider that a linear speaker array and a linear microphone array are operated at a sampling frequency of 16 kHz. According to the Nyquist theorem, the microphone interval, that is, the sampling interval of the spatial wave needs to be λ / 2 or less. In order to sample a wave having a band upper limit of 8 kHz, it is necessary to set the sound speed to 330 [m / s] and the microphone interval to 2 cm. However, the lower the frequency, the smoother the waveform. FIG. 4 shows this situation. The spatial shapes of echo signals of 4 kHz, 2 kHz, 1 kHz, 500 Hz, 250 Hz, and 125 Hz obtained by frequency-resolving one frame of echo signals collected by 33 microphones by fast Fourier transform are plotted. The solid line represents the real number component, and the dotted line represents the imaginary number component. Spatial sampling can be thinned out for smooth waveforms. That is, for low frequencies, echo cancellation processing is performed with some microphones instead of all microphones, and echoes of all microphones are echoed from the echo canceled signals of some microphones without using an adaptive filter for the remaining microphones by spatial interpolation. An erased signal can be determined.
図5に、マイクロホン数9、周波数帯域分割数8の場合について、周波数fごとの送話信号の間引きパターンSetN(f)を示す。横軸はマイク位置であり、縦軸は周波数である。fの値が大きいほど周波数が高いことを表している。f=3,4では、空間サンプリングが1/2に間引かれている。f=1,2では空間サンプリングが1/4に間引かれている。 FIG. 5 shows a thinning pattern SetN (f) of a transmission signal for each frequency f when the number of microphones is 9 and the number of frequency band divisions is 8. The horizontal axis is the microphone position, and the vertical axis is the frequency. The larger the value of f, the higher the frequency. At f = 3, 4, the spatial sampling is decimated by half. At f = 1, 2, spatial sampling is thinned out to 1/4.
送話信号の間引きパターンSetN(f)は、周波数fの波長λ(f)=c(音速)/fから求められる。マイクロホンが等間隔に並んでいる場合、SNはマイクロホン間隔を表すとして、SN×Q≦λ(f)/2を満たす最大の自然数Qを求め、間引き間隔Q(f)をQ以下に設定する。例えば、マイクロホン数N=9、間引き間隔Q(f)=4の場合、SetN(f)={1,5,9}と設定することができる。また、間引き間隔Q(f)=2の場合、SetN(f)={1,3,5,7,9}と設定することができる。 The thinned pattern SetN (f) of the transmission signal is obtained from the wavelength λ (f) = c (sound speed) / f of the frequency f. When microphones are arranged at equal intervals, S N represents the microphone interval, and the maximum natural number Q satisfying S N × Q ≦ λ (f) / 2 is obtained, and the thinning interval Q (f) is set to be equal to or less than Q. To do. For example, when the number of microphones N = 9 and the thinning interval Q (f) = 4, SetN (f) = {1, 5, 9} can be set. Further, when the thinning interval Q (f) = 2, SetN (f) = {1, 3, 5, 7, 9} can be set.
上記の原理に基づいて、低い周波数でエコーレプリカの生成処理とフィルタ係数の更新処理を間引くことで演算量を下げることが可能になる。 Based on the above principle, it is possible to reduce the amount of calculation by thinning out the echo replica generation process and the filter coefficient update process at a low frequency.
図6、図7を参照して、本発明の実施例1に係るマルチチャネルエコー消去装置20の動作を詳細に説明する。図6は本発明の実施例1に係るマルチチャネルエコー消去装置20の構成を示すブロック図である。図7は本発明の実施例1に係るマルチチャネルエコー消去装置20の動作を示すフローチャートである。本実施例では、周波数領域適応アルゴリズムとして、「E. Moulines, O. A. Amrane, and Y. Grenier, “The Generalized Multidelay Adaptive Filter: Structure and Convergence Analysis”, IEEE Trans. on SP, vol. 43, no. 1 (1995).」に記載された方法を用いた場合について説明する。以下では、適応フィルタは時間方向I個(Iは1以上)に分割されているものとして説明する。
With reference to FIGS. 6 and 7, the operation of the multi-channel
以下、実際に行われる手続きの順に説明してゆく。本実施例のマルチチャネルエコー消去装置20は、M(1≦m≦M)個のスピーカ21〜2Mと、N(3≦n≦N)個のマイクロホン31〜3Nと、受話信号ベクトル変換部110と、N個のエコーレプリカ生成部2201〜220Nと、エコーレプリカ空間補間部300と、逆FFT部400と、エコー消去部510と、FFT部600を備える。
In the following, description will be made in the order of procedures actually performed. The multi-channel
受話信号ベクトル変換部110は、Mチャネルの受話信号xm(k)をLサンプルごとにブロック化し、1フレーム=2Lサンプルとして、1フレーム分を高速フーリエ変換により周波数領域に変換し、上記式(1)のように受話信号Xm(f,j)を生成する(S110)。
The received signal
エコーレプリカ生成部220nは、周波数f≦L+1について、周波数fごとに、SetN(f)に含まれるnについて、式(8)のように、受話信号Xm(f,j)とフィルタ係数Hm,n,i(f,j)を掛けることで、受話信号Xm(f,j)をフィルタ処理し、Mチャネル分加算する。これにより空間的に間引きされたエコーレプリカY^SetN(f)(f,j)を求める(S220)。
For each frequency f, the echo
エコーレプリカ空間補間部300は、周波数f≦L+1について、周波数fごとに、エコーレプリカ生成部210nの生成する空間的に間引きされたエコーレプリカY^SetN(f)(f,j)を用いて、空間補間によりエコーレプリカY^n(f,j)を求める(S300)。より具体的には、間引きによりスキップされたチャネルn、すなわちSetN(f)に含まれないnについて、SetN(f)に含まれるチャネルのエコー消去済み信号を空間補間することでエコーレプリカY^n(f,j)を求める。マイクロホンが等間隔で直線状に配置されているときは、空間的に間引きされたエコーレプリカY^SetN(f)(f,j)とsinc関数を使って、式(9)のように空間補間が可能である。
The echo replica
なお、実際の計算では、sinc関数を有限長で打ち切る必要がある。sinc関数を打ち切る範囲としては、間引き間隔Q(f)に基づいて、式(10)もしくは式(11)のように設定することができる。この場合には、sinc関数と乗算するエコーレプリカは4点もしくは6点で済む。 In actual calculation, the sinc function needs to be cut off with a finite length. The range in which the sinc function is terminated can be set as in Expression (10) or Expression (11) based on the thinning interval Q (f). In this case, only 4 or 6 echo replicas are required for multiplication with the sinc function.
続いて、エコーレプリカ空間補間部300は、周波数f>L+1について、周波数fごとに、実数信号の高速フーリエ変換結果に関する対称性を用いて、式(12)のようにエコーレプリカY^n(f,j)を求める(S300)。ここで、conjは複素共役を取ることを表している。
Subsequently, the echo replica
逆FFT部400は、エコーレプリカY^n(f,j)を逆高速フーリエ変換により時間領域に変換し、上記式(3)のようにエコーレプリカy^n(j)を求める(S400)。
The
エコー消去部510は、時間領域でN個のマイクロホン31〜3Nから収音されるNチャネルの送話信号yn(j)とエコーレプリカy^n(j)から誤差信号en(j)を求める(S510)。
The echo canceling unit 510 receives an error signal e n (j) from the N-channel transmission signal y n (j) and the echo replica y ^ n (j) collected from the N
FFT部600は、誤差信号en(j)を高速フーリエ変換により周波数領域に変換し、上記式(4)のように誤差信号En(f,j)を求める(S600)。受信信号xm(k)をフレーム化するときフレーム分割数DをD≧2に設定した場合には、フレーム番号jで求めた誤差信号En(k,j)と、一つ前のフレーム番号j−1で求めた誤差信号En(k,j−1)を窓かけ処理を経て合成して出力する。図9はD=2の場合の合成処理を示す図である。具体的には、jフレーム目で求めた誤差信号en(k0+t,j)を式(13)のように表し、WHは長さ2L/Dのハニング窓を表すとして、合成後の誤差信号en’(k0+t)は、式(14)のように表すことができる。
The
エコーレプリカ生成部220nは、SetN(f)に含まれるnについてのみ、誤差信号En(f,j)と受話信号Xm(f,j)から、式(15)のように、フィルタ係数の修正量dHm,n,i(f,j)を求める。
The echo
次に、SetN(f)に含まれるnについてのみ、各チャネルのフィルタ係数Hm,n,i(f,j)を、式(16)のように更新する(S710)。 Next, for only n included in SetN (f), the filter coefficient H m, n, i (f, j) of each channel is updated as shown in Expression (16) (S710).
ここで、p(f,j)は、周波数成分ごとに、Nチャネル分の送話信号パワーの総和を、式(17)のように計算することで求めたものであり、修正量dHm,n,i(f,j)を補正している。 Here, p (f, j) is obtained by calculating the sum of transmission signal powers for N channels for each frequency component as shown in Expression (17), and the correction amount dH m, n, i (f, j) are corrected.
ここで、μは0〜1の値をとるステップサイズであり、δは分母が0になることを防止するための微小な正定数であり、βは0〜1の値をとるパワー計算で短時間平均をとるための平滑化定数である。 Here, μ is a step size that takes a value from 0 to 1, δ is a small positive constant for preventing the denominator from becoming 0, and β is a short power calculation that takes a value from 0 to 1. This is a smoothing constant for taking a time average.
上記から明らかなように、本実施例では、SetN(f)に含まれないnについては、エコーレプリカy^n(j)も修正量dHm,n,i(f,j)もフィルタ係数Hm,n,i(f,j)も計算されないため、マルチチャネルエコー消去処理全体での演算量を低減することができる。 As is apparent from the above, in this embodiment, for n not included in SetN (f), the echo replica y ^ n (j) and the correction amount dH m, n, i (f, j) are both filter coefficients H. Since m, n, i (f, j) are not calculated, the amount of calculation in the entire multi-channel echo cancellation process can be reduced.
[実施例1の実験結果]
本実施例の効果を確認するために、シミュレーションを行った。残響時間200msの部屋で、直線状スピーカアレー(33素子、間隔2cm)と直線状マイクロホンアレー(33素子、間隔2cm)を2m離して平行に配置し、スピーカ・マイク間の全エコー経路インパルス応答をシミュレータにより生成した。サンプリング周波数は16kHzに設定した。空間補間でエコーレプリカを求める際に、間引き間隔Q(f)に基づいて上記式(10)を使用した。
[Experimental result of Example 1]
In order to confirm the effect of this example, a simulation was performed. In a room with a reverberation time of 200 ms, a linear speaker array (33 elements, spacing 2 cm) and a linear microphone array (33 elements, spacing 2 cm) are placed 2 m apart in parallel, and the total echo path impulse response between the speaker and microphone is Generated by simulator. The sampling frequency was set to 16 kHz. When obtaining an echo replica by spatial interpolation, the above equation (10) was used based on the thinning interval Q (f).
受話信号は、別途ピンクノイズを音源として、33マイクロホンによる収音を模擬して生成した。図10に本実施例の構成によるエコー消去処理結果を示す。図10では33チャネル中の第1,5,11,17,19チャネルについて、送話信号と誤差信号のレベルを、受話信号を実線で、誤差信号を破線でプロットしている。実線と破線の差だけエコーが消去されていることを表している。いずれもエコーを良好に消去していることが分かる。 The reception signal was generated by simulating sound collection by 33 microphones using pink noise as a sound source separately. FIG. 10 shows the result of echo cancellation processing according to the configuration of this embodiment. In FIG. 10, for the first, fifth, eleventh, seventeenth, and nineteenth channels among the 33 channels, the levels of the transmission signal and the error signal are plotted with a solid line for the reception signal and a broken line with the error signal. This shows that the echo is erased by the difference between the solid line and the broken line. It can be seen that both echoes are erased well.
[変形例]
本実施例では、周波数領域のフィルタ係数Hm,n,i(f,j)が、どの周波数fでもIタップを持つ場合を説明している。本実施例の変形例として、フィルタ係数の高域部分でタップ数をIタップより減らすことが考えられる。例えば、人の声の成分が相対的に小さい4kHzを超える周波数ではタップ数を1とすることなどが考えられる。これにより、全体の演算量をさらに下げることが可能になる。
[Modification]
In the present embodiment, the case where the frequency domain filter coefficient H m, n, i (f, j) has I taps at any frequency f is described. As a modification of the present embodiment, it is conceivable to reduce the number of taps from the I tap in the high frequency part of the filter coefficient. For example, it is conceivable to set the number of taps to 1 at a frequency exceeding 4 kHz where the human voice component is relatively small. Thereby, it is possible to further reduce the total calculation amount.
演算量をさらに下げるために、適応フィルタに入力する受話信号についても低い周波数で間引きを行ってもよい。周波数fごとの受話信号の間引きパターンSetM(f)は、SetN(f)と同様に、周波数fの波長λ(f)=c/fから求められる。スピーカが等間隔に並んでいる場合、SMはスピーカ間隔を表すとして、SM×Q≦λ(f)/2を満たす最大の自然数Qを求め、間引き間隔QM(f)をQ以下に設定する。 In order to further reduce the amount of calculation, the received signal input to the adaptive filter may be thinned out at a low frequency. The reception signal thinning pattern SetM (f) for each frequency f is obtained from the wavelength λ (f) = c / f of the frequency f, similarly to SetN (f). When the speakers are arranged at equal intervals, S M represents the speaker interval, the maximum natural number Q satisfying S M × Q ≦ λ (f) / 2 is obtained, and the thinning interval Q M (f) is set to Q or less. Set.
図11、図12を参照して、本発明の実施例2に係るマルチチャネルエコー消去装置30の動作を詳細に説明する。図11は本発明の実施例2に係るマルチチャネルエコー消去装置30の構成を示すブロック図である。図12は本発明の実施例2に係るマルチチャネルエコー消去装置30の動作を示すフローチャートである。実施例2のマルチチャネルエコー消去装置30は、実施例1のマルチチャネルエコー消去装置20と比較して、エコーレプリカ生成部220nの替わりに、エコーレプリカ生成部230nを備える点が相違する。
With reference to FIGS. 11 and 12, the operation of the multi-channel
エコーレプリカ生成部230nは、周波数f≦L+1について、周波数fごとに、mがSetM(f)に含まれる受話信号Xm(f,j)を抽出する(S231)。続いて、エコーレプリカ生成部230nは、周波数f≦L+1について、周波数fごとに、SetN(f)に含まれるnについて、式(18)のように、受話信号Xm(f,j)とフィルタ係数Hm,n,i(f,j)を掛けることで、受話信号Xm(f,j)をフィルタ処理し、Mチャネル分加算する。これにより空間的に間引きされたエコーレプリカY^SetN(f)(f,j)を求める(S232)。
The echo
また、エコーレプリカ生成部230nは、mがSetM(f)に含まれ、かつnがSetN(f)に含まれる場合にのみ、誤差信号En(f,j)と受話信号Xm(f,j)から、上記式(15)のように、フィルタ係数の修正量dHm,n,i(f,j)を求める。次に、mがSetM(f)に含まれ、かつnがSetN(f)に含まれる場合にのみ、各チャネルのフィルタ係数Hm,n,i(f,j)を、上記式(16)のように更新する(S720)。ただし、修正量dHm,n,i(f,j)を補正するp(f,j)は、式(19)のように計算して求める。
Further, the echo
ここで、μは0〜1の値をとるステップサイズであり、δは分母が0になることを防止するための微小な正定数であり、βは0〜1の値をとるパワー計算で短時間平均をとるための平滑化定数である。 Here, μ is a step size that takes a value from 0 to 1, δ is a small positive constant for preventing the denominator from becoming 0, and β is a short power calculation that takes a value from 0 to 1. This is a smoothing constant for taking a time average.
上記から明らかなように、本実施例では、m∈SetM(f)かつn∈SetN(f)のm,nについてのみ、エコーレプリカY^n(f,j)と修正量dHm,n,i(f,j)が計算され、フィルタ係数Hm,n,i(f,j)が更新される。このため、上記以外のm,nについては、エコーレプリカY^n(f,j)も修正量dHm,n,i(f,j)もフィルタ係数Hm,n,i(f,j)も計算されないため、演算量をさらに低減することができる。 As is clear from the above, in this embodiment, the echo replica Y ^ n (f, j) and the correction amount dH m, n, m only for m and n of m∈SetM (f) and n∈SetN (f) . i (f, j) is calculated and the filter coefficients Hm, n, i (f, j) are updated. Therefore, for m and n other than the above, the echo replica Y ^ n (f, j) and the correction amount dH m, n, i (f, j) are both filter coefficients H m, n, i (f, j). Is not calculated, the amount of calculation can be further reduced.
なお、本実施例では、受話側の信号が間引かれているため、フィルタ係数と特定スピーカ・特定マイク間のエコー経路特性は1対1に対応しなくなる。 In this embodiment, since the signal on the receiving side is thinned out, the filter coefficient and the echo path characteristic between the specific speaker and the specific microphone do not correspond one-to-one.
[実施例2の実験結果]
本実施例の効果を確認するために、実施例1と同一の設定でシミュレーションを行った。図13に本実施例の構成によるエコー消去処理結果を示す。図13では33チャネル中の第1、5、11、17、19チャネルについて、送話信号と誤差信号のレベルを、受話信号を実線で、誤差信号を破線でプロットしている。実線と破線の差だけエコーが消去されていることを表している。いずれもエコーを良好に消去していることが分かる。
[Experimental result of Example 2]
In order to confirm the effect of this example, a simulation was performed with the same settings as in Example 1. FIG. 13 shows the result of echo cancellation processing according to the configuration of this embodiment. In FIG. 13, for the first, fifth, eleventh, seventeenth and nineteenth channels among the 33 channels, the levels of the transmission signal and error signal are plotted with the solid line for the reception signal and the broken line with the error signal. This shows that the echo is erased by the difference between the solid line and the broken line. It can be seen that both echoes are erased well.
図14、図15、図16を参照して、本発明の実施例3に係るマルチチャネルエコー消去装置40の動作を詳細に説明する。図14は本発明の実施例3に係るマルチチャネルエコー消去装置40の構成を示すブロック図である。図16は本発明の実施例3に係るマルチチャネルエコー消去装置40の動作を示すフローチャートである。実施例3のマルチチャネルエコー消去装置40は、実施例1のマルチチャネルエコー消去装置20と比較して、さらに帯域分割音声スイッチ部800を備える点が相違する。図15は帯域分割音声スイッチ部800の構成を示すブロック図である。受話信号および送話信号を帯域分割音声スイッチ部800で低域成分と高域成分に分け、高域成分のエコーを送受話状態に応じて減衰させることで制御し、低域成分のエコーを適応フィルタで消去して制御する。
The operation of the
帯域分割音声スイッチ部800は、送受話判定部810と、M個の受話側高域減衰部8201〜820Mと、N個の受話側高域減衰部8301〜830Nを備える。受話側高域減衰部820mは、ハイパスフィルタ(以下、HPFと略す。)8210と、ローパスフィルタ(以下、LPFと略す。)8220と、信号減衰器8230と、信号加算器8240を備える。送話側高域減衰部830nは、HPF8310と、LPF8320と、信号減衰器8330と、信号加算器8340を備える。
The band division
受話側高域減衰部820mは、受話信号にHPF8210とLPF8220を適用し、低域信号と高域信号に分割する。信号減衰器8230は、HPF8210の出力する高域信号を指定分減衰する。信号加算器8240は、信号減衰器8230の出力する信号とLPF8220の出力する信号を加算する。送話側高域減衰部820nは、送話信号にHPF8310とLPF8320を適用し、低域信号と高域信号に分割する。信号減衰器8330は、HPF8310の出力する高域信号を指定分減衰する。信号加算器8340は、信号減衰器8330の出力する信号と、LPF8320の出力する信号を加算する。
The reception-side high-
送受話判定部810は、LPF8220の出力するMチャネルの信号とLPF8320の出力するNチャネルの信号を用いて、送受話判定を行う(S810)。受話状態と判定したときには受話側高域信号のみを減衰させる(S820)。送話状態と判定したときには送話側高域信号のみを減衰させる(S830)。信号減衰器8220および信号減衰器8320に指定する減衰量は、残留エコーが気にならないレベルになるように、3〜40dBの範囲で設定する。
The transmission /
本実施例によると、エコーレプリカ生成部220mが高域成分に対応するフィルタ係数Hm,n(f,j)をエコーレプリカ生成に使用しないため、全体での演算量を低減することができる。ただし、フレーム間で異音が生じないことを保証するために受話信号ベクトル変換部110が受話信号をフレーム化する際に、フレーム分割数DをD≧2に設定する必要がある。
According to the present embodiment, since the echo
<プログラム、記録媒体>
上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
<Program, recording medium>
The various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。 Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
この発明によるマルチチャネルエコー消去装置は、複数チャネルの再生系と複数チャネルの収音系からなるマルチチャネル通信会議システムに利用することができる。 The multi-channel echo canceling apparatus according to the present invention can be used in a multi-channel communication conference system including a multi-channel reproduction system and a multi-channel sound pickup system.
10,20,30,40 マルチチャネルエコー消去装置
2 スピーカ
3 マイクロホン
100,110 受話信号ベクトル変換部
200,210,220,230 エコーレプリカ生成部
300 エコーレプリカ空間補間部
400 逆FFT部
500,510 エコー消去部
600 FFT部
800 帯域分割音声スイッチ部
810 送受話判定部
820 受話側高域減衰部
830 送話側高域減衰部
8210,8310 ハイパスフィルタ
8220,8320 ローパスフィルタ
8230,8330 信号減衰器
8240,8340 信号加算器
10, 20, 30, 40
Claims (9)
受話信号ベクトル変換部が、M(1≦m≦M)個のスピーカから出力されるMチャネルの受話信号xm(k)を、チャネルmごとに、周波数領域に変換して、受話信号Xm(f,j)を生成する受話信号ベクトル変換ステップと、
エコーレプリカ生成部が、前記受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnについて、タップ数がI(1≦i≦I、Iは1以上)のフィルタ係数Hm,n,i(f,j)を用いて、空間的に間引かれたエコーレプリカY^SetN(f)(f,j)を生成するエコーレプリカ生成ステップと、
エコーレプリカ空間補間部が、前記空間的に間引かれたエコーレプリカY^SetN(f)(f,j)から、周波数fごとに、空間補間を行い、エコーレプリカY^n(f,j)を生成するエコーレプリカ空間補間ステップと、
逆FFT部が、前記エコーレプリカY^n(f,j)を、時間領域に変換して、エコーレプリカy^n(j)を生成する逆FFTステップと、
エコー消去部が、直線上に等間隔に配置されたN個のマイクロホンから収音されるNチャネルの送話信号yn(j)と前記エコーレプリカy^n(j)から、誤差信号en(k)を生成するエコー消去ステップと、
FFT部が、前記誤差信号en(k)を、周波数領域に変換して、誤差信号En(f,j)を生成するFFTステップと、
前記エコーレプリカ生成部が、前記誤差信号En(f,j)と前記受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnについて、修正量dHm,n,i(f,j)を求め、当該修正量dHm,n,i(f,j)を用いて、前記フィルタ係数Hm,n,i(f,j)を更新するフィルタ係数更新ステップと、
を含むことを特徴とするマルチチャネルエコー消去方法。 k represents time, f represents frequency, j represents frame number, i represents adaptive filter tap number, m represents speaker number, n represents microphone number, and SetN (f) is Assuming a set of microphone numbers selected from N (3 ≦ n ≦ N) microphones arranged at equal intervals in a straight line so that the spatial sampling interval becomes wider as the frequency f is lower ,
The received signal vector conversion unit converts the M channel received signal x m (k) output from M (1 ≦ m ≦ M) speakers into the frequency domain for each channel m, and receives the received signal X m. A received signal vector conversion step of generating (f, j);
The echo replica generation unit determines that the number of taps is I (1 ≦ i ≦ I, I is 1 or more) for the microphone n included in the SetN (f) for each frequency f from the received signal X m (f, j). Echo replica generation step for generating spatially thinned echo replica Y ^ SetN (f) (f, j) using filter coefficients H m, n, i (f, j) of
The echo replica spatial interpolation unit performs spatial interpolation for each frequency f from the spatially thinned echo replica Y ^ SetN (f) (f, j), and echo replica Y ^ n (f, j). An echo replica spatial interpolation step to generate
An inverse FFT unit that converts the echo replica Y ^ n (f, j) into the time domain to generate an echo replica y ^ n (j);
Echo cancellation part, from the a transmission signal y n of the N channels picked up from the N microphones that are equally spaced on a straight line (j) echo replica y ^ n (j), the error signal e n An echo cancellation step to generate (k);
FFT section, the error signal e n (k), and FFT steps are transformed into the frequency domain to generate an error signal E n (f, j),
The echo replica generator generates a correction amount dH for the microphone n included in the SetN (f) for each frequency f from the error signal E n (f, j) and the received signal X m (f, j). m, n, i (f, j) is obtained, and the filter coefficient H m, n, i (f, j) is updated using the correction amount dH m, n, i (f, j). An update step;
A multi-channel echo cancellation method comprising:
受話信号ベクトル変換部が、直線上に等間隔に配置されたM個のスピーカから出力されるMチャネルの受話信号xm(k)を、チャネルmごとに、周波数領域に変換して、受話信号Xm(f,j)を生成する受話信号ベクトル変換ステップと、
エコーレプリカ生成部が、前記受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnと前記SetM(f)に含まれるスピーカmの組み合わせについて、タップ数がI(1≦i≦I、Iは1以上)のフィルタ係数Hm,n,i(f,j)を用いて、空間的に間引かれたエコーレプリカY^SetN(f)(f,j)を生成するエコーレプリカ生成ステップと、
エコーレプリカ空間補間部が、前記空間的に間引かれたエコーレプリカY^SetN(f)(f,j)から、周波数fごとに、空間補間を行い、エコーレプリカY^n(f,j)を生成するエコーレプリカ空間補間ステップと、
逆FFT部が、前記エコーレプリカY^n(f,j)を、時間領域に変換して、エコーレプリカy^n(j)を生成する逆FFTステップと、
エコー消去部が、直線上に等間隔に配置されたN個のマイクロホンから収音されるNチャネルの送話信号yn(j)と前記エコーレプリカy^n(j)から、誤差信号en(k)を生成するエコー消去ステップと、
FFT部が、前記誤差信号en(k)を、周波数領域に変換して、誤差信号En(f,j)を生成するFFTステップと、
前記エコーレプリカ生成部が、前記誤差信号En(f,j)と前記受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnと前記SetM(f)に含まれるスピーカmの組み合わせについて、修正量dHm,n,i(f,j)を求め、当該修正量dHm,n,i(f,j)を用いて、前記フィルタ係数Hm,n,i(f,j)を更新するフィルタ係数更新ステップと、
を含むことを特徴とするマルチチャネルエコー消去方法。 k represents time, f represents frequency, j represents a frame number, i represents an adaptive filter tap number, m represents a speaker number, and SetM (f) is linearly arranged at equal intervals. Represents a set of speaker numbers selected so that the spatial sampling interval becomes wider as the frequency f is lower from M (3 ≦ m ≦ M) speakers , n represents a microphone number, and SetN (f) is Assuming a set of microphone numbers selected from N (3 ≦ n ≦ N) microphones arranged at equal intervals in a straight line so that the spatial sampling interval becomes wider as the frequency f is lower ,
Received signal vector conversion unit, a received signal of M channels output from the M speakers arranged at equal intervals on a straight line x m (k), for each channel m, is converted to the frequency domain, the received signal A received signal vector conversion step of generating X m (f, j);
The echo replica generation unit determines the number of taps for the combination of the microphone n included in the SetN (f) and the speaker m included in the SetM (f) for each frequency f from the received signal X m (f, j). Is a spatially decimated echo replica Y ^ SetN (f) (f, j) using filter coefficients H m, n, i (f, j) with I (1 ≦ i ≦ I, I is 1 or more). an echo replica generation step for generating j);
The echo replica spatial interpolation unit performs spatial interpolation for each frequency f from the spatially thinned echo replica Y ^ SetN (f) (f, j), and echo replica Y ^ n (f, j). An echo replica spatial interpolation step to generate
An inverse FFT unit that converts the echo replica Y ^ n (f, j) into the time domain to generate an echo replica y ^ n (j);
Echo cancellation part, from the a transmission signal y n of the N channels picked up from the N microphones that are equally spaced on a straight line (j) echo replica y ^ n (j), the error signal e n An echo cancellation step to generate (k);
FFT section, the error signal e n (k), and FFT steps are transformed into the frequency domain to generate an error signal E n (f, j),
The echo replica generator generates the microphone n and the SetM (f) included in the SetN (f) for each frequency f from the error signal E n (f, j) and the received signal X m (f, j). ), The correction amount dH m, n, i (f, j) is obtained, and the filter coefficient H m, n, i (f, j) is obtained using the correction amount dH m, n, i (f, j) . a filter coefficient update step for updating n, i (f, j);
A multi-channel echo cancellation method comprising:
Sはマイクロホン間隔を表し、λ(f)は周波数fの波長を表すとして、
前記SetN(f)は、S×Q≦λ(f)/2を満たす最大の自然数Qを求め、当該Q以下である間引き間隔Q(f)を決定し、当該間引き間隔Q(f)に基づいて選択される
ことを特徴とするマルチチャネルエコー消去方法。 The multi-channel echo cancellation method according to claim 1 or 2,
S represents the microphone interval, and λ (f) represents the wavelength of frequency f.
The SetN (f) calculates the maximum natural number Q that satisfies S × Q ≦ λ (f) / 2, determines a thinning interval Q (f) that is equal to or less than the Q, and is based on the thinning interval Q (f). A multi-channel echo cancellation method characterized by being selected.
Sはマイクロホン間隔を表し、λ(f)は周波数fの波長を表すとして、
前記エコーレプリカ空間補間ステップは、周波数fごとに、S×Q≦λ(f)/2を満たす最大の自然数Qを求め、当該Q以下である間引き間隔Q(f)を決定し、
のように、空間補間を行う
ことを特徴とするマルチチャネルエコー消去方法。 The multi-channel echo cancellation method according to any one of claims 1 to 3,
S represents the microphone interval, and λ (f) represents the wavelength of frequency f.
The echo replica space interpolation step obtains a maximum natural number Q that satisfies S × Q ≦ λ (f) / 2 for each frequency f, and determines a thinning interval Q (f) that is equal to or less than Q.
A multi-channel echo cancellation method characterized by performing spatial interpolation as described above.
前記フィルタ係数Hm,n,i(f,j)は、周波数fごとに可変であり、所定の周波数を超える周波数に対応するフィルタ係数のタップ数が、所定の周波数以下の周波数に対応するフィルタ係数のタップ数よりも少なく設定されている
ことを特徴とするマルチチャネルエコー消去方法。 The multi-channel echo cancellation method according to any one of claims 1 to 4,
The filter coefficient H m, n, i (f, j) is variable for each frequency f, and the number of taps of the filter coefficient corresponding to a frequency exceeding a predetermined frequency corresponds to a frequency equal to or lower than the predetermined frequency. A multi-channel echo cancellation method characterized by being set to be smaller than the number of coefficient taps.
帯域分割音声スイッチ部が、前記受話信号xm(k)を、チャネルmごとに、高域成分を減衰する受話側高域減衰ステップと、
前記帯域分割音声スイッチ部が、前記誤差信号en(k)を、チャネルnごとに、高域成分を減衰する送話側高域減衰ステップと、
前記帯域分割音声スイッチ部が、前記受話信号xm(k)の低域成分と前記誤差信号en(k)の低域成分を用いて、送受話判定を行う送受話判定ステップを、さらに有し、
前記送受話判定ステップにおいて、受話状態と判定した場合には、前記受話側高域減衰ステップを実行し、送話状態と判定した場合には、前記送話側高域減衰ステップを実行する
ことを特徴とするマルチチャネルエコー消去方法。 A multi-channel echo cancellation method according to any of claims 1 to 5,
A band division voice switch unit receives the reception signal x m (k) for each channel m, and a reception side high frequency attenuation step for attenuating a high frequency component;
The band division voice switch unit transmits the error signal e n (k) for each channel n by a transmitting side high frequency attenuation step for attenuating a high frequency component;
The band division speech switch unit, using the low-frequency component of the received signal x the low-frequency component of m (k) the error signal e n (k), the handset determination step of performing handset judgment, further Yes And
In the transmission / reception determination step, when the reception state is determined, the reception side high frequency attenuation step is executed, and when the transmission state is determined, the transmission side high frequency attenuation step is executed. A characteristic multi-channel echo cancellation method.
M(1≦m≦M)個のスピーカと、
直線上に等間隔に配置されたN個のマイクロホンと、
前記スピーカから出力されるMチャネルの受話信号xm(k)を、チャネルmごとに、周波数領域に変換して、受話信号Xm(f,j)を生成する受話信号ベクトル変換部と、
前記受話信号Xm(f,j)が入力されると、当該受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnについて、タップ数がI(1≦i≦I、Iは1以上)のフィルタ係数Hm,n,i(f,j)を用いて、空間的に間引かれたエコーレプリカY^SetN(f)(f,j)を生成し、誤差信号En(f,j)が入力されると、当該誤差信号En(f,j)と前記受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnについて、修正量dHm,n,i(f,j)を求め、当該修正量dHm,n,i(f,j)を用いて、前記フィルタ係数Hm,n,i(f,j)を更新するエコーレプリカ生成部と、
前記空間的に間引かれたエコーレプリカY^SetN(f)(f,j)から、周波数fごとに、空間補間を行い、エコーレプリカY^n(f,j)を生成するエコーレプリカ空間補間部と、
前記エコーレプリカY^n(f,j)を、時間領域に変換して、エコーレプリカy^n(j)を生成する逆FFT部と、
前記マイクロホンから収音されるNチャネルの送話信号yn(j)と前記エコーレプリカy^n(j)から、誤差信号en(k)を生成するエコー消去部と、
前記誤差信号en(k)を、周波数領域に変換して、前記誤差信号En(f,j)を生成するFFT部と、
を備えることを特徴とするマルチチャネルエコー消去装置。 k represents time, f represents frequency, j represents frame number, i represents adaptive filter tap number, m represents speaker number, n represents microphone number, and SetN (f) is Assuming a set of microphone numbers selected from N (3 ≦ n ≦ N) microphones arranged at equal intervals in a straight line so that the spatial sampling interval becomes wider as the frequency f is lower ,
M (1 ≦ m ≦ M) speakers,
N microphones arranged at equal intervals on a straight line;
An M-channel received signal x m (k) output from the speaker is converted into a frequency domain for each channel m to generate a received signal X m (f, j);
When the received signal X m (f, j) is input, the number of taps of the microphone n included in the SetN (f) is I (() for each frequency f from the received signal X m (f, j). 1 ≦ i ≦ I, where I is 1 or more) using a filter coefficient H m, n, i (f, j), spatially thinned echo replica Y ^ SetN (f) (f, j) When the error signal E n (f, j) is input, the SetN (f) is generated for each frequency f from the error signal E n (f, j) and the received signal X m (f, j). ), The correction amount dH m, n, i (f, j) is obtained, and the filter coefficient H m, n, i is calculated using the correction amount dH m, n, i (f, j) . an echo replica generation unit for updating i (f, j);
Echo replica spatial interpolation for performing spatial interpolation for each frequency f from the spatially thinned echo replica Y ^ SetN (f) (f, j) to generate echo replica Y ^ n (f, j) And
An inverse FFT unit that converts the echo replica Y ^ n (f, j) into a time domain to generate an echo replica y ^ n (j);
From transmission signal y n of the N channels picked up (j) and the echo replica y ^ n (j) from the microphone, the echo cancellation unit which generates an error signal e n (k),
The error signal e n (k), and the FFT unit for converting the frequency domain, the error signal E n (f, j) to produce a,
A multi-channel echo canceling apparatus comprising:
直線上に等間隔に配置されたM個のスピーカと、
直線上に等間隔に配置されたN個のマイクロホンと、
前記スピーカから出力されるMチャネルの受話信号xm(k)を、チャネルmごとに、周波数領域に変換して、受話信号Xm(f,j)を生成する受話信号ベクトル変換部と、
前記受話信号Xm(f,j)が入力されると、当該受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnと前記SetM(f)に含まれるスピーカmの組み合わせについて、タップ数がI(1≦i≦I、Iは1以上)のフィルタ係数Hm,n,i(f,j)を用いて、空間的に間引かれたエコーレプリカY^SetN(f)(f,j)を生成し、誤差信号En(f,j)が入力されると、当該誤差信号En(f,j)と前記受話信号Xm(f,j)から、周波数fごとに、前記SetN(f)に含まれるマイクロホンnと前記SetM(f)に含まれるスピーカmの組み合わせについて、修正量dHm,n,i(f,j)を求め、当該修正量dHm,n,i(f,j)を用いて、前記フィルタ係数Hm,n,i(f,j)を更新するエコーレプリカ生成部と、
前記空間的に間引かれたエコーレプリカY^SetN(f)(f,j)から、周波数fごとに、空間補間を行い、エコーレプリカY^n(f,j)を生成するエコーレプリカ空間補間部と、
前記エコーレプリカY^n(f,j)を、時間領域に変換して、エコーレプリカy^n(j)を生成する逆FFT部と、
前記マイクロホンから収音されるNチャネルの送話信号yn(j)と前記エコーレプリカy^n(j)から、誤差信号en(k)を生成するエコー消去部と、
前記誤差信号en(k)を、周波数領域に変換して、前記誤差信号En(f,j)を生成するFFT部と、
を備えることを特徴とするマルチチャネルエコー消去装置。 k represents time, f represents frequency, j represents a frame number, i represents an adaptive filter tap number, m represents a speaker number, and SetM (f) is linearly arranged at equal intervals. Represents a set of speaker numbers selected so that the spatial sampling interval becomes wider as the frequency f is lower from M (3 ≦ m ≦ M) speakers , n represents a microphone number, and SetN (f) is Assuming a set of microphone numbers selected from N (3 ≦ n ≦ N) microphones arranged at equal intervals in a straight line so that the spatial sampling interval becomes wider as the frequency f is lower ,
M speakers arranged at equal intervals on a straight line;
N microphones arranged at equal intervals on a straight line;
An M-channel received signal x m (k) output from the speaker is converted into a frequency domain for each channel m to generate a received signal X m (f, j);
When the received signal X m (f, j) is input, the microphone n included in the SetN (f) and the SetM (f) are set for each frequency f from the received signal X m (f, j). Echoes spatially thinned using filter coefficients H m, n, i (f, j) with the number of taps I (1 ≦ i ≦ I, I is 1 or more) for combinations of speakers m included When the replica Y ^ SetN (f) (f, j) is generated and the error signal E n (f, j) is input, the error signal E n (f, j) and the received signal X m (f, j) j) for each frequency f, a correction amount dH m, n, i (f, j) is obtained for the combination of the microphone n included in the SetN (f) and the speaker m included in the SetM (f). using the correction amount dH m, n, i and (f, j), the full An echo replica generator for updating filter coefficients H m, n, i and (f, j),
Echo replica spatial interpolation for performing spatial interpolation for each frequency f from the spatially thinned echo replica Y ^ SetN (f) (f, j) to generate echo replica Y ^ n (f, j) And
An inverse FFT unit that converts the echo replica Y ^ n (f, j) into a time domain to generate an echo replica y ^ n (j);
From transmission signal y n of the N channels picked up (j) and the echo replica y ^ n (j) from the microphone, the echo cancellation unit which generates an error signal e n (k),
The error signal e n (k), and the FFT unit for converting the frequency domain, the error signal E n (f, j) to produce a,
A multi-channel echo canceling apparatus comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011261375A JP5698110B2 (en) | 2011-11-30 | 2011-11-30 | Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011261375A JP5698110B2 (en) | 2011-11-30 | 2011-11-30 | Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013115681A JP2013115681A (en) | 2013-06-10 |
JP5698110B2 true JP5698110B2 (en) | 2015-04-08 |
Family
ID=48710831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011261375A Expired - Fee Related JP5698110B2 (en) | 2011-11-30 | 2011-11-30 | Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5698110B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3654470B2 (en) * | 1996-09-13 | 2005-06-02 | 日本電信電話株式会社 | Echo canceling method for subband multi-channel audio communication conference |
JP2001094481A (en) * | 1999-09-24 | 2001-04-06 | Nippon Telegr & Teleph Corp <Ntt> | Echo canceler |
JP3673727B2 (en) * | 2000-11-22 | 2005-07-20 | 日本電信電話株式会社 | Reverberation elimination method, apparatus thereof, program thereof, and recording medium thereof |
JP2004349806A (en) * | 2003-05-20 | 2004-12-09 | Nippon Telegr & Teleph Corp <Ntt> | Multichannel acoustic echo canceling method, apparatus thereof, program thereof, and recording medium thereof |
-
2011
- 2011-11-30 JP JP2011261375A patent/JP5698110B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2013115681A (en) | 2013-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jot et al. | Digital signal processing issues in the context of binaural and transaural stereophony | |
JP5533248B2 (en) | Audio signal processing apparatus and audio signal processing method | |
CN102113346B (en) | Method for adaptive control and equalization of electroacoustic channels | |
JP4780119B2 (en) | Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device | |
US8611552B1 (en) | Direction-aware active noise cancellation system | |
EP3791565B1 (en) | Method and apparatus utilizing residual echo estimate information to derive secondary echo reduction parameters | |
JP6703525B2 (en) | Method and device for enhancing sound source | |
US20130129100A1 (en) | Processing audio signals | |
US20110026724A1 (en) | Active noise reduction method using perceptual masking | |
JP2018036666A (en) | Device and method for multi-channel direct/environment decomposition for voice signal processing | |
KR101934999B1 (en) | Apparatus for removing noise and method for performing thereof | |
JP6163468B2 (en) | Sound quality evaluation apparatus, sound quality evaluation method, and program | |
JP7352291B2 (en) | sound equipment | |
JP5611970B2 (en) | Converter and method for converting audio signals | |
JP2008526162A (en) | Audio system and method for acoustic echo cancellation | |
JP5762479B2 (en) | Voice switch device, voice switch method, and program thereof | |
JP2008141718A (en) | Acoustic echo canceller system | |
JP5937451B2 (en) | Echo canceling apparatus, echo canceling method and program | |
Zhuang et al. | A constrained optimal hear-through filter design approach for earphones | |
JP4116600B2 (en) | Sound collection method, sound collection device, sound collection program, and recording medium recording the same | |
JP5698110B2 (en) | Multi-channel echo cancellation method, multi-channel echo cancellation apparatus, and program | |
JP5826712B2 (en) | Multi-channel echo canceling apparatus, multi-channel echo canceling method, and program | |
JP5438629B2 (en) | Stereo echo canceling method, stereo echo canceling device, stereo echo canceling program | |
JP2016092562A (en) | Audio processing device and method, and program | |
JP5774062B2 (en) | Echo canceling apparatus, echo canceling method, and program thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141125 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150212 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5698110 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |