JP5405130B2 - Sound reproducing apparatus and sound reproducing method - Google Patents
Sound reproducing apparatus and sound reproducing method Download PDFInfo
- Publication number
- JP5405130B2 JP5405130B2 JP2009003880A JP2009003880A JP5405130B2 JP 5405130 B2 JP5405130 B2 JP 5405130B2 JP 2009003880 A JP2009003880 A JP 2009003880A JP 2009003880 A JP2009003880 A JP 2009003880A JP 5405130 B2 JP5405130 B2 JP 5405130B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- sound
- unit
- source direction
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、車室内などの雑音環境下で複数台のスピーカの音再生制御を行う音再生装置および音再生方法に関する。 The present invention relates to a sound reproduction device and a sound reproduction method for performing sound reproduction control of a plurality of speakers under a noisy environment such as a passenger compartment.
これまで複数のスピーカを用いて、高臨場感で音を再生する技術が広く検討されてきている。一例を挙げると、5.1chサラウンド再生が代表的な技術と言える。また、自動車の車室内のように雑音が大きい環境でも、十分な音量で音声を再生することが可能なように、雑音量をモニタリングして、それに合わせて、再生音量をコントロールするオートボリュームコントロール技術が検討されてきている(例えば、特許文献1参照)。 Hitherto, techniques for reproducing sound with a high sense of presence using a plurality of speakers have been widely studied. For example, 5.1ch surround playback is a typical technology. In addition, auto volume control technology that monitors the amount of noise and controls the playback volume accordingly, so that sound can be played at a sufficient volume even in noisy environments such as the interior of a car. Have been studied (see, for example, Patent Document 1).
さらに、複数のマイクロホンを用いた複数チャンネルのデジタルフィルタ処理により、所望の目的音以外の音を高精度に抑圧する技術が検討されてきている(例えば、非特許文献1参照)。この技術は、複数チャンネルのデジタルフィルタ処理により、所望の方向の音のみを歪みを生じさせることなく抽出することを目的とするものである。この音源分離技術を応用すれば、雑音量の高精度なモニタリングが可能である。 Furthermore, a technique for highly accurately suppressing sounds other than a desired target sound by using a plurality of channels of digital filter processing using a plurality of microphones has been studied (for example, see Non-Patent Document 1). This technique is intended to extract only sound in a desired direction without causing distortion by digital filter processing of a plurality of channels. By applying this sound source separation technique, it is possible to monitor the amount of noise with high accuracy.
しかしながら、従来のオートボリュームコントロール技術(特許文献1記載)では、ユーザ聴取位置から見た雑音源の方向と再生音をスピーカアレイで再生した際の音像定位方向が重なった場合に、音が聞き取りにくくなるという問題点があった。つまり、人間の聴覚プロセスには、両耳間到達時間差や振幅差の情報から到来方向ごとに音を聞き分ける機能が組み込まれていると考えられている。しかし、音の方向が重なると、そのような機能ではスピーカ再生音を聞き分けることができなくなってしまうためだと考えられる。 However, in the conventional auto volume control technology (described in Patent Document 1), when the direction of the noise source viewed from the user listening position and the sound image localization direction when the reproduced sound is reproduced by the speaker array overlap, it is difficult to hear the sound. There was a problem of becoming. In other words, it is considered that the human auditory process incorporates a function for listening to sounds for each direction of arrival based on information on arrival time differences between both ears and amplitude differences. However, if the sound directions overlap, it is considered that such a function makes it impossible to distinguish the speaker playback sound.
本発明は、このような問題点に鑑みてなされたものであり、雑音が存在する環境でも、所望音を聞きやすい音で聴取可能にできる音再生装置および音再生方法を提供することを課題とする。 The present invention has been made in view of such problems, and it is an object of the present invention to provide a sound reproducing device and a sound reproducing method capable of listening to a desired sound with an easy-to-hear sound even in an environment where noise exists. To do.
前記課題を解決するために、本発明による音再生装置は、例えば、複数のマイクロホンアレイを用いた音源分離処理により、マイクロホンアレイなどから見た相対的な音源方向を推定するとともに、推定した音源方向をユーザ位置から見た音源方向に変換する音源方向変換処理部を有する。そして、音再生装置は、推定した前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換する音源方向変換処理部を有する。さらに、音再生装置は、音源方向変換処理部などによって変換された音源方向を基に、再生音源以外の雑音源のユーザ聴取位置での音源方向を算出し、当該雑音源のユーザ聴取位置での音源方向と再生音源としてのスピーカアレイの音像定位方向とが異なるように音像定位方向を制御する出力係数設定部を有する、ことを特徴とする。 In order to solve the above-described problem, the sound reproducing device according to the present invention estimates the relative sound source direction viewed from the microphone array or the like by, for example, sound source separation processing using a plurality of microphone arrays, and the estimated sound source direction. Has a sound source direction conversion processing unit for converting the sound source direction from the user position. The sound reproducing device includes a sound source direction conversion processing unit that converts the sound source direction at the estimated position of the microphone array into the sound source direction at the user listening position. Furthermore, the sound reproduction device calculates the sound source direction at the user listening position of a noise source other than the reproduced sound source based on the sound source direction converted by the sound source direction conversion processing unit and the like, and at the user listening position of the noise source. It has an output coefficient setting unit for controlling the sound image localization direction so that the sound source direction and the sound image localization direction of the speaker array as a reproduction sound source are different.
本発明によれば、雑音が存在する環境でも、所望音を聞きやすい音で聴取可能である。 According to the present invention, it is possible to listen to a desired sound with a sound that is easy to hear even in an environment where noise exists.
以下、本発明を実施するための最良の形態(以下、「実施形態」という)について、添付した各図を参照し、詳細に説明する。 Hereinafter, the best mode for carrying out the present invention (hereinafter referred to as “embodiment”) will be described in detail with reference to the accompanying drawings.
図1は、本発明による第1実施形態の音再生装置1の適用例を示す説明図である。
図1を参照し、音再生装置1の概要を説明する。自動車10などの車室11内に複数のマイクロホン102を有するマイクロホンアレイ101を設置する。マイクロホンアレイ101で収録した音から雑音の到来方向を推定する。そして、スピーカ112によって再生される音が、ユーザ聴取位置で、雑音の到来方向と異なる方向に定位されるように、スピーカ112ごとにスピーカ出力係数を設定する。このような構成により、ユーザは、聞きやすい音でスピーカ再生音を聞くことが可能となる。
FIG. 1 is an explanatory diagram showing an application example of the
The outline of the
図2は、本発明による第1実施形態の音再生装置1を示すハードウェア構成図である。
マイクロホンアレイ101は、車室11内で音を収録し、収録した音を示すアナログ信号を出力する。
多チャンネルA/D変換機202は、このアナログ信号をマイクロホン102ごとにデジタル信号に変換する。
スピーカアレイ111は、所望の再生音を車室11内に放射する。
FIG. 2 is a hardware configuration diagram showing the
The
The multi-channel A /
The speaker array 111 radiates desired reproduction sound into the passenger compartment 11.
中央演算装置203は、変換されたデジタル信号に、デジタル信号処理を施す。具体的には、デジタル信号中に含まれる雑音成分を抽出し、雑音到来方向を推定する。そして、その雑音到来方向からスピーカ出力係数を制御する。信号処理プログラムは、不揮発性メモリ205に蓄えられていて、実行時に揮発性メモリ204にロードされ、展開される。またワークメモリなどプログラム実行に必要なメモリ領域は揮発性メモリ204内に確保される。また、マイクロホン102の配置などの情報は不揮発性メモリ205に蓄えられている。
中央演算装置203は、スピーカ出力係数を制御し、生成したデジタル信号(スピーカ出力信号)を出力する。
The
The
多チャンネルD/A変換機206は、スピーカ出力信号をアナログ信号に変換して、スピーカアレイ111の複数のスピーカ112ごとに出力する。
スピーカ112は、このアナログ信号によって鳴動し、音を空中に放射する。
The multi-channel D /
The
また、座席センサ208によって乗員/同乗者の存在(着席)を検出し、乗員/同乗者の発話の有無にかかわらず、乗員位置/同乗者位置を音源位置またはユーザ聴取位置とみなして、スピーカ出力係数を制御するような構成にしてもよい。具体的には、乗員/同乗者を雑音源とみなして、乗員方向/同乗者方向と異なる方向にスピーカ出力音が定位されるように制御してもよいし、乗員/同乗者を聴取者とみなして、乗員位置/同乗者位置でのスピーカ出力音の定位方向と雑音の到来方向とが異なるようにスピーカ出力音の係数を制御するような構成にしてもよい。後者の構成を採ることで、運転者のみならず他の乗員/同乗者にとっても所望の音を聞きやすい音場を形成することが可能となる。
Further, the presence / absence of the passenger / passenger is detected by the
図3は、本発明による第1実施形態のプログラム構成を示すブロック図である。
波形取り込み部301は、多チャンネルA/D変換機202(図2参照)を制御し、デジタル信号を取得する。
音響エコーキャンセラ307は、取得したデジタル信号に含まれるスピーカ出力に起因する成分(音響エコー成分)を除去する。音響エコーキャンセラ307の具体的な構成については後記する。音響エコーキャンセラ307は、マイクロホン素子ごとに動作する。音響エコー消去後の複数チャンネル信号は、音源分離部302に送られる。
FIG. 3 is a block diagram showing the program configuration of the first embodiment according to the present invention.
The
The
通常、車室11内には多数の音源が存在する。音源分離部302は、この多数の音源を音源ごとの信号に分離する。音源の分離は、音響エコーキャンセラ307の出力信号を一定時間分取得するたびに行う。分離したそれぞれの信号は、音源ごとに音源位置推定部303に送られて、それぞれの音源位置が推定される。推定した音源位置は、マイクロホンアレイ101の位置と音源位置の相対位置となる。本実施形態では、ユーザ聴取位置から音源までの相対位置が必要となるため、音源位置変換部304では、事前のユーザ聴取位置情報から、ユーザ聴取位置(ユーザ位置)から見た音源位置を算出する。
Usually, a large number of sound sources exist in the passenger compartment 11. The sound
図4は、音源位置変換処理の幾何学的なイメージを示す説明図である。
具体的には、図4に示すように、ユーザ位置とマイクロホンアレイ101(図1参照)の位置から求めることができるユーザ位置ベクトルV1をマイクロホンアレイ101から見た音源の推定音源位置ベクトルV2に足し合わせることで、ユーザ位置から見た変換後音源位置ベクトルV3を取得することが可能となる。なお、マイクロホンアレイ101の設置位置は固定位置とする。この場合、ユーザ位置ベクトルV1は、ユーザ位置が分かれば決まる。ユーザ位置は、「運転席12」にプリセットしてもよいし、座席センサ208(図2参照)が検知した乗員位置/同乗者位置の情報から決めてもよい。
FIG. 4 is an explanatory diagram showing a geometric image of the sound source position conversion process.
Specifically, as shown in FIG. 4, the user position vector V1 that can be obtained from the user position and the position of the microphone array 101 (see FIG. 1) is added to the estimated sound source position vector V2 of the sound source viewed from the
図3に戻り、ヒストグラム更新部305は、変換した音源位置の情報から、雑音の到来方向のヒストグラムP(θ)を生成する。ここで、θは、音源方位角とする。ヒストグラムは、P(θ,φ)といった形で、方位角θと仰角φの二次元ヒストグラムを生成してもよい。ここでi番目の分離信号の音源方向を方位角θi,仰角φiとする。雑音の到来があるごとに、到来した雑音のθi、φiに相当するヒストグラムP(θi,φi)に値 1を加算する。また、i番目の分離信号の平均パワーもしくはパワーの関数をP(θi,φi)に加えるような構成を採ってもよい。また、ヒストグラムは音源分離部302で一度処理するたびに初期化してもよいし(すなわち、P(θ,φ)=0(すべてのθ、φに対して)としてもよいし)、音源分離を一度行うたびに、P(θ,φ)←αP(θ,φ)(αは0以上1以下の定数)といったように忘却係数αを乗算することで、過去の情報をゆっくりと忘れる構成としてもよい。
Returning to FIG. 3, the
出力係数決定部306は、得られたヒストグラムP(θ,φ)の情報からスピーカ出力係数を決定する。ヒストグラムの値が大きいほど、雑音が大きい方向と考えられる。スピーカ出力係数は、得られたヒストグラムP(θ,φ)の値が大きい方向との方向の異なりが大きい方向にスピーカ出力音が定位されるように制御する。つまり、ヒストグラムP(θ,φ)の値が大きい方向とは、雑音が聞こえる頻度が大きく、雑音が大きいと見なせる方向であるから、本実施形態では、この雑音が大きいと見なせる方向を避けて、雑音が聞こえる方向とは異なる方向(典型的には、反対方向)から所望の音が聞こえるように、スピーカ出力音が定位するようにする。
The output
図5は、本実施形態で設定した出力係数を出力ソースに重畳して、スピーカ112から出力する構成を示したブロック図である。
本実施形態で設定された出力係数記憶部401は、不揮発性メモリ205または揮発性メモリ204上に確保される。出力ソース取得部403は、オーディオやハンズフリー通話の出力音などの原信号を取得する。そして、スピーカ出力部402は、出力するスピーカ112ごとに、出力係数記憶部401に蓄えられている出力係数を重畳して、出力を行う。出力係数は、単なる音量値でもよいし、FIR(Finite Impulse Response)フィルタまたは、短時間フーリエ変換により時間周波数領域に変換した後、周波数ごとに出力係数を設定し、時間周波数領域に戻して出力するような構成を採ってもよい。
FIG. 5 is a block diagram showing a configuration in which the output coefficient set in the present embodiment is superimposed on the output source and output from the
The output
図6は、図3の音源位置変換部304の詳細な構成を示すブロック図である。
音源位置推定部303が推定した各音源のマイクロホンアレイ101の位置からみた相対的な音源位置P=(x,y,z)T(肩字のTは、ベクトル・行列の転置であることを示す。)が、音源位置変換部304へ入力となる。
マイク位置データベース504には、マイクロホンアレイ101の車室11内における空間的位置p2(x2,y2,z2)Tが記載されているものとする。ユーザ位置抽出部502は、車室11内におけるユーザ聴取位置の空間的位置pu=(xu,yu,zu)Tを取得する。座席センサ208などにより検出した乗員/同乗者の位置からユーザ聴取位置を決めてもよいし、予めユーザ聴取位置を運転席12(図1参照)に固定するなどしてプリセットしておいてもよい。変換ベクトル生成部503では、ユーザ聴取位置puとマイクロホンアレイ101の空間的位置p2の差b=p2−puを計算する。変換ベクトル加算部505では推定したマイクロホンアレイ位置での音源位置Pにbを加算したP´=P+bを得る。P´は、ユーザ聴取位置から見た音源の相対的な位置となる。
FIG. 6 is a block diagram showing a detailed configuration of the sound source
Relative sound source position P = (x, y, z) T as seen from the position of the
It is assumed that the
このように(図4参照)、簡単なベクトル計算によってユーザ聴取位置での音源位置を知ることができる。音源位置変換処理は、音源分離処理を1度実行するごとに、音源分離部302が分離して出力する音源ごとに1回ずつ行ってもよいし、音源分離部302が、音源または周波数ごとに音を分離する場合、音源分離処理を1回行うごとに、音源または周波数ごとに1回ずつ音源位置変換処理を行うようにしてもよい。
In this way (see FIG. 4), the sound source position at the user listening position can be known by simple vector calculation. The sound source position conversion process may be performed once for each sound source separated and output by the sound
図7は、図3の出力係数決定部306の第1例を詳細に示すブロック図である。
出力係数決定部306は、音源位置変換部304(図3参照)により変換した音源ごとかつ周波数ごとの音源位置から、音源の相対的な方位角θまたは仰角値φを取り出す。これは音源位置(x,y,z)を極座標(rcosθcosφ,rsinθcosφ,sinφ)と見立てて、推定することができる。通常、車室11内では音源はすべて同一水平面上に存在すると仮定しても実用上問題がないと考えられるため、φ=0としてもよい。
FIG. 7 is a block diagram showing in detail a first example of the output
The output
方向行列計算部602は、抽出した音源ごとかつ周波数ごとの音源方向(θ)または(θ,φ)から、前記した方法で、音源方向ごとの頻度を示すヒストグラムP(θ)またはヒストグラムP(θ,φ)を生成する。
The direction
図8は、本発明の第1実施形態で生成されるヒストグラムP(θ)の一例である。
音源方向θごとに、音源の頻度PがヒストグラムP(θ)上に得られる。
FIG. 8 is an example of the histogram P (θ) generated in the first embodiment of the present invention.
For each sound source direction θ, the frequency P of the sound source is obtained on the histogram P (θ).
ここで、以後の説明で用いるステアリングベクトルを定義する。音源位置pに存在する周波数fの音が各マイクロホン102に到達するまでの位相の遅延量を要素に持つベクトルap(f)を、次の式(1)で定義する。
Here, a steering vector used in the following description is defined. A vector a p (f) whose element is a phase delay amount until the sound of the frequency f existing at the sound source position p reaches each
ここで、jは虚数単位を表すものとする。ここで、Mはマイクロホン102の数とする。
Here, j represents an imaginary unit. Here, M is the number of
人間の両耳を2つのマイクロホン102と見立てると、音源位置pから両耳に音が届くまでの位相の遅延量もap(f)で表すことができる。本実施形態においては、ap(f)のマイクロホン102間で共通の遅延量は特に意味をもたないため、ap(f)は必ずしも、音源位置からの遅延量として定義する必要はなく、基準のマイクロホン102からの遅延量として定義してもよい。本実施形態では、1番目のマイクロホン102を基準のマイクロホン102として遅延量Tp,m(f)を次の式(2)で定義する。tm(p)は音源位置pの音がm番目のマイクロホン102まで届くまでの時間とする。
If the human ears are regarded as two
人間の両耳のようにマイクロホン102が直線上に並んでいると仮定し、音源位置pがマイクロホン間隔に対して十分遠い距離に存在すると仮定すると、Tp,m(f)は、次の式(3)で近似することができる。
Assuming that the
ここで、dmはm番目のマイクロホン102と1番目のマイクロホン102の間の距離とする。cは音速であり、常温で340[m/s]程度となるため、通常この値に設定する。θは、マイクロホンアレイ101を構成する直線に対して直交する平面に対して、マイクロホンアレイ101と音源位置pを結んだ直線が成す角とする。これをマイクロホンアレイ101の位置から見た相対的な方位角とする。マイクロホンアレイ101が直線配置以外の場合は、Tp,m(f)はより複雑な形となるが、いずれにせよマイクロホンアレイ101の幾何学配置が既知であれば、単純な幾何学計算により求めることができる。本実施形態では、マイクロホンアレイ101の幾何学配置はあらかじめ不揮発性メモリ205(図2参照)に記憶されているとし、その情報を利用してステアリングベクトルを生成するものとする。
Here, d m is the distance between the m-
図7に戻り、方向行列計算部602は、ヒストグラムP(θ)またはヒストグラムP(θ,φ)を使って次の式(4)で定義されるマイクロホンアレイ101の位置での雑音共分散行列推定値Rn(f)を計算する。
Returning to FIG. 7, the direction
ここでJはヒストグラムの分割数とする。Jは各分割された格子として、θjは格子jの方位角、φjは格子jの仰角とする。nj(f)は格子jの位置に音源が存在すると仮定した時のユーザ聴取位置から見たステアリングベクトルとする。つまりRn(f)はヒストグラムの頻度が大きいところの影響が大きくなるように設定した行列となる。 Here, J is the number of histogram divisions. J is each divided lattice, θ j is the azimuth angle of the lattice j, and φ j is the elevation angle of the lattice j. n j (f) is a steering vector viewed from the user listening position when it is assumed that a sound source exists at the position of the grid j. That is, R n (f) is a matrix that is set so as to increase the influence of the histogram having a high frequency.
さらにH(f)を次の式(5)で定義する。 Further, H (f) is defined by the following equation (5).
ここで、Lはスピーカ素子数とする。hi(f)はi番目のスピーカ位置に音源があると仮定した時のユーザ聴取位置から見たステアリングベクトルとする。 Here, L is the number of speaker elements. h i (f) is a steering vector viewed from the user listening position when it is assumed that there is a sound source at the i-th speaker position.
H(f)とRn(f)を用いて、行列A(f)を、次の式(6)で求める。 Using H (f) and R n (f), a matrix A (f) is obtained by the following equation (6).
ユーザ聴取位置が複数存在する場合は、次の式(7)のようにユーザ聴取位置ごとに雑音共分散行列Ri,n(f)と、スピーカ112のステアリングベクトルからなる行列Hi(f)を用いてA(f)を構成してもよい。
When there are a plurality of user listening positions, a matrix H i (f) composed of a noise covariance matrix R i, n (f) and a steering vector of the
A(f)をこのような構成にすることで、複数の聴取位置で聞き取りやすいスピーカ出力音を得ることができる。 By configuring A (f) in this way, it is possible to obtain speaker output sound that is easy to hear at a plurality of listening positions.
固有値・ベクトル計算部603では、A(f)の最小固有値を与える固有ベクトルS(f)を求める。S(f)はスピーカ素子数分の要素数を持つ。ここで、S(f)の各要素を各スピーカ素子の伝達関数に重畳して、すべてのスピーカ112から同時に音を放射した場合、放射音の合成波面のステアリングベクトルはH(f)S(f)となる。H(f)S(f)は雑音のステアリングベクトルとの異なりが最大となるステアリングベクトルになる。
The eigenvalue /
最小コスト係数算出部604は、求めた周波数ごとのスピーカ出力係数S(f)をスピーカ(素子)112ごとに逆フーリエ変換して時間領域のスピーカ出力係数S(t)を求める。S(t)はFIRフィルタとみなせるため、S(t)をスピーカ112から出力する時間領域の音に畳みこむことで周波数ごとのステアリングベクトルがH(f)S(f)となる合成波面を得ることができる。またS(f)を得るために、次の式(8)で定義される雑音のステアリングベクトルとの異なりが最大となる音源位置pminを得た後、その次の式(9)でS(f)を求めてもよい。
The minimum cost
このようにして求めた合成波面のステアリングベクトルH(f)S(f)は定義される音源位置pminのステアリングベクトルと完全に一致するとともに、出力係数S(f)が最小となるようなものとなる。 The resultant wavefront steering vector H (f) S (f) thus obtained completely coincides with the steering vector at the defined sound source position p min and the output coefficient S (f) is minimized. It becomes.
図9は、推定した雑音の音源位置とユーザ位置及びユーザ位置から見たスピーカ合成波面の定位方向の一例を示す説明図である。
本発明では、このように合成波面の方向を雑音の音源位置との異なりが大きい方向に設定することが可能となる。
FIG. 9 is an explanatory diagram illustrating an example of the estimated noise source position, the user position, and the localization direction of the speaker composite wavefront viewed from the user position.
In the present invention, it is possible to set the direction of the combined wavefront in such a way that the difference from the noise source position is large.
図10は、出力係数決定部306の第2例を詳細に示すブロック図である。
この出力係数決定部306は、複数のスピーカ112の中から雑音とのステアリングベクトルの違いが最も大きいスピーカ(素子)112を選択する構成を有している。
FIG. 10 is a block diagram illustrating in detail a second example of the output
The output
この第2例の方向行列計算部702は、図7に示す第1例の方向行列計算部602と同様に、Rn(f)を計算する。
スピーカ内積計算部703は、次の式(10)で定義される各スピーカ(素子)112のステアリングベクトルとRn(f)との内積計算を行う。
The direction
The speaker inner
最小コスト係数算出部704は、次の式(11)により内積値が最小となるスピーカ(素子)112を選択する。
The minimum cost
図11は、変形例の方向行列計算部801を示すブロック図である。
この方向行列計算部801は、図10に示す方向行列計算部702に、同乗者位置推定部802および既知雑音位置803が付加された構成である。したがって、この方向行列計算部801は、音源分離により検出した音源の情報のみから雑音共分散行列Rn(f)を生成するのではなく、同乗者位置推定部802からの乗員/同乗者の情報やワイパー音、エンジン音など予め既知の音源の情報を表す既知雑音位置803も用いてRn(f)を生成する構成を有している。
FIG. 11 is a block diagram illustrating a directional
The directional
同乗者位置推定部802は、座席センサ208(図2参照)の情報から乗員/同乗者が座っている位置を検出し、その位置を仮想的な雑音音源位置とみなして、雑音の方向ヒストグラムP(θ)に追加する。追加する頻度値はあらかじめ定めた値を入力する。既知雑音位置803はワイパー音やエンジン音などの既知の音源位置をプリセットしておいたものを読み出し、雑音の方向ヒストグラムP(θ)に追加する。方向行列計算部801では、ユーザ聴取位置への変換後の雑音の音源位置と乗員位置/同乗者位置及び既知雑音位置の情報から作られた雑音の方向ヒストグラムP(θ)から雑音の共分散行列Rn(f)を生成し、Rn(f)を出力する。
The passenger
図12は、図3の音源分離部302を詳細に示すブロック図である。
各マイクロホン(素子)102で受音したデジタル音圧波形は、バッファリング部901に送られる。
バッファリング部901は、マイクロホン(素子)102ごとに例えば数秒間データが溜められ、データが溜まる度に後段処理にデータを出力する。
短時間周波数変換部902は、バッファリング部901の出力信号を例えば数十[ms]ごとに処理する。処理の単位をフレームと呼び、1フレームで処理するマイクロホン(素子)102ごとのポイント数をフレームサイズLframeと呼ぶ。1フレームごとに処理を開始する位置をフレームシフトLshift分ずつずらす。つまりτ番目のフレームで処理するデータはτ*Lshiftポイントからτ*Lshift+Lframeである。フレームごとにデータを短時間フーリエ変換により周波数領域に変換する。m番目のマイクロホン素子について、フレームτでの周波数f成分をxm(f,τ)と表記する。短時間フーリエ変換に先立って、直流成分カット、窓関数重畳などの処理を波形(信号)に施してもよい。窓関数としてはハミング窓やハニング窓、ブラックマン窓などが適用可能である。
FIG. 12 is a block diagram showing in detail the sound
The digital sound pressure waveform received by each microphone (element) 102 is sent to the
The
The short-time
フィルタ適応部903では音源分離に必要なフィルタを周波数fごとに適応処理する。
フィルタリング部904では、フィルタ適応部903で適応した音源分離フィルタを使って、フレームごと、周波数ごとに音を音源ごとに分離する。ここで、ベクトルX(f,τ)を[x1(f,τ),x2(f,τ),…,xM(f,τ)]Tで定義する。つまり、X(f,τ)は、フレームτ、周波数fのすべてのマイクロホン(素子)102の信号を要素に持つベクトルとなる。X(f,τ)から音源分離フィルタWを使って、次の式(12)で分離信号を得る。
A
The
ここでベクトルy(f,τ)の各要素は、各分離信号の時間τ、周波数f成分に相当する。フィルタリング部904が出力する分離信号は、パワー正規化部905で、時間τ、周波数fごとに、
ynorm(f,τ)←y(f,τ)/|y(f,τ)|
で正規化される。つまりynorm(f,τ)のパワーは0から1までの値をとる。棄却判定部906では、正規化したパワーのフレーム平均値が閾値より小さい音源・周波数成分については、背景雑音成分と見直して音源分離結果から外し、閾値以上の成分についてのみ音源・周波数成分を出力する。出力の際、音源ごとに短時間フーリエ逆変換をかけて、時間領域の波形に戻した後、出力してもよい。
Here, each element of the vector y (f, τ) corresponds to a time τ and a frequency f component of each separated signal. The separated signal output from the
y norm (f, τ) ← y (f, τ) / | y (f, τ) |
Normalized by. That is, the power of y norm (f, τ) takes a value from 0 to 1.
図13は、音源分離フィルタWの適応処理を示すフローチャートである。
音源分離フィルタWの値が十分収束したかどうかを判定する(収束判定;ステップS1001)。フィルタ更新回数が所定回数に達した場合収束したと判定してもよいし、後述する非線形共分散行列の非対角項のパワーが対角項のパワーに対してあらかじめ定める値以下になった場合に収束したと判定してもよい。
FIG. 13 is a flowchart showing an adaptation process of the sound source separation filter W.
It is determined whether or not the value of the sound source separation filter W has sufficiently converged (convergence determination; step S1001). When the filter update count reaches the predetermined number, it may be determined that the filter has converged, or when the power of the non-diagonal term of the nonlinear covariance matrix described later is equal to or less than a predetermined value with respect to the power of the diagonal term It may be determined that it has converged.
収束したと判定されれば(ステップS1001のYes)、処理を終了し、音源分離フィルタWを出力する。
収束したと判定されなければ(ステップS1001のNo)、次のステップへ進む。
If it determines with having converged (Yes of step S1001), a process will be complete | finished and the sound source separation filter W will be output.
If it is not determined that it has converged (No in step S1001), the process proceeds to the next step.
処理開始位置をバッファリング部901が取り込んだ波形の先頭にセットする。また後記するR(f)を0クリアする(初期化;ステップS1002)。
The processing start position is set at the beginning of the waveform fetched by the
処理開始位置がバッファリング部901が取り込んだ波形の終了位置以下かどうかを判定する(i≦length?判定、ステップS1003)。 It is determined whether or not the processing start position is equal to or less than the end position of the waveform captured by the buffering unit 901 (i ≦ length? Determination, step S1003).
処理開始位置が波形の終了位置に達していない場合(ステップS1003のNo)、フレームごと、周波数ごとのX(f,τ)をフィルタリング処理して、音源分離音y(f,τ)を得る(フィルタリング;ステップS1004)。 When the processing start position does not reach the end position of the waveform (No in step S1003), X (f, τ) for each frame and frequency is filtered to obtain a sound source separated sound y (f, τ) ( Filtering; step S1004).
ここで、得た音源分離音は、適応中の音源分離フィルタにより分離した波形であるため、分離が不十分であると考えられる。そこで、R(f)を、次の式(13)で更新する(共分散更新;ステップS1005)。 Here, since the obtained sound source separation sound is a waveform separated by the sound source separation filter being applied, it is considered that the separation is insufficient. Therefore, R (f) is updated by the following equation (13) (covariance update; step S1005).
ここでφ(x)は音源の確率分布の微分関数に相当する関数であり、次の式(14)で定義する。 Here, φ (x) is a function corresponding to the differential function of the probability distribution of the sound source and is defined by the following equation (14).
R(f)は非線形共分散行列と呼び、この非対角項が0に近づくほど、分離した各音源が独立になっていることを意味する。対角項は各音源の大きさに相当する。したがって、非対角項と対角項の比が重要になる。分離フィルタの収束判定ではこの比をチェックし、収束判定してもよい。 R (f) is called a nonlinear covariance matrix and means that the separated sound sources become independent as the off-diagonal term approaches zero. The diagonal term corresponds to the size of each sound source. Therefore, the ratio of off-diagonal terms and diagonal terms becomes important. In the convergence determination of the separation filter, this ratio may be checked to determine the convergence.
次に、波形の処理開始位置をフレームシフトLshift分加算する(変数更新;ステップS1007)。
そして、ステップS1003以降の処理を繰り返す。
Next, the processing start position of the waveform is added by the frame shift Lshift (variable update; step S1007).
Then, the processes after step S1003 are repeated.
波形処理開始地点がバッファリング部901で取り込んだ波形の終了地点に達している場合(ステップS1003のNo)、ステップS1006に処理を移す。 When the waveform processing start point has reached the end point of the waveform captured by the buffering unit 901 (No in step S1003), the process proceeds to step S1006.
次の式(15)で分離フィルタを更新する(フィルタ更新;ステップS1006)。 The separation filter is updated by the following equation (15) (filter update; step S1006).
ηはフィルタ更新速度を制御するための変数であり、大きいほどフィルタ収束速度は上がるが、フィルタが発散する可能性が大きくなる。小さいほどフィルタ収束速度は遅いが、フィルタが発散する可能性は低くなる。
そして、ステップS1001以降の処理を繰り返す。
η is a variable for controlling the filter update rate. The larger the value, the higher the filter convergence rate, but the greater the possibility that the filter will diverge. The smaller the value is, the slower the filter convergence speed is, but the possibility that the filter diverges becomes lower.
And the process after step S1001 is repeated.
図14は、図3の音源位置推定部303を詳細に示すブロック図である。
音源分離部302(図3参照)が分離した分離フィルタの逆行列は音源ごとのステアリングベクトルから構成される行列であることが知られている。
逆行列計算部1102は、分離フィルタの逆行列の第i列w(f,τ)−1 iを抽出する。以降のブロックはフレームごと、周波数ごとに実行される。マイクロホンアレイ101は直線配置とする。本実施形態における音源位置推定部303は、マイクロホンアレイ101を構成するマイクロホン(素子)102を2分割する。分割後のマイクロホンアレイ101をサブアレイと呼ぶ。それぞれのサブアレイで音源方向を推定した後、三角測量法により、その音源方向の交点をとることで、方向と距離を知ることができる。
FIG. 14 is a block diagram showing in detail the sound source
It is known that the inverse matrix of the separation filter separated by the sound source separation unit 302 (see FIG. 3) is a matrix composed of steering vectors for each sound source.
The inverse
2分割したサブアレイで音源方向を推定するので、1つのサブアレイ分割部1103ごとに2つの方向推定部1104を具備し、2つの方向推定部1104の推定結果によって、1つの交点推定部1105は、ひとつの交点を推定することとなる。
Since the sound source direction is estimated using the subarray divided into two, each
分離フィルタの逆行列の第i列は、サブアレイごとに、次の式(16)のように分割される。 The i-th column of the inverse matrix of the separation filter is divided as shown in the following Expression (16) for each subarray.
また音源位置pに音源があると仮定した時のステアリングベクトルも、次の式(17)のようにサブアレイごとに2分割される。 Further, the steering vector when it is assumed that there is a sound source at the sound source position p is also divided into two for each subarray as shown in the following equation (17).
方向推定部1104は、各サブアレイごとに、次の式(18)及び式(19)に基づき、音源方向^θi,1(f,τ)及び音源方向^θi,2(f,τ)を推定する。
The
交点推定部1105は、各サブアレイの中心位置から見て推定した音源方向に音源が存在すると考え、三角測量により音源方向と距離を推定する。各サブアレイの中心位置間の距離は予め既知であると仮定できるため、三角測量により音源方向と距離の推定は容易に実行可能である。
The intersection
ヒストグラム推定部1106は、周波数ごとに求めた音源方向と距離のヒストグラムを推定し、最もヒストグラムの頻度が大きい音源方向と距離をその音源の方向と距離であると判断し、頻度が大きい音源方向と距離を出力する。
The
図15は、図3の音響エコーキャンセラ307を詳細に示すブロック図である。
スピーカ出力音は空間を伝播し、マイクロホンアレイ101で受音される。本実施形態では、入力音は一義的に雑音であると判定するため、音響エコーキャンセラ307が存在しない場合、マイクロホンアレイ101で受音されたスピーカ出力音は雑音と判断される。したがって、音響エコーキャンセラ307が存在しない場合、スピーカ出力係数を設定する際に、以前のスピーカ出力係数との異なりが大きくなるようにスピーカ出力係数を設定することになり、スピーカ出力係数が安定せず音響出力の定位方向が時々刻々不安定に変化してしまうという問題が起こる。この問題を避けるために、マイクロホンアレイ101で受音されたスピーカ出力音中に含まれるスピーカ出力成分をあらかじめ除去する必要がある。
FIG. 15 is a block diagram showing in detail the
The speaker output sound propagates through the space and is received by the
参照信号取り込み部1501ではスピーカ112からの出力音源信号u(t)を取得する。各スピーカ出力信号はスピーカ112ごとに異なる出力係数Sm(t)を重畳される。出力係数重畳部1503ではu(t)にSm(t)を次の式(20)で畳みこむ。
The reference
畳み込み後の信号をum(t)とする。ここでum(t)は後段のエコー量推定フィルタと同じ長さを持つベクトルとし、畳み込み後の信号が時間という観点で新しいものから順番に並んでいるベクトルとする。um(t)をマイクロホンmの音響エコーキャンセラ307の参照信号として使用する。
The signal after convolution is defined as u m (t). Here, u m (t) is a vector having the same length as that of the subsequent echo amount estimation filter, and is a vector in which signals after convolution are arranged in order from the newest in terms of time. u m (t) is used as a reference signal of the
入力信号バッファリング部1502は、入力信号を所定時間分バッファリングし、後段へ出力する。
The input
フィルタリング部1504は、参照信号にエコー量推定フィルタgmを畳みこむ。
エコー消去部1506は、推定したエコー量をマイクロホン入力信号xm(t)から引くことで、エコー消去後の信号em(t)を次の式(21)のように得る。
The
Echo canceling unit 1506, by subtracting the estimated echo value from the microphone input signal x m (t), obtained signal after echo cancellation e m (t), as in the following equation (21).
フィルタ更新部1505は、エコー消去後の信号を0に近づけるようにエコー量推定フィルタgmを次の式(22)に定義されるようにして更新する。
The
ここでμはフィルタ更新係数で0から1までの値をとる。エコー消去部1506で出力したエコー消去後の信号を音響エコーキャンセラ307による処理済の出力信号として出力する。
Here, μ is a filter update coefficient and takes a value from 0 to 1. The signal after echo cancellation output from the echo cancellation unit 1506 is output as an output signal processed by the
図16は、本発明による第1実施形態のソフトウェアブロックとハードウェアとの関連性を示す説明図である。
複数のマイクロホン102から構成されるマイクロホンアレイ101で取り込んだアナログ音圧値は、A/D変換装置1602内に配置されるA/D変換処理部1602aによりデジタル音圧値に変換される。
変換されたデジタル音圧値は、中央演算装置203に送られて各種デジタル信号処理を施される。波形取り込み部1603a(図3の波形取り込み部301に対応)はデジタル音圧波形を取り込んでバッファリングする。
音響エコーキャンセラ1603b(図3の音響エコーキャンセラ307に対応)は取り込んだデジタル音圧波形中のスピーカ出力信号成分を消去する。
エコー消去後の信号は、音源分離部1603d(図3の音源分離部302に対応)に送られ、音源ごとに分離される。
音源位置推定部1603e(図3の音源位置推定部303に対応)は、音源ごとの音源位置を推定する。推定した音源位置はマイクロホンアレイ位置から見た音源位置となる。
音源位置変換部1603f(図3の音源位置変換部304に対応)は、マイクロホンアレイ位置から見た音源位置をユーザ聴取位置から見た音源方向に変換する。
出力係数決定部1603gは、ユーザ聴取位置から見た音源方向とスピーカ出力音の合成波面のユーザ聴取位置での音源方向の異なりが最大となるようにスピーカ出力係数を決定する。
音声再生部1603cは、決定したスピーカ112ごとの出力係数を出力音に畳み込む。ここまでのデジタル信号処理で必要なワークメモリ及びマイク配置等の事前情報は不揮発性メモリ205、揮発性メモリ204(図2参照)に記憶される。
D/A変換装置1604内に配置されるD/A変換処理部1604aは、音声再生部1603cが出力するデジタル信号をアナログ信号に変換する。
このアナログ信号は複数のスピーカ112からなるスピーカアレイ111に送られ、各スピーカ112から音響信号として出力され空中に放射される。
FIG. 16 is an explanatory diagram showing the relationship between software blocks and hardware according to the first embodiment of the present invention.
An analog sound pressure value captured by the
The converted digital sound pressure value is sent to the
The
The signal after echo cancellation is sent to a sound source separation unit 1603d (corresponding to the sound
A sound source
A sound
The output coefficient determination unit 1603g determines the speaker output coefficient so that the difference between the sound source direction viewed from the user listening position and the sound source direction at the user listening position on the synthesized wavefront of the speaker output sound is maximized.
The audio reproduction unit 1603c convolves the determined output coefficient for each
A D / A
The analog signal is sent to a speaker array 111 including a plurality of
図17は、本実施形態において音楽などのオーディオ出力音の出力方法を制御する構成を示すブロック図である。
スピーカ出力係数決定部1701は、前記したように、スピーカ合成波面のユーザ聴取位置での音源方向と雑音方向との異なりが最大となるようにスピーカ出力係数を決定する。
FIG. 17 is a block diagram showing a configuration for controlling an output method of audio output sound such as music in the present embodiment.
As described above, the speaker output coefficient determination unit 1701 determines the speaker output coefficient so that the difference between the sound source direction and the noise direction at the user listening position of the speaker composite wavefront is maximized.
オーディオソース取得部1702では、コンパクトディスクプレーヤなどの再生機器から再生音を取得する。オーディオ再生1703では、取得した再生音にスピーカ112ごとの出力係数を重畳した後、各スピーカ112から出力し、空中に放射する。また出力係数を雑音方向が変化するたびに、常に変化させると、かえって聞き取りにくい音になってしまう可能性がある。少なくとも同一ソース、例えば同じ音楽の曲を流している間は出力係数は変えないことが望まれる。
The audio
図18は、出力係数決定タイミングを決める処理を示すフローチャートである。
まず、出力音のソースが変更されたかどうかを判定する(ソース変更判定;ステップS2001)。これは、音楽の場合は再生曲が終了したかどうかをオーディオ機器に問い合わせることで実現可能である。
FIG. 18 is a flowchart showing a process for determining the output coefficient determination timing.
First, it is determined whether or not the source of the output sound has been changed (source change determination; step S2001). In the case of music, this can be realized by inquiring of the audio device whether or not the reproduced music has been completed.
ソースが変更されている場合(ステップS2001のYes)、スピーカ出力係数を変更し(出力係数変更;ステップS2002)、次のステップ(ステップS2003)へ進む。
なお、出力係数変更(ステップS2002)では、更新したヒストグラムからスピーカ出力係数を決定する。
If the source has been changed (Yes in step S2001), the speaker output coefficient is changed (output coefficient change; step S2002), and the process proceeds to the next step (step S2003).
In the output coefficient change (step S2002), the speaker output coefficient is determined from the updated histogram.
ソースが変更されていない場合(ステップS2001のNo)、および出力係数を変更した後は、次の時間の波形を取り込む(波形取り込み;ステップS2003)。 If the source has not been changed (No in step S2001), and after changing the output coefficient, the waveform of the next time is captured (waveform capture; step S2003).
取り込んだ波形は音響エコーキャンセラ307に送られ、音響エコー成分が消去される(ステップS2004)。
次に、音源ごとに分離される(音源分離;ステップS2005)。
そして、音源ごとのマイクロホン位置での音源位置が推定される(音源位置変換推定;ステップS2006)。
そして、ユーザ聴取位置での音源方向が算出される(音源位置変換;ステップS2007)。
そして、ユーザ聴取位置での音源方向のヒストグラムを更新する(ヒストグラム更新;ステップS2008)。
そして、再生終了か否かを判断する(ステップS2009)。再生終了の場合(ステップS2009のYes)、処理を終了する。
再生終了でない場合(ステップS2009のNo)、ステップS2001以降の処理を繰り返す。
The acquired waveform is sent to the
Next, the sound sources are separated (sound source separation; step S2005).
Then, the sound source position at the microphone position for each sound source is estimated (sound source position conversion estimation; step S2006).
Then, the sound source direction at the user listening position is calculated (sound source position conversion; step S2007).
Then, the histogram of the sound source direction at the user listening position is updated (histogram update; step S2008).
Then, it is determined whether or not the reproduction is finished (step S2009). If the reproduction has ended (Yes in step S2009), the process ends.
If the reproduction is not finished (No in step S2009), the processes in and after step S2001 are repeated.
図19は、出力係数設定タイミングとオーディオソース再生タイミングの一例を示したタイミングチャートである。
雑音方向はθ1からθ2に変化するものとする。スピーカ出力係数を常時更新する場合、雑音の方向が変化したタイミングでスピーカ出力係数が変化することになるが、この例の場合、ソース(2)再生中に出力係数が変化することになり、ユーザにとって聞き取りにくい音となる。本例に示すように、ソース(2)とソース(3)のソースが変わるタイミングで出力係数を変化させる構成を取ることで、ユーザに与える不快感を軽減することが可能となる。5.1chサラウンド音楽など一つのソースに複数の音源が含まれている場合は、スピーカ出力音の合成波面の音源方向が雑音の音源方向との異なりが大きくなるものから順番に音源数分だけスピーカ出力係数を選択し、それぞれの音源に重畳するような構成を取ってもよい。
FIG. 19 is a timing chart showing an example of output coefficient setting timing and audio source playback timing.
It is assumed that the noise direction changes from θ1 to θ2. When the speaker output coefficient is constantly updated, the speaker output coefficient changes at the timing when the noise direction changes. In this example, the output coefficient changes during playback of the source (2), and the user Sounds that are hard to hear. As shown in this example, by adopting a configuration in which the output coefficient is changed at the timing when the sources (2) and (3) are changed, it is possible to reduce discomfort given to the user. If multiple sources are included in a single source such as 5.1ch surround music, the speaker output is output by the number of sound sources in order starting from the difference in the sound source direction of the synthesized wave front of the speaker output sound from the noise source direction. A configuration may be adopted in which a coefficient is selected and superimposed on each sound source.
図20は、本発明による第2実施形態の音再生装置1bを示すハードウェア構成図である。
図20に示す音再生装置1bは、車室11内でのハンズフリー通話に応用する際のハードウェア構成を示すものであって、図2で示した構成に加えて、携帯電話1801をハードウェアとして加えたものである。
FIG. 20 is a hardware configuration diagram showing the sound reproducing device 1b according to the second embodiment of the present invention.
A sound reproducing device 1b shown in FIG. 20 shows a hardware configuration when applied to a hands-free call in the passenger compartment 11, and in addition to the configuration shown in FIG. Is added as
中央演算装置203で取得した車室11内のデジタル音圧データは携帯電話1801に送られる。
携帯電話1801は電話網を通してデジタル音圧データを通話相手に送信する。また電話網を通して通話相手の音声が送られてきた音を、中央演算装置203内で計算したスピーカごとの出力係数を重畳した後、多チャンネルD/A変換機206に送りアナログ信号に変換する。
アナログ信号はスピーカアレイ111に送られ各スピーカ112から出力されて、空中に放射される。
ハンズフリー通話の構成においては、ユーザ聴取位置から音が放射される可能性がある。そこで、本実施形態のスピーカ出力係数決定部1701においては、音源分離後の各音源の信号のうち音源位置がユーザ聴取位置近傍となる音源については棄却し雑音とみなさないという構成を取ってもよい。また、音源分離後のユーザ聴取位置近傍の音源を携帯電話1801に送信するような構成を取ってもよい。このような構成を取ることで、雑音が存在する車室11内でも雑音の少ないクリアな音を通話相手に送ることが可能となる。
Digital sound pressure data in the passenger compartment 11 acquired by the
The cellular phone 1801 transmits digital sound pressure data to the other party through the telephone network. Further, the sound transmitted from the other party through the telephone network is superimposed on the output coefficient for each speaker calculated in the
The analog signal is sent to the speaker array 111, output from each
In a hands-free call configuration, sound may be emitted from the user listening position. Therefore, the speaker output coefficient determination unit 1701 of the present embodiment may be configured such that a sound source whose sound source position is in the vicinity of the user listening position among the signals of each sound source after sound source separation is rejected and not regarded as noise. . Further, a configuration may be adopted in which a sound source near the user listening position after sound source separation is transmitted to the mobile phone 1801. By adopting such a configuration, it becomes possible to send a clear sound with little noise to the other party even in the passenger compartment 11 where the noise exists.
図21は、本発明によるユーザ聴取位置での音源位置変換処理を使って、仮想的な音源位置における音場を再現する音場再現システムのソフトウェア構成を示すブロック図である。
波形取り込み部301で取り込んだ複数チャンネルのデジタル波形は、音響エコーキャンセラ307に送られ、スピーカ出力音の成分が除去される。
音源分離部302は、除去後の波形(信号)を音源ごとに分離する。
音源位置推定部303は、分離した音源ごとにマイクロホンアレイ101の位置での音源位置を推定する。
音源位置変換部304は、仮想的なユーザ聴取位置での音源位置に変換する。
話者ボリューム決定部1906は、音源分離部302で分離した出力信号に仮想的なユーザ聴取位置から見た音源のステアリングベクトルを重畳する。
すべての音源に対して同様な処理を繰り返した後、波形再結合部1907は、マイクロホン(素子)102ごとに音源ごとの波形を統合して出力する。
FIG. 21 is a block diagram showing a software configuration of a sound field reproduction system that reproduces a sound field at a virtual sound source position using the sound source position conversion process at the user listening position according to the present invention.
The digital waveforms of a plurality of channels captured by the
The sound
The sound source
The sound source
The speaker
After repeating the same processing for all sound sources, the
1 音再生装置(第1実施形態)
1b 音再生装置(第2実施形態)
10 自動車
11 車室
12 運転席
101 マイクロホンアレイ
102 マイクロホン
111 スピーカアレイ
112 スピーカ
202 多チャンネルA/D変換機
203 中央演算装置
204 揮発性メモリ
205 不揮発性メモリ
206 多チャンネルD/A変換機
208 座席センサ
301 波形取り込み部
302 音源分離部
303 音源位置推定部
304 音源位置変換部
305 ヒストグラム更新部
306 出力係数決定部
307 音響エコーキャンセラ
401 出力係数記憶部
402 スピーカ出力部
403 出力ソース取得部
502 ユーザ位置抽出部
503 変換ベクトル生成部
504 マイク位置データベース
505 変換ベクトル加算部
602 方向行列計算部
603 固有値・ベクトル計算部
604 最小コスト係数算出部
702 方向行列計算部
703 スピーカ内積計算部
704 最小コスト係数算出部
801 方向行列計算部
802 同乗者位置推定部
803 既知雑音位置
901 バッファリング部
902 短時間周波数変換部
903 フィルタ適応部
904 フィルタリング部
905 パワー正規化部
906 棄却判定部
1102 逆行列計算部
1103 サブアレイ分割部
1104 方向推定部
1105 交点推定部
1106 ヒストグラム推定部
1501 参照信号取り込み部
1503 出力係数重畳部
1504 フィルタリング部
1505 フィルタ更新部
1506 エコー消去部
1602 A/D変換装置
1604 D/A変換装置
1701 スピーカ出力係数決定部
1702 オーディオソース取得部
1703 オーディオ再生
1801 携帯電話
1906 話者ボリューム決定部
1907 波形再結合部
1 sound reproduction device (first embodiment)
1b Sound reproduction device (second embodiment)
DESCRIPTION OF SYMBOLS 10 Car 11 Car compartment 12 Driver's seat 101 Microphone array 102 Microphone 111 Speaker array 112 Speaker 202 Multi-channel A / D converter 203 Central processing unit 204 Volatile memory 205 Non-volatile memory 206 Multi-channel D / A converter 208 Seat sensor 301 Waveform acquisition unit 302 Sound source separation unit 303 Sound source position estimation unit 304 Sound source position conversion unit 305 Histogram update unit 306 Output coefficient determination unit 307 Acoustic echo canceller 401 Output coefficient storage unit 402 Speaker output unit 403 Output source acquisition unit 502 User position extraction unit 503 Conversion vector generation unit 504 Microphone position database 505 Conversion vector addition unit 602 Direction matrix calculation unit 603 Eigenvalue / vector calculation unit 604 Minimum cost coefficient calculation unit 702 Direction Matrix calculation unit 703 Speaker inner product calculation unit 704 Minimum cost coefficient calculation unit 801 Direction matrix calculation unit 802 Passenger position estimation unit 803 Known noise position 901 Buffering unit 902 Short-time frequency conversion unit 903 Filter adaptation unit 904 Filtering unit 905 Power normalization Unit 906 rejection determination unit 1102 inverse matrix calculation unit 1103 subarray division unit 1104 direction estimation unit 1105 intersection estimation unit 1106 histogram estimation unit 1501 reference signal capturing unit 1503 output coefficient superposition unit 1504 filtering unit 1505 filter update unit 1506 echo cancellation unit 1602 A / D conversion device 1604 D / A conversion device 1701 Speaker output coefficient determination unit 1702 Audio source acquisition unit 1703 Audio playback 1801 Cellular phone 1906 Speaker volume Tough 1907 waveform recombination part
Claims (6)
複数のマイクロホンからなるマイクロホンアレイの位置での音源方向を推定する音源方向推定部と、
推定した前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換する音源方向変換部と、
前記変換した音源方向を基に、前記再生音源以外の雑音源の前記ユーザ聴取位置での音源方向を算出し、当該雑音源の前記ユーザ聴取位置での音源方向と前記複数のスピーカから音を放射した際の音像定位方向が異なるように前記複数のスピーカそれぞれの出力係数を決定する出力係数決定部と、
を有することを特徴とする音再生装置。 A sound reproduction device including a plurality of speakers as a reproduction sound source ,
A sound source direction estimation unit for estimating a sound source direction at a position of a microphone array including a plurality of microphones ;
A sound source direction conversion unit that converts the sound source direction at the estimated position of the microphone array into the sound source direction at the user listening position;
Based on the converted sound source direction , a sound source direction at the user listening position of a noise source other than the reproduction sound source is calculated, and sound is emitted from the sound source direction of the noise source at the user listening position and the plurality of speakers. An output coefficient determination unit that determines the output coefficient of each of the plurality of speakers so that the sound image localization direction at the time is different,
A sound reproducing device comprising:
前記出力係数決定部は、前記座席センサによって検出した乗員位置に前記雑音源が存在すると見なして演算を行うことを特徴とする請求項1に記載の音再生装置。 Equipped with a seat sensor to detect occupants,
The output coefficient determination unit, the sound reproducing apparatus according to claim 1, characterized in that the operation is regarded as the noise source is present in the passenger position detected by the seat sensor.
前記出力係数決定部は、前記座席センサによって検出した乗員位置が前記ユーザ聴取位置であると見なして演算を行うことを特徴とする請求項1に記載の音再生装置。 Equipped with a seat sensor to detect occupants,
The output coefficient determination unit, the sound reproducing apparatus according to claim 1, an occupant position detected by the seat sensor and performing the operation is regarded as the a user listening position.
複数のマイクロホンからなるマイクロホンアレイからの音の情報と、前記マイクロホンアレイと各前記スピーカとの位置関係の情報とを用いて、前記複数のスピーカからの再生音源以外の音源の、前記マイクロホンアレイの位置での音源方向を推定する音源方向推定工程と、
推定した前記マイクロホンアレイの位置での音源方向をユーザ聴取位置での音源方向に変換する音源方向変換工程と、
前記変換した音源方向を基に、前記再生音源以外の雑音源の前記ユーザ聴取位置での音源方向を算出し、当該雑音源の前記ユーザ聴取位置での音源方向と、前記複数のスピーカから音を放射した際の音像定位方向が異なるようにそれぞれの前記スピーカの出力係数を決定する出力係数決定工程と、
決定した前記出力係数によって前記スピーカから音を放射する音放射工程と、
を含むことを特徴とする音再生方法。 In an environment in which a plurality of microphones and a plurality of speakers are arranged at predetermined positions, a sound reproduction method for reproducing sound from a sound reproduction device using the plurality of speakers as a reproduction sound source ,
The position of the microphone array of a sound source other than the reproduction sound source from the plurality of speakers, using the information on the sound from the microphone array composed of a plurality of microphones and the information on the positional relationship between the microphone array and each of the speakers. A sound source direction estimating step for estimating a sound source direction at
A sound source direction conversion step of converting a sound source direction at the estimated position of the microphone array into a sound source direction at a user listening position;
Based on the converted sound source direction , a sound source direction at the user listening position of a noise source other than the reproduction sound source is calculated, and a sound source direction at the user listening position of the noise source and sound from the plurality of speakers are calculated. An output coefficient determining step for determining the output coefficient of each speaker so that the sound image localization direction when radiated is different;
A sound emission step of emitting sound from the speaker according to the determined output coefficient;
A sound reproduction method comprising:
ことを特徴とする請求項5に記載の音再生方法。 In the output coefficient determination step, the speaker selected from the plurality of speakers is located in a direction in which the sound source direction at the user listening position is different.
The sound reproduction method according to claim 5, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009003880A JP5405130B2 (en) | 2009-01-09 | 2009-01-09 | Sound reproducing apparatus and sound reproducing method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009003880A JP5405130B2 (en) | 2009-01-09 | 2009-01-09 | Sound reproducing apparatus and sound reproducing method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010161735A JP2010161735A (en) | 2010-07-22 |
JP5405130B2 true JP5405130B2 (en) | 2014-02-05 |
Family
ID=42578534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009003880A Active JP5405130B2 (en) | 2009-01-09 | 2009-01-09 | Sound reproducing apparatus and sound reproducing method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5405130B2 (en) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9111526B2 (en) * | 2010-10-25 | 2015-08-18 | Qualcomm Incorporated | Systems, method, apparatus, and computer-readable media for decomposition of a multichannel music signal |
JP2012182648A (en) * | 2011-03-01 | 2012-09-20 | Mitsubishi Electric Corp | Amplifier, mobile body information apparatus, amplifier power saving method |
US9210270B2 (en) * | 2012-11-15 | 2015-12-08 | Qualcomm Incorporated | Echo cancellation for ultrasound |
CN108132457A (en) * | 2017-12-22 | 2018-06-08 | 景晖 | The voice arrival bearing method of estimation and device of a kind of determining position |
JP7599331B2 (en) | 2020-12-25 | 2024-12-13 | 株式会社デンソーテン | AUDIO DEVICE, AUDIO CONTROL METHOD, AND AUDIO CONTROL PROGRAM |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0983277A (en) * | 1995-09-18 | 1997-03-28 | Fujitsu Ten Ltd | Sound volume adjustment device |
JP2006114942A (en) * | 2004-10-12 | 2006-04-27 | Nippon Telegr & Teleph Corp <Ntt> | Sound providing system, sound providing method, program for this method, and recording medium |
JP2007019980A (en) * | 2005-07-08 | 2007-01-25 | Matsushita Electric Ind Co Ltd | Audio sound calming device |
JP4799443B2 (en) * | 2007-02-21 | 2011-10-26 | 株式会社東芝 | Sound receiving device and method |
-
2009
- 2009-01-09 JP JP2009003880A patent/JP5405130B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010161735A (en) | 2010-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6644197B2 (en) | Noise removal device and noise removal method | |
EP3320692B1 (en) | Spatial audio processing apparatus | |
US9338547B2 (en) | Method for denoising an acoustic signal for a multi-microphone audio device operating in a noisy environment | |
JP4780119B2 (en) | Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device | |
JP5007442B2 (en) | System and method using level differences between microphones for speech improvement | |
JP5878549B2 (en) | Apparatus and method for geometry-based spatial audio coding | |
JP6584930B2 (en) | Information processing apparatus, information processing method, and program | |
JP5156260B2 (en) | Method for removing target noise and extracting target sound, preprocessing unit, speech recognition system and program | |
JP6196320B2 (en) | Filter and method for infomed spatial filtering using multiple instantaneous arrival direction estimates | |
KR101456866B1 (en) | Method and apparatus for extracting a target sound source signal from a mixed sound | |
EP2777297B1 (en) | Method and apparatus for processing signals of a spherical microphone array on a rigid sphere used for generating an ambisonics representation of the sound field | |
JP6616946B2 (en) | Artificial hearing headset | |
JP2021132385A (en) | Equipment and methods for providing individual sound areas | |
WO2016194945A1 (en) | Sound collecting device, and method of controlling sound collecting device | |
KR101934999B1 (en) | Apparatus for removing noise and method for performing thereof | |
KR20130116271A (en) | Three-dimensional sound capturing and reproducing with multi-microphones | |
CN101852846A (en) | Signal handling equipment, signal processing method and program | |
EP1538867B1 (en) | Handsfree system for use in a vehicle | |
JP5405130B2 (en) | Sound reproducing apparatus and sound reproducing method | |
WO2015086895A1 (en) | Spatial audio processing apparatus | |
CN114598962A (en) | Microphone array on the aircraft that determines the location and steers the transducer beam to that location | |
JP2010085733A (en) | Speech enhancement system | |
JP6323901B2 (en) | Sound collection device, sound collection method, and program | |
JP5163685B2 (en) | Head-related transfer function measurement method, head-related transfer function convolution method, and head-related transfer function convolution device | |
Kowalczyk | Multichannel Wiener filter with early reflection raking for automatic speech recognition in presence of reverberation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20110711 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111205 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130318 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131008 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131030 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5405130 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |