JP6296072B2 - Sound reproduction apparatus and program - Google Patents
Sound reproduction apparatus and program Download PDFInfo
- Publication number
- JP6296072B2 JP6296072B2 JP2016016322A JP2016016322A JP6296072B2 JP 6296072 B2 JP6296072 B2 JP 6296072B2 JP 2016016322 A JP2016016322 A JP 2016016322A JP 2016016322 A JP2016016322 A JP 2016016322A JP 6296072 B2 JP6296072 B2 JP 6296072B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- speaker
- stereophonic
- crosstalk cancellation
- transfer function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Stereophonic System (AREA)
Description
本発明は、音響再生装置及びプログラムに関し、ステレオスピーカから音響信号を立体的に再生する場合に適用し得るものである。 The present invention relates to a sound reproduction device and a program, and can be applied to three-dimensional reproduction of sound signals from stereo speakers.
従来、音像を任意に定位させ、あたかもその場にいるかのような臨場感を再現する技術として、頭部伝達関数(head−related transfer function:HRTF)を用いたバイノーラル再生がある。HRTFとは、音源から耳に至るまでの音の伝達特性であり、人やダミーヘッドの耳に専用のマイクロホンを取り付け、音源を様々な方向に置いて測定する。バイノーラル再生では、音源に定位させたい方向のHRTFを畳み込み、バイノーラル音源に変換し、ヘッドフォンやイヤホンから再生することで、立体音響効果を生み出すことが出来る。しかし、バイノーラル音源をスピーカからそのまま再生した場合、十分な立体音響効果を得ることができなくなる。右耳用バイノーラル音源は、右耳にのみ到達する必要があるが、スピーカから再生した場合、右耳用バイノーラル音源が右耳だけでなく左耳にも入ってしまう、また同様に、左のスピーカから再生された左耳用バイノーラル音源も左耳だけでなく右耳に入ることになる。このような現象はクロストークと呼ばれ、立体音響効果を妨げる原因となっている。 Conventionally, there is binaural reproduction using a head-related transfer function (HRTF) as a technique for reproducing a sense of presence as if the sound image is localized arbitrarily and as if it were present. HRTF is a transmission characteristic of sound from the sound source to the ear. A dedicated microphone is attached to the ear of a person or a dummy head, and the sound source is placed in various directions for measurement. In binaural playback, a three-dimensional sound effect can be created by convolving the HRTF in the direction to be localized in the sound source, converting it to a binaural sound source, and playing it from headphones or earphones. However, when a binaural sound source is reproduced as it is from a speaker, a sufficient stereophonic effect cannot be obtained. The binaural sound source for the right ear needs to reach only the right ear, but when played from the speaker, the binaural sound source for the right ear enters not only the right ear but also the left ear. Similarly, the left speaker The binaural sound source for the left ear reproduced from the above will enter the right ear as well as the left ear. Such a phenomenon is called crosstalk and is a cause of hindering the stereophonic effect.
そして、従来、スピーカによる再生でもバイノーラル再生と同様の効果を得られる技術として、トランスオーラル再生と呼ばれるものがある(非特許文献1、特許文献1参照)。従来のバイノーラル再生方式では、各スピーカから両耳までの室内伝達関数を測定した後、バイノーラル音源に伝達関数を畳み込み、その中のクロストーク成分のみをキャンセルするフィルタを設計する処理を行う。そして、従来のバイノーラル再生方式では、このフィルタを音像定位させる音源に掛けてスピーカから再生する。これにより、従来のバイノーラル再生方式では、クロストーク成分が受聴者の耳元で打ち消され、左右それぞれのバイノーラル音源だけが耳に届き、バイノーラル再生と同様の立体音響効果を得ることができる。非特許文献1に記載されたトランスオーラル再生技術では、スピーカによる音響再生についても、バイノーラル再生と同様にクロストーク成分のみをキャンセルし、立体音響効果を得ることができる。
Conventionally, there is a technique called trans-oral reproduction that can achieve the same effect as binaural reproduction even with reproduction by a speaker (see Non-Patent
しかしながら、従来のトランスオーラル再生技術では、立体音響効果を得られる受聴位置(スイートスポット)が狭いという問題がある。そのため受聴者が頭を前後左右、また顔の向きを少しでも変えると、たちまち立体音響効果がなくなってしまう。この問題に対して特許文献1では、スピーカを3個以上用意し、カメラを用いて受聴者の顔の位置と向きを常時解析し、その時々の受聴者に適したスピーカと伝達関数を選択し、トランスオーラル再生を行う方法を提案している。
However, the conventional transoral reproduction technique has a problem that the listening position (sweet spot) where the three-dimensional sound effect can be obtained is narrow. Therefore, if the listener changes his / her head, front / rear / left / right, and the direction of the face, the stereophonic effect will be lost. To deal with this problem,
しかしながら、特許文献1に記載された方法では、受聴者の顔の位置と向きを検出する処理をリアルタイムで行うための装置が別途必要となる。また3個以上のスピーカとカメラが必要なため、大掛かりなシステムとなり立体音響効果を体験できる場所も限られてしまうという問題がある。
However, the method described in
そのため、複数のスピーカを音源とし、所定の方向に音源を定位する処理を精度よく行う音響再生装置及びプログラムが望まれている。 Therefore, there is a demand for a sound reproducing device and a program that use a plurality of speakers as sound sources and perform processing for localizing sound sources in a predetermined direction with high accuracy.
第1の本発明は、入力音響信号を立体音響処理して複数のスピーカのそれぞれに供給する立体音響信号を生成する音響再生装置において、(1)各音源の方向に対応する頭部伝達関数を保持する頭部伝達関数保持部と、(2)少なくとも音源を定位させる音像定位方向の情報を取得する情報取得部と、(3)前記頭部伝達関数保持部が保持した頭部伝達関数を用いて前記音像定位方向に音源を定位させた第1の立体音響信号を生成する第1の立体音響信号生成部と、(4)それぞれの前記スピーカに対して、前記第1の立体音響信号からクロストーク成分を除去してクロストークキャンセルフィルタを保持するものであって、前記情報取得部が取得した音像定位方向に応じたパラメータに基づくクロストークキャンセルフィルタを保持するクロストークキャンセルフィルタ保持部と、(5)それぞれの前記スピーカについて、前記クロストークキャンセルフィルタ保持部が保持したクロストークキャンセルフィルタを用いて、前記第1の立体音響信号からクロストーク成分を除去して第2の立体音響信号を生成する第2の立体音響信号生成部とを有することを特徴とする。 According to a first aspect of the present invention, there is provided a sound reproducing apparatus for generating a stereophonic signal to be supplied to each of a plurality of speakers by performing stereophonic processing on an input acoustic signal. Using a head-related transfer function held by the head-related transfer function held by the head-related transfer function held by the head-related transfer function; A first stereophonic signal generator that generates a first stereoacoustic signal in which the sound source is localized in the sound image localization direction; and (4) crossing from the first stereoacoustic signal to each of the speakers. a holds the crosstalk cancellation filter to remove talk component, click to hold the crosstalk cancellation filter based on the parameters the information acquisition unit corresponding to the acquired sound image localization direction (5) For each of the speakers, a crosstalk component is removed from the first stereophonic sound signal by using a crosstalk cancellation filter held by the crosstalk cancellation filter holding unit. And a second stereophonic signal generator for generating two stereoacoustic signals.
第2の本発明の音響再生プログラムは、入力音響信号を立体音響処理して複数のスピーカのそれぞれに供給する立体音響信号を生成する音響再生装置に搭載されたコンピュータを、(1)各音源の方向に対応する頭部伝達関数を保持する頭部伝達関数保持部と、(2)少なくとも音源を定位させる音像定位方向の情報を取得する情報取得部と、(3)前記頭部伝達関数保持部が保持した頭部伝達関数を用いて前記音像定位方向に音源を定位させた第1の立体音響信号を生成する第1の立体音響信号生成部と、(4)それぞれの前記スピーカに対して、前記第1の立体音響信号からクロストーク成分を除去してクロストークキャンセルフィルタを保持するものであって、前記情報取得部が取得した音像定位方向に応じたパラメータに基づくクロストークキャンセルフィルタを保持するクロストークキャンセルフィルタ保持部と、(5)、それぞれの前記スピーカについて、前記クロストークキャンセルフィルタ保持部が保持したクロストークキャンセルフィルタを用いて、前記第1の立体音響信号からクロストーク成分を除去して第2の立体音響信号を生成する第2の立体音響信号生成部として機能させることを特徴とする。 The sound reproduction program according to the second aspect of the present invention provides a computer mounted on an audio reproduction device that generates a three-dimensional sound signal to be supplied to each of a plurality of speakers by performing three-dimensional sound processing on an input sound signal. A head-related transfer function holding unit that holds a head-related transfer function corresponding to the direction; (2) an information acquisition unit that acquires information on a sound image localization direction that localizes at least a sound source; and (3) the head-related transfer function holding unit. A first stereophonic signal generation unit that generates a first stereoacoustic signal in which the sound source is localized in the sound image localization direction using the head-related transfer function held by (1), and (4) for each of the speakers, a holds the crosstalk cancellation filter to remove crosstalk components from the first stereophonic signal, based on a parameter corresponding to the sound image localization direction in which the information obtaining unit has obtained black A crosstalk cancellation filter holding unit for holding a talk cancellation filter; and (5) using the crosstalk cancellation filter held by the crosstalk cancellation filter holding unit for each of the speakers, from the first stereophonic sound signal. It is made to function as a 2nd stereophonic signal generation part which removes a crosstalk component and generates the 2nd stereophonic signal.
本発明によれば、複数のスピーカを音源とし、所定の方向に音源を定位する処理を精度よく行う音響再生装置及びプログラムを提供することができる。 ADVANTAGE OF THE INVENTION According to this invention, the sound reproducing apparatus and program which perform accurately the process which uses a several speaker as a sound source and localizes a sound source in a predetermined | prescribed direction can be provided.
(A)第1の実施形態
以下、本発明による音響再生装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。
(A) First Embodiment Hereinafter, a first embodiment of a sound reproducing device and a program according to the present invention will be described in detail with reference to the drawings.
(A−1)第1の実施形態の構成
図1は、この実施形態の音響再生装置10の全体構成を示すブロック図である。
(A-1) Configuration of the First Embodiment FIG. 1 is a block diagram showing the overall configuration of the sound reproducing device 10 of this embodiment.
この実施形態の音響再生装置10は、データ入力部11、位置情報取得部12、フィルタ形成部13、HRTF保持部14、伝達関数保持部15、立体音響処理部16、出力部17、及び2つのスピーカ(右スピーカ18R、左スピーカ18L)を有している。
The sound reproduction apparatus 10 of this embodiment includes a
音響再生装置10は、全てをハードウェア(例えば、専用の半導体チップ)を用いて構成するようにしてもよいし、一部又は全部の演算処理(データ処理や信号処理)についてソフトウェア的に構成するようにしてもよい。例えば、音響再生装置10は、スピーカを除く各構成要素について、プロセッサー及びメモリを有するプログラムの実行構成(コンピュータ)に実施形態の音響再生プログラムをインストールすることで実現するようにしてもよい。 The sound reproducing device 10 may be configured entirely using hardware (for example, a dedicated semiconductor chip), or may be configured in software for a part or all of arithmetic processing (data processing and signal processing). You may do it. For example, the sound reproduction device 10 may be realized by installing the sound reproduction program according to the embodiment in the execution configuration (computer) of a program having a processor and a memory for each component other than the speaker.
音響再生装置10は、入力された音響信号(以下、「入力音響信号」と呼ぶ)に立体音響処理を施した信号(以下、「立体音響信号」と呼ぶ)を生成する装置である。この実施形態では、音響再生装置10は、生成した立体音響信号を、2つのスピーカ(右スピーカ18R、左スピーカ18L)から聴取者であるユーザUに出力する構成となっているものとする。音響再生装置10が立体音響信号を出力する方式については限定されないものであり、例えば、デジタル音響データ(音声データ)として出力(例えば、所定のデータ記録媒体への書き込みや通信によるデータ送信により出力)するようにしてもよい。
The sound reproducing device 10 is a device that generates a signal (hereinafter referred to as “stereoscopic sound signal”) obtained by performing stereophonic sound processing on an input acoustic signal (hereinafter referred to as “input acoustic signal”). In this embodiment, it is assumed that the sound reproduction device 10 is configured to output the generated stereophonic signal from two speakers (the
図2は、スピーカ(右スピーカ18R、左スピーカ18L)と、ユーザUとの位置関係(上方向から見た場合の位置関係)及びスピーカ(右スピーカ18R、左スピーカ18L)とユーザUとの間の経路上の伝達関数について示した説明図である。
FIG. 2 shows the positional relationship between the speakers (the
図2に示す通り、右スピーカ18RはユーザUから見て右側に配置されたスピーカであり、左スピーカ18LはユーザUからみて左側に配置されたスピーカである。 As shown in FIG. 2, the right speaker 18 </ b> R is a speaker disposed on the right side when viewed from the user U, and the left speaker 18 </ b> L is a speaker disposed on the left side when viewed from the user U.
音響再生装置10は、例えば、ビデオ会議システム等の会議端末において、図示しない遠隔地のマイクで捕捉された音響信号(遠端話者の音声信号)に、立体音響処理を施して出力するものである。例えば、図2に示すようにユーザUの正面に配置されたディスプレイに表示される画像(例えば、遠隔地のカメラで撮影した画像)に応じた音像定位を施した音(例えば、ディスプレイDに表示された遠端話者の位置に応じた音像定位を施した音)を出力することにより、ユーザUに対し臨場感のある音(立体音響)を出力することができる。 For example, in a conference terminal such as a video conference system, the sound reproduction device 10 performs stereophonic sound processing on an audio signal (far-end speaker's audio signal) captured by a remote microphone (not shown) and outputs the sound signal. is there. For example, as shown in FIG. 2, a sound (for example, displayed on the display D) subjected to sound image localization according to an image (for example, an image photographed by a remote camera) displayed on a display arranged in front of the user U. Sound that is localized according to the position of the far-end speaker is output), so that a realistic sound (stereoscopic sound) can be output to the user U.
この実施形態では、音響再生装置10は、入力音響信号の音源を定位(音像定位)させる方向(以下、「音像定位方向」と呼ぶ)と、ユーザUの位置情報(以下、「ユーザ位置情報」とも呼ぶ)と、各スピーカの位置情報(以下、「スピーカ位置情報」とも呼ぶ)とを保持し、当該入力音響信号の音源を指定された音像定位方向に定位させる立体音響処理を行い、音をユーザUに向けて放出(出力)する装置であるものとする。なお、音響再生装置10が保持する音像定位方向、ユーザ位置情報、及びスピーカ位置情報の具体的な方式、入力タイミング及びデータ形式については限定されないものである。例えば、音響再生装置10は、図示しない会議システムの会議端末上で、上述の各情報の入力を受付けて、入力音響信号に基づく音を出力する装置してもよい。なお、音響再生装置10の用途は会議端末に限定されないものである。 In this embodiment, the sound reproducing device 10 is configured to localize (sound image localization) the sound source of the input acoustic signal (hereinafter referred to as “sound image localization direction”) and the position information of the user U (hereinafter referred to as “user position information”). 3) and position information of each speaker (hereinafter also referred to as “speaker position information”), and performing stereophonic sound processing to localize the sound source of the input sound signal in the specified sound image localization direction, It is assumed that the device emits (outputs) toward the user U. Note that the specific method, input timing, and data format of the sound image localization direction, user position information, and speaker position information held by the sound reproduction device 10 are not limited. For example, the sound reproduction device 10 may be a device that receives input of each of the above-described information on a conference terminal of a conference system (not shown) and outputs a sound based on the input sound signal. In addition, the use of the sound reproducing device 10 is not limited to the conference terminal.
データ入力部11は、入力された入力音響信号をアナログ信号からデジタル信号に変換(A/D変換)する機能を担っている。この実施形態では、入力音響信号はアナログ信号であるものとして説明するが、デジタル信号であってもよい。データ入力部11は、入力音響信号がデジタル形式の場合には、当該デジタル信号又は当該デジタル信号のデータ変換を施して後段に出力する。例えば、入力音響信号がRTP(Real−Time Transport Protocol)等のプロトコルによるパケット形式で入力される場合に、データ入力部11は、入力されるパケットをバッファリングして連続的な音声データ(例えば、PCM(Pulse Code Modulation)形式等の音声データ)として出力するようにしてもよい。ここでは、データ入力部11が出力する音声データはモノラル(1チャンネル分)の音声データであるものとして説明する。
The
また、データ入力部11に供給される入力音響信号は、リアルタイムなデータに限定されず、予め図示しないデータ記録媒体(例えば、ハードディスクドライブやフラッシュメモリ等)に記録されたデータ(オフラインのデータ)を読込んで、連続的なデジタル音響信号として後段に出力するようにしてもよい。
Further, the input acoustic signal supplied to the
位置情報取得部12は、入力音響信号の立体音響処理に必要な情報を取得して、フィルタ形成部13に供給する機能を担っている。位置情報取得部12は、音像定位方向、ユーザ位置情報、及びスピーカ位置情報を取得する。位置情報取得部12が情報取得する方法や情報取得するタイミングは限定されないものである。位置情報取得部12は、例えば、リアルタイムに情報取得を行うようにしてもよいし、予め設定されたデータを取得するようにしてもよいし、予め図示しないデータ記録媒体に記録された情報(例えば、入力音響信号のデータと対となる情報)を所定のタイミングで取得(更新)するようにしてもよい。
The position
次に、位置情報取得部12が取得する各情報の例について図2を用いて説明する。
Next, an example of each piece of information acquired by the position
この実施形態では、位置情報取得部12は、ユーザ位置情報として、少なくともユーザUの右耳eRの位置PeRの位置情報及び、左耳eLの位置PeLの位置情報を保持するものとする。なお、位置情報取得部12は、直接位置PeR、PeLを取得するのではなく、例えば、ユーザUの頭部の中心位置PUの位置情報と、ユーザUの向いている方向の情報を取得してユーザの各耳の位置PeR、PeLを推定(計算)して取得するようにしてもよい。以上のように、位置情報取得部12がユーザ位置情報として、各耳の位置PeR、PeLの情報を取得する方式は限定されないものである。
In this embodiment, the position
また、この実施形態では、位置情報取得部12は、スピーカ位置情報として、右スピーカ18Rの位置(図2のように上方向から見た場合の位置)PSRの位置情報と、左スピーカ18Lの位置PSLを取得するものとする。なお、この実施形態では、位置PSR、PSLは、それぞれ各スピーカ(右スピーカ18R、左スピーカ18L)の中心位置(図2のように上方向から見た場合の中心位置)とする。
Further, in this embodiment, the position
以下では、図2に示すように、音像定位方向を二次元の平面上(上方向から見た場合の平面上;ユーザUから見た水平方向の面上)で、ユーザUが向いている方向と、音像定位方向とが成す角度をθSと表すものとする。なお、音響再生装置10に入力される音像定位方向には、ユーザUから見た上下方向の成分を含むようにしてもよい。 In the following, as shown in FIG. 2, the sound image localization direction is a two-dimensional plane (on a plane when viewed from above; on a horizontal plane viewed from the user U), and the direction in which the user U is facing. And the angle formed by the sound image localization direction is represented by θ S. Note that the sound image localization direction input to the sound reproducing device 10 may include a vertical component viewed from the user U.
HRTF保持部14は、各音源の方向(音像定位方向θS)に対応するHRTFを保持し、フィルタ形成部13に供給する機能を担っている。HRTF保持部14は、所定のグリッド幅(例えば、1°等)ごとのHRTFを予め保持しておくようにしてもよい、フィルタ形成部13から要求されるごとにHRTFを算出して取得するようにしてもよい。HRTF保持部14が保持するHRTFのデータ自体は種々のHRTFの算出方式により取得したデータを適用することができる。この実施形態では、HRTF保持部14は、各音源の方向について右耳用のHRTFと左耳用のHRTFを保持しているものとする。なお、HRTF保持部14が保持するHRTFのデータは、種々のバイノーラル再生やトランスオーラル再生の過程で用いられるHRTFと同様のものを適用することができる。
The
伝達関数保持部15は、ユーザUと各スピーカ(右スピーカ18R、左スピーカ18L)との位置関係に応じた伝達関数を保持し、フィルタ形成部13に供給する機能を担っている。
The transfer
次に、伝達関数保持部15が保持する各伝達関数について図2を用いて説明する。
Next, each transfer function held by the transfer
以下では、右スピーカ18Rの位置PSRとユーザUの右耳の位置PeRとの間の伝達関数(右スピーカ−右耳経路の伝達関数)を、GRRと表すものとする。また、以下では、右スピーカ18Rの位置PSRとユーザUの左耳の位置PeLとの間の伝達関数(右スピーカ−左耳経路の伝達関数)を、GRLと表すものとする。さらに、以下では、左スピーカ18Lの位置PSLとユーザUの右耳の位置PeRとの間の伝達関数(左スピーカ−右耳経路の伝達関数)を、GLRと表すものとする。さらにまた、以下では、左スピーカ18Lの位置PSLとユーザUの左耳の位置PeLとの間の伝達関数(左スピーカ−左耳経路の伝達関数)を、GLLと表すものとする。
Hereinafter, the transfer function between the position P eR of the right ear position P SR and the user U of the
この実施形態では、伝達関数保持部15は、伝達関数GRR、GRL、GLR、GLLを保持して、フィルタ形成部13に供給する。伝達関数保持部15は、予め伝達関数GRR、GRL、GLR、GLLを保持しておくようにしてもよいし、フィルタ形成部13からの要求に応じて算出(例えば、ユーザ位置情報とスピーカ位置情報に基づいて算出)するようにしてもよい。伝達関数保持部15が保持する伝達関数GRR、GRL、GLR、GLLの算出方式は限定されないものであり、種々の伝達関数を適用することができる。なお、伝達関数保持部15が保持する各伝達関数は、種々のトランスオーラル処理で用いられる伝達関数と同様のものを適用することができる。
In this embodiment, the transfer
フィルタ形成部13は、後段の立体音響処理部16で立体音響処理(トランスオーラル処理)する際に必要となる各フィルタの保持を行う機能を担っている。
The
フィルタ形成部13は、音像定位方向に対応するHRTF(入力音響信号Ciのバイノーラル処理等に必要となるフィルタ)をHRTF保持部14から取得して、立体音響処理部16に供給する。また、フィルタ形成部13は、ユーザ位置情報及びスピーカ位置情報に基づいて、バイノーラル音源(立体音響処理部16が、HRTFデータに基づいてバイノーラル処理を施した音響信号)からクロストーク成分をキャンセルするフィルタ(以下、「クロストークキャンセルフィルタ」と呼ぶ)を生成する処理を行う。フィルタ形成部13が生成するクロストークキャンセルフィルタの詳細については後述する。
立体音響処理部16は、フィルタ形成部13から供給された各フィルタ(HRTF及びクロストークキャンセルフィルタ)を用いて、入力音響信号Ciにトランスオーラル処理を施して、トランスオーラル音源となる音響信号を生成し、出力部17に供給する。
Stereophonic
立体音響処理部16は、まず、HRTFに基づき入力音響信号Ciにバイノーラル処理を施して、バイノーラル音源となる音響信号を生成する。そして、立体音響処理部16は、生成したバイノーラル音源(音響信号)に、クロストークキャンセルフィルタを掛け(畳み込み)、トランスオーラル音源としての音響信号を生成し、出力部17に供給する。
Stereophonic
以下では、右耳用のバイノーラル音源を「BR」、左耳用のバイノーラル音源を「BL」と呼ぶものとする。また、以下では、立体音響処理部16において、トランスオーラル処理を施した結果得られる右スピーカ18R用の音源(音響信号)をTR、トランスオーラル処理を施した結果得られる左スピーカ18L用の音源(音響信号)をTLと呼ぶものとする。
Hereinafter, the binaural sound source for the right ear is referred to as “B R ”, and the binaural sound source for the left ear is referred to as “B L ”. In the following, the stereophonic
なお、入力音響信号Ciが複数の音源の音響信号により構成される場合、立体音響処理部16は、それぞれの音源(入力音響信号Ciを構成する音響信号)についてトランスオーラル音源を生成し、それぞれのトランスオーラル音源についてゲイン調整(例えば、予め設定された比率でのゲイン調整)を行って混合し、1つのトランスオーラル音源として生成するようにしてもよい。
When the input sound signal C i is composed of sound signals of a plurality of sound sources, the stereophonic
出力部17は、立体音響処理部16で生成したトランスオーラル音源の音響信号を、スピーカ18R、18Lに分配して出力する。なお、出力部17は、スピーカ18R、18Lの入力形式に応じた信号変換(例えば、デジタル信号からアナログ信号への変換を行って、スピーカ18R、18Lに出力するようにしてもよい。
The
次に、フィルタ形成部13がクロストークキャンセルフィルタを形成する処理の詳細について説明する。
Next, details of the process in which the
まず、フィルタ形成部13は、HRTF保持部14から、音像定位方向に対応するHRTFデータを取得する。また、フィルタ形成部13は、伝達関数保持部15から、ユーザ位置情報・スピーカ位置情報に対応する伝達関数GRR、GRL、GLR、GLLを取得する。
First, the
そして、フィルタ形成部13は、伝達関数GRR、GRL、GLR、GLLを用いて、バイノーラル音源からクロストーク成分をキャンセルするためのクロストークキャンセルフィルタを設計する。クロストークキャンセルフィルタは、バイノーラル音源BR、BLバイノーラル音源に、各スピーカ18R、18LからユーザUの両耳までの室内伝達関数GRR、GRL、GLR、GLLを畳み込み、その中のクロストーク成分(右スピーカ18RからユーザUの左耳に到達する成分、及び左スピーカ18LからユーザUの右耳に到達する成分)のみをキャンセルするフィルタ設計を行う。
Then, the
以下では、右スピーカ18R用のクロストークキャンセルフィルタを「CR(ω)」(「ω」は周波数、以下同様)、左スピーカ18L用のクロストークキャンセルフィルタを「CL(ω)」と呼ぶものとする。言い換えると、クロストークキャンセルフィルタCR(ω)は、バイノーラル音源BRにトランスオーラル処理を施して、右スピーカ18R用のトランスオーラル音源TRを生成するためのフィルタとなる。また、クロストークキャンセルフィルタCL(ω)は、バイノーラル音源BLにトランスオーラル処理を施して、左スピーカ18L用のトランスオーラル音源TLを生成するためのフィルタとなる。
Hereinafter, the crosstalk cancellation filter for the
以下では、クロストークキャンセルフィルタCR(ω)、CL(ω)を形成(保持)する処理の一例について説明する。 Hereinafter, an example of processing for forming (holding) the crosstalk cancellation filters C R (ω) and C L (ω) will be described.
まず、フィルタ形成部13は、以下の(1)式〜(4)式のように、左スピーカ−左耳経路のフィルタCLL(ω)、右スピーカ−右耳経路のフィルタCRR(ω)、左スピーカ−右耳経路のフィルタCLR(ω)、及び右スピーカ−左耳経路のフィルタCRL(ω)を生成(設計)する。なお、以下の(1)式〜(4)式において、HL(ω)、HR(ω)は、それぞれ左耳、右耳用の音像定位方向に対応したHRTF(HRTF保持部14で保持したHRTF)である。また、以下の(1)式〜(4)式において、GRR、GRL、GLR、GLLは、それぞれ伝達関数保持部15で保持された伝達関数である。以下の(1)式〜(4)式においてωは周波数を表している。以下の(1)式〜(4)式における共通項G0(ω)は、以下の(1)式〜(4)式をまとめて方程式とすると、以下の(5)式のように表すことができる。
ここで、仮に、従来のトランスオーラル再生技術(非特許文献1)と同様の方式で、スピーカごとのクロストークキャンセルフィルタCR(ω)、CL(ω)を求める場合、その演算式は以下の(6)、(7)式のようになる。
この実施形態では、フィルタ形成部13は、従来の演算式(上記の(6)、(7)式)の要素の一部に、ユーザUと各スピーカとの位置関係に応じた重みづけを付加したものをクロストークキャンセルフィルタCR(ω)、CL(ω)として算出する。
In this embodiment, the
具体的には、この実施形態の例では、フィルタ形成部13は、以下の(8)、(9)式により、クロストークキャンセルフィルタCR(ω)、CL(ω)を求めるものとする。
Specifically, in the example of this embodiment, the
以下の(8)、(9)式においてαは音像定位方向θS(仮想音源の方向)に応じて変動するパラメータ(左右のキャンセル量のバランスを変化させるパラメータ)であり、以下の(10)式のように示すことができる。 In the following equations (8) and (9), α is a parameter (a parameter that changes the balance of the left and right cancellation amount) that varies according to the sound image localization direction θ S (the direction of the virtual sound source), and the following (10) It can be shown as:
以下の(10)式におけるxは、音像定位方向θS(仮想音源の方向)の単位を度数(degree)からラジアン(rad)に変換したパラメータであるものとする。ここでは、ユーザの正面方向を0(ラジアン)としたとき、右回り(時計回り)に90°(右90°)ならπ/2、左周り(反時計回り)に90°(左90°)なら3π/2となるものとする。したがって、音像定位方向θSが0°の場合はα=1/2となり、音像定位方向θSが右90度ならα=0となり、音像定位方向θSが左90度ならα=−1となる。 In the following equation (10), x is a parameter obtained by converting the unit of the sound image localization direction θ S (virtual sound source direction) from degrees (degrees) to radians (rad). Here, when the front direction of the user is 0 (radian), it is π / 2 if it is 90 ° clockwise (90 ° clockwise), and 90 ° counterclockwise (90 ° left). Then, 3π / 2 is assumed. Therefore, when the sound image localization direction θ S is 0 °, α = ½, when the sound image localization direction θ S is 90 degrees to the right, α = 0, and when the sound image localization direction θ S is 90 degrees to the left, α = −1. Become.
したがって、αを用いて、上記の(8)、(9)のようにクロストークキャンセルフィルタCR(ω)、CL(ω)を求める、音像定位方向θSが左90°と右90°では以下の(11)〜(14)式のように変化する。 Accordingly, the sound image localization direction θ S is determined to be 90 ° to the left and 90 ° to the right by obtaining the crosstalk cancellation filters C R (ω) and C L (ω) as in the above (8) and (9) using α. Then, it changes like the following (11)-(14) Formula.
以下の(11)、(12)式は、音像定位方向θSが左90°の場合のクロストークキャンセルフィルタCR(ω)、CL(ω)を示している。また、以下の(13)、(14)式は、音像定位方向θSが右90°の場合のクロストークキャンセルフィルタCR(ω)、CL(ω)を示している。 The following equations (11) and (12) show the crosstalk cancellation filters C R (ω) and C L (ω) when the sound image localization direction θ S is 90 ° to the left. The following equations (13) and (14) indicate the crosstalk cancellation filters C R (ω) and C L (ω) when the sound image localization direction θ S is 90 ° to the right.
上記の(8)、(9)のように、音像定位方向θSに応じて変動するαを考慮して、クロストークキャンセルフィルタCR(ω)、CL(ω)を求めると、音像定位方向θSが左方向となっている場合(例えば、左90°の場合)、以下の(11)、(12)式に示すように、右スピーカ18R用のクロストークキャンセルフィルタCR(ω)によるキャンセル量が大きくなる。言い換えると、上記の(8)、(9)を適用すると、音像定位方向θSが左方向となっている場合には、θSにより表される角度が大きくなるほど、右スピーカ18R用のクロストークキャンセルフィルタCR(ω)によるキャンセル量が大きくなるため、左スピーカ18Lから出力される音響信号TLがより強調されることになる。
When the crosstalk cancellation filters C R (ω) and C L (ω) are obtained in consideration of α that varies according to the sound image localization direction θ S as in the above (8) and (9), the sound image localization is obtained. When the direction θ S is the left direction (for example, left 90 °), as shown in the following equations (11) and (12), the crosstalk cancellation filter C R (ω) for the
また、上記の(8)、(9)を適用すると、音像定位方向θSが右方向となっている場合(例えば、右90°の場合)、以下の(13)、(14)式に示すように、左スピーカ18L用のクロストークキャンセルフィルタCL(ω)のキャンセル量が大きくなる。言い換えると、上記の(8)、(9)を適用すると、音像定位方向θSが右方向となっている場合には、θSにより表される角度が大きくなるほど、左スピーカ18L用のクロストークキャンセルフィルタCL(ω)によるキャンセル量が大きくなるため、右スピーカ18Rから出力される音響信号TRがより強調されることになる。
Further, when the above (8) and (9) are applied, when the sound image localization direction θ S is the right direction (for example, 90 ° to the right), the following expressions (13) and (14) are shown. As described above, the amount of cancellation of the crosstalk cancellation filter C L (ω) for the
以上のように、上記の(8)、(9)では、音像定位方向θSが左方向となっている場合(例えば、0<x<πの場合)、右スピーカ18R用のクロストークキャンセルフィルタCR(ω)によるキャンセル量を大きくして、左スピーカ18Lから出力される音響信号TLを強調している。また、上記の(8)、(9)では、音像定位方向θSが右方向となっている場合(例えば、π<x<2πの場合)、左スピーカ18L用のクロストークキャンセルフィルタCL(ω)によるキャンセル量を大きくして、右スピーカ18Rから出力される音響信号TRを強調している。言い換えると、上記の(8)、(9)では、音像定位方向θSの側(ユーザUから見て右側又は左側)と反対側のスピーカ用のクロストークキャンセルの量を大きくするようにαが設定されている。
As described above, in the above (8) and (9), when the sound image localization direction θ S is the left direction (for example, 0 <x <π), the crosstalk cancellation filter for the
言い換えると、上記の(8)、(9)では、伝達関数GRR、GRL、GLR、GLLに加えて、音像定位方向θSも用いて、左右のクロストークキャンセルの量を調整している。これにより、ユーザUにとっては、音像定位方向θSの側の音源の音がより強調されることになるため、ユーザUの頭部が動作(ユーザUの耳の位置が動作)した場合でも、ユーザUに聞こえる音の定位感を安定させることが可能となる。 In other words, in the above (8) and (9), in addition to the transfer functions G RR , G RL , G LR , and G LL , the sound image localization direction θ S is used to adjust the amount of left and right crosstalk cancellation. ing. Thereby, for the user U, since the sound of the sound source on the sound image localization direction θ S side is more emphasized, even when the head of the user U moves (the position of the ear of the user U moves) It is possible to stabilize the sense of localization of the sound heard by the user U.
なお、この実施形態では、上記の(8)、(9)ではα(x)を用いて左右のクロストークキャンセルのバランス(量)を調整しているが、上述と同様の調整が可能であれば、左右のクロストークキャンセルのバランス(量)の調整方式は限定されないものである。
フィルタ形成部13は、HRTF保持部14と同様に、予め音像定位方向θSごとに対応するクロストークキャンセルフィルタCR(ω)、CL(ω)を保持しておいて、音像定位方向θSが変動するごとに適用するクロストークキャンセルフィルタCR(ω)、CL(ω)を切替える(選択する)ようにしてもよいし、音像定位方向θSが変動するごとに適用するクロストークキャンセルフィルタCR(ω)、CL(ω)を算出するようにしてもよい。
Similarly to the
(A−2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の音響再生装置10の動作について図1を用いて説明する。
(A-2) Operation of the First Embodiment Next, the operation of the sound reproduction device 10 of the first embodiment having the above configuration will be described with reference to FIG.
データ入力部11は、入力されたアナログ信号をデジタル信号に変換し、入力音響信号Ciとして出力する。この実施形態では、入力音響信号Ciは、フィルタ形成部13を介して立体音響処理部16に供給される。
The
位置情報取得部12は、例えば、所定のタイミングごとに、最新の音像定位方向、ユーザ位置情報(PeR、PeL)、及びスピーカ位置情報PSR、PSLを取得してフィルタ形成部13に供給する。
The position
フィルタ形成部13は、位置情報取得部12から供給される情報が更新されるごとに、HRTF保持部14及び伝達関数保持部15から、更新された情報に対応するHRTF(HL(ω)、HR(ω))及び伝達関数GRR、GRL、GLR、GLLを取得する。そして、フィルタ形成部13は、取得したHRTF(HL(ω)、HR(ω))及び伝達関数GRR、GRL、GLR、GLLに基づいて、トランスオーラル処理に用いるクロストークキャンセルフィルタCR(ω)、CL(ω)を保持(算出又は選択により保持)する。そして、フィルタ形成部13は、最新に取得したHRTF(HL(ω)、HR(ω))、及びクロストークキャンセルフィルタCR(ω)、CL(ω)を立体音響処理部16に供給する。このとき、フィルタ形成部13は、例えば、音像定位方向θSに応じたパラメータαを算出(上記の(10)式により算出)し、上記の(8)、(9)式にαを代入してクロストークキャンセルフィルタCR(ω)、CL(ω)を算出する。
Each time the information supplied from the position
立体音響処理部16は、フィルタ形成部13から最新に供給されたHRTF(HL(ω)、HR(ω))、及びクロストークキャンセルフィルタCR(ω)、CL(ω)を用いて、入力音響信号Ciにトランスオーラル処理を施す。具体的には、まず、立体音響処理部16は、入力音響信号Ciに右耳用のHR(ω)を用いてバイノーラル処理を施した右耳用のバイノーラル音源BRを生成し、入力音響信号Ciに左耳用のHL(ω)を用いてバイノーラル処理を施した左耳用のバイノーラル音源BLを生成する。そして、立体音響処理部16は、右耳用のバイノーラル音源BRに右スピーカ18R用のクロストークキャンセルフィルタCR(ω)を掛けて、右スピーカ18R用のトランスオーラル音源TRを生成し、出力部17に供給する。また、立体音響処理部16は、左耳用のバイノーラル音源BLに左スピーカ18L用のクロストークキャンセルフィルタCL(ω)を掛けて、左スピーカ18L用のトランスオーラル音源TLを生成し、出力部17に供給する。
The stereophonic
出力部17は、立体音響処理部16から供給されたトランスオーラル音源TR、TLをアナログ信号に変換し、それぞれスピーカ18R、18Lに出力(供給)する。
The
以上のように、音響再生装置10は、入力音響信号Ciをトランスオーラル処理し、トランスオーラル音源としての音響信号をユーザUに出力する。 As described above, an audio reproducing device 10, an input audio signal C i by transaural processing, and outputs a sound signal as Transaural sound source to the user U.
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of First Embodiment According to the first embodiment, the following effects can be achieved.
音響再生装置10では、トランスオーラル処理の際に、音像定位方向θSに応じたクロストークキャンセルフィルタを適用している。これにより、音響再生装置10では、立体音響効果を得られるスイートスポットを広くすることができる。これにより、第1の実施形態では、例えば、ユーザUが音源定位方向へ顔を向けたとしても、定位感と自然さを保ったまま臨場感のある音を体感させることができる。 In the sound reproducing apparatus 10, when the transaural processing, and applying the cross-talk cancellation filters corresponding to the sound image localization direction theta S. Thereby, in the sound reproduction apparatus 10, the sweet spot which can obtain a three-dimensional sound effect can be widened. Thereby, in the first embodiment, for example, even if the user U turns his face in the sound source localization direction, it is possible to experience a sound with a sense of reality while maintaining a sense of localization and naturalness.
また、音響再生装置10では、音像定位方向θS毎にクロストークキャンセルフィルタを保持し、音像定位方向θSに応じたクロストークキャンセルフィルタを選択する構成とすることができる。この場合、音響再生装置10では、音像定位方向θS毎にクロストークキャンセルフィルタを変更する処理を行っても、それによる処理量の増加(従来技術と比較した処理量の増大)は僅かであるため、効率的に高品質な立体音響処理を行うことが可能となる。 Further, in the sound reproducing apparatus 10, it is possible to hold the crosstalk cancellation filters for each sound image localization direction theta S, a configuration for selecting the crosstalk cancellation filter in accordance with the sound image localization direction theta S. In this case, in the sound reproducing device 10, even if the process of changing the crosstalk cancellation filter is performed for each sound image localization direction θ S , the increase in the processing amount (the increase in the processing amount compared to the conventional technology) is small. Therefore, it is possible to efficiently perform high-quality stereophonic processing.
次に、音響再生装置10を実際に構築してユーザに聴取させた場合の実験(以下、「本実験」と呼ぶ)の内容及びその結果について説明する。 Next, the contents and results of an experiment (hereinafter referred to as “main experiment”) when the sound reproducing apparatus 10 is actually constructed and listened to by the user will be described.
図3は、本実験の環境について示した説明図である。図3では、本実験におけるユーザUとスピーカとの位置関係について示している。 FIG. 3 is an explanatory diagram showing the environment of this experiment. FIG. 3 shows the positional relationship between the user U and the speaker in this experiment.
図3(a)は、ユーザUと各スピーカを方向から見た場合の位置関係について示している。図3(b)は、ユーザUから見た場合の各スピーカの配置位置について示している。 FIG. 3A shows the positional relationship when the user U and each speaker are viewed from the direction. FIG. 3B shows the position of each speaker when viewed from the user U.
本実験では、図3に示すように4cm角の小型のスピーカを用い、一列8個、上下2段、計16個のスピーカアレイSAを構築した。このスピーカアレイSAのうち、中央下段2つのスピーカ以外は、音の出ないダミーのスピーカSDとなっている。図3(b)に示すように、スピーカアレイSAにおいて、中央下段の2つのスピーカのうち右側にあるスピーカが右スピーカ18R、左側にあるスピーカが左スピーカ18Lとなっている。
In this experiment, as shown in FIG. 3, a small speaker of 4 cm square was used, and a total of 16 speaker arrays SA were constructed, 8 in a row and 2 in upper and lower rows. In the speaker array SA, the speakers other than the two speakers at the lower center are dummy speakers SD that do not emit sound. As shown in FIG. 3B, in the speaker array SA, the
図3に示すように、スピーカアレイSAにおいて、各スピーカの左右方向の間隔L1は22cmであり、上下の間隔L2は15cmである。また、スピーカアレイSAの左右方向の端から端までの距離L3は1.7mである。さらに、地面からスピーカアレイSAの下段のスピーカまでの高さL4は85cmとなっているものとする。さらにまた、図3(a)に示すように、スピーカアレイの中心から、被験者(聴取者)であるユーザUの頭部の中心位置PUまでの距離L5は1mとした。 As shown in FIG. 3, in the speaker array SA, the distance L1 between the left and right directions of each speaker is 22 cm, and the distance L2 between the top and bottom is 15 cm. Further, the distance L3 from the end in the left-right direction of the speaker array SA is 1.7 m. Furthermore, it is assumed that the height L4 from the ground to the lower speaker of the speaker array SA is 85 cm. Furthermore, as shown in FIG. 3A, the distance L5 from the center of the speaker array to the center position P U of the head of the user U who is the subject (listener) is 1 m.
本実験では、中央2つのスピーカ18R、18Lから立体音響処理を施した女性の音声を再生(この実施形態のトランスオーラル再生)した。このとき、定位させる音源の方向(音像定位方向θS)は、右60°、左60°、右90°、左90°の4種類であり、再生もこの順番で行った。また、このとき、一回に再生される音源は一つである。そして、本実験では、上述のように定位させる音源の方向(音像定位方向θS)を切替えながら音声を再生し、被験者であるユーザUに、音が鳴っていると感じるスピーカを選択させる等のアンケートを行った。なお、本実験では、被験者には、事前に中央2つのスピーカから音が鳴っていると知らせであるが、上下どちらの段のスピーカが鳴っているかは伏せて聴取させた。
In this experiment, the female voice subjected to the stereophonic sound processing was reproduced from the two
そして、本実験では、上述の4種類の音声の再生が終了した後、平均オピニオン評点(Mean Opinion Score MOS)により主観評価アンケートを実施した。本実験において、アンケートの項目は、定位感(音像の位置が変動せずに安定していたかどうか)、音質(歪みや異音などを感じたかどうか)、自然さ(実際にスピーカから音が鳴っていると感じたかどうか)の3つである。 And in this experiment, after the reproduction | regeneration of the above-mentioned 4 types of audio | voice was complete | finished, the subjective evaluation questionnaire was implemented by the average opinion score (Mean Opinion Score MOS). In this experiment, the items in the questionnaire were localization (whether the position of the sound image was stable without fluctuation), sound quality (whether you felt distortion or abnormal noise), naturalness (actually sounded from the speaker) Whether or not you feel it).
図4は、被験者が感じた音源の方向(位置)について集計した結果を示したグラフである。図4(a)〜図4(d)は、それぞれ定位させる音源の方向(音像定位方向θS)を、左60°、右60°、左90°、右90°とした場合の集計結果について示したグラフである。図4に示す各グラフでは、縦軸(各棒グラフの高さ)は人数、横軸はスピーカの位置である。図4に示す各グラフの横軸において、1が左端のスピーカを示しており、8が右端のスピーカを示している。また、図4に示す各グラフでは、前列の棒グラフは、スピーカアレイSAの上段のスピーカに対応し、後列はスピーカアレイSAの下段のスピーカに対応している。実際に音が鳴っているスピーカ18R、18Lは、下段の4、5の棒グラフに対応している。
FIG. 4 is a graph showing the results of counting the direction (position) of the sound source felt by the subject. 4 (a) to 4 (d) show the total results when the direction of the sound source to be localized (sound image localization direction θ S ) is 60 ° left, 60 ° right, 90 ° left, and 90 ° right. It is the shown graph. In each graph shown in FIG. 4, the vertical axis (height of each bar graph) is the number of people, and the horizontal axis is the position of the speaker. In the horizontal axis of each graph shown in FIG. 4, 1 indicates the leftmost speaker, and 8 indicates the rightmost speaker. In each graph shown in FIG. 4, the bar graph in the front row corresponds to the upper speaker of the speaker array SA, and the rear row corresponds to the lower speaker in the speaker array SA. The
図4に示すように本実験では、音源位置が右60°のときは右端より1つ内側のスピーカを選択している被験者が多いが、左60°では殆ど左端が選択されていることが分かる。さらに、図4に示すように、本実験では、音源位置が90°のときは左右ともに、全員が両端のスピーカを選択する結果となった。 As shown in FIG. 4, in this experiment, when the sound source position is 60 ° to the right, there are many subjects who have selected one speaker inside the right end, but at the left 60 °, the left end is almost selected. . Furthermore, as shown in FIG. 4, in this experiment, when the sound source position was 90 °, all left and right speakers were selected.
次に、本実験における主観評価の結果を図5に示す。本実験では、MOS値は、定位感が3.83、音質が3.67、自然さが4.33と全て3を超える数値となった。特に、本実験では、自然さは4を超えており、被験者がダミーのスピーカから実際に音が鳴っているように感じていたことが分かる。さらに、本実験では、定位感についても4に近い高い値となっている。以上のように、本実験の結果により、実験の結果、この実施形態の音響再生装置10では、定位が安定し、かつ自然に聞こえる立体音響効果を得られることが示された。 Next, the result of the subjective evaluation in this experiment is shown in FIG. In this experiment, the MOS values were 3.83 for localization, 3.67 for sound quality, and 4.33 for naturalness, all exceeding 3. In particular, in this experiment, the naturalness exceeds 4, and it can be seen that the subject felt as if the sound was actually sounding from the dummy speaker. Further, in this experiment, the sense of localization is a high value close to 4. As described above, the result of this experiment showed that the sound reproducing apparatus 10 according to this embodiment can obtain a stereophonic effect that is stable in localization and can be heard naturally.
(B)第2の実施形態
以下、本発明による音響再生装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。
(B) Second Embodiment Hereinafter, a second embodiment of the sound reproducing device and the program according to the present invention will be described in detail with reference to the drawings.
(B−1)第2の実施形態の構成
図6は、第2の実施形態の音響再生装置10Aの全体構成を示すブロック図である。図6では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(B-1) Configuration of Second Embodiment FIG. 6 is a block diagram showing an overall configuration of a sound reproducing device 10A of the second embodiment. In FIG. 6, the same or corresponding parts as those in FIG.
以下では、第3の実施形態について第1の実施形態との差異を説明する。 Hereinafter, differences of the third embodiment from the first embodiment will be described.
第2の実施形態の音響再生装置10Aは、フィルタ保持部19が追加されており、フィルタ形成部13がフィルタ形成部13Aに置き換わっている点で第1の実施形態と異なっている。
The sound reproducing device 10A of the second embodiment is different from the first embodiment in that a
第1の実施形態では、フィルタ形成部13が、音像定位方向θSを取得する度にクロストークキャンセルフィルタを形成する処理を行う例について説明した。これに対して、第2の実施形態のフィルタ形成部13Aは、各音像定位方向θSのクロストークキャンセルフィルタを形成してフィルタ保持部19に保持させる。その後、フィルタ形成部13は、入力された音像定位方向θSに応じたクロストークキャンセルフィルタを選択して立体音響処理部16に供給する。
In the first embodiment, the example in which the
また、フィルタ形成部13Aは、位置情報取得部12から位置情報(ユーザ位置情報及びスピーカ位置情報)が供給されると、フィルタ保持部19に当該位置情報に対応するクロストークキャンセルフィルタが保持されているか否かを確認する。そして、フィルタ形成部13Aは、位置情報取得部12から供給された位置情報に対応するクロストークキャンセルフィルタがフィルタ保持部19に保持されていない場合、当該位置情報に対応するクロストークキャンセルフィルタ(各音像定位方向θSのクロストークキャンセルフィルタ)を形成して、フィルタ保持部19に保持させる処理を行う。すなわち、第2の実施形態では、フィルタ保持部19がクロストークキャンセルフィルタのキャッシュとして機能する。
Further, when position information (user position information and speaker position information) is supplied from the position
(B−2)第2の実施形態の効果
第2の実施形態によれば、第1の実施形態の効果に加えて以下のような効果を奏することができる。
(B-2) Effects of Second Embodiment According to the second embodiment, the following effects can be obtained in addition to the effects of the first embodiment.
第2の実施形態の音響再生装置10Aでは、各音像定位方向θSのクロストークキャンセルフィルタを形成してフィルタ保持部19に保持(キャッシュ)させることで、第1の実施形態よりも処理量(クロストークキャンセルフィルタを形成する処理量)を低減させることができる。
In the sound reproducing device 10A of the second embodiment, a crosstalk cancellation filter for each sound image localization direction θ S is formed and held (cached) in the
(C)第3の実施形態
以下、本発明による音響再生装置及びプログラムの第3の実施形態を、図面を参照しながら詳述する。
(C) Third Embodiment Hereinafter, a third embodiment of the sound reproducing device and the program according to the present invention will be described in detail with reference to the drawings.
(C−1)第3の実施形態の構成及び動作
図7は、第3の実施形態の音響再生装置10Bの全体構成を示すブロック図である。図7では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
(C-1) Configuration and Operation of the Third Embodiment FIG. 7 is a block diagram showing the overall configuration of the sound reproducing device 10B of the third embodiment. In FIG. 7, the same or corresponding parts as those in FIG.
以下では、第3の実施形態について第1の実施形態との差異を説明する。 Hereinafter, differences of the third embodiment from the first embodiment will be described.
第3の実施形態の音響再生装置10Bでは、伝達関数保持部15が削除され、フィルタ形成部13がフィルタ形成部13Bに置き換わっている点で第1の実施形態と異なっている。また、第3の実施形態の音響再生装置10Bでは、角度算出部20が追加されている点で第1の実施形態と異なっている。
The sound reproducing device 10B according to the third embodiment is different from the first embodiment in that the transfer
第1の実施形態のフィルタ形成部13は、HRTFと伝達関数GRR、GRL、GLR、GLLを取得してクロストークキャンセルフィルタを形成している。したがって、第1の実施形態のフィルタ形成部13では、伝達関数を計測していない空間ではクロストークキャンセルフィルタを形成することができないことになる。そこで、第3の実施形態のフィルタ形成部13Bは、クロストークキャンセルフィルタを形成する際、伝達関数の代わりにHRTF(HRTF保持部14で保持されているHRTF)を使用するものする。
The
角度算出部20は、位置情報取得部12から、ユーザ位置情報及びスピーカ位置情報が供給されると、ユーザ位置情報及びスピーカ位置情報に基づいてユーザU(ユーザUの各耳)から各スピーカ18R、18Lへの方向(角度)を算出し、フィルタ形成部13Bに供給する。
When the user position information and the speaker position information are supplied from the position
図8は、角度算出部20が取得する各方向(角度)の例について示した説明図である。
FIG. 8 is an explanatory diagram showing an example of each direction (angle) acquired by the
具体的には、角度算出部20は、ユーザ位置情報及びスピーカ位置情報に基づいて、ユーザUの右耳の位置PeRから右スピーカ18Rの位置PSRへの方向(角度)を示すθRRと、ユーザUの右耳の位置PeRから左スピーカ18Lの位置PSLへの方向(角度)を示すθRLと、ユーザUの左耳の位置PeLから右スピーカ18Rの位置PSRへの方向(角度)を示すθLRと、ユーザUの左耳の位置PeLから左スピーカ18Lの位置PSLへの方向(角度)を示すθLLとを算出する。
Specifically, the
図8に示すように、θRR、θRLは、ユーザUの右耳の位置PeRを起点する方向(角度)である。θRR、θRLは、ユーザUの右耳の位置PeRからユーザUが向いている方向を0°として各スピーカ18R、18Lの存在する方向を示している。
As shown in FIG. 8, θ RR and θ RL are directions (angles) starting from the position PeR of the right ear of the user U. θ RR and θ RL indicate directions in which the
また、図8に示すようにθLR、θLLは、ユーザUの右耳の位置PeLを起点する方向(角度)である。θLR、θLLは、ユーザUの右耳の位置PeRからユーザUが向いている方向を0°として各スピーカ18R、18Lの存在する方向を示している。
Further, as shown in FIG. 8, θ LR and θ LL are directions (angles) starting from the position P eL of the right ear of the user U. θ LR and θ LL indicate directions in which the
そして、フィルタ形成部13Bは、角度算出部20から取得した各方向(ユーザUの各耳から各スピーカ18R、18Lへの方向)を示す方向θRR、θRL、θLR、θLLのそれぞれについてHRTFを取得(HRTF保持部14)する。以下では、θRR、θRL、θLR、θLLに対応するHRTFを、それぞれHRR(ω)、HRL(ω)、HLR(ω)、HLL(ω)と表す。
The
そして、フィルタ形成部13Bは、HRR(ω)、HRL(ω)、HLR(ω)、HLL(ω)を、それぞれ伝達関数GRR、GRL、GLR、GLLとして用い、クロストークキャンセルフィルタを生成する。
Then, the
(C−2)第3の実施形態の効果
第3の実施形態によれば、第1の実施形態の効果に加えて、以下のような効果を奏することができる。
(C-2) Effects of Third Embodiment According to the third embodiment, the following effects can be achieved in addition to the effects of the first embodiment.
第3の実施形態の音響再生装置10Bでは、HRTFを伝達関数に流用するため、対応する伝達関数のデータを保持していない空間においても、ある程度の精度でクロストークキャンセルフィルタを形成して、立体音響処理(トランスオーラル処理)を行うことができる。 In the sound reproducing device 10B of the third embodiment, since the HRTF is used as a transfer function, a crosstalk cancellation filter is formed with a certain degree of accuracy even in a space that does not hold the corresponding transfer function data, Acoustic processing (trans-oral processing) can be performed.
(D)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D) Other Embodiments The present invention is not limited to the above-described embodiments, and may include modified embodiments as exemplified below.
(D−1)上記の各実施形態では、本発明の音響再生装置では、位置情報として、音像定位方向、ユーザ位置情報、及びスピーカ位置情報の3つのパラメータのリアルタイム更新を行う構成として説明したが、リアルタイムに更新の必要のないパラメータについては、更新せずに予め設定された値を保持し続ける構成としてもよい。例えば、音響再生装置では、ユーザ位置情報、及びスピーカ位置情報については固定値として保持し、音像定位方向のみ変動するパラメータとして取得するようにしてもよい。 (D-1) In each of the above embodiments, the sound reproducing device of the present invention has been described as a configuration that performs real-time update of three parameters of the sound image localization direction, the user position information, and the speaker position information as the position information. A parameter that does not need to be updated in real time may be configured to keep a preset value without updating. For example, in the sound reproducing apparatus, the user position information and the speaker position information may be held as fixed values and acquired as parameters that vary only in the sound image localization direction.
また、本発明の音響再生装置は、例えば、ユーザ位置情報、及びスピーカ位置情報を保持せずに、直接伝達関数GRR、GRL、GLR、GLLを保持する構成としてもよい。 In addition, the sound reproduction device of the present invention may be configured to directly hold the transfer functions G RR , G RL , G LR , G LL without holding the user position information and the speaker position information, for example.
10…音響再生装置、11…データ入力部、12…位置情報取得部、13…フィルタ形成部、14…HRTF保持部、15…伝達関数保持部、16…立体音響処理部、17…出力部、18R…右スピーカ、18L…左スピーカ。 DESCRIPTION OF SYMBOLS 10 ... Sound reproduction apparatus, 11 ... Data input part, 12 ... Position information acquisition part, 13 ... Filter formation part, 14 ... HRTF holding part, 15 ... Transfer function holding part, 16 ... Stereophonic sound processing part, 17 ... Output part, 18R ... right speaker, 18L ... left speaker.
Claims (7)
各音源の方向に対応する頭部伝達関数を保持する頭部伝達関数保持部と、
少なくとも音源を定位させる音像定位方向の情報を取得する情報取得部と、
前記頭部伝達関数保持部が保持した頭部伝達関数を用いて前記音像定位方向に音源を定位させた第1の立体音響信号を生成する第1の立体音響信号生成部と、
それぞれの前記スピーカに対して、前記第1の立体音響信号からクロストーク成分を除去してクロストークキャンセルフィルタを保持するものであって、前記情報取得部が取得した音像定位方向に応じたパラメータに基づくクロストークキャンセルフィルタを保持するクロストークキャンセルフィルタ保持部と、
それぞれの前記スピーカについて、前記クロストークキャンセルフィルタ保持部が保持したクロストークキャンセルフィルタを用いて、前記第1の立体音響信号からクロストーク成分を除去して第2の立体音響信号を生成する第2の立体音響信号生成部とを有する
ことを特徴とする立体音響再生装置。 In an audio reproduction device that generates stereophonic signals to be supplied to each of a plurality of speakers by performing stereophonic processing on an input acoustic signal,
A head-related transfer function holding unit that holds a head-related transfer function corresponding to the direction of each sound source;
An information acquisition unit that acquires information on a sound image localization direction that localizes at least a sound source;
A first stereophonic signal generation unit that generates a first stereoacoustic signal in which a sound source is localized in the sound image localization direction using the head-related transfer function held by the head-related transfer function holding unit;
For each of the speakers, a crosstalk component is removed from the first stereophonic sound signal and a crosstalk cancellation filter is retained, and a parameter corresponding to the sound image localization direction acquired by the information acquisition unit is used. A crosstalk cancellation filter holding unit for holding a crosstalk cancellation filter based on ,
For each of the speakers, a second stereophonic signal is generated by removing a crosstalk component from the first stereophonic signal using a crosstalk cancellation filter held by the crosstalk cancellation filter holding unit. And a stereophonic sound signal generator.
前記受聴者の位置情報、及びそれぞれの前記スピーカの位置情報に応じて、それぞれの前記スピーカと前記受聴者との間の伝達関数を取得する伝達関数保持部を更に有し、
前記クロストークキャンセルフィルタ保持部は、前記伝達関数保持部が取得した伝達関数を用いて、クロストークキャンセルフィルタを生成する
ことを特徴とする請求項1〜4のいずれかに記載の立体音響再生装置。 The information acquisition unit further acquires the position information of the listener and the position information of each speaker,
A transfer function holding unit for acquiring a transfer function between each speaker and the listener according to the position information of the listener and the position information of each speaker;
The stereophonic sound reproducing device according to claim 1, wherein the crosstalk cancellation filter holding unit generates a crosstalk cancellation filter using the transfer function acquired by the transfer function holding unit. .
各音源の方向に対応する頭部伝達関数を保持する頭部伝達関数保持部と、
少なくとも音源を定位させる音像定位方向の情報を取得する情報取得部と、
前記頭部伝達関数保持部が保持した頭部伝達関数を用いて前記音像定位方向に音源を定位させた第1の立体音響信号を生成する第1の立体音響信号生成部と、
それぞれの前記スピーカに対して、前記第1の立体音響信号からクロストーク成分を除去してクロストークキャンセルフィルタを保持するものであって、前記情報取得部が取得した音像定位方向に応じたパラメータに基づくクロストークキャンセルフィルタを保持するクロストークキャンセルフィルタ保持部と、
それぞれの前記スピーカについて、前記クロストークキャンセルフィルタ保持部が保持したクロストークキャンセルフィルタを用いて、前記第1の立体音響信号からクロストーク成分を除去して第2の立体音響信号を生成する第2の立体音響信号生成部と
して機能させることを特徴とする立体音響再生プログラム。 A computer mounted on a sound reproduction device that generates a three-dimensional sound signal that is supplied to each of a plurality of speakers by performing a three-dimensional sound process on the input sound signal,
A head-related transfer function holding unit that holds a head-related transfer function corresponding to the direction of each sound source;
An information acquisition unit that acquires information on a sound image localization direction that localizes at least a sound source;
A first stereophonic signal generation unit that generates a first stereoacoustic signal in which a sound source is localized in the sound image localization direction using the head-related transfer function held by the head-related transfer function holding unit;
For each of the speakers, a crosstalk component is removed from the first stereophonic sound signal and a crosstalk cancellation filter is retained, and a parameter corresponding to the sound image localization direction acquired by the information acquisition unit is used. A crosstalk cancellation filter holding unit for holding a crosstalk cancellation filter based on ,
For each of the speakers, a second stereophonic signal is generated by removing a crosstalk component from the first stereophonic signal using a crosstalk cancellation filter held by the crosstalk cancellation filter holding unit. A stereophonic sound reproduction program that functions as a stereophonic sound signal generation unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016016322A JP6296072B2 (en) | 2016-01-29 | 2016-01-29 | Sound reproduction apparatus and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016016322A JP6296072B2 (en) | 2016-01-29 | 2016-01-29 | Sound reproduction apparatus and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2017135669A JP2017135669A (en) | 2017-08-03 |
JP6296072B2 true JP6296072B2 (en) | 2018-03-20 |
Family
ID=59503778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016016322A Active JP6296072B2 (en) | 2016-01-29 | 2016-01-29 | Sound reproduction apparatus and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6296072B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113574912A (en) * | 2019-03-22 | 2021-10-29 | 索尼集团公司 | Acoustic signal processing device, acoustic signal processing system, acoustic signal processing method, and program |
WO2022201456A1 (en) * | 2021-03-25 | 2022-09-29 | 三菱電機株式会社 | Information presentation device, information presentation method, and information presentation program |
CN117135557A (en) * | 2022-08-05 | 2023-11-28 | 深圳Tcl数字技术有限公司 | Audio processing method, device, electronic equipment, storage medium and program product |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3074813B2 (en) * | 1991-08-07 | 2000-08-07 | ヤマハ株式会社 | Crosstalk cancellation circuit and sound image localization device |
JPH1070798A (en) * | 1996-06-21 | 1998-03-10 | Yamaha Corp | Three-dimensional sound reproducing device |
US6850621B2 (en) * | 1996-06-21 | 2005-02-01 | Yamaha Corporation | Three-dimensional sound reproducing apparatus and a three-dimensional sound reproduction method |
JP2007006432A (en) * | 2005-05-23 | 2007-01-11 | Victor Co Of Japan Ltd | Binaural reproducing apparatus |
US7929709B2 (en) * | 2005-12-28 | 2011-04-19 | Yamaha Corporation | Sound image localization apparatus |
JP4424348B2 (en) * | 2005-12-28 | 2010-03-03 | ヤマハ株式会社 | Sound image localization device |
JP4605149B2 (en) * | 2006-12-19 | 2011-01-05 | ヤマハ株式会社 | Sound field playback device |
JP5822327B2 (en) * | 2010-08-31 | 2015-11-24 | 株式会社コルグ | Sound equipment |
JP2014093697A (en) * | 2012-11-05 | 2014-05-19 | Yamaha Corp | Acoustic reproduction system |
-
2016
- 2016-01-29 JP JP2016016322A patent/JP6296072B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2017135669A (en) | 2017-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108885690B (en) | Method, apparatus and computer readable medium for generating head-related transfer function filter | |
US10257630B2 (en) | Computer program and method of determining a personalized head-related transfer function and interaural time difference function | |
KR101368859B1 (en) | Method and apparatus for reproducing a virtual sound of two channels based on individual auditory characteristic | |
JP5533248B2 (en) | Audio signal processing apparatus and audio signal processing method | |
JP5944840B2 (en) | Stereo sound reproduction method and apparatus | |
JP5890523B2 (en) | Audio signal processing apparatus and audio signal processing method | |
US9148740B2 (en) | Method and apparatus for reproducing stereophonic sound | |
US9967693B1 (en) | Advanced binaural sound imaging | |
JP5496235B2 (en) | Improved reproduction of multiple audio channels | |
JP2014180044A (en) | Technique for localized perceptual audio | |
JP2009077379A (en) | Stereoscopic sound reproduction equipment, stereophonic sound reproduction method, and computer program | |
JP5986426B2 (en) | Sound processing apparatus and sound processing method | |
US10652686B2 (en) | Method of improving localization of surround sound | |
EP3837863B1 (en) | Methods for obtaining and reproducing a binaural recording | |
US11589184B1 (en) | Differential spatial rendering of audio sources | |
KR20130080819A (en) | Apparatus and method for localizing multichannel sound signal | |
JP6896626B2 (en) | Systems and methods for generating 3D audio with externalized head through headphones | |
WO2017029793A1 (en) | Out-of-head localization processing apparatus and filter selection method | |
JP5754595B2 (en) | Trans oral system | |
JP2018110366A (en) | 3d sound video audio apparatus | |
JP6296072B2 (en) | Sound reproduction apparatus and program | |
US20170215018A1 (en) | Transaural synthesis method for sound spatialization | |
KR100647338B1 (en) | Optimum listening area extension method and device | |
Rumsey | Spatial audio: Binaural challenges | |
US20240422499A1 (en) | Method and system of virtualized spatial audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180123 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6296072 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |