WO2013105413A1

WO2013105413A1 - 音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ

Info

Publication number: WO2013105413A1
Application number: PCT/JP2012/083078
Authority: WO
Inventors: 高橋　直也; 西口　正之
Original assignee: ソニー株式会社
Priority date: 2012-01-11
Filing date: 2012-12-20
Publication date: 2013-07-18
Also published as: EP2804402B1; CN104041081A; JPWO2013105413A1; US9510126B2; US20140321680A1; EP2804402A4; CN104041081B; EP2804402A1

Abstract

　本開示に係る音場制御装置は、撮像により得られた情報から視聴者の位置情報を取得する位置情報取得部と、前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、を備える。これにより、頭部の大きさや向きを考慮して仮想音源再生を最適に調整することが可能となる。従って、視聴者に対して違和感のない音場を提供することが可能となる。

Description

音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバ

　本開示は、音場制御装置、音場制御方法、プログラム、音場制御システム及びサーバに関する。

　従来、例えば下記の特許文献１～３に記載されているように、視聴者の位置に応じて音量、遅延、スピーカの指向特性を補正し、正面位置から外れた場所でも最適な音声を視聴者に提供する装置を提案している。

特開２００５－０４９６５６号公報特開２００７－２１４８９７号公報特開２０１０－２０６４５１号公報

　スピーカ再生において、想定された視聴位置（通常はすべてのスピーカから等距離にある位置、すなわち正面位置）からずれた位置で試聴すると、各スピーカからの到達する音量バランスやタイミングがずれ、音質が劣化したり、定位がずれたりする。また、視聴者が移動すると、仮想音源再生効果も失われてしまう問題がある。

　しかしながら、特許文献１～３に記載された技術では、音量や遅延量、指向特性を調整することを想定してのみであり、頭部の大きさや向きを考慮していないため、仮想音源再生は最適に調整することは困難である。

　また、携帯機器、タブレット端末でゲームなどを行う場合、音源となる表示対象物が移動すると、表示対象物の移動とユーザが聴く音声との間で違和感が生じることがある。

　そこで、仮想音源再生を最適に調整することが求められていた。

　本開示によれば、音源に対応する表示対象物の位置情報を取得する表示対象物位置情報取得部と、前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、を備える、音場制御装置が提供される。

　また、少なくとも前記表示対象物の位置情報を外部のコンピュータへ送信する送信部と、前記外部のコンピュータから前記表示対象物の位置情報に基づいて算出された仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を受信する受信部と、を更に備えるものであっても良い。

　また、前記送信部は、前記表示対象物の位置情報とともに音声データを前記外部のコンピュータへ送信し、前記受信部は、前記外部のコンピュータから前記表示対象物の位置情報に基づいて算出された仮想音源再生補正係数によって前記音声データを補正して得られる音声データを受信するものであっても良い。

　また、視聴者の位置情報を取得する視聴者位置情報取得部を更に備え、前記仮想音源位置制御部は、前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて仮想音源位置の制御を行うものであっても良い。

　また、前記視聴者位置情報取得部は、撮像により得られた情報から前記視聴者の位置情報を取得するものであっても良い。

　また、前記表示対象物の位置情報及び前記視聴者の位置情報を外部のコンピュータへ送信する送信部と、前記外部のコンピュータから前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて算出された仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を受信する受信部と、を更に備えるものであっても良い。

　また、前記送信部は、前記表示対象物の位置情報及び前記視聴者の位置情報とともに音声データを前記外部のコンピュータへ送信し、前記受信部は、前記外部のコンピュータから、前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて算出された仮想音源再生補正係数によって前記音声データを補正して得られる音声データを受信するものであっても良い。

　また、本開示によれば、音源に対応する表示対象物の位置情報を取得することと、前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行うことと、を備える、音場制御装置が提供される。

　また、本開示によれば、音源に対応する表示対象物の位置情報を取得する手段、前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行う手段、としてコンピュータを機能させるためのプログラムが提供される。

　また、本開示によれば、音源に対応する表示対象物の位置情報を取得する表示対象物位置情報取得部と、前記対象物の位置情報を外部コンピュータへ送信する送信部と、前記外部コンピュータから前記対象物の位置情報に基づいて算出された仮想音源再生補正係数を受信する受信部と、を有するクライアント端末と、前記表示対象物の位置情報を受信する受信部と、前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出する仮想音源再生補正係数算出部と、前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信する送信部と、を有する前記外部コンピュータと、を備える、音場制御システムが提供される。

　また、本開示によれば、クライアント端末から音源に対応する表示対象物の位置情報を受信する受信部と、前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出する仮想音源再生補正係数算出部と、前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信する送信部と、を有する前記外部コンピュータと、を備える、サーバが提供される。

　また、本開示によれば、クライアント端末が音源に対応する表示対象物の位置情報を取得することと、クライアント端末が前記対象物の位置情報を外部コンピュータへ送信すること、前記外部コンピュータが前記表示対象物の位置情報を受信する受信部と、前記外部コンピュータが前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出することと、前記外部コンピュータが、前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信することと、を備える、音場制御方法が提供される。

　本開示によれば、撮像により得られた情報から視聴者の位置情報を取得する位置情報取得部と、前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、を備える、音場制御装置が提供される。

　前記仮想音源位置制御部は、前記視聴者の位置に係わらず音像の定位が固定されるように仮想音源位置の制御を行うものであってもよい。

　前記仮想音源位置制御部は、前記視聴者の位置に応じて音像の定位が相対的に移動するように仮想音源位置の制御を行うものであってもよい。

　前記仮想音源位置制御部は、前記位置情報に基づいて、頭部伝達関数を変化させることで前記仮想音源位置の制御を行うものであってもよい。

　前記仮想音源位置制御部は、前記視聴者の位置が変化する前の係数から前記視聴者の位置が変化した後の係数へ滑らかに変化させることで、位置情報に基づいて、前記仮想音源位置の制御を行うものであってもよい。

　前記仮想音源位置制御部は、位置情報に基づいて、前記視聴者の移動が所定値以上の場合に前記仮想音源位置の制御を行うものであってもよい。

　前記位置情報に基づいて、音量、音の遅延量、又は指向特性を制御する制御部を更に備えるものであってもよい。

　前記視聴者の位置情報を取得する撮像部を備えるものであってもよい。

　姿勢情報を取得する姿勢情報取得部を備え、
　前記仮想音源位置制御部は、前記位置情報及び前記姿勢情報に基づいて、仮想音源位置の制御を行うものであってもよい。

　前記位置情報取得部は、前記視聴者を撮像する撮像部を有する他の機器から前記撮像により得られた情報を取得するものであってもよい。

　また、本開示によれば、視聴者の位置情報を取得することと、前記位置情報に基づいて、仮想音源位置の制御を行うことと、を備える、音場制御方法が提供される。

　また、本開示によれば、視聴者の位置情報を取得する手段、前記位置情報に基づいて、仮想音源位置の制御を行う手段、としてコンピュータを機能させるためのプログラムが提供される。

　また、本開示によれば、視聴者を撮像する撮像装置と、前記撮像装置から得られた情報から視聴者の位置情報を取得する位置情報取得部と、前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、を有する音場制御装置と、を備える、音場制御システムが提供される。

　本開示によれば、仮想音源再生を最適に調整することが可能となる。

本開示の第１の実施形態に係る音場制御装置の構成例を示す模式図である。音声制御部の構成を示す模式図である。音場調整処理部の構成を示す模式図である。係数変更・音場調整部の構成を示す模式図である。第１の実施形態の処理を示すフローチャートである。視聴者と音声出力部（スピーカ）の位置関係を示す模式図である。音量補正・変更部で行われる処理を説明するための模式図である。遅延量補正・変更部で行われる処理を説明するための模式図である。仮想音源再生補正・変更部、指向特性補正・変更部で行われる処理を説明するための模式図である。本実施形態の音場制御装置の具体的な構成を示す模式図である。第１の実施形態の音像の定位の位置を示す模式図である。第２の実施形態の音像の定位の位置を示す模式図である。第３の実施形態において、タブレット端末やパーソナルコンピュータなどの機器に適用した例を示す模式図である。第３の実施形態の構成例を示す模式図である。第４の実施形態の構成例を示す模式図である。視聴者の周りでの各距離、角度においてダミーヘッド等を用いて頭部伝達関数Ｈ（ｒ，θ）を測定する様子を示す模式図である。仮想音源再生補正係数の算出を説明するための模式図である。視聴者の移動に対して仮想音源の定位が空間に対して固定されるように仮想音源再生補正部の係数（頭部伝達関数）を変更する方法を示す模式図である。スピーカの指向特性の一例を示す特性図である。第５の実施形態におけるシステムの構成例を示す模式図である。第６の実施形態に係る音場制御装置の構成例を示す模式図である。クラウドコンピュータと機器の通信の例を示すシーケンス図である。クラウドコンピュータから機器へ送るメタデータの種類と、伝送帯域、及び機器の負荷についてのメリットを示す模式図である。機器とクラウドコンピュータの構成を示す模式図である。ヘッドトラッキングヘッドフォンを含むシステムの一例を示す模式図である。第９の実施形態の概要を示す模式図である。第９の実施形態の音場制御装置の構成を示す模式図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　なお、説明は以下の順序で行うものとする。
１．第１の実施形態＞
　１．１．音場制御装置の外観例
　１．２．音場制御部の構成例
　１．３．音場調整処理部の構成例
　１．４．音場制御装置における処理
　１．５．視聴者と音声出力部の位置関係について
　１．６．仮想音源再生補正部における処理
　１．７．音量補正・変更部における処理
　１．８．遅延量補正・変更部における処理
　１．９．仮想音源再生補正・変更部、指向特性補正・変更部における処理
　１．１０．音場制御装置の具体的な構成例
２．第２の実施形態
　２．１．第２の実施形態の概要
　２．２．第２の実施形態の仮想音源再生補正・変更部で行われる処理
３．第３の実施形態
　３．１．第３の実施形態の概要
　３．２．第３の実施形態の構成例
４．第４の実施形態
５．第５の実施形態
６．第６の実施形態
７．第７の実施形態
８．第８の実施形態
９．第９の実施形態

　＜１．第１の実施形態＞
　［１．１．音場制御装置の外観例］
　図１は、本開示の第１の実施形態に係る音場制御装置１００の構成例を示す模式図である。音場制御装置１００は、スピーカを備えるテレビ受像機、オーディオ機器等に設けられ、視聴者の位置に応じてスピーカの音声を制御する。図１に示すように、音場制御装置１００は、撮像部１０２、視聴位置算出部１０４、音声制御部１０６、音声出力部１０８を有して構成される。図１に示す構成は、回路（ハードウェア）またはＣＰＵなどの中央演算処理装置と、これを機能させるためのプログラム（ソフトウェア）によって構成することができ、そのプログラムはメモリなどの記録媒体に格納されることができる。以下に説明する図３等の構成要素、各実施形態の構成においても同様である。

　撮像部１０２は、音声を聴く視聴者（ユーザ）の顔、身体を撮像する。視聴位置算出部１０４は、撮像部１０２から得られる画像から、視聴者の位置、顔の向きを算出する。なお、撮像部１０２（および視聴位置算出部１０４）は、音場制御装置１００が設けられた装置とは別体に設けられていても良い。音声制御部１０６には、音源が入力される。音声制御部１０６は、視聴者の位置に応じて良好な音質、定位、仮想音源再生（バーチャルサラウンド）効果が得られるように音声に対して処理を行う。音声出力部１０８は、音声制御部１０６で制御された音声を出力するスピーカである。

　［１．２．音場制御部の構成例］
　図２は、音声制御部１０６の構成を示す模式図である。図２に示すように、音声制御部１０６は、係数変更判定部１１０、係数算出部１１２、係数変更・音場調整処理部１１４、音場調整処理部１１６を有して構成される。

　係数変更判定部１１０は、撮像部１０２が撮像した視聴者の画像に基づいて、係数を変更するか否かを判定する。視聴者が少し動いたり顔を動かしたりするだけで係数を更新すると、係数更新時の音色の変化が無視できない可能性があるため、係数変更判定部１１０は、動きが微小な場合は係数更新を行わない。係数変更判定部１１０は、視聴者の有意な（所定以上）の位置の変更があり、その後に視聴者の位置が安定すると、係数変更を行う旨を判定する。この場合、係数算出部１１２は、視聴者の変更後の位置に応じた最適な音場処理係数を計算する。

　係数変更・音場調整処理部１１４は、係数を変更しながら音場調整処理を行う。係数変更・音場調整処理部１１４は、過去の視聴者の位置に対応した係数から、係数算出部１１２が新たに算出した視聴者の現在の位置の係数へ、係数変更を行いながら音場調整処理を行う。この際、係数変更・音場調整処理部１１４は、音切れなどのノイズが発生しないよう滑らかに係数変更を行う。

　なお、係数変更中においては、視聴位置算出部１０４から送られた新たな位置情報算出結果を音声制御部１０６が受信したとしても、係数の再設定は行わない。このため、無闇に係数が変更されることがなく、視聴位置検出部１０４から位置情報が送られてくるタイミングと、音声処理のタイミングは同期していなくても良い。

　一方、視聴者の位置が変化せず、係数変更判定部１１０で係数を変更しないと判定された場合、音場調整処理部１１６は、視聴位置に合わせた通常の音場調整処理を行う。この通常の音場調整処理は、後述する図１０のステップＳ３２の処理に対応する。

　［１．３．音場調整処理部の構成例］
　次に、音場調整処理部１１６の構成について説明する。図３は、音場調整処理部１１６の構成を示す模式図である。図３に示すように、音場調整処理部１１６は、仮想音源再生補正部１２０、音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６を有して構成される。

　音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６は、視聴者の位置が想定した視聴位置（試聴想定位置）からずれた場合に、そのずれにより生じる各スピーカから到達する音の音量差、到達時間差、及び周波数特性の変化をそれぞれ補正するものである。音量補正部１２２は音量差を補正し、遅延量補正部１２４は到達時間差を補正し、指向特性補正部１２６は周波数特性の変化を補正する。ここで、想定した視聴位置（視聴想定位置）とは、テレビやオーディオ等の、多くの場合は左右のスピーカの中心位置、すなわちテレビやオーディオシステムの正面である。

　音量補正部１２２は、視聴位置算出部１０４から取得した視聴者の位置に基づいて、各スピーカから視聴者へ到達する音量が等しくなるように音量を補正する。音量Ａは、各スピーカから視聴者頭部中心までの距離ｒ_ｉに比例し、下式が成立する。下式において、Ａｔｔ_ｉは、試聴想定位置とスピーカとの距離である。
Ａｔｔ_ｉ＝ｒ_ｉ／ｒ_０

　遅延量補正部１２４では、視聴位置算出部１０４から取得した視聴者の位置に基づいて、各スピーカから視聴者への到達時間が等しくなるように遅延量を補正する。各スピーカの遅延量ｔ_ｉは、各スピーカから視聴者頭部中心までの距離をｒ_ｉとし、ｒ_ｉのうち最大のものをｒ_ｍａｘとすると以下の式で表される。但し、ｃは音速である。
ｔ_ｉ＝(ｒ_ｍａｘ－ｒ_ｉ)／ｃ

　指向特性補正部１２６では、視聴位置算出部１０４から取得した視聴者の位置に基づいて、視聴位置のずれにより各スピーカの指向特性で変化した周波数特性を、想定視聴位置での特性に補正する。想定視聴位置でのスピーカｉの周波数特性をＨ_ｉとし、
視聴位置での周波数特性をＧ_ｉとすると、補正する周波数特性I_ｉは以下の式で求められる。
I_ｉ＝Ｈ_ｉ／Ｇ_ｉ

　以下では、指向特性補正部１２６における処理をより詳細に説明する。図１９は、あるスピーカの指向特性を示すグラフである。図１９（ａ）、図１９（ｂ）のそれぞれにおいて、円の中心から放射線状に広がる軸は音の強さを示しており、方向毎の音の強さすなわち指向特性が実線で描かれている。グラフの上側がスピーカの正面方向（前方向）である。指向特性は再生する音の周波数によって異なる。図１９（ａ）では２００Ｈｚ，５００Ｈｚ，１０００Ｈｚの、図１９（ｂ）では２ｋＨｚ，５ｋＨｚ，１０ｋＨｚの指向特性がそれぞれプロットされている。

　図１９から分かるように、スピーカの正面方向が最も音が強くなり、おおまかに言って、後方向（正面から１８０度反対方向）に向かうにつれて音が弱くなる。またその変化は、再生する音の周波数によって異なり、低い周波数では変化が少なく、周波数が高くなると変化が大きくなる。スピーカは一般に、正面方向で聴いたときに音のバランスが最も良くなるように音質調整されている。図１９に示すような指向特性から、受聴者の位置がスピーカの正面方向からずれている場合、受聴する音の周波数特性が理想状態から大きく変わってしまい、音のバランスが悪くなってしまうことが分かる。同様の問題は、音の位相特性に関しても生じる。

　そこで、スピーカの指向特性を測定し、指向特性の影響を補正するようなイコライザを予め算出しておき、検出した方向情報θｈ，θｖ、すなわち受聴者に対するスピーカ本体の向きに応じてイコライザ処理を行う。これにより、受聴者に対するスピーカの向きに依らない，バランスのよい再生を実現することが可能となる。

　補正フィルタの例としては、理想視聴位置での周波数特性をＨ_{ｉｄｅａｌ，}とし、そこから離れた位置での特性をＨとすると、補正フィルタＳは以下の式で求められる。
Ｓ＝Ｈ_{ｉｄｅａｌ，}／Ｈ

　次に、図４の係数変更・音場調整部１１４の構成について説明する。係数算出部１１２が算出した係数に基づいて係数を変更し、音場調整を行う。図４は、係数変更・音場調整部１１４の構成を示す模式図である。図４に示すように、係数変更・音場調整部１１４は、仮想音源再生補正・変更部１３０、音量補正・変更部１３２、遅延量補正・変更部１３４、指向特性補正・変更部１３６を有して構成される。

　係数変更・音場調整部１１４における基本的な処理は、図３の仮想音源再生補正部１２０、音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６と同様である。但し、図３の仮想音源再生補正部１２０、音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６は、変更された後の係数によって補正を行うが、係数変更・音場調整部１１４の各構成要素は、係数算出部１１２が算出した係数を目標値として、以前の係数から目標の係数に変更しながら補正を行う。この際、係数変更・音場調整部１１４は、係数を変更する際に波形が不連続にならにように、また、ノイズが発生したりユーザが違和感を覚えたりすることがないように、滑らかに係数を変更させる。係数変更・音場調整部１１４は、音場調整処理部１１６と一体の構成要素として構成することができる。

　［１．４．音場制御装置における処理］
　次に、本実施形態に係る音場制御装置１００における処理について説明する。図５は、本実施形態の処理を示すフローチャートである。ステップＳ１０では、カメラが視聴者の位置を算出する。次のステップＳ１２では、視聴者の位置の変化を平滑化する処理を行う。

　また、ステップＳ２０では、係数移行中フラグに基づいて、係数変更の処理が移行中であるか否かが判定される。係数変更の処理が行われている場合（係数移行中フラグが設定されている場合）は、ステップＳ２２へ進み、係数移行処理を引き続き行う。ステップＳ２２の係数移行処理は、図４で説明した係数変更・音場調整部１１４の処理に相当する。

　ステップＳ２２の後はステップＳ２４へ進む。ステップＳ２４では、係数の移行が終了したか否かを判定し、終了した場合はステップＳ２６へ進み、係数移行中フラグを解除する。ステップＳ２４の後はスタートに戻る。一方、ステップＳ２４で係数の移行が終了していない場合は、係数移行中フラグを解除することなくスタートへ戻る。

　また、ステップＳ２０において係数移行中でない場合（係数移行中フラグが解除されている場合）は、ステップＳ２８へ進む。ステップＳ２８では、ステップＳ１２における位置変化平滑化の結果に基づいて、視聴位置が変わったか否かを判定する。視聴位置が変わった場合はステップＳ３０へ進む。ステップＳ３０では、目標となる係数を変更し、係数移行中フラグを設定する。ステップＳ３０の後はステップＳ３２へ進み、通常処理を行う。

　一方、ステップＳ２８において、視聴位置が変わっていない場合は、係数移行中フラグを設定することなく、ステップＳ３２の通常処理に進む。ステップＳ３２の後はスタートに戻る。

　［１．５．視聴者と音声出力部の位置関係について］
　図６は、視聴者と音声出力部（スピーカ）１０８の位置関係を示す模式図である。図６の視聴想定位置に視聴者が存在する場合、左右の音声出力部１０８から到達する音について、音量差、到達時間差、及び周波数特性の変化は生じない。一方、図６に示す移動後の視聴者位置に視聴者が移動すると、左右の音声出力部１０８から到達する音について、音量差、到達時間差、及び周波数特性の変化が生じる。

　音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６の処理により、各スピーカから到達する音の音量差、到達時間差、及び周波数特性の変化がそれぞれ補正されると、図６の左側（Ｌ）の音声出力部１０８が仮想音源位置に位置した場合と等価になるように音声が調整される。

　しかしながら、音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６の処理のみでは、スピーカの開き角、スピーカと視聴者の距離、視聴者の顔の向きは変化しているため、仮想音源再生効果は十分に補正できない。そこで、本実施形態に係る仮想音源再生補正・変更部１３０は、仮想音源再生効果が得られるように補正を行う。

　［１．６．仮想音源再生補正部における処理］
　仮想音源再生補正部１２０では、仮想音源再生のため各パラメータを変更する。主なパラメータとしては、頭部伝達関数や、直接音、クロストークの遅延量などがある。すわわち、スピーカ（音量補正部１２２）の開き角や、スピーカと視聴者の距離、視聴者の顔の向きの変化による頭部伝達関数の変化を補正する。また、仮想音源位置に実際に音源を置いた場合と、直接音、クロストークの遅延量の差分を補正することで視聴者の顔の向きの変化に対応することができる。

　以下では、第１の実施形態の仮想音源再生補正部１２０による、頭部伝達関数の作成方法と、視聴者の位置に応じた頭部伝達関数の切り替え方法を説明する。以下に示す例は、頭部伝達関数の作成から適用、切り替えまでの一例を示す。

（１）頭部伝達関数の測定
　図１６に示すように、視聴者の周りでの各距離、角度においてダミーヘッド等を用いて頭部伝達関数Ｈ（ｒ，θ）を測定する。

（２）仮想音源再生補正係数の算出
　例えば、図１７の視聴位置１に置ける仮想音源再生補正係数の算出を説明する。視聴位置算出部で求めた位置情報に応じて（１）であらかじめ測定しておいた頭部伝達関数のデータから以下に対応するものを使用する。
Ｈ^１ _ＬＬ：視聴位置１における音源ＳＰ_Ｌから左耳までの頭部伝達関数
Ｈ^１ _ＬＲ：視聴位置１における音源ＳＰ_Ｌから右耳までの頭部伝達関数
Ｈ^１ _ＲＬ：視聴位置１における音源ＳＰ_Ｒから左耳までの頭部伝達関数
Ｈ^１ _ＲＲ：視聴位置１における音源ＳＰ_Ｒから右耳までの頭部伝達関数
Ｈ^１ _Ｌ：視聴位置１における仮想音源ＳＰ^１ _ｖから左耳までの頭部伝達関数
Ｈ^１ _Ｒ：視聴位置１における仮想音源ＳＰ^１ _ｖから右耳までの頭部伝達関数
以上の伝達関数を用いて仮想音源再生補正係数は以下の用に求められる。

　但し、上式において、
Ｓ^１ _Ｌ：視聴位置１におけるＳＰ_Ｌからの音を補正する伝達関数
Ｓ^１ _Ｒ：視聴位置１におけるＳＰ_Ｒからの音を補正する伝達関数
である。

　なお、音量補正部、遅延補正部、指向特性補正部によりＳＰ_Ｌ、ＳＰ_Ｒは等距離・同角度に補正されたと近似的に考えることができるため、Ｈ^１ _ＬＬ＝Ｈ^１ _ＲＲ，　Ｈ^１ _ＬＲ＝Ｈ^１ _ＲＬと近似することができる。従って、以下に示すように、より少ないテーブルから仮想音源再生補正係数を求めることもできる。

（３）頭部伝達関数の切り替え
　例えば、図１７において視聴者が視聴位置２に移動し、係数変更判定部において係数を変更すると判定された場合、上記と同様の方法で仮想音源再生補正係数を算出する。但し、視聴者に対する仮想音源位置は不変なためＨ^１ _Ｌ＝Ｈ^２ _Ｌ , Ｈ^１ _Ｒ＝Ｈ^２ _Ｒとおくことができる。

Ｈ^２ _ＬＬ：視聴位置２における音源ＳＰ_Ｌから左耳までの頭部伝達関数
Ｈ^２ _ＬＲ：視聴位置２における音源ＳＰ_Ｌから右耳までの頭部伝達関数
Ｈ^２ _ＲＬ：視聴位置２における音源ＳＰ_Ｒから左耳までの頭部伝達関数
Ｈ^２ _ＲＲ：視聴位置２における音源ＳＰ_Ｒから右耳までの頭部伝達関数
Ｈ^２ _Ｌ：視聴位置２における仮想音源ＳＰ^２ｖから左耳までの頭部伝達関数
Ｈ^２ _Ｒ：視聴位置２における仮想音源ＳＰ^２ｖから右耳までの頭部伝達関数
Ｓ^２ _Ｌ: 視聴位置２におけるＳＰＬからの音を補正する伝達関数
Ｓ^２ _Ｒ: 視聴位置２におけるＳＰＲからの音を補正する伝達関数

　なお、上記と同様の理由でＨ^２ _ＬＬ＝Ｈ^２ _ＲＲ，Ｈ^２ _ＬＲ＝Ｈ^２ _ＲＬと近似することが可能である。従って、以下に示すように、より少ないテーブルから仮想音源再生補正係数を求めることもできる。

　なお、音量補正部１２２、遅延量補正部１２４、及び指向特性補正部１２６の処理は、頭部伝達関数の変化として捉えることができるが、頭部伝達関数のみで補正する際は各位置に応じた頭部伝達関数のデータを保持しなければならず、語調も長くなるため、各部に分けることが好適である。

　［１．７．音量補正・変更部における処理］
　図７は、音量補正・変更部１３２で行われる処理を説明するための模式図である。ここで、図７（Ａ）は、音量補正・変更部１３２の具体的な構成を示している。また、図７（Ｂ）は、音量補正・変更部１３２によって音量が補正される様子を示す特性図である。

　図７（Ａ）に示すように、音量補正・変更部１３２は、可変のアッテネーター１３２ａによって構成される。図７（Ｂ）に示すように、音量は、変更前の値ＡｔｔＣｕｒｒから変更後の値ＡｔｔＴｒｇｔまで線形に変化する。音量補正・変更部１３２から出力される音量は、以下の式で表される。但し、ｔは時間である。これにより、音量を滑らかに変化させることができ、視聴者が違和感を覚えることを確実に抑止できる。
Ａｔｔ＝ＡｔｔＣｕｒｒ＋αｔ

　［１．８．遅延量補正・変更部における処理］
　図８は、遅延量補正・変更部１３４で行われる処理を説明するための模式図である。遅延量補正・変更部１３４は、遅延量の異なる２つの信号をミックスさせる割合を滑らかに変化させて遅延量を変更する。ここで、図８（Ａ）は、遅延量補正・変更部１３４の具体的な構成を示している。また、図８（Ｂ）は、遅延量補正・変更部１３４によって音量が補正される様子を示す特性図である。

　図８（Ａ）に示すように、遅延量補正・変更部１３４は、遅延バッファ１３４ａと、可変のアッテネーター１３４ｂ，１３４ｃと、加算部１３４ｄによって構成される。アッテネーター１３４ｂは、遅延バッファ１３４ａから出力された過去の遅延量ＡｔｔＣｕｒｒのゲインを調整する。また、アッテネーター１３４ｃは、遅延バッファ１３４ａから出力された新規の遅延量ＡｔｔＴｒｇｔのゲインを調整する。

　図８（Ｂ）に示すように、アッテネーター１３４ｂは、時間の経過に伴い、過去の遅延量ＡｔｔＣｕｒｒのゲインがサインカーブに沿って１から０まで減少するように制御する。また、図８（Ｂ）に示すように、アッテネーター１３４ｃは、時間の経過に伴い、新規の遅延量ＡｔｔＴｒｇｔのゲインがサインカーブに沿って０から１まで増加するように制御する。

　加算部１３２ｄは、アッテネーター１３４ｂから出力された過去の遅延量ＡｔｔＣｕｒｒと、アッテネーター１３４ｃから出力された新規の遅延量ＡｔｔＴｒｇｔとを加算する。これにより、時間の経過に伴い、過去の遅延量ＡｔｔＣｕｒｒから新規の遅延量ＡｔｔＴｒｇｔへ滑らかに変化させることができる。

　［１．９．仮想音源再生補正・変更部、指向特性補正・変更部における処理］
　図９は、仮想音源再生補正・変更部１３０、指向特性補正・変更部１３６で行われる処理を説明するための模式図である。仮想音源再生補正・変更部１３０、及び指向特性補正・変更部１３６では、特性の異なる２つの信号をミックスさせる割合を滑らかに変化させて特性を変更する。なお、この係数変更は、複数個に分けて行われても良い。

　図９に示すように、仮想音源再生補正・変更部１３０は、変更前の信号を通過させるフィルタ１３０ａと、変更後の信号を通過させるフィルタ１３０ｂと、アッテネーター１３０ｃと、アッテネーター１３０ｄと、加算部１３０ｅと、を有して構成されている。アッテネーター１３０ｃは、フィルタ１３０ａから出力された信号ＡｔｔＣｕｒｒのゲインを調整する。アッテネーター１３０ｄは、フィルタ１３０ｂから出力された信号ＡｔｔＴｒｇｔのゲインを調整する。

　図９（Ｂ）に示すように、アッテネーター１３０ｃは、時間の経過に伴い、過去の信号ＡｔｔＣｕｒｒのゲインが線形的に１から０まで減少するように制御する。また、図９（Ｂ）に示すように、アッテネーター１３０ｄは、時間の経過に伴い、新規の遅延量ＡｔｔＴｒｇｔのゲインが線形的に０から１まで増加するように制御する。

　加算部１３０ｅは、アッテネーター１３０ｃから出力された過去の信号ＡｔｔＣｕｒｒと、アッテネーター１３２ｄから出力された新規の信号ＡｔｔＴｒｇｔとを加算する。これにより、時間の経過に伴い、過去の信号ＡｔｔＣｕｒｒから新規の信号ＡｔｔＴｒｇｔへ滑らかに変化させることができる。

　同様に、図９に示すように、指向特性補正・変更部１３６は、変更前の信号を通過させるフィルタ１３６ａと、変更後の信号を通過させるフィルタ１３６ｂと、アッテネーター１３６ｃと、アッテネーター１３６ｄと、加算部１３６ｅと、を有して構成されている。指向特性補正・変更部１３６における処理は、仮想音源再生補正・変更部１３０で行われる処理と同様である。

　［１．１０．音場制御装置の具体的な構成例］
　図１０は、本実施形態の音場制御装置１００の具体的な構成を示す模式図である。図１０に示すように、音場制御装置１００は、音源ＦＬ，Ｃ，ＦＲ，ＳＬ，ＳＲから出力された入力の音声が仮想音源再生補正・変更部１３０、音量補正・変更部１３２、遅延量補正・変更部１３４、指向特性補正・変更部１３６を通過することによって出力される。

　以上の構成により、視聴者は、視聴位置に関わらず適切な仮想音源再生効果を得ることができ、適切な定位や空間的広がりを感じることができる。

　なお、複数スピーカを用いて、複数人に対して補正処理を行うことも可能である。複数人の場合は、特に仮想音源再生補正を行うことが効果的である。

　以上説明したように第１の実施形態によれば、視聴者の位置に基づいて仮想音源再生のため各パラメータを変更するため、視聴位置に関わらず適切な仮想音源再生効果を得ることができ、適切な定位や空間的広がりを感じることが可能となる。

　また、視聴者及び複数のスピーカの位置関係、および角度をリアルタイムで検出するための視聴位置算出部１０４を設けたことにより、複数のスピーカ及び視聴者の位置関係の変化をリアルタイムに検出することができる。そして、この視聴位置算出部１０４からの算出結果を基に、視聴者に対する複数のスピーカそれぞれの位置関係が算出され、当該算出結果から複数のスピーカそれぞれに対する音声信号出力パラメータが設定されているために、複数のスピーカ及び視聴者の位置関係のリアルタイムな変化に対応させて、音声信号出力パラメータを設定することができる。これにより、視聴者が移動したとしても、各スピーカからの音声の音量、遅延、指向特性、頭部伝達関数を修正し、最適な音声状態、及び仮想音源再生効果を視聴者に提供することが可能となる。

　また、視聴位置算出部１０４の算出結果が所定量以上変化した場合、かつ所定時間以上安定した場合に係数が変更されるため、過度の係数変更による違和感の低減や制御効率を向上できる。

　更に、係数は不連続な波形が生じないよう滑らかに変更されるため、ノイズが発生せず、違和感なく視聴位置変化に追従してリアルタイムに適切な音場を提供し続けることができる。

　また、仮想音源再生のターゲットとなる音像定位位置を自由に変更できるため、たとえば音像を空間に固定するような、動的な音像定位の変更を行うこともできる。

　＜２．第１の実施形態＞
　［２．１．第２の実施形態の概要］
　次に、本開示の第２の実施形態について説明する。上述した第１の実施形態では、視聴位置がずれた場合に、仮想音源再生効果が保たれるように補正を行う構成を示した。すなわち、図１１に示すように、視聴者が移動しても音像の定位は視聴者に対して相対的に保存され、音像の定位は視聴者とともに移動する。

　これに対して、第２の実施形態では、視聴者の位置の変化に対して、積極的に仮想音源再生効果を変化させる例を示す。すなわち、図１２に示すように、音像の定位は空間に対して絶対的に保存され、視聴者は空間を移動することによってその空間を移動しているように知覚することができる。

　第２の実施形態に係る音場制御装置１００の構成は、第１の実施形態の図１～図４と同様であり、音量、遅延、スピーカ指向特性についての制御方法は第１の実施形態と同様である。但し、図４の仮想音源再生補正・変更部１３０では、定位が空間に対して固定されるように位置に応じて変更される。

　［２．２．第２の実施形態の仮想音源再生補正・変更部で行われる処理］
　以下では、第２の実施形態における、頭部伝達関数の作成方法と、視聴者の位置に応じた頭部伝達関数の切り替え方法を説明する。

　図１８では、視聴者の移動に対して仮想音源の定位が空間に対して固定されるよう仮想音源再生補正部の係数（頭部伝達関数）を変更する方法について一例を示す。第１の方法と同様に、視聴位置での仮想音源再生補正係数を算出する。

　ここで視聴者が視聴位置２に移動した場合、実施例１とは異なり視聴者に対する相対的な仮想音源の位置は大きく変化するため、Ｈ^１ _Ｌ
，Ｈ^１ _ＲからＨ^２ _Ｌ
，Ｈ^２ _Ｒへの変更は必要不可欠となる。

　以上説明したように第２の実施形態によれば、音像の定位が空間に対して絶対的に保存されるように仮想音源再生補正・変更部１３０が処理を行うため、視聴者は、空間を移動することによってその空間を移動しているように知覚することができる。

　＜３．第３の実施形態＞
　［３．１．第３の実施形態の概要］
　次に、本開示の第３の実施形態について説明する。図１３に示すように、第３の実施形態では、タブレット端末やパーソナルコンピュータなどの機器３００に適用した例を示す。特にタブレット端末のようなモバイル等の機器３００では、本体を視聴者が手で保持する場合があるため、高さ方向の変化や角度の変化が音声に影響を与え、その影響が無視できないほど大きくなる場合がある。また、視聴者は動かずに、表示部、音声再生部を搭載した機器３００自体が移動、回転することもある。

　［３．２．第３の実施形態の構成例］
　図１４は、第３の実施形態の構成例を示す模式図である。図１の構成例に対して、ジャイロセンサ２００と姿勢情報算出部２０２が追加されている。図１４に示すように、機器の回転方向の検出に関しては、ジャイロセンサ２００を利用して検出することができる。姿勢情報算出部２０２は、ジャイロセンサ２００の検出値に基づいて、機器の姿勢に関する情報を算出し、音声出力部１０８の位置、向きを算出する。

　これにより、例えば機器３００にカメラが搭載されていなかったり、機能がオフ（ＯＦＦ）にされている場合であっても、ジャイロセンサから機器３００の姿勢を算出することで、視聴位置を予測することができ、視聴位置に基づいて第１の実施形態と同様の音場補正処理を行うことができる。音声制御部１０６の具体的な構成は、図２～図４で示した第１の実施形態と同様である。

　＜４．第４の実施形態＞
　次に、本開示の第４の実施形態について説明する。図１５は、第４の実施形態の構成例を示す模式図である。第４の実施形態は、上述した音場制御装置１００の処理を、音場制御装置１００を備える機器４００本体ではなくクラウドコンピュータ５００側で行うものである。クラウドコンピュータ５００を用いることで膨大量の頭部伝達関数のデータベースを保持したり、リッチな音場処理を実現することが可能である。

　＜５．第５の実施形態＞
　次に、本開示の第５の実施形態について説明する。上述したように、第１の実施形態における撮像部１０２（および視聴位置算出部１０４）は、音場制御装置１００が設けられた装置とは別体に設けられていても良い。第５の実施形態では、音場制御装置１００が設けられた装置とは別の機器に撮像部１０２が設けられた構成について説明する。

　図２０は、第５の実施形態におけるシステムの構成例を示す模式図である。図２０に示すように、第５の実施形態では、音場制御装置１００とは別の機器６００に撮像部１０２が設けられている。機器６００は、例えばＤＶＤプレーヤーなど、音場制御装置１００がテレビ受像器の場合に、テレビ受像器の映像・音声を記録する装置であっても良い。また、機器６００は、単体の撮像装置（カメラ）であっても良い。

　図２０にシステムにおいて、撮像部１０２が撮像した視聴者の画像は、音場制御装置１００へ送られる。音場制御装置１００では、視聴者の画像に基づいて、視聴位置算出部１０４が視聴者の位置を算出する。以降の処理は第１の実施形態と同様である。以上により、音場制御装置１００は、他の機器６００が撮像した画像に基づいて音場を制御することができる。

　＜６．第６の実施形態＞
　次に、本開示の第６の実施形態について説明する。第６の実施形態では、パーソナルコンピュータやタブレット端末上でゲームを行う場合などの様に、ユーザの操作によりリアルタイムに音の定位が変わる場合について説明する。

　ゲームを行う場合、画面上の表示対象物（表示オブジェクト）の位置に応じて音源の位置が移動する場合がある。例えば、画面上でキャラクター、自動車、飛行機などの表示対象物が移動する場合、移動に伴ってその表示対象物の音源の位置を移動させることで、臨場感を高めることができる。表示対象物が３次元表示される場合も、表示対象物の３次元方向の移動に伴って音源の位置を移動させることで、臨場感を高めることができる。

　このような表示対象物の移動は、ゲームの進行に伴って発生し、また、ユーザの操作によっても発生する。

　ゲームの場合、図１２と同様に、積極的に仮想音源再生効果を変化させる。この際、表示対象物の位置に応じて仮想音源再生効果を変化させ、表示対象物の位置が仮想音源位置となって発音するようにする。

　このように、リアルタイムに音の定位が変わる場合、視聴者（ユーザ）の位置、再生音源位置の情報に加え、仮想音源位置の相対位置を考慮して動的に適切なＨＲＴＦを計算する。図１７において仮想音源位置ＳＰｖがリアルタイムに変わるため、Ｈ_Ｌ，Ｈ_Ｒを逐次変更し、以下の式により仮想音源再生補正係数（仮想音源再生フィルタ）を計算する。すなわち、仮想音源位置ＳＰｖは表示対象物の位置に相当し、以下の式では、第１の実施形態で説明した数式１（数１）において、Ｈ_Ｌ，Ｈ_Ｒが時間の関数Ｈ_Ｌ（ｔ），Ｈ_Ｒ（ｔ）とされている。これにより、表示対象物の位置に応じて仮想音源の位置をリアルタイムに変更することができる。

　図２１は、第６の実施形態に係る音場制御装置１００の構成例を示す模式図である。図２１に示すように、音場制御装置１００は、図１の構成に加えて、ユーザ操作検知部１４０、画像情報取得部１４２、仮想音源位置算出部１４４を有して構成される。ユーザ操作検知部１４０は、ボタン、タッチパネル、キーボード、マウスなどの操作部材によるユーザの操作を検知する。画像情報取得部１４２は、表示対象物の位置、動きなどの情報を取得する。画像情報取得部１４２は、表示画面内の表示対象物の２次元の位置を取得する。また、画像情報取得部１４２は、３次元の表示が行われる場合は、左目用画像と右目用画像の視差に基づいて、表示画面に対して垂直方向における表示対象物の位置（奥行き位置）を取得する。仮想音源位置算出部１４４は、ユーザ操作の情報、または表示対象物の位置、動きなどの情報に基づいて、仮想音源の位置を算出する。

　音声制御部１０６は、第１の実施形態と同様の制御を行う。ここで、音声制御部１０６に含まれる仮想音源再生補正部１２０は、仮想音源位置算出部１４４が算出した仮想音源の位置に基づいて、上記数式により、Ｈ_Ｌ（ｔ），Ｈ_Ｒ（ｔ）を時間の経過に伴って逐次変更し、仮想音源再生補正係数を算出する。これにより、表示対象物の位置に応じて仮想音源の位置をリアルタイムに変更することができる。

　以上説明したように第６の実施形態によれば、ゲームなど表示対象物が発音しながら移動する場合に、表示対象物の位置に応じて仮想音源の位置をリアルタイムに変更することができる。従って、表示対象物の位置に応じた臨場感のある音場を提供することが可能となる。

　＜７．第７の実施形態＞
　次に、本開示の第７の実施形態について説明する。第６の実施形態で説明したような、例えばゲームの表示対象物の位置に応じて仮想音源位置を制御する場合、ＣＰＵの演算量が大きくなる。このため、タブレット端末、スマートフォン等に搭載されているＣＰＵでは負荷が過大となり、所望の制御ができない場合も想定される。従って、上述した第６の実施形態は、第４の実施形態で説明したクラウドコンピューティングにより実現することがより好ましい。第７の実施形態では、この場合において、サーバ（クラウドコンピュータ５００）とクライアント（機器４００）の通信速度、クライアントの処理能力に応じて処理内容を変更する例について説明する。

　図２２は、クラウドコンピュータ５００と機器４００の通信の例を示すシーケンス図である。先ず、ステップＳ３０では、機器４００がクラウドコンピュータ５００へ処理方法を通知する。より詳細には、機器４００のＣＰＵの仕様（処理速度、パワー）、メモリの容量、通信速度といった状況に応じて、機器４００がどのような情報をクラウドコンピュータ５００へ送り、クラウドコンピュータ５００がどのような情報を機器４００へ返すかを通知する。ステップＳ３２では、機器４００からの通知に対して、クラウドコンピュータ５００が通知を受け付けた旨を機器４００へ通知する

　次のステップＳ３４では、機器４００が処理要求をクラウドコンピュータ５００へ送信する。ここで、機器４００は、音声データと、視聴者位置、音源位置、仮想音源位置情報等の情報をクラウドコンピュータ５００へ送信し、処理要求をする。

　クラウドコンピュータ５００は、ステップＳ３０で機器４００から通知された処理方法に従って処理を行い、次のステップＳ３６では、クラウドコンピュータ５００が機器４００へ処理要求に対する応答を送信する。ステップＳ３６では、クラウドコンピュータ５００は、処理後の音声データ、又は処理に必要な係数などの応答を機器４００に返信する。

　例えば、機器４００のＣＰＵの能力が不足しているが、クラウドコンピュータ５００との通信速度が比較的速い場合、ステップＳ３４では、音声データ、視聴者位置、音源位置、仮想音源位置などのメタデータを機器４００からクラウドコンピュータ５００へ送る。そして、機器４００はクラウドコンピュータ５００に対して、大量のデータベースから適切なＨＲＴＦを選択し、仮想音源再生処理を行い、処理後の音声データを機器４００へ戻すように要求する。ステップＳ３６では、クラウドコンピュータ５００が処理後の音声データを機器４００へ送信する。これにより、機器４００では、少ないＣＰＵ能力でより精度の高いリッチな音場処理が可能となる。

　一方、機器４００のＣＰＵ能力が十分な場合は、ステップＳ３４において、位置情報、またはその差分のみを機器４００からクラウドコンピュータ５００へ送る。そして、クラウドコンピュータ５００は、機器４００からの要求に応じて、ステップＳ３６において、大量のデータベースから適切なＨＲＴＦ等の係数を機器４００へ返し、クライアント側で仮想音源再生処理を行う。また、機器４００は、ステップＳ３４において現在の視聴者位置、音源位置、仮想音源位置などの位置情報そのものを送るのではなく、位置情報の近傍のＨＲＴＦデータ、若しくは以前に送った位置情報の差分情報など、位置情報を予測するための補足データをクラウドコンピュータ５００へプリロードしておくことで、より高速なレスポンスが可能となる。

　図２３は、クラウドコンピュータ５００から機器４００へ送るメタデータの種類と、伝送帯域、及び機器４００の負荷についてのメリットを示す模式図である。図２３に示す例では、メタデータとして、（１）頭部伝達関数ＨＲＴＦ（または仮想音源再生補正係数）の特徴量を送る場合、（２）ＨＲＴＦを送る場合、（３）ＨＲＴＦに音源を畳み込んだ情報を送る場合、の３通りについて、伝送帯域及び機器４００のＣＰＵ負荷のメリットを示している。

　（１）ＨＲＴＦの特徴量を送る場合では、位置情報等から算出したＨＲＴＦをクラウドコンピュータ５００から機器４００へ逐次送るのではなく、ＨＲＴＦを１回送った後、次に送る際には前回送ったＨＲＴＦに対する差分、変化量を送信する。これにより、ＨＲＴＦを１回送った後は伝送量を最小限に抑えることが可能となり、伝送帯域を低減することができる。一方、機器４００側では、差分、変化量に基づいて逐次ＨＲＴＦを算出するため、機器４００のＣＰＵ負荷は大きくなる。

　（２）ＨＲＴＦを送る場合では、位置情報等から算出したＨＲＴＦをクラウドコンピュータ５００から機器４００へ逐次送る。この場合、１回毎にＨＲＴＦを送るため、伝送帯域は（１）の場合よりも大きくなる。一方、機器４００側では、クラウドコンピュータ５００から逐次ＨＲＴＦそのものを受信することができるため、機器４００のＣＰＵ負荷は（１）の場合よりも小さくなる。

　（３）ＨＲＴＦに音源を畳み込んだ情報を送る場合は、位置情報等から算出したＨＲＴＦに対して、更に音源を畳み込んだ情報（音声情報）をクラウドコンピュータ５００から機器４００へ逐次送る。つまり、クラウドコンピュータ５００は、音場制御装置１００の音声制御部１０６までの処理を行う。この場合、クラウドコンピュータ５００から機器４００へ送る情報量が大きくなるため、伝送帯域は（１），（２）に比べて大きくなる。一方、機器４００側では、受信した情報をそのまま用いることで音声を出力することができるため、機器４００のＣＰＵ負荷は最も小さくなる。

　（１）～（３）のいずれの処理を行うかについての情報は、図２２のステップＳ３０にて機器４００が送る処理方法の通知に含まれている。ユーザは、機器４００を操作することで、（１）～（３）のいずれの処理を行うかについて指定することができる。また、（１）～（３）のいずれの処理を行うかについては、伝送帯域、または機器４００のＣＰＵ能力に応じて、機器４００又はクラウドコンピュータ５００が自動的に決定しても良い。

　図２４は、機器４００とクラウドコンピュータ５００の構成を示す模式図である。機器４００は、図１の音場制御装置１００の構成に加えて、クラウドコンピュータ５００とネットワークを介して通信を行う通信部４２０を有している。また、クラウドコンピュータ５００は、図１の音場制御装置１００の構成に加えて、機器４００とネットワークを介して通信を行う通信部５２０を有している。そして、上述したように、伝送帯域、機器４００のＣＰＵ負荷に応じて、音場制御装置１００の処理は、機器４００とクラウドコンピュータ５００とに分散される。なお、クラウドコンピュータ５００の音場制御装置１００は、撮像部１０２を備えていなくても良い。また、機器４００とクラウドコンピュータ５００のそれぞれにおいて、音場制御装置１００が通信部４２０又は通信部５２０を含んでいても良い。

　次に、音場制御装置１００がヘッドトラッキングヘッドフォンの場合について説明する。図２５は、ヘッドトラッキングヘッドフォン６００を含むシステムの一例を示す模式図である。このシステムの基本構成は、特開２００３－１１１１９７号公報に記載されているものと同様であり、以下にシステムの概要を説明する。ヘッドフォン６００には、角速度センサ６０９を設ける。角速度センサ９の出力信号は、帯域制限フィルタ６４５で帯域制限し、さらにＡ／Ｄ（Ａｎａｌｏｇ
ｔｏＤｉｇｉｔａｌ）コンバータ６４６でデジタルデータに変換して、マイクロプロセッサ６４７に取り込み、マイクロプロセッサ６４７で積分して、ヘッドフォン６００を装着したリスナ頭部の回転角（向き）θを検出する。

　端子６１１に供給される、音源６０５の信号に相当する入力アナログ音声信号Ａｉを、Ａ／Ｄコンバータ６２１でデジタル音声信号Ｄｉに変換し、そのデジタル音声信号Ｄｉを、信号処理部６３０に供給する。

　信号処理部６３０は、専用のＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）などによってソフトウェア（処理プログラム）を含むものとして、またはハードウェア回路として、機能的に、デジタルフィルタ６３１，６３２、時間差設定回路６３８およびレベル差設定回路６３９によって構成し、Ａ／Ｄコンバータ６２１からのデジタル音声信号Ｄｉを、デジタルフィルタ６３１および６３２に供給する。

　デジタルフィルタ６３１および６３２は、リスナが所定の方向、例えば音源６０５の方向を向いているときの、音源６０５からリスナ１の左耳１Ｌおよび右耳１Ｒに至る伝達関数ＨＬｃおよびＨＲｃに相当する、インパルス応答を畳み込むもので、例えばＦＩＲフィルタによって構成する。

　すなわち、デジタルフィルタ６３１および６３２では、それぞれ、入力端子に供給された音声信号を、そのサンプリング周期τの遅延時間の、多段接続された遅延回路によって順次遅延し、各乗算回路において、入力端子に供給された音声信号および各遅延回路の出力信号にインパルス応答の係数を乗じ、各加算回路において、各乗算回路の出力信号を順次加算し、出力端子にフィルタリング後の音声信号を得る。

　このデジタルフィルタ６３１および６３２の出力の音声信号Ｌ１およびＲ１は、時間差設定回路６３８に供給し、時間差設定回路６３８の出力の音声信号Ｌ２およびＲ２は、レベル差設定回路６３９に供給する。レベル差設定回路６３９の出力の音声信号Ｌ３およびＲ３は、Ｄ／Ａコンバータ６４１Ｒ，６４１ＬでＤ／Ａ変換されて、要素６４２Ｒ，６４２Ｌを介してスピーカ６０３Ｒ，６０３Ｌに供給される。

　以上の構成において、ヘッドフォン６００を装着するユーザの顔の向きは、ヘッドフォンが備えるジャイロセンサから得られる情報によって検知することができる。これにより、ヘッドフォン６００の向きに応じて、仮想音源位置を制御することができる。例えば、ヘッドフォン６００の向きが変わった場合に、仮想音源位置は変化しないように制御することができる。これにより、ヘッドフォン６００を装着しているユーザは顔の向きを変えても同一の場所から音が発生していると認識することができ、臨場感を高めることができる。なお、ジャイロセンサから得られる情報に基づいて仮想音源位置を制御する構成は、第３の実施形態と同様に構成できる。

　＜８．第８の実施形態＞
　次に、本開示の第８の実施形態について説明する。第８の実施形態では、音場制御装置１００をスマートフォンの様な小型の機器に搭載した場合に、超音波スピーカを用いて仮想音源を再生する。スマートフォンの様な小型の機器では、左右のスピーカの間隔が狭くなるため、左右の音が混ざるクロストークをキャンセルすることが困難になる。この様な場合に、スマートフォンの様な小型の機器に超音波スピーカを用いることで、クロストークをキャンセルすることが可能である。

　＜９．第９の実施形態＞
　次に、本開示の第９の実施形態について説明する。第９の実施形態では、カメラや超音波センサ、ジャイロセンサなど、視聴者の位置や向きをセンシングするデバイスと音源を別のデバイスで構成した場合について説明する。図２６は、第９の実施形態の概要を示す模式図である。図２６に示すように、外部スピーカ８００から発音される音をユーザが聴いている場合に、ユーザがスマートフォン、タブレット端末などの位置、姿勢をセンシングする機器７００を保持しているものとする。図２６に示すように、機器７００を保持しながらユーザが向きを変えた場合、機器７００が備えるカメラ（撮像部）とユーザとの位置関係は変わらないが、ユーザと外部スピーカ８００との位置関係が変化する。このため、機器７００が備えるジャイロセンサ等を用いて、ユーザの絶対的な位置、方向の変化を推定する。

　図２７は、第９の実施形態の音場制御装置１００の構成を示す模式図である。第９の実施形態において、音場制御装置１００は、機器７００に備えられている。図２７に示すように、第９の実施形態の音場制御装置１００は、図１の構成に加えて、音源位置情報取得部１５０、ジャイロセンサ１５２、視聴位置算出部１５４を有して構成される。音源位置情報取得部１５０は、機器７００に対する外部スピーカ８００の位置を取得する。視聴位置算出部１５４は、ジャイロセンサ１５２の検出値に基づいて、ユーザの絶対的な位置、方向を算出する。音声制御部１０６は、音源位置情報取得部が取得した情報、視聴位置算出部１５４が算出した情報に基づいて、仮想音源位置を制御する。これにより、ユーザの絶対的な位置、方向に基づいて仮想音源位置を制御することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）音源に対応する表示対象物の位置情報を取得する表示対象物位置情報取得部と、
　前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、
　を備える、音場制御装置。
（２）少なくとも前記表示対象物の位置情報を外部のコンピュータへ送信する送信部と、
　前記外部のコンピュータから前記表示対象物の位置情報に基づいて算出された仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を受信する受信部と、を更に備える、前記（１）に記載の音場制御装置。
（３）前記送信部は、前記表示対象物の位置情報とともに音声データを前記外部のコンピュータへ送信し、
　前記受信部は、前記外部のコンピュータから前記表示対象物の位置情報に基づいて算出された仮想音源再生補正係数によって前記音声データを補正して得られる音声データを受信する、前記（２）に記載の音場制御装置。
（４）視聴者の位置情報を取得する視聴者位置情報取得部を更に備え、
　前記仮想音源位置制御部は、前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて仮想音源位置の制御を行う、前記（１）に記載の音場制御装置。
（５）前記視聴者位置情報取得部は、撮像により得られた情報から前記視聴者の位置情報を取得する、前記（４）に記載の音場制御装置。
（６）前記表示対象物の位置情報及び前記視聴者の位置情報を外部のコンピュータへ送信する送信部と、
　前記外部のコンピュータから前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて算出された仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を受信する受信部と、を更に備える、前記（４）に記載の音場制御装置。
（７）前記送信部は、前記表示対象物の位置情報及び前記視聴者の位置情報とともに音声データを前記外部のコンピュータへ送信し、
　前記受信部は、前記外部のコンピュータから、前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて算出された仮想音源再生補正係数によって前記音声データを補正して得られる音声データを受信する、前記（６）に記載の音場制御装置。
（８）音源に対応する表示対象物の位置情報を取得することと、
　前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行うことと、
　を備える、音場制御装置。
（９）音源に対応する表示対象物の位置情報を取得する手段、
　前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行う手段、
　としてコンピュータを機能させるためのプログラム。
（１０）音源に対応する表示対象物の位置情報を取得する表示対象物位置情報取得部と、
　前記対象物の位置情報を外部コンピュータへ送信する送信部と、
　前記外部コンピュータから前記対象物の位置情報に基づいて算出された仮想音源再生補正係数を受信する受信部と、を有するクライアント端末と、
　前記表示対象物の位置情報を受信する受信部と、
　前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出する仮想音源再生補正係数算出部と、
　前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信する送信部と、を有する前記外部コンピュータと、
　を備える、音場制御システム。
（１１）クライアント端末から音源に対応する表示対象物の位置情報を受信する受信部と、
　前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出する仮想音源再生補正係数算出部と、
　前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信する送信部と、を有する前記外部コンピュータと、
　を備える、サーバ。
（１２）クライアント端末が音源に対応する表示対象物の位置情報を取得することと、
　クライアント端末が前記対象物の位置情報を外部コンピュータへ送信すること、
　前記外部コンピュータが前記表示対象物の位置情報を受信する受信部と、
　前記外部コンピュータが前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出することと、
　前記外部コンピュータが、前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信することと、
　を備える、音場制御方法。
（１３）撮像により得られた情報から視聴者の位置情報を取得する位置情報取得部と、
　前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、
　を備える、音場制御装置。
（１４）前記仮想音源位置制御部は、前記視聴者の位置に係わらず音像の定位が固定されるように仮想音源位置の制御を行う、前記（１３）に記載の音場制御装置。
（１５）前記仮想音源位置制御部は、前記視聴者の位置に応じて音像の定位が相対的に移動するように仮想音源位置の制御を行う、前記（１３）に記載の音場制御装置。
（１６）前記仮想音源位置制御部は、前記位置情報に基づいて、頭部伝達関数を変化させることで前記仮想音源位置の制御を行う、前記（１３）に記載の音場制御装置。
（１７）前記仮想音源位置制御部は、前記視聴者の位置が変化する前の係数から前記視聴者の位置が変化した後の係数へ滑らかに変化させることで、位置情報に基づいて、前記仮想音源位置の制御を行う、前記（１３）に記載の音場制御装置。
（１８）前記仮想音源位置制御部は、位置情報に基づいて、前記視聴者の移動が所定値以上の場合に前記仮想音源位置の制御を行う、前記（１３）に記載の音場制御装置。
（１９）前記位置情報に基づいて、音量、音の遅延量、又は指向特性を制御する制御部を更に備える、前記（１３）に記載の音場制御装置。
（２０）前記視聴者の位置情報を取得する撮像部を備える、前記（１３）に記載の音場制御装置。
（２１）姿勢情報を取得する姿勢情報取得部を備え、
　前記仮想音源位置制御部は、前記位置情報及び前記姿勢情報に基づいて、仮想音源位置の制御を行う、前記（１３）に記載の音場制御装置。
（２２）前記位置情報取得部は、前記視聴者を撮像する撮像部を有する他の機器から前記撮像により得られた情報を取得する、前記（１３）に記載の音場制御装置。
（２３）視聴者の位置情報を取得することと、
　前記位置情報に基づいて、仮想音源位置の制御を行うことと、
　を備える、音場制御方法。
（２４）視聴者の位置情報を取得する手段、
　前記位置情報に基づいて、仮想音源位置の制御を行う手段、
　としてコンピュータを機能させるためのプログラム。
（２５）視聴者を撮像する撮像装置と、
　前記撮像装置から得られた情報から視聴者の位置情報を取得する位置情報取得部と、前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、を有する音場制御装置と、
　を備える、音場制御システム。

　１００　　音場制御装置
　１０２　　撮像部
　１０６　　音声制御部
　１２０　　仮想音源再生補正部
　１３０　　仮想音源再生補正・変更部
　４００　　機器（クライアント端末）
　５００　　クラウドコンピュータ（サーバ）
　

Claims

　音源に対応する表示対象物の位置情報を取得する表示対象物位置情報取得部と、
　前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、
　を備える、音場制御装置。
　少なくとも前記表示対象物の位置情報を外部のコンピュータへ送信する送信部と、
　前記外部のコンピュータから前記表示対象物の位置情報に基づいて算出された仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を受信する受信部と、を更に備える、請求項１に記載の音場制御装置。
　前記送信部は、前記表示対象物の位置情報とともに音声データを前記外部のコンピュータへ送信し、
　前記受信部は、前記外部のコンピュータから前記表示対象物の位置情報に基づいて算出された仮想音源再生補正係数によって前記音声データを補正して得られる音声データを受信する、請求項２に記載の音場制御装置。
　視聴者の位置情報を取得する視聴者位置情報取得部を更に備え、
　前記仮想音源位置制御部は、前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて仮想音源位置の制御を行う、請求項１に記載の音場制御装置。
　前記視聴者位置情報取得部は、撮像により得られた情報から前記視聴者の位置情報を取得する、請求項４に記載の音場制御装置。
　前記表示対象物の位置情報及び前記視聴者の位置情報を外部のコンピュータへ送信する送信部と、
　前記外部のコンピュータから前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて算出された仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を受信する受信部と、を更に備える、請求項４に記載の音場制御装置。
　前記送信部は、前記表示対象物の位置情報及び前記視聴者の位置情報とともに音声データを前記外部のコンピュータへ送信し、
　前記受信部は、前記外部のコンピュータから、前記表示対象物の位置情報及び前記視聴者の位置情報に基づいて算出された仮想音源再生補正係数によって前記音声データを補正して得られる音声データを受信する、請求項６に記載の音場制御装置。
　音源に対応する表示対象物の位置情報を取得することと、
　前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行うことと、
　を備える、音場制御方法。
　音源に対応する表示対象物の位置情報を取得する手段、
　前記表示対象物の位置情報に基づいて、仮想音源位置の制御を行う手段、
　としてコンピュータを機能させるためのプログラム。
　音源に対応する表示対象物の位置情報を取得する表示対象物位置情報取得部と、
　前記対象物の位置情報を外部コンピュータへ送信する送信部と、
　前記外部コンピュータから前記対象物の位置情報に基づいて算出された仮想音源再生補正係数を受信する受信部と、を有するクライアント端末と、
　前記表示対象物の位置情報を受信する受信部と、
　前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出する仮想音源再生補正係数算出部と、
　前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信する送信部と、を有する前記外部コンピュータと、
　を備える、音場制御システム。
　クライアント端末から音源に対応する表示対象物の位置情報を受信する受信部と、
　前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出する仮想音源再生補正係数算出部と、
　前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信する送信部と、を有する前記外部コンピュータと、
　を備える、サーバ。
　クライアント端末が音源に対応する表示対象物の位置情報を取得することと、
　クライアント端末が前記対象物の位置情報を外部コンピュータへ送信すること、
　前記外部コンピュータが前記表示対象物の位置情報を受信する受信部と、
　前記外部コンピュータが前記表示対象物の位置情報に基づいて前記仮想音源再生補正係数を算出することと、
　前記外部コンピュータが、前記仮想音源再生補正係数又は前記仮想音源再生補正係数に基づいて生成された情報を前記クライアント端末へ送信することと、
　を備える、音場制御方法。
　撮像により得られた情報から視聴者の位置情報を取得する位置情報取得部と、
　前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、
　を備える、音場制御装置。
　前記仮想音源位置制御部は、前記視聴者の位置に係わらず音像の定位が固定されるように仮想音源位置の制御を行う、請求項１３に記載の音場制御装置。
　前記仮想音源位置制御部は、前記視聴者の位置に応じて音像の定位が相対的に移動するように仮想音源位置の制御を行う、請求項１３に記載の音場制御装置。
　前記仮想音源位置制御部は、前記位置情報に基づいて、頭部伝達関数を変化させることで前記仮想音源位置の制御を行う、請求項１３に記載の音場制御装置。
　前記仮想音源位置制御部は、前記視聴者の位置が変化する前の係数から前記視聴者の位置が変化した後の係数へ滑らかに変化させることで、位置情報に基づいて、前記仮想音源位置の制御を行う、請求項１３に記載の音場制御装置。
　前記仮想音源位置制御部は、位置情報に基づいて、前記視聴者の移動が所定値以上の場合に前記仮想音源位置の制御を行う、請求項１３に記載の音場制御装置。
　前記位置情報に基づいて、音量、音の遅延量、又は指向特性を制御する制御部を更に備える、請求項１３に記載の音場制御装置。
　前記視聴者の位置情報を取得する撮像部を備える、請求項１３に記載の音場制御装置。
　姿勢情報を取得する姿勢情報取得部を備え、
　前記仮想音源位置制御部は、前記位置情報及び前記姿勢情報に基づいて、仮想音源位置の制御を行う、請求項１３に記載の音場制御装置。
　前記位置情報取得部は、前記視聴者を撮像する撮像部を有する他の機器から前記撮像により得られた情報を取得する、請求項１３に記載の音場制御装置。
　視聴者の位置情報を取得することと、
　前記位置情報に基づいて、仮想音源位置の制御を行うことと、
　を備える、音場制御方法。
　視聴者の位置情報を取得する手段、
　前記位置情報に基づいて、仮想音源位置の制御を行う手段、
　としてコンピュータを機能させるためのプログラム。
　視聴者を撮像する撮像装置と、
　前記撮像装置から得られた情報から視聴者の位置情報を取得する位置情報取得部と、前記位置情報に基づいて、仮想音源位置の制御を行う仮想音源位置制御部と、を有する音場制御装置と、
　を備える、音場制御システム。