JP2007158527A

JP2007158527A - 信号処理装置、信号処理方法、再生装置、記録装置

Info

Publication number: JP2007158527A
Application number: JP2005348132A
Authority: JP
Inventors: Yuichi Abe; 友一阿部
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-12-01
Filing date: 2005-12-01
Publication date: 2007-06-21

Abstract

【課題】映像と音声とを含むコンテンツについて、例えば映像内の音源の位置や映像内容に応じた響きと、音源の定位位置や音の響きを一致させて、より臨場感のある映像・音場空間を再現する場合において、コンテンツの編集に要する手間と時間の低減を図る。
【解決手段】音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号に基づき、映像信号による映像内容に応じた音声信号の音響的な属性に係る音声属性情報を取得する共に、この音声属性情報に基づき上記音声信号に対し所定の音声信号処理を施す。映像内の音源の位置や映像内容に応じた響きの情報などの音声属性情報を、上記音声同期情報信号に基づいて自動的に取得することができるので、従来のように音源の位置や映像内容に応じた響きの情報を時間軸に沿って逐次手動で指示する必要がなくなる。
【選択図】図１０

Description

本発明は、音声信号に同期した情報信号として少なくとも映像信号を含む音声同期信号に基づき音声信号についての信号処理を施す信号処理装置とその方法に関する。また、このような信号処理装置を含んで構成される再生装置と記録装置とに関する。

特開２００２−１９９４９８号公報

従来より、マルチサラウンドのスピーカシステムの普及により、一般家庭などでもホームシアターなどと称されるように映画館のような臨場感あるサラウンド再生を行って映像コンテンツを楽しむことができるようになっている。

サラウンド音声の再生には５．１ｃｈ（チャンネル）のサラウンドシステムが一般的に用いられている。この５．１ｃｈサラウンドシステムは、音声を再生する再生装置と、前方中央、前方左、前方右、後方左、後方右の５つのスピーカと重低音強調のためのサブウーファの計６つのスピーカとから構成される。これら６つのスピーカを用いることにより、スピーカ位置とは異なる位置に仮想的な音源（仮想音像）を配置することができ、ステレオ出力よりもはるかに立体的で臨場感ある音場が実現できる。

サラウンド音声の再生には、サラウンドシステムに対応したサラウンドデータが必要である。これに応じ従来では、音源ごとに収録された各トラックデータの仮想音像位置を二次元グラフィック上で設定することで、５．１ｃｈのサラウンドデータを作成することのできるアプリケーションソフトウエアが広く普及している。

また、このようなサラウンドデータの生成にあたっては、映像システムとサラウンドシステムとを組み合わせ、音源となる映像内の移動体や、カメラの視点の移動などに伴って、自動的に仮想音源位置を移動させる手法もある（例えば上記特許文献１参照）。

また、一方で、より臨場感のある音場の生成には、例えばサンプリングリバーブ技術などを用いて、例えばコンサートホールなどにおける音の響き（残響）を仮想的に再現することが有効である。つまり、実際にコンサートホールや教会などでの音の響きの情報をサンプリングしておき、これに応じた残響効果を再生音声信号に与えることで、例えばスタジオで収録された音声データを、実際のコンサートホールや教会などで収録されたかのように臨場感をもって再現することができるといったものである。

しかしながら、これら臨場感のある音場を再現するための従来技術には、以下の点で問題を有している。
つまり、上記により例示した従来技術において、サラウンドデータとして各トラックデータの仮想音像位置を設定するためには、コンテンツの制作者等が手動で各トラックデータの仮想音像位置を指示入力しなければならない。
特に、映像内に映し出される音源の位置に応じた位置に音源を定位させるとしたとき、映像内の音源の位置が動的に動くものであった場合には、時間軸に沿って逐次仮想音像の位置を設定しなければならず、これに伴ってコンテンツの作成に多大な手間と時間を要してしまう。

なお、先の特許文献１の技術によれば、映像内の移動体の移動に合わせ、仮想音像位置を移動させることは可能である。しかしながら、この特許文献１はゲーム装置を対象にしたものである。つまり、この場合、映像内の物体とは仮想空間内の物体のことであり、その映像内の位置情報は容易に把握することができる。要するにこの特許文献１の手法では、実世界を撮影した映像内の音源位置を特定することはできず、例えばライブ映像など実際に撮影された映像について音源の位置とその音声の定位位置とを一致させることはできないものである。

また、一方のサンプリングリバーブ方式のような響きを再現する技術としても、予め映像内容に応じた響きの情報を手動により指定しなければならない。例えば、映像が時間軸に沿って「外→トンネル→外→コンサートホール」といったように遷移する場合、それぞれの状況に応じた響きの情報を時間軸に沿って手動で割り振るようにしなければならない。

このようにして、映像と音声とを含むコンテンツについて、映像内の音源の位置や映像内容に応じた響きと、音源の定位位置や音の響きを一致させ、より臨場感のある映像・音場空間を再現するといった場合には、音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示するようにされているのが現状であり、その分コンテンツの編集に比較的多くの手間と時間を要することが問題となっている。

このため、本発明では以上のような問題点に鑑み、信号処理装置として以下のようにすることとした。
つまり、音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが入力される信号処理装置であって、先ず、上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段を備える。
そして、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段を備えるようにしたものである。

また、本発明では再生装置として以下のように構成することとした。
つまり、音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが記録された記録媒体についての再生を行う再生手段を備える。
また、上記再生手段により再生される音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段を備える。
また、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段を備えるようにしたものである。

さらに、本発明では記録装置として以下のように構成することとした。
すなわち、音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが入力される信号処理部であって、上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、を備えた信号処理部を備える。
そして、上記音声信号処理手段により音声信号処理の施された上記音声信号と、上記映像ストリームとを所要の記録媒体に対して記録する記録手段を備えるようにしたものである。

上記のようにして本発明では、少なくとも映像信号を含むものとされる音声同期情報信号に基づき、上記映像信号による映像内容に応じた音声信号の音響的な属性に係る音声属性情報を取得するようにされる。
ここで、上記音声同期情報信号は、音声信号と同期した情報信号であるので、時間軸に沿って変化する音声属性情報を適正に表す情報として用いることができる。つまり、このことにより、映像内に映し出される音源の位置情報や映像内容に応じた響きの情報などといった音声属性情報は、この音声同期情報信号に基づいて自動的に取得することができる。

このようにして本発明によれば、映像内に映し出される音源の位置情報や映像内容に応じた響きの情報などといった音声属性情報を、音声同期情報信号から自動的に取得することができるので、映像と音声とを含むコンテンツについて、映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させ、臨場感のある映像・音場空間を再現するといった場合にも、従来のように音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示する必要はなくなる。
つまり、これによって、映像と音声とを含むコンテンツについて、例えば映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させて臨場感のある映像・音場空間を再現するとした場合に、コンテンツの編集に要する手間と時間を大幅に削減することができる。

また、本発明の再生装置によれば、記録媒体から再生した音声同期情報信号に基づき上記音声属性情報を取得し、この取得された音声属性情報に基づき音声信号について所定の音声信号処理を施すことで、上記のように映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させて臨場感のある映像・音場空間を再現することができる。

また、本発明の記録装置によれば、音声同期情報信号に基づき上記音声属性情報を取得し、この取得された音声属性情報に基づき音声信号について所定の音声信号処理を施し、このように処理された音声信号と上記映像ストリームとを所要の記録媒体に記録することができるので、上記記録媒体に対し、映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させて臨場感のある映像・音場空間を再現することができるコンテンツを記録することができる。

以下、発明を実施するための最良の形態（以下実施の形態とする）について説明していく。

＜第１の実施の形態＞

図１は、本発明における第１の実施の形態としての信号処理装置を含んで構成される、再生装置１の内部構成について示している。
先ず、この再生装置１は、図示するメディア再生部２を備え、例えばＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）、或いはブルーレイディスク（Blu-Ray Disc）などの光ディスク記録媒体や、ＭＤ（Mini Disc：光磁気ディスク）、ハードディスクなどの磁気記録媒体、半導体メモリを内蔵した記録媒体など、所要の記録媒体についての再生が可能とされる。

ここで、先ず前提として、メディア再生部２が再生する記録媒体には、映像及び音声を含むコンテンツが記録される。
このようなコンテンツとしては、例えばコンサートライブなどを収録した所謂ライブビデオである場合を想定する。
但し、この場合、記録媒体に対しては、ボーカル、ギター、ドラム、ベース、キーボード（鍵盤楽器）などの歌唱・演奏者（以下Playerとも言う）ごとに、それぞれ個別に近接マイクなどを用いてその音声を収録し（いわゆるライン収録）、このようにPlayerごとにライン収録した音声信号を、例えばトラックごとに分けられるなどして別々に記録するようにされている。そして、このような音声信号と共に、これらPlayerがコンサートホールなどの会場で歌唱・演奏する様子を撮影した映像が収録されたものとなっている。

例えばこのような構成によるコンテンツを想定した場合において、各Playerは、それぞれ独立した音源となるようにされる。つまり、映像に映し出される各Playerの位置が、それぞれの音源の位置となるものである。
再生装置１としては、ライン収録された各Player（各音源）ごとの音声信号が定位する位置と、映像内に映し出される各Playerの位置（各音源の位置）とが一致するように再現することを目的とする。すなわち、これを実現することで、より臨場感のある映像・音場空間が再現されるようにするものである。

また、この場合、映像内のPlayerの位置としては、左右方向と共に上下方向も定義して二次元的に表すものとし、これに応じPlayerごとの音声信号が定位する位置（仮想音像位置）としても、上下左右の二次元的に再現するものとしている。

このために、再生装置１で生成した音声信号を音声出力するスピーカＳＰとしては、次の図２に示されるように、ディスプレイ又はスクリーンの中心点を中心として左右対象に配置されるＬchのスピーカＳＰLとＲchのスピーカＳＰRとを備える。そして、これらＬchのスピーカＳＰLとＲchのスピーカＳＰRとしては、それぞれを縦方向にも積み重ねて配置するようにされる。つまりこの場合、ＬchのスピーカＳＰLとしては、下方に配置されるスピーカＳＰL-unと、その上方に配置されるスピーカＳＰL-upとが設けられる。同様にＲchのスピーカＳＰRとしては、下方に配置されるスピーカＳＰR-unと、その上方に配置されるスピーカＳＰR-upとが設けられる。

なお、ここで注意点として、以下で説明する第１の実施の形態を含めた各実施の形態においては、説明の便宜上、音声信号には１つの音源（Player）についての音声のみが含まれているものとして説明を続ける。すなわち、この場合の音声信号Ａとしては、１つの音源についてライン収録した音声信号のみが再生されるものとする。

図１において、メディア再生部２においては、上述のようにして記録媒体についての再生を行うことで、映像信号Ｖを含む映像ストリームデータＶ-strmと、音声信号Ａを含む音声ストリームデータＡ-strmとが得られる。
これら映像ストリームデータＶ-strm、音声ストリームデータＡ-strmは、実データとしての映像信号Ｖ、音声信号Ａと、所定の付加情報とが多重化されたストリームデータである。

ここで、確認のために、次の図３には、上記映像ストリームデータＶ-strmのデータ構造を示しておく。この図３にも示されるように、映像ストリームデータＶ-strmは、映像信号Ｖとその付加データとを含んで構成される。付加データとしては、例えばセクター単位などの所定データ単位ごとに埋め込まれるデータあり、映像信号Ｖについての付加的なデータ内容を有する。
なお、図示は省略するが音声ストリームデータＡ-strmとしても、同様に所定のデータ単位ごとに音声信号Ａについての付加データが埋め込まれた構造を有するものとなる。

図１において、映像ストリームデータＶ-strmはビデオデコーダ３に供給され、ここにおいてデコード処理が施されることで映像信号Ｖが得られる。
また、音声ストリームデータＡ-strmはオーディオデコーダ４に供給され、同様にデコード処理が施されることで音声信号Ａが得られる。
映像信号Ｖは映像出力端子Ｔｖに供給されると共に、図示する音源座標取得部６に対しても分岐して供給される。映像出力端子Ｔｖからの映像信号Ｖは、先の図２に示したディスプレイまたはスクリーン（プロジェクタ装置）に供給される。
一方、音声信号Ａは、音声信号処理部５に対して供給される。

なお、この図１では破線により、次に説明する音源座標取得部６、座標変換部７、定位位置制御部８、変換マトリクス算出部９、音声信号処理部５を囲って示しているが、これら破線で囲われる部分が第１の実施の形態としての信号処理装置を形成するものとなる。

音源座標取得部６は、上記映像信号Ｖに基づき、映像中の音源の位置を表す座標値（後述する映像座標系の座標値）を取得する。
このような映像信号Ｖからの音源座標値の取得は、例えば以下のような手法により実現できる。
つまり、予め映像撮影時において、Playerとしての人物に対し例えば赤外線によるＩＤ情報を発光する発光装置などの所定のマーカーを付して映像を撮影しておき、音源座標取得部６では、供給される映像信号Ｖからこのマーカーの位置を画像処理により検出し、これをトラッキングすることでPlayerの映像中における位置情報、すなわち音源の座標値を順次取得するように構成するものである。
これによって映像中の音源の位置情報を、映像信号Ｖに基づき取得することができる。
また、これと共に音源座標取得部６は、入力される映像信号Ｖの水平総画素数と垂直総画素数の情報を、後述する変換マトリクス算出部９に与える。

座標変換部７は、音源座標取得部６により取得された座標値を、図示する変換マトリクス算出部９により算出された変換マトリクスに基づき音声座標系の座標値に変換する。

ここで、映像内におけるPlayer（音源）の移動量は、あくまで映像内での移動量であって実世界の移動量ではなく、仮想音像の位置を映像内での移動量だけ移動させても映像内のPlayerの位置と仮想音像の位置とは一致しないことも考えられる。すなわち、映像内の音源の位置は映像座標系で定義されるのに対し、その仮想音像位置は音声座標系（実世界座標系）で定義されるべきものとなる。

このことを、次の図４、図５を参照して説明する。図４は、映像信号Ｖに基づく映像が映し出される表示画面（ディスプレイ又はスクリーン）と映像座標系との関係について示し、図５では上記表示画面と各スピーカＳＰの配置位置と音声座標系との関係について示している。
なお、図５では図示の都合上、スピーカＳＰが縦方向に重ねて配置されるようには示していないが、実際には先の図２に示したようにしてスピーカＳＰL-unとスピーカＳＰL-up、スピーカＳＰR-unとスピーカＳＰR-upとがそれぞれ積み重ねられて配置されるものとする。

先ず図４に示すように、映像座標系としては、例えば表示画面の横（水平）方向をｘ軸とし、縦（垂直）方向をｙ軸とし、表示画面の左上隅の座標値（ｘ，ｙ）を（０，０）、つまり原点とすることができる。この場合において、原点から水平方向への画素数が「１００」、垂直方向への画素数が「５０」である点は、図示するように座標値（１００，５０）と表すことができる。ここでは、映像中の音源の位置の座標値が、この座標値（１００，５０）の位置であったとする。

一方、図５における音声座標系においては、スピーカＳＰL-un、スピーカＳＰL-up、スピーカＳＰR-un、スピーカＳＰR-upからの音声出力により可能な仮想音像の定位範囲（以下、定位可能範囲と称する）の中心の座標値（ｘ，ｙ）を（０，０）と表現するようにされる。
例えば、先の図２において各スピーカＳＰをディスプレイ又はスクリーンの中心点を中心として左右及び上下対称に配置した場合には、図示するようにして表示画面の中心が（０，０）となるようにされる。
この場合も水平方向はｘ軸、垂直方向はｙ軸で表す。またｙ軸方向において中心から上方向を正の値、下方向を負の値により示す。またｘ軸方向においては右方向を正の値、左方向を負の値により示す。これにより中心から右方向に１００cm、上方向に５０cmとなる位置は、図中に黒丸で示す座標値（１００，５０）と表すことができる。

ここで、図４に示される映像座標系での音源位置の座標値（１００，５０）をこのような音声座標系にそのまま適用したとしても、上記のように音声座標系における座標値（１００，５０）は画面中心から右方向に１００cm、上方向に５０cmの位置となることからもわかるように、両者は一致するものとはならない。つまり、図４に示す音源の位置に応じて仮想音像を定位させるべき正しい位置は、実際には図中の破線丸印で示す位置であるのに対し、この場合は誤った位置が仮想音像の位置として認識されてしまうことになる。

そこで、図１に示す再生装置１では、上述のようにして座標変換部７を設け、音源座標取得部６により取得された映像座標系の座標値を、変換マトリクス算出部９により算出される変換マトリクスに基づいて音声座標系の座標値に変換するものとしている。
この場合、変換マトリクスは、映像座標系による３点の座標値と、これら３点の各々と対応する音声座標系（実世界座標系）による３点の座標値とが与えられることで算出することができる。
具体的に、この場合において映像座標系と音声座標系とで対応関係が明らかなのは、表示画面の四隅の端点と、定位可能範囲の四隅の端点となる。従って、変換マトリクスは、表示画面側の四隅端点のうちの３点と、定位可能範囲側の四隅の端点のうちの対応する３点とについての座標値がそれぞれ与えられることで、算出することができる。

変換マトリクス算出部９には、音源座標取得部６から水平総画素数と垂直総画素数の情報が入力され、これら画素数情報に基づき、上記表示画面の四隅の端点のうちの所定の３点についての座標値を取得するようにされる。また、変換マトリクス算出部９には、図示する操作部１０を介したユーザ操作に基づき、上記所定の３点と同じ位置関係となる定位可能範囲側の３つの端点についての座標値が与えられる。
変換マトリクス算出部９は、これら映像座標系による３点の端点の座標値と音声座標系による３点の端点の座標値とに基づき、変換マトリクスを算出する。

なお、この場合のユーザに対しては、実際に定位可能範囲の上記３つの端点の座標値（例えばcm単位）について計測させ、これら３点の座標値を直接的に入力させるようにしてもよいが、例えばスピーカシステムとしては推奨の配置位置寸法が規定されたものもあり、その場合はスピーカシステムとしてどのシステムが用いられているかがわかれば、定位可能範囲の寸法がわかり、よって上記音声座標系による３つの端点の座標値も判明する。このことから、ユーザにはスピーカシステムについての製品型番や製品名称等の製品特定情報を選択又は指示入力させる操作のみを行わせ、その製品特定情報に基づき上記３点の音声座標系による座標値を得るように構成することもできる。

また、確認のために述べておくと、変換マトリクスの算出は、映像座標系と音声座標系との対応関係が維持される限りにおいては、再計算の必要はない。すなわち、例えばディスプレイ又はスクリーンとして画素数の異なる製品が用いられたなど映像座標系が変化した場合や、異なるスピーカシステムを使用して音声座標系が変化した等の場合にのみ、再計算が行われるようにされればよい。

座標変換部７は、上記のようにして算出された変換マトリクスを用いて、音声座標取得部６により取得される映像座標系による音源位置の座標値を、音声座標系の座標値に順次変換するようにされる。そして、このようにして得られた音源位置の音声座標系による座標値を、定位位置制御部８に対して供給するようにされる。

定位位置制御部８は、供給された音声座標系による音像位置に仮想音源を定位させるために、図２に示した各スピーカＳＰから出力されるべき音声に対しそれぞれ与えられるべきゲイン値を決定する。
すなわち、供給された音声座標系の座標値としてｘの値とｙの値とが共に正の値であれば、その値に応じてスピーカＳＰR-upから出力されるべき音声のゲインが他のスピーカＳＰからの音声のゲインに対して相対的に大きくなるように、各ゲイン値を決定する。或いは、供給された座標値としてｘの値とｙの値とが共に負の値であれば、その値に応じてスピーカＳＰL-unから出力されるべき音声のゲインが他のスピーカＳＰからの音声のゲインに対して相対的に大きくなるように、各ゲイン値を決定するといったものである。

音声信号処理部５は、オーディオデコーダ４から供給される音声信号Ａに対するゲイン調整や残響付加などの音声信号処理を実行するように構成される。
特に本実施の形態の場合は、上記定位位置制御部８から供給される各スピーカＳＰ対応のゲイン値に基づき、音声信号Ａについてのゲイン調整を行うようにされる。
具体的には、入力される音声信号Ａに対し、ゲイン値GL-unを乗算した音声信号ＡL-UNと、ゲイン値GL-upを乗算した音声信号ＡL-upと、ゲイン値GR-unを乗算した音声信号ＡR-unと、ゲイン値GR-upを乗算した音声信号ＡR-upとを生成する。
音声信号処理部５により生成された音声信号ＡL-unは、図示するようにして音声出力端子ＴAUL-unに供給される。同様に、音声信号ＡL-upは音声出力端子ＴAUL-up、音声信号ＡR-unは音声出力端子ＴAUR-un、音声信号ＡR-upは音声出力端子ＴAUR-upに対しそれぞれ供給される。

そして、音声出力端子ＴAUL-unは、図２に示したスピーカＳＰL-unと接続される。また音声出力端子ＴAUL-upはスピーカＳＰL-up、音声出力端子ＴAUR-unはスピーカＳＰR-un、音声出力端子ＴAUR-upはスピーカＳＰR-upとそれぞれ接続される。
これによってスピーカＳＰL-unからは音声信号ＡL-unを出力でき、スピーカＳＰL-upからは音声信号ＡL-upを出力できる。また、スピーカＳＰR-unからは音声信号ＡR-unを出力でき、スピーカＳＰR-upからは音声信号ＡR-upを出力することができる。
つまり、これによって映像内に映し出されるPlayerの位置（音源の位置）と、ライン収録された当該Playerの音声が定位する位置（仮想音像位置）とが一致するように再現することができ、より臨場感のある映像・音場空間を再現することができる。

これまでで説明した再生装置１によれば、映像信号Ｖに基づき音源の座標値が取得され、この座標値に基づき自動的に仮想音源の定位位置制御が行われる。つまり、これによってこの場合コンテンツの制作側としては、上記のようにして映像内に映し出される音源の位置とその音源の仮想音像位置とが一致するようにしてより臨場感のある映像・音場空間を再現させるにあたり、時間軸に沿って音源の位置情報を指定してゲイン調整を行う手間が省けるので、これに伴ってコンテンツの編集に要する手間と時間を有効に削減することができる。

なお、ここでは各スピーカＳＰから出力される音声信号のそれぞれのゲイン値の調整により定位位置の制御を行うものとしているが、各スピーカＳＰから出力される音声信号の位相差の調整によって定位位置制御を行うこともできる。または、これらの双方により定位位置制御を行うこともできる。

図６は、上記により説明した第１の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
図６において、先ずステップＳ１０１では、映像信号に基づき音源位置の映像座標系による座標値を取得する。この動作は、音源座標取得部６が、ビデオデコーダ３によるデコード処理により映像ストリームデータＶ-strmから得られた映像信号Ｖに基づき、音源位置の座標値を取得する動作に相当する。
この場合、音源位置の座標値の取得手法としては、例えば先に説明したように、先ずは予め映像の撮影時においてPlayerとしての人物に対し例えば赤外線ＩＤの発光装置などの所定のマーカーを付して映像を撮影しておく。そして、音源座標取得部６としては、供給される映像信号Ｖからこの所定のマーカーの位置を画像処理により検出し、これをトラッキングすることでPlayerの映像中における位置情報、すなわち音源位置の座標値を順次取得するようにする。

ステップＳ１０２では、取得した座標値を音声座標系の座標値に変換する。
つまり、座標変換部７が、変換マトリクス算出部９により算出された変換マトリクスに基づき、音源座標取得部６により取得された座標値を音声座標系の座標値に変換する。

ステップＳ１０３では、音声座標系の座標値に基づく定位位置制御を行う。
このステップＳ１０３としては、先ず定位位置制御部８が、供給された音声座標系による音像位置に仮想音源を定位させるために、図２に示した各スピーカＳＰから出力されるべき音声信号に対しそれぞれ与えられるべきゲイン値（GL-un、GL-up、GR-un、GR-up）を決定する。そして、音声信号処理部５が、入力される音声信号Ａに対しゲイン値GL-unを乗算した音声信号ＡL-unと、ゲイン値GL-upを乗算した音声信号ＡL-upと、ゲイン値GR-unを乗算した音声信号ＡR-unと、ゲイン値GR-upを乗算した音声信号ＡR-upとを生成する。
これにより、映像内に映し出されるPlayerの位置（音源の位置）と、ライン収録された当該Playerの音声が定位する位置とが一致するように再現することのできる音声信号が生成される。

なお、これまでの説明では、本実施の形態としての信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図６に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはＲＯＭ等の記録媒体が備えられ、そこに上記プログラムが記録される。

＜第２の実施の形態＞

図７は、第２の実施の形態としての信号処理装置を含んで構成される再生装置２０の内部構成について示している。
第２の実施の形態は、映像内容に応じた音の響きを音声信号に与えるように構成したものである。具体的には、映像内に映し出される場所に応じた音の響きを音声信号に対して与えるようにされる。
なお、この図７において、既に先の図１において説明した部分については同一符号を付して説明を省略する。

第２の実施の形態の再生装置２０としては、図１に示した再生装置１の構成から操作部１０を省略すると共に、図中破線により囲う部分を変更したものとなる。
この破線により囲う部分が、第２の実施の形態としての信号処理装置を構成する部分となる。つまり、第２の実施の形態の信号処理装置の構成要素は、少なくとも図示するメタデータ抽出部２１、残響効果制御部２２、残響データテーブル２３、音声信号処理部５となる。

先ず、メタデータ抽出部２１は、この場合の映像ストリームデータＶ-strm内に含まれるメタデータを抽出するようにされる。

ここで、第２の実施の形態では、上述のようにして映像内容に応じた音の響きを音声信号に与えるにあたって、予めコンテンツの制作側において、映像信号Ｖに対して映像内に映し出される場所を特定するための場所情報を付加しておくようにされる。そして、このように場所情報を付加した映像信号を記録媒体に対して記録するようにされている。
確認のために述べておくと、このような映像内に映し出される場所を特定するための場所情報は、映像内に映し出される場所に応じた音の響きを再現する上で、その場所に応じた音の響きを特定するための情報となる。従ってこのような場所情報は、音声信号の音響的な属性に係る音声属性情報となるものである。

図８は、第２の実施の形態の場合の映像ストリームデータＶ-strmの構造を示しているが、この場合は図示するように付加データ内の情報として、上記場所情報をメタデータとして格納するようにされている。
例えば本実施の形態のようにコンテンツとしてライブ映像が収録される場合には、上記場所情報としては特定のコンサートホールを識別するための情報を格納するものとすればよい。或いは、映像内容として例えば「外→トンネル→外→コンサートホール」などのように時系列に沿って場所が遷移する場合には、時間軸に沿ってこれらの場所を特定するための場所情報を格納すればよい。
先にも述べたように映像ストリームデータＶ-strm内における付加データは、所定のデータ単位ごとに付加するようにされている。このことで、映像内容として時間軸に沿って場所が変化する場合にも対応して、それぞれの場所を表す場所情報を時間軸上で対応づけて埋め込むことができる。

ここで、この場合、音声信号Ａと映像信号Ｖとは同期した信号である。そして、上記説明によれば、映像信号Ｖと付加データ内のメタデータとは同じ時間軸に沿った同期した情報となる。これらのことから、この場合は映像信号Ｖと共に上記メタデータが、本発明で言う音声同期情報信号となる。

図７において、メタデータ抽出部２１は、このような映像ストリームデータＶ-strmからメタデータを抽出し、上記場所情報を取得するようにされる。そして、この場所情報を残響効果制御部２２に供給する。

残響効果制御部２２は、図示する残響データテーブル２３に基づき、メタデータ抽出部２１から入力される場所情報に応じた残響データを取得し、この残響データに基づき音声信号処理部５における音声信号Ａに対する残響付加処理について制御する。
残響データテーブル２３には、場所情報と、この場所情報により特定される場所での音の響きを再現するための残響データとが対応づけられて格納されており、残響効果制御部２２は、このような残響データテーブル２３から、入力された場所情報と対応づけられている残響データを取得することで、対応する残響データを得ることができる。
そして、このような残響データを音声信号処理部５に供給することで、当該音声信号処理部５における音声信号Ａに対する残響付加処理について制御するようにされる。
つまり、この場合の音声信号処理部５は、オーディオデコーダ４から供給される音声信号Ａに対し、残響効果制御部２２から供給された残響データに基づく残響付加処理を施す。これによって音声信号Ａに対しては、映像内容に応じた音の響きを再現するための残響が付加されることになる。
そして、このように残響を付加した音声信号Ａを、この場合の音声出力端子ＴAUの数に応じた４系統に分岐して出力するようにされる。

なお、第２の実施の形態としては、第１の実施の形態のような上下方向への仮想音像の定位制御は行わないことから、スピーカＳＰとしては必ずしも上下方向に積み重ねて配置する必要はない。すなわち、この場合の音声出力端子ＴAUとしては、ＬchとＲchの各々１つずつのみを設けるようにすることもできる。
但し、例えば教会やコンサートホールなど天井の高さを強調する残響を付加するとした場合等には、上下方向にもスピーカＳＰを配置することでより臨場感を高めることができる。

上記構成により、第２の実施の形態の再生装置２０によれば、実際の出力音声による音の響きを、映像内容に応じた音の響きと一致させることができ、これによってより臨場感のある映像・音場空間を再現することができる。
また、このような再生装置２０では、音声同期情報信号としてのメタデータに基づき、映像内に映し出される場所に応じた残響データを取得することができ、この残響データに基づいて自動的に音声信号Ａに対する残響付加が行われる。つまり、この場合コンテンツの制作側としては、予め映像信号Ｖに対しメタデータを付加することで、上記のように実際の出力音声による音の響きを映像内容に応じた音の響きと一致させてより臨場感のある映像・音場空間を再現させることができる。

図９は、第２の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
先ずステップＳ２０１では、メタデータに基づき映像内容に応じた場所情報を取得する。
つまり、メタデータ抽出部２１が映像ストリームデータＶ-strmからメタデータとして格納される場所情報を取得する。

そして、ステップＳ２０２では、残響データテーブルから、取得された場所情報に応じた残響データを取得する。すなわち、残響効果制御部２２が、残響データテーブル２３から、メタデータ抽出部２１から供給された場所情報と対応づけられている残響データを取得する。

その上でステップＳ２０３では、音声信号に対し残響データに基づく残響付加処理を行う。つまり、音声信号処理部５が、残響効果制御部２２から供給された残響データに基づき、音声信号Ａに対し残響付加処理を施す。

なお、第２の実施の形態としても、信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図９に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはＲＯＭ等の記録媒体が備えられ、そこに上記プログラムが記録される。

また、第２の実施の形態において、場所情報と残響データとの対応づけは、映像内において音源が配置される場所から予測される擬似的な音の響きを対応づける、或いはサンプリングリバーブ方式のように、実際にその場所において測定した音の響きの情報を対応づけるようにして行うことができる。

また、第２の実施の形態では、映像内容に応じた残響付加にあたり、映像信号Ｖに対して場所情報をメタデータにより埋め込むものとしたが、映像内容に応じた響きを再現するための残響データを特定できる情報であれば、場所情報に限定されるべきものではない。また、このように残響データを特定するための情報を埋め込まずとも、残響データそのものを直接的にメタデータにより埋め込むようにすることもできる。
なお、このことは次に説明する第３の実施の形態についても同様である。

＜第３の実施の形態＞

図１０は、第３の実施の形態としての信号処理装置を含んで構成される再生装置３０の内部構成について示している。
第３の実施の形態は、第１の実施の形態と第２の実施の形態とを組み合わせて、音像位置と仮想音像の位置との一致と、実際の出力音声の音の響きと映像内容に応じた音の響きとの一致の双方を実現することで、さらに臨場感のある映像・音場空間を再現しようとするものである。
なお、この図１０において、既に図１、図７にて説明した部分については同一符号を付して説明を省略する。

第３の実施の形態の再生装置３０としては、この図１０に示される破線により囲った信号処理装置として、先の図１に示した信号処理装置の構成要素（音源座標取得部６、座標変換部７、定位位置制御部８、変換マトリクス算出部９、音声信号処理部５）と、先の図７に示した信号処理装置の構成要素（メタデータ抽出部２１、残響効果制御部２２、残響データテーブル２３、音声信号処理部５）とを組み合わせたものを含むようにして構成される。

この場合、音声信号処理部５としては、オーディオデコーダ４から供給される音声信号Ａに対し、定位位置制御部８から供給されるゲイン値GL-unを乗算した音声信号ＡL-unと、ゲイン値GL-upを乗算した音声信号ＡL-upと、ゲイン値GR-unを乗算した音声信号ＡR-unと、ゲイン値GR-upを乗算した音声信号ＡR-upとを生成する。
その上で、これら音声信号ＡL-un、音声信号ＡL-up、音声信号ＡR-un、音声信号ＡR-upに対し、残響効果制御部２２から供給される残響データに応じた残響付加処理を施す。そして、このように残響付加処理が施された音声信号ＡL-un、音声信号ＡL-up、音声信号ＡR-unと、音声信号ＡR-upをそれぞれ対応する音声出力端子ＴAUに対して出力するようにされる。

このような第３の実施の形態としての再生装置３０によれば、映像内に映し出される音源の位置とその音源の仮想音像位置とを一致させることと、実際の出力音声による音の響きと映像内容に応じた音の響きとを一致させることの双方を実現することができ、これによってさらに臨場感のある映像・音場空間を再現することができる。
また、この場合としても、音像位置を示す座標値と、残響データを特定するための場所情報とは、それぞれ映像信号Ｖとメタデータとしての音声同期情報信号に基づいて自動的に取得されるので、従来のように音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示する必要はなくなる。つまり、これによってコンテンツの編集に要する手間と時間を大幅に削減することができる。

図１１は、第３の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
この場合の信号処理装置の動作としては、先の図６に示した第１の実施の形態としての動作と、図９に示した第２の実施の形態としての動作とが並行して行われるものとなる。
つまり、ステップＳ３０１、ステップＳ３０２では、先の図９に示したステップＳ２０１、ステップＳ２０２と同様に、メタデータに基づく映像内容に応じた場所情報の取得と、残響データテーブルから取得された場所情報に応じた残響データを取得する動作が行われる。
一方で、これと並行したステップＳ３０３、ステップＳ３０４、ステップＳ３０５として、先の図６に示したステップＳ１０１、ステップＳ１０２、ステップＳ１０３と同様に映像信号に基づき音源位置の映像座標系による座標値を取得する動作と、取得した座標値を音声座標系の座標値に変換する動作と、音声座標系の座標値に基づく定位位置制御を行うようにされる。

その上で、ステップＳ３０６では、定位位置制御により生成した音声信号に対し、取得した残響データに基づく残響付加処理を施すようにされる。すなわち、定位位置制御に基づき音声信号処理部５にて生成される音声信号ＡL-un、音声信号ＡL-up、音声信号ＡR-unと、音声信号ＡR-upに対し、音声信号処理部５が残響効果制御部２２から供給される残響データに応じた残響付加処理を施すものである。

なお、第３の実施の形態としても、信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図１１に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはＲＯＭ等の記録媒体が備えられ、そこに上記プログラムが記録される。

＜第４の実施の形態＞

ところで、これまでの説明では、実施の形態としての信号処理装置を、記録媒体について再生を行う再生装置側に組み込んで、エンドユーザ側においてより臨場感のある映像・音場空間を再現するための編集が行われるものとしたが、先に述べた従来の編集手法のように、制作者側でこのような編集を行うとした場合に対応させるために、実施の形態としての信号処理装置を記録媒体についての記録を行う記録装置に対して組み込むようにすることもできる。

図１２は、このようにして実施の形態としての信号処理装置を備えて構成される記録装置４０の内部構成について示している。
なお、この図においても既に図１、図７にて説明した部分については同一符号を付して説明を省略する。また、この図でも破線で囲う部分（音源座標取得部６、比率情報生成部４５、定位位置制御部４６、場所情報取得部４７、場所情報データベース４８、残響効果制御部２２、残響データテーブル２３、音声信号処理部５）が信号処理装置を形成する部分となる。

先ずこの場合、図示するようにして音声信号Ａを再生する音声信号再生部４２と、映像信号Ｖを再生する映像信号再生部４３とが備えられる。上記音声信号再生部４２で再生された音声信号Ａは音声信号処理部５に供給される。また、上記映像信号再生部４３で再生された映像信号Ｖはビデオエンコーダ４４に供給されると共に、図示するようにして音源座標取得部６と場所情報抽出部４７とに対しても分岐して供給される。
なお、ここでは音声信号再生部４２、映像信号再生部４３が記録装置４０内部に備えられるものとしているが、記録装置４０外部に設けられた音声信号再生部４２、映像信号再生部４３からそれぞれ入力される音声信号Ａ、映像信号Ｖを入力するように構成することもできる。

上記音源座標取得部６は、この場合も映像信号Ｖを入力して画像処理により音源の位置を表す映像座標系の座標値を取得する。
音源座標取得部６にて取得された映像座標系による座標値は、図示するようにして比率情報生成部４５に対して供給される。

ここで、これまでの各実施の形態のように、再生装置側に実施の形態としての信号処理装置を組み込んでユーザ側での編集が行われる場合には、個々のユーザが、実際に使用するスピーカシステムによる定位可能範囲についての情報を入力することができ、これによって適正な変換マトリクスを生成することができ、音源位置と仮想音像の位置とを適正に一致させることができた。これを踏まえると、記録装置４０側においても、このようにスピーカシステムによる定位可能範囲に応じて変換マトリクスを生成して座標変換を行うことが考えられるが、これに伴っては、ユーザ側で使用される個々のスピーカシステムに対応させて、それぞれ別々のコンテンツを記録媒体に記録しなければならないことになり、現実的ではない。
そこで、記録装置４０としては、音源座標取得部６にて取得された座標値（ｘ，ｙ）について、水平総画素数、垂直総画素数に対するそれぞれの値の比率に基づいて定位位置制御を行うことで、ユーザ側で使用される個々のスピーカシステムの別によらず適正に音源位置と仮想音像の位置とを一致させることができるようにする。

先ず、この場合の前提として、先の図２において示した上下左右の二次元方向について、各スピーカＳＰにより実現される定位可能範囲の中心点と、表示画面の中心点とが一致するようにして各スピーカＳＰとディスプレイまたはスクリーンが配置される条件の下では、例えば画面左上端点に映される音源の音声は、定位可能範囲における左上端点に定位させれば（つまりスピーカＳＰL-upから出力されるべき音声のゲインを相対的に最も大きくすれば）、映像内の音源位置と音源の仮想音像とが一致するものとして再現することができることがわかる。
また、例えば画面の中心点に映される音源の音声は、定位可能範囲における中心点に定位させれば（各スピーカＳＰからの音声のゲインを等しくすれば）、映像内の音源位置と音源の仮想音像とが一致するものとして再現することができる。

ここで、先の図４によれば、この場合の映像座標系の座標値の原点（０，０）は画面左上端点とされている。従って座標値のｘ、ｙの値について、それぞれ水平総画素数、垂直総画素数に対する比率が０％である場合に対応しては、左上端に配置されるスピーカＳＰL-upからの音声のゲインを最大とすればよいことがわかる。
同様にして、ｘの値の水平総画素数に対する比率が５０％、ｙの値の垂直総画素数に対する比率が５０％であれば、仮想音像は定位可能範囲の中心点に定位させればよいことがわかる。つまり、各スピーカＳＰからの音声のゲインを等しく設定すればよいことがわかる。
また、例えばｘの値の水平総画素数に対する比率が２５％、ｙの値の垂直総画素数に対する比率が５０％であれば、Ｌchの２つのスピーカＳＰLからの音声のゲインを、Ｒchの２つのスピーカＳＰRからの音声のゲインよりも比率に応じた分大きくなるよう（例えば１．５倍など）に設定すればよいことがわかる。

このようにして、取得された座標値のｘの値の水平総画素数に対する比率の情報と、ｙの値の垂直総画素数に対する比率の情報とにより、定位可能範囲におけるどの位置に仮想音源を定位させればよいかがわかるので、これら比率情報に基づくことで、４つのスピーカＳＰからそれぞれ出力される音声信号についての適正なゲイン値を決定することができる。

図１２において、比率情報生成部４５は、音源座標取得部６から供給される映像座標系による座標値と、同じく音源座標取得部６から供給される水平総画素数および垂直総画素数の情報に基づき、取得された座標値のｘの値の水平総画素数に対する比率と、ｙの値の垂直総画素数に対する比率を算出する。そして、これらの比率情報を、定位位置制御部４６に出力する。

定位位置制御部４６は、各比率情報に基づき、各スピーカＳＰから出力されるべき音声に対しそれぞれ与えられるべきゲイン値を決定する。
つまり、先の説明から理解されるように、この場合はｘの値の比率＝０％が左方向のＭＡＸ値、ｘの値の比率＝１００％を右方向のＭＡＸ値とし、またｙの値の比率＝０％を上方向のＭＡＸ値、ｙの値の比率＝１００％を下方向のＭＡＸ値として、与えられたｘの値の比率、ｙの値の比率の情報に応じて各スピーカＳＰごとの各ゲイン値（ゲイン値GL-un、GL-up、GR-un、GR-up）を決定する。
これら各ゲイン値は、音声信号処理部５に供給される。

一方、映像内容に応じた残響を付加するための構成として、この場合は上述した場所情報取得部４７と、場所情報データベース４８、残響効果制御部２２が設けられる。
上記場所情報取得部４７と場所情報データベース４８は、メタデータではなく映像信号Ｖについての画像処理により場所情報を特定するために設けられる。
つまり、上記場所情報データベース４８には、予め設定された複数の場所についての画像データ（画像サンプル）とその場所情報とが対応付けられて格納されている。そして、場所情報取得部４７は、映像信号Ｖによるフレーム画像と、場所情報データベース４８に格納される複数の場所画像とのマッチングを行い、最もマッチング度が高い場所画像に対応づけられている場所情報を取得するようにされる。
ここで、マッチング度がある閾値を超えない場合には、一致する場所情報がないと判定することもできる。或いは、このように一致する場所がないとした場合等には、映像信号Ｖによるフレーム画像と上記場所画像とを比較して環境が類似しているとされる場所画像を判定し、その場所画像に対応づけられる場所情報を取得するようにもできる。

場所情報取得部４７により取得された場所情報は、残響効果制御部２２に供給される。この場合も残響効果制御部２２は、供給された場所情報に応じた残響データを残響データテーブル２３から取得するようにされる。

なお、ここでは説明の便宜上、場所情報データベース４８においては場所画像に対し場所情報を対応づけ、この場所情報に応じ、残響効果制御部２２が残響データテーブル２３から対応する残響データを取得するように構成したが、場所画像に対し直接的に残響データを対応付けたデータベースとし、マッチングにより一致が判定された場所画像から直接的に対応する残響データを取得するように構成することもできる。

音声信号処理部５は、定位位置制御部４６から供給される各ゲイン値（GL-un,GL-up,GR-un,GR-up）に基づき、この場合もゲイン値GL-unを乗算した音声信号ＡL-UNと、ゲイン値GL-upを乗算した音声信号ＡL-upと、ゲイン値GR-unを乗算した音声信号ＡR-unと、ゲイン値GR-upを乗算した音声信号ＡR-upとを生成するようにされる。そして、このように生成した音声信号ＡL-un、音声信号ＡL-up、音声信号ＡR-un、音声信号ＡR-upに対し、残響効果制御部２２から供給される残響データに基づく残響付加処理をそれぞれ施して出力する。

オーディオエンコーダ４９は、このようにして残響が付加された音声信号ＡL-un、音声信号ＡL-up、音声信号ＡR-un、音声信号ＡR-upを入力し、これらを所定の音声圧縮方式により圧縮するなど所定のエンコード処理を施して多重化処理部５０に供給する。

多重化処理部５０には、上述したビデオデコーダ４４によりエンコード処理が施された映像信号Ｖも入力される。
ビデオエンコーダ４４においても、所定の音声圧縮方式により圧縮するなどの所定のエンコード処理を映像信号Ｖに施すようにされる。
多重化処理部５０は、オーディオエンコーダ４９から供給される音声信号ＡL-un、音声信号ＡL-up、音声信号ＡR-un、音声信号ＡR-upと、ビデオエンコーダ４４から供給される映像信号Ｖとを所定の多重化方式により多重化して記録部５１に供給する。

記録部５１は、上記多重化処理部５０から記録データとして供給される多重化データを図示する記録媒体１００に対して記録する。
記録媒体１００は、例えばＣＤ、ＤＶＤ、ブルーレイディスクなどの光ディスク記録媒体、或いはハードディスクなどの磁気記録媒体、ＭＤ（Mini Dsic）などの光磁気記録媒体とされる。或いは、それ以外の記録媒体とすることもできる。

なお、パッケージメディアとして販売する記録媒体としては、再生専用のＲＯＭディスクとされるのが一般的であるが、その場合制作側では、上記記録媒体１００に一旦記録した多重化データを再生してマスタリング装置に供給してディスク原盤にピット／ランドによるデータ記録が行われるようにすればよい。或いは、多重化データを直接的にマスタリング装置に供給してディスク原盤に対する記録が行われるようにしても良い。

上記のような構成による第４の実施の形態としての記録装置４０によれば、映像内に映し出される音源の位置とその音源の仮想音像位置とを一致させることと、実際の出力音声による音の響きと映像内容に応じた音の響きとを一致させることの双方を実現することのできる音声信号、及び映像信号を記録媒体に対して記録することができる。
つまり、このような記録媒体が再生装置にて再生されて映像及び音声出力が行われることで、より臨場感のある映像・音場空間が再現される。
また、この記録装置４０においては、映像信号Ｖから音源位置の情報と共に場所情報を取得することができ、これら音源位置の情報と場所情報とに基づき自動的に音声信号Ａに対するゲイン調整及び残響付加が行われる。これにより、コンテンツの制作側としては、上述のようにしてより臨場感のある映像・音場空間を再現させるにあたって、従来のように音源位置や場所情報を逐次指定してゲイン調整や残響付加を行う手間が省け、この結果コンテンツの編集に要する手間と時間を大幅に削減することができる。

ここで、これまでで説明した各実施の形態では、説明の便宜上、音源が１つのみとされるものとして説明を行ったが、音源が複数とされる場合、すなわち映像内のPlayerごとに複数の音声信号Ａをライン収録した場合は、それぞれの音声信号Ａについて同様の音源座標値の取得、及び音源座標値に応じた各スピーカＳＰから出力されるべき音声信号についてのゲイン調整処理を行う。その上で、これらゲイン調整された音声信号を各スピーカ対応にそれぞれ合成して出力するもとすればよい。

＜変形例＞

以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した各実施の形態に限定されるべきものではない。
例えば各実施の形態では、音源（Player）ごとにライン収録した音声信号Ａを各々入力する場合を挙げたが、例えば音声収録時には、ステレオマイクにより全ての音源（Player）の音声をまとめて収録することもあり得る。
その場合、各実施の形態の信号処理装置としては、入力されるステレオ音声信号から各音源の音声信号を抽出し、その音声信号ごとに、取得された座標値に応じたゲイン調整をそれぞれ行うものとすればよい。

また、実施の形態では、上下左右の二次元範囲のみを定位可能範囲とする場合を例示したが、各音源ごとにその音量調整を行うことで奥行き方向にも定位可能範囲を拡大することができる。つまり、例えば映像信号に基づく画像処理によって、映像内における音源の画像サイズを検出した結果に基づき、その音源の奥行き方向における位置情報を取得する。そして、この奥行き方向における位置情報に応じて各音源の音量をそれぞれ調整すれば、上下左右と共に奥行き方向も加えた三次元範囲でそれぞれの仮想音像位置を再現することができるといったものである。

また、スピーカＳＰとしてはＬchの上下、Ｒchの上下のみとし、定位可能範囲は上下左右方向の二次元の範囲としたが、例えば５．１chサラウンドシステムのように前後方向にもスピーカＳＰを配置する場合には、視聴者の後側にも定位可能範囲を拡大することができる。

また、各実施の形態の再生装置（１、２０、３０）が備えるメディア再生部２としては、記録媒体についての再生を行うものとして説明したが、ＡＭ・ＦＭ、ＴＶ放送などを受信・復調して音声信号（及び映像信号）を出力するチューナ装置として構成することもできる。

或いは、各実施の形態の再生装置としては、このようなメディア再生部２を備えて記録媒体についての再生機能、または放送信号の受信機能を有するように構成される以外にも、例えばアンプ装置などとして、外部で再生（受信）された音声信号及び映像信号を少なくとも入力し、これらの入力信号に基づき各実施の形態の信号処理装置としての動作を行うように構成することもできる。

また、各実施の形態において、映像内容に応じた残響データを取得するための手法としては、メタデータに基づき取得する手法、或いは映像信号Ｖと場所画像とのマッチング結果に基づき取得する手法を例示したが、これ以外にも、予め映像信号Ｖに場所の名称などを示すテロップを挿入しておく手法も挙げることができる。すなわち、この場合制作側では、撮影により得た映像信号Ｖに場所の名称を表すテロップ（つまり画像信号である）を合成しておく。そして、再生装置側（または記録装置側）では、予め複数のテロップの画像とその場所情報（或いは対応する残響データ）とを対応づけたデータベースを備えておくようにし、これらテロップの画像と映像信号Ｖのフレーム画像の所定部分とのマッチングを行い、上記所定部分の画像と一致したと判定したテロップに対応づけられた場所情報を取得し、この場所情報に基づき残響データを取得する（或いは、一致したと判定したテロップに対応づけられた残響データを直接的に取得する）。
また、このように映像信号Ｖにテロップを挿入しておく手法の以外にも、例えばバーコードなどの所要の記号、またはイラスト等の画像信号を映像信号Ｖに合成しておくことによっても、同様に映像信号Ｖに基づく画像処理により場所情報、または直接的に残響データを取得することができる。

また、各実施の形態において、映像信号Ｖから音源位置の情報を取得するにあたっては、予め音源としての対象物にマーカを付しておきそのマーカをトラッキングする手法を例示したが、これ以外にも、例えば画像処理により映像中の特定の音源の画像データをトラッキングすることでその位置情報を取得することもできる。つまりこの場合、先ずは一度映像信号Ｖを再生して、そこに映し出される音源の画像データを操作により指定させる。そして、実際の再生時には、入力される映像信号Ｖのフレーム画像中からこのように指定された画像と一致する部分を検出し、その部分をトラッキングするといったものである。

また、各実施の形態では、本発明の音声属性情報として、音源の位置や映像内容に応じた響きを特定するための情報を挙げたが、この音声属性情報としては、映像内容に応じて臨場感を高めるための音声調整（音声信号処理）を行うにあたり、その調整パラメータを決定するために特定されるべき情報であって、映像信号による映像内容に応じた音声信号の音響的な属性に係る情報あれば、他の情報も含むものである。

本発明の第１の実施の形態としての信号処理装置を含んで構成される再生装置の内部構成について示したブロック図である。各スピーカとディスプレイまたはスクリーンの配置関係を示した図である。第１の実施の形態における映像ストリームデータのデータ構造について示した図である。映像座標系について説明するための図である。音声座標系について説明するための図である。第１の実施の形態としての信号処理装置の動作の動作手順について示したフローチャートである。第２の実施の形態としての信号処理装置を含んで構成される再生装置の内部構成について示したブロック図である。第２の実施の形態における映像ストリームデータのデータ構造について示した図である。第２の実施の形態としての信号処理装置の動作の動作手順について示したフローチャートである。第３の実施の形態としての信号処理装置を含んで構成される再生装置の内部構成について示したブロック図である。第３の実施の形態としての信号処理装置の動作の動作手順について示したフローチャートである。第４の実施の形態としての信号処理装置を含んで構成される記録装置の内部構成について示したブロック図である。

符号の説明

１,２０,３０再生装置、２メディア再生部、３ビデオデコーダ、４オーディオデコーダ、５音声信号処理部、６音源座標取得部、７座標変換部、８,４６定位位置制御部、９変換マトリクス算出部、１０操作部、２１メタデータ抽出部、２２残響効果制御部、２３残響データテーブル、４０記録装置、４２音声信号再生部、４３映像信号再生部、４４ビデオエンコーダ、４５比率情報生成部、４７場所情報取得部、４８場所情報データベース、４９オーディオエンコーダ、５０多重化処理部、５１記録部、１００記録媒体

Claims

音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号が入力される信号処理装置であって、
上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、
上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、
を備えることを特徴とする信号処理装置。
上記音声信号は、上記映像信号による映像内に映し出される音源の音声を含むものとされ、
上記音声属性情報取得手段は、
上記音声同期情報信号としての上記映像信号に基づく画像処理により、上記音声属性情報として上記音源の上記映像内の位置情報を取得するようにされ、
上記音声信号処理手段は、
上記位置情報に基づき、上記音源の定位位置が調整されるように上記音声信号に対する音声信号処理を施す、
ことを特徴とする請求項１に記載の信号処理装置。
上記音声属性情報取得手段は、
上記音声同期情報信号に基づき、上記音声属性情報として上記映像内容に応じた残響情報を取得するようにされ、
上記音声信号処理手段は、
上記残響情報に基づき、上記音声信号に対する残響付加処理を行う、
ことを特徴とする請求項１に記載の信号処理装置。
上記音声属性情報取得手段は、
上記音声同期情報信号としての、上記映像信号に対して付加されたメタデータに基づき、上記残響情報を取得するようにされる、
ことを特徴とする請求項３に記載の信号処理装置。
上記音声属性情報取得手段は、
上記音声同期情報信号としての上記映像信号中のフレーム画像と、予め設定された複数の画像サンプルとのマッチングを行った結果に基づき、上記残響情報を取得するようにされる、
ことを特徴とする請求項３に記載の信号処理装置。
音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とを入力して信号処理を行う信号処理方法であって、
上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手順と、
上記音声属性情報取得手順により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手順と、
を備えていることを特徴とする信号処理方法。
音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号が記録された記録媒体についての再生を行う再生手段と、
上記再生手段により再生される上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、
上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、
を備えることを特徴とする再生装置。
音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが入力される信号処理部であって、上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、を備えた信号処理部と、
上記音声信号処理手段により音声信号処理の施された上記音声信号と、上記映像ストリームとを所要の記録媒体に対して記録する記録手段と、
を備えることを特徴とする記録装置。