[go: up one dir, main page]

JP2007158527A - 信号処理装置、信号処理方法、再生装置、記録装置 - Google Patents

信号処理装置、信号処理方法、再生装置、記録装置 Download PDF

Info

Publication number
JP2007158527A
JP2007158527A JP2005348132A JP2005348132A JP2007158527A JP 2007158527 A JP2007158527 A JP 2007158527A JP 2005348132 A JP2005348132 A JP 2005348132A JP 2005348132 A JP2005348132 A JP 2005348132A JP 2007158527 A JP2007158527 A JP 2007158527A
Authority
JP
Japan
Prior art keywords
audio
signal
video
audio signal
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005348132A
Other languages
English (en)
Inventor
Yuichi Abe
友一 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005348132A priority Critical patent/JP2007158527A/ja
Publication of JP2007158527A publication Critical patent/JP2007158527A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Stereophonic System (AREA)

Abstract

【課題】映像と音声とを含むコンテンツについて、例えば映像内の音源の位置や映像内容に応じた響きと、音源の定位位置や音の響きを一致させて、より臨場感のある映像・音場空間を再現する場合において、コンテンツの編集に要する手間と時間の低減を図る。
【解決手段】音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号に基づき、映像信号による映像内容に応じた音声信号の音響的な属性に係る音声属性情報を取得する共に、この音声属性情報に基づき上記音声信号に対し所定の音声信号処理を施す。映像内の音源の位置や映像内容に応じた響きの情報などの音声属性情報を、上記音声同期情報信号に基づいて自動的に取得することができるので、従来のように音源の位置や映像内容に応じた響きの情報を時間軸に沿って逐次手動で指示する必要がなくなる。
【選択図】図10

Description

本発明は、音声信号に同期した情報信号として少なくとも映像信号を含む音声同期信号に基づき音声信号についての信号処理を施す信号処理装置とその方法に関する。また、このような信号処理装置を含んで構成される再生装置と記録装置とに関する。
特開2002−199498号公報
従来より、マルチサラウンドのスピーカシステムの普及により、一般家庭などでもホームシアターなどと称されるように映画館のような臨場感あるサラウンド再生を行って映像コンテンツを楽しむことができるようになっている。
サラウンド音声の再生には5.1ch(チャンネル)のサラウンドシステムが一般的に用いられている。この5.1chサラウンドシステムは、音声を再生する再生装置と、前方中央、前方左、前方右、後方左、後方右の5つのスピーカと重低音強調のためのサブウーファの計6つのスピーカとから構成される。これら6つのスピーカを用いることにより、スピーカ位置とは異なる位置に仮想的な音源(仮想音像)を配置することができ、ステレオ出力よりもはるかに立体的で臨場感ある音場が実現できる。
サラウンド音声の再生には、サラウンドシステムに対応したサラウンドデータが必要である。これに応じ従来では、音源ごとに収録された各トラックデータの仮想音像位置を二次元グラフィック上で設定することで、5.1chのサラウンドデータを作成することのできるアプリケーションソフトウエアが広く普及している。
また、このようなサラウンドデータの生成にあたっては、映像システムとサラウンドシステムとを組み合わせ、音源となる映像内の移動体や、カメラの視点の移動などに伴って、自動的に仮想音源位置を移動させる手法もある(例えば上記特許文献1参照)。
また、一方で、より臨場感のある音場の生成には、例えばサンプリングリバーブ技術などを用いて、例えばコンサートホールなどにおける音の響き(残響)を仮想的に再現することが有効である。つまり、実際にコンサートホールや教会などでの音の響きの情報をサンプリングしておき、これに応じた残響効果を再生音声信号に与えることで、例えばスタジオで収録された音声データを、実際のコンサートホールや教会などで収録されたかのように臨場感をもって再現することができるといったものである。
しかしながら、これら臨場感のある音場を再現するための従来技術には、以下の点で問題を有している。
つまり、上記により例示した従来技術において、サラウンドデータとして各トラックデータの仮想音像位置を設定するためには、コンテンツの制作者等が手動で各トラックデータの仮想音像位置を指示入力しなければならない。
特に、映像内に映し出される音源の位置に応じた位置に音源を定位させるとしたとき、映像内の音源の位置が動的に動くものであった場合には、時間軸に沿って逐次仮想音像の位置を設定しなければならず、これに伴ってコンテンツの作成に多大な手間と時間を要してしまう。
なお、先の特許文献1の技術によれば、映像内の移動体の移動に合わせ、仮想音像位置を移動させることは可能である。しかしながら、この特許文献1はゲーム装置を対象にしたものである。つまり、この場合、映像内の物体とは仮想空間内の物体のことであり、その映像内の位置情報は容易に把握することができる。要するにこの特許文献1の手法では、実世界を撮影した映像内の音源位置を特定することはできず、例えばライブ映像など実際に撮影された映像について音源の位置とその音声の定位位置とを一致させることはできないものである。
また、一方のサンプリングリバーブ方式のような響きを再現する技術としても、予め映像内容に応じた響きの情報を手動により指定しなければならない。例えば、映像が時間軸に沿って「外→トンネル→外→コンサートホール」といったように遷移する場合、それぞれの状況に応じた響きの情報を時間軸に沿って手動で割り振るようにしなければならない。
このようにして、映像と音声とを含むコンテンツについて、映像内の音源の位置や映像内容に応じた響きと、音源の定位位置や音の響きを一致させ、より臨場感のある映像・音場空間を再現するといった場合には、音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示するようにされているのが現状であり、その分コンテンツの編集に比較的多くの手間と時間を要することが問題となっている。
このため、本発明では以上のような問題点に鑑み、信号処理装置として以下のようにすることとした。
つまり、音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが入力される信号処理装置であって、先ず、上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段を備える。
そして、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段を備えるようにしたものである。
また、本発明では再生装置として以下のように構成することとした。
つまり、音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが記録された記録媒体についての再生を行う再生手段を備える。
また、上記再生手段により再生される音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段を備える。
また、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段を備えるようにしたものである。
さらに、本発明では記録装置として以下のように構成することとした。
すなわち、音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが入力される信号処理部であって、上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、を備えた信号処理部を備える。
そして、上記音声信号処理手段により音声信号処理の施された上記音声信号と、上記映像ストリームとを所要の記録媒体に対して記録する記録手段を備えるようにしたものである。
上記のようにして本発明では、少なくとも映像信号を含むものとされる音声同期情報信号に基づき、上記映像信号による映像内容に応じた音声信号の音響的な属性に係る音声属性情報を取得するようにされる。
ここで、上記音声同期情報信号は、音声信号と同期した情報信号であるので、時間軸に沿って変化する音声属性情報を適正に表す情報として用いることができる。つまり、このことにより、映像内に映し出される音源の位置情報や映像内容に応じた響きの情報などといった音声属性情報は、この音声同期情報信号に基づいて自動的に取得することができる。
このようにして本発明によれば、映像内に映し出される音源の位置情報や映像内容に応じた響きの情報などといった音声属性情報を、音声同期情報信号から自動的に取得することができるので、映像と音声とを含むコンテンツについて、映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させ、臨場感のある映像・音場空間を再現するといった場合にも、従来のように音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示する必要はなくなる。
つまり、これによって、映像と音声とを含むコンテンツについて、例えば映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させて臨場感のある映像・音場空間を再現するとした場合に、コンテンツの編集に要する手間と時間を大幅に削減することができる。
また、本発明の再生装置によれば、記録媒体から再生した音声同期情報信号に基づき上記音声属性情報を取得し、この取得された音声属性情報に基づき音声信号について所定の音声信号処理を施すことで、上記のように映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させて臨場感のある映像・音場空間を再現することができる。
また、本発明の記録装置によれば、音声同期情報信号に基づき上記音声属性情報を取得し、この取得された音声属性情報に基づき音声信号について所定の音声信号処理を施し、このように処理された音声信号と上記映像ストリームとを所要の記録媒体に記録することができるので、上記記録媒体に対し、映像内の音源の位置や映像内容に応じた響きと音源の定位位置や音の響きを一致させて臨場感のある映像・音場空間を再現することができるコンテンツを記録することができる。
以下、発明を実施するための最良の形態(以下実施の形態とする)について説明していく。
<第1の実施の形態>

図1は、本発明における第1の実施の形態としての信号処理装置を含んで構成される、再生装置1の内部構成について示している。
先ず、この再生装置1は、図示するメディア再生部2を備え、例えばCD(Compact Disc)やDVD(Digital Versatile Disc)、或いはブルーレイディスク(Blu-Ray Disc)などの光ディスク記録媒体や、MD(Mini Disc:光磁気ディスク)、ハードディスクなどの磁気記録媒体、半導体メモリを内蔵した記録媒体など、所要の記録媒体についての再生が可能とされる。
ここで、先ず前提として、メディア再生部2が再生する記録媒体には、映像及び音声を含むコンテンツが記録される。
このようなコンテンツとしては、例えばコンサートライブなどを収録した所謂ライブビデオである場合を想定する。
但し、この場合、記録媒体に対しては、ボーカル、ギター、ドラム、ベース、キーボード(鍵盤楽器)などの歌唱・演奏者(以下Playerとも言う)ごとに、それぞれ個別に近接マイクなどを用いてその音声を収録し(いわゆるライン収録)、このようにPlayerごとにライン収録した音声信号を、例えばトラックごとに分けられるなどして別々に記録するようにされている。そして、このような音声信号と共に、これらPlayerがコンサートホールなどの会場で歌唱・演奏する様子を撮影した映像が収録されたものとなっている。
例えばこのような構成によるコンテンツを想定した場合において、各Playerは、それぞれ独立した音源となるようにされる。つまり、映像に映し出される各Playerの位置が、それぞれの音源の位置となるものである。
再生装置1としては、ライン収録された各Player(各音源)ごとの音声信号が定位する位置と、映像内に映し出される各Playerの位置(各音源の位置)とが一致するように再現することを目的とする。すなわち、これを実現することで、より臨場感のある映像・音場空間が再現されるようにするものである。
また、この場合、映像内のPlayerの位置としては、左右方向と共に上下方向も定義して二次元的に表すものとし、これに応じPlayerごとの音声信号が定位する位置(仮想音像位置)としても、上下左右の二次元的に再現するものとしている。
このために、再生装置1で生成した音声信号を音声出力するスピーカSPとしては、次の図2に示されるように、ディスプレイ又はスクリーンの中心点を中心として左右対象に配置されるLchのスピーカSPLとRchのスピーカSPRとを備える。そして、これらLchのスピーカSPLとRchのスピーカSPRとしては、それぞれを縦方向にも積み重ねて配置するようにされる。つまりこの場合、LchのスピーカSPLとしては、下方に配置されるスピーカSPL-unと、その上方に配置されるスピーカSPL-upとが設けられる。同様にRchのスピーカSPRとしては、下方に配置されるスピーカSPR-unと、その上方に配置されるスピーカSPR-upとが設けられる。
なお、ここで注意点として、以下で説明する第1の実施の形態を含めた各実施の形態においては、説明の便宜上、音声信号には1つの音源(Player)についての音声のみが含まれているものとして説明を続ける。すなわち、この場合の音声信号Aとしては、1つの音源についてライン収録した音声信号のみが再生されるものとする。
図1において、メディア再生部2においては、上述のようにして記録媒体についての再生を行うことで、映像信号Vを含む映像ストリームデータV-strmと、音声信号Aを含む音声ストリームデータA-strmとが得られる。
これら映像ストリームデータV-strm、音声ストリームデータA-strmは、実データとしての映像信号V、音声信号Aと、所定の付加情報とが多重化されたストリームデータである。
ここで、確認のために、次の図3には、上記映像ストリームデータV-strmのデータ構造を示しておく。この図3にも示されるように、映像ストリームデータV-strmは、映像信号Vとその付加データとを含んで構成される。付加データとしては、例えばセクター単位などの所定データ単位ごとに埋め込まれるデータあり、映像信号Vについての付加的なデータ内容を有する。
なお、図示は省略するが音声ストリームデータA-strmとしても、同様に所定のデータ単位ごとに音声信号Aについての付加データが埋め込まれた構造を有するものとなる。
図1において、映像ストリームデータV-strmはビデオデコーダ3に供給され、ここにおいてデコード処理が施されることで映像信号Vが得られる。
また、音声ストリームデータA-strmはオーディオデコーダ4に供給され、同様にデコード処理が施されることで音声信号Aが得られる。
映像信号Vは映像出力端子Tvに供給されると共に、図示する音源座標取得部6に対しても分岐して供給される。映像出力端子Tvからの映像信号Vは、先の図2に示したディスプレイまたはスクリーン(プロジェクタ装置)に供給される。
一方、音声信号Aは、音声信号処理部5に対して供給される。
なお、この図1では破線により、次に説明する音源座標取得部6、座標変換部7、定位位置制御部8、変換マトリクス算出部9、音声信号処理部5を囲って示しているが、これら破線で囲われる部分が第1の実施の形態としての信号処理装置を形成するものとなる。
音源座標取得部6は、上記映像信号Vに基づき、映像中の音源の位置を表す座標値(後述する映像座標系の座標値)を取得する。
このような映像信号Vからの音源座標値の取得は、例えば以下のような手法により実現できる。
つまり、予め映像撮影時において、Playerとしての人物に対し例えば赤外線によるID情報を発光する発光装置などの所定のマーカーを付して映像を撮影しておき、音源座標取得部6では、供給される映像信号Vからこのマーカーの位置を画像処理により検出し、これをトラッキングすることでPlayerの映像中における位置情報、すなわち音源の座標値を順次取得するように構成するものである。
これによって映像中の音源の位置情報を、映像信号Vに基づき取得することができる。
また、これと共に音源座標取得部6は、入力される映像信号Vの水平総画素数と垂直総画素数の情報を、後述する変換マトリクス算出部9に与える。
座標変換部7は、音源座標取得部6により取得された座標値を、図示する変換マトリクス算出部9により算出された変換マトリクスに基づき音声座標系の座標値に変換する。
ここで、映像内におけるPlayer(音源)の移動量は、あくまで映像内での移動量であって実世界の移動量ではなく、仮想音像の位置を映像内での移動量だけ移動させても映像内のPlayerの位置と仮想音像の位置とは一致しないことも考えられる。すなわち、映像内の音源の位置は映像座標系で定義されるのに対し、その仮想音像位置は音声座標系(実世界座標系)で定義されるべきものとなる。
このことを、次の図4、図5を参照して説明する。図4は、映像信号Vに基づく映像が映し出される表示画面(ディスプレイ又はスクリーン)と映像座標系との関係について示し、図5では上記表示画面と各スピーカSPの配置位置と音声座標系との関係について示している。
なお、図5では図示の都合上、スピーカSPが縦方向に重ねて配置されるようには示していないが、実際には先の図2に示したようにしてスピーカSPL-unとスピーカSPL-up、スピーカSPR-unとスピーカSPR-upとがそれぞれ積み重ねられて配置されるものとする。
先ず図4に示すように、映像座標系としては、例えば表示画面の横(水平)方向をx軸とし、縦(垂直)方向をy軸とし、表示画面の左上隅の座標値(x,y)を(0,0)、つまり原点とすることができる。この場合において、原点から水平方向への画素数が「100」、垂直方向への画素数が「50」である点は、図示するように座標値(100,50)と表すことができる。ここでは、映像中の音源の位置の座標値が、この座標値(100,50)の位置であったとする。
一方、図5における音声座標系においては、スピーカSPL-un、スピーカSPL-up、スピーカSPR-un、スピーカSPR-upからの音声出力により可能な仮想音像の定位範囲(以下、定位可能範囲と称する)の中心の座標値(x,y)を(0,0)と表現するようにされる。
例えば、先の図2において各スピーカSPをディスプレイ又はスクリーンの中心点を中心として左右及び上下対称に配置した場合には、図示するようにして表示画面の中心が(0,0)となるようにされる。
この場合も水平方向はx軸、垂直方向はy軸で表す。またy軸方向において中心から上方向を正の値、下方向を負の値により示す。またx軸方向においては右方向を正の値、左方向を負の値により示す。これにより中心から右方向に100cm、上方向に50cmとなる位置は、図中に黒丸で示す座標値(100,50)と表すことができる。
ここで、図4に示される映像座標系での音源位置の座標値(100,50)をこのような音声座標系にそのまま適用したとしても、上記のように音声座標系における座標値(100,50)は画面中心から右方向に100cm、上方向に50cmの位置となることからもわかるように、両者は一致するものとはならない。つまり、図4に示す音源の位置に応じて仮想音像を定位させるべき正しい位置は、実際には図中の破線丸印で示す位置であるのに対し、この場合は誤った位置が仮想音像の位置として認識されてしまうことになる。
そこで、図1に示す再生装置1では、上述のようにして座標変換部7を設け、音源座標取得部6により取得された映像座標系の座標値を、変換マトリクス算出部9により算出される変換マトリクスに基づいて音声座標系の座標値に変換するものとしている。
この場合、変換マトリクスは、映像座標系による3点の座標値と、これら3点の各々と対応する音声座標系(実世界座標系)による3点の座標値とが与えられることで算出することができる。
具体的に、この場合において映像座標系と音声座標系とで対応関係が明らかなのは、表示画面の四隅の端点と、定位可能範囲の四隅の端点となる。従って、変換マトリクスは、表示画面側の四隅端点のうちの3点と、定位可能範囲側の四隅の端点のうちの対応する3点とについての座標値がそれぞれ与えられることで、算出することができる。
変換マトリクス算出部9には、音源座標取得部6から水平総画素数と垂直総画素数の情報が入力され、これら画素数情報に基づき、上記表示画面の四隅の端点のうちの所定の3点についての座標値を取得するようにされる。また、変換マトリクス算出部9には、図示する操作部10を介したユーザ操作に基づき、上記所定の3点と同じ位置関係となる定位可能範囲側の3つの端点についての座標値が与えられる。
変換マトリクス算出部9は、これら映像座標系による3点の端点の座標値と音声座標系による3点の端点の座標値とに基づき、変換マトリクスを算出する。
なお、この場合のユーザに対しては、実際に定位可能範囲の上記3つの端点の座標値(例えばcm単位)について計測させ、これら3点の座標値を直接的に入力させるようにしてもよいが、例えばスピーカシステムとしては推奨の配置位置寸法が規定されたものもあり、その場合はスピーカシステムとしてどのシステムが用いられているかがわかれば、定位可能範囲の寸法がわかり、よって上記音声座標系による3つの端点の座標値も判明する。このことから、ユーザにはスピーカシステムについての製品型番や製品名称等の製品特定情報を選択又は指示入力させる操作のみを行わせ、その製品特定情報に基づき上記3点の音声座標系による座標値を得るように構成することもできる。
また、確認のために述べておくと、変換マトリクスの算出は、映像座標系と音声座標系との対応関係が維持される限りにおいては、再計算の必要はない。すなわち、例えばディスプレイ又はスクリーンとして画素数の異なる製品が用いられたなど映像座標系が変化した場合や、異なるスピーカシステムを使用して音声座標系が変化した等の場合にのみ、再計算が行われるようにされればよい。
座標変換部7は、上記のようにして算出された変換マトリクスを用いて、音声座標取得部6により取得される映像座標系による音源位置の座標値を、音声座標系の座標値に順次変換するようにされる。そして、このようにして得られた音源位置の音声座標系による座標値を、定位位置制御部8に対して供給するようにされる。
定位位置制御部8は、供給された音声座標系による音像位置に仮想音源を定位させるために、図2に示した各スピーカSPから出力されるべき音声に対しそれぞれ与えられるべきゲイン値を決定する。
すなわち、供給された音声座標系の座標値としてxの値とyの値とが共に正の値であれば、その値に応じてスピーカSPR-upから出力されるべき音声のゲインが他のスピーカSPからの音声のゲインに対して相対的に大きくなるように、各ゲイン値を決定する。或いは、供給された座標値としてxの値とyの値とが共に負の値であれば、その値に応じてスピーカSPL-unから出力されるべき音声のゲインが他のスピーカSPからの音声のゲインに対して相対的に大きくなるように、各ゲイン値を決定するといったものである。
音声信号処理部5は、オーディオデコーダ4から供給される音声信号Aに対するゲイン調整や残響付加などの音声信号処理を実行するように構成される。
特に本実施の形態の場合は、上記定位位置制御部8から供給される各スピーカSP対応のゲイン値に基づき、音声信号Aについてのゲイン調整を行うようにされる。
具体的には、入力される音声信号Aに対し、ゲイン値GL-unを乗算した音声信号AL-UNと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成する。
音声信号処理部5により生成された音声信号AL-unは、図示するようにして音声出力端子TAUL-unに供給される。同様に、音声信号AL-upは音声出力端子TAUL-up、音声信号AR-unは音声出力端子TAUR-un、音声信号AR-upは音声出力端子TAUR-upに対しそれぞれ供給される。
そして、音声出力端子TAUL-unは、図2に示したスピーカSPL-unと接続される。また音声出力端子TAUL-upはスピーカSPL-up、音声出力端子TAUR-unはスピーカSPR-un、音声出力端子TAUR-upはスピーカSPR-upとそれぞれ接続される。
これによってスピーカSPL-unからは音声信号AL-unを出力でき、スピーカSPL-upからは音声信号AL-upを出力できる。また、スピーカSPR-unからは音声信号AR-unを出力でき、スピーカSPR-upからは音声信号AR-upを出力することができる。
つまり、これによって映像内に映し出されるPlayerの位置(音源の位置)と、ライン収録された当該Playerの音声が定位する位置(仮想音像位置)とが一致するように再現することができ、より臨場感のある映像・音場空間を再現することができる。
これまでで説明した再生装置1によれば、映像信号Vに基づき音源の座標値が取得され、この座標値に基づき自動的に仮想音源の定位位置制御が行われる。つまり、これによってこの場合コンテンツの制作側としては、上記のようにして映像内に映し出される音源の位置とその音源の仮想音像位置とが一致するようにしてより臨場感のある映像・音場空間を再現させるにあたり、時間軸に沿って音源の位置情報を指定してゲイン調整を行う手間が省けるので、これに伴ってコンテンツの編集に要する手間と時間を有効に削減することができる。
なお、ここでは各スピーカSPから出力される音声信号のそれぞれのゲイン値の調整により定位位置の制御を行うものとしているが、各スピーカSPから出力される音声信号の位相差の調整によって定位位置制御を行うこともできる。または、これらの双方により定位位置制御を行うこともできる。
図6は、上記により説明した第1の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
図6において、先ずステップS101では、映像信号に基づき音源位置の映像座標系による座標値を取得する。この動作は、音源座標取得部6が、ビデオデコーダ3によるデコード処理により映像ストリームデータV-strmから得られた映像信号Vに基づき、音源位置の座標値を取得する動作に相当する。
この場合、音源位置の座標値の取得手法としては、例えば先に説明したように、先ずは予め映像の撮影時においてPlayerとしての人物に対し例えば赤外線IDの発光装置などの所定のマーカーを付して映像を撮影しておく。そして、音源座標取得部6としては、供給される映像信号Vからこの所定のマーカーの位置を画像処理により検出し、これをトラッキングすることでPlayerの映像中における位置情報、すなわち音源位置の座標値を順次取得するようにする。
ステップS102では、取得した座標値を音声座標系の座標値に変換する。
つまり、座標変換部7が、変換マトリクス算出部9により算出された変換マトリクスに基づき、音源座標取得部6により取得された座標値を音声座標系の座標値に変換する。
ステップS103では、音声座標系の座標値に基づく定位位置制御を行う。
このステップS103としては、先ず定位位置制御部8が、供給された音声座標系による音像位置に仮想音源を定位させるために、図2に示した各スピーカSPから出力されるべき音声信号に対しそれぞれ与えられるべきゲイン値(GL-un、GL-up、GR-un、GR-up)を決定する。そして、音声信号処理部5が、入力される音声信号Aに対しゲイン値GL-unを乗算した音声信号AL-unと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成する。
これにより、映像内に映し出されるPlayerの位置(音源の位置)と、ライン収録された当該Playerの音声が定位する位置とが一致するように再現することのできる音声信号が生成される。
なお、これまでの説明では、本実施の形態としての信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図6に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはROM等の記録媒体が備えられ、そこに上記プログラムが記録される。
<第2の実施の形態>

図7は、第2の実施の形態としての信号処理装置を含んで構成される再生装置20の内部構成について示している。
第2の実施の形態は、映像内容に応じた音の響きを音声信号に与えるように構成したものである。具体的には、映像内に映し出される場所に応じた音の響きを音声信号に対して与えるようにされる。
なお、この図7において、既に先の図1において説明した部分については同一符号を付して説明を省略する。
第2の実施の形態の再生装置20としては、図1に示した再生装置1の構成から操作部10を省略すると共に、図中破線により囲う部分を変更したものとなる。
この破線により囲う部分が、第2の実施の形態としての信号処理装置を構成する部分となる。つまり、第2の実施の形態の信号処理装置の構成要素は、少なくとも図示するメタデータ抽出部21、残響効果制御部22、残響データテーブル23、音声信号処理部5となる。
先ず、メタデータ抽出部21は、この場合の映像ストリームデータV-strm内に含まれるメタデータを抽出するようにされる。
ここで、第2の実施の形態では、上述のようにして映像内容に応じた音の響きを音声信号に与えるにあたって、予めコンテンツの制作側において、映像信号Vに対して映像内に映し出される場所を特定するための場所情報を付加しておくようにされる。そして、このように場所情報を付加した映像信号を記録媒体に対して記録するようにされている。
確認のために述べておくと、このような映像内に映し出される場所を特定するための場所情報は、映像内に映し出される場所に応じた音の響きを再現する上で、その場所に応じた音の響きを特定するための情報となる。従ってこのような場所情報は、音声信号の音響的な属性に係る音声属性情報となるものである。
図8は、第2の実施の形態の場合の映像ストリームデータV-strmの構造を示しているが、この場合は図示するように付加データ内の情報として、上記場所情報をメタデータとして格納するようにされている。
例えば本実施の形態のようにコンテンツとしてライブ映像が収録される場合には、上記場所情報としては特定のコンサートホールを識別するための情報を格納するものとすればよい。或いは、映像内容として例えば「外→トンネル→外→コンサートホール」などのように時系列に沿って場所が遷移する場合には、時間軸に沿ってこれらの場所を特定するための場所情報を格納すればよい。
先にも述べたように映像ストリームデータV-strm内における付加データは、所定のデータ単位ごとに付加するようにされている。このことで、映像内容として時間軸に沿って場所が変化する場合にも対応して、それぞれの場所を表す場所情報を時間軸上で対応づけて埋め込むことができる。
ここで、この場合、音声信号Aと映像信号Vとは同期した信号である。そして、上記説明によれば、映像信号Vと付加データ内のメタデータとは同じ時間軸に沿った同期した情報となる。これらのことから、この場合は映像信号Vと共に上記メタデータが、本発明で言う音声同期情報信号となる。
図7において、メタデータ抽出部21は、このような映像ストリームデータV-strmからメタデータを抽出し、上記場所情報を取得するようにされる。そして、この場所情報を残響効果制御部22に供給する。
残響効果制御部22は、図示する残響データテーブル23に基づき、メタデータ抽出部21から入力される場所情報に応じた残響データを取得し、この残響データに基づき音声信号処理部5における音声信号Aに対する残響付加処理について制御する。
残響データテーブル23には、場所情報と、この場所情報により特定される場所での音の響きを再現するための残響データとが対応づけられて格納されており、残響効果制御部22は、このような残響データテーブル23から、入力された場所情報と対応づけられている残響データを取得することで、対応する残響データを得ることができる。
そして、このような残響データを音声信号処理部5に供給することで、当該音声信号処理部5における音声信号Aに対する残響付加処理について制御するようにされる。
つまり、この場合の音声信号処理部5は、オーディオデコーダ4から供給される音声信号Aに対し、残響効果制御部22から供給された残響データに基づく残響付加処理を施す。これによって音声信号Aに対しては、映像内容に応じた音の響きを再現するための残響が付加されることになる。
そして、このように残響を付加した音声信号Aを、この場合の音声出力端子TAUの数に応じた4系統に分岐して出力するようにされる。
なお、第2の実施の形態としては、第1の実施の形態のような上下方向への仮想音像の定位制御は行わないことから、スピーカSPとしては必ずしも上下方向に積み重ねて配置する必要はない。すなわち、この場合の音声出力端子TAUとしては、LchとRchの各々1つずつのみを設けるようにすることもできる。
但し、例えば教会やコンサートホールなど天井の高さを強調する残響を付加するとした場合等には、上下方向にもスピーカSPを配置することでより臨場感を高めることができる。
上記構成により、第2の実施の形態の再生装置20によれば、実際の出力音声による音の響きを、映像内容に応じた音の響きと一致させることができ、これによってより臨場感のある映像・音場空間を再現することができる。
また、このような再生装置20では、音声同期情報信号としてのメタデータに基づき、映像内に映し出される場所に応じた残響データを取得することができ、この残響データに基づいて自動的に音声信号Aに対する残響付加が行われる。つまり、この場合コンテンツの制作側としては、予め映像信号Vに対しメタデータを付加することで、上記のように実際の出力音声による音の響きを映像内容に応じた音の響きと一致させてより臨場感のある映像・音場空間を再現させることができる。
図9は、第2の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
先ずステップS201では、メタデータに基づき映像内容に応じた場所情報を取得する。
つまり、メタデータ抽出部21が映像ストリームデータV-strmからメタデータとして格納される場所情報を取得する。
そして、ステップS202では、残響データテーブルから、取得された場所情報に応じた残響データを取得する。すなわち、残響効果制御部22が、残響データテーブル23から、メタデータ抽出部21から供給された場所情報と対応づけられている残響データを取得する。
その上でステップS203では、音声信号に対し残響データに基づく残響付加処理を行う。つまり、音声信号処理部5が、残響効果制御部22から供給された残響データに基づき、音声信号Aに対し残響付加処理を施す。
なお、第2の実施の形態としても、信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図9に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはROM等の記録媒体が備えられ、そこに上記プログラムが記録される。
また、第2の実施の形態において、場所情報と残響データとの対応づけは、映像内において音源が配置される場所から予測される擬似的な音の響きを対応づける、或いはサンプリングリバーブ方式のように、実際にその場所において測定した音の響きの情報を対応づけるようにして行うことができる。
また、第2の実施の形態では、映像内容に応じた残響付加にあたり、映像信号Vに対して場所情報をメタデータにより埋め込むものとしたが、映像内容に応じた響きを再現するための残響データを特定できる情報であれば、場所情報に限定されるべきものではない。また、このように残響データを特定するための情報を埋め込まずとも、残響データそのものを直接的にメタデータにより埋め込むようにすることもできる。
なお、このことは次に説明する第3の実施の形態についても同様である。
<第3の実施の形態>

図10は、第3の実施の形態としての信号処理装置を含んで構成される再生装置30の内部構成について示している。
第3の実施の形態は、第1の実施の形態と第2の実施の形態とを組み合わせて、音像位置と仮想音像の位置との一致と、実際の出力音声の音の響きと映像内容に応じた音の響きとの一致の双方を実現することで、さらに臨場感のある映像・音場空間を再現しようとするものである。
なお、この図10において、既に図1、図7にて説明した部分については同一符号を付して説明を省略する。
第3の実施の形態の再生装置30としては、この図10に示される破線により囲った信号処理装置として、先の図1に示した信号処理装置の構成要素(音源座標取得部6、座標変換部7、定位位置制御部8、変換マトリクス算出部9、音声信号処理部5)と、先の図7に示した信号処理装置の構成要素(メタデータ抽出部21、残響効果制御部22、残響データテーブル23、音声信号処理部5)とを組み合わせたものを含むようにして構成される。
この場合、音声信号処理部5としては、オーディオデコーダ4から供給される音声信号Aに対し、定位位置制御部8から供給されるゲイン値GL-unを乗算した音声信号AL-unと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成する。
その上で、これら音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upに対し、残響効果制御部22から供給される残響データに応じた残響付加処理を施す。そして、このように残響付加処理が施された音声信号AL-un、音声信号AL-up、音声信号AR-unと、音声信号AR-upをそれぞれ対応する音声出力端子TAUに対して出力するようにされる。
このような第3の実施の形態としての再生装置30によれば、映像内に映し出される音源の位置とその音源の仮想音像位置とを一致させることと、実際の出力音声による音の響きと映像内容に応じた音の響きとを一致させることの双方を実現することができ、これによってさらに臨場感のある映像・音場空間を再現することができる。
また、この場合としても、音像位置を示す座標値と、残響データを特定するための場所情報とは、それぞれ映像信号Vとメタデータとしての音声同期情報信号に基づいて自動的に取得されるので、従来のように音源の位置や映像内容に応じた響きの情報を、時間軸に沿って逐次手動で指示する必要はなくなる。つまり、これによってコンテンツの編集に要する手間と時間を大幅に削減することができる。
図11は、第3の実施の形態としての信号処理装置の動作についての動作手順をフローチャートにより示している。
この場合の信号処理装置の動作としては、先の図6に示した第1の実施の形態としての動作と、図9に示した第2の実施の形態としての動作とが並行して行われるものとなる。
つまり、ステップS301、ステップS302では、先の図9に示したステップS201、ステップS202と同様に、メタデータに基づく映像内容に応じた場所情報の取得と、残響データテーブルから取得された場所情報に応じた残響データを取得する動作が行われる。
一方で、これと並行したステップS303、ステップS304、ステップS305として、先の図6に示したステップS101、ステップS102、ステップS103と同様に映像信号に基づき音源位置の映像座標系による座標値を取得する動作と、取得した座標値を音声座標系の座標値に変換する動作と、音声座標系の座標値に基づく定位位置制御を行うようにされる。
その上で、ステップS306では、定位位置制御により生成した音声信号に対し、取得した残響データに基づく残響付加処理を施すようにされる。すなわち、定位位置制御に基づき音声信号処理部5にて生成される音声信号AL-un、音声信号AL-up、音声信号AR-unと、音声信号AR-upに対し、音声信号処理部5が残響効果制御部22から供給される残響データに応じた残響付加処理を施すものである。
なお、第3の実施の形態としても、信号処理装置の各部をハードウエアにより構成する場合を例示したが、その一部又は全部をソフトウエア処理により実現することも可能である。その場合、信号処理装置としては、上記図11に示した処理のうち対応する処理を実行するためのプログラムに従って動作するマイクロコンピュータなどで構成すればよい。この場合、信号処理装置に対してはROM等の記録媒体が備えられ、そこに上記プログラムが記録される。
<第4の実施の形態>

ところで、これまでの説明では、実施の形態としての信号処理装置を、記録媒体について再生を行う再生装置側に組み込んで、エンドユーザ側においてより臨場感のある映像・音場空間を再現するための編集が行われるものとしたが、先に述べた従来の編集手法のように、制作者側でこのような編集を行うとした場合に対応させるために、実施の形態としての信号処理装置を記録媒体についての記録を行う記録装置に対して組み込むようにすることもできる。
図12は、このようにして実施の形態としての信号処理装置を備えて構成される記録装置40の内部構成について示している。
なお、この図においても既に図1、図7にて説明した部分については同一符号を付して説明を省略する。また、この図でも破線で囲う部分(音源座標取得部6、比率情報生成部45、定位位置制御部46、場所情報取得部47、場所情報データベース48、残響効果制御部22、残響データテーブル23、音声信号処理部5)が信号処理装置を形成する部分となる。
先ずこの場合、図示するようにして音声信号Aを再生する音声信号再生部42と、映像信号Vを再生する映像信号再生部43とが備えられる。上記音声信号再生部42で再生された音声信号Aは音声信号処理部5に供給される。また、上記映像信号再生部43で再生された映像信号Vはビデオエンコーダ44に供給されると共に、図示するようにして音源座標取得部6と場所情報抽出部47とに対しても分岐して供給される。
なお、ここでは音声信号再生部42、映像信号再生部43が記録装置40内部に備えられるものとしているが、記録装置40外部に設けられた音声信号再生部42、映像信号再生部43からそれぞれ入力される音声信号A、映像信号Vを入力するように構成することもできる。
上記音源座標取得部6は、この場合も映像信号Vを入力して画像処理により音源の位置を表す映像座標系の座標値を取得する。
音源座標取得部6にて取得された映像座標系による座標値は、図示するようにして比率情報生成部45に対して供給される。
ここで、これまでの各実施の形態のように、再生装置側に実施の形態としての信号処理装置を組み込んでユーザ側での編集が行われる場合には、個々のユーザが、実際に使用するスピーカシステムによる定位可能範囲についての情報を入力することができ、これによって適正な変換マトリクスを生成することができ、音源位置と仮想音像の位置とを適正に一致させることができた。これを踏まえると、記録装置40側においても、このようにスピーカシステムによる定位可能範囲に応じて変換マトリクスを生成して座標変換を行うことが考えられるが、これに伴っては、ユーザ側で使用される個々のスピーカシステムに対応させて、それぞれ別々のコンテンツを記録媒体に記録しなければならないことになり、現実的ではない。
そこで、記録装置40としては、音源座標取得部6にて取得された座標値(x,y)について、水平総画素数、垂直総画素数に対するそれぞれの値の比率に基づいて定位位置制御を行うことで、ユーザ側で使用される個々のスピーカシステムの別によらず適正に音源位置と仮想音像の位置とを一致させることができるようにする。
先ず、この場合の前提として、先の図2において示した上下左右の二次元方向について、各スピーカSPにより実現される定位可能範囲の中心点と、表示画面の中心点とが一致するようにして各スピーカSPとディスプレイまたはスクリーンが配置される条件の下では、例えば画面左上端点に映される音源の音声は、定位可能範囲における左上端点に定位させれば(つまりスピーカSPL-upから出力されるべき音声のゲインを相対的に最も大きくすれば)、映像内の音源位置と音源の仮想音像とが一致するものとして再現することができることがわかる。
また、例えば画面の中心点に映される音源の音声は、定位可能範囲における中心点に定位させれば(各スピーカSPからの音声のゲインを等しくすれば)、映像内の音源位置と音源の仮想音像とが一致するものとして再現することができる。
ここで、先の図4によれば、この場合の映像座標系の座標値の原点(0,0)は画面左上端点とされている。従って座標値のx、yの値について、それぞれ水平総画素数、垂直総画素数に対する比率が0%である場合に対応しては、左上端に配置されるスピーカSPL-upからの音声のゲインを最大とすればよいことがわかる。
同様にして、xの値の水平総画素数に対する比率が50%、yの値の垂直総画素数に対する比率が50%であれば、仮想音像は定位可能範囲の中心点に定位させればよいことがわかる。つまり、各スピーカSPからの音声のゲインを等しく設定すればよいことがわかる。
また、例えばxの値の水平総画素数に対する比率が25%、yの値の垂直総画素数に対する比率が50%であれば、Lchの2つのスピーカSPLからの音声のゲインを、Rchの2つのスピーカSPRからの音声のゲインよりも比率に応じた分大きくなるよう(例えば1.5倍など)に設定すればよいことがわかる。
このようにして、取得された座標値のxの値の水平総画素数に対する比率の情報と、yの値の垂直総画素数に対する比率の情報とにより、定位可能範囲におけるどの位置に仮想音源を定位させればよいかがわかるので、これら比率情報に基づくことで、4つのスピーカSPからそれぞれ出力される音声信号についての適正なゲイン値を決定することができる。
図12において、比率情報生成部45は、音源座標取得部6から供給される映像座標系による座標値と、同じく音源座標取得部6から供給される水平総画素数および垂直総画素数の情報に基づき、取得された座標値のxの値の水平総画素数に対する比率と、yの値の垂直総画素数に対する比率を算出する。そして、これらの比率情報を、定位位置制御部46に出力する。
定位位置制御部46は、各比率情報に基づき、各スピーカSPから出力されるべき音声に対しそれぞれ与えられるべきゲイン値を決定する。
つまり、先の説明から理解されるように、この場合はxの値の比率=0%が左方向のMAX値、xの値の比率=100%を右方向のMAX値とし、またyの値の比率=0%を上方向のMAX値、yの値の比率=100%を下方向のMAX値として、与えられたxの値の比率、yの値の比率の情報に応じて各スピーカSPごとの各ゲイン値(ゲイン値GL-un、GL-up、GR-un、GR-up)を決定する。
これら各ゲイン値は、音声信号処理部5に供給される。
一方、映像内容に応じた残響を付加するための構成として、この場合は上述した場所情報取得部47と、場所情報データベース48、残響効果制御部22が設けられる。
上記場所情報取得部47と場所情報データベース48は、メタデータではなく映像信号Vについての画像処理により場所情報を特定するために設けられる。
つまり、上記場所情報データベース48には、予め設定された複数の場所についての画像データ(画像サンプル)とその場所情報とが対応付けられて格納されている。そして、場所情報取得部47は、映像信号Vによるフレーム画像と、場所情報データベース48に格納される複数の場所画像とのマッチングを行い、最もマッチング度が高い場所画像に対応づけられている場所情報を取得するようにされる。
ここで、マッチング度がある閾値を超えない場合には、一致する場所情報がないと判定することもできる。或いは、このように一致する場所がないとした場合等には、映像信号Vによるフレーム画像と上記場所画像とを比較して環境が類似しているとされる場所画像を判定し、その場所画像に対応づけられる場所情報を取得するようにもできる。
場所情報取得部47により取得された場所情報は、残響効果制御部22に供給される。この場合も残響効果制御部22は、供給された場所情報に応じた残響データを残響データテーブル23から取得するようにされる。
なお、ここでは説明の便宜上、場所情報データベース48においては場所画像に対し場所情報を対応づけ、この場所情報に応じ、残響効果制御部22が残響データテーブル23から対応する残響データを取得するように構成したが、場所画像に対し直接的に残響データを対応付けたデータベースとし、マッチングにより一致が判定された場所画像から直接的に対応する残響データを取得するように構成することもできる。
音声信号処理部5は、定位位置制御部46から供給される各ゲイン値(GL-un,GL-up,GR-un,GR-up)に基づき、この場合もゲイン値GL-unを乗算した音声信号AL-UNと、ゲイン値GL-upを乗算した音声信号AL-upと、ゲイン値GR-unを乗算した音声信号AR-unと、ゲイン値GR-upを乗算した音声信号AR-upとを生成するようにされる。そして、このように生成した音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upに対し、残響効果制御部22から供給される残響データに基づく残響付加処理をそれぞれ施して出力する。
オーディオエンコーダ49は、このようにして残響が付加された音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upを入力し、これらを所定の音声圧縮方式により圧縮するなど所定のエンコード処理を施して多重化処理部50に供給する。
多重化処理部50には、上述したビデオデコーダ44によりエンコード処理が施された映像信号Vも入力される。
ビデオエンコーダ44においても、所定の音声圧縮方式により圧縮するなどの所定のエンコード処理を映像信号Vに施すようにされる。
多重化処理部50は、オーディオエンコーダ49から供給される音声信号AL-un、音声信号AL-up、音声信号AR-un、音声信号AR-upと、ビデオエンコーダ44から供給される映像信号Vとを所定の多重化方式により多重化して記録部51に供給する。
記録部51は、上記多重化処理部50から記録データとして供給される多重化データを図示する記録媒体100に対して記録する。
記録媒体100は、例えばCD、DVD、ブルーレイディスクなどの光ディスク記録媒体、或いはハードディスクなどの磁気記録媒体、MD(Mini Dsic)などの光磁気記録媒体とされる。或いは、それ以外の記録媒体とすることもできる。
なお、パッケージメディアとして販売する記録媒体としては、再生専用のROMディスクとされるのが一般的であるが、その場合制作側では、上記記録媒体100に一旦記録した多重化データを再生してマスタリング装置に供給してディスク原盤にピット/ランドによるデータ記録が行われるようにすればよい。或いは、多重化データを直接的にマスタリング装置に供給してディスク原盤に対する記録が行われるようにしても良い。
上記のような構成による第4の実施の形態としての記録装置40によれば、映像内に映し出される音源の位置とその音源の仮想音像位置とを一致させることと、実際の出力音声による音の響きと映像内容に応じた音の響きとを一致させることの双方を実現することのできる音声信号、及び映像信号を記録媒体に対して記録することができる。
つまり、このような記録媒体が再生装置にて再生されて映像及び音声出力が行われることで、より臨場感のある映像・音場空間が再現される。
また、この記録装置40においては、映像信号Vから音源位置の情報と共に場所情報を取得することができ、これら音源位置の情報と場所情報とに基づき自動的に音声信号Aに対するゲイン調整及び残響付加が行われる。これにより、コンテンツの制作側としては、上述のようにしてより臨場感のある映像・音場空間を再現させるにあたって、従来のように音源位置や場所情報を逐次指定してゲイン調整や残響付加を行う手間が省け、この結果コンテンツの編集に要する手間と時間を大幅に削減することができる。
ここで、これまでで説明した各実施の形態では、説明の便宜上、音源が1つのみとされるものとして説明を行ったが、音源が複数とされる場合、すなわち映像内のPlayerごとに複数の音声信号Aをライン収録した場合は、それぞれの音声信号Aについて同様の音源座標値の取得、及び音源座標値に応じた各スピーカSPから出力されるべき音声信号についてのゲイン調整処理を行う。その上で、これらゲイン調整された音声信号を各スピーカ対応にそれぞれ合成して出力するもとすればよい。
<変形例>

以上、本発明の実施の形態について説明したが、本発明としてはこれまでに説明した各実施の形態に限定されるべきものではない。
例えば各実施の形態では、音源(Player)ごとにライン収録した音声信号Aを各々入力する場合を挙げたが、例えば音声収録時には、ステレオマイクにより全ての音源(Player)の音声をまとめて収録することもあり得る。
その場合、各実施の形態の信号処理装置としては、入力されるステレオ音声信号から各音源の音声信号を抽出し、その音声信号ごとに、取得された座標値に応じたゲイン調整をそれぞれ行うものとすればよい。
また、実施の形態では、上下左右の二次元範囲のみを定位可能範囲とする場合を例示したが、各音源ごとにその音量調整を行うことで奥行き方向にも定位可能範囲を拡大することができる。つまり、例えば映像信号に基づく画像処理によって、映像内における音源の画像サイズを検出した結果に基づき、その音源の奥行き方向における位置情報を取得する。そして、この奥行き方向における位置情報に応じて各音源の音量をそれぞれ調整すれば、上下左右と共に奥行き方向も加えた三次元範囲でそれぞれの仮想音像位置を再現することができるといったものである。
また、スピーカSPとしてはLchの上下、Rchの上下のみとし、定位可能範囲は上下左右方向の二次元の範囲としたが、例えば5.1chサラウンドシステムのように前後方向にもスピーカSPを配置する場合には、視聴者の後側にも定位可能範囲を拡大することができる。
また、各実施の形態の再生装置(1、20、30)が備えるメディア再生部2としては、記録媒体についての再生を行うものとして説明したが、AM・FM、TV放送などを受信・復調して音声信号(及び映像信号)を出力するチューナ装置として構成することもできる。
或いは、各実施の形態の再生装置としては、このようなメディア再生部2を備えて記録媒体についての再生機能、または放送信号の受信機能を有するように構成される以外にも、例えばアンプ装置などとして、外部で再生(受信)された音声信号及び映像信号を少なくとも入力し、これらの入力信号に基づき各実施の形態の信号処理装置としての動作を行うように構成することもできる。
また、各実施の形態において、映像内容に応じた残響データを取得するための手法としては、メタデータに基づき取得する手法、或いは映像信号Vと場所画像とのマッチング結果に基づき取得する手法を例示したが、これ以外にも、予め映像信号Vに場所の名称などを示すテロップを挿入しておく手法も挙げることができる。すなわち、この場合制作側では、撮影により得た映像信号Vに場所の名称を表すテロップ(つまり画像信号である)を合成しておく。そして、再生装置側(または記録装置側)では、予め複数のテロップの画像とその場所情報(或いは対応する残響データ)とを対応づけたデータベースを備えておくようにし、これらテロップの画像と映像信号Vのフレーム画像の所定部分とのマッチングを行い、上記所定部分の画像と一致したと判定したテロップに対応づけられた場所情報を取得し、この場所情報に基づき残響データを取得する(或いは、一致したと判定したテロップに対応づけられた残響データを直接的に取得する)。
また、このように映像信号Vにテロップを挿入しておく手法の以外にも、例えばバーコードなどの所要の記号、またはイラスト等の画像信号を映像信号Vに合成しておくことによっても、同様に映像信号Vに基づく画像処理により場所情報、または直接的に残響データを取得することができる。
また、各実施の形態において、映像信号Vから音源位置の情報を取得するにあたっては、予め音源としての対象物にマーカを付しておきそのマーカをトラッキングする手法を例示したが、これ以外にも、例えば画像処理により映像中の特定の音源の画像データをトラッキングすることでその位置情報を取得することもできる。つまりこの場合、先ずは一度映像信号Vを再生して、そこに映し出される音源の画像データを操作により指定させる。そして、実際の再生時には、入力される映像信号Vのフレーム画像中からこのように指定された画像と一致する部分を検出し、その部分をトラッキングするといったものである。
また、各実施の形態では、本発明の音声属性情報として、音源の位置や映像内容に応じた響きを特定するための情報を挙げたが、この音声属性情報としては、映像内容に応じて臨場感を高めるための音声調整(音声信号処理)を行うにあたり、その調整パラメータを決定するために特定されるべき情報であって、映像信号による映像内容に応じた音声信号の音響的な属性に係る情報あれば、他の情報も含むものである。
本発明の第1の実施の形態としての信号処理装置を含んで構成される再生装置の内部構成について示したブロック図である。 各スピーカとディスプレイまたはスクリーンの配置関係を示した図である。 第1の実施の形態における映像ストリームデータのデータ構造について示した図である。 映像座標系について説明するための図である。 音声座標系について説明するための図である。 第1の実施の形態としての信号処理装置の動作の動作手順について示したフローチャートである。 第2の実施の形態としての信号処理装置を含んで構成される再生装置の内部構成について示したブロック図である。 第2の実施の形態における映像ストリームデータのデータ構造について示した図である。 第2の実施の形態としての信号処理装置の動作の動作手順について示したフローチャートである。 第3の実施の形態としての信号処理装置を含んで構成される再生装置の内部構成について示したブロック図である。 第3の実施の形態としての信号処理装置の動作の動作手順について示したフローチャートである。 第4の実施の形態としての信号処理装置を含んで構成される記録装置の内部構成について示したブロック図である。
符号の説明
1,20,30 再生装置、2 メディア再生部、3 ビデオデコーダ、4 オーディオデコーダ、5 音声信号処理部、6 音源座標取得部、7 座標変換部、8,46 定位位置制御部、9 変換マトリクス算出部、10 操作部、21 メタデータ抽出部、22 残響効果制御部、23 残響データテーブル、40 記録装置、42 音声信号再生部、43 映像信号再生部、44 ビデオエンコーダ、45 比率情報生成部、47 場所情報取得部、48 場所情報データベース、49 オーディオエンコーダ、50 多重化処理部、51 記録部、100 記録媒体

Claims (8)

  1. 音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号が入力される信号処理装置であって、
    上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、
    上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、
    を備えることを特徴とする信号処理装置。
  2. 上記音声信号は、上記映像信号による映像内に映し出される音源の音声を含むものとされ、
    上記音声属性情報取得手段は、
    上記音声同期情報信号としての上記映像信号に基づく画像処理により、上記音声属性情報として上記音源の上記映像内の位置情報を取得するようにされ、
    上記音声信号処理手段は、
    上記位置情報に基づき、上記音源の定位位置が調整されるように上記音声信号に対する音声信号処理を施す、
    ことを特徴とする請求項1に記載の信号処理装置。
  3. 上記音声属性情報取得手段は、
    上記音声同期情報信号に基づき、上記音声属性情報として上記映像内容に応じた残響情報を取得するようにされ、
    上記音声信号処理手段は、
    上記残響情報に基づき、上記音声信号に対する残響付加処理を行う、
    ことを特徴とする請求項1に記載の信号処理装置。
  4. 上記音声属性情報取得手段は、
    上記音声同期情報信号としての、上記映像信号に対して付加されたメタデータに基づき、上記残響情報を取得するようにされる、
    ことを特徴とする請求項3に記載の信号処理装置。
  5. 上記音声属性情報取得手段は、
    上記音声同期情報信号としての上記映像信号中のフレーム画像と、予め設定された複数の画像サンプルとのマッチングを行った結果に基づき、上記残響情報を取得するようにされる、
    ことを特徴とする請求項3に記載の信号処理装置。
  6. 音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とを入力して信号処理を行う信号処理方法であって、
    上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手順と、
    上記音声属性情報取得手順により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手順と、
    を備えていることを特徴とする信号処理方法。
  7. 音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号が記録された記録媒体についての再生を行う再生手段と、
    上記再生手段により再生される上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、
    上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、
    を備えることを特徴とする再生装置。
  8. 音声信号と、上記音声信号と同期した情報信号として少なくとも映像信号を含む音声同期情報信号とが入力される信号処理部であって、上記音声同期情報信号に基づき、上記映像信号による映像内容に応じた上記音声信号の音響的な属性に係る音声属性情報を取得する音声属性情報取得手段と、上記音声属性情報取得手段により取得される上記音声属性情報に基づき、上記音声信号に対し所定の音声信号処理を施す音声信号処理手段と、を備えた信号処理部と、
    上記音声信号処理手段により音声信号処理の施された上記音声信号と、上記映像ストリームとを所要の記録媒体に対して記録する記録手段と、
    を備えることを特徴とする記録装置。
JP2005348132A 2005-12-01 2005-12-01 信号処理装置、信号処理方法、再生装置、記録装置 Pending JP2007158527A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005348132A JP2007158527A (ja) 2005-12-01 2005-12-01 信号処理装置、信号処理方法、再生装置、記録装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005348132A JP2007158527A (ja) 2005-12-01 2005-12-01 信号処理装置、信号処理方法、再生装置、記録装置

Publications (1)

Publication Number Publication Date
JP2007158527A true JP2007158527A (ja) 2007-06-21

Family

ID=38242345

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005348132A Pending JP2007158527A (ja) 2005-12-01 2005-12-01 信号処理装置、信号処理方法、再生装置、記録装置

Country Status (1)

Country Link
JP (1) JP2007158527A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009278381A (ja) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
EP2323425A4 (en) * 2008-08-27 2012-09-12 Huawei Device Co Ltd METHOD AND DEVICE FOR PRODUCING AND PLAYING SOUND SIGNALS AND METHOD FOR PROCESSING SOUND SIGNALING
JP2014180044A (ja) * 2010-03-23 2014-09-25 Dolby Lab Licensing Corp 音声を定位知覚する技術
JP2016134767A (ja) * 2015-01-20 2016-07-25 ヤマハ株式会社 オーディオ信号処理装置
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US10200804B2 (en) 2015-02-25 2019-02-05 Dolby Laboratories Licensing Corporation Video content assisted audio object extraction
CN112153448A (zh) * 2020-10-08 2020-12-29 刘风华 一种视频通信中的音频处理方法及系统
WO2020261250A1 (en) * 2019-06-24 2020-12-30 Facebook Technologies, Llc Determination of spatialized virtual acoustic scenes from legacy audiovisual media
CN114731456A (zh) * 2019-11-12 2022-07-08 索尼集团公司 信息处理装置、信息处理方法和程序

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009278381A (ja) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
EP2323425A4 (en) * 2008-08-27 2012-09-12 Huawei Device Co Ltd METHOD AND DEVICE FOR PRODUCING AND PLAYING SOUND SIGNALS AND METHOD FOR PROCESSING SOUND SIGNALING
US8705778B2 (en) 2008-08-27 2014-04-22 Huawei Technologies Co., Ltd. Method and apparatus for generating and playing audio signals, and system for processing audio signals
EP3319344A1 (en) * 2008-08-27 2018-05-09 Huawei Device Co., Ltd. Method and apparatus for generating and playing audio signals, and system for processing audio signals
US10939219B2 (en) 2010-03-23 2021-03-02 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio reproduction
JP2014180044A (ja) * 2010-03-23 2014-09-25 Dolby Lab Licensing Corp 音声を定位知覚する技術
US9544527B2 (en) 2010-03-23 2017-01-10 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US12273695B2 (en) 2010-03-23 2025-04-08 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio reproduction
US10499175B2 (en) 2010-03-23 2019-12-03 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio reproduction
US11350231B2 (en) 2010-03-23 2022-05-31 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for audio reproduction
JP2016134767A (ja) * 2015-01-20 2016-07-25 ヤマハ株式会社 オーディオ信号処理装置
US10200804B2 (en) 2015-02-25 2019-02-05 Dolby Laboratories Licensing Corporation Video content assisted audio object extraction
WO2020261250A1 (en) * 2019-06-24 2020-12-30 Facebook Technologies, Llc Determination of spatialized virtual acoustic scenes from legacy audiovisual media
CN114731456A (zh) * 2019-11-12 2022-07-08 索尼集团公司 信息处理装置、信息处理方法和程序
CN112153448B (zh) * 2020-10-08 2021-12-14 杭州知聊信息技术有限公司 一种视频通信中的音频处理方法及系统
CN112153448A (zh) * 2020-10-08 2020-12-29 刘风华 一种视频通信中的音频处理方法及系统

Similar Documents

Publication Publication Date Title
US7336792B2 (en) Virtual acoustic image localization processing device, virtual acoustic image localization processing method, and recording media
JP6882618B2 (ja) オーディオ信号処理システム及び方法
US7590249B2 (en) Object-based three-dimensional audio system and method of controlling the same
KR101777639B1 (ko) 음향 재생을 위한 방법
US7881479B2 (en) Audio processing method and sound field reproducing system
JP5174527B2 (ja) 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
KR101381396B1 (ko) 입체음향 조절기를 내포한 멀티 뷰어 영상 및 3d 입체음향 플레이어 시스템 및 그 방법
Patricio et al. Toward six degrees of freedom audio recording and playback using multiple ambisonics sound fields
JP2012514358A (ja) 三次元音場の符号化および最適な再現の方法および装置
JP2011515942A (ja) 対象指向性の3d音声ディスプレイ装置
JP2004048751A (ja) 多チャンネル立体音響サウンドの生成方法及び装置
KR20200087130A (ko) 신호 처리 장치 및 방법, 그리고 프로그램
CN103609143B (zh) 用于捕获和回放源自多个声音源的声音的方法
JP2005311604A (ja) 情報処理装置及び情報処理装置に用いるプログラム
JP2007158527A (ja) 信号処理装置、信号処理方法、再生装置、記録装置
CN114915874B (zh) 音频处理方法、装置、设备及介质
WO2018150774A1 (ja) 音声信号処理装置及び音声信号処理システム
JP3572165B2 (ja) 映像音響信号再生装置及び映像音響信号再生方法
Miller III Scalable Tri-play Recording for Stereo, ITU 5.1/6.1 2D, and Periphonic 3D (with Height) Compatible Surround Sound Reproduction
JP2007158396A (ja) 映像・音声同期伝送装置
JP2008147840A (ja) 音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラム
JP2009049873A (ja) 情報処理装置
JP2008219563A (ja) 音声信号生成装置、音場再生装置、音声信号生成方法およびコンピュータプログラム
Chinchilla Free the voice! Systems, Devices and Methods for Multi-Dimensional Spatial Recording and Playback
Candusso Designing sound for 3D films