JP4951985B2

JP4951985B2 - 音声信号処理装置、音声信号処理システム、プログラム

Info

Publication number: JP4951985B2
Application number: JP2006020653A
Authority: JP
Inventors: 裕司山田; 越沖本
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-01-30
Filing date: 2006-01-30
Publication date: 2012-06-13
Anticipated expiration: 2026-01-30
Also published as: JP2007202021A

Description

本発明は、音声信号を対象として信号処理を実行する音声信号処理装置に関する。また、このような音声信号処理装置の機能を与えようとする情報処理装置が実行するプログラムに関する。

例えば５．１ｃｈサラウンドや７．１ｃｈサラウンドなどの、いわゆるマルチチャンネルといわれるチャンネル構成により音響再生を行うことが知られ、また、普及してきている。
一方で、例えばＬｃｈ，Ｒｃｈによる２チャンネルステレオに代表されるように、マルチチャンネルシステムよりも前から普及定着している再生システムも依然として広く使用されている。このために、マルチチャンネルの音声ソースを、上記２チャンネルステレオなどの、よりチャンネル数の少ない再生システムにより再生しなければならない状況は避け難い。

しかしながら、マルチチャンネルの音声ソースとしては、本来は、マルチチャンネルを全体で視聴したときにしかるべき音響効果が得られるようにして形成された個々のチャンネルごとに応じた音声信号からなるものとされる。５．１ｃｈサラウンドであれば、Ｌ（左）ｃｈ、Ｃ（センター）ｃｈ、Ｒ（右）ｃｈ、ＬＳ（左サラウンド）ｃｈ、ＲＳ（右サラウンド）ｃｈ、ＳＷ（サブウーファ）ｃｈごとに応じた６つの音声信号から成るということである。このために、マルチチャンネルのソースをＬ，Ｒステレオチャンネルにより再生させる場合において、例えば単純に、マルチチャンネルのＬｃｈ、Ｒｃｈの音声を再生出力させたとすると、残るＣｃｈ、ＬＳｃｈ、ＲＳｃｈにより再生させるべき音源の要素が完全に欠落し、聴くことのできない音ができてしまうという不都合を生じる。
そこで、マルチチャンネルを形成する各チャンネルの音声信号を適切に分配するようにして、例えばＬｃｈ，Ｒｃｈによる２チャンネルステレオのチャンネル構成の音声ソースに変換するエンコード技術が知られている。例えばこのようにしてエンコードされた２チャンネルステレオの音声ソースを再生すれば、その再生音場としては、左右方向においてのみ音像が定位する一般的な２チャンネルステレオによるものとはなるが、全てのチャンネルの音声の成分が含まれているので、欠落して聴けなくなる音はなくなる。

そして、上記したようなエンコードの技術としては、次のようなものが知られている。なお、ここでのエンコード技術の説明にあたっては、エンコード対象となるマルチチャンネルは、Ｌｃｈ、Ｃｃｈ、Ｒｃｈ、Ｓ（サラウンド）ｃｈの４チャンネルであることとし、エンコードによってＬｃｈ，Ｒｃｈの２チャンネルステレオに変換される場合を例に挙げる。
ここで、上記したマルチチャンネルを形成するＬｃｈ、Ｃｃｈ、Ｒｃｈ、Ｓｃｈチャンネルごとの音声信号を、それぞれＳl、Ｓc、Ｓr、Ｓsとし、エンコード後の２チャンネルによるＬｃｈ、Ｒｃｈの信号を、Ｓ1、Ｓ2とする。そして、エンコード処理としては、例えば信号Ｓl、Ｓc、Ｓr、Ｓsを利用して、それぞれ下記の式（１）、（２）に示す演算を実行することで、これら信号Ｓ1、Ｓ2を得るようにされる。
Ｓ1＝Ｌ＋0.7Ｃ＋0.7Ｓ・・・式（１）
Ｓ2＝Ｒ＋0.7Ｃ−0.7Ｓ・・・式（２）
このようにして、信号Ｓ1は、Ｌｃｈの信号に対して、所定の係数（0.7）により乗算したＣｃｈ、Ｓｃｈの信号を加算して得られる。また、信号Ｓ2は、Ｒｃｈの信号に対して、所定の係数（0.7）により乗算したＣｃｈを加算し、Ｓｃｈの信号を減算したものとなっている。そして、このようにして得られた信号Ｓ1、Ｓ2による音声ソースを、２チャンネルステレオによる再生システムにより再生すれば、通常のＬｃｈ，Ｒｃｈによる２チャンネルステレオの音像定位ではあるが、元の音声ソースの音は欠落することなく、全て聴こえるようにして再生されることになる。

また、上記したエンコード技術に対応した技術として、エンコードされた２チャンネルステレオなどの音声ソースを、元のマルチチャンネルの音声ソースに変換するデコード技術も存在する。このようなデコード技術について、図２２を参照して説明する。

図２２においては、デコード元の信号として、上記したエンコードの処理によって得られた信号Ｓ1、Ｓ2が入力される。
信号Ｓ1、Ｓ2は、それぞれ、方向性強調回路５０１、５０４に対して直接入力される。また、これとともに、信号Ｓ1、Ｓ2は加算器５１１により加算されることで信号Ｓ3として方向性強調回路５０２に入力される。さらに、信号Ｓ1、Ｓ2は加算器５１２により減算され、信号Ｓ4として方向性強調回路５０３に入力されるようになっている。つまり、信号Ｓ1、Ｓ2を入力して、信号Ｓ3、Ｓ4を生成する部位は、マトリクス回路としての構成を採る。
このマトリクス回路の動作に基づき、信号Ｓ3、Ｓ4は、それぞれ、下記の式（３）（４）により表される。
Ｓ3＝1.4Ｃ＋Ｌ＋Ｒ・・・（式３）
Ｓ4＝1.4Ｓ＋Ｌ−Ｒ・・・（式４）
なお、図２２において示される信号Ｓ1、Ｓ2としては、それぞれ、先に示した式（１）（２）により表される。

上記のようにして得られる信号Ｓ1、Ｓ2、Ｓ3、Ｓ4のそれぞれの特徴として、先ず、信号Ｓ1
は、デコード後のＬｃｈ信号成分が他のチャンネルの信号成分よりも３ｄＢ高くなっている。また、信号Ｓ2は、デコード後のＲｃｈ信号成分が他のチャンネルの信号成分よりも３ｄＢ高くなっている。また、信号Ｓ3は、デコード後のＣｃｈ信号成分が他のチャンネルの信号成分よりも３ｄＢ高く、信号Ｓ4は、デコード後のＣｃｈ信号成分が他のチャンネルの信号成分よりも３ｄＢ高くなっている。つまり、信号Ｓ1、Ｓ2、Ｓ3、Ｓ4は、自身に含まれる各チャンネルの信号成分の間で、特定の１つのチャンネルの信号成分のみが他のチャンネルの信号成分よりも高いという性質を持つことで、それぞれ、Ｌｃｈ、Ｃｃｈ、Ｒｃｈ、Ｓｃｈチャンネルの信号としての適正を得ている。
ただし、マトリクス回路により生成されたままの段階の信号Ｓ1、Ｓ2、Ｓ3、Ｓ4の状態では、音像の分離が不十分になる。そこで、方向性強調回路５０１、５０２、５０３、５０４を設け、これらの回路に対して、それぞれ、信号Ｓ1、Ｓ2、Ｓ3、Ｓ4を通過させ、実際のＬｃｈ、Ｃｃｈ、Ｒｃｈ、Ｓｃｈチャンネルごとの再生用信号を得るようにされている。方向性強調回路は、信号Ｓ1、Ｓ2、Ｓ3、Ｓ4のレベル差に応じてその出力レベルを変化させるように構成されている。例えば、Ｌｃｈの信号Ｓ1が、他のチャンネルの信号Ｓ2、Ｓ3、Ｓ4よりもレベルが大きくなったとすると、これに適応して信号Ｓ1のレベルを動的に増強させ、Ｌｃｈの音声を他のチャンネルの音声よりも際だたせるようにする。このような動作によって、４チャンネルの音声の間での音像の分離がより良好になる。
なお、上記したエンコード、デコードの技術は、例えばドルビープロロジックなどに採用されている。

特開２００３−２７４４９３号公報

しかしながら、上記したエンコード、デコード技術は、下記のような点で万全ではなく、改良される余地が残っているということがいえる。
例えばデコード処理にあっては、図２２により説明したように、マトリクス回路により復元したマルチチャンネルごとの音声信号（Ｓ1、Ｓ2、Ｓ3、Ｓ4）について方向性強調のための処理を施している。しかし、この処理は、他のチャンネル音声よりも大きなレベルのチャンネル音声を増強させるというものである。このことは、チャンネル間の音像の分離をよりはっきりさせるという効果がある反面、チャンネルごとの出力音声のレベルが動的に変動することになり、聴感的に不自然な音量の変化を感じやすいという問題を抱える。また、全てのチャンネルの音声信号がほぼ同等レベルであるような場合には、レベル差を増強する処理が行われないことになり、例えばチャンネル間の音声の音量的分離は、３ｄＢ程度を確保できるにとどまって、音像の分離が良好でなくなる。また、音声の内容によっては、配置が隣り合うスピーカ同士の間で、一方のスピーカから出力されている音が、他方のスピーカ側に引きつけられるようにして、不用意に定位が変化することもある。つまり、図２２に対応する技術では、エンコードされた音声信号をデコードし、マルチチャンネルにより再現したときの音響に関して、より高品位とする余地が残っている。

そこで本発明は上記した課題を考慮して、音声信号処理装置として次のように構成する。
つまり、本願発明の音声信号処理装置は、所定のチャンネル構成を成すデコードチャンネルに対応する音声信号成分のそれぞれに対して、対応のデコードチャンネルとしての音源の位置に基づいて求められた空間伝達関数により表される伝達特性を与え、これらの音声信号成分をエンコードチャンネルのチャンネル構成に応じて振り分けて生成した、エンコードチャンネルの音声信号を入力して、上記デコードチャンネルにおける特定の１つのチャンネルに対応する音声信号成分を生成する音声信号生成手段を、上記デコードチャンネルごとに対応して備えるものとされる。
そして、上記音声信号生成手段の各々は、入力されたエンコードチャンネルの音声信号の各々について、その音声信号生成手段が対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、この補正手段により補正された信号の間での所定の近似性を検出する近似性検出手段と、この近似性検出手段の検出結果に基づいて、信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、この分離手段により分離された信号成分を加算して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備えることとした。

また、音声信号処理システムとして次のように構成することとした。
つまり、本願発明の音声信号処理システムは、所定のチャンネル構成を成す原チャンネルの音声信号の組を、この原チャンネル以外の所定のチャンネル構成を成すエンコードチャンネルの音声信号の組に変換して出力するエンコード装置と、所定のチャンネル構成を成すエンコードチャンネルの音声信号の組を入力して、所定のチャンネル構成を成すデコードチャンネルの音声信号の組に変換するデコード装置とから成る。
そして、上記エンコード装置は、１原チャンネルにつきエンコードチャンネルごとに対応したものが設けられ、入力される音声信号が対応する原チャンネルとしての音源の位置に基づいて設定される空間伝達関数により表される伝達特性を、入力される音声信号に付与する伝達特性付与手段と、エンコードチャンネルごとに対応して設けられ、伝達特性付与手段の各々によって処理が施された信号を入力して加算し、この加算した出力を、対応するエンコードチャンネルの音声信号として出力する加算手段とを備えることとした。
また、上記デコード装置は、デコードチャンネルにおける特定の１つのチャンネルに対応する音声信号成分を分離する音声信号分離手段を、デコードチャンネルごとに対応して有させることとして、これら音声信号生成手段の各々は、入力されたエンコードチャンネルごとの音声信号について、対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、この補正手段による補正後のエンコードチャンネルごとの信号についての所定の近似性を検出する近似性検出手段と、この近似性検出手段の検出結果に基づいて、信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、この分離手段により分離された信号成分を加算して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備えることとした。
なお、ここでのチャンネル構成とは、１つの音響システムを形成するためのオーディオチャンネルの数と、オーディオチャンネルに応じた音源の間での位置関係などにより決まる構成内容をいうものである。

上記各構成によると、エンコードされた音声ソースは、所定のチャンネル構成によるものを、他のチャンネル構成に変換したものとされる。そのときに、エンコード後のチャンネルごとの音声信号には、エンコード前のチャンネル構成における各チャンネルの音源の位置に応じてしかるべき空間伝達関数に応じた伝達特性が与えられている。このようにしてエンコードされた音声ソースは、エンコードチャンネルのチャンネル構成に応じた再生システムにより再生することで、エンコード前の音声ソースを再生した場合と同等の音像定位を実現することが可能である。
そして、本願発明の音声信号処理装置（デコード装置）は、上記したエンコードチャンネル構成の音声信号を入力して、エンコード前と同じチャンネル構成、若しくは別のチャンネル構成による音声信号群からなる音声ソースに変換する。このためには、入力したエンコード後の各チャンネルの音声信号から、各デコードチャンネルとしての音声信号成分を分離して出力するようにされる。
１デコードチャンネルに対応する、上記音声信号成分の分離のための構成としては、エンコードチャンネルごとの音声信号のそれぞれに含まれる音声信号成分のうちから、エンコードのための伝達特性を与えられたことにより変化した、そのデコードチャンネルの音声信号成分の所定要素（例えば位相、レベル、伝搬時間差など）を補正するようにされる。そして、エンコードチャンネルの音声信号の間で、これらの要素が近似しているとされる信号成分を分離するようにされる。このようにして分離された信号成分が、対応するデコードチャンネルの音声信号として出力される。このような信号分離の処理を、デコードチャンネルごとに実行する。この場合、各デコードチャンネルの音声信号としての出力は、そのデコードチャンネルにより再生出力させるべき音声信号成分のみから成るもので、他のチャンネルの音声信号成分は含んでいないものとしてみてよい。

このことから本発明としての音声信号処理装置は、デコードチャンネルの構成に応じた再生システムによりデコード後の音声ソースを再生するのにあたり、方向性強調などの処理を施さなくとも、適正な音像定位を再現できるものであり、このことが、例えば再生音の品質向上につながる。

以下、本願発明を実施するための最良の形態（以下、実施の形態という）について説明していくこととする。
図１、図２は、本実施の形態のエンコード装置とデコード装置のそれぞれについての、入出力のチャンネル構成を示している。
先ず、本実施の形態のエンコード装置１としては、図１に示すようにして、マルチチャンネルといわれるチャンネル構成の１つであるＬ（左）ｃｈ、Ｃ（中央）ｃｈ、Ｒ（右）ｃｈ、ＬＳ（左サラウンド）ｃｈ、ＲＳｃｈ（右サラウンド）による５チャンネル分の音声信号の組による音声ソースを入力し、Ｌｃｈ，Ｒｃｈの２チャンネルステレオに対応するチャンネル構成による音声信号の組の音声ソースに変換して出力するものとして構成される。なお、上記したＬｃｈ、Ｃｃｈ、Ｒｃｈ、ＬＳｃｈ、ＲＳｃｈのチャンネル構成は、例えば５．１ｃｈサラウンドのチャンネル構成から、サブウーファのチャンネルを省略したものとしてみることができる。
また、本実施の形態のデコード装置２としては、図２に示すようにして、２チャンネルステレオに対応したチャンネル構成による音声ソースの音声信号の組を入力する。このようにして入力される音声信号は、上記エンコード装置１にてエンコードされた音声ソースのものとされる。そして、これらの入力音声信号についてデコード処理を行った結果として、エンコード装置１によりエンコードされる前と同様の５チャンネル構成の組による音声信号を出力するものとされる。

図３は、図１に示したエンコード装置１によりエンコードされるべき音声ソースのチャンネル構成についてのモデルを示している。
この図には、Ｌｃｈ、Ｃｃｈ、Ｒｃｈ、ＬＳｃｈ、ＲＳｃｈのそれぞれに応じた音源として、スピーカＳＰ−Ｌ、ＳＰ−Ｃ、ＳＰ−Ｒ、ＳＰ−ＬＳ、ＳＰ−ＲＳが示され、これらのスピーカから出力されて左耳と右耳のそれぞれ到達する音声をリスナ（聴取者）Ｍが聴き取る、というモデルが示されている。
ちなみに、このようなチャンネル構成では、図示もしているように、リスナＭの位置に対する左前方にスピーカＳＰ−Ｌを配置し、中央前方にスピーカＳＰ−Ｃを配置し、右前方にスピーカＳＰ−Ｒを配置し、左後方にスピーカＳＰ−ＬＳを配置し、右後方にスピーカＳＰ−ＲＳを配置するのが通常である。また、このようなマルチチャンネルのスピーカの配置位置については、ＩＴＵ−Ｒなどによって理想的とされる所定の配置角度、高さなどが推奨されている。

そして、図３に示されるチャンネル構成の下での、各スピーカからリスナＭの右耳、左耳に到達する音の経路については、下記の伝達関数（空間伝達関数）により表すものとする。
Ｈll：スピーカＳＰ−Ｌから左耳に到達する経路の伝達関数
Ｈlr：スピーカＳＰ−Ｌから右耳に到達する経路の伝達関数
Ｈcl：スピーカＳＰ−Ｃから左耳に到達する経路の伝達関数
Ｈcr：スピーカＳＰ−Ｃから右耳に到達する経路の伝達関数
Ｈrl：スピーカＳＰ−Ｒから左耳に到達する経路の伝達関数
Ｈrr：スピーカＳＰ−Ｒから右耳に到達する経路の伝達関数
Ｈlsl：スピーカＳＰ−ＬＳから左耳に到達する経路の伝達関数
Ｈlsr：スピーカＳＰ−ＬＳから右耳に到達する経路の伝達関数
Ｈrsl：スピーカＳＰ−ＲＳから左耳に到達する経路の伝達関数
Ｈrsr：スピーカＳＰ−ＲＳから右耳に到達する経路の伝達関数

なお、スピーカ（音源）から発せられる音の到達目標位置が、リスナの左耳、右耳ということになると、音源から、これら左耳、右耳に対して音声が到達するための経路についての空間伝達関数は、特に頭部伝達関数として扱われるものとなる。

図４は、図１に示したエンコード装置１の内部構成例を示している。
エンコード装置１の入力としては、図１と同様にして、Ｌｃｈ、Ｃｃｈ、Ｒｃｈ、ＬＳｃｈ、ＲＳｃｈのチャンネル構成を形成する各チャンネル（原チャンネル）ごとの音声信号が入力される。
先ず、Ｌｃｈに対応した入力音声信号についてみると、この原チャンネルのＬｃｈ（原チャンネル（Ｌ））としての入力音声信号は、フィルタ１１ａ、１１ｂに分岐して入力される。フィルタ１１ａでは、原チャンネル（Ｌ）の入力音声信号に対して伝達関数Ｈllにより表される伝達特性を与えるための処理を実行する。このためには、例えば伝達関数Ｈllを時間軸上に変換したインパルス応答を得て、このインパルス応答を原チャンネル（Ｌｃｈ）の入力音声信号に対して畳み込むためのフィルタリング処理を実行すればよい。また、フィルタ１１ｂでは、原チャンネル（Ｌ）の入力音声信号に対して、上記と同様のフィルタリング処理により、伝達関数Ｈlrにより表される伝達特性を与えるための処理を実行する。

そして、残る原チャンネル（Ｃ）、（Ｒ）、（ＬＳ）、（ＲＳ）の各原チャンネルの入力音声信号についても同様にして、対応の伝達関数に応じた伝達特性を与えるための処理を施すようにされる。
つまり、原チャンネル（Ｃ）の入力音声信号については、フィルタ１２ａが伝達関数Ｈclにより表される伝達特性を与えるとともに、フィルタ１２ｂが伝達関数Ｈcrにより表される伝達特性を与えるようにされる。
原チャンネル（Ｒ）の入力音声信号については、フィルタ１３ａが伝達関数Ｈrlにより表される伝達特性を与えるとともに、フィルタ１３ｂが伝達関数Ｈrrにより表される伝達特性を与えるようにされる。
原チャンネル（ＬＳ）の入力音声信号については、フィルタ１４ａにより伝達関数Ｈlslにより表される伝達特性を与えるとともに、フィルタ１４ｂにより伝達関数Ｈlsrにより表される伝達特性を与えるようにされる。
原チャンネル（ＲＳ）の入力音声信号については、フィルタ１５ａにより伝達関数Ｈrslにより表される伝達特性を与えるとともに、フィルタ１５ｂにより伝達関数Ｈrsrにより表される伝達特性を与えるようにされる。

ここで、上記フィルタ１１ａ，１１ｂ〜１５ａ、１５ｂは、それぞれ、図５に示される所定次数のＦＩＲ(Finite Impulse Response)型のデジタルフィルタによって構成することができる。ＦＩＲフィルタとしては、例えば構成すべき次数（Ｎ次）に応じた数の遅延器２１（１）〜２１（Ｎ）と、乗算器２２（１）〜２２（ｎ）と加算器２３（１）〜２３（Ｍ）を図のようにして接続したものとして形成される。遅延器２１（１）〜２１（Ｎ）は、それぞれ１サンプルのタイミング信号を遅延させ、乗算器２２（１）〜２２（ｎ）に対しては、畳み込むべきインパルス応答に応じた係数が設定される。このような構成により、入力端子２０から入力されたデジタル音声信号は、インパルス応答が畳み込まれて出力端子２４から出力される。つまり、インパルス応答に応じた伝達特性を持った音声信号に変換されて出力される。
また、これらフィルタ１１ａ，１１ｂ〜１５ａ、１５ｂにより畳み込むインパルス応答、あるいはその基となる伝達関数は、所定の環境をつくったうえで実際に測定して求めるようにしてもよいし、あるいは、一定の環境を想定したうえで演算などにより求めることができる。また、このときに実際的にあるいは仮想的に設定する原チャンネルの音源（スピーカ）の位置は、先に説明したＩＴＵ−Ｒの推奨に従ったものを採用することができる。また、ＩＴＵ−Ｒの推奨以外の位置を設定してもよい。

説明を図４に戻す。
フィルタ１１ａ，１１ｂ〜１５ａ、１５ｂによりしかるべき伝達特性が与えられて出力される信号のうち、フィルタ１１ａ、１２ａ、１３ａ、１４ａ、１５ａから出力される信号は、加算器１６ａにより加算され、エンコード後のステレオチャンネル（２チャンネル）におけるＬチャンネルの信号として出力される。
また、フィルタ１１ｂ、１２ｂ、１３ｂ、１４ｂ、１５ｂから出力される信号は、加算器１６ｂにより加算され、エンコード後のステレオチャンネルにおけるＲチャンネルの信号として出力される。

ここで、エンコード後のＬチャンネルの信号は、原チャンネル（Ｌ）（Ｃ）（Ｒ）（ＬＳ）（ＲＳ）の各音声信号に対して、図３のリスナＭの左耳に到達する経路の伝達特性を与えたものを加算（合成）したものとなっている。また、エンコード後のＲチャンネルの信号は、同じ原チャンネル（Ｌ）（Ｃ）（Ｒ）（ＬＳ）（ＲＳ）の各音声信号に対して、リスナＭの右耳に到達する経路の伝達特性を与えたものを加算（合成）したものとなっている。
例えば、このようにしてエンコードされた２チャンネルの音声ソースを、通常の２チャンネルステレオに対応した音声再生装置により再生出力させ、この再生音をヘッドフォンにより聴いたとする。
このときにヘッドフォンを装着したリスナの左右の耳で聴き取る音は、図３のスピーカＳＰ−Ｌ、ＳＰ−Ｃ、ＳＰ−Ｒ、ＳＰ−ＬＳ、ＳＰ−ＲＳからリスナＭの左耳と右耳とにそれぞれ到達する経路の伝達特性を持っている。従って、実際にヘッドフォンを装着したリスナが知覚する音としては、通常の２チャンネルステレオのようにして頭内において定位するものではなく、例えば図３のようにして、リスナＭの位置にて、スピーカＳＰ−Ｌ、ＳＰ−Ｃ、ＳＰ−Ｒ、ＳＰ−ＬＳ、ＳＰ−ＲＳが仮想的に在るとされる位置にて原チャンネルの各音が発せられているときの定位を知覚することになる。
なお、ここでは図３との対応を分かりやすいものとするために、本実施の形態のエンコード装置１によりエンコードした音声ソースをヘッドフォンにより再生した場合について述べているが、２チャンネルステレオ再生システムとしてＬ，Ｒの各チャンネルに対応した２つのスピーカから音声を再生出力させたときにも、例えば図３と同様の仮想音源の定位とすることは可能である。この場合には、図３に示す原チャンネルのスピーカごとに対応した伝達関数に加えて、上記Ｌ，Ｒの各チャンネルに対応した２つのスピーカからリスナの両耳に到達する音の経路の伝達関数を加味して、図４のフィルタ１１ａ，１１ｂ〜１５ａ，１５ｂにおいて畳み込むべきインパルス応答の伝達関数を求めるようにすればよい。
例えば従来例として説明したエンコード技術により２チャンネルステレオのチャンネル構成にエンコードされた音声ソースを通常の２チャンネルステレオに対応する再生装置により再生させたときには、通常の２チャンネルステレオとしての音像定位になる。これに対して本実施の形態のエンコード装置１であれば、上記のようにして、エンコード前の原チャンネルによる仮想の音像定位が得られるものである。これにより、例えばエンコードされた音声ソースを含んだコンテンツ情報などとしては、その付加価値が高まることになる。

続いては、図６により、本実施の形態のデコード装置２の内部構成例について説明する。
この図に示すようにして、デコード装置２に対しては、例えばエンコード装置１によりエンコードされた後の２チャンネルステレオによるＬｃｈ、Ｒｃｈの音声信号が入力される。なお、ここでは、このデコード装置２に入力されるエンコード後のチャンネル構成に対応したＬ，Ｒの各チャンネルについて、エンコードチャンネル（Ｌ）、エンコードチャンネル（Ｒ）ともいう。

この図に示すエンコーダ２は、高速フーリエ変換部（ＦＦＴ部）３１ａ、３１ｂ、チャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−Ｃ、３２−ＬＳ、３２−ＲＳ、逆高速フーリエ変換部（ＩＦＦＴ部）３３−Ｌ、３３−Ｃ、３３−Ｒ、３３−ＬＳ、３３−ＲＳから成る。
エンコードチャンネル（Ｌ）の入力音声信号と、エンコードチャンネル（Ｒ）の入力信号のうち、エンコードチャンネル（Ｌ）の入力音声信号は、高速フーリエ変換部３１ａに入力される。フーリエ変換部３１ａでは、高速フーリエ変換処理を実行することで、入力された音声信号を周波数領域の信号Ｓｇｌに変換する。この信号Ｓｇｌは、分岐して、チャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−ＬＳ、３２−ＲＳ内に設けられる補正処理部４１ａに対してそれぞれ入力される。
また、一方のエンコードチャンネル（Ｒ）の入力音声信号は、高速フーリエ変換部３１ｂに入力される。フーリエ変換部３１ｂにおいても、入力音声信号について高速フーリエ変換処理を実行して、周波数領域の信号Ｓｇｒに変換し、チャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−ＬＳ、３２−ＲＳ内に設けられる補正処理部４１ｂに対してそれぞれ入力させる。

チャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−ＬＳ、３２−ＲＳは、以降の説明からも理解されるように、デコード後のチャンネル構成である、Ｌｃｈ、Ｃｃｈ、Ｒｃｈ、ＬＳｃｈ、ＲＳｃｈの５つのチャンネル（デコードチャンネル）に対応して、５つ設けられているものであり、それぞれ、図示するようにして、補正処理部４１ａ、４１ｂ、及び分離処理部４２を備えてなる。

図７、図８は、チャンネル信号分離ブロック３２の構成として、分離処理部４２の内部をより詳細に示した構成例を示している。なお、これら図７、図８においては、５つあるチャンネル信号分離ブロックのうち、チャンネル信号分離ブロック３２−Ｌを例に挙げている。
図７は、チャンネル信号分離ブロック３２−Ｌにおいて実行される信号処理動作の概念に基づいて、その内部構成を示している。
エンコードチャンネル（Ｌ）の入力音声信号を高速フーリエ変換部３１ａにより周波数領域に変換して得られた信号Ｓglは、チャンネル信号分離ブロック３２−Ｌにおける補正処理部４１ａに対して入力される。この補正処理部４１ａにおいては、伝達関数Ｈllに応じたインパルス応答畳み込み処理のフィルタ特性に対して逆となるフィルタ特性によるフィルタリング処理を実行する。
この伝達関数Ｈllに応じたインパルス応答畳み込み処理のフィルタ特性の逆特性については、ここでは［１／Ｈll］のようにして伝達関数Ｈllの逆数により表している。
例えば伝達関数Ｈllに応じた伝達特性を持つとされる音声信号成分の周波数応答特性が図９（ａ）に示すものであるとした場合、その逆特性［１／Ｈll］の周波数応答特性は、図９（ｂ）に示すようにして、図９（ａ）の特性を反転させたようなものとなる。
そして、上記伝達関数Ｈllは、図３に示した原チャンネル（Ｌ）のスピーカＳＰ−ＬからリスナＭの左耳に到達する経路の伝達関数であり、図４に示したエンコード装置１におけるフィルタ１１ａに設定されるフィルタ特性に対応する。つまり、図７の補正フィルタ４１ａでは、［１／Ｈll］として示される逆フィルタをかけているものであり、これにより、信号Ｓｇｌに含まれているとされるフィルタ１１ａ〜フィルタ１５ａの信号成分のうちで、フィルタ１１ａの出力信号成分に与えられていた伝達関数Ｈllによる伝達特性はキャンセルされる。このために、信号Ｓｇｌに含まれるフィルタ１１ａの出力信号成分は、フィルタ１１ａに入力される前段階の原チャンネル（Ｌ）の音声信号、つまり、エンコード前の音声ソースの信号に限りなく近くなり、同等とみてよい特性にまで補正されることとなる。なお、留意すべきことは、補正フィルタ４１ａにより原チャンネルの音声信号と同等の特性となるようにして補正される信号成分は、原チャンネル（Ｌ）に対応したもののみであり、他の原チャンネルに対応する信号成分については、かかる補正はかけられていないままである。

また、一方のエンコードチャンネル（ｒ）の入力音声信号を高速フーリエ変換部３１ａにより周波数領域に変換して得られた信号Ｓgｒについても、チャンネル信号分離ブロック３２−Ｌにおける補正処理部４１ａにより、伝達関数Ｈlrに応じたインパルス応答畳み込み処理のフィルタ特性（図４のフィルタ１１ｂのフィルタ特性）に対する逆特性［１／Ｈlr］によるフィルタリングの処理がかけられる。これにより、補正処理部４１ａの出力としては、信号Ｓｇｒに含まれる信号成分のうちで原チャンネル（Ｌ）の音声信号の成分のみが、フィルタ１１ｂの入力前と同等特性となるようにして補正されることになる。
なお、補正処理部４１ａ、４１ｂについても、例えば図５に示したようなＦＩＲ型のフィルタを形成し、例えば逆フィルタ特性に応じた係数を乗算器に設定して構成することができる。

上記のようにして、チャンネル信号分離ブロック３２−Ｌの補正処理部４１ａによっては、エンコードチャンネル（Ｌ）に対応する信号Ｓｇｌについて、これに含まれる原チャンネル（Ｌ）の信号成分についてのみ、エンコード前と同等の特性に補正するようにされ、補正処理部４１ｂによっては、エンコードチャンネル（Ｒ）に対応する信号Ｓｇｒについて、これに含まれる原チャンネル（Ｌ）の信号成分についてのみ、エンコード前と同等の特性に補正する。つまり、信号Ｓｇｌと、信号Ｓｇｒとについて、ともに、原チャンネル（Ｌ）の信号成分のみをエンコード前と同等に補正した信号Ｓｇｌａ、Ｓｇｒａが得られることになる。これら信号Ｓｇｌａ、Ｓｇｒａの関係としては、共通に補正された原チャンネル（Ｌ）の信号成分については、その位相とレベルが相互に一致していることになる。つまり、補正処理部４１ａ，４１ｂによる補正処理は、エンコード時において原チャンネル（Ｌ）の信号成分に対して伝達特性（Ｈll、Hlr）を与えたことにより生じた、信号Ｓｇｌ，Ｓｇｒ間における原チャンネル（Ｌ）の信号成分の位相差、レベル差を補正しているものであるともみることができる。なお、信号Ｓｇｌａ、Ｓｇｒａにおいて、原チャンネル（Ｌ）以外の信号成分については、エンコード時においてフィルタ１２ａ、１２ｂ〜１５ａ、１５ｂにより与えられた伝達特性を有したままであることで、相互が一致しない状態であるということになる。

このような性質を有する信号Ｓｇｌａ、Ｓｇｒａは、分離処理部１２におけるレベル／位相比較処理ブロック５１に入力される。また、後述する乗算器５３、５４に対してそれぞれ入力される。
レベル／位相比較処理ブロック５１は、入力された信号Ｓｇｌａ、Ｓｇｒａとについて、レベルの比較と位相の比較を行い、比較結果として、信号Ｓｇｌａ、Ｓｇｒａについての周波数領域におけるレベルと位相についての近似率の値を示すとされる信号を、音源分離関数演算ブロック５２に出力するようにされる。

音源分離関数演算ブロック５２は、レベル／位相比較処理ブロック５１から入力される検出信号としての近似値に基づいて、所定の音源分離関数についての演算を行うことで、乗算器５３、５４の係数を求め、この求められた係数を乗算器５３、５４に対して設定する。乗算器５３，５４は、それぞれ、入力された信号Ｓｇｌａ、Ｓｇｒａに対して、設定された係数を乗算して出力する。なお、この係数の求め方のより具体的な例については後述する。このようにして係数が設定されることで、乗算器５３からは、信号Ｓｇｌａにおいて、他方の信号Ｓｇｒａとレベル、位相が一定以上近似しているとされる成分が出力される。同様に、乗算器５４からは、信号Ｓｇｒａにおいて、信号Ｓｇｌａとレベル、位相が一定以上近似しているとされる成分が出力される。この結果、乗算器５３、５４の出力は、信号Ｓｇｌａに含まれる信号成分と、信号Ｓｇｒａに含まれる信号成分とで、ほぼ同レベル、同位相とされる同一とみてよい信号成分であることになる。先にも説明したように、信号Ｓｇｌａと信号Ｓｇｒａとの間で同レベルとなる信号は、補正フィルタ４１ａ、４１ｂにより補正された原チャンネル（Ｌ）の信号成分である、従って、乗算器５３、５４の出力としては、信号Ｓｇｌａ、Ｓｇｒａの各々から、この補正された原チャンネル（Ｌ）の信号成分を分離抽出したものである、ということがいえる。そして、これら乗算器５３、５４の出力を加算器５５により加算して出力する。この加算器５５の出力が、チャンネル信号分離処理ブロック３２−Ｌの出力信号となるものであり、この出力信号としては、エンコード前の原チャンネル（Ｌ）の音声信号と同等の信号成分であることになる。つまり、チャンネル信号分離処理ブロック３２−Ｌでは、周波数領域に変換したエンコードチャンネル（Ｌ）（Ｒ）の音声信号を入力して、エンコード前の原チャンネル（Ｌ）の音声信号と同等の成分の信号を分離抽出して出力する。

図８には、上記図７により説明した処理概念に基づいて実際に構成されるチャンネル信号分離ブロック３２−Ｌを示している。なお、この図において、図７と同一部分には同一符号を付して説明を省略する。
この図８においては、分離処理部４２についてのより実際的な内部構成例が示されているので、この点について説明する。図８に示される分離処理部４２としては、レベル比較部６１、係数発生部６２、位相比較部６３、係数発生部６４、乗算器６５，６６，６７，６８、及び加算器５５から成るものとされる。
信号Ｓｇｌａ、Ｓｇｒａは、分離処理部４２に入力されると、先ず、レベル比較部６１に対して入力される。レベル比較部６１は、入力された信号Ｓｇｌａ、Ｓｇｒａについてのレベルを例えば周波数のサンプルごとに求め、その求めた両者のレベルにより、例えば信号Ｓｇｌａに対する信号Ｓｇｒａ（あるいは信号Ｓｇｒａに対する信号Ｓｇｌａ）のレベル比ｍを算出して係数発生部６２に出力するようにされる。ちなみにレベル比ｍは０≦ｍ≦１の範囲をとるもので、ｍ＝１であれば、相互のレベルは完全に同じであることを示す。また、レベル比ｍの値が小さいほど、相互のレベル差が大きくなって近似性は低くなる。
係数発生部６２では、入力されたレベル比ｍの値に基づいて、乗算器６５，６６に対して設定する係数ｒを求める。この係数ｒの範囲は、０≦ｒ≦１となる。そして、この係数ｒを決定するためには、所定の音源分離関数を用いた演算を行う。この音源分離関数としては、レベル比ｍが１に近づくのに応じて、係数ｒも１に近づいていくようにされた所定の関係を与えるものとされる。この係数発生部６２が利用する音源分離関数の例を、図１０（ａ）（ｂ）（ｃ）に示す。

図１０（ａ）（ｂ）（ｃ）は、音源分離関数を、レベル比ｍと係数ｒとの関係により示しているもので、横軸がレベル比ｍで、縦軸が係数ｒとされている。これらの図に示される音源分離関数は、例えばレベル比ｍ＝１のときには係数ｒ＝１を設定する点では共通しているが、レベル比ｍが１より小さいときの係数ｒの設定のしかたが異なっている。また、これら図１０（ａ）（ｂ）（ｃ）に示す以外の関数も考えられるもので、この中には、レベル比ｍ＝１のときにも1未満の係数ｒの値を設定する可能性も含まれる。

説明を図８に戻す。
例えば上記のようにして係数発生部６２が求めた係数ｒは、乗算器６５、６６のそれぞれに対して設定される。乗算器６５、６６は、入力された信号Ｓｇｌａ、Ｓｇｒａに対して設定された係数ｒを乗算して出力する。このようにして乗算器６５、６６から出力される信号は、先の図７における分離処理部４２における、レベル／位相比較処理ブロック５１、及び音源分離関数演算ブロック５２についての説明に基づいて理解されるように、それぞれ、信号Ｓｇｌａから信号Ｓｇｒａとレベルが一定以上近似しているとされるスペクトル成分を分離抽出したものであり、信号Ｓｇｒａにおいて信号Ｓｇｌａとレベルが一定以上近似しているとされるスペクトル成分を分離抽出したものであることになる。そして、このことは、乗算器６５、６６の出力は、それぞれ、レベル的には、補正フィルタ４１ａ、４１ｂにより補正された原チャンネル（Ｌ）の音声信号と同じとされる信号成分であることになる。

ただし、上記乗算器６５、６６の出力は、レベル比較結果のみに基づいて信号Ｓｇｌａ、Ｓｇｒａから分離抽出された信号である。従って、例えばある時系列において原チャンネル（Ｌ）の音声信号とたまたまレベルが同じであった、原チャンネル（Ｌ）以外の原チャンネルの音声信号成分が相応に含まれている可能性がある。
そこで、乗算器６５、６６の出力は、さらに位相比較部６３に入力されて、ここで位相比較が行われる。そして、その比較結果として乗算器６５の出力信号に対する乗算器６６（あるいは乗算器６６の出力信号に対する乗算器６５）の出力信号の位相差ｐを求めて、係数発生部６４に出力するようにされる。位相差ｐは、例えば０≦ｐ≦πの範囲をとるもので、ｐ＝０であれば、完全に同位相であることを示す。また、位相差ｐの値が大きくなって位相差が拡大するほど、位相についての信号の近似性が低くなる。
係数発生部６４では、入力された位相差ｐの値に基づいて、乗算器６７、６８に対して設定する係数ｒｐを求める。この係数ｒｐの範囲は、０≦ｒｐ≦１となる。そして、この係数ｒｐを決定するためには、所定の音源分離関数を用いた演算を行う。この音源分離関数としては、位相差ｐが０近づくのに応じて、係数ｒｐは１に近づいていくような関係を与えるものとされる。この係数発生部６２が利用する音源分離関数の例を、図１１（ａ）（ｂ）（ｃ）に示す。

図１１（ａ）（ｂ）（ｃ）は、位相差に応じた音源分離関数を、位相差ｐと係数ｒｐとの関係により示しているもので、横軸が位相差ｐで、縦軸が係数ｒｐとされている。これらの図に示される音源分離関数も、例えば位相差ｐ＝０のときには係数ｒｐ＝１を設定する点では共通しているが、位相差ｐが１より小さいときの係数ｒｐの設定のしかたが異なっている。また、この場合にも、図１１（ａ）（ｂ）（ｃ）に示す以外の音源分離関数も考えられ、このような関数には、例えば位相差ｐ＝０のときにも1未満の係数ｒｐの値を設定する可能性が含まれる。

そして、例えば上記のようにして係数発生部６４が求めた係数ｒｐは、図８に示されるように、乗算器６７、６８のそれぞれに対して設定される。乗算器６７、６８は、それぞれ、乗算器６５、６６の出力信号を入力して、設定された係数ｒｐを乗算して出力する。
そして、このようにして乗算器６７、６８から出力される信号は、乗算器６５、６６の出力信号から、位相差が一定以内にある（一定以上の位相の近似性がある）とされるスペクトル成分を分離抽出したものとなる。このことから乗算器６７、６８から出力された信号は、レベルに関して補正フィルタ４１ａ、４１ｂにより補正された原チャンネル（Ｌ）の音声信号と同じとされる信号成分から、さらに、位相が同じとされる信号成分を分離したものということになる。つまり、図７の乗算器５３，５４から出力される信号に相当するもので、レベルと位相の両者に関して、補正フィルタ４１ａ、４１ｂにより補正された原チャンネル（Ｌ）の音声信号と同じとされる信号であり、従って、エンコード前の原チャンネル（Ｌ）の音声信号と同等の信号となる。
そして、このようにして得られた乗算器６７、６８の出力を、図７と同様にして、加算器５５により加算し、この加算された信号をチャンネル信号分離処理ブロック３２−Ｌの出力とする。

図７と図８を比較してみると、図８の構成では、図７に示されていたレベル／位相比較処理ブロック５１と音源分離関数演算ブロック５２としての機能を、レベル比較結果のみを行って同じレベルの信号成分を分離抽出する部位（レベル対応分離処理系：レベル比較部６１、係数発生部６２、乗算器６５，６６）と、位相比較のみを行って同じ位相の信号成分を分離抽出する部位（位相対応分離処理系：位相比較部６３、係数発生部６４、乗算器６７，６８）とを、前段と後段とで分割するようにして設けている構成になっていることがわかる。
なお、図８における分離処理部４２の他の構成として、前段に位相対応分離処理系（位相比較部６３、係数発生部６４、乗算器６７，６８）をおき、後段に、レベル対応分離処理系（レベル比較部６１、係数発生部６２、乗算器６５，６６）をおく構成とすることも考えられる。
また、分離処理部４２として、例えばデコード装置に求められる再生音の品質などについてそれほど高品位なものを必要としないような場合には、レベル対応分離処理系と位相対応分離処理系の何れか一方のみを備えるような構成とすることも考えられる。レベル対応分離処理系と位相対応分離処理系の何れか一方の処理のみが行われても、レベルあるいは位相の何れか一方に基づいて原チャンネル（Ｌ）のエンコード前と同じとされる信号成分が抽出できるので、例えば従来のマトリクス回路及び方向性強調回路によるエンコード出力に比較すれば、相応に良好なデコード出力音声の品位を保てる。

説明を図６に戻す。
例えば上記図７及び図８に示した構成により、チャンネル信号分離ブロック３２−Ｌでは、エンコード前の原チャンネル（Ｌ）と同じとされる周波数成分による信号を分離して出力するようにされる。
そして、残る４つのチャンネル信号分離ブロック３２−Ｃ、３２−Ｒ、３２−ＬＳ、３２−ＲＳとしても、ブロック構成的には、図７あるいは図８に示した構成を採る。そのうえで、チャンネル信号分離ブロック３２−Ｃの補正処理部４１ａ，４１ｂは、それぞれ、伝達関数Ｈcl、Ｈcrの逆特性［１／Ｈcl］［１／Ｈcｒ］による逆フィルタをかけるようにされる。これにより、チャンネル信号分離ブロック３２−Ｃでは、エンコード前の原チャンネル（Ｃ）と同じとされる周波数成分による信号を分離して出力する。
また、チャンネル信号分離ブロック３２−Ｒの補正処理部４１ａ，４１ｂの逆フィルタ特性は、それぞれ、伝達関数Ｈrl、Ｈrrの逆特性［１／Ｈrl］［１／Ｈrｒ］を設定する。これにより、チャンネル信号分離ブロック３２−Ｒの出力は、エンコード前の原チャンネル（Ｒ）と同じとされる周波数成分による信号となる。
また、チャンネル信号分離ブロック３２−ＬＳの補正処理部４１ａ，４１ｂの逆フィルタ特性は、それぞれ、伝達関数Ｈlsl、Ｈlsrの逆特性［１／Ｈlsl］［１／Ｈlsr］を設定する。これにより、チャンネル信号分離ブロック３２−ＬＳの出力は、エンコード前の原チャンネル（ＬＳ）と同じとされる周波数成分による信号となる。
また、チャンネル信号分離ブロック３２−ＲＳの補正処理部４１ａ，４１ｂの逆フィルタ特性は、それぞれ、伝達関数Ｈrsl、Ｈrsrの逆特性［１／Ｈrsl］［１／Ｈrsr］を設定する。これにより、チャンネル信号分離ブロック３２−ＬＳの出力は、エンコード前の原チャンネル（ＲＳ）と同じとされる周波数成分による信号となる。

そして、これらのチャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−ＬＳ、３２−ＲＳから出力される各信号は、それぞれ、ＩＦＦＴ部３３−Ｌ、３３−Ｃ、３３−Ｒ、３３−ＬＳ、３３−ＲＳにより、周波数領域の信号から、時間領域の音声信号に変換されて出力されることになる。このようにして出力される音声信号は、それぞれ、エンコード前の原チャンネル（Ｌ）（Ｃ）（Ｒ）（ＬＳ）（ＬＲ）と同じとされる音声信号となる。つまり、デコード装置２によりデコードされた出力となるものである。

上記構成による本実施の形態のデコード装置２により得られる音声信号は、エンコードされた音声ソースとしての音声信号（エンコードチャンネル（Ｌ）（Ｒ）の音声信号）から、信号の位相とレベルとに基づいた近似性の検出結果に応じて、原チャンネルの音声信号成分を分離抽出したものとされている。このことは、例えば従来として説明したエンコード／デコード技術によるデコード出力のようにして、デコード後の音声信号において、他のチャンネルの音声信号が一定比率で含まれているようなものではなく、デコード後の各チャンネルの音声信号は、ほぼエンコード前の各原チャンネルの音声信号と同一とみて良いものであることを意味する。
これにより、本実施の形態のデコード装置２の出力である音声信号を、各チャンネルに応じて適切に配置されたスピーカなどにより再生出力させた場合には、原チャンネルの音声信号を再生出力させた場合とほぼ同等の品質の音響効果を得ることができるものである。換言すれば、従来のようにして、音量や定位の変化を生じず、良好なチャンネルセパレーションの再生音声を聴くことができる。

ところで、デコード装置２におけるチャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−Ｃ、３２−ＬＳ、３２−ＲＳに備えられる補正処理部４１ａ、４１ｂには、先に説明したように、図４に示したエンコード装置１の各フィルタ１１ａ，１１ｂ〜１５ａ，１５ｂに与えたインパルス応答の伝達関数に対して逆特性となるものである。そして、このような逆特性に対応するインパルス応答は、エンコードに用いる側の伝達関数に応じたインパルス応答が複雑で長い応答である場合に収束しにくくなるという傾向にある。
例えば、図１２（ａ）には、残響のある環境を想定して測定したとされるインパルス応答波形の一例を示している。周知のようにして、インパルス応答としては、時間進行に従って、先ず、直接音に応答する直接音部分と、これに続く直接音が到達した後の反射音（間接音）に応答する間接音部分とがある。図１２（ａ）では、区間Ａで示す時間幅の応答部分が直接音部分であり、これに続く応答部分が例えば反射音部分となる。
一般に、直接音部分と反射音部分の応答時間を比較すると、反射音部分のほうが相当に長くなる。また、測定環境、条件などに応じた応答時間の変化が大きいのも反射音部である。そして、例えばこの反射音部分の応答時間が長いと、その逆特性を持つフィルタが収束しにくくなってくる、ということである。

そこで、本実施の形態としては、逆フィルタが収束しにくくなる原因が、主としては、逆特性の元となる伝達関数のインパルス応答の長さによるもので、さらにインパルス応答の長さは主に反射音部分の長さに依存することに着目し、次のようにして、逆特性を設定するようにされる。
つまり、図１２（ｂ）に示すようにして、図１２（ａ）のインパルス応答波形の全体から、例えば区間Ａとして示される直接音部分に対応する応答分のみを抜き出したインパルス応答を利用する。例えば、図１２（ａ）のインパルス応答波形が伝達関数Ｈllに対応するものであるとすると、チャンネル信号分離ブロック３２−Ｌの補正処理部４１ａには、図１２（ｂ）に示すようにして、本来の伝達関数Ｈllから反射音部分を省略したものに応じたインパルス応答により、逆フィルタ特性［１／Ｈll］を求め、補正処理部４１ａに設定するようにされる。残る補正処理部４１ａ，４１ｂについても同様にして、対応するエンコード時の伝達関数から反射音部分を省略したもののインパルス応答により求めた逆フィルタ特性を設定するようにされる。

このようにして逆フィルタ特性を設定した場合、デコード時における逆フィルタ処理にあっては、反射音成分についての補正は行われないことから、反射音部分に対応する信号成分についての適正な分離はできないことになる。しかしながら、周知のようにして、インパルス応答においては直接音のほうが支配的であり、従って、デコード出力される音声についての品位の低下などは特に問題にはならない。

また、例えばリスナのフロント側に位置するなどして、他のチャンネルよりも音の再現性が重視されるようなデコード出力チャンネルについては、反射音部分を含めた逆フィルタ特性を設定し、他のデコードチャンネルについては、反射音部分を除去した逆フィルタ特性を設定するようにして、チャンネルごとに使い分けるようにしてもよい。

また、インパルス応答の直接音部分を使用するほかに、無響室などの残響が全く無い環境で測定した伝達特性、あるいは残響が全く無い環境を想定したうえで演算により求めた伝達特性を元に、逆特性を設定するという手法を考えることもできる。残響が全く無い環境の伝達特性は、残響部分の応答を持たないことから、例えば、図１２により説明したような、インパルス応答から直接音部分を抜き出すことをしなくとも、そのまま反射音部の省略されたものと同等のインパルス応答を得ることができる。ただし、残響のある環境では、インパルス応答の直接音部分にも残響成分が含まれていることから、前者の例のようにして、残響を持つ環境により得たインパルス応答の直接音部分を利用したほうが、再現される音場は豊かなものになる。

図１３は、本実施の形態のデコード装置２についての他の例を示している。なお、この図において図６と同一部分については同一符号を付して説明を省略する。
この図においては、チャンネル信号分離ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−Ｃ、３２−ＬＳ、３２−ＲＳの各構成が、図６の場合と異なっている。つまり、チャンネル信号分離ブロック３２−Ｌ、３２−Ｒ、３２−Ｃ、３２−ＬＳ、３２−ＲＳについては、補正処理部４１ａ，４１ｂが省略され、代わりに、１つの補正処理部４１Ａが備えられる。この場合の補正処理部４１Ａは、信号Ｓｇｌ側においてのみ設けられ、信号Ｓｇｒは、そのまま分離処理部４２に入力されている。
また、チャンネル信号分離ブロック３２−Ｃについては、補正処理部４１Ａは設けられず、信号Ｓｇｌ、Ｓｇｒがそのまま分離処理部４２に入力されるようになっている。このように、チャンネル信号分離ブロック３２−Ｃにおいてのみ、補正処理部４１Ａが設けられない理由は、次の説明から理解されるように、対応する原チャンネルの音源であるスピーカＳＰ−Ｃについて、図５にも示されているように、リスナの正中面に位置させることとした場合には、このスピーカＳＰ−Ｃからリスナの左耳、右耳に到達する音の伝搬時間差、及びレベル差は生じないものとして扱うことができるからである。

例えば、１つの音源から聴こえる音をリスナＭが聴いて、その音源の定位を知覚するときの重要な要素の１つとしては、各スピーカからリスナＭの左耳と右耳に到達（伝搬）する音の時間差（伝搬時間差）を第１に挙げることができる。このような伝搬時間差は、例えば図１４（ａ）（ｂ）のようにして、インパルス応答の立ち上がり時間差として現れる。この図では、スピーカＳＰ−Ｌの音がリスナの左耳に到達する経路（伝達関数Ｈll）のインパルス応答と、右耳に到達する経路（伝達関数Ｈlｒ）のインパルス応答との関係を例として示している。例えばこのようにして、図１４（ａ）に示される伝達関数Ｈllのインパルス応答の立ち上がり時点に対して、図１４（ｂ）に示される伝達関数Ｈlｒのインパルス応答の立ち上がり時点は、時間Ｔｄ分遅れている。この時間Ｔｄは、例えば点音源として考えるスピーカＳＰ−ＬがリスナＭの左前方に偏って位置していることで、リスナＭの左耳に到達するまでの距離と、右耳に到達するまでの距離とに違いが生じ、これに応じて伝搬時間も異なってくることにより生じる。
そして、エンコード時において、伝達関数Ｈll、Ｈlrのそれぞれに応じたインパルス応答の畳み込み処理がフィルタ１１ａ、１１ｂにより行われることで、エンコードチャンネル（Ｌ）（Ｒ）の各音声信号に含まれる原チャンネル（Ｌ）の信号成分の間には、には、上記図１４（ａ）（ｂ）に示すようにインパルス応答の立ち上がり時間差（Ｔｄ）が生じているものである。

そこで、音声信号Ｓｇｌそのものを上記時間差Ｔｄだけ遅延させることで、音声信号Ｓｇｌに含まれる原チャンネル（Ｌ）の音声信号成分と、音声信号Ｓｇｒに含まれる同じ原チャンネル（Ｌ）の音声信号成分とは、時間差Ｔｄがキャンセルされ、インパルス応答としてみた場合には、その立ち上がり時間が一致するようにされる。
補正処理部４１Ａは、このようにして、音声信号Ｓｇｌを時間差Ｔｄだけ遅延させるためのフィルタ処理を実行するために設けられる。
このようにして補正処理部４１Ａによる信号の遅延が行われることで、上記もしているように、音声信号Ｓｇｌ、Ｓｇｒに含まれる原チャンネル（Ｌ）の音声信号成分の間における立ち上がり時間が同じとなるように調整される。つまり、音声信号Ｓｇｌ、Ｓｇｒに含まれる特定の１つの原チャンネルの音声信号成分の時間のずれが補正される。

また、本実施の形態にあっては、この補正処理部４１Ａにより、音声信号Ｓｇｌ、Ｓｇｒに含まれる特定の１つの共通な原チャンネルの音声信号成分の間でのレベル差についても補正することとしている。
例えば図３におけるスピーカＳＰ−ＬとリスナＭとの関係についてみれば、スピーカＳＰ−ＬがリスナＭの左前方に偏って位置していることで、リスナＭの左耳と右耳とでの到達距離差や、音の到達方向の違いなどから、スピーカＳＰ−Ｌから左耳と右耳のそれぞれに到達して聴こえる音には、その伝搬時間差の他に、レベル差も生じる。
例えば図１４（ｃ）（ｄ）には、それぞれ、伝達関数Ｈll、Ｈlrに応じたインパルス応答の周波数特性が示されている。これら図１４（ａ）（ｂ）を比較して分かるように、両者の基本的な周波数分布の特性は似通っているが、両者のレベル差Ｌｖとして示すように、そのレベル差が比較的に顕著となっている。そして、このようなレベル差もまた、信号Ｓｇｌ、Ｓｇｒに含まれる伝達関数Ｈll、Ｈlrの各特性が与えられた原チャンネル（Ｌ）の信号成分の間にて生じているものであり、遅延時間（伝搬時間差）とともに、音源の定位感を決定する要素となる。
チャンネル信号分離ブロック３２−Ｌの補正処理部４１Ａでは、信号Ｓｇｌについて、先に説明したように遅延時間Ｔｄ分により遅延させるとともに、上記レベル差Ｌｖの分によるレベル低減処理も実行するようにされる。
このようにして補正処理部４１Ａによる信号の遅延が行われることで、上記もしているように、音声信号Ｓｇｌ、Ｓｇｒに含まれる原チャンネル（Ｌ）の音声信号成分の間におけるレベルが同じとなるように調整される。つまり、音声信号Ｓｇｌ、Ｓｇｒに含まれる特定の１つの原チャンネルの音声信号成分についてのレベル差が補正される。

分離処理部４２としては、先に図８に示したのと同様の構成、処理を実行して、最終的には、原チャンネル（Ｌ）の信号を分離して出力する。但し、この場合においては、位相比較比較部６３によっては信号の時間差を検出するようにされる。これに伴い、係数発生部６２においては、検出された時間差に応じて係数ｒｐが求まるような音源分離関数演算を行うことになる。

この図１３の例において備えられる補正処理部４１Ａは、例えば信号遅延と、レベル変更とが可能なように構成すればよいことから、先の実施の形態において図７，図８に示したようにして備えられる補正処理部４１ａ，４１ｂよりも、簡易に構成できる。その分、デコード後の出力音声信号についての分離性は、図７，図８に示した構成のほうが良好ではあるが、図１３の例にあっても、チャンネル信号分離ブロック３２の構成は、できるだけ他のチャンネルの信号成分を除去して必要なチャンネルの音声信号成分のみを抜き出そうとするものであり、従って、例えば従来のマトリクス回路と方向性強調回路とを組み合わせた技術と比較しても、十分に良好な再現性を維持しているものである。

図１５は、本実施の形態のエンコード装置を適用した記録システムの構成例を示している。
この図に示す記録システムは、エンコードユニット１００とメディア記録ユニット１０１とから成る。
エンコードユニット１００は、記録システムにおいて本実施の形態のエンコード装置１と同様の構成を持つユニット部位である。このエンコードユニット１００には、例えば音声ソースのコンテンツとして制作されたＬｃｈ、Ｃｃｈ、Ｒｃｈ、ＬＳｃｈ、ＲＳｃｈのマルチチャンネル構成による音声信号を入力し、例えば図４に示した信号処理構成により、Ｌ，Ｒ２チャンネルステレオの音声信号に変換して出力する。

このようにしてエンコードにより得られたＬｃｈ、Ｒｃｈの音声信号は、メディア記録ユニット１０１に入力される。メディア記録ユニット１０１は、所定の記憶媒体（メディア）１０２に対して、入力されたＬｃｈ、Ｒｃｈの音声信号を記録する。このようにして、エンコードされた音声信号が、例えばコンテンツの情報としてメディア１０２に記憶されることになる。
このような記録システムは、例えばコンテンツの制作者などが利用し、音声情報を記憶させたメディア１０２を、パッケージメディアとして提供するようにされる。また、エンコードユニット１００により得られたＬｃｈ，Ｒｃｈによる２チャンネルステレオの音声信号としてのコンテンツを、ネットワーク経由で配布できるようにしてもよい。

図１６は、本実施の形態のデコード装置２を適用した再生システムの構成例を示す。
この図に示す再生システムは、メディア再生ユニット２０１、デコードユニット２００とを備える。メディア再生ユニット２０１は、メディア１０２を装填して、このメディアのフォーマットに対応した再生処理を実行することで、エンコード後の音声ソースである、Ｌｃｈ，Ｒｃｈの音声信号を出力する。

メディア再生ユニット２０１により再生されたＬｃｈ，Ｒｃｈの音声信号は、例えば先ず、ヘッドフォンにより音声再生させることができる。前述したように、このときにヘッドフォン６を装着しているリスナにとっては、例えば図３に示されるようにして、あたかも、周囲に設置された５つのスピーカＳＰ−Ｌ、ＳＰ−Ｃ、ＳＰ−Ｒ、ＳＰ−ＬＳ、ＳＰ−ＲＳから音が聴こえてくるような音場を知覚できることになる。

また、メディア再生ユニット２０１により再生されたＬｃｈ，Ｒｃｈの音声信号は、デコードユニット２００に入力されるようにもなっている。デコードユニット２００は、例えば図６〜図８あるいは図１３に示した構成による本実施の形態のデコード装置２と同じ構成を備えており、先の説明のようにしてデコード処理を実行して、エンコード前の原チャンネルの音声信号に変換するようにされる。このようにして得られた原チャンネル（Ｌ）（Ｃ）（Ｒ）（ＬＳ）（ＲＳ）の音声信号は、例えば増幅されて、実際に設置されたスピーカＳＰ−Ｌ、ＳＰ−Ｃ、ＳＰ−Ｒ、ＳＰ−ＬＳ、ＳＰ−ＲＳを駆動する。このようして駆動されるスピーカから出力される音を、しかるべき聴取位置にて聴いた場合には、原チャンネルとしての音声ソースとしての理想的な音像定位が再現されることになる。また、前述のようにして、従来のエンコード、デコード技術によりデコードした音声信号をスピーカから出力させる場合と比較して、より高い品位の再現性が得られる。

また、上記のような記録システムと再生システムとを考えた場合、再生システム側で最良のデコード結果を得るためには、記録システム側でエンコードしたときのインパルス応答畳み込み処理に利用したのと同じ伝達関数（伝達特性）に基づいて、チャンネル信号分離ブロック３２における補正処理部４１ａ、４１ｂによる逆フィルタ処理、あるいは補正処理部４１Ａによる遅延、レベル補正処理が実行されることが必要である。
このためには、先ず、記録システム側でエンコードするときに使用する伝達特性群を１つのみと決めておき、再生システムでは、この決められた伝達特性群に応じて逆フィルタ特性、あるいは遅延時間、レベル補正量などを組み込んだ補正処理部４１を構成するものである。

しかしながら、上記の場合には、音声ソースの内容に応じて原チャンネルとして想定するスピーカの位置や、周囲の環境などの音響環境を１つのものに決めることになるので、エンコード元の音声ソースのコンテンツを作成するにあたっての自由度がなくなってしまうなどの不都合が生じる。
そこで、コンテンツの作成にあたっては、任意に音響環境をつくる、あるいは、あらかじめ規定された複数の音響環境のうちから選択できるようにして、音響環境のバリエーションが与えられるようにしておく。そして、記録システムによってエンコードした音声ソースをメディア１０２に記録するときには、所定のフォーマットなどに従って、エンコード前の原音源に設定した音響環境を示す識別信号、あるいは音響環境設定に応じて決まるエンコード時に使用する伝達関数群を示す識別信号をともに記録するようにされる。再生システム側では、メディア１０２を再生するときに、この識別信号の読み出しも行って、例えばデコードユニット２００に出力するようにされる。デコードユニット２００は、入力された識別信号に基づいて、チャンネル信号処理ブロック３２における補正処理部４１などの所要の信号処理部に対するパラメータ設定を変更するようにされる。このための構成例を図１７に示す。

図１７においては、図８と同じ構成のチャンネル信号分離ブロック３２−Ｌと、パラメータ設定部４００が示される。パラメータ部４００によるパラメータの設定は、チャンネル信号処理ブロック３２−Ｌだけではなく、残りのチャンネル信号処理ブロックに対しても行われるが、ここでは、図示及び説明を簡便にすることの都合上、チャンネル信号処理ブロック３２−Ｌとパラメータ設定部４００との関係のみが示されている。
パラメータ設定部４００は、デコードユニット２００に入力された識別信号を読み込む。そして、この読み込んだ識別信号に基づいて、パラメータとして、例えば補正処理部４１ａ、４１ｂに設定すべき逆フィルタ特性を決定するようにされる。
また、この場合のパラメータ設定部４００は、係数発生部６２、６４の音源分離関数も決定するようにされる。例えばエンコード時に設定した音響環境などの相違に応じては、係数発生部６２，６３にて係数を発生させるときに利用する音源分離関数も変更する必要がある、あるいは変更したほうがより最適なデコード結果が得られて好ましいような場合のあることも考えられるからである。
また、チャンネル信号分離ブロック３２の構成が、図１３に示すものであった場合には、補正処理部４１ａ、４１ｂの逆フィルタ特性に代えて、補正処理部４１Ａの遅延時間、補正レベル量をパラメータとして決定する。

ここで、パラメータ設定部４００による上記各パラメータの決定（取得）の仕方としては、次のようなものを考えることができる。
先ず、識別信号（識別情報）の構造内に対して設定すべきパラメータが格納されている場合には、読み込んだ識別信号からパラメータの情報を取得すればよい。
また、識別信号が、例えばエンコード時の音響環境などに応じたエンコードタイプを特定するようなものである場合には、パラメータ設定部４００においてエンコードタイプに応じてパラメータを記述したテーブル情報などを用意しておき、識別信号の内容により識別したエンコードタイプと対応つけられているパラメータをテーブル情報から検索して取得するように構成することが考えられる。あるいは、識別情報により識別したエンコードタイプに応じて所定の演算式、関数に基づいた演算を実行し、その演算結果をパラメータとして出力させる構成とすることも考えられる。
また、パラメータ設定部４００の実際の構成としては、ＣＰＵなどを備えたコンピュータなどが、パラメータ設定のためのプログラムを実行することで実現されるものとされればよい。

上記のようにしてパラメータ設定部４００により決定されたパラメータとしての逆フィルタ特性、及び音源分離関数は、補正処理部４１ａ、４１ｂ、係数発生部６２，６４に対してそれぞれ設定される。なお、例えば逆フィルタ特性の設定については、補正処理部４１ａ、４１ｂを形成するデジタルフィルタにおける乗算器の係数を変更することにより行うことができる。

そして、上記したようなパラメータ設定部４００によるチャンネル分離処理ブロック３２−Ｌに対するパラメータ設定は、残るチャンネル分離処理ブロック３２−Ｃ、３２−Ｒ、３２−Ｃ、３２−ＬＳ、３２−ＲＳについても同様にして行われるものである。
このようにして識別信号に応じたパラメータ設定が行われたチャンネル分離処理ブロック３２−Ｌ、３２−Ｃ、３２−Ｒ、３２−Ｃ、３２−ＬＳ、３２−ＲＳにおける補正処理部４１ａ、４１ｂ及び係数発生部６２，６４が処理を実行することで、例えばエンコード時の条件に応じて最適とされるパラメータによる信号分離の処理が行われることになるものであり、この結果、例えばデコード出力される信号については、エンコード前の原チャンネルの音声信号に非常に近い、最良とされるものが得られることになる。

また、補足として、本実施の形態のエンコード装置２によりエンコードされた音声ソースを再生出力する再生システムの他の例を図１８に示す。
この図に示す再生システムは、メディア再生ユニット２０１、及びスピーカ駆動ユニット２０２を備えて構成される。メディア再生ユニット２０１は、先に図１６に示したものと同様にして、メディア１０２から、エンコード後の音声ソースであるＬｃｈ，Ｒｃｈの音声信号を再生して出力する。
この場合においても、メディア再生ユニット２０１により再生されたＬｃｈ，Ｒｃｈの音声信号は、ヘッドフォンにより音声として再生出力させることができるようになっている。
そして、メディア再生ユニット２０１により再生されたＬｃｈ，Ｒｃｈの音声信号は、スピーカ駆動ユニット２０２に対しても入力されるようになっている。

スピーカ駆動ユニット２０２は、入力されたＬｃｈ，Ｒｃｈの音声信号について所要の信号処理を施した上で増幅を行い、Ｌ、Ｒチャンネルに対応する２つのスピーカＳＰ−Ｌ、ＳＰ−Ｒを駆動する。つまり、この再生システムでは、エンコード後の音声ソースであるＬｃｈ，Ｒｃｈの音声信号を、本実施の形態のデコード装置２の構成によりデコードして５チャンネル構成のスピーカシステムにより再生出力するのではなく、同じ２チャンネル構成のスピーカシステムにより再生出力するようにされる。

本実施の形態のエンコード装置２によりエンコードされた音声ソースであるＬ、Ｒチャンネルの音声信号は、先に説明したとおり、通常のＬ，Ｒステレオに対応した再生システムにより再生しても、エンコード前のチャンネル構成に応じたスピーカシステムで聴いているのと同等の音像定位が得られる。ただし、エンコード時に想定した音響環境に忠実な音像定位を聴くためには、ヘッドフォンによる再生が適している。ヘッドフォンのドライバ部分から出力される音声は、リスナの耳に直接的に到達するので、左右のチャンネルの音のクロストークはほとんど無いからである。しかしながら、スピーカにより再生する場合に、例えば左チャンネルのスピーカから出力される音は、それぞれ、リスナの左耳だけではなく、右耳にも到達して聴こえるものであり、同様に、右チャンネルのスピーカから出力される音は、それぞれ、リスナの右耳だけではなく、左にも到達して聴こえる。つまり、左右のチャンネルのスピーカと、リスナの左右の耳との間でクロストークが発生する。このことが、適正な音像定位による再生を妨げる主たる要因である。

そこで、図１８に示す再生システムのスピーカ駆動ユニット２０２では、以降説明するようにして、上記したクロストークがキャンセルされるようにするための信号処理機能を備える。
先ず、図１９には、Ｌ（左），Ｒ（右）のチャンネルごとに応じた２つのスピーカＳＰ−Ｌ，ＳＰ−Ｒが配置され、このスピーカＳＰ−Ｌ，ＳＰ−Ｒの正中面となる位置にリスナＭが位置して、スピーカＳＰ−Ｌ，ＳＰ−Ｒから到達する音を聴き取るというモデルが示されている。
このモデルにおいては、スピーカＳＰ−Ｌから左耳に到達する経路の伝達関数をＨsll、スピーカＳＰ−Ｌから右耳に到達する経路の伝達関数をＨslr、スピーカＳＰ−Ｒから左耳に到達する経路の伝達関数をＨsrl、スピーカＳＰ−Ｒから右耳に到達する経路の伝達関数をＨsrrとして示している。
上記した伝達関数に応じた経路のうちで、クロストークに対応するのは、スピーカＳＰ−Ｌから右耳に至る経路と、スピーカＳＰ−Ｒから左耳に至る経路である。図１３に示したモデルから、この２つの経路を除けば、リスナＭには、スピーカＳＰ−Ｌから左耳に至る経路と、スピーカＳＰ−Ｒから右耳に至る経路とによる音のみが到達しているのと同じことになる。つまり、ヘッドフォンによる再生音を聴いているのと同じく、クロストークを聴かない状態で聴くことになる。
このことから、図１８のスピーカ駆動ユニット２０２としては、入力されるＬ，Ｒチャンネルの音声信号から、クロストークに対応する経路の伝達関数Ｈslr、Ｈsrlに応じた伝達特性を除去するための信号処理を実行するようにすればよい、ということになる。これにより、実際のスピーカＳＰ−Ｌ、ＳＰ−Ｒと、リスナの左右の耳との間でのクロストークはなくなり、リスナにとっては、例えばヘッドフォンによる再生音声を聴いているときと等価の、エンコード時に想定した音響環境に非常に忠実な音像定位を知覚できる。

続いて、スピーカ駆動ユニット２０２におけるクロストークキャンセルのための構成につて説明する。
ここで、図１９に示されるスピーカＳＰ−Ｌ、ＳＰ−ＲがリスナＭの正中面に対して対称に配置されていることとして、スピーカがリスナＭにまで到達する音の経路のうちで、クロストークではないとされる、スピーカＳＰ−ＬからリスナＭの左耳に至る経路と、スピーカＳＰ−ＲからリスナＭの右耳に至る経路とに対応した伝達関数Ｈsll、Ｈsrrについて、
Ｈsll＝Ｈsrr＝Ｓ
とする。また、クロストークとされる、スピーカＳＰ−ＬからリスナＭの右耳に至る経路と、スピーカＳＰ−ＲからリスナＭの左耳に至る経路とに対応した伝達関数Ｈsll、Ｈsrrについて、
Ｈslr＝Ｈsrl＝Ａ
とする。そして下記の式により表される伝達関数Ｃを定義する。
Ｃ＝−Ａ／Ｓ

上記のようにして求められる伝達関数Ｃを利用して、スピーカ駆動ユニット２０２におけるクロストークキャンセルのための信号処理系を、例えば図２０のようにして構成できる。
図２０に示すクロストークキャンセルのための信号処理系の構成としては、図示するようにして、加算器２１１，２１３、フィルタ２１２，２１４，２１５，２１６を備える。
入力されるＬｃｈ，Ｒｃｈの音声信号のうち、Ｌｃｈの音声信号は加算器２１１に対して入力されるとともに、分岐してフィルタ２１２に対して入力される。フィルタ２１２は、Ｌｃｈの音声信号に対して伝達関数Ｃの伝達特性を与えて加算器２１３に出力する。
また、Ｒｃｈの音声信号は加算器２１３に対して入力されるとともに、分岐してフィルタ２１４に対して入力される。フィルタ２１４は、Ｒｃｈの音声信号に対して伝達関数Ｃの伝達特性を与えて加算器２１１に出力する。

加算器２１１によっては、Ｌｃｈの音声信号と、伝達関数Ｃの伝達特性が与えられたＲｃｈの音声信号が加算、合成されて出力される。この加算器２１１から出力される信号は、元のＬｃｈの音声信号より、図１９におけるスピーカＳＰ−ＬからリスナＭの右耳にクロストークして到達する伝達特性に応じた成分をあらかじめ取り除いたものとなる。
また、加算器２１３によっては、Ｒｃｈの音声信号と、伝達関数Ｃの伝達特性が与えられたＬｃｈの音声信号が加算、合成されて出力される。この加算器２１１から出力される信号は、元のＲｃｈの音声信号より、スピーカＳＰ−ＲからリスナＭの左耳にクロストークして到達する伝達特性に応じた成分をあらかじめ取り除いたものとなる。

加算器２１１の出力は、フィルタ２１５を通過して、Ｌｃｈの再生用音声信号として出力され、加算器２１３の出力は、フィルタ２１６を通過して、Ｒｃｈの再生用音声信号として出力され、る。フィルタ２１５、２１６は、例えばフィルタ特性Ｆにより、周波数特性を平坦化するようにして補正するために設けられる。
このようにして出力されるＬｃｈの再生用音声信号とＲｃｈの再生用音声信号によりスピーカＳＰ−Ｌ、ＳＰ−Ｒを駆動すると、スピーカＳＰ−Ｌ、ＳＰ−Ｌから発せられる音を実際に聴くリスナＭとしては、図１９のスピーカＳＰ−ＬからリスナＭの左耳に到達する経路による音と、スピーカＳＰ−Ｒからリスナの右耳に到達する経路による音のみを聴くのと等価の状態が得られることになる。つまり、クロストークがキャンセルされ、ヘッドフォンで聴く場合と同様に、エンコード時に想定した音響環境に対応した音像定位を知覚できることになる。

また、図２１に、スピーカ駆動ユニット２０２におけるクロストークキャンセルのための信号処理系についての他の構成例を示す。
この図に示す構成においては、Ｌｃｈの信号を、フィルタ２２１とフィルタ２２２に対して入力させる。フィルタ２２１はフィルタ特性Ｆ１によるフィルタリング処理を実行し、フィルタ２２１はフィルタ特性Ｆ２によるフィルタリング処理を実行する。
また、Ｒｃｈの信号は、フィルタ特性Ｆ３を持つフィルタ２２３によるフィルタリング処理と、フィルタ特性Ｆ４を持つフィルタ２２４によるフィルタリング処理を実行する。
そして、フィルタ２２１とフィルタ２２３を加算器２１１により加算した出力がＬｃｈの再生用音声信号となり、フィルタ２２２とフィルタ２２４を加算器２１３により加算した出力がＲｃｈの再生用音声信号となる。
フィルタ２２１，２２２，２２３，２２４の各フィルタ特性Ｆ１，Ｆ２，Ｆ３，Ｆ４は、図１９の伝達関数との関係では、次のようにして表される。
Ｆ１＝Hsrr/（Hsll×Hsrr−Hslr×Hsrl）
Ｆ２＝−Hslr/（Hsll×Hsrr−Hslr×Hsrl）
Ｆ３＝−Hsrl/（Hsll×Hsrr−Hslr×Hsrl）
Ｆ４＝Hsll/（Hsll×Hsrr−Hslr×Hsrl）

この図２１の構成によっても、加算器２１１、２１３から出力される信号の各々は、図２０の加算器２１１、２１３から出力される信号の組成と同じものとなる。従って、この図２１の構成による処理を経て出力されるＬｃｈ、Ｒｃｈの再生用音声信号をスピーカＳＰ−Ｌ、ＳＰ−Ｒにより駆動させた場合にも、ヘッドフォンで聴く場合と同等の音像定位を知覚できることになる。

ところで、これまでの説明にあっては、エンコード装置１は、原チャンネルとしてＬｃｈ、Ｃｃｈ、Ｒｃｈ、ＬＳｃｈ、ＲＳｃｈのチャンネル構成の組に対応し、エンコードチャンネルとしてＬｃｈ，Ｒｃｈの２チャンネル構成の組に対応することとしている。しかし、このチャンネル構成はあくまでも一例であって、原チャンネル側とエンコードチャンネル側とでそれぞれ変更されて良いものである。また、エンコード前と後とでは、例えば同じコンテンツについて、チャンネル構成が異なれば良いものとされ、この点で、エンコード前と後とで構成チャンネル数が同じとなる場合もあるものとされる。構成チャンネル数が同じであっても、例えばチャンネル間での音源位置などに違いがあれば、チャンネル構成としては異なるからである。
また、さらに実施の形態としてのデコード装置２は、エンコード装置１によりエンコードされた音声ソースを入力して、デコードチャンネルとして原チャンネルと同じチャンネル構成にデコードすることとしているが、デコードにより得られるデコードチャンネルとしてのチャンネル構成は、必ずしも、エンコード装置１が対応する原チャンネルのチャンネル構成と同じである必要は無く、他のチャンネル構成とされてもよい。このようなデコード装置は、デコード後のチャンネル構成のモデルに従った伝達関数を加味して、補正処理部４１に与える特性を設定することで実現可能である。

さらに、これまでの説明にあっては、本実施の形態のエンコード装置１とデコード装置２は、それぞれ、記録システム、再生システムにおいて個別に備えられるものとしているが、本実施の形態のエンコード装置１とデコード装置２の構成を共に備えた記録再生装置、記録再生システムを構築することもできるものである。

また、これまでに説明した本実施の形態としてのエンコード装置１、デコード装置２としての構成は、例えば音声の記録、再生機能を有するオーディオ機器として物理的に構成することができる。また、その信号処理系の構成をプログラムとして構成することもできる。本実施の形態のエンコード装置、デコード装置の機能をプログラムにより構成した場合、エンコード、デコードとしての信号処理は、ＣＰＵなどがプログラムに従って実行することで実現される。そして、このようなプログラムは、音声再生装置としての機能を実現する機器が備えるＲＯＭなどに対して、製造時などに書き込んで記憶させることができる。また、プログラムは、例えばリムーバブルの記憶媒体（磁気ディスク、光ディスク、半導体メモリなど）に記憶させておいたうえで、パーソナルコンピュータをはじめとする各種機器がこの記憶媒体から読み出して実行させることができる。あるいは、記憶媒体に記憶されたプログラムを機器にインストールし、その後に、機器がインストールされたプログラムを実行できるように構成することもできる。また、ネットワーク上のサーバなどにおける記憶装置に記憶させておき、各種の機器がネットワーク経由で一時取得したうえで実行したり、あるいは、機器がネットワーク経由でインストールを行い、その後にインストールされたプログラムを実行できるように構成したりすることも考えられる。
また、本願発明としては、これまでに説明した実施の形態としての例に限定されるものではない、適宜変更が可能とされる。例えば、本実施の形態では、音の空間伝達関数は、音源からリスナの耳に到達する経路のものとされていることから、頭部伝達関数と同義とみてよいのであるが、音源の到達目標となる位置をリスナの耳ではない、何らかの他のものに対応させる場合もあると考えられる。この場合には、音源から到達目標の位置までの経路を表す伝達特性として、本来の意味での空間伝達関数を用いることになる。

本願発明の実施の形態としてのエンコード装置が対応する入出力のチャンネル構成例を示す図である。本願発明の実施の形態としてのデコード装置が対応する入出力のチャンネル構成例を示す図である。本実施の形態のエンコード装置によりエンコードされる音声ソースのチャンネル構成を音源とする場合のモデルを示す図である。実施の形態のエンコード装置の構成例を示す図である。実施の形態のエンコード装置内のフィルタの構成例を示す図である。実施の形態のデコード装置の構成例を示す図である。実施の形態のデコード装置におけるチャンネル信号分離ブロックの構成例を概念的に示す図である。実施の形態のデコード装置におけるチャンネル信号分離ブロックの構成例を示す図である。伝達関数Ｈllと、この伝達関数Ｈllに対する逆特性とを、周波数特性により比較して示す図である。係数発生部がレベル比に応じて乗算器の係数を設定するための関数例を示す図である。係数発生部が位相差に応じて乗算器の係数を設定するための関数例を示す図である。有響環境でのインパルス応答波形と、このインパルス応答波形から直接音部分のみを取り出した応答波形とを示す図である。実施の形態のデコード装置についての他の構成例を示す図である。同一音源の音声に与えられる伝達関数に応じて生じるとされる伝搬時間差とレベル差の例を示す図である。実施の形態のエンコード装置を備える記録システムの構成例を示す図である実施の形態のデコード装置を備える再生システムの構成例を示す図である識別信号に応じてチャンネル信号分離ブロックにおけるパラメータを変更設定するための構成例を示す図である。実施の形態のエンコード装置によりエンコードされた音声ソースを再生する再生システムの構成例を示す図である。音源が２チャンネルの場合の音響のモデルを示す図である。図１８のスピーカ駆動ユニットに備えられるクロストークキャンセルのための構成例を示す図である。図１８のスピーカ駆動ユニットに備えられるクロストークキャンセルのための構成例を示す図である。従来としてのエンコード技術の構成例を示す図である。

符号の説明

１エンコード装置、２デコード装置、６ヘッドフォン、１１ａ〜１５ａ・１１ｂ〜１５ｂフィルタ、１６ａ・１６ｂ３１ａ・３１ｂ高速フーリエ変換部、３２−Ｌ・３２−Ｃ・３２−Ｒ・３２−ＬＳ・３２−ＬＲチャンネル信号分離ブロック、逆フーリエ変換部３３−Ｌ・３３−Ｃ・３３−Ｒ・３３−ＬＳ・３３−ＬＲ、４１ａ・４１ｂ・４１Ａ補正処理部、４２分離処理部、５１レベル／位相比較処理ブロック、５２音源分離関数演算ブロック、５３・５４・６５・６６・６７・６８係数器、５５加算器、６１レベル比較部、６２・６４係数発生部、６３位相比較部、１００エンコードユニット、１０１メディア記録ユニット、１０２メディア、２００デコードユニット、２０１メディア再生ユニット、４００パラメータ設定部

Claims

所定のチャンネル構成を成すデコードチャンネルに対応する音声信号成分のそれぞれに対して、対応のデコードチャンネルとしての音源の位置に基づいて求められた空間伝達関数により表される伝達特性を与え、これらの音声信号成分をエンコードチャンネルのチャンネル構成に応じて振り分けて生成した、エンコードチャンネルの音声信号を入力して、上記デコードチャンネルにおける特定の１つのチャンネルに対応する音声信号成分を生成する音声信号生成手段を、上記デコードチャンネルごとに対応して備え、
上記音声信号生成手段の各々は、
入力されたエンコードチャンネルの音声信号の各々について、その音声信号生成手段が対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、
上記補正手段により補正された信号の間での所定の近似性を検出する近似性検出手段と、
上記近似性検出手段の検出結果に基づいて、上記信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、
上記分離手段により分離された信号成分を加算して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備える、
ことを特徴とする音声信号処理装置。
上記補正手段は、
入力されたエンコードチャンネルの音声信号の各々に対して、その音声信号生成手段が対応するデコードチャンネルの音声信号に付与された伝達特性に基づいた逆特性を与えるフィルタ処理を実行するように構成される、
ことを特徴とする請求項１に記載の音声信号処理装置。
上記補正手段は、
その音声信号生成手段が対応するデコードチャンネルの音声信号に付与された伝達特性のインパルス応答における直接音部分の逆特性を与えるフィルタ処理を実行するようにされる、
ことを特徴とする請求項２に記載の音声信号処理装置。
上記補正手段は、
その音声信号生成手段が対応するデコードチャンネルの音声信号に付与された、無響環境による伝達特性の逆特性を与えるフィルタ処理を実行するようにされる、
ことを特徴とする請求項２に記載の音声信号処理装置。
上記近似性検出手段は、
上記補正手段による補正後のエンコードチャンネルごとの信号についての、位相についての近似性を検出する、
ことを特徴とする請求項２に記載の音声信号処理装置。
上記近似性検出手段は、
上記補正手段による補正後のエンコードチャンネルごとの信号についての、レベルについての近似性を検出する、
ことを特徴とする請求項２に記載の音声信号処理装置。
上記補正手段は、
入力されたエンコードチャンネルごとの音声信号の間での、付与されている伝達特性により生じる、対応するデコードチャンネルの音声信号成分に関する伝搬時間差を補正するための処理を実行し、
上記近似性検出手段は、
上記補正手段による補正後のエンコードチャンネルごとの信号についての伝搬時間差を近似性として検出する、
ことを特徴とする請求項１に記載の音声信号処理装置。
上記補正手段は、
さらに、入力されたエンコードチャンネルごとの音声信号の間での、付与されている伝達特性により生じる、対応するデコードチャンネルの音声信号成分に関するレベル差を補正するための処理を実行し、
上記近似性検出手段は、
さらに、上記補正手段による補正後のエンコードチャンネルごとの信号についてのレベル差を補正するための処理を実行するようにされる、
ことを特徴とする請求項７に記載の音声信号処理装置
所定のチャンネル構成を成す原チャンネルの音声信号の組を、この原チャンネル以外の所定のチャンネル構成を成すエンコードチャンネルの音声信号の組に変換して出力するエンコード装置と、
所定のチャンネル構成を成すエンコードチャンネルの音声信号の組を入力して、所定のチャンネル構成を成すデコードチャンネルの音声信号の組に変換するデコード装置とから成り、
上記エンコード装置は、
１原チャンネルにつきエンコードチャンネルごとに対応したものが設けられ、入力される音声信号が対応する原チャンネルとしての音源の位置に基づいて設定される空間伝達関数により表される伝達特性を、上記入力される音声信号に付与する伝達特性付与手段と、
エンコードチャンネルごとに対応して設けられ、上記伝達特性付与手段の各々によって処理が施された信号を入力して加算し、この加算した出力を、対応するエンコードチャンネルの音声信号として出力する加算手段とを備え、
上記デコード装置は、
上記デコードチャンネルにおける特定の１つのチャンネルに対応する音声信号成分を分離する音声信号分離手段を、上記デコードチャンネルごとに対応して有し、
上記音声信号分離手段の各々は、
入力されたエンコードチャンネルごとの音声信号について、対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手段と、
上記補正手段による補正後のエンコードチャンネルごとの信号についての所定の近似性を検出する近似性検出手段と、
上記近似性検出手段の検出結果に基づいて、上記信号補正手段から出力されるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手段と、
上記分離手段により分離された信号成分を加算して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手段とを備える、
ことを特徴とする音声信号処理システム。
所定のチャンネル構成を成すデコードチャンネルに対応する音声信号成分のそれぞれに対して、対応のデコードチャンネルとしての音源の位置に基づいて求められた空間伝達関数により表される伝達特性を与え、これらの音声信号成分をエンコードチャンネルのチャンネル構成に応じて振り分けて生成した、エンコードチャンネルの音声信号を入力して、上記デコードチャンネルにおける特定の１つのチャンネルに対応する音声信号成分を生成する音声信号生成手順を、上記デコードチャンネルごとに対応して実行させるもので、
上記デコードチャンネルごとに対応した音声信号生成手順として、
入力されたエンコードチャンネルの音声信号の各々について、その音声信号生成手順が対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手順と、
上記補正手順により補正された信号の間での所定の近似性を検出する近似性検出手順と、
上記近似性検出手順の検出結果に基づいて、上記信号補正手順により得られるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手順と、
上記分離手順により分離された信号成分を加算して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手順と、
を情報処理装置に実行させるプログラム。
所定のチャンネル構成を成す原チャンネルの音声信号の組を、この原チャンネル以外の所定のチャンネル構成を成すエンコードチャンネルの音声信号の組に変換して出力するエンコード処理と、
所定のチャンネル構成を成すエンコードチャンネルの音声信号の組を入力して、所定のチャンネル構成を成すデコードチャンネルの音声信号の組に変換するデコード処理とを情報処理装置に実行させるものであって、
上記エンコード処理は、
１原チャンネルにつきエンコードチャンネルごとに対応して実行すべき手順とされて、入力される音声信号が対応する原チャンネルとしての音源の位置に基づいて設定される空間伝達関数により表される伝達特性を、上記入力される音声信号に付与する伝達特性付与手順と、
エンコードチャンネルごとに対応して設けられ、上記伝達特性付与手順の各々によって処理が施された信号を入力して加算し、この加算した出力を、対応するエンコードチャンネルの音声信号として出力する加算手順とを情報処理装置に実行させるもので、
上記デコード処理は、
上記デコードチャンネルにおける特定の１つのチャンネルに対応する音声信号成分を分離する音声信号分離手順を、上記デコードチャンネルごとに対応して実行するものとされ、
上記音声信号分離手順の各々は、
入力されたエンコードチャンネルごとの音声信号について、対応するデコードチャンネルの音声信号成分に与えられた伝達特性についての補正を行う補正手順と、
上記補正手順による補正後のエンコードチャンネルごとの信号についての所定の近似性を検出する近似性検出手順と、
上記近似性検出手順の検出結果に基づいて、上記信号補正手順により得られるエンコードチャンネルごとの信号から、相互に近似しているとされる信号成分を分離して出力する分離手順と、
上記分離手順により分離された信号成分を加算して、対応するデコードチャンネルの音声信号として出力するチャンネル音声信号出力手順とを情報処理装置に実行させるものである、
ことを特徴とするプログラム。