JP7651751B2

JP7651751B2 - デコーダシステム、デコーディング方法及びコンピュータプログラム

Info

Publication number: JP7651751B2
Application number: JP2024033809A
Authority: JP
Inventors: カルルスソン，ポンタス; プルンハーゲン，ヘイコ; ヴィレモーズ，ラルス
Original assignee: ドルビー・インターナショナル・アーベー
Priority date: 2010-04-09
Filing date: 2024-03-06
Publication date: 2025-03-26
Anticipated expiration: 2031-04-06
Also published as: EP3474277B1; CA2924315A1; US20180137866A1; CA2793320A1; JP2016026318A; IL280247B; EP3474277A1; EP3799043A1; CN103119647B; JP2019179261A; JP6633706B2; CA2793317A1; BR112012025863B1; CA3040779C; BR112012025878A2; CA3110542C; KR102537360B1; US11810582B2; AU2011237882A1; IL272689A

Description

ここに開示する発明は概してステレオオーディオ符号化に関し、より詳しくは周波数領域における複素予測を用いるステレオ符号化の手法に関する。

ステレオ信号の左（Ｌ）チャンネルと右（Ｒ）チャンネルの同時符号化（joint coding）により、ＬとＲを独立に符号化するのと比較して、符号化が効率的になる。同時ステレオ符号化に対する一般的なアプローチはミッド／サイド（Ｍ／Ｓ）符号化である。ここで、ミッド（Ｍ）信号はＬ信号とＲ信号を加えることにより構成され、例えばＭ信号は

により得られる。また、サイド（Ｓ）信号は２つのチャンネルＬＲを引くことにより構成され、例えばＳ信号は

により得られる。Ｍ／Ｓ符号化の場合、Ｌ信号とＲ信号ではなく、Ｍ信号とＳ信号が符号化される。

ＭＰＥＧ（Moving Picture Experts Group）のＡＡＣ（Advanced Audio Coding）標準（標準文書ISO/IEC １３８１８-７を参照）では、時間および周波数可変で、Ｌ／Ｒステレオ符号化とＭ／Ｓステレオ符号化を選択できる。このように、ステレオエンコーダは、ステレオ信号のある周波数帯域にＬ／Ｒ符号化を適用でき、そのステレオ信号の他の周波数帯域のエンコードにはＭ／Ｓ符号化が使われる（周波数可変）。さらに、エンコーダは時間的にＬ／Ｒ符号化とＭ／Ｓ符号化を切り替えられる（時間可変）。ＭＰＥＧＡＡＣでは、ステレオエンコーディングは周波数領域で、より具体的にはＭＤＣＴ（修正離散余弦変換）領域で行われる。これにより、周波数的および時間的に可変に、Ｌ／Ｒ符号化またはＭ／Ｓ符号化のいずれかを適応的に選択できる。

パラメトリックステレオ符号化は、ステレオオーディオ信号を、モノラル信号と、ステレオパラメータとなる少量のサイド情報として、効率的に符号化する手法である。これはＭＰＥＧ－４オーディオ標準（標準文書ISO/IEC１４４９６-３を参照）の一部である。モノラル信号はどのオーディオ符号化器を用いてもエンコードできる。ステレオパラメータはモノビットストリーム（mono bit stream）の付属部分に組み込まれるので、完全に前方互換かつ後方互換となる。デコーダでは、モノラル信号が最初に復号され、その後にステレオパラメータを用いてステレオ信号が再構成される。復号されたモノ信号を無相関化した信号（decorrelated version）は、モノ信号との相互相関がゼロである。この無相関化信号を、無相関化器（decorrelator）により、例えば遅延ラインを含む適当なオールパスフィルタ（all-pass filter）により生成する。基本的に、無相関化信号はモノ信号と同じスペクトル的・時間的エネルギー分布を有する。モノラル信号は無相関化信号とともにアップミックスプロセスに入力される。このプロセスは、ステレオパラメータにより制御され、ステレオ信号を再構成する。さらに詳しい情報は、非特許文献１を参照されたい。

ＭＰＥＧサラウンド（ＭＰＳ；ISO/IEC ２３００３-１及び非特許文献２を参照）は、パラメトリックステレオ符号化の原理に残差符号化の原理を組み合わせるものであり、無相関化信号を送信される残差で置き換え、知覚できる音質を改善している。残差符号化は、マルチチャンネル信号をダウンミックスし、任意的に空間的キューを抽出することにより行われる。ダウンミックスプロセスにおいて、エラー信号を表す残差信号が計算され、エンコードされて送信される。残差信号はデコーダにおいて無相関化信号の代わりになる。ハイブリッドアプローチでは、残差信号は一定の周波数帯域において、好ましくは比較的低い帯域において、無相関化信号に取って代わる。

現在のMPEG Unified Speech and Audio Coding（ＵＳＡＣ）システムは、図１に２つの例を示したが、デコーダはコアデコーダの下流に位置する複素値直交ミラーフィルタ（ＱＭＦ）バンクを有する。このフィルタバンクの出力として得られるＱＭＦ表現は、複素値であり、それゆえ２倍にオーバーサンプルされており、ダウンミックス信号（すなわちミッド信号）Ｍと残差信号Ｄとして構成できる。これには複素値成分を有するアップミックス行列を使うことができる。（ＱＭＦ領域の）Ｌ信号とＲ信号は

として得られる。ここで、ｇは実数値のゲインファクタであり、αは複素値の予測係数である。αは残差信号Ｄのエネルギーが最小になるように選択するのが好ましい。ゲインファクタは規格化により、すなわち和信号のパワーが左右信号のパワーの和と等しくなるようにして決定できる。Ｌ信号とＲ信号それぞれの実部と虚部は互いに冗長性があり、原理的には一方を他方に基づき計算できる。しかし、後で可聴なエイリアシングアーティファクトを生ぜずにスペクトル帯域レプリケーション（ＳＢＲ）デコーダを使えるという利益がある。モノ・ステレオアップミックスなどその他の時間または周波数適応的信号処理（図示せず）と関連するアーティファクトを防止する目的で、オーバーサンプルされた信号表現の利用も同様の理由で選択される。逆ＱＭＦフィルタリングがデコーダにおける最後の処理ステップである。信号の帯域制限的ＱＭＦ表現により、帯域制限残差手法と「残差フィル」手法が使える。これらの手法をこのタイプのデコーダに組み込むことができる。

上記の符号化構成は低ビットレートの場合、一般的には８０ｋｂ／ｓ未満の場合には良く適合するが、計算複雑性の点で高ビットレートの場合には最適なものではない。より詳しく言うと、高ビットレートでは、一般的にＳＢＲツールは（符号化効率の改善にならないので）使われない次に、ＳＢＲ段階を有さないデコーダでは、複素値アップミックス行列があるが故にＱＭＦフィルタバンクを使うが、これは計算量が多く遅延を生じる（１０２４サンプルのフレーム長では、ＱＭＦ分析／合成フィルタバンクにより９６１サンプルの遅延が生じる）。これは、もっと効率的な符号化構成の必要性を明らかに示している。

H. Purnhagen著「Low Complexity Parametric Stereo Coding in MPEG-４」, Proc. of the ７th Int. Conference on Digital Audio Effects (DAFx'０４), Naples, Italy, October ５-８, ２００４, pages １６３-１６８ J. Herre et al.著「MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multi- Channel Audio Coding」, Audio Engineering Convention Paper ７０８４, １２２<nd> Convention, May ５-８, ２００７

本発明の一目的は、高ビットレートレンジにおいても計算効率の高いステレオ符号化をする方法と装置を提供することである。

本発明は、独立請求項に規定した、符号化及び復号をするための、それぞれコーダ及びデコーダ、コーディング及びデコーディング方法、及びコンピュータプログラム製品を提供することにより、この目的を達成する。従属項は本発明の実施形態を規定している。

第１の態様では、本発明は次のシステムを提供する。すなわち、複素予測ステレオ符号化によりステレオ信号を提供するデコーダシステムであって：
ダウンミックス信号（Ｍ）と残差信号（Ｄ）の第１の周波数領域表示に基づいて、前記ステレオ信号を生成するように構成されたアップミックス段階であって、各第１の周波数領域表示は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有するアップミックス段階を有し、前記アップミックス段階は、
前記ダウンミックス信号の第１の周波数領域表示に基づき、前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールであって、前記第２の周波数領域表示は、前記第１の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第２の副空間で表された信号のスペクトルコンテンツを表す第２のスペクトル成分を有する、モジュールと、
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第１と第２の周波数領域表示と、前記残差信号の第１の周波数領域表示と、複素予測係数（α）とに基づいてサイド信号（Ｓ）を計算する重み付け加算器とを有するアップミックス段階と、
前記ダウンミックス信号と前記サイド信号の第１の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階を有し、
前記アップミックス段階は、さらに、前記ダウンミックス信号と残差信号が前記和・差段階に直接供給されるパススルーモードで動作可能である。

第２の態様では、本発明は次のシステムを提供する。すなわち、
複素予測ステレオ符号化によりビットストリーム信号によりステレオ信号をエンコードするエンコーダシステムであって、
複素予測係数を推定する推定器と、
（ａ）前記ステレオ信号を、前記複素予測係数の値により決定される関係を有するダウンミックス信号と残差信号の周波数領域表示に変換するように動作可能な符号化段階と、
前記符号化段階と推定器から出力を受け取り、これを前記ビットストリーム信号にエンコードするマルチプレクサとを有する。

本発明の第３と第４の態様では、ステレオ信号をビットストリームにエンコードする方法と、ビットストリームを少なくとも１つのステレオ信号に復号する方法が提供される。各方法の技術的特徴は、それぞれエンコーダシステムとデコーダシステムの技術的特徴を同様である。第５と第６の態様では、本発明は、各方法をコンピュータで実行する命令を含むコンピュータプログラム製品を提供する。

本発明は、ＭＰＥＧＵＳＡＣシステムにおける統一ステレオ符号化の優位性からの利益を受ける。これらの優位性は、ＳＢＲが一般的には利用されない、ＱＭＦベースアプローチに伴う計算上の複雑さを大幅に増大することなく、高ビットレートでも保存され、これが可能になる理由は、クリティカルサンプリングされたＭＤＣＴ変換は、ＭＰＥＧＵＳＡＣ変換の基本であるが、ダウンミックス及び残差チャンネルの符号オーディオ帯域が同じであり、アップミックスプロセスが非相関化を含まない場合には少なくとも、本発明により、複素予測ステレオ符号化でも使える。これは、追加的なＱＭＦ変換がもはや必要ないことを意味する。ＱＭＦ領域における複素予測ステレオ符号化の代表的な実施形態は、従来のＬ／ＲまたはＭ／Ｓステレオと比較して、１単位時間当たりの演算数を大幅に増やす。そのため、本発明による符号化装置は、控えめな計算負荷により高音質を提供するため、かかるビットレートで競争力があるように思われる。

当業者は気づくように、アップミックス段階はパススルーモードでも動作可能であるという事実により、デコーダは、エンコーダ側での判断により、従来の直接符号化または同時符号化、及び複素予測符号化により、適応的に復号できる。よって、デコーダが音質レベルを従来の直接Ｌ／Ｒステレオ符号化や同時Ｍ／Ｓステレオ符号化より積極的に挙げられない場合に、少なくとも、同じレベルを維持することを保証できる。よって、本発明のこの態様によるデコーダは、機能的観点から、背景技術に対して上位集合（superset）と見なせる。

ＱＭＦベース予測符号化ステレオに対する優位性として、（任意に小さくできる量子化誤差を除いて）信号の完全再構成が可能である。

このように、本発明は、複素予測による変換ベースのステレオ符号化をする符号化装置を提供する。好ましくは、本発明による装置は、複素予測ステレオ符号化に限定されず、背景技術による直接Ｌ／Ｒステレオ符号化や同時Ｍ／Ｓすれてお符号化でも動作可能であり、具体的なアプリケーションや特定の時間中に最も適した符号化方法を選択できる。

信号のオーバーサンプリングされた表示（例えば、複素表示）は、第１と第２のスペクトル成分を両方とも含み、本発明による複素予測の基礎として用いられ、よって、かかるオーバーサンプリングされた表示を計算するモジュールが、本発明によるエンコーダシステムとデコーダシステムに構成される。スペクトル成分は、多次元空間の第１と第２の副空間を指す。これは、有限のサンプリング周波数でサンプリングされた、所与の時間的長さ（例えば、所定の時間フレームの長さ）の、一組の時間依存関数である。この多次元空間中の関数は基底関数の有限の重み付け和により近似できることは周知である。

当業者には明らかなように、デコーダと協働するように構成されたエンコーダは、エンコードされた信号の忠実な再生を可能とするように、予測符号化のベースとなるオーバーサンプリングされた表示を提供する等価なモジュールが備えられている。かかる等価なモジュールは、同じ又は類似したモジュールか、同じ又は類似した伝達特性を有するモジュールである。特に、エンコーダとデコーダのモジュールは、それぞれ、等価な数学的演算を実行するコンピュータプログラムを実行する類似した、または非類似のユニットであってもよい。

デコーダシステムやエンコーダシステムのある実施形態では、第１のスペクトル成分は第１の副空間で表された実数値を有し、第２のスペクトル成分は第２の副空間で表された虚数値を有する。第１と第２のスペクトル成分は共に、信号の複素スペクトル表示を構成する。第１の副空間は第１の組の基底関数の線形スパンであり、第２の副空間は第２の基底関数の組の線形スパンであり、その一部は第１の組の基底関数とは線形独立である。

一実施形態では、複素表示を計算するモジュールは、実・虚変換、すなわち、信号の実スペクトル表示に基づき、離散時間信号のスペクトルの虚数府を計算するモジュールである。この変換は、高調波分析やヒューリスティック関係からの式など、厳密な、又は近似的な数学的関係に基づく。

デコーダシステム又はエンコーダシステムのある実施形態では、第１のスペクトル成分は、離散時間領域信号の時間・周波数領域変換により、好ましくはフーリエ変換により、例えば離散余弦変換（ＤＣＴ）、修正離散余弦変換（ＭＤＣＴ）、離散正弦変換（ＤＳＴ）、修正離散正弦変換（ＭＤＣＴ）、高速フーリエ変換（ＦＦＴ）、素因子ベース（prime-factor-based）フーリエアルゴリズムなどにより求められる。最初の４つの場合には、第２のスペクトル成分はＤＳＴ、ＭＤＳＴ、ＤＣＴ、及びＭＤＣＴによりそれぞれ求められる。周知なように、単位期間で周期的なコサインのリニアスパンは、同じ期間で周期的なサインのリニアスパンに完全には含まれない副空間を構成する。好ましくは、第１のスペクトル成分はＭＤＣＴにより求められ、第２のスペクトル成分はＭＤＳＴにより求められる。

一実施形態では、デコーダシステムは、少なくとも１つの時間的ノイズシェーピングモジュール（ＴＮＳモジュール、すなわちＴＮＳフィルタ）を含み、これはアップミックス段階の上流に配置される。一般的に言って、ＴＮＳの使用により、過渡状成分を有する信号の知覚される音質が改善され、ＴＮＳを有する本発明のデコーダシステムの実施形態にも当てはまる。従来のＬ／Ｒ及びＭ／Ｓステレオ符号化では、ＴＮＳフィルタは周波数領域における最後の処理ステップとして、逆変換の直前に適用される。しかし、複素予測ステレオ符号化の場合には、ＴＮＳフィルタをダウンミックス信号と残差信号に、すなわちアップミックス行列の前に適用すると有利であることが多い。言い換えると、ＴＮＳは左右チャンネルの線形結合に適用され、これにはいくつかの利点がある。最初に、ある状況では、ＴＮＳが例えばダウンミックス信号に対してのみ有利であることが分かる。次に、残差信号についてはＴＮＳフィルタリングは省略でき、これは利用できる帯域幅の経済的な使用を意味する。ＴＮＳフィルタ係数は、ダウンミックス信号についてだけ送信されればよい。第２に、ダウンミックス信号のオーバーサンプリングされた表示の計算は（例えば、複素周波数領域表示を構成するために、ＭＤＳＴデータはＭＤＣＴデータから求められる）、複素予測符号化では必要であるが、ダウンミックス信号の時間領域表示が計算可能であることを要する。これは、ダウンミックス信号が、好ましくは一様に求めたＭＤＣＴスペクトルの時間シーケンスとして利用できることを意味する。ＴＮＳフィルタが、ダウンミックス／残差表示を左／右表示に変換するアップミックス行列の後にデコーダで適用された場合、ダウンミックス信号のＴＮＳ残差ＭＤＣＴスペクトルのシーケンスのみが得られる。これにより、対応するＭＤＳＴスペクトルの効率的な計算が非常に難しくなる。特に、左／右チャンネルが特性が異なるＴＮＳフィルタを用いている場合にそうである。

強調しておくが、ＭＤＣＴスペクトルの時間シーケンスが得られるかは、複素予測符号化の基礎として機能するようにフィットしたＭＤＳＴ表示を得るための絶対的な基準ではない。実験的な証拠に加えて、この事実は、一般的に、ＴＮＳによりフィルタされた残差信号が低周波のフィルタされていない残差信号に近似的に対応するように、ＴＮＳが、例えば数キロヘルツより高い高周波のみに適用されるということにより説明できる。このように、本発明は、以下に説明するように、ＴＮＳフィルタがアップミックス段階の上流以外に配置される、複素予測ステレオ符号化をするデコーダとして実施できる。

一実施形態では、デコーダシステムは、アップミックス段階の下流に配置された少なくとも１つのさらないＴＮＳモジュールを含む。セレクタ装置により、アップミックス段階の上流のＴＮＳモジュールまたはアップミックス段階の下流のＴＮＳモジュール。ある状況下では、複素周波数領域表示の計算は、ダウンミックス信号の時間領域表示が計算可能である必要はない。さらに、上記の通り、デコーダは、複素予測符号化を適用せずに、直接または同時符号化モードで選択的に動作可能であり、ＴＮＳモジュールを従来の場所に用いる、すなわち周波数領域における最後の処理ステップの１つとして用いる方が適している。

一実施形態では、デコーダシステムは、ダウンミックス信号の第２の周波数領域表示を計算するモジュールを非アクティブ化することにより、処理リソース及び場合によってはエネルギーを節約するように構成されている。前記ダウンミックス信号は連続した時間ブロックにパーティションされ、各時間ブロックは複素予測係数の値に関連する。この値は、デコーダと協働するエンコーダにより各時間ブロックに対する決定により決まる。さらに、この実施形態では、ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、所与の時間ブロックについて、複素予測係数の虚部の絶対値がゼロであるか、所定の許容値より小さい場合、自分自身を非アクティブ化するように構成されている。モジュールの非アクティブ化は、この時間ブロックについてダウンミックス信号の第２の周波数領域表示を計算しないことを意味する。非アクティブ化をしない場合、第２の周波数領域表示（例えば、一組のＭＤＳＴ係数）にはゼロ、またはデコーダのマシンイプシロン（四捨五入単位）又はその他の好適な閾値とほぼ同じオーダーの数がかけられる。

前記の実施形態をさらに発展させたものでは、ダウンミックス信号がパーティションされる時間ブロックのサブレベルで処理リソースの節約が為される。例えば、時間ブロック内のかかるサブレベルは周波数帯域であり、エンコーダは時間ブロック内の各周波数帯域に対して、複素予測係数の値を決定する。同様に、第２の周波数領域表示を生成する方法は、複素予測係数がゼロであるか、大きさが許容値より小さい、時間ブロック内の周波数帯域に対する演算を抑制するように構成されている。

一実施形態において、前記第１のスペクトル成分は変換係数の時間ブロックに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成される。さらに、前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、
・前記第１のスペクトル成分から第１の中間成分を求め、
・インパルス応答の少なくとも一部により前記第１のスペクトル成分の結合を構成して第２の中間成分を求め、
・前記第２の中間成分から第２のスペクトル成分を求めるように構成されている。
この手順により、米国特許第６，９８０，９３３Ｂ２号に、特にコラム８乃至２８に、特に式４１に詳細に記載されているように、第１の周波数領域表示から直接第２の周波数領域表示を計算することができる。当業者は気づくように、例えば、異なる変換が続く逆変換とは反対に、計算は、時間領域によっては実行されない。

本発明による複素予測ステレオ符号化の実施例の場合、計算の複雑さは、従来のＬ／ＲまたはＭ／Ｓステレオと比較してほんの少ししか増加しない（ＱＭＦ領域における複素予測ステレオ符号化により生じる増加よりも大幅に少ない）ことが推測されている。第２のスペクトル成分の厳密な計算を含むこのタイプの実施形態では、ＱＭＦベースの実施形態により生じるより数パーセント長いだけの遅延が生じる（時間ブロックの長さは１０２４サンプルであると仮定し、ＱＭＦ分析／合成フィルタバンクの９６１サンプルの遅延と比較した）。

好適にも、少なくとも前出の実施形態の一部では、インパルス応答は、第１の周波数領域表示を求められる、より正確には、その周波数応答特性により求められる変換に適応される。

実施形態によっては、ダウンミックス信号の第１の周波数領域表示は、１つ又はそれ以上の分析窓関数（又は、カットオフ関数、例えば矩形窓、正弦窓、カイザー・ベッセル窓など）に対して適用される変換により得られ、その一目的は、危険なノイズ音量を生じたり、スペクトルに好ましくない変化を与えたりすることなく、時間的セグメント化を実現することである。場合によっては、かかる窓関数は、部分的にオーバーラップしている。次に、好ましくは、変換の周波数応答特性は、前記の１つ又はそれ以上の分析窓関数の特性に依存する。

周波数領域における第２の周波数領域表示の計算を特徴とする実施形態をさらに参照して、近似的な第２の周波数領域表示を用いることにより、計算負荷を減らすことができる。かかる近似は、計算の基礎とする情報に完全性を求めないことにより実現できる。例えば、米国特許第６，９８０，９３３Ｂ２号の教示によると、３つの時間ブロック、すなわち出力ブロックと同時のブロック、先行するブロック、及び後続のブロックからの第１の周波数領域データは、一ブロック中のダウンミックス信号の第２の周波数領域表示の厳密な計算に必要である。本発明による複素予測符号化を目的として、後続ブロック及び／又は先行するブロックからのデータを省略、またはゼロで置き換える（モジュールの動作が原因となる、すなわち遅延に貢献しない）ことにより、好適な近似を得られ、第２の周波数領域表示の計算が１つ又は２つの時間ブロックのみに基づくようにする。留意点として、入力データの省略は、例えば、もはや同じパワーを表さないという意味で、第２の周波数領域表示のリスケーリングを意味するが、上記の通り、エンコーダ側とデコーダ側の両方で等価な方法で計算されている限り、複素予測符号化の基礎として用いることができる。確かに、この種のリスケーリングは、予測係数値の対応する変化により、補償される。

ダウンミックス信号の第２の周波数領域表示の一部を構成するスペクトル成分を計算するさらに他の近似方法は、第１の周波数領域表示からの少なくとも２つの成分の結合を含む。後者の成分は時間及び／又は周波数に関して隣接している。代替案として、後者の成分は、比較的少数のステップで、有限インパルス応答（ＦＩＲ）フィルタリングにより結合できる。例えば、１０２４の時間ブロックサイズを用いるシステムでは、かかるＦＩＲフィルタは２、３、４個等のタップを含む。この種の近似的計算方法の説明は、例えば、米国特許出願公開第２００５／０１９７８３１Ａ１号に見いだすことができる。各時間ブロック境界の近傍に比較的小さい重みを与える窓関数を、例えば非矩形関数を用いた場合、時間ブロックの第２のスペクトル成分を同じ時間ブロックの第１のスペクトル成分の組み合わせのみに基づかせると都合がよいが、最も外側の成分については同量の情報は得られないことになる。かかるプラクティスにより生じる可能性のある近似誤差は、ある程度抑えることができ、または窓関数の形状により隠蔽することができる。

時間領域ステレオ信号を出力するように設計されたデコーダの一実施形態では、直接または同時ステレオ符号化と複素予測符号化との間で切り換える可能性がある。これは次のものを備えることにより実現できる。すなわち、
・（信号を変化させない）パススルー段階として、または和・差変換として選択的に動作可能なスイッチ；
・周波数・時間変換を行う逆変換段階；及び
・直接（または同時）符号化した信号を、または複素予測により符号化された信号を、逆変換段階に入力するセレクタ装置。
当業者が気づくように、デコーダの側にこのようなフレキシビリティがあるので、エンコーダは、従来の直接または同時符号化と、複素予測符号化とを選択する自由度を有する。よって、この実施形態は、従来の直接Ｌ／Ｒステレオ符号化や同時Ｍ／Ｓステレオ符号化の音質レベルを越えられない場合には、少なくとも、同じレベルを維持することを保証できる。よって、本実施形態によるデコーダは、関連技術に対して上位集合（superset）であるとみなすことができる。

デコーダシステムの他の一群の実施形態は、時間領域を介して、第２の周波数領域表示の第２のスペクトル成分の計算を行う。より正確には、第１のスペクトル成分を求めた（又は求め得る）変換の逆変換を適用し、次に、出力として第２のスペクトル成分を有する異なる変換を行う。具体的に、逆ＭＤＣＴの後にＭＤＳＴを行う。かかる実施形態では、変換と逆変換の数を減らすため、逆ＭＤＣＴの出力を、ＭＤＳＴと、復号システムの出力端子（場合によっては、さらにべつの処理ステップが前置されている）とに送る。

本発明による複素予測ステレオ符号化の実施例の場合、計算の複雑さは、従来のＬ／ＲまたはＭ／Ｓステレオと比較してほんの少ししか増加しない（ＱＭＦ領域における複素予測ステレオ符号化により生じる増加よりも大幅に少ない）ことが推測されている。

前記パラグラフで言及した実施形態のさらなる発展として、アップミックス段階はサイド信号を処理するさらなる逆変換段階を有しても良い。そして、和・差段階に、前記さらなる逆変換段階により生成されたサイド信号の時間領域表示と、前述の逆変換により生成されたダウンミックス信号の時間領域表示とを供給する。再度述べるが、計算の複雑性の観点から、都合良く、後者の信号は、上述の和・差段階と異なる変換段階との両方に供給される。

一実施形態では、時間領域ステレオ信号を出力するように設計されたデコーダは、直接Ｌ／Ｒステレオ符号化または同時Ｍ／Ｓステレオ符号化と、複素予測ステレオ符号化との間で切り換えが可能である。これは次のものを備えることにより実現できる。すなわち、
・パススルー段階として、または和・差段階として動作できるスイッチ；
・サイド信号の時間領域表示を計算するさらなる逆変換段階；
・逆変換段階を、（好ましくは、複素予測符号化により生成されたステレオ信号を復号する場合のように、スイッチがアクティブ化されパスフィルタとして機能するときに、）アップミックスの上流にあり、かつスイッチの下流にあるポイントに接続されたさらなる和・差段階に、または（好ましくは、直接符号化されたステレオ信号を復号する場合のように、スイッチがアクティブ化され、和・差段階として機能するときに、）スイッチからのダウンミックス信号と、重み付け加算器からのサイド信号との組み合わせに、接続するセレクタ装置。
当業者は気づくように、これはエンコーダに、従来の直接又は同時符号化と、複素予測符号化との間を選択する自由度を与え、すなわち直接又は同時ステレオ符号化と少なくとも等しい音質レベルを保証できる。

一実施形態では、本発明の第２の態様によるエンコーダシステムは、残差信号の信号パワー又は平均信号パワーを低減又は最小化する目的で、複素予測係数を推定する推定器を有する。最小化はある時間にわたり、好ましくは符号化する時間セグメント又は時間ブロック又は時間フレームにわたり行われる。振幅の二乗を瞬間信号パワーの尺度とでき、振幅の二乗の一時間区間にわたる積分をその時間区間における平均信号パワーの尺度とできる。好適にも、複素予測係数は時間ブロックごとに、及び周波数帯域ごとに決定できる。すなわち、その値は、その時間ブロック及び周波数帯域における残差信号の平均パワー（すなわち、全エネルギー）を低減するように設定される。具体的に、ＩＩＤ、ＩＣＣ及びＩＰＤ又は同様のパラメータなどのパラメトリックステレオ符号化パラメータを推定するモジュールは、当業者には知られた数学的関係により複素予測係数を計算できる出力を提供する。

一実施形態では、エンコーダシステムの符号化段階は、直接ステレオ符号化を可能とするため、さらに、パススルー段階として機能する。直接ステレオ符号化がより高い音質を提供すると期待される状況では、これを選択することにより、エンコーダシステムは、符号化されたステレオ信号が少なくとも直接符号化と同じ音質を有することを保証できる。同様に、音質が大幅に向上しても複素予測符号化により生じる大きな計算負荷が望ましくない状況では、エンコーダシステムには、計算リソースを節約するオプションが容易に利用できる。コーダにおける同時、直接実予測符号化と、複素予測符号化との間の決定は、一般的に、レート／歪み最適化の原理に基づく。

一実施形態では、エンコーダシステムは、第１のスペクトル成分に直接基づき（すなわち、時間領域に逆変換を適用せず、かつ信号の時間領域データを用いずに）第２の周波数領域表示を計算するモジュールを有する。上述のデコーダシステムの対応する実施形態に関して、このモジュールは、同様の構成を有する、すなわち、同様の、しかし異なる順序の処理動作を有し、エンコーダがデコーダ側の入力に適したデータを出力するように構成される。この実施形態を説明する目的で、符号化するステレオ信号は、ミッド及びサイドチャンネルを有し、又はこの構成に変換され、符号化段階は、第１の周波数領域表示を受け取るように構成されているものと仮定する。符号化段階は、ミッドチャンネルの第２の周波数領域表示を計算するモジュールを有する。（ここで参照する第１と第２の周波数領域表示は、上で定義した通りである；具体的に、第１の周波数領域表示はＭＤＣＴ表示であってもよく、第２の周波数領域表示はＭＤＳＴ表示であってもよい。）符号化段階は、さらに、サイド信号と、ミッド信号の２つの周波数領域表示とから構成され、複素予測係数の実部と虚部により重み付けされた線形結合として、残差信号を計算する重み付け加算器を有する。ミッド信号は、または好適にもその第１の周波数領域表示は、ダウンミックス信号として直接用いられる。この実施形態では、さらに、残差信号のパワー又は平均信号パワーを最小化する目的で、推定器が複素予測係数の値を決定する。最終動作（最適化）は、フィードバック制御により、さらに必要であれば、推定器が、調整すべき現在の予測係数値により得られる残差信号を受け取るフィードバック制御により、またはフィードフォワード的に、元のステレオ信号の左／右チャンネルに又はミッド／サイドチャンネルで直接行った計算により、行われる。ミッド信号の第１と第２の周波数領域表示と、サイド信号の第１の周波数領域表示とに基づいて、複素予測係数が直接的に（特に、非反復的又は非フィードバック的に）計算されるフィードフォワード法が好ましい。留意点として、複素予測係数の決定後、各オプションで得られる品質（好ましくは、例えば信号対マスク効果を考慮した知覚的品質）を考慮して、直接、同時実予測符号化をするか、または複素予測符号化をするかの決定を行う。よって、上記のステートメントは、エンコーダにフィードバックメカニズムが存在しないという旨と解釈してはならない。

一実施形態では、エンコーダシステムは、時間領域を介して、ミッド（すなわちダウンミックス）信号の第２の周波数領域表示を計算するモジュールを有する。この実施形態に関する実施の詳細事項は、少なくとも第２の周波数領域表示の計算に関する限り、同様であり、対応するデコーダの実施形態と同様に行うことができる。この実施形態では、符号化段階は、次のものを有する。すなわち：
・ステレオ信号をミッドチャンネルとサイドチャンネルに変換する和・差段階；
・サイドチャンネルの周波数領域表示と、ミッドチャンネルの複素値（すなわち、オーバーサンプリングされた）周波数領域表示とを提供する変換段階；及び
・複素予測係数を重みとして用いる、残差信号を計算する重み付け加算器。
ここで、推定器は、残差信号を受け取り、場合によってはフィードバック制御形式で、残差信号のパワーまたは平均パワーを低減または最小化する複素予測係数を決定する。しかし、好ましくは、推定器は、符号化するステレオ信号を受け取り、それに基づいて予測係数を決定する。サイドチャンネルのクリティカルサンプリングされた周波数領域表示を用いることは、計算の経済性の観点から有利である。この実施形態では、サイドチャンネルは複素数との乗算をされないからである。好適にも、変換段階は、並列に構成されたＭＤＣＴ段階とＭＤＳＴ段階とを含み得る。両者は、ミッドチャンネルの時間領域表示を入力として有する。このように、ミッドチャンネルのオーバーサンプリングされた周波数領域表示と、サイドチャンネルのクリティカルサンプリングされた周波数領域表示とを生成する。

留意点として、このセクションで開示した方法と装置は、通常の実験を含む当業者の能力の範囲内で適当な修正をして、２より多いチャンネルを有する信号の符号化に適用できる。かかるマルチチャンネルオペラビリティへの変更は、例えば、上で引用したＪ．Ｈｅｒｒｅ等による論文のセクション４、５に即して行える。

さらに別の実施形態では、上記の２つ以上の実施形態の特徴を、明らかに補完的でない限り、組み合わせられる。２つの特徴が異なるクレームに記載されていても、それらを組み合わせられないと言うわけではない。同様に、さらに別の実施形態では、所望の目的に対して必要でない、または本質的でない特徴を省略してもよい。一例として、本発明による復号システムは、処理する符号化信号が量子化されていない場合、又はアップミックス段階での処理に好適な形式にすでになっている場合、逆量子化段階無しに実施してもよい。

添付した図面を参照して、次のセクションで説明する実施形態により、本発明をさらに説明する。
背景技術によるＱＭＦベースデコーダを示すブロック図である。背景技術によるＱＭＦベースデコーダを示すブロック図である。本発明の一実施形態による複素予測を有するＭＤＣＴベースステレオデコーダシステムを示すブロック図である。復号される信号のチャンネルの複素表示は周波数領域で計算される。本発明の一実施形態による複素予測を有するＭＤＣＴベースステレオデコーダシステムを示すブロック図である。復号される信号のチャンネルの複素表示は時間領域で計算される。図２のデコーダシステムの別の一実施形態を示す図である。アクティブＴＮＳ段階の位置は選択可能である。本発明の他の一態様の実施形態による、複素予測を有するＭＤＣＴベースステレオエンコーダシステムを示すブロック図である。本発明の一実施形態による複素予測を有するＭＤＣＴベースステレオエンコーダシステムを示すブロック図である。符号化される信号のチャンネルの複素表示はその時間領域表現に基づき計算される。図６に示したエンコーダシステムの別の一実施形態を示す図である。このシステムは直接Ｌ／Ｒ符号化モードでも動作可能である。本発明の一実施形態による複素予測を有するＭＤＣＴベースステレオエンコーダシステムを示すブロック図である。符号化される信号のチャンネルの複素表示はその第１周波数領域表現に基づき計算される。このシステムは直接Ｌ／Ｒ符号化モードでも動作可能である。図７に示したエンコーダシステムの別の一実施形態を示す図である。このシステムは、符号化段階の下流に配置されたＴＮＳ段階をさらに含む。図２と図８にラベルＡで示した部分の別の実施形態を示す図である。図８に示したエンコーダシステムの別の一実施形態を示す図である。このシステムは、符号化段階の上流と下流にそれぞれ配置された周波数領域修正デバイスをさらに含む。６サブジェクトからの９６ｋｂ／ｓにおけるリスニングテスト結果を示すグラフであり、ＭＤＳＴスペクトルの計算または近似のための異なる複雑性対音質トレードオフオプションを示している。ここで、ラベル「＋」で示されたデータ点は隠れた基準を示す。「×」は３．５ｋＨｚ帯域制限アンカーを示す。「*」はＵＳＡＣによる従来のステレオ（Ｍ／ＳまたはＬ／Ｒ）を示す。「□」は、予測係数の虚部をディスエーブルした（すなわち、ＭＤＳＴを必要としない実数値予測による）複素予測によるＭＤＣＴ領域ユニファイドステレオ符号化を示す。「■」は、現在のＭＤＣＴフレームを用いてＭＤＳＴの近似値を計算する複素予測によるＭＤＣＴ領域ユニファイドステレオ符号化を示す。「○」は、現在と前のＭＤＣＴフレームを用いてＭＤＳＴの近似値を計算する複素予測によるＭＤＣＴ領域ユニファイドステレオ符号化を示す。「●」は、現在と前と次のＭＤＣＴフレームを用いてＭＤＳＴを計算する複素予測によるＭＤＣＴ領域ユニファイドステレオ符号化を示す。現在のＭＤＣＴフレームを用いてＭＤＳＴの近似値を計算する複素予測によるＭＤＣＴ領域ユニファイドステレオ符号化に関する差分スコアとして図１２のデータを示す図である。本発明の実施形態によるデコーダシステムの一実施形態を示すブロック図である。本発明の実施形態によるデコーダシステムの他の一実施形態を示すブロック図である。本発明の実施形態によるデコーダシステムのさらに他の一実施形態を示すブロック図である。本発明の一実施形態による復号方法を示すフローチャートである。本発明の一実施形態による符号化方法を示すフローチャートである。

Ｉ．デコーダシステム
図２は、概略的なブロック図の形式で、少なくとも１つの複素予測係数値α＝α_Ｒ＋ｉα_Ｉを有するビットストリームを復号する復号システムを示す。ステレオ信号のＭＤＣＴ表現はダウンミックスＭチャンネルと残差Ｄチャンネルを有する。予測係数の実部とα_Ｒと虚部α_Ｉは量子化され、及び／または同時符号化（coded jointly）されている。しかし、好ましくは、実部と虚部は独立かつ均一に、一般的にはステップサイズ０．１（無次元数）で、量子化される。ＭＰＥＧ標準によると、複素予測係数に用いる周波数帯域の解像度は、スケールファクタ帯域（ｓｆｂ、すなわち同じＭＤＣＴ量子化ステップサイズと量子化範囲を用いる一群のＭＤＣＴライン）の解像度と同じである必要はない。特に、予測係数の周波数帯域解像度は、バークスケール（Bark scale）のように音響心理学的に妥当なものである。デマルチプレクサ２０１は、供給されるビットストリームから、これらのＭＤＣＴ表現と予測係数（図示した制御情報の一部）を取り出すように構成されている。実際、ビットストリームには、それを予測モードと非予測モードのどちらで復号するかという命令やＴＮＳ情報などの、複素予測係数以上の制御情報がエンコードされているＴＮＳ情報は、デコーダシステムのＴＮＳ(合成）フィルタにより使われるＴＮＳパラメータの値を含む。両チャンネルなどの複数のＴＮＳフィルタに同じ一組のＴＮＳパラメータを用いる場合、パラメータの組のアイデンティティを示すビットの形式でこの情報を受け取る方が、二組のパラメータを別々に受け取るよりも、経済的である。例えば、２つのオプションの音響心理学的評価に基づき、ＴＮＳをアップミックス段階の前または後に適用するかの情報も含まれうる。さらに、制御情報はダウンミックス信号と残差信号の個別に制限された帯域幅を示す。各チャンネルに対して、帯域幅制限より上の周波数帯域は復号されず、ゼロに設定される。場合によっては、最も高い周波数帯域のエネルギーコンテンツは小さいので、量子化されたときにすでにゼロになっている。通常のプラクティス（ＭＰＥＧ標準のmax_sfbパラメータを参照）では、ダウンミックス信号と残差信号の両方に、同じ帯域幅制限を用いなければならない。しかし、残差信号は、ダウンミックス信号よりも大幅に、低周波数帯域に局限されたエネルギーコンテンツを有する。そのため、残差信号に専用の帯域幅上限を課すことにより、音質を大幅に損なわずに、ビットレートの削減が可能である。例えば、これは、ビットストリームにエンコードされた、ダウンミックス信号用と残差信号用の２つの独立なmax_sfbパラメータにより調節される。

この実施形態では、ステレオ信号のＭＤＣＴ表現は、一定数のデータポイント（例えば、１０２４ポイント）、複数の一定数のデータポイントのうちの１つ（例えば、１２８ポイント又は１０２４ポイント）、または可変数のポイントを含む、連続した時間フレーム（すなわち時間ブロック）にセグメント化される。当業者には既知であるが、ＭＤＣＴはクリティカルにサンプリングされる。復号システムの出力は、図の右側部分に示したが、左Ｌチャンネルと右Ｒチャンネルを有する時間領域のステレオ信号である。逆量子化モジュール２０２は、復号システムに入力されたビットストリームを、必要に応じて、元のビットストリームを逆多重化後に得られるダウンミックスチャンネルと残差チャンネルのそれぞれに対応する２つのビットストリームを処理するように構成されている。逆量子化されたチャンネル信号は、変換行列

に対応するパススルーモードで、又は変換行列

に対応する和と差モードで動作できるスイッチングアセンブリ２０３に提供される。
次のパラグラフでさらに説明するように、デコーダシステムは第２のスイッチングアセンブリ２０５を含む。両スイッチングアセンブリ２０３、２０５は、この実施形態及びこれから説明する実施形態におけるその他のほとんどのスイッチやスイッチングアセンブリのように、周波数選択的に動作可能である。これにより、例えば、関連技術として知られているように、周波数依存のＬ／ＲまたはＭ／Ｓ復号などの非常に様々な復号モードの復号が可能になる。よって、本発明によるデコーダは、関連技術に対して上位集合（superset）であるとみなすことができる。

ここでスイッチングアセンブリ２０３がパススルーモードであると仮定して、この実施形態では、逆量子化されたチャンネル信号はそれぞれのＴＮＳフィルタ２０４をパススルーされる。ＴＮＳフィルタ２０４は、復号システムの動作には本質的ではなく、パススルー要素により置き換えることもできる。この後、信号は、上流に配置されたスイッチングアセンブリ２０３と同じ機能を有する第２のスイッチングアセンブリ２０５に供給される。上記の通り入力信号を入力され、パススルーモードに設定されていると、第２のスイッチングアセンブリ２０５の出力はダウンミックスチャンネル信号と残差チャンネル信号である。ダウンミックス信号は、時間的に連続したＭＤＣＴスペクトルで表されているが、ダウンミックス信号のＭＤＳＴスペクトルを計算するように構成された実・虚変換２０６に供給される。この実施形態では、１つのＭＤＳＴフレームは３つのＭＤＣＴフレームと、１つの前フレームと、１つの現在（すなわち同時）フレームと、１つの後フレームとに基づく。実・虚変換２０６の入力側が遅延コンポーネントを有することがシンボリックに（Ｚ^－１，Ｚ）示されている。

実・虚変換２０６から得られるダウンミックス信号のＭＤＳＴ表示は、予測係数の虚部α_Ｉにより重み付けされ、予測係数の実部α_Ｒと残差信号のＭＤＣＴ表示により重み付けされたダウンミックス信号のＭＤＣＴ表示に加えられる。２つの加算と乗算は、重み付け加算器２１０、２１１を（機能的に）構成する加算器及び乗算器により行われる。これらには、デコーダシステムにより最初に受け取られたビットストリームにエンコードされていた複素予測係数αの値が供給される。複素予測係数は時間フレームごとに１つ決定される。複素予測係数は、もっと頻繁に決定してもよく、フレーム中の周波数帯域ごとに１つ決定してもよい。周波数帯域は音響心理学的に動機付けされたパーティションである。本発明の符号化システムに関して後で説明するように、複素予測係数は、それほど頻繁に決定しなくてもよい。実・虚変換２０６は、ダウンミックスチャンネル信号の現在のＭＤＳＴフレームがダウンミックスチャンネル信号と残差チャンネル信号のそれぞれの同時ＭＤＣＴフレームと結合されるように、重み付け加算器と同期している。これら３つの信号の和はサイド信号Ｓ＝Ｒｅ｛αＭ｝＋Ｄである。この式で、Ｍはダウンミックス信号のＭＤＣＴ表示とＭＤＳＴ表示を両方とも含み、すなわちＭ＝Ｍ_ＭＤＣＴ－ｉＭ_ＭＤＳＴである。Ｄ＝ＤＭＤＣＴは実数値である。このように、ダウンミックスチャンネルとサイドチャンネルを有するステレオ信号が得られ、和差変換２０７は、このステレオ信号から

により左チャンネルと右チャンネルを回復する。これらの信号はＭＤＣＴ領域で表される。復号システムの最後のステップでは、各チャンネルに逆ＭＤＣＴ２０９を適用して、左右ステレオ信号の時間領域表示を求める。

実・虚変換２０６の可能な実装は、上記の通り、出願人の米国特許第６，９８０，９３３Ｂ２号に詳しく説明されている。上記文献に記載された式４１により、変換は有限インパルス応答フィルタとして表せる。例えば、偶数のポイントに対して、

である。その他の分かりやすいアプローチは米国特許出願公開第２００５／０１９７８３１Ａ１号に載っている。

計算の基礎にする入力データ量をさらに減らすことが可能である。説明のため、図では「Ａ」で示した部分である、実・虚変換２０６とその上流の接続を、単純化した変形例により置き換えてもよい。そのうちの２つ、Ａ′とＡ′′を図１０に示す。変形例Ａ′は信号の虚数表示の近似を与える。ここで、ＭＤＳＴ計算は現在フレーム及び前のフレームのみを考慮する。この段落の上記の式を参照して、ｐ＝０,．．．,Ｎ－１に対してＸ_ＩＩＩ（ｐ）＝０と設定することにより行う（インデックスIIIは後の時間フレームを示す）。変形例Ａ′は後のフレームのＭＤＣＴスペクトルを入力として必要としないので、ＭＤＳＴ計算は時間遅延を生じない。明らかに、この近似により、得られるＭＤＳＴ信号の正確性はいくぶん低下するが、この信号のエネルギーも減少することを示唆する。予測符号化の性質として、後者はα_Ｉを大きくすることにより完全に補償できる。

変形例Ａ′′を図１０に示した。これは、現在の時間フレームのＭＤＣＴデータのみを入力として用いる。変形例Ａ′′により得られるＭＤＳＴ表示は、変形例Ａ′により得られるものより正確性で劣る。他方、変形例Ａ′′は変形例Ａ′のようにゼロ遅延で動作し、計算の複雑性が低い。前述の通り、エンコーダシステムとデコーダシステムで同じ近似を使っている限りでは、波形符号化特性には影響はない。

留意点として、変形例Ａ、Ａ′またはＡ′′、またはこれらをさらに発展させたもののどれを使うかにかかわらず、ＭＤＳＴスペクトルの複素予測係数の虚部がゼロでない、すなわちα_Ｉ≠０である部分のみを計算すればよい。実際的な状況では、これは、係数の虚部の絶対値｜α_Ｉ｜が所定閾値より大きいことを意味すると解することができる。この所定閾値は用いるハードウェアの単位の丸め（unit round-off）に関する。時間フレーム中のすべての周波数帯域の係数の虚部がゼロである場合、そのフレームについてＭＤＳＴデータを計算する必要はない。よって、やはり、実・虚変換２０６は、ＭＤＳＴ出力を生成しないことにより、｜α_Ｉ｜の値が非常に小さい場合に応答するように構成されている。これにより計算資源を節約できる。しかし、現在フレーム以上のフレームを使ってＭＤＳＴデータの１フレームを生成する実施形態では、非ゼロ予測係数に関連する次の時間フレームが生じた時に、実・虚変換２０６に対して十分な入力データがあるように、変換２０６の上流のユニットは、ＭＤＳＴスペクトルが必要なくても動作し続けなければならず、特に、第２スイッチングアセンブリ２０５は、ＭＤＣＴスペクトルを転送し続けなければならない。これはもちろん次の時間ブロックである。

図２に戻り、スイッチングアセンブリ２０３、２０５が両方ともそれぞれパススルーモードに設定されていると仮定して、復号システムの機能を説明した。ここで説明するように、デコーダシステムは予測符号化されたものではない信号も復号できる。この利用のために、第２のスイッチングアセンブリ２０５は、和・差モード（sum-and-difference mode）に設定され、図に示したように、セレクタ装置２０８は下ポジションに設定され、信号が、ＴＮＳフィルタ２０４と第２のスイッチングアセンブリ２０５の間のソースポイントから逆変換２０９に直接入力されるようになっている。正しい復号をするため、信号は適切にソースポイントにおいてＬ／Ｒ形式を有する。それゆえ、実・虚変換に（例えば、左信号により簡潔てきにではなく）常に正しいミッド（すなわち、ダウンミックス）信号を供給するため、非予測符号化ステレオ信号の復号時には、第２のスイッチングアセンブリ２０５を和・差モードに設定することが好ましい。上記の通り、予測符号化は、例えばデータレート対音質決定などに基づいて、従来の直接符号化または複数フレームの同時符号化により置き換えられる。かかる決定の結果は、いろいろな方法で、例えば各フレーム中の専用インジケータビットの値により、または予測係数値の存否により、エンコーダからデコーダに送られる。これら事実を立証すれば、第１のスイッチングアセンブリ２０３の役割は容易に実現できる。事実、非予測符号化モードでは、デコーダシステムは、直接（Ｌ／Ｒ）ステレオ符号化による信号と、同時（Ｍ／Ｓ）符号化による信号を両方とも処理できる。第１のスイッチングアセンブリ２０３をパススルーモードまたは和・差モードのいずれかで動作させることにより、直接符号化された信号とともに常にソースポイントが提供されるようにすることが可能である。明らかに、スイッチングアセンブリ２０３は、和・差段階で機能するとき、Ｍ／Ｓ形式の入力信号をＬ／Ｒ形式の出力信号に変換する（任意的なＴＮＳフィルタ２０４に供給される）。

デコーダシステムは、そのデコーダシステムによりある時間フレームを予測符号化モードで復号するか、非予測符号化モードで復号するかを示す信号を受け取る。非予測モードは、各フレーム中の専用インジケータビットの値により、または予測係数の存否（または値がゼロ）により、シグナリングされる。予測モードは同様にシグナリングすることができる。特に有利な実施形態は、オーバーヘッド無しのフォールバックを可能とするが、２ビットフィールドms_mask_present（ＭＰＥＧ－２ＡＡＣ、ＩＳＯ／ＩＥＣ１３８１８－７文書参照）の予約された第４の値を利用する。これは、時間フレームごとに送信され、次のように規定されており、次のように規定されている：

値１１を「複素予測符号化」を意味すると再定義することにより、デコーダは、ビットレートを損なわずに全レガシーモードで、特にＭ／Ｓ及びＬ／Ｒ符号化モードで、動作でき、関連するフレームの複素予測符号化モードを示す信号を受け取ることができる。

図４は、一般的構成のデコーダシステムを示し、図２に示したものと同様であるが、少なくとも２つの異なる構成を含む。最初に、図４のシステムは、アップミックス段階の上流及び／又は下流に、周波数領域修正を含む処理ステップの適用を可能にするスイッチ４０４、４１１を含む。これは、一方で、逆量子化モジュール４０１と第１のスイッチングアセンブリ４０２の下流にあり、かつアップミックス段階４０６、４０７、４０８、４０９のすぐ上流に配置された第２のスイッチングアセンブリ４０５の上流にある、第１のスイッチ４０４とともに設けられた第１組の周波数領域モディファイア４０３（この図ではＴＮＳ合成フィルタとして描いた）により実現される。他方、デコーダシステムは、アップミックス段階４０６、４０７、４０８、４０９の下流にあり、逆変換段階４１２の上流にある、第２のスイッチ４１１とともに設けられた第２の組の周波数領域モディファイア４１０を含む。有利にも、図に示したように、各周波数領域モディファイアは、上流では周波数領域モディファイアの入力側に接続され、下流では関連スイッチに接続されたパススルーラインと並行して配置されている。この構成により、周波数領域モディファイアには常に信号データが供給され、現在の時間フレームだけでなくより多くの時間フレームに基づいた周波数領域における処理が可能になる。第１の組の周波数領域モディファイア４０３または第２の組の周波数領域モディファイア４１０のどちらを適用するかの決定は、エンコーダによりなされ（ビットストリームで送られ）、又は予測符号化が適用されるかに基づき、又は実際的な状況に適しているその他の基準に基づいてもよい。一例として、周波数領域モディファイアがＴＮＳフィルタである場合、第１の組４０３はある種の信号に対する利用に有利であり、一方第２の組４１０は他の種類の信号に対する利用に有利である。この選択の結果がビットストリームにエンコードされている場合、デコーダシステムはＴＮＳフィルタの各組を適宜アクティブ化する。

図４に示したデコーダシステムの理解を容易にするため、明示的に留意しておくが、直接（Ｌ／Ｒ）符号化信号の復号はα＝０（擬似Ｌ／ＲとＬ／Ｒは同じであり、サイドチャンネルと残差チャンネルが違わないことを示唆する）であり、第１のスイッチングアセンブリ４０２がパスモードであり、第２のスイッチングアセンブリが和・差モードであり、アップミックス段階の第２スイッチングアセンブル４０５と和・差段階４０９の間で信号がＭ／Ｓ形式である時に行われる。この時、アップミックス段階は有効にパスするステップであるから、（各スイッチ４０４、４１１を用いて）第１の組の周波数領域モディファイアまたは第２の組の周波数領域モディファイアがアクティブ化されているかは重要ではない。

図３は、図２と図４のデコーダシステムに関連して、アップミキシングに必要なＭＤＳＴデータの供給への異なるアプローチを表す、本発明の一実施形態によるデコーダシステムを示す。すでに説明したデコーダシステムと同様に、図３のシステムは、逆量子化モジュール３０１、パススルーモード又は和・差モードで動作可能な第１のスイッチングアセンブリ３０２、及びＴＮＳ（合成）フィルタ３０３を有する。これらはすべてデコーダシステムの入力端から直列に配置されている。このポイントの下流にあるモジュールは、２つの第２のスイッチ３０５、３１０により選択的に利用される。これらの第２のスイッチは、図示したように、両方が上ポジションか下ポジションになるよう、同時に動作することが好ましい。デコーダシステムの出力端には、和・差段階３１２があり、そのすぐ上流には、各チャンネルのＭＤＣＴ領域表示を時間領域表示に変換する２つの逆ＭＤＣＴモジュール３０６、３１１がある。

複素予測復号では、デコーダシステムにダウンミックス／残差ステレオ信号と複素予測係数をエンコードしたビットストリームが供給され、第１のスイッチングアセンブリ３０２はパススルーモードに設定され、第２のスイッチ３０５、３１０は上ポジションに設定される。ＴＮＳフィルタの下流では、（逆量子化され、ＴＮＳフィルタされたＭＤＣＴ）ステレオ信号の２つのチャンネルには違う処理がなされる。ダウンミックスチャンネルは、一方では、乗算器及び加算器３０８に供給される。乗算器及び加算器３０８は、予測係数の実部α_Ｒで重み付けされたダウンミックスチャンネルのＭＤＣＴ表示を、残差チャンネルのＭＤＣＴ表示に加算する。他方では、複数のＭＤＣＴ変換モジュールの１つ３０６に供給される。ダウンミックスチャンネルＭの時間領域表示は、逆ＭＤＣＴ変換モジュール３０６からの出力であり、最終和・差段階３１２とＭＤＳＴ変換モジュール３０７の両方に供給される。このようにダウンミックスチャンネルの時間領域表示を二重で使うことは、計算の複雑性の観点から有利である。このように得られたダウンミックスチャンネルのＭＤＳＴ表示は、さらに別の乗算器及び加算器３０９に供給される。この乗算器及び加算器３０９は、予測係数の虚部α_Ｉにより重み付けしてから、この信号を加算器３０８からの線形結合出力に加える。よって、加算器３０９の出力はサイドチャンネル信号Ｓ＝Ｒｅ｛αＭ｝＋Ｄである。同様に、乗算器及び加算器３０８、３０９は、図２に示したデコーダシステムに結合され、ダウンミックス信号のＭＤＣＴ表示とＭＤＳＴ表示、残差信号のＭＤＣＴ表示、及び複素予測係数値を入力とする重み付けマルチ信号加算器を形成する。本実施形態において、このポイントの下流では、サイドチャンネル信号が最終和・差段階３１２に供給される前に、逆ＭＤＣＴ変換モジュール３１１を通る経路のみが残る。

デコーダシステムにおいて必要な同期性は、両方の逆ＭＤＣＴ変換モジュール３０６、３１１において適用する変換長と窓形状を同じにすることにより、実現できる。これは、周波数選択的Ｍ／ＳおよびＬ／Ｒ符号化ですでに実用されている。逆ＭＤＣＴモジュール３０６のある実施形態と、ＭＤＳＴモジュール３０７のある実施形態を組み合わせると、１フレームの遅延が生じる。そのため、５つの任意的な遅延ブロック３１３（またはコンピュータ実施の場合にこの効果を発揮するソフトウェア命令）が設けられ、システムのうち破線の右側にある部分を、必要に応じて、左側にある部分に対して１フレーム遅延できる。明らかに、破線と接続ラインの間のすべての交点には遅延ブロックが設けられているが、逆ＭＤＣＴモジュール３０６とＭＤＳＴ変換モジュール３０７の間の接続は例外であり、ここでは補償を要する遅延が生じる。

１つの時間フレームのＭＤＳＴデータの計算には、時間領域表示の１フレームからのデータが必要である。しかし、逆ＭＤＣＴ変換には、１つのフレーム（現在フレーム）、２つの連続したフレーム（好ましくは、前のフレームと現在フレーム）、又は３つの連続したフレーム（好ましくは、前のフレーム、現在フレーム、及び後のフレーム）に基づく。ＭＤＣＴに関連する周知の時間領域エイリアスキャンセレーション（ＴＤＡＣ）のため、３フレームオプションは入力フレームの完全なオーバーラップを実現し、少なくとも時間領域エイリアスを含むフレームでは、最も（場合によっては完全に）正確である。明らかに、３フレーム逆ＭＤＣＴは１フレーム遅れで動作する。ＭＤＳＴ変換への入力として近似的な時間領域表示の利用を許容することにより、この遅延を回避して、それにより、デコーダシステムの異なる部分間の遅延を補償する必要性を回避できる。２フレームオプションでは、フレームの前半でオーバーラップ／アッド・イネーブリングＴＤＡＣが行われ、エイリアスは後半にのみ存在する。１フレームオプションでは、ＴＤＡＣが無いので、エイリアスはフレーム全体で生じる。しかし、このように実現され複素予測符号化で昼間信号として用いられるＭＤＳＴ表示は、十分なクオリティを提供できる。

図３に示した復号システムは、２つの非予測復号モードでも動作できる。直接Ｌ／Ｒ符号化ステレオ信号を復号するため、第２のスイッチ３０５、３１０は下ポジションに設定され、第１のスイッチングアセンブリ３０２はパススルーモードに設定される。このように、この信号は、和・差段階３０４の上流では、Ｌ／Ｒ形式である。和・差段階３０４はこれをＭ／Ｓ形式に変換する。このＭ／Ｓ形式に逆ＭＤＣＴ変換と最終和・差演算が行われる。同時Ｍ／Ｓ符号化形式で提供されたステレオ信号を復号するため、第１のスイッチングアセンブリ３０２は和・差モードに設定され、第１のスイッチングアセンブリ３０２と和・差段階３０４の間で信号がＬ／Ｒ形式となるようにする。Ｌ／Ｒ形式は、ＴＮＳフィルタリングの観点から、Ｍ／Ｓ形式よりも適している。和・差段階３０４の下流における処理は、直接Ｌ／Ｒ復号の場合と同じである。

図１４（１４Ａないし１４Ｃ）は、本発明の実施形態によるデコーダを示す３つのブロック図である。本願に添付した他のブロック図とは異なり、図１４の接続線はマルチチャンネル信号を示す。具体的に、かかる接続線は、左／右、ミッド／サイド、ダウンミックス／残差、擬似左／擬似右のチャンネルその他の組み合わせを有するステレオ信号を送信するように構成されている。

図１４Ａは、入力信号の周波数領域表示（この図の目的において、ＭＤＣＴ表示として示した）を復号するデコーダシステムを示す。デコーダシステムは、その出力として、ステレオ信号の時間領域表示を供給するように構成される。この表示は入力信号に基づき生成される。複素予測ステレオ符号化により符号化された入力信号を復号できるようにするため、デコーダシステムにはアップミックス段階１４１０が設けられている。しかし、他のフォーマットで符号化され、場合によっては時間の経過と共に複数の符号化フォーマット間で切り替わる入力信号を、例えば複素予測符号化により符号化された時間フレームのシーケンスに直接左／右符号化により符号化された時間部分が続く入力信号を、処理することも可能である。異なる符号化フォーマットを処理するデコーダシステムの機能は、前記アップミックス段階１４１０と並列に接続ライン（パススルー）を設けることにより実現される。スイッチ１４１１により、アップミックス段階１４１０からの出力（図の下スイッチポジション）と、接続ラインにより得られる処理されていない信号（図の上スイッチポジション）とのどちらを、さらに下流に配置されたデコーダモジュールに供給するか選択できる。この実施形態では、逆ＭＤＣＴモジュール１４１２はスイッチの下流に配置されている。ＭＤＣＴモジュール１４１２は、信号のＭＤＣＴ表示を時間領域表示に変換する。一例として、アップミックス段階１４１０に供給される信号は、ダウンミックス／残差形式のステレオ信号であってもよい。次に、サイド信号を求め、（ＭＤＣＴ領域で）左／右ステレオ信号を出力するように和・差演算を行うため、アップミックス段階１４１０が適用される。

図１４Ｂは、図１４Ａに示したものと同様のデコーダシステムを示す。本システムは入力信号としてビットストリームを受け取るように構成されている。ビットストリームは、最初、結合されたデマルチプレクサ及び逆量子化モジュール１４２０により処理される。この結合されたデマルチプレクサ及び逆量子化モジュール１４２０は、図１４Ａに示したスイッチ１４１１と同様の機能を果たすスイッチ１４２２のポジションにより決まるように、第１の出力信号として、さらなる処理のため、マルチチャンネルステレオ信号のＭＤＣＴ表示を提供する。より正確には、スイッチ１４２２は、デマルチプレクサ及び逆量子化からの第１の出力を、アップミックス段階１４２１と逆ＭＤＣＴモジュール１４２３により処理するか（下ポジション）、逆ＭＤＣＴモジュール１４２３のみにより処理するか（上ポジション）決定する。結合されたデマルチプレクサ及び逆量子化モジュール１４２０は制御情報も出力する。このケースでは、ステレオ信号に関連する制御情報は、スイッチ１４２２の上ポジション又は下ポジションが信号の復号に適しているか、より抽象的には、そのステレオ信号をどの符号化フォーマットに復号するか示すデータを含む。制御情報は、例えば、すでに説明したように、複素予測符号化で用いる複素予測係数αの値などの、アップミックス段階の特性を調節するパラメータも含む。

図１４Ｃは、図１４Ｂに示したものと同様のエンティティに加えて、アップミックス段階１４３３の上流と下流にそれぞれ配置された第１と第２の周波数領域修正デバイス１４３１、１４３５を有する。この図面の目的において、各周波数領域修正デバイスはＴＮＳフィルタにより例示されている。しかし、周波数領域修正デバイスとの用語は、ＴＮＳフィルタリング以外の、アップミックス段階の前後で適用できるプロセスであると理解することもできる。周波数領域修正の例には、予測、ノイズ付加、帯域幅拡張、非線形処理が含まれる。場合によっては、処理する信号の特性及び／又はかかる周波数領域修正デバイスの設定を含む、音響心理学的考察及び類似の理由から、前記周波数領域修正を、アップミックス段階１４３３の下流ではなく、その上流で適用する方が有利である。他の場合には、同様の考察から、周波数領域修正の下流での位置は、上流の方が好ましい。スイッチ１４３２、１４３６により、周波数領域修正デバイス１４３１，１４３５は、制御情報に応じて、デコーダシステムが所望の構成を選択できるように、選択的にアクティブ化される。一例として、図１４Ｃは、結合されたデマルチプレクサ及び逆量子化モジュール１４３０からのステレオ信号が、第２の周波数領域調整デバイス１４３５を通らずに、最初に第１の周波数領域修正デバイス１４３１により処理され、次にアップミックス段階１４３３に供給され、最後に逆ＭＤＣＴモジュール１４３７に直接転送される構成を示す。発明の概要欄に説明したように、この構成は、複素予測符号化におけるアップミックス後にＴＮＳを行うオプションより好ましい。

ＩＩ．エンコーダシステム
本発明によるエンコーダシステムを、図５を参照して説明する。図５は、複素予測符号化により、出力ビットストリームとして、左／右（Ｌ／Ｒ）ステレオ信号を符号化するエンコーダシステムを示すブロック図である。このエンコーダシステムは、信号の時間領域または周波数領域の表示を受け取り、これをダウンミックス段階と予測係数推定器の両方に供給する。予測係数の実部と虚部は、左右チャンネルのダウンミックス及び残差チャンネルへの変換を制御するために、ダウンミックス段階に供給される。次に、ダウンミックス及び残差チャンネルは、最終的マルチプレクサＭＵＸに供給される。信号は、周波数領域表示としてエンコーダに供給されなかった場合、ダウンミックス段階またはマルチプレクサで、かかる表示に変換される。

予測符号化の原理の１つは、左／右信号をミッド／サイド形式に変換することであり、すなわち

次にこれらのチャンネル間に残っている相関を用いる、すなわち

と設定する。ここで、αは決定する複素予測係数であり、Ｄは残差信号である。残差信号のエネルギーＤ＝Ｓ－Ｒｅ｛αＭ｝を最小化するためにαを選択できる。エネルギーの最小化は、瞬間パワー、短期的エネルギー、又は長期的エネルギー（パワー平均）によりもたらされる。これは、離散信号の場合には、平均二乗の意味で最適化される。

予測係数の実部とα_Ｒと虚部α_Ｉは量子化され、及び／または同時符号化（coded jointly）される。しかし、好ましくは、実部と虚部は独立かつ均一に、一般的にはステップサイズ０．１（無次元数）で、量子化される。ＭＰＥＧ標準によると、複素予測係数に用いる周波数帯域の解像度は、スケールファクタ帯域（ｓｆｂ、すなわち同じＭＤＣＴ量子化ステップサイズと量子化範囲を用いる一群のＭＤＣＴライン）の解像度と同じである必要はない。特に、予測係数の周波数帯域解像度は、バークスケール（Bark scale）のように音響心理学的に妥当なものである。留意点として、変換長が変わると、周波数帯域の解像度が変化する。

前述の通り、本発明によるエンコーダシステムは、予測ステレオ符号化を適用するか否かの自由度を有する。後者の場合は、Ｌ／Ｒ又はＭ／Ｓ符号化へのフォールバックを示唆する。かかる決定は、時間フレームまたはそれより細かいベースで、または時間フレーム内の周波数帯域ベースで行える。上記の通り、その決定の否定的な結果は、いろいろな方法で、例えば各フレーム中の専用インジケータビットの値により、または予測係数値の存否（またはゼロ値）により、復号エンティティに送られる。肯定的決定も同様に送られる。特に有利な実施形態は、オーバーヘッド無しのフォールバックを可能とするが、２ビットフィールドms_mask_present（ＭＰＥＧ－２ＡＡＣ、ＩＳＯ／ＩＥＣ１３１８１８－７文書参照）の予約された第４の値を利用する。これは、時間フレームごとに送信され、次のように規定されており、次のように規定されている：

値１１を「複素予測符号化」を意味すると再定義することにより、エンコーダは、ビットレートを損なわずに全レガシーモードで、特にＭ／Ｓ及びＬ／Ｒ符号化モードで、動作でき、有利であれば、フレームの信号複素予測符号化を示す信号を受け取ることができる。

実質的な決定は、データレート対音質原理に基づいてもよい。（入手可能なＭＤＣＴベースのオーディオエンコーダの場合にはよくあることだが、）音質の尺度として、エンコーダに含まれる音響心理学的モデルを用いて得られたデータを使っても良い。具体的に、エンコーダの実施形態には、予測係数のレート歪み最適化選択をするものもある。したがって、かかる実施形態では、予測ゲインの増加により残差信号の符号化のために十分なビットを節約せず、予測係数の符号化に必要なビットの使用を正当化できない場合、予測係数の虚部は、及び場合によっては実部も、ゼロに設定される。

エンコーダの実施形態は、ＴＮＳ関連の情報をビットストリームにエンコードする。かかる情報は、デコーダサイドでＴＮＳ(合成）フィルタにより使われるＴＮＳパラメータの値を含む。両方のチャンネルで同じＴＮＳパラメータの組を使う場合、２つの組のパラメータを別々に送信するよりも、パラメータが同じ事を示すシグナリングビットを含めると経済的である。例えば、２つのオプションの音響心理学的評価に基づき、ＴＮＳをアップミックス段階の前または後に適用するかの情報も含まれうる。

さらに他の任意的な一特徴として、これは複雑性とビットレートの観点から潜在的に有益なものであるが、エンコーダは残差信号の符号化のために、個別に制限された帯域幅を使うように構成される。この限界より上の周波数帯域はデコーダに送信されず、ゼロに設定される。場合によっては、最も高い周波数帯域のエネルギーコンテンツは小さいので、量子化されたときにすでにゼロになっている。通常のプラクティス（ＭＰＥＧ標準のmax_sfbパラメータを参照）では、ダウンミックス信号と残差信号の両方に、同じ帯域幅制限の使用を必要とする。ここで、発明者は経験的に、残差信号が、ダウンミックス信号よりも大幅に、低周波数帯域に局限されたエネルギーコンテンツを有することを見いだした。そのため、残差信号に専用の帯域幅上限を課すことにより、音質を大幅に損なわずに、ビットレートの削減が可能である。例えば、これは、ダウンミックス信号用と残差信号用の２つの独立なmax_sfbパラメータにより送信することにより実現される。

指摘しておくが、図５に示したデコーダシステムを参照して予測係数、量子化とその符号化、Ｍ／Ｓ又はＬ／Ｒモードへのフォールバック、ＴＮＳフィルタリング、及び帯域幅上限などの最適な決定の問題を説明したが、同じ事が、後続の図面を参照して説明する実施形態において開示する実施形態にも等しく適用可能である。

図６は、複素予測ステレオ符号化を行うように構成された、本発明による他のエンコーダシステムを示す。このシステムは、連続した、場合によってはオーバーラップした時間フレームに分割され、左右チャンネルを含むステレオ信号の時間領域表示を入力として受け取る。和・差段階６０１は、この信号をミッドチャンネルとサイドチャンネルに変換する。ミッドチャンネルはＭＤＣＴモジュール６０２とＭＤＳＴモジュール６０３の両方に供給され、サイドチャンネルはＭＤＣＴモジュール６０４のみに供給される。予測係数水滴６０５は、上記の通り、各時間フレームに対して、及び場合によってはフレーム内の個々の周波数帯域に対して、複素予測係数の値を推定する。係数の値αは、重み付け加算器６０６、６０７に重みとして供給される。重み付け加算器６０６，６０７は、ミッド信号のＭＤＣＴ及びＭＤＳＴ表示と、サイド信号のＭＤＣＴ表示の線形結合として、残差信号Ｄを構成する。好ましくは、複素予測係数は、それがビットストリームにエンコードされる時に用いられる同じ量子化スキームにより表された重み付け加算器６０６、６０７に供給される。これは、エンコーダとデコーダが両方とも同じ予測係数の値を用いるので、明らかに、より忠実な再構成を提供する。残差信号、ミッド信号（残差信号と組み合わせて現れる時にはダウンミックス信号と呼んだ方がより適切である）、及び予測係数は結合された量子化及びマルチプレクサ段階６０８に供給される。結合された量子化及びマルチプレクサ段階６０８は、これらの信号及び場合によってはさらに別の情報を出力ビットストリームとしてエンコードする。

図７は、図６に示したエンコーダの変形例である。図の記号が同様なことから分かるように、図７に示したエンコーダの構成は同様であるが、直接Ｌ／Ｒ符号化フォールバックモードで動作するという機能が付加されている。エンコーダシステムは、結合された量子化及びマルチプレクサ段階７０９のすぐ上流に設けられたスイッチ７１０により、複素予測符号化モードとフォールバックモードとの間でアクティブ化される。スイッチ７１０が上ポジションにあると、エンコーダはフォールバックモードで動作する。ミッド・サイド信号は、ＭＤＣＴモジュール７０２，７０４のすぐ下流のポイントから、和・差段階７０５に供給される。和・差段階７０５は、その信号を左／右信号に変換した後、スイッチ７１０に送る。スイッチ７１０は、その信号を結合された量子化及びマルチプレクサ段階７０９に接続する。

図８は、本発明によるエンコーダシステムを示す図である。図６と図７に示したエンコーダシステムと異なり、この実施形態は、複素予測符号化に必要なＭＤＳＴデータをＭＤＣＴデータから直接的に、すなわち周波数領域における実・虚変換により求める。実・虚変換は、図２と図４のデコーダシステムに関して説明したいずれかのアプローチを適用する。忠実な復号を行えるように、デコーダの計算方法をエンコーダの計算方法と一致させることが重要である。エンコーダ側とデコーダ側とで同じ実・虚変換方法を用いる。デコーダの実施形態について、破線で囲んだ、実・虚変換８０４を有する部分Ａは、これに近い変形例や、使う入力時間フレームを少なくすることにより置き換えできる。同様に、上記のいずれかの近似アプローチを用いて符号化を単純化できる。

高レベルでは、図８のエンコーダシステムは、（適切に接続された）実・虚モジュールにより、図７のＭＤＳＴモジュールを単に置き換えることにより得られるだろう構成とは異なる構成を有する。このアーキテクチャはきれいであり、ロバストかつ計算量的に経済的に、予測符号化と直接Ｌ／Ｒ符号化との間の切り替え機能を実現できる。入力ステレオ信号はＭＤＣＴ変換モジュール８０１に入力され、ＭＤＣＴ変換モジュール８０１は各チャンネルの周波数領域表示を出力する。これは、エンコーダシステムを予測符号化モードと直接符号化モードの間で起動するファイナルスイッチ８０８と、和・差段階８０２との両方に送られる。直接Ｌ／Ｒ符号化、または予測係数αがゼロに設定された時間フレームで行われる同時Ｍ／Ｓ符号化において、この実施形態は、入力信号をＭＤＣＴ変換、量子化、及び多重化のみする。後から２つのステップは、システムの出力端に配置された結合された量子化及びマルチプレクサ段階８０７により行われ、ビットストリームが供給される。予測符号化では、各チャンネルは、和・差段階８０２とスイッチ８０８との間でさらに処理される。実・虚変換８０４は、ミッド信号のＭＤＣＴ表示からＭＤＳＴデータを求め、それを予測係数推定器８０３と重み付け加算器８０６の両方に送る。図６と図７に示したエンコーダシステムと同様に、別の重み付け加算器８０５を用いて、サイド信号をミッド信号の重み付けＭＤＣＴとＭＤＳＴ表示と結合し、残差チャンネル信号を構成する。残差チャンネル信号は、結合された量子化及びマルチプレクサ段階８０７により、ミッド（すなわち、ダウンミックス）チャンネル信号と予測係数とともにエンコードされる。

ここで図９を参照して、エンコーダシステムの各実施形態は１つまたはそれ以上のＴＮＳ（分析）フィルタと結合できることを説明する。前述の通り、ＴＮＳフィルタリングをダウンミックス形式の信号に適用することは有利であることが多い。よって、図９に示したように、図７のエンコーダシステムをＴＮＳを含むように適応させることは、結合された量子化及びマルチプレクサ段階９０９のすぐ上流にＴＮＳフィルタ９１１を加えることにより行われる。

右／残差ＴＮＳフィルタ９１１ｂの替わりに、右チャンネルまたは残差チャンネルを処理するように構成された２つのＴＮＳフィルタ（図示せず）をスイッチ９１０の部分のすぐ上流に設けてもよい。このように、２つのＴＮＳフィルタのそれぞれには、常に各チャンネル信号が供給され、現在フレームだけより多い時間フレームに基づくＴＮＳフィルタリングが可能である。前述の通り、ＴＮＳフィルタは、周波数領域修正デバイスの一例であり、特に現在時間フレームより多いフレームの処理に基づくデバイスである。これは、ＴＮＳフィルタと同じくらいまたはそれ以上に、かかる配置から利益を得る。

図９に示した実施形態の他の一代替として、選択的アクティブ化のためのＴＮＳフィルタを、各チャンネルに対して１つ以上のポイントで構成できる。これは、スイッチにより異なる組のＴＮＳフィルタを接続できる、図４に示したデコーダシステムの構成と同様である。これにより、各時間フレームに対して、ＴＮＳフィルタリングのために最も適した段階を選択できる。特に、複素予測ステレオ符号化モードとその他の符号化モードとの間の切り替えに関して、異なるＴＮＳロケーションの間でスイッチすることは、有利である。

図１１は、図８のエンコーダシステムに基づく変形例であって、ダウンミックス信号の第２の周波数領域表示を実・虚変換１１０５により求めるものを示す。図４に示したデコーダシステムと同様に、このエンコーダシステムも、選択的にアクティブ化可能な周波数領域モディファイアモジュールを含み、そのうちの１つ１１０２はダウンミックス段階の上流に設けられ、１つ１１０９はその下流に設けられている。周波数領域モジュール１１０２、１１０９は、この図ではＴＮＳフィルタにより例示したが、４つのスイッチ１１０３ａ，１１０３ｂ，１１０９ａ及び１１０９ｂを用いて各信号経路に接続できる。

ＩＩＩ．非装置実施形態
本発明の第３と第４の態様の実施形態を図１５と１６に示す。図１５は、ビットストリームをステレオ信号に復号する方法を示し、次のステップを有する：
１．ビットストリームを入力する。
２．ビットストリームを逆量子化し、それによりステレオ信号のダウンミックスチャンネルと残差チャンネルの第１の周波数領域表示を求める。
３．ダウンミックスチャンネルの第２の周波数領域表示を計算する。
４．チャンネルの３つの周波数領域表示に基づき、サイドチャンネル信号を計算する。
５．ステレオ信号を、好ましくは左／右形式のものを、サイドチャンネルとダウンミックスチャンネルに基づき計算する。
６．こうして求めたステレオ信号を出力する。
ステップ３乃至ステップ５は、アップミキシングのプロセスと考えてもよい。ステップ１から６はそれぞれ、本書類の前出の部分で開示したいずれかのデコーダシステムの対応する機能と同様であり、実装に関する詳細事項は同部分から読み取ることができる。

図１６は、ステレオ信号をビットストリーム信号にエンコードする方法を示し、次のステップを有する：
１．ステレオ信号を入力する。
２．ステレオ信号を第１周波数領域表示に変換する。
３．複素予測係数を決定する。
４．周波数領域表示をダウンミックスする。
５．ダウンミックスチャンネルと残差チャンネルを、複素予測係数とともにビットストリームとしてエンコードする。
６．ビットストリームを出力する。
ステップ１から５はそれぞれ、本書類の前出の部分で開示したいずれかのエンコーダシステムの対応する機能と同様であり、実装に関する詳細事項は同部分から読み取ることができる。

両方法は、ソフトウェアプログラムの形式のコンピュータ読み取り可能命令として表現でき、コンピュータで実行できる。本発明の保護の範囲は、かかるソフトウェアと、かかるソフトウェアを配布するためのコンピュータプログラム製品とに及ぶ。

ＩＶ．実験的評価
ここに開示した実施形態を実験的に評価した。このプロセスで得られた実験的資料の最も重要な部分を以下にまとめる。

実験に用いた実施形態は次の特徴を有する：
（ｉ）（時間フレームの）各ＭＤＳＴスペクトルを、現在の、前の、及び次のＭＤＣＴスペクトルから２次元有限インパルス応答フィルタリングにより計算した。
（ｉｉ）ＵＳＡＣステレオエンコーダからの音響心理学的モデルを用いた。
（ｉｉｉ）ＰＳパラメータＩＣＣ、ＣＬＤ及びＩＰＤの代わりに、複素予測係数αの実部と虚部が送信を送信した。実部と虚部は、別々に処理され、［－３．０，３．０］の範囲に制限され、０．１のステップサイズを用いて量子化される。時間微分符号化し、最終的にＵＳＡＣのスケールファクタコードブックを用いてハフマン符号化する。予測係数は１スケールファクタ帯域おきに更新され、周波数解像度がＭＰＥＧサラウンド（例えば、ＩＳＯ／ＩＥＣ２３００３－１参照）と同様になった。この量子化および符号化スキームにより、目標ビットレートが９６ｋｂ／ｓの一般的な構成において、ステレオサイド情報の平均ビットレートが約２ｋｂ／ｓになった。
（ｉｖ）２ビットのms_mask_presentビットストリーム要素の取り得る値は３つしかないので、現在のＵＳＡＣビットストリームを壊すことなく、ビットストリームフォーマットを修正した。複素予測を示す第４の値を用いることにより、ビットを無駄にせずに、基本的なミッド／サイド符号化のフォールバックモードを許した（これについては、本開示の前のサブセクションを参照されたい）。

ヘッドホンで再生し、サンプリングレートが４８ｋＨｚの８テストアイテムを用いたＭＵＳＨＲＡ法によりリスニングテストを行った。各テストには３人、５人または６人の被験者が参加した。

ＭＤＳＴ近似が異なることによるインパクトを評価して、これらのオプションの間にある実際的な複雑さ対音質のトレードオフを示した。結果を図１２と図１３に示した。前者は得られた絶対スコアを示し、後者は９６ｓＵＳＡＣｃｐｌｆに対する、すなわちＭＤＳＴの近似値を計算するために現在のＭＤＣＴフレームを用いた複素予測によるＭＤＣＴ領域統一ステレオ符号化に対する差分スコアを示す。ＭＤＣＴベース統一ステレオ符号化により実現される音質ゲインは、ＭＤＳＴスペクトルを計算するのに計算的により複雑なアプローチを用いると、増加することが分かる。テスト全体の平均を考えると、単一フレームベースシステム９６ｓＵＳＡＣｃｐｌｆにより、従来のステレオ符号化に対して、符号化効率が大幅に上昇する。同様に、９６ｓＵＳＡＣｃｐ３ｆの場合、すなわち、ＭＤＳＴを計算するために、現在の、前の、及び次のＭＤＣＴフレームを用いる複素予測によるＭＤＣＴ領域統一ステレオ符号化の場合、さらによい結果が得られる。

V．実施形態
さらに、本発明は、次のように実施できる。

複素予測ステレオ符号化によりビットストリーム信号を復号してステレオ信号にするデコーダシステムであって：
前記ビットストリームに基づきダウンミックス信号（Ｍ）と残差信号（Ｄ）の第１の周波数領域表示を提供する逆量子化段階（２０２，４０１）であって、各周波数領域表示は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有し、前記第１のスペクトル成分は変換係数の時間フレームに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成される、逆量子化段階；および
前記逆量子化段階の下流に配置された、前記ダウンミックス信号と前記残差信号に基づき前記ステレオ信号を生成するように構成され：
前記ダウンミックス信号の前記第１の周波数領域表示に基づいて前記ダウンミックス信号の第２の周波数領域表示を計算するモジュール（２０６；４０８）であって、前記第２の周波数領域表示は前記第１の副空間には含まれない前記多次元空間の一部を含む前記多次元空間の第２の副空間で表現された前記信号のスペクトルコンテンツを表す第２のスペクトル成分を有し、前記モジュールは、前記第１のスペクトル成分から第１の中間成分を求め；インパルス応答の少なくとも一部により前記第１のスペクトル成分の結合を構成して第２の中間成分を求め；および前記第２の中間成分から前記第２のスペクトル成分を求めるように構成された、モジュール；
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第１と第２の周波数領域表示と、前記残差信号の第１の周波数領域表示と、複素予測係数（α）とに基づいてサイド信号を計算する重み付け加算器（２１０，２１１；４０６，４０７）；および
前記ダウンミックス信号と前記サイド信号の第１の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階（２０７；４０９）、を有するアップミックス段階（２０６，２０７，２１０，２１１，４０６，４０７，４０８，４０９）を有する。

さらに、本発明は、次のように実施できる。すなわち、複素予測ステレオ符号化によりビットストリーム信号を復号してステレオ信号にするデコーダシステムであって：
前記ビットストリーム信号に基づきダウンミックス信号（Ｍ）と残差信号（Ｄ）の第１の周波数領域表示を提供する逆量子化段階（３０１）であって、前記第１の周波数領域表示の各々は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有する、逆量子化段階；及び
前記逆量子化段階の下流に配置された、前記ダウンミックス信号と前記残差信号に基づき前記ステレオ信号を生成するように構成され：
前記ダウンミックス信号の第１の周波数領域表示に基づき、前記ダウンミックス信号の第２の周波数領域表示を計算するモジュール（３０６，３０７）であって、前記第２の周波数領域表示は第１の副空間に含まれない前記多次元空間の部分を含む前記多次元空間の第２の副空間で表された前記信号のスペクトルコンテンツを有し、前記多次元空間の第１の副空間の前記ダウンミックス信号の第１の周波数領域表示に基づき、前記ダウンミックス信号の時間領域表示を計算する逆変換段階（３０６）；及び前記信号の時間領域表示に基づき前記ダウンミックス信号の第２の周波数領域表示を計算する変換段階（３０７）を有する、モジュール；
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第１と第２の周波数領域表示と、前記残差信号の第１の周波数領域表示と、複素予測係数（α）とに基づいてサイド信号を計算する重み付け加算器（３０８，３０９）；および
前記ダウンミックス信号と前記サイド信号の第１の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階（３１２）、を有するアップミックス段階（３０６，３０７，３０８，３０９，３１２）を有する。

また、本発明は、次のように実施できる。独立のデコーダシステムの請求項に記載した特徴を有するデコーダシステムであって、ダウンミックス信号の第２の周波数領域表示を計算するモジュールは：
前記多次元空間の第１の副空間における各信号の第１の周波数領域表示に基づき、前記ダウンミックス信号及び／又は彩度信号の時間領域の表示を計算する逆変換段階（３０６）；及び
前記信号の時間領域表示に基づき各信号の第２の周波数領域表示を計算する変換段階（３０７）を有し、
好ましくは、前記逆変換段階（３０６）は逆修正離散余弦変換を行い、前記変換段階は修正離散余弦変換を行う。

上記のデコーダシステムにおいて、ステレオ信号は時間領域で表されてもよく、デコーダシステムはさらに次のものを有してもよい：
（ａ）同時ステレオ符号化に用いるパススルー段階；又は（ｂ）直接ステレオ符号化に用いる和・差段階のいずれかとして機能できる、前記逆量子化段階と前記アップミックス段階の間に配置されたスイッチングアセンブリ（３０２）；
前記サイド信号の時間領域表示を計算する、前記アップミックス段階に配置されたさらなる逆変換段階（３１１）；
（ａ）前記スイッチングアセンブリ（３０２）の下流かつ前記アップミックス段階の上流のポイントに接続されたさらなる和・差段階（３０４）；または（ｂ）前記スイッチングアセンブリ（３０２）から得られるダウンミックス信号と前記重み付け加算器（３０８，３０９）から得られるサイド信号のいずれかに選択的に接続されるように構成された、前記逆変換段階（３０６，３０１）の上流に配置されたセレクタ装置（３０５，３１０）。

VI．結語
本発明のさらなる実施形態は、上記の説明を読めば、当業者には明らかになるだろう。本明細書と図面は実施形態と実施例を開示しているが、本発明はこれらの具体的な例に制約されない。添付した特許請求の範囲で規定した本発明の範囲から逸脱することなく、多数の修正や変形をすることができる。

留意点として、この出願で開示した方法と装置は、通常の実験を含む当業者の能力の範囲内で適当な修正をして、２より多いチャンネルを有する信号の符号化に適用できる。強調しておくが、説明した実施形態に関連して述べた信号、パラメータ、及び行列は、周波数可変または周波数不変及び／又は時間可変または時間不変であってもよい。説明した計算ステップは、周波数ごとに、または一度にすべての周波数に対して行え、すべてのエンティティは周波数選択的動作を有するように実施できる。出願の目的において、任意の量子化スキームを音響心理学モデルにより適応できる。さらに、留意点として、様々な和・差変換、すなわちダウンミックス／残差形式から擬似Ｌ／Ｒ形式への変換及びＬ／Ｒ-to-Ｍ／Ｓ変換及びＭ／Ｓ-to-Ｌ／Ｒ変換はすべて次の形式

であり、単にゲインファクタｇのみが変化する。よって、ゲインファクタを個別に調整することにより、復号ゲインを適切に選択することにより、符号化ゲインを補正することができる。さらに、当業者には明らかなように、偶数個の直列に配置された差・差変換は、パススルー段階に影響を及ぼし、場合によってゲインは１ではない。

ここに開示したシステムと方法は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせとして実施できる。一部または全部のコンポーネントは、デジタルシグナルプロセッサやマイクロプロセッサにより実行されるソフトウェアとして実施でき、またはハードウェアまたは特定目的集積回路として実施できる。かかるソフトウェアは、コンピュータ読み取り可能媒体で配布可能である。コンピュータ読み取り可能媒体は、コンピュータ記憶媒体と通信媒体を含む。当業者には周知だが、コンピュータ記憶媒体には、コンピュータ読み取り可能命令、データ構造、プログラムモジュールその他のデータなどの情報を記憶するための任意の方法や技術で実施された、揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリその他のメモリ技術、ＣＤ－ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）その他の光ディスク記憶媒体、磁気カセット、磁気テープ、磁気ディスク記憶その他の磁気記憶デバイス、またはその他の、所望の情報の記憶に使える任意の媒体を含むが、これらに限定されない。さらに、当業者には知られているように、通信媒体は、一般的に、コンピュータ読み取り可能命令、データ構造、プログラムモジュール、その他の搬送波その他の伝送メカニズムなどの変調データ信号中のデータを化体し、任意の情報配信媒体を含む。
なお、次の付記を記す。
（付記１）複素予測ステレオ符号化によりステレオ信号を提供するデコーダシステムであって、
ダウンミックス信号と残差信号の第１の周波数領域表示に基づいて、前記ステレオ信号を生成するように構成されたアップミックス段階であって、各第１の周波数領域表示は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有するアップミックス段階を有し、前記アップミックス段階は、
前記ダウンミックス信号の第１の周波数領域表示に基づき、前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールであって、前記第２の周波数領域表示は、前記第１の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第２の副空間で表された信号のスペクトルコンテンツを表す第２のスペクトル成分を有する、モジュールと、
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第１と第２の周波数領域表示と、前記残差信号の第１の周波数領域表示と、複素予測係数とに基づいてサイド信号を計算する重み付け加算器と、
前記ダウンミックス信号と前記サイド信号の第１の周波数領域表示に基づいて、前記ステレオ信号を計算する和・差段階を有するアップミックス段階とを有し、
前記アップミックス段階は、さらに、前記ダウンミックス信号と残差信号が前記和・差段階に直接供給されるパススルーモードで動作可能である、デコーダシステム。
（付記２）前記ダウンミックス信号と残差信号は時間フレームにセグメント化され、前記アップミックス段階は、各時間フレームについて、そのフレームに関連する２ビットデータフィールドを受け取り、前記データフィールドの値に応じて、アクティブモードまたはパススルーモードで動作するように構成された、
付記１に記載のデコーダシステム。
（付記３）前記ダウンミックス信号と残差信号は時間フレームにセグメント化され、
前記アップミックス段階は、さらに、ＭＰＥＧビットストリームにおいて、各時間フレームについて、そのフレームに関連するms_mask_presentフィールドを受け取り、前記ms_mask_presentフィールドの値に応じて、アクティブモードまたはパススルーモードで動作するように構成された、
付記１に記載のデコーダシステム。
（付記４）ビットストリーム信号に基づいて、前記ダウンミックス信号と残差信号の前記第１の周波数領域表示を提供する、前記アップミックス段階の上流に配置された逆量子化段階をさらに有する、
付記１ないし３いずれか一項に記載のデコーディングシステム。
（付記５）前記第１のスペクトル成分は前記第１の副空間で表された実数値を有し、
前記第２のスペクトル成分は前記第２の副空間で表された虚数値を有し、
任意的に、前記第１のスペクトル成分は、離散余弦変換ＤＣＴ又は修正離散余弦変換ＭＤＣＴのうち一方により求められ、
任意的に、前記第２のスペクトル成分は、離散正弦変換ＤＳＴ又は修正離散正弦変換ＭＤＳＴのうち一方により求められる、
付記１ないし４いずれか一項に記載のデコーダシステム。
（付記６）前記アップミックス段階の上流に配置された少なくとも１つの時間的ノイズシェーピングＴＮＳモジュールと、
前記アップミックス段階の下流に配置された少なくとも１つのさらなるＴＮＳモジュールと、
（ａ）前記アップミックス段階の上流の前記ＴＮＳモジュール、または（ｂ）前記アップミックス段階の下流にある前記さらなるＴＮＳモジュールのうちいずれかを選択的にアクティブ化するセレクタ装置とを有する
付記１ないし５いずれか一項に記載のデコーダシステム。
（付記７）前記ダウンミックス信号は連続した時間フレームにパーティションされ、各時間フレームは複素予測係数の値に関連し、
前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、前記複素予測係数の虚部の絶対値が時間フレームの所定の許容値より小さいことに応じて、自身を非アクティブ化して、その時間フレームに対して出力を生成しないようにするように構成された、
付記５に記載のデコーダシステム。
（付記８）前記ダウンミックス信号時間フレームはさらに周波数帯域にパーティションされ、各周波数帯域には前記複素予測係数の値が伴い、
前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、前記複素予測係数の虚部の絶対値が時間フレームの周波数帯域の所定の許容値より小さいことに応じて、自身を非アクティブ化して、その周波数帯域に対して出力を生成しないようにするように構成された、
付記７に記載のデコーダシステム。
（付記９）前記第１のスペクトル成分は変換係数の時間フレームに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成され、
前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、前記第１のスペクトル成分から第１の中間成分を求め、インパルス応答の少なくとも一部により前記第１のスペクトル成分の結合を構成して第２の中間成分を求め、前記第２の中間成分から第２のスペクトル成分を求める、
付記１ないし８いずれか一項に記載のデコーダシステム。
（付記１０）インパルス応答の一部は、前記変換の周波数応答特性に基づき、
任意的に、前記変換の周波数応答特性は、前記信号の時間セグメントへの変換に適用された分析窓関数の特性に応じる、
付記９に記載のデコーダシステム。
（付記１１）前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、
（ａ）第１のスペクトル成分の同時時間フレーム、
（ｂ）第１のスペクトル成分の同時および前の時間フレーム、及び
（ｃ）第１のスペクトル成分の同時、前の、及び後の時間フレームのうちの１つに基づいて、第２のスペクトル成分の各時間フレームを求めるように構成された、
付記９または１０に記載のデコーダシステム。
（付記１２）前記ダウンミックス信号の第２の周波数領域表示を計算するモジュールは、少なくとも２つの時間的に隣接した、及び／又は周波数的に隣接した第１のスペクトル成分の組み合わせにより決定された近似的な第２のスペクトル成分を有する近似的第２のスペクトル表示を計算するように構成されている、
付記１ないし１１いずれか一項に記載のデコーダシステム。
（付記１３）前記ステレオ信号は時間領域で表され、デコーダシステムはさらに、
（ａ）パススルー段階、又は（ｂ）和・差段階のいずれかとして機能でき、それにより直接及び同時符号化ステレオ入力信号の間を切り替えられる、前記逆量子化段階と前記アップミックス段階の間に配置されたスイッチングアセンブリと、
前記ステレオ信号の時間領域表示を計算するように構成された逆変換段階と、
前記逆変換段階の上流に配置され、これを、（ａ）複素予測により求めたステレオ信号が前記逆変換段階に供給される、前記アップミックス段階の下流のポイントに、又は（ｂ）直接ステレオ符号化により求めたステレオ信号が前記逆変換段階に供給される、前記スイッチングアセンブリの下流であり、かつ前記アップミックス段階の上流であるポイントのいずれかに選択的に接続するように構成されたセレクタ装置とを有する、
付記１ないし１２いずれか一項に記載のデコーダシステム。
（付記１４）複素予測を用いてステレオ信号を、ダウンミックスチャンネル、残差チャンネル、及び複素予測係数を有する信号としてエンコードするエンコーダシステムであって、
複素予測係数を推定する推定器と、
（ａ）前記ステレオ信号を、前記複素予測係数の値により決定される関係を有するダウンミックス信号と残差信号の周波数領域表示に変換し、（ｂ）パススルー段階として動作して、エンコードする前記ステレオ信号をマルチプレクサに直接供給するように動作可能な符号化段階とを有する、エンコーダシステム。
（付記１５）複素予測ステレオ符号化によりビットストリーム信号によりステレオ信号をエンコードするように構成され、さらに
前記符号化段階と推定器からの出力を受け取り、前記ビットストリーム信号によりエンコードするマルチプレクサをさらに有する、
付記１４に記載のエンコーダシステム。
（付記１６）前記推定器は、前記残差信号のパワーの時間または前記残差信号の平均パワーに対する最小化により、前記複素予測係数を決定する、
付記１４または１５に記載のエンコーダシステム。
（付記１７）前記ステレオ信号はダウンミックスチャンネルとサイドチャンネルを有し、
前記符号化段階は前記ステレオ信号の第１の周波数領域表示を受け取るように構成され、前記第１の周波数領域表示は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有し、
前記符号化段階はさらに、
前記ダウンミックス信号の第１の周波数領域表示に基づき、前記ダウンミックスチャンネルの第２の周波数領域表示を計算するモジュールであって、前記第２の周波数領域表示は、前記第１の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第２の副空間で表された信号のスペクトルコンテンツを表す第２のスペクトル成分を有する、モジュールと、
前記ダウンミックスチャンネルの第１と第２の周波数領域表示と、前記サイドチャンネルの第１の周波数領域表示と、前記複素予測係数とに基づいて、残差信号を計算する重み付け加算器とを有し、
前記推定器は、前記ダウンミックスチャンネルとサイドチャンネルを受け取り、ある時間にわたる、前記残差信号のパワーを最小化するために、または前記残差信号の平均パワーを最小化するために、前記複素予測係数を決定する、
付記１４ないし１６いずれか一項に記載のエンコーダシステム。
（付記１８）前記符号化段階は、
前記ステレオ信号を、ダウンミックスチャンネルとサイドチャンネルを有する同時符号化ステレオ信号に変換する和・差段階と、
前記ダウンミックスチャンネルのオーバーサンプリングされた周波数領域表示と、前記サイドチャンネルのクリティカルサンプリングされた周波数領域表示とを提供する変換段階であって、前記オーバーサンプリングされた周波数領域表示は好ましくは複素スペクトル成分を有する、変換段階と、
前記ダウンミックスチャンネルの前記オーバーサンプリングされた周波数領域表示と、前記サイドチャンネルの前記クリティカルサンプリングされた周波数領域表示と、前記複素予測係数とに基づいて、残差信号を計算する重み付け加算器とを有し、
前記推定器は、前記残差信号を受け取り、前記残差信号のパワーを最小化するために、または前記残差信号の平均パワーを最小化するために、前記複素予測係数を決定し、
好ましくは、前記変換段階は、前記ダウンミックスチャンネルの前記オーバーサンプリングされた周波数領域表示を共に提供する、修正離散正弦変換ＭＤＳＴ段階と並列に配置された修正離散余弦変換ＭＤＣＴ段階を有する、
付記１４ないし１６いずれか一項に記載のエンコーダシステム。
（付記１９）複素予測ステレオ符号化によりステレオ信号を提供する復号方法であって、
ダウンミックス信号と残差信号の第１の周波数領域表示を受け取るステップであって、前記第１の周波数領域表示の各々は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有する、ステップと、
制御信号を受け取るステップと、
前記制御信号の値に応じて、
（ａ）アップミックス段階を用いて、前記ダウンミックス信号と残差信号をアップミックスし、前記ステレオ信号を求めるステップであって、
前記ダウンミックス信号の第１の周波数領域表示に基づき、前記ダウンミックス信号の第２の周波数領域表示を計算するサブステップであって、前記第２の周波数領域表示は、前記第１の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第２の副空間で表された信号のスペクトルコンテンツを表す第２のスペクトル成分を有する、サブステップと、
前記ビットストリーム信号にエンコードされた前記ダウンミックス信号の第１と第２の周波数領域表示と、前記残差信号の第１の周波数領域表示と、複素予測係数とに基づいてサイド信号を計算するサブステップと、
和・差変換に、前記ダウンミックス信号とサイド信号の第１の周波数領域表示を適用することにより、前記ステレオ信号を計算するサブステップとを有する、ステップと、
（ｂ）アップミックスするステップを中断するステップとを有する、復号方法。
（付記２０）前記第１のスペクトル成分は前記第１の副空間で表された実数値を有し、
前記第２のスペクトル成分は前記第２の副空間で表された虚数値を有し、
任意的に、前記第１のスペクトル成分は、離散余弦変換ＤＣＴ又は修正離散余弦変換ＭＤＣＴのうち一方により求められ、
任意的に、前記第２のスペクトル成分は、離散正弦変換ＤＳＴ又は修正離散正弦変換ＭＤＳＴのうち一方により求められる、
付記１９に記載の復号方法。
（付記２１）前記ダウンミックス信号は連続した時間フレームにパーティションされ、各時間フレームは複素予測係数の値に関連し、
前記ダウンミックス信号の第２の周波数領域表示を計算するステップは、前記複素予測係数の虚部の絶対値が時間フレームの所定の許容値より小さいことに応じて、中断され、その時間フレームに対して出力を生成しないようにする、
付記２０に記載の復号方法。
（付記２２）前記ダウンミックス信号時間フレームはさらに周波数帯域にパーティションされ、各周波数帯域には前記複素予測係数の値が伴い、
前記ダウンミックス信号の第２の周波数領域表示を計算するステップは、前記複素予測係数の虚部の絶対値が時間フレームの周波数帯域の所定の許容値より小さいことに応じて、中断され、その周波数帯域に対して出力を生成しないようにする、
付記２１に記載の復号方法。
（付記２３）前記第１のスペクトル成分は変換係数の時間フレームに配置された変換係数であり、各ブロックは時間領域信号の時間セグメントへの変換の適用により生成され、
前記ダウンミックス信号の第２の周波数領域表示を計算するステップは、
前記第１のスペクトル成分から第１の中間成分を求めるサブステップと、
インパルス応答の少なくとも一部分により前記第１のスペクトル成分の組み合わせを構成して、第２の中間成分を求めるサブステップと、
前記第２の中間成分から前記第２のスペクトル成分を求めるサブステップとを有する、
付記２０に記載の復号方法。
（付記２４）インパルス応答の一部は、前記変換の周波数応答特性に基づき、
任意的に、前記変換の周波数応答特性は、前記信号の時間セグメントへの変換に適用された分析窓関数の特性に応じる、
付記２３に記載の復号方法。
（付記２５）第２の周波数領域表示を計算するステップは、（ａ）第１のスペクトル成分の同時時間フレーム、（ｂ）第１のスペクトル成分の同時および前の時間フレーム、及び（ｃ）第１のスペクトル成分の同時、前の、及び後の時間フレームのうちの１つを入力として用いて、第２のスペクトル成分の各時間フレームを求める、
付記２４に記載の復号方法。
（付記２６）前記ダウンミックス信号の第２の周波数領域表示を計算するステップは、少なくとも２つの時間的に隣接した、及び／又は周波数的に隣接した第１のスペクトル成分の組み合わせにより決定された近似的な第２のスペクトル成分を有する近似的第２のスペクトル表示を計算するステップを含む、
付記１９ないし２５いずれか一項に記載の復号方法。
（付記２７）前記ステレオ信号は時間領域で表され、前記方法はさらに、
前記ビットストリーム信号が直接ステレオ符号化により、又は同時ステレオ符号化により符号化されているのに応じて、前記アップミックスするステップを省略するステップと、
前記ビットストリーム信号を逆変換して前記ステレオ信号を求めるステップをを有する、
付記１９ないし２６いずれか一項に記載の復号方法。
（付記２８）前記ビットストリームが直接ステレオ符号化または同時ステレオ符号化により符号化されていることに応じて、前記ダウンミックス信号の前記時間領域表示を送信するステップと、サイド信号を計算するステップとを省略するステップと、
前記ビットストリーム信号によりエンコードされた各チャンネルの周波数領域表示を逆変換して前記ステレオ信号を求めるステップとをさらに有する、
付記２７に記載の復号方法。
（付記２９）複素予測ステレオ符号化によりビットストリームによりステレオ信号をエンコードするするエンコード方法であって、
複素予測係数を決定するステップと、
前記ステレオ信号を変換して、前記複素予測係数により決まる関係を有するダウンミックス信号と残差信号の第１の周波数領域表示にするステップであって、前記第１の周波数領域表示は多次元空間の第１の副空間で表された対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を有する、ステップと、
前記ダウンミックスチャンネルと残差チャンネルと複素予測係数とを前記ビットストリームとしてエンコードするステップとを有する、エンコーディング方法。
（付記３０）複素予測係数を決定するステップは、前記残差信号のパワー又はある時間にわたる前記残差信号の平均パワーを最小化するために、行われる、
付記２９に記載のエンコーディング方法。
（付記３１）前記ステレオ信号のパーティションを時間フレームに画定または認識するステップと、
各時間セグメントについて、直接ステレオ符号化、同時ステレオ符号化、及び複素予測ステレオ符号化のオプションのうちの少なくとも１つにより、この時間セグメントにおいてステレオ信号を符号化するか、選択するステップとをさらに有し、
直接ステレオ符号化が選択された場合、前記ステレオ信号は左チャンネルと右チャンネルの周波数領域表示に変換され、前記ビットストリームとしてエンコードされ、
同時ステレオ符号化が選択された場合、前記ステレオ信号はダウンミックスチャンネルとサイドチャンネルの周波数領域表示に変換され、前記ビットストリームとしてエンコードされる、
付記２９または３０に記載のエンコーディング方法。
（付記３２）所定の音響心理学的モデルにより最も高い音質を提供するオプションが選択される、
付記３１に記載のエンコーディング方法。
（付記３３）前記ステレオ信号のパーティションを時間フレームに画定または認識するステップをさらに有し、
前記ステレオ信号はダウンミックスチャンネルとサイドチャンネルを有し、
前記ステレオ信号を、ダウンミックスチャンネルと残差チャンネルの第１の周波数領域表示に変換するステップは、
前記ダウンミックスチャンネルの第１の周波数領域表示に基づき、前記ダウンミックス信号の第２の周波数領域表示を計算するサブステップであって、前記第２の周波数領域表示は、前記第１の副空間に含まれない多次元空間の一部を含む、前記多次元空間の第２の副空間で表された信号のスペクトルコンテンツを表す第２のスペクトル成分を有する、サブステップと、
前記ダウンミックスチャンネルの第１と第２の周波数領域表示と、前記サイドチャンネルの第１の周波数領域表示と、前記複素予測係数とに基づいて、残差信号を構成するステップと、
前記複素予測係数を決定するステップは、各時間フレームにおいて残差信号の平均パワーを最小化することにより、一度に一時間フレームに対して行われる、
付記２９または３０に記載のエンコーディング方法。
（付記３４）前記ステレオ信号をダウンミックスチャンネルとサイドチャンネルを有する同時符号化ステレオ信号に変換するステップと、
前記ダウンミックスチャンネルを、好ましくは複素スペクトル成分を有するオーバーサンプリングされた周波数領域表示に変換するステップと、
前記サイドチャンネルをクリティカルサンプリングされた、好ましくは実数値の周波数領域表示に変換するステップと、
前記ダウンミックスチャンネルの前記オーバーサンプリングされた周波数領域表示と、前記サイドチャンネルの前記クリティカルサンプリングされた周波数領域表示と、前記複素予測係数とに基づいて、残差信号を計算するステップとをさらに有し、
前記複素予測係数の決定は、パワー又は平均パワーを最小化するために、このように計算された前記残差信号に関するフィードバック制御により行われる、
付記２９ないし３３いずれか一項に記載のエンコーディング方法。
（付記３５）前記ダウンミックスチャンネルのオーバーサンプリングされた周波数領域表示への変換は、ＭＤＣＴ及びＭＤＳＴの適用、及びその出力の連結により行われる、
付記３４に記載のエンコーディング方法。
（付記３６）汎用コンピュータにより実行されたとき、付記１９ないし３５いずれか一項に記載の方法を実行する命令を格納したコンピュータ読み取り可能媒体を有するコンピュータプログラム製品。

Claims

複素予測ステレオコーディングによってステレオ信号を提供するためのデコーダシステムであって、
ダウンミックス信号および残差信号の第１の周波数領域表現に基づいて前記ステレオ信号を生成するように適合されたアップミックス段階であって、前記第１の周波数領域表現の各々は、多次元空間の第１の部分空間において表現される対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を含む、アップミックス段階を有し、前記アップミックス段階は、
前記ダウンミックス信号の前記第１の周波数領域表現に基づいて前記ダウンミックス信号の第２の周波数領域表現を計算するモジュールであって、前記第２の周波数領域表現は、前記第１の部分空間に含まれない前記多次元空間の一部を含む前記多次元空間の第２の部分空間において表現される前記信号のスペクトルコンテンツを表す第２のスペクトル成分を含み、前記モジュールは、前記ダウンミックス信号の前記第１のスペクトル成分に有限インパルス応答フィルタを適用することによって前記ダウンミックス信号の前記第２のスペクトル成分を決定するように適合される、モジュールと、
前記ダウンミックス信号の前記第１および第２の周波数領域表現、前記残差信号の前記第１の周波数領域表現、および前記デコーダシステムによって受信されたビットストリーム信号において符号化された複素予測係数に基づいて、サイド信号の第１の周波数領域表現を計算する重み付き加算器であって、前記サイド信号の前記第１の周波数領域表現は、前記多次元空間の前記第１の部分空間において表現された前記サイド信号のスペクトルコンテンツを表す第１のスペクトル成分を含み、各スペクトル成分は周波数の範囲を表し、前記サイド信号の前記第１のスペクトル成分の各々は、前記サイド信号の前記第１のスペクトル成分と同じ周波数の範囲を表す前記ダウンミックス信号および前記残差信号のスペクトル成分から決定される、重み付き加算器と、
前記ダウンミックス信号の前記第１の周波数領域表現と前記サイド信号とに基づいて前記ステレオ信号を計算する和・差段階と
を有し、
前記アップミックス段階は、前記ダウンミックス信号および前記残差信号に対して独立した帯域幅制限を適用するように適合されている、
デコーダシステム。
適用される前記帯域幅制限は、前記信号の各々について、デコードされるべき最高周波数帯域を示す２つのデータフィールドによってシグナリングされる、
請求項１に記載のデコーダシステム。
前記データフィールドの各々がｍａｘ＿ｓｆｂの値として符号化されているＭＰＥＧビットストリームを受信するように適合されている、
請求項２に記載のデコーダシステム。
前記ダウンミックス信号の第２の周波数領域表現を計算する前記モジュールは、少なくとも２つの時間的に隣接するおよび／または周波数的に隣接する第１のスペクトル成分の組み合わせによって決定される近似的な第２のスペクトル成分を含む近似的な第２のスペクトル表現を計算するように適合されている、
請求項１ないし３いずれか一項に記載のデコーダシステム。
入力ステレオ信号を複素予測ステレオコーディングにより出力ステレオ信号にアップミックスするデコーディング方法であって
前記入力ステレオ信号は、ダウンミックス信号の第１の周波数領域表現と、残差信号と、複素予測係数とを含み、
前記第１の周波数領域表現の各々は、多次元空間の第１の部分空間において表現される対応する信号のスペクトルコンテンツを表す第１のスペクトル成分を含み、
前記デコーディング方法は、アップミックス段階によって実行され、
前記ダウンミックス信号の前記第１の周波数領域表現に基づいて前記ダウンミックス信号の第２の周波数領域表現を計算するステップであって、前記第２の周波数領域表現は、前記第１の部分空間に含まれない前記多次元空間の一部を含む前記多次元空間の第２の部分空間において表現される前記信号のスペクトルコンテンツを表す第２のスペクトル成分を含み、前記ダウンミックス信号の第２の周波数領域表現を計算することは、前記ダウンミックス信号の前記第１のスペクトル成分に有限インパルス応答フィルタを適用することによって前記ダウンミックス信号の前記第２のスペクトル成分を決定することを含む、ステップと、
前記ダウンミックス信号の前記第１および第２の周波数領域表現、前記残差信号の前記第１の周波数領域表現、および前記複素予測係数に基づいて、サイド信号の第１の周波数領域表現を計算するステップであって、前記サイド信号の前記第１の周波数領域表現は、前記多次元空間の前記第１の部分空間において表現される前記サイド信号のスペクトルコンテンツを表す第１のスペクトル成分を含み、各スペクトル成分は周波数の範囲を表し、前記サイド信号の前記第１のスペクトル成分の各々は、前記サイド信号の前記第１のスペクトル成分と同じ周波数の範囲を表す前記ダウンミックス信号および前記残差信号のスペクトル成分から決定される、ステップと
を含み、
前記ダウンミックス信号および前記残差信号に対して独立した帯域幅制限が適用される、
デコーディング方法。
プロセッサ上での実行に適合され、コンピューティングデバイス上で実行されると、請求項５に記載の方法ステップを実行させるソフトウェアプログラムを含む記憶媒体。
コンピュータ上で実行されると、請求項５に記載の方法を実行させる実行可能命令を含むコンピュータプログラム。