JP2008532064A

JP2008532064A - マルチチャネルオーディオ符号化における忠実度の最適化及び信号伝送量の低減

Info

Publication number: JP2008532064A
Application number: JP2007556114A
Authority: JP
Inventors: アニセタレブ，; ステファンアンデルソン，
Original assignee: テレフオンアクチーボラゲットエルエムエリクソン（パブル）
Priority date: 2005-02-23
Filing date: 2006-02-22
Publication date: 2008-08-14
Anticipated expiration: 2026-02-22
Also published as: CN101124740A; US20060246868A1; EP1851866A4; EP1851866A1; JP2008529056A; CN101128867A; WO2006091139A1; ATE521143T1; ES2389499T3; JP4809370B2; CN101128867B; CN101128866A; US7945055B2; EP1851866B1; US20060195314A1; JP5171269B2; US7822617B2; CN101128866B; ATE518313T1; CN101124740B

Abstract

本発明は、マルチチャネルオーディオ信号を符号化する効率的な技術を提供する。本発明は、第１の符号化処理において１つ以上のマルチチャネルの信号を符号化し（Ｓ１）、フィルタに基づく第２の符号化処理において１つ以上のチャネルの別の信号を符号化することを原理とする。本発明による基本概念は、第２の符号化処理のために、ｉ）符号化フレーム全体のサブフレームのセットへのフレーム分割構成と、ii）各サブフレームのフィルタ長との組合せを、所定の条件に従って選択すること（Ｓ２）である。第２の信号は、選択された組合せに従って符号化フレーム全体の各サブフレームにおいて符号化される（Ｓ３）。フレーム分割構成を選択すると共に各サブフレームのフィルタ長を調整することができることで追加の自由度が提供され、性能は向上する。

Description

本発明は、オーディオ符号化及び復号化技術に関し、特に、ステレオ符号化等のマルチチャネルオーディオ符号化に関する。

高い音声品質を維持しながら音声信号を低ビットレートで伝送し保存することへの市場の要求は大きい。特に、伝送リソース又は記憶装置が限られている場合、低ビットレートでの動作が重要なコスト要素である。このことが典型的に当てはまるのは、例えば、ＧＳＭ、ＵＭＴＳ又はＣＤＭＡなどのモバイル通信システムでのストリーミング及びメッセージングのアプリケーションの場合である。

図１を用いて、マルチチャネル符号化／復号化を使用する音声伝送システムの一般的な例を概略的に説明する。全体のシステムは基本的に、送信側にマルチチャネル・オーディオエンコーダ１００と送信モジュール１０を備え、受信側に受信モジュール２０とマルチチャネル・オーディオデコーダ２００を備える。

音声信号のステレオ符号化又はマルチチャネル符号化の最も単純な方法は、図２に示すように、異なるチャネルの信号を個別に独立の信号として別々に符号化することである。しかしこれでは、複数のチャネル間の冗長性は取り除かれず、ビットレートはチャネル数に比例することになる。

もう１つの基本的な方法で、ステレオＦＭラジオ放送で使用され、昔からあるモノラル・ラジオ受信機と互換性を確保する方法は、関与する２つのチャネルの和と差の信号を送信することである。

ＭＰＥＧ−１／２レイヤIII及びＭＰＥＧ−２／４ＡＡＣなどの最先端のオーディオコーデックは、いわゆるジョイントステレオ符号化を使用する。この技術によれば、異なるチャネルの信号は別々に個別に処理されるのではなく、一緒に処理される。最も広く使用されているジョイントステレオ符号化 (joint stereo coding) は、「Ｍｉｄ／Ｓｉｄｅ」（Ｍ／Ｓ）ステレオ符号化及びインテンシティステレオ符号化 (intensity stereo coding) として知られる２つの符号化であり、それらは普通、符号化されるステレオ信号又はマルチチャネル信号のサブバンドに適用される。

Ｍ／Ｓステレオ符号化は、チャネルのサブバンドの和と差の信号を符号化して送信し、それによりチャネルのサブバンド間の冗長性を利用する点において、前述のステレオＦＭラジオの手順と類似している。Ｍ／Ｓステレオ符号化に基づくコーダの構成と動作については、例えば文献[1]（特許文献１）に記載されている。

他方、インテンシティステレオは、ステレオの無関係さを使用することができる。インテンシティステレオでは、（異なるサブバンドの）チャネルの連結強度(joint intensity)を、チャネル間に信号の強度がどのように分布しているかを示す位置情報と共に送信する。インテンシティステレオでは、チャネルのスペクトル振幅情報だけを出力し、位相情報は伝達しない。このため及び、チャネル間時間情報（より具体的にはチャネル間時間差）は特に低周波数においては心理音響関連性が大きいことから、インテンシティステレオは、例えば２ｋＨｚを超える高い周波数でのみの使用とすることができる。インテンシティステレオ符号化方法は、例えば文献[2]（特許文献２）に記載されている。

バイノーラルキュー符号化（ＢＣＣ）と呼ばれる最近開発されたステレオ符号化方法が、文献[3]（非特許文献１）に記載されている。この方法はパラメトリック・マルチチャネル音声符号化方法である。この種のパラメトリック符号化技術の基本原理は、符号化側においてＮ個のチャネルからの入力信号を１つのモノラル信号に合成することである。モノラル信号は、従来のどのモノラルのオーディオコーデックを使用しても符号化できる。並行して、パラメータはマルチチャネル音像を表すチャネル信号から引き出せる。パラメータは符号化され、音声ビット・ストリームと一緒にデコーダに送信される。デコーダはまずモノラル信号を復号し、次にマルチチャネル音像のパラメトリック表現に基づきチャネル信号を再生する。

バイノーラルキュー符号化（ＢＣＣ）法の原理は、符号化モノラル信号及びいわゆるＢＣＣパラメータを送信することである。ＢＣＣパラメータは、元のマルチチャネル入力信号のサブバンドに関する符号化されたチャネル間レベル差及び符号化されたチャネル間時間差を含む。デコーダは、ＢＣＣパラメータに基づき、モノラル信号のサブバンドに関するレベルならびに位相及び／又は遅延の補正を活用することにより、異なるチャネルの信号を再生する。例えばＭ／Ｓステレオ又はインテンシティステレオに対する利点は、チャネル間時間情報を備えるステレオ情報がはるかに低いビットレートで送信されることである。しかし、ＢＣＣは演算量の要求が厳しく、また、一般には聴感上の最適化ができない。

文献[4]（特許文献３）に記載される別の技術は、モノラル信号及びいわゆるサイド情報 (side information) を符号化する同じ原理を使用する。この場合、サイド情報は予測フィルタ (predictor signal) 及び状況に応じて残差信号 (residual signal) で構成される。予測フィルタは、ＬＭＳアルゴリズムで推定され、モノラル信号に適用されると、マルチチャネル音声信号の予測を与える。この技術を使用して、マルチチャネル音源を非常に低いビットレートで符号化することができるが、品質低下という犠牲を伴う。

図３に、そのパラメトリック・ステレオ符号化の基本原理を示す。図３は、ダウンミキシング・モジュール１２０、中核のモノラルコーデック１３０、２３０、及びパラメトリック・ステレオ・サイド情報エンコーダ／デコーダ１４０、２４０を備えるステレオコーデックの構成を示している。ダウンミキシングは、マルチチャネル（この場合はステレオ）信号をモノラル信号に変換する。パラメトリック・ステレオコーデックの目的は、復元されたモノラル信号と付加的なステレオ・パラメータを与えて、デコーダでステレオ信号を再生することである。

最後に、すべてを網羅するために、３Ｄ音声で使用される技術にも触れておく。この技術は、いわゆる頭部関連フィルタで音源信号をフィルタリングして左右のチャネル信号を合成する。しかし、この技術は、分離される異なる音源信号を必要とし、それ故、一般にステレオ又はマルチチャネルの符号化に適用されることはない。

[1] 米国特許第５，２８５，４９８号 [2] 欧州特許第０，４９７，４１３号 [4] 米国特許第５，４３４，９４８号 [3] C. Faller et al., "Binaural cue coding applied to stereo and multi-channel audio compression", 112th AES convention, May 2002, Munich, Germany. [5] S-S. Kuo, J. D. Johnston, "A study why cross channel prediction is not applicable to perceptual audio coding", IEEE Signal Processing Lett, vol. 8, pp. 245-247. [6] B. Edler, C. Faller and G. Schuller, "Perceptual audio coding using a time- varying linear pre- and post-filter", in AES Convention, Los Angeles, CA, Sept. 2000. [7] Bernd Edler and Gerald Schuller, "Audio coding using a psychoacoustical pre- and post-filter", ICASSP-2000 Conference Record, 2000. [8] Dieter Bauer and Dieter Seitzer, "Statistical properties of high-quality stereo signals in the time domain", IEEE International Conf. on Acoustics, Speech, and Signal Processing, vol. 3, pp. 2045-2048, May 1989. [9] Gene H. Golub and Charles F. van Loan, "Matrix Computations", second edition, chapter 4, pages 137-138, The John Hopkins University Press, 1989.

本発明は先行技術による装置の上記及び他の欠点を克服する。

本発明の全体的な目的は、低ビットレートで高品質のマルチチャネルオーディオを提供することである。

特に、なるべく少ない符号化ビット数を使用して、ステレオ又はマルチチャネルの情報を正確に表す能力のある効率的な符号化処理を提供することが望まれる。ステレオ符号化に関しては、例えば、ステレオ音像の躍動感がよく表現され、ステレオ信号の再生品質が高められることが重要である。

利用可能なビット割り当て量の効率的な使用、及び、必要な信号伝送量の最適化を実現することも、本発明の目的である。

マルチチャネルオーディオ信号を符号化する方法及び装置を提供することも、本発明の特定の目的である。

本発明の別の特定の目的は、符号化されたマルチチャネルオーディオ信号を復号化する方法及び装置を提供することである。

本発明のまた別の目的は、改良されたオーディオ伝送システムを提供することである。

上記及び他の目的は、特許請求の範囲で定義される本発明により達成される。

現在のところ、例えばモバイル通信システムでも使用するのに経済的に魅力的なビットレートで、高品質のステレオ又はマルチチャネルのオーディオを提供する標準化されたコーデックは入手できない。入手可能なコーデックで可能なことは、オーディオ信号のモノラルでの伝送及び／又は保存である。ある程度までは、ステレオでの伝送や保存も可能ではあるが、多くの場合、ビットレートの制約によってステレオ表現を極めて大幅に制限されることになる。

本発明は、オーディオ信号からのステレオ又はマルチチャネルの情報を分離することを可能にし、かつ最適な可能な方法でそれを正確に表すことを可能にする解決策を提案することにより、上記の問題を克服する。本発明は、第１の符号化処理において１つ以上のマルチチャネルの第１の信号を符号化し、フィルタに基づく第２の符号化処理において１つ以上のマルチチャネルの第２の信号を符号化することを基本原理とする。本発明による基本概念は、第２の符号化処理のために、ｉ）符号化フレーム全体のサブフレームのセットへのフレーム分割構成と、ii）各サブフレームのフィルタ長との組合せを、所定の条件に従って選択することである。第２の信号は、選択された組合せに従って、選択されたサブフレームのセットの各サブフレームにおいて符号化される。

可変フレーム長の場合、符号化フレームは、種々のフレーム分割構成に従って複数のサブフレームに分割される。サブフレームは相異なるサイズであってもよいが、通常、任意の所定のフレーム分割構成のサブフレームの長さの合計は符号化フレーム全体の長さと等しい。フレーム分割構成を選択すると同時に各サブフレームに対するフィルタ長を調整するという可能性により、追加的な自由度が得られ、一般に性能は向上する。所定の条件は、符号化フレーム全体にわたる第２の符号化処理の性能を表す尺度の最適化に基づくものであることが好ましい。

第２の符号化処理又はそれに関連するコントローラは、選択されたフレーム分割構成及び選択されたフレーム分割構成の各サブフレームのフィルタ長を表す出力データを生成する。符号化情報の正確な復号化を可能にするために、この出力データは、符号化側から復号化側へ送信される必要がある。フレーム分割構成とフィルタ長との適切な組合せの選択により、全体の性能は大幅に向上するが、オーディオ送信システムにおける符号化側から復号化側への送信に必要とされる信号伝送量はその分増加することは明らかである。したがって、本発明の特定の例示的な実施形態においては、ある特定の長さの各サブフレームを事前定義済みフィルタ長と関連付けるのが望ましい。通常、長いフィルタは長いフレームに割り当てられ、短いフィルタは短いフレームに割り当てられる。

換言すると、所定の条件は、符号化フレームのサブフレームのセットへのフレーム分割構成を示すと共に各サブフレームに対して選択されるフィルタ次元数を示すように、各サブフレームのフィルタ長がサブフレームの長さに依存して選択されるという必要条件を含む。これにより、必要とする復号化側への信号伝送量を低減することができる。

本発明の好適な実施形態において、所定の条件は、各サブフレームのフィルタ長がサブフレームの長さに応じて制御されるという必要条件に従う符号化フレーム全体にわたる前記第２の符号化処理の性能を表す尺度の最適化に基づくものである。

復号化側においては、デコーダは、対応する第２の符号化処理で使用されたサブフレームのセットへの符号化フレーム全体のフレーム分割構成及び各サブフレームのフィルタ長を表す情報を受信する。この情報は、第２の信号を正確に復号化する目的で、第２の復号化処理において第２の信号復元データを解釈するために使用される。上述のように、この情報は、符号化フレームのサブフレームのセットへのフレーム分割構成を示すと共に各サブフレームに対して選択されたフィルタ次元数を示すデータを含むことが好ましい。

第１の符号化処理が符号化フレーム全体のサブフレームのセットへのフレーム分割構成によるいわゆる可変フレーム長処理を使用する場合、第２の符号化処理に対しても同一のフレーム分割構成を使用するのが有用である。その場合、１つの符号化処理に対するフレーム分割構成を表す情報を信号で伝送することで十分である。

符号化と、それに関連するフレーム分割構成及びフィルタ長の制御は、フレーム毎に実行されることが好ましい。更に、制御システムは、マルチチャネルオーディオ信号のチャネル間相関特性に基づいて動作することが好ましい。

例えば、第１の符号化処理を主符号化処理とし、第１の信号を主信号とすることができる。また例えば、第２の符号化処理を補助／副信号処理とし、第２の信号をステレオ副信号等の副信号とすることができる。そのような場合、通常、第２の符号化処理は、調整可能な適応チャネル間予測（ＩＣＰ）フィルタ長と組み合わせて可変フレーム長処理を使用して、第１及び第２の信号に基づいて第２の信号を予測するためのＩＣＰを含む。そのような方式を使用する利点は、ステレオ又はマルチチャネルイメージのダイナミクスが適切に表現されることである。フレーム分割構成及び関連するフィルタ長の選択は、一般に第２の符号化処理の推定性能に基づくことが好ましく、特にＩＣＰフィルタに基づくことが好ましい。

本発明は、主に、第１の符号化処理が主符号化処理であり、第２の符号化処理が補助符号化処理である場合に関するが、第１の符号化処理が補助符号化処理であり、第２の符号化処理が主符号化処理である場合にも適用可能であることを理解すべきである。また、フレーム分割構成及び関連するフィルタ長の制御が第１の符号化処理及び第２の符号化処理の双方に対して実行されることも可能である。

本発明は、以下の利点を提供する。
・マルチチャネルオーディオ符号化／復号化の改良。
・オーディオ送信システムの改良。
・マルチチャネルオーディオ再生品質の向上。
・比較的低いビットレートでの高品質のマルチチャネルオーディオ。
・最適化された信号伝送量での高忠実度化。
・ステレオ音像のダイナミクスの適切な表現。
・ステレオ信号再生品質の向上。
本発明が提供する他の利点は、以下の本発明の実施形態の詳細な説明を読めば理解されるであろう。

添付の図面及び以下の説明によって、本発明は、その他の目的及び利点とともに、最もよく理解されるであろう。

全図面を通して同じ参照番号は同一又は類似の要素に用いられるものとする。

本発明は、音声アプリケーションのマルチチャネル符号化／復号化技術に関し、特にオーディオ伝送システム及び／又はオーディオストレージ用のステレオ符号化／復号化に関する。音声アプリケーションとしてふさわしい例としては、電話会議システム、モバイル通信システムにおけるステレオ音声伝送、音声サービスを提供する様々なシステム、及びマルチチャネル・ホーム・シネマ・システム等が挙げられる。

本発明の理解を助けるために、既存技術の問題について簡潔な概観と分析から始めるのが役に立つと思われる。前述のように、現在のところ、例えばモバイル通信システムでも経済的負担が少なく使用する気を起こさせるビットレートで高品質のステレオ又はマルチチャネル音声を提供する標準化されたコーデックは入手できない。入手できるコーデックで可能なことは、音声信号のモノラルでの伝送及び／又は保存である。ある程度までは、ステレオ伝送や保存も可能であるが、多くの場合、ビットレートの制約により極めて大きくステレオ表現が制限される。

最先端のマルチチャネル符号化技術の問題は、優れた品質を提供するためには高ビットレートが必要となることである。インテンシティステレオは、例えばたった２、３ｋｂｐｓほどの低ビットレートで利用される場合には、チャネル間時間情報をほとんど提供できないので上手くいかない。この情報は例えば２ｋＨｚ未満の低周波数に対して聴感上重要なので、そのような低周波数でステレオ効果を提供することはできない。

他方ＢＣＣは、チャネル間時間情報も伝送するので、例えば３ｋｂｐｓの低ビットレートで、低周波数でもステレオ音像又はマルチチャネル音像を再生することができる。しかし、この技術は、エンコーダとデコーダの両方でチャネルのそれぞれについて、演算量の多い時間／周波数変換を必要とする。さらに、ＢＣＣは、元のチャネル信号との知覚差を最小にする意味では、伝送されたモノラル信号からチャネル信号へのマッピングを行おうとはしない。

チャネル間予測（Inter-channel prediction : ＩＣＰ）とも呼ばれる、マルチチャネル符号化用のＬＭＳ技術（文献[4]（特許文献３）参照）は、残差信号の伝送を省略することにより低ビットレートを可能にしている。チャネル復元フィルタを得るために、条件なしの誤差最小化手順を用い、その出力信号が対象信号に最も一致するようにフィルタを計算する。フィルタを計算するために、幾つかの誤差測定値を使用できる。平均二乗誤差あるいは加重平均二乗誤差が周知であり、少ない演算量で済む。

一般的に、最先端の方法の大部分がハイファイのオーディオ信号又は単なる音声の符号化のために開発されたと言うことができる。信号エネルギが低周波数領域に集中している音声符号化 (speech coding) では、サブバンド符号化は滅多に使用されない。ＢＣＣのような方法は、低ビットレートでステレオ音声の符号化を可能にするけれども、サブバンド変換符号化処理では演算量も遅延も多くなる。

研究の結論によれば、ＩＣＰ符号化技術は、低い周波数にエネルギが集中しているステレオ信号に対しては、高品質のステレオ信号を得ることはできないが、冗長性の削減は可能である［５］（非特許文献２）。ＩＣＰフィルタリングの白色化効果により、高周波数領域のエネルギが増加し、知覚変換符号化器にとっては正味の符号化損失になる。これらの結果は、文献［６］（非特許文献３）及び［７］（非特許文献４）で確認され、品質の向上は音声信号に対してだけ報告された。

ＩＣＰ復元信号の精度は、存在するチャネル間相関により決定される。Bauer等による文献［８］（非特許文献５）は、音声信号の左チャネルと右チャネルとの間に線形関係を見出せなかった。しかし、図４のモノラル信号と副信号とのクロススペクトルから見ることができるように、音声信号の低周波数領域（０〜２０００Ｈｚ）で強いチャネル間相関が見られる。ステレオ符号化手段としてのＩＣＰフィルタでは、チャネル間相関が弱い場合には、対象信号の予測値の精度が劣化する。

図５は、本発明の好適な実施形態におけるマルチチャネルエンコーダを示す概略ブロック図である。マルチチャネルエンコーダは、基本的に、オプションの前処理部１１０、オプションの（線形）結合部１２０、複数のエンコーダ１３０、１４０、コントローラ１５０及びオプションのマルチプレクサ（ＭＵＸ）１６０を具備する。エンコーダの数Ｎは２以上であり、第１エンコーダ１３０及び第２エンコーダ１４０を含むが、更なるエンコーダを有してもよい。

一般に、本発明は、マルチチャネル又はポリフォニック信号 (polyphonic signal) を取り扱う。最初のマルチチャネル入力信号は、オーディオ信号記憶装置（不図示）から供給されてもよいし、例えばマイクロフォンのセット（不図示）から「生で」提供されてもよい。通常、オーディオ信号は、デジタル形式でない場合、マルチチャネル符号器に入力される前にデジタル化される。マルチチャネル信号は、例えば主信号及び副信号、並びに可能性として更なる信号表現等のＮ個の信号表現を生成するオプションの信号結合部１２０及びオプションの前処理部１１０に供給されうる。

オプションの前処理部１１０にはマルチチャネル信号又はポリフォニック信号が入力されうる。

（任意で前処理された）信号は、任意の信号結合部１２０に出力される。信号結合部１２０は、入力信号の線形結合などの様々な信号結合手順を実行して少なくとも第１の信号と第２の信号を作り出す複数の結合モジュールを有する。例えば、第１の符号化処理を主符号化処理とし、第１の信号を主信号とすることができる。第２の符号化処理は、例えば補助（副 (side) ）信号処理とすることができ、その場合、第２の信号は、ステレオ副信号 (stereo side signal) などの補助（副）信号とすることができる。従来のステレオ符号化では、例えば、ＬチャネルとＲチャネルの信号を足しその和信号を２で割って、第１の信号（主信号）として従来のモノラル信号を出力する。ＬチャネルとＲチャネルを引き算しその差信号を２で割って、第２の信号として従来の副信号を出力することもできる。本発明によれば、信号結合部において、異なるチャネルの少なくとも一部からの信号の寄与を重み付けして、さまざまな種類の線形結合や他の種類の信号結合を実行することができる。本発明が使用する信号結合は２つのチャネルに限定されるわけではなく、多数のチャネルを含みうることはいうまでもない。図５に示されるように、２以上の信号を生成することも可能である。入力チャネルの１つを直接第１の信号として、もう１つの入力チャネルを第２の信号として使用することも可能である。ステレオ符号化に関しては、例えば、Ｌチャネルを主信号として使用し、Ｒチャネルを副信号として使用してもよいし、あるいはその逆でもよい。この他にも変形例は多数存在する。

第１エンコーダ１３０に第１の信号が入力されると、エンコーダ１３０は適切な符号化原理に従って第１の信号を符号化する。第２の信号は、第２エンコーダ１４０に供給され、そこで第２の信号が符号化される。３つ以上のエンコーダを使用する場合は通常、追加の各信号は各エンコーダにおいて符号化されることになる。

例えば第１エンコーダを主エンコーダとし、第２エンコーダを副エンコーダとしてもよい。その場合、例えば副エンコーダである第２エンコーダ１４０は、第１の信号及び第２の信号に基づいて信号再生データを生成する適応チャネル間予測（ＩＣＰ）ステージを含むことができる。第１エンコーダからの破線で示されるように、第１の（主）信号は、第１エンコーダ１３０により生成される信号符号化パラメータから同等に推定してもよい。

マルチチャネルエンコーダは、コントローラ１５０を更に具備する。コントローラ１５０は、符号化性能を最適化するために追加の自由度を提供するように構成される。本発明の好適な実施形態によれば、制御システムは、考慮するエンコーダに対して、符号化フレーム全体のサブフレームのセットへのフレーム分割構成と各サブフレームのフィルタ長との組合せを、所定の条件に従って選択するように構成される。対応する信号は、選択された組合せに従って、選択されたサブフレームのセットの各サブフレームにおいて符号化される。別個のコントローラ１５０として又は考慮するエンコーダに内蔵されるものとして実現されてもよい制御システムは、適切な制御コマンドをエンコーダに供給する。

フレーム分割構成を選択すると同時に各サブフレームのフィルタ長を調整するという可能性により追加の自由度が得られ、一般に性能は向上する。所定の条件は、符号化フレーム全体にわたる第２の符号化処理の性能を表す尺度の最適化に基づくものであることが好ましい。

各エンコーダの出力信号、並びにコントローラからのフレーム分割及びフィルタ長の情報は、マルチプレクサ１６０の単一の送信（又は格納）信号に多重化されるのが好ましい。もっとも、出力信号は別個に送信（又は格納）されてもよい。

可変サイズのサブフレームを使用するいわゆる信号適応最適化フレーム処理 (signal-adaptive optimized frame processing) により、性能尺度を最適化するためにより高い自由度が得られる。シミュレーションによれば、いくつかのオーディオフレームでは、より長いフィルタの使用によって良い性能が得られたが、他のフレームに対しては、使用するフィルタ係数の数に比例して性能が向上するわけではないことがわかった。

可変フレーム長に対して、符号化フレームは、一般に種々のフレーム分割構成に従って複数のサブフレームに分割される。サブフレームは異なるサイズを有してもよいが、任意の所定のフレーム分割構成のサブフレームの長さの合計は、通常、符号化フレーム全体の長さに等しい。

例として引用することで本明細書に組み込まれる同時係属の米国特許出願第１１／０１１７６５号及び対応国際出願ＰＣＴ／ＳＥ２００４／００１８６７に記載されるように、複数の符号化スキームが提供されている。ここで、各符号化スキームは、それぞれのサブフレームを全部合わせると全体の符号化フレーム（マスタフレームとも呼ばれる）を構成するサブフレームセットを特徴とするか、又はそれに関連する。好ましくは、符号化される信号の信号コンテンツに少なくとも一部依存して、特定の符号化スキームが選択され、次いで信号は、選択されたサブフレームセットの各サブフレームでそれぞれ符号化される。

一般に符号化は、通常１度に１フレーム実施され、各フレームは通常所定の時間枠内の音声サンプルを備える。サンプルをフレームに分割すると、フレームの境界に切れ目が生じることが避けられない。音の変化に応じて符号化パラメータが変化するのだが、符号化パラメータは基本的に各フレーム境界で変化することになる。これが、知覚されてしまうような誤差となりうる。これを少しでも補償する一方法は、符号化されるサンプルだけでなく、フレームの絶対的に近いサンプルも基にして符号化することである。その方法で、異なるフレーム間の遷移が滑らかになるだろう。その代わりにあるいは追加的に、フレーム境界で生じる知覚歪みを減少させるために補間法も使用される。しかし、そのような手順はいずれも、大量の追加的な演算リソースが必要となり、そのような符号化技術に対してリソースを配分することは困難となる可能性もある。

この観点から考えると、フレームの境界数が少なくなるように、なるべく長いフレームを使用するほうが都合がよい。また、符号化効率も高くなり、必要な伝送ビットレートも低くできる。しかし、フレームが長いと、プリエコーやゴーストのような音の問題を引き起こす。

逆に短いフレームを利用すると、符号化効率は減少して伝送ビットレートは高くなり、フレーム境界の歪みの問題が増加しうることは、当業者なら誰でも理解するであろう。しかし、フレームが短くなると、例えばゴーストのような音やプリエコーなどの知覚歪みの影響であまり困ることはなくなる。符号化誤差をなるべく少なくするためには、できるだけ短いフレーム長を使用すべきである。

したがって、フレーム長については相反する要件が有るように見える。それ故、音声知覚のためには、符号化する信号に存在する信号特性に基づいたフレーム長を使用するのが好ましい。音声知覚に関するフレーム長の影響は符号化する音の性質に依存して異なるだろうから、信号自体の性質を使用するフレーム長に関係させることで改善が見込める。特に、この手順は、副信号符号化に好都合であるとわかっている。

小さな一時的変動のために、例えば場合によっては、比較的長いフレームを使用して副信号を符号化するほうがよいこともある。これに相当するのは、コンサートの録音などの拡散音場が大きい録音のこともある。ステレオ音声会話などのそれ以外の場合には、短いフレームが好ましい。

例えば、使用されるサブフレーム長は、次式により選ぶことができる。

ここで、ｌ_sfはサブフレーム長であり、ｌ_fは全体の符号化フレーム長であり、ｎは整数である。しかし、これが単なる例にすぎないことは理解されるべきである。サブフレームセットの合計長が一定に維持される限り、どのフレーム長も使用可能である。

どのフレーム長を使用するかの決定方法としては一般に、閉ループ決定又は開ループ決定の２つの基本的方法がある。

閉ループ決定を使用する場合、入力信号は通常すべての利用可能符号化スキームで符号化される。好ましくは、フレーム長のすべての可能な組み合わせがテストされ、目的の品質、例えば信号対雑音比や重み付き信号対雑音比について、最良の結果となる関連サブフレームセットを有する符号化スキームが選択される。

もう一方の手法は、信号の統計に基づく開ループ決定によるフレーム長の決定である。すなわち、この手法では、（副）信号のスペクトル特性が、どの符号化スキームを使用しようとしているかを決定する基礎として使用される。前述のように、様々なサブフレームセットを特徴とする様々な符号化スキームが利用可能である。しかし、この実施形態では、入力（副）信号がまず分析され、次に適切な符号化スキームが選択され利用される。

開ループ決定の利点は、実際にはただ１つの符号化しか実行しなくてもよいことである。反対に不利な点は、信号特性の分析が極めて複雑になることがあり、前もって起こりうる行動を予測することが難しいことである。

閉ループ選択を使用すると、符号化スキームは実装に何らの変更を起こすことなく、交換することが可能である。他方、多くの符号化スキームが調査される場合、計算上の要件が厳しくなる。

入力（副）信号に対するそのような可変フレーム長符号化の利点は、一方で精細な時間解像度と粗い周波数解像度との間で選択してもよく、他方で粗い時間解像度と精細な周波数解像度との間で選択してもよいことである。上記の実施形態は、マルチチャネル音像又はステレオ音像を可能な最善の方法で維持するであろう。

異なる符号化スキームで利用される実際の符号化については、幾つかの要件もある。特に、閉ループ選択を使用する場合、相当数のほぼ同時の符号化を実施するために、演算リソースが多くなくてはならない。符号化処理が複雑になればなるほど演算能力が必要となる。さらに、伝送の点で低ビットレートであることも望まれる。

本発明の例示の実施形態による可変長最適化フレーム処理 (Variable Length Optimized Frame Processing) は、入力として大きな「マスタフレーム」を必要とし、ある数のフレーム分割構成を与えられ、ＭＳＥや重み付きＭＳＥなどの歪み測定値に基づいて最適なフレーム分割構成を選択する。

フレーム分割は様々なサイズでもよいが、分割されたフレームの全部の合計はマスタフレームの全長となる。長さＬmsのマスタフレームについて可能なフレーム分割の一例を図６に示し、可能なフレーム構成の一例を図７に示す。

上述のように、概念としては、符号化フレーム（マスタフレーム）全体にわたる考慮する符号化処理又は符号化方式の性能を表す忠実度尺度を最適化するように、関連するフレーム分割構成及び各サブフレームのフィルタ長／次元数による符号化方式の組合せを選択することである。

全ての可能な組合せがテストされ、最適な信号対雑音比又は重み付き信号対雑音比等の品質評価値が最良となるサブフレームのセット及びフィルタ長による符号化方式を選択するとよい。

各サブフレームのフィルタ長を調整することができることで追加の自由度が提供され、一般に性能は向上する。この方式を使用する利点は、ステレオ又はマルチチャネル音像のダイナミクスが適切に表されることである。

自由度が高ければ最適な選択を見つけられる。しかし、復号化側に転送される制御情報量は増加してしまう。符号化側から復号化側への送信に必要とされる信号伝送量を低減するという特定の課題に対しては、ある特定の長さの各サブフレームが事前定義済みのフィルタ長と関連付けられるのが好ましい。通常、長いフィルタは長いフレームに割り当てられ、短いフィルタは短いフレームに割り当てられる。いずれにしても、所定の条件は、符号化フレームのサブフレームのセットへのフレーム分割構成を示すと共に各サブフレームに対して選択されるフィルタ次元数を示すように、各サブフレームのフィルタ長がサブフレームの長さに依存して選択されるという必要条件を含む。これにより、必要とされる復号化側への信号伝送量が低減される。

本発明の好適な実施形態においては、所定の条件は、各サブフレームのフィルタ長がサブフレームの長さに応じて制御されるという条件に従う、符号化フレーム全体にわたる第２の符号化処理の性能を表す尺度の最適化に基づく。

第１の符号化処理がサブフレームのセットへの符号化フレーム全体のフレーム分割構成によるいわゆる可変フレーム長処理を使用する場合、第２の符号化処理に対しても同一のフレーム分割構成を使用するのが有用である。このように、１つの符号化処理のみに対するフレーム分割構成を表す情報を信号で伝送することで十分である。

図６及び図７の特定の例を参照して、可能なフレーム構成を以下に示す。

（ｍ₁，ｍ₂，ｍ₃，ｍ₄）の形をしており、ここでｍ_kは、マスタフレーム内のＬ／４ミリ秒の長さのｋ番目の（サブ）フレームに対して選択されるフレームタイプを表す。例えば次の如くである。

ｍ_k＝０は、フィルタ長をＰとしてＬ／４ミリ秒のフレーム。
ｍ_k＝１は、フィルタ長を２×ＰとしてＬ／２ミリ秒のフレーム。
ｍ_k＝２は、フィルタ長を４×ＰとしてＬミリ秒の最大フレーム。

例えば、構成（０，０，１，１）は、Ｌミリ秒のマスタフレームが、フィルタ長をＰとするＬ／４ミリ秒の２つの（サブ）フレームと、これに続く、フィルタ長を２×ＰとするＬ／２ミリ秒の１つの（サブ）フレームとに分割されることを示す。また、構成（２，２，２，２）は、フィルタ長を４×ＰとするＬミリ秒のフレームが使用されることを示す。このように、（ｍ₁，ｍ₂，ｍ₃，ｍ₄）の情報は、フレーム分割の構成のみならずフィルタ長の情報も同時に示すことがわかる。

最適構成は、例えばＭＳＥ又は同等に最大ＳＮＲに基づき選択される。例えば、構成（０，０，１，１）が使用される場合、長さＰのフィルタ２つと長さ２×Ｐのフィルタ１つで、フィルタの合計数は３である。

その対応するフィルタとそれぞれの長さで、（ＳＮＲ又はＭＳＥで測定して）最良の性能となるフレーム構成が選択される。

フレーム選択前のフィルタの計算は、フィルタの量子化ステージを含むことで、開ループか又は閉ループのどちらでもよい。

この手法を使用する利点は、この手順ではステレオ音像又はマルチチャネル音像の躍動感がよく表現されることである。

可変フレーム長処理に伴って、エンコーダの分析窓同士のオーバーラップ長を異ならせるようにしてもよい。それ故デコーダでは、それに対応してチャネル信号の窓への合成や異なる信号長のオーバーラップ加算が不可欠である。

定常信号に関してはステレオ音像が非常に安定していて、推定チャネル・フィルタがまったく変動がないことはよくある。

図８は、本発明の好適な実施形態における基本的なマルチチャネル符号化手順を示す概略的なフローチャートである。ステップＳ１において、１つ以上のオーディオチャネルの第１の信号が、第１の符号化処理において符号化される。ステップＳ２において、フレーム分割構成と各サブフレームに対するフィルタ長との組合せが、フィルタに基づく第２の符号化処理に対して選択される。この選択手順は、性能尺度の最適化に基づいてもよい所定の条件に従って実行される。ステップＳ３において、第２の信号が、選択された組合せに従って符号化フレーム全体の各サブフレームにおいて符号化される。

復号化処理は周知のものであり、基本的には、着信データストリームの読み取り、データの変換、逆量子化、マルチチャネル音声信号の復元を含む。詳細には、第１の信号の復元データに応答して、前記複数チャネルのうち少なくとも１つの符号化された第１の信号が、第１の復号化処理において復号化される。また、第２の信号の復元データに応答して、前記複数チャネルのうち少なくとも１つの符号化された第２の信号が、第２の復号化処理において復号化される。少なくとも後者の場合、対応する第２の符号化処理において使用された、符号化フレーム全体のサブフレームのセットへのフレーム分割構成及び各サブフレームに対するフィルタ長を表す情報が、復号化側において受信される。この制御情報に基づいて、第２の復号化処理において第２の信号復元データを解釈する方法が判定される。

特に好適な実施形態において、制御情報は、符号化フレームのサブフレームのセットへのフレーム分割構成を示すと共に各サブフレームに対して選択されたフィルタ次元数を示すデータを含む。

より詳細な理解のために、主にステレオ（２チャネル）符号化及び復号化の例示的な実施形態を参照して本発明を説明する。なお、本発明は、一般に複数チャネルに適用可能である。例としては、５．１（左前方、中央前方、右前方、左後方、右後方、サブウーファー）又は２．１（左、右、及び中央のサブウーファー）マルチチャネルサウンドの符号化／復号化を含むが、それらに限定されない。

本発明は、副エンコーダ、主エンコーダ、あるいは副エンコーダ及び主エンコーダの双方に適用可能である。実際には、マルチチャネルエンコーダ全体においてＮ個のエンコーダの任意のサブセットに本発明を適用できる。

図９は、本発明の好適な実施形態におけるエンコーダの関連する部分を示す概略ブロック図である。エンコーダは、典型的なモノラル信号等の第１の（主）信号を符号化する第１（主）エンコーダ１３０、（補助／副）信号符号化に対する第２（補助／副）エンコーダ１４０、コントローラ１５０及びオプションのマルチプレクサ１６０を基本的に具備する。コントローラ１５０は、主信号及び副信号を受信でき、符号化フレーム全体のフレーム分割構成と各サブフレームのフィルタ長との組合せを最適に又は少なくとも次善に（所定の制約の下で）選択するために必要な計算を実行するように構成される。コントローラ１５０は、「別個の」コントローラであってもよく、あるいは副エンコーダ１４０に内蔵されてもよい。フレーム分割及びフィルタ長を表す符号化パラメータ及び情報は、マルチプレクサ１６０において単一の送信又は格納信号に多重化されるのが好ましい。

図１０は、本発明の別の例示的な実施形態によるエンコーダの関連する部分を示す概略ブロック図である。この特定の実現例において、ステレオ又はマルチチャネル符号器全体の各副エンコーダは、それぞれ内蔵されたコントローラを有する。副エンコーダ内のコントローラは、副符号化処理に対してフレーム分割構成及びフィルタ長を選択するように構成されることが好ましい。この選択は、エンコーダ性能の最適化及び／又は各サブフレームのフィルタ長がサブフレームの長さに依存して選択されるという条件に基づくとよい。

例えば、主エンコーダが符号化フレーム全体のサブフレームのセットへのフレーム分割構成によるいわゆる可変フレーム長処理を使用する場合、副エンコーダに対しても同一のフレーム分割構成を使用するのが有用である。これにより、１つのエンコーダのみに対するフレーム分割構成を表す情報を復号化側に送信することで十分である。通常、主エンコーダのコントローラは、符号化フレーム全体に対して使用するフレーム分割構成を副エンコーダのコントローラに信号で伝送し、副エンコーダのコントローラは、同一のフレーム分割を使用する。副符号化処理に対して２つの別の方法が存在する。すなわち、１）判定したフレーム分割がフィルタ長を直接制御するようにすること、あるいは、２）判定したフレーム分割に対してフィルタ長を自由に選択することである。当然、後者の方法の方が高い自由度を与えるが、多くの信号伝送量が必要になる可能性がある。前者の方法は、追加的な信号伝送量を必要としない。主エンコーダのコントローラが選択されたフレーム分割構成に関する情報を復号化側に送信し、復号化側がその情報を使用して送信された信号復元データを解釈し、符号化されたマルチチャネルオーディオ情報を正確に復号化することで十分である。しかし、フィルタ長の選択がある程度制限されるため、前者の方法は次善となる可能性はある。

図１１は、本発明の好適な実施形態におけるデコーダの関連する部分を示す概略ブロック図である。デコーダは、オプションのデマルチプレクサ２１０、第１（主）デコーダ２３０、第２（補助／副）デコーダ２４０、コントローラ２５０、オプションの信号結合部２６０及びオプションの後処理部２７０を基本的に具備する。デマルチプレクサ２１０は、第１の（主）信号の復元データ、第２の（補助／副）信号の復元データ、並びにフレーム分割構成及びフィルタ長に関する情報等の制御情報等の入力された復元情報を分離する。第１（主）デコーダ２３０は、符号化パラメータを表す第１の（主）信号の形式で通常提供される第１の（主）信号復元データに応答して、第１の（主）信号を復元する。第２（補助／副）デコーダ２４０は、量子化フィルタ係数及び復元された第１の信号に応答して、第２の（副）信号を復元する。第２（副）デコーダ２４０はコントローラ２５０により制御され、コントローラ２５０は副デコーダに内蔵されてもされなくてもよい。コントローラは、フレーム分割構成及びフィルタ長に関する情報を符号化側から受信し、それに従って副デコーダ２４０を制御する。

主エンコーダがフレーム分割構成によるいわゆる可変フレーム長処理を使用し、かつ、主エンコーダのコントローラが選択されたフレーム分割構成に関する情報を復号化側に送信する場合、副デコーダ２４０を制御する際に使用するために、主デコーダ２３０はオプションとしてコントローラ２５０にその情報を信号で伝送することが可能である（破線で示す）。

以下では、本発明の十分な理解に資するために、チャネル間予測などのパラメトリック符号化原理に基づく様々な例示の実施形態を参照して、本発明を詳細に説明する。

（チャネル間予測を使用するパラメトリック符号化）
一般に、チャネル間予測（ＩＣＰ）技術は、チャネル間に内在するチャネル間相関を利用する。ステレオ符号化では、チャネルは普通、左信号ｌ（ｎ）と右信号ｒ（ｎ）により表される。それと等価の表現は、モノラル信号ｍ（ｎ）（主信号の特殊な場合）及び副信号ｓ（ｎ）である。両方の表現は同等であり、通常は従来の行列演算で関連付けられる。

ＩＣＰ技術では予測値＾Ｓ（ｎ）で副信号ｓ（ｎ）を表すことを狙いとしている。予測値＾Ｓ（ｎ）は、モノラル信号ｍ（ｎ）を次式で表されるＮ個のフィルタ係数ｈ_t（ｉ）を有する時変ＦＩＲフィルタＨ（ｚ）でフィルタリングすることで取得される。

同じ方法が、左チャネルと右チャネルにも直接適用できることに注意すべきである。

エンコーダで推定されるＩＣＰフィルタは、副信号予測誤差ｅ（ｎ）の例えば平均二乗誤差（ＭＳＥ）又は関連する性能測定値、例えば心理音響的に重み付けした平均二乗誤差を最小化することで推定されうる。ＭＳＥは、通常次式で求められる。

上式で、Ｌはフレームサイズ、ＮはＩＣＰフィルタの長さ(length)／次数(order)／次元(dimension)である。簡単に言うと、ＩＣＰフィルタの性能ひいてはＭＳＥの大きさは、最終的にステレオ分離を決定する主要因である。副信号は左チャネルと右チャネルとの間の差を表現するので、正確な副信号の再現は十分な広がりのあるステレオ音像を確実にするのに必要不可欠である。

最適なフィルタ係数は、全サンプルにわたる予測誤差のＭＳＥを最小化することで見つけられ、次式で求められる。

式（４）の相関ベクトルｒ及び共分散行列Ｒは、以下により定義される。

ただし、

式（５）を式（３）に代入することにより、（量子化されていない）ＩＣＰフィルタの最小ＭＳＥ（ＭＭＳＥ）に関する単純化した代数式が得られる。

ただし、Ｐ_ssは副信号の電力であり、ｓ^Tｓとも表される。

ｒ＝Ｒｈ_optを式（７）に代入すると、次式が得られる。

ＲをＬＤＬＴ因数分解（文献[9]（非特許文献６）参照）すると、次の等式が得られる。

ここでまず、反復的な方法でｚを解く。

これから新しいベクトルｑ＝Ｌ^Tｈを導入する。行列Ｄは対角成分だけ０でない値をとるので、ｑを見つけるのは容易である。

求めるフィルタ・ベクトルｈは、式（１０）と同じ方法で反復的に計算できる。

正則行列反転に比べて計算量が節約できることのほかに、この解決策は異なる次元数ｎ（フィルタ長）に相当するフィルタ係数を効率的に計算する可能性を提供する。

最適ＩＣＰ（ＦＩＲ）フィルタ係数ｈ_optが推定され、量子化され、フレームごとにデコーダに送信されうる。

一般に、フィルタ係数はベクトルとして取り扱われ、そのベクトルはベクトル量子化（ＶＱ）を使用して効率的に量子化される。フィルタ係数の量子化は、ＩＣＰ符号化手順の最も重要な面の１つである。当然のことながら、フィルタ係数に関して持ち込まれる量子化雑音は、ＭＳＥの減少に直接関連することがある。

ＭＭＳＥは、前記したとおり、以下のように定義されている。

ｈ_optの量子化は、次式で表される量子化誤差ｅを生じる。

新しいＭＳＥは、次式のように表される。

Ｒｈ_opt＝ｒなので、式（１５）の最後の２項は打ち消され、量子化フィルタのＭＳＥは次式のようになる。

この意味することは、少しでも予測利得を得るためには、量子化誤差項の値は予測項の値未満、すなわち、

である必要があるということである。

一般に、長いベクトルの量子化は、大きな量子化誤差を生じる。なお、量子化ＩＣＰフィルタのＭＳＥは以下のように定義される。

取得されるＭＳＥは、選択したフィルタ次元数ｎと生じる量子化誤差とのトレードオフである。固定のビット数を仮定して、式（１７）が常に最小となるように、各フレームに対するフィルタ次元数を選択する方式を考える。

本発明の例示的な実施形態によれば、次式に従ってフレーム分割構成及びそのフィルタ長を選択するのが望ましい。

ただし、

上式において、Ｎは可能なフィルタ次元数ベクトルの集合、Ｍは可能なフレーム長構成の集合である。式（２０）は単なる例にすぎず、さまざまな変形例が存在することは理解すべきである。

上述した実施形態は単なる例示にすぎず、本発明が実施形態に限定されるものではない。本明細書の開示と特許請求の範囲に記載される基礎をなす原理を維持しつつ更に行う修正、変更、改善は、本発明の範疇に含まれる。

マルチチャネル符号化／復号化を使用する音声伝送システムの一般的な例を示すブロック図である。異なるチャネルの信号が個別で無関係な信号として、それぞれどのように符号化されるかを説明する図である。パラメトリック・ステレオ符号化の基本原理を示すブロック図である。モノラル信号と副信号とのクロススペクトルを示す図である。本発明の好適な実施形態におけるマルチチャネルエンコーダを示す概略ブロック図である。マスタフレームの異なるフレーム分割を示す概略的なタイミングチャートである。本発明の実施形態における異なるフレーム構成を示す図である。本発明の好適な実施形態におけ基本的なマルチチャネル符号化手順を示す概略的なフローチャートである。本発明の好適な実施形態におけるエンコーダの関連する部分を示す概略ブロック図である。本発明の別の実施形態におけるエンコーダの関連する部分を示す概略ブロック図である。本発明の好適な実施形態におけるデコーダを示す図である。

Claims

第１符号化処理において、マルチチャネルのうち少なくとも１つのチャネルの第１の信号を符号化するステップと、
フィルタに基づく第２の符号化処理において、前記マルチチャネルのうち少なくとも１つのチャネルの第２の信号を符号化するステップと、
を有する、マルチチャネルのオーディオ信号を符号化する符号化方法であって、
符号化フレーム全体にわたる前記第２の符号化処理の性能を表す忠実度尺度を最適化するように規定された所定の条件に従って、前記第２の符号化処理のために、ｉ）符号化フレーム全体の可変長サブフレームのセットへのフレーム分割構成と、ii）各サブフレームのフィルタ長との組合せを選択する選択ステップと、
フレーム全体に対して、選択された前記組合せに従って、選択された前記サブフレームのセットの各サブフレームにおいて前記第２の信号を符号化する符号化ステップと、
を有することを特徴とする符号化方法。
各サブフレームのフィルタ長は、サブフレームの長さに依存して選択されることを特徴とする請求項１記載の符号化方法。
前記所定の条件は、符号化フレームのサブフレームのセットへのフレーム分割構成が各サブフレームに対して選択されるフィルタ次元数を示すように、各サブフレームのフィルタ長がサブフレームの長さに依存して選択されるという必要条件を含むことを特徴とする請求項１記載の符号化方法。
前記所定の条件は、各サブフレームのフィルタ長がサブフレームの長さにより制御される符号化フレーム全体にわたる前記第２の符号化処理の性能を表す尺度の最適化に基づいたものであることを特徴とする請求項３記載の符号化方法。
前記第１の符号化処理も、符号化フレーム全体のサブフレームのセットへのフレーム分割構成に基づき行われ、
前記所定の条件は、前記第２の符号化処理のための符号化フレーム全体のサブフレームのセットへの前記フレーム分割構成が前記第１の符号化処理の前記フレーム分割構成と同一となるように選択されるという必要条件を含む
ことを特徴とする請求項１記載の符号化方法。
選択された前記フレーム分割構成及び選択された前記フレーム分割構成の各サブフレームのフィルタ長を表す出力データを生成するステップを有することを特徴とする請求項１記載の符号化方法。
前記選択ステップと前記符号化ステップは、フレーム毎に実行されることを特徴とする請求項１記載の符号化方法。
前記選択ステップは、マルチチャネルのオーディオ信号のチャネル間相関特性に基づいて実行されることを特徴とする請求項１記載の符号化方法。
前記第２の符号化処理は、前記第１及び第２の信号に基づく前記第２の信号の予測のために調整可能なフィルタ長を有するチャネル間予測フィルタによる適応チャネル間予測を含むことを特徴とする請求項１記載の符号化方法。
前記選択ステップは前記第２の符号化処理の推定性能に基づいて実行されることを特徴とする請求項９記載の符号化方法。
前記選択ステップは補助符号化処理に対して実行されるステップであって、前記第２の符号化処理は補助符号化処理であり、前記第１の符号化処理は主符号化処理であることを特徴とする請求項１記載の符号化方法。
前記選択ステップは主符号化処理に対して実行されるステップであって、前記第２の符号化処理は主符号化処理であり、前記第１の符号化処理は補助符号化処理であることを特徴とする請求項１記載の符号化方法。
前記選択ステップは前記第１の符号化処理及び前記第２の符号化処理の双方に対して実行されることを特徴とする請求項１記載の符号化方法。
マルチチャネルのうち少なくとも１つのチャネルの第１の信号を符号化する第１エンコーダと、
前記マルチチャネルのうち少なくとも１つのチャネルの第２の信号を符号化する、フィルタに基づく第２エンコーダと、
を備える、マルチチャネルのオーディオ信号を符号化する符号化装置であって、
符号化フレーム全体にわたる前記第２の符号化処理の性能を表す忠実度尺度を最適化するように規定された所定の条件に従って、前記第２エンコーダのために、ｉ）符号化フレーム全体の可変長サブフレームのセットへのフレーム分割構成と、ii）各サブフレームのフィルタ長との組合せを選択する選択手段と、
フレーム全体に対して、選択された前記組合せに従って、選択された前記サブフレームのセットの各サブフレームにおいて前記第２の信号を符号化する符号化手段と、
を備えることを特徴とする符号化装置。
前記選択手段は、前記サブフレームの長さに従って依存して各サブフレームのフィルタ長を選択することを特徴とする請求項１４記載の符号化装置。
前記選択手段は、符号化フレームのサブフレームのセットへのフレーム分割構成が各サブフレームに対して選択されるフィルタ次元数を示すように、各サブフレームのフィルタ長がサブフレームの長さに依存して選択されるという必要条件に基づいて動作することを特徴とする請求項１４記載の符号化装置。
前記選択手段は、各サブフレームのフィルタ長がサブフレームの長さにより制御される符号化フレーム全体にわたる前記第２の符号化処理の性能を表す尺度の最適化に基づいて動作することを特徴とする請求項１６記載の符号化装置。
前記第１エンコーダも、符号化フレーム全体のサブフレームのセットへのフレーム分割構成に基づいて動作し、
前記選択手段は、前記第２の符号化処理のための符号化フレーム全体のサブフレームのセットへの前記フレーム分割構成が前記第１の符号化処理の前記フレーム分割構成と同一となるように選択されるという必要条件の下で動作することを特徴とする請求項１４記載の符号化装置。
選択された前記フレーム分割構成及び選択された前記フレーム分割構成の各サブフレームのフィルタ長を表す出力データを生成する生成手段を備えることを特徴とする請求項１４記載の符号化装置。
前記選択手段及び前記符号化手段は、フレーム毎に動作可能であることを特徴とする請求項１４記載の符号化装置。
前記選択手段は、マルチチャネルのオーディオ信号のチャネル間相関特性に応じて動作することを特徴とする請求項１４記載の符号化装置。
前記第２エンコーダは、前記第１及び第２の信号に基づく前記第２の信号の予測のための適応チャネル間予測フィルタを含み、各サブフレームに対して選択されるフィルタ長は、前記チャネル間予測フィルタのフィルタ長に関連することを特徴とする請求項１４記載の符号化装置。
前記選択手段は前記第２の符号化処理の推定性能に応じて動作することを特徴とする請求項２２記載の符号化装置。
前記選択手段は、フレーム分割構成と補助エンコーダのための各サブフレームのフィルタ長との組合せを選択するように構成され、前記第２エンコーダは補助エンコーダであり、前記第１エンコーダは主エンコーダであることを特徴とする請求項１４記載の符号化装置。
前記選択手段は、フレーム分割構成と主エンコーダのための各サブフレームのフィルタ長との組合せを選択するように構成され、前記第２エンコーダは主エンコーダであり、前記第１エンコーダは補助エンコーダであることを特徴とする請求項１４記載の符号化装置。
前記選択手段は、フレーム分割構成と前記第１エンコーダ及び前記第２エンコーダの双方に対する各サブフレームのフィルタ長との組合せを選択するように構成されることを特徴とする請求項１４記載の符号化装置。
第１の信号復元データに応答して、第１の復号化処理において、マルチチャネルのうち少なくとも１つのチャネルの符号化された第１の信号を復号化するステップと、
第２の信号復元データに応答して、第２の復号化処理において、前記マルチチャネルのうち少なくとも１つのチャネルの符号化された第２の信号を復号化するステップと、
を有する、符号化されたマルチチャネルのオーディオ信号を復号化する復号化方法であって、
対応する第２の符号化処理において使用された符号化フレーム全体の可変長サブフレームのセットへのフレーム分割構成と各サブフレームのフィルタ長とを表す情報を受信する受信ステップと、
前記第２の復号化処理において前記第２の信号復元データを解釈する方法を前記情報に基づいて決定する決定ステップと、
を有することを特徴とする復号化方法。
各サブフレームのフィルタ長はサブフレームの長さに依存して選択され、前記情報は、符号化フレームのサブフレームのセットへのフレーム分割構成を示すと共に各サブフレームに対して選択されたフィルタ次元数を示すデータを含むことを特徴とする請求項２７記載の復号化方法。
第１の信号復元データに応答して、第１の復号化処理において、マルチチャネルのうち少なくとも１つのチャネルの符号化された第１の信号を復号化する手段と、
第２の信号復元データに応答して、第２の復号化処理において、前記マルチチャネルのうち少なくとも１つのチャネルの符号化された第２の信号を復号化する手段と、
を有する、符号化されたマルチチャネルのオーディオ信号を復号化する復号化装置であって、
対応する第２の符号化処理において使用された符号化フレーム全体の可変長サブフレームのセットへのフレーム分割構成と各サブフレームのフィルタ長とを表す情報を受信する受信手段と、
前記第２の復号化処理において前記第２の信号復元データを解釈する方法を前記情報に基づいて決定する決定手段と、
を有することを特徴とする復号化装置。
各サブフレームのフィルタ長はサブフレームの長さに依存して選択され、前記情報は、符号化フレームのサブフレームのセットへのフレーム分割構成を示すと共に各サブフレームに対して選択されたフィルタ次元数を示すデータを含むことを特徴とする請求項２９記載の復号化装置。
請求項１４記載の符号化装置と、請求項２９記載の復号化装置とを備えることを特徴とするオーディオ送信システム。