[go: up one dir, main page]

JP2009524108A - 拡張帯域周波数コーディングによる複素変換チャネルコーディング - Google Patents

拡張帯域周波数コーディングによる複素変換チャネルコーディング Download PDF

Info

Publication number
JP2009524108A
JP2009524108A JP2008551278A JP2008551278A JP2009524108A JP 2009524108 A JP2009524108 A JP 2009524108A JP 2008551278 A JP2008551278 A JP 2008551278A JP 2008551278 A JP2008551278 A JP 2008551278A JP 2009524108 A JP2009524108 A JP 2009524108A
Authority
JP
Japan
Prior art keywords
channel
coding
audio
extension
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008551278A
Other languages
English (en)
Inventor
メヘロートラー サンジーブ
チェン ウェイ−グ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2009524108A publication Critical patent/JP2009524108A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オーディオエンコーダは、複数のソースチャネルのグループを備えるマルチチャネルオーディオデータを受信し、グループの結合チャネルをエンコードすることと、グループの個々のソースチャネルをエンコードされた結合チャネルの変更バージョンとして表すための複数のパラメータを決定することとを備えるチャネル拡張コーディングを実行する。エンコーダはまた、周波数拡張コーディングを実行する。周波数拡張コーディングは、例えば、マルチチャネルオーディオデータの周波数帯域をベースバンドグループと拡張帯域グループに分割すること、および拡張帯域グループのオーディオ係数をベースバンドグループのオーディオ係数に基づいてコーディングすることを備えることができる。エンコーダはまた、その他の種類の変換を実行することができる。オーディオデコーダは、順複素変換など、対応するデコーディングおよび/または追加処理タスクを実行する。

Description

エンジニアは、デジタルオーディオを効率的に処理し、しかもデジタルオーディオの品質を維持し続けるために様々な技法を使用する。それらの技法を理解するため、オーディオ情報がコンピュータにおいてどのように表現され、処理されるかを理解することが役立つ。
I.コンピュータにおけるオーディオ情報の表現
コンピュータは、オーディオ情報を表す一連の数字として、オーディオ情報を処理する。例えば、1つの数字は音声サンプルを表すことができるが、これは特定の時間における振幅値である。サンプル深度、サンプリングレート、およびチャネルモードを含むいくつかの要因は、オーディオ情報の品質に影響を与える。
サンプル深度(または精度)は、サンプルを表すために使用される数字の範囲を示す。サンプルに可能な値が多くなれば、数字が振幅のより微妙な変動を取り込むことができるので、それに応じて品質も高まる。例えば、8ビットのサンプルは256の可能な値を有し、16ビットのサンプルは65,536の可能な値を有する。サンプリングレート(通常は、秒あたりのサンプル数として測定される)もまた、品質に影響を与える。サンプリングレートが高くなれば、音のより多くの周波数を表現できるので、それに応じて品質も高くなる。一般的なサンプリングレートには、8,000、11,025、22,050、32,000、44,100、48,000、および96,000サンプル/秒などがある。
モノラルおよびステレオは、オーディオの2つの代表的なチャネルモードである。モノラルモードにおいて、オーディオ情報は1つのチャネルに存在する。ステレオモードにおいて、オーディオ情報は、通常は左チャネルおよび右チャネルとラベル表示される2つのチャネルに存在する。5.1チャネル、7.1チャネル、または9.1チャネルのサラウンドサウンド(「1」はサブウーファまたは低周波効果チャネルを示す)のような、さらに多くのチャネルを備える他のモードも可能である。表1に、様々な品質レベルを備えるオーディオのいくつかの形式を、対応するロービットレートのコストと共に示す。
Figure 2009524108
サラウンドサウンドオーディオは通常、さらに高いロービットレートを有する。
表1で示すように、高品質オーディオ情報のコストは、高いビットレートである。高品質なオーディオ情報は、膨大量のコンピュータストレージと伝送能力を消費する。しかし、企業および消費者は、高品質のオーディオコンテンツを制作し、配信し、再生するために、ますますコンピュータへの依存度を高めている。
II.コンピュータにおけるオーディオ情報の処理
多くのコンピュータおよびコンピュータネットワークには、ローデジタルオーディオを処理するリソースが不足している。圧縮(エンコーディングまたはコーディングとも呼ばれる)は、情報を低ビットレート形式に変換することにより、オーディオ情報を格納して伝送するコストを軽減する。解凍(デコーディングとも呼ばれる)は、元の情報の再構築バージョンを圧縮された形式から抽出する。エンコーダおよびデコーダシステムは、本件特許出願人のWindows(登録商標)Media Audio(「WMA」)エンコーダおよびデコーダと、WMA Proエンコーダおよびデコーダの特定のバージョンを含む。
圧縮は、可逆(品質は影響を受けない)または不可逆(品質は影響を受けるが、後続の可逆圧縮からのビットレート減少はより劇的)のいずれかになりうる。例えば、不可逆圧縮は、元のオーディオ情報に近づけるために使用され、次いで近似値が可逆圧縮される。可逆圧縮技法は、ランレングスコーディング、ランレベルコーディング、可変長コーディング、および算術コーディングを含む。対応する解凍技法(エントロピーデコーディング技法とも呼ばれる)は、ランレングスデコーディング、ランレベルデコーディング、可変長デコーディング、および算術デコーディングを含む。
オーディオ圧縮の1つの目的は、オーディオ信号をデジタルで表現して、可能な最小のビット量で最大の知覚信号品質を提供することである。この目的を目標として、様々な最新のオーディオエンコーディングシステムでは多種多様な不可逆圧縮技法を利用する。これらの不可逆圧縮技法は通常、周波数変換後の知覚モデリング/加重および量子化を伴う。対応する解凍は、逆量子化、逆加重、および逆周波数変換を伴う。
周波数変換技法は、知覚的に重要な情報を知覚的に重要ではない情報と容易に区別できるようにする形式にデータを変換する。次いで、重要ではない情報には、さらに不可逆な圧縮が行われるが、より重要な情報は保持されて、所定のビットレートに対して最善の知覚品質をもたらすことができるようになっている。周波数変換は通常、オーディオサンプルを受信して、それらを時間領域から、周波数係数またはスペクトル係数と呼ばれることもある周波数領域のデータに変換する。
知覚モデリングは、人間の聴覚系のモデルに従って、オーディオデータを処理し、所定のビットレートに対する再構築されたオーディオ信号の知覚品質を向上させることを伴う。例えば、聴覚モデルは通常、人間の聴力の範囲と臨界帯域を考慮する。知覚モデリングの結果を使用して、エンコーダは、所定のビットレートに対する歪みの可聴性を最小化することを目的として、オーディオデータの歪み(例えば、量子化ノイズ)を成形する。
量子化は入力値の範囲を単一値にマップし、情報の不可逆的損失を生じさせるが、同時にエンコーダが出力の品質およびビットレートを制御できるようにする。場合によっては、エンコーダは、量子化を調整するレートコントローラと共に量子化を実行して、ビットレートおよび/または品質を制御する。量子化には、適応および非適応、スカラーおよびベクトル、均一および不均一を含む、様々な種類がある。知覚加重は、不均一量子化の形式と見なされうる。逆量子化および逆加重は、加重されて量子化された周波数係数データを、元の周波数係数データの近似に再構築する。次いで、逆周波数変換は、再構築された周波数係数データを、再構築された時間領域オーディオサンプルに変換する。
オーディオチャネルのジョイントコーディングは、複数チャネルからの情報を一緒にコーディングしてビットレートを減少させることを伴う。例えば、ミッド/サイドコーディング(M/Sコーディングまたは和−差コーディングとも呼ばれる)は、エンコーダにおいて左右のステレオチャネルに行列演算を実行して、結果として得られた「ミッド」および「サイド」チャネル(正規化された和および差チャネル)をデコーダに送信することを伴う。デコーダは、「ミッド」および「サイド」チャネルから実際の物理チャネルを再構築する。M/Sコーディングは可逆的であり、他の不可逆技法(例えば、量子化)がエンコーディングプロセスに使用されない場合、完全な再構築を可能にする。
強度ステレオコーディングは、低ビットレートにおいて使用することができる不可逆ジョイントコーディング技法の例である。強度ステレオコーディングは、エンコーダにおいて左右のチャネルを合計してから、左および右チャネルの再構築中にデコーダにおいて和チャネルからの情報を基準化することを伴う。通常、強度ステレオコーディングは、この不可逆技法によってもたらされるアーティファクトが目立たないようなより高い周波数において実行される。
メディア処理に対する圧縮および解凍の重要性を考慮すれば、圧縮および解凍が十分に開発された分野であることは驚くにはあたらない。しかし、従来の技法およびシステムの利点がどのようなものであれ、本明細書において説明される技法およびシステムの様々な利点を備えてはいない。
米国特許出願公開第2004−0049379号明細書 M. R. Schroeder and B. F. Logan, "'Colorless' Artificial Reverberation," 12th Ann. Meeting of the Audio Eng'g Soc., 18 pp. (1960)
この発明の開示は、以下の発明を実施するための最良の形態においてさらに説明される一連の概念を簡略化された形態で示すために提供される。この発明の開示は、請求項に係る主題の重要な特徴または基本的特徴を特定することを意図するものではなく、また請求項に係る主題の範囲を限定するために使用されることを意図するものでもない。
要約すると、発明を実施するための最良の形態は、マルチチャネルオーディオをエンコードおよびデコードするための方策を対象としている。例えば、オーディオエンコーダは、マルチチャネルオーディオデータの品質および/またはビットレートを向上させるために、1つまたは複数の技法を使用する。これは、全般的な聴取エクスペリエンスを改善し、コンピュータシステムを、高品質マルチチャネルオーディオの制作、配信、および再生用のさらに一層説得力あるプラットフォームにする。本明細書において説明されるエンコーディングおよびデコーディングの方策は、組み合わせても単独でも使用することができる様々な技法およびツールを含む。
例えば、オーディオエンコーダは、マルチチャネルオーディオデータを受信し、マルチチャネルオーディオデータは複数のソースチャネルのグループを備える。エンコーダは、マルチチャネルオーディオデータにチャネル拡張コーディングを実行する。チャネル拡張コーディングは、グループの結合チャネルをエンコードすること、およびグループの個々のソースチャネルをエンコードされた結合チャネルの変更バージョンとして表すための複数のパラメータを決定することを備える。エンコーダはまた、マルチチャネルオーディオデータに周波数拡張コーディングを実行する。周波数拡張コーディングは、例えば、マルチチャネルオーディオデータの周波数帯域をベースバンドグループと拡張帯域グループに分割すること、および拡張帯域グループのオーディオ係数をベースバンドグループのオーディオ係数に基づいてコーディングすることを備えることができる。
もう1つの例において、オーディオデコーダは、チャネル拡張コーディングデータおよび周波数拡張コーディングデータを備えるエンコードされたマルチチャネルオーディオデータを受信する。デコーダは、チャネル拡張コーディングデータおよび周波数拡張コーディングデータを使用して複数のオーディオチャネルを再構築する。チャネル拡張コーディングデータは、複数のオーディオチャネルの結合チャネル、および複数のオーディオチャネルの個々のチャネルを結合チャネルの変更バージョンとして表すための複数のパラメータを備える。
もう1つの例として、オーディオデコーダは、マルチチャネルオーディオデータを受信し、受信したマルチチャネルオーディオデータに、逆マルチチャネル変換、逆基本時間−周波数変換、周波数拡張処理、およびチャネル拡張処理を実行する。デコーダは、エンコーダにおいて実行されたエンコーディングに対応するデコーディング、および/または受信データに順複素変換などの追加のステップを実行することができ、様々な順序でステップを実行することができる。
本明細書においてオーディオエンコーダに関して説明される態様のいくつかに対して、オーディオデコーダは対応する処理およびデコーディングを実行する。
前述のおよびその他の目的、特徴および利点は、添付の図を参照して進められる以下の詳細な説明から明らかとなろう。
オーディオ情報を表現、コーディング、およびデコーディングするための様々な技法およびツールが説明される。これらの技法およびツールは、たとえ非常に低いビットレートであっても、高品質のオーディオコンテンツの制作、配信、および再生を容易にする。
本明細書において説明される様々な技法およびツールは、単独で使用することができる。一部の技法およびツールには、(例えば、複合エンコーディングおよび/またはデコーディングプロセスの様々な局面において)組み合わせて使用することができるものもある。
様々な技法は、処理動作の流れ図を参照して以下で説明される。流れ図に示される様々な処理動作は、さらに少ない動作に統合することも、またはさらに多くの動作に分割することもできる。簡略化するために、特定の流れ図に示されている動作と、他の場所に説明される動作との関係が示されない場合が多い。多くの場合、流れ図内の動作は順序付けられてもよい。
詳細な説明の多くは、オーディオ情報を表現、コーディング、およびデコーディングすることに対処する。オーディオ情報を表現、コーディング、およびデコーディングするための、本明細書において説明される技法およびツールの多くはまた、ビデオ情報、静止画像情報、または単一または複数チャネルで送信されるその他のメディア情報にも適用することができる。
I.コンピューティング環境
図1は、説明される実施形態を実施することができる適切なコンピューティング環境100の一般的な例を示す。説明されている実施形態は様々な汎用または特殊用途のコンピューティング環境において実施することができるので、コンピューティング環境100は、使用または機能の範囲に関して何らかの限定を示すことを意図してはいない。
図1を参照すると、コンピューティング環境100は、少なくとも1つの処理装置110およびメモリ120を含む。図1において、この最も基本的な構成130は、破線内に含まれている。処理装置110は、コンピュータ実行可能命令を実行し、実際のプロセッサまたは仮想プロセッサのいずれであってもよい。マルチプロセッシングシステムにおいては、複数の処理装置がコンピュータ実行可能命令を実行して、処理能力を増大させる。メモリ120は、揮発性メモリ(例えば、レジスタ、キャッシュ、RAM)、不揮発性メモリ(例えば、ROM、EEPROM、フラッシュメモリ)、またはこの2つの組合せであってもよい。メモリ120は、説明されている実施形態の1つまたは複数に従って1つまたは複数のオーディオ処理技法および/またはシステムを実施するソフトウェア180を格納する。
コンピューティング環境は、追加の特徴を備えることもできる。例えば、コンピューティング環境100は、ストレージ140、1つまたは複数の入力装置150、1つまたは複数の出力装置160、および1つまたは複数の通信接続170を含む。バス、コントローラ、またはネットワークなどの相互接続機構(図示せず)は、コンピューティング環境100のコンポーネントを相互接続する。通常、オペレーティングシステムソフトウェア(図示せず)は、コンピューティング環境100において実行するソフトウェアのためのオペレーティング環境を提供し、コンピューティング環境100のコンポーネントのアクティビティを調整する。
ストレージ140は、取り外し可能または固定式であってもよく、磁気ディスク、磁気テープまたはカセット、CD、DVD、あるいは情報を格納するために使用することができ、コンピューティング環境100内でアクセスすることができる任意の他の媒体を含む。ストレージ140は、ソフトウェア180の命令を格納する。
入力装置150は、キーボード、マウス、ペン、タッチスクリーンまたはトラックボールなどのタッチ入力装置、音声入力装置、スキャニング装置、またはコンピューティング環境100に入力を提供する他の装置であってもよい。オーディオまたはビデオの場合、入力装置150は、マイクロフォン、サウンドカード、ビデオカード、TVチューナカード、あるいはアナログまたはデジタル形式のオーディオまたはビデオ入力を受け入れる同様の装置、あるいはオーディオまたはビデオサンプルをコンピューティング環境に読み込むCDまたはDVDであってもよい。出力装置160は、ディスプレイ、プリンタ、スピーカ、CD/DVDライター、ネットワークアダプタ、またはコンピューティング環境100から出力を提供する他の装置であってもよい。
通信接続170は、通信媒体を介して1つまたは複数の他のコンピューティングエンティティへの通信を可能にする。通信媒体は、コンピュータ実行可能命令などの情報、オーディオまたはビデオ情報、あるいはその他のデータをデータ信号で伝達する。変調データ信号は、1つまたは複数の特性セットを備える信号、または信号の情報をエンコードするような方法で変更された信号である。一例として、通信媒体は、電気、光学、RF、赤外線、音響、または他の通信事業者により実施される有線または無線の技法を含むが、これらに限定されることはない。
実施形態は、コンピュータ可読媒体の一般的なコンテキストに即して説明することができる。コンピュータ可読媒体は、コンピューティング環境内でアクセスすることができる任意の使用可能な媒体である。一例として、コンピューティング環境100において、コンピュータ可読媒体は、メモリ120、ストレージ140、通信媒体、および上記の任意の組合せを含むが、これらに限定されることはない。
実施形態は、ターゲットの実際または仮想プロセッサ上でコンピューティング環境において実行される、プログラムモジュールに含まれているような、コンピュータ実行可能命令の一般的なコンテキストに即して説明することができる。一般に、プログラムモジュールは、特定のタスクを実行するかまたは特定のデータタイプを実施するルーチン、プログラム、ライブラリ、オブジェクト、クラス、コンポーネント、データ構造などを含む。プログラムモジュールの機能は、様々な実施形態における要求に合わせてプログラムモジュール間で組み合わされても、または分離されてもよい。プログラムモジュールのコンピュータ実行可能命令は、ローカルまたは分散のコンピューティング環境内で実行されてもよい。
提示の便宜上、発明を実施するための最良の形態では、コンピューティング環境におけるコンピュータオペレーションを説明するために、「決定する(determine)」、「受信する(receive)」、および「実行する(perform)」などの用語を使用する。これらの用語は、コンピュータによって実行されるオペレーションのハイレベルな抽象化であり、人間によって行われる動作と混乱すべきではない。これらの用語に対応する実際のコンピュータオペレーションは、実施態様によって異なる。
II.例示のエンコーダおよびデコーダ
図2は、1つまたは複数の説明されている実施形態が実施されうる第1のオーディオエンコーダ200を示す。エンコーダ200は、変換ベースの、知覚オーディオエンコーダ200である。図3は、対応するオーディオデコーダ300を示す。
図4は、1つまたは複数の説明されている実施形態が実施されうる第2のオーディオエンコーダ400を示す。エンコーダ400は、この場合も同様に、変換ベースの、知覚オーディオエンコーダであるが、エンコーダ400は、マルチチャネルオーディオを処理するためのモジュールなど、追加のモジュールを含む。図5は、対応するオーディオデコーダ500を示す。
図2から図5において示されるシステムは一般化されているが、各々は実世界のシステムに見られる特徴を備えている。いずれにせよ、エンコーダおよびデコーダ内のモジュール間に示される関係は、エンコーダおよびデコーダにおける情報の流れを示す。その他の関係は、簡略にするために示されていない。実施態様および望ましい圧縮のタイプに応じて、エンコーダまたはデコーダのモジュールは、追加、省略、複数モジュールへの分割、他のモジュールとの組合せ、および/または類似したモジュールへの置き換えが行われてもよい。代替の実施形態において、様々なモジュールおよび/または他の構成を備えるエンコーダまたはデコーダは、1つまたは複数の説明されている実施形態に従って、オーディオデータまたは他のタイプのデータを処理する。
A.第1のオーディオエンコーダ
エンコーダ200は、あるサンプル深度およびレートにおける入力オーディオサンプル205の時系列を受信する。入力オーディオサンプル205は、マルチチャネルオーディオ(例えば、ステレオ)またはモノオーディオ向けのものである。エンコーダ200は、オーディオサンプル205を圧縮し、エンコーダ200の様々なモジュールによって生成される情報を多重化して、WMA形式などの圧縮形式、Advanced Streaming Format(「ASF」)などのコンテナ形式、または他の圧縮またはコンテナ形式でビットストリーム295を出力する。
周波数変換器210は、オーディオサンプル205を受信して、それらを周波数(またはスペクトル)領域のデータに変換する。例えば、周波数変換器210は、フレームのオーディオサンプル205をサブフレームブロックに分割するが、これは可変の時間解像度を許容するように様々なサイズに変更することができる。ブロックは重なり合って、そうしなかった場合には後の量子化によってもたらされるであろうブロック間の感じ取れるほどの不連続を軽減することができる。周波数変換器210は、経時変化変調重複変換(Modulated Lapped Transform)(「MLT」)、変調DCT(「MDCT」)、MLTまたはDCTの他の変形、あるいは他のタイプの変調または非変調、重複または非重複の周波数変換をブロックに適用するか、もしくはサブバンドまたはウェーブレットコーディングを使用する。周波数変換器210は、スペクトル係数データのブロックを出力し、ブロックサイズなどのサイド情報をマルチプレクサ(「MUX」)280に出力する。
マルチチャネルオーディオデータの場合、マルチチャネル変換器220は、複数の単独にコーディングされた元のチャネルを、合同でコーディングされたチャネルに変換することができる。あるいは、マルチチャネル変換器220は、単独にコーディングされたチャネルとして、左右のチャネルを通過させることができる。マルチチャネル変換器220は、使用されるチャネルモードを示すサイド情報をMUX280に生成する。エンコーダ200は、マルチチャネル変換後に、マルチチャネル再行列化をオーディオデータのブロックに適用することができる。
知覚モデラー230は、人間の聴覚系の特性をモデル化して、所定のビットレートに対する再構築されたオーディオ信号の知覚品質を向上させる。知覚モデラー230は、様々な聴覚モデルのいずれかを使用し、励起パターン情報またはその他の情報を加重器240に渡す。例えば、聴覚モデルは通常、人間の聴力の範囲と臨界帯域(例えば、Bark帯域)を考慮する。範囲と臨界帯域とは別に、オーディオ信号間の相互作用は、知覚に劇的な影響を及ぼす可能性がある。加えて、聴覚モデルは、人間の音知覚の身体的または神経的側面に関連する様々な他の要因を考慮することができる。
知覚モデラー230は、加重器240が、オーディオデータのノイズを成形して、ノイズの可聴性を軽減するために使用する情報を出力する。例えば、様々な技法のいずれかを使用して、加重器240は、受信した情報に基づいて量子化行列(マスクと呼ばれることもある)の加重係数を生成する。量子化行列の加重係数は、行列内の複数の量子化帯域の各々の重みを含み、ここで量子化帯域は周波数係数の周波数範囲である。したがって、加重係数は、ノイズ/量子化エラーが量子化帯域にわたり拡散される比率を示し、それにより、聞き取りにくい帯域にさらに多くのノイズを加えることによってノイズの可聴性を最小化すること(逆の場合も同じ)を目的として、ノイズ/量子化エラーのスペクトル/時間的分布を制御する。
次いで、加重器240は、マルチチャネル変換器220から受信したデータに加重係数を適用する。
量子化器250は、加重器240の出力を量子化し、量子化された係数データをエントロピーエンコーダ260に生成して、量子化ステップサイズを含むサイド情報をMUX280に生成する。図2において、量子化器250は、適応型の均一なスカラー量子化器である。量子化器250は、同じ量子化ステップサイズを各スペクトル係数に適用するが、量子化ステップサイズ自体は、量子化ループの1回の反復ごとに変化して、エントロピーエンコーダ260出力のビットレートに影響を及ぼすことができる。その他の量子化の種類には、不均一のベクトル量子化、および/または非適応量子化がある。
エントロピーエンコーダ260は、例えば実行レベルコーディングおよびベクトル可変長コーディングを実行するなどして、量子化器250から受信した量子化係数データを可逆圧縮する。エントロピーエンコーダ260は、オーディオ情報のエンコーディングに費やされるビット数を計算して、その情報をレート/品質コントローラ270に渡すことができる。
コントローラ270は、エンコーダ200の出力のビットレートおよび/または品質を制御するために量子化器250と連動する。コントローラ270は、ビットレートおよび品質の制約を満足することを目的として、量子化ステップサイズを量子化器250に出力する。
加えて、エンコーダ200は、ノイズ置換および/または帯域切捨てをオーディオデータのブロックに適用することができる。
MUX280は、オーディオエンコーダ200の他のモジュールから受信したサイド情報を、エントロピーエンコーダ260から受信したエントロピーエンコードデータと共に多重化する。MUX280は、エンコーダ200によって出力されるべきビットストリーム295を格納する仮想バッファを含むことができる。
B.第1のオーディオデコーダ
デコーダ300は、エントロピーエンコードデータおよびサイド情報を含む圧縮オーディオ情報のビットストリーム305を受信するが、デコーダ300はそのビットストリームからオーディオサンプル395を再構築する。
デマルチプレクサ(「DEMUX」)310は、ビットストリーム305の情報を解析し、情報をデコーダ300のモジュールに送信する。DEMUX310は、オーディオの複雑さのばらつき、ネットワークジッタ、および/または他の要因によるビットレートの短期的な変動を補償するための、1つまたは複数のバッファを含む。
エントロピーデコーダ320は、DEMUX310から受信したエントロピーコードを可逆解凍して、量子化スペクトル係数データを生成する。エントロピーデコーダ320は通常、エンコーダにおいて使用されるエントロピーエンコーディング技法の逆を適用する。
逆量子化器330は、DEMUX310から量子化ステップサイズを受信し、エントロピーデコーダ320から量子化スペクトル係数データを受信する。逆量子化器330は、量子化ステップサイズを量子化された周波数係数データに適用して、周波数係数データを部分的に再構築するか、あるいは逆量子化を実行する。
DEMUX310から、ノイズ発生器340は、データのブロックのどの帯域がノイズ置換されているか、およびノイズの形態のパラメータであるかを示す情報を受信する。ノイズ発生器340は、示される帯域のパターンを生成し、逆加重器350に情報を渡す。
逆加重器350は、DEMUX310から加重係数を、ノイズ発生器340からノイズ置換された帯域のパターンを、および逆量子化器330から部分的に再構築された周波数係数データを受信する。必要に応じて、逆加重器350は加重係数を解凍する。逆加重器350は、ノイズ置換されていない帯域の部分的に再構築された周波数係数データに、加重係数を適用する。次いで、逆加重器350は、ノイズ置換された帯域のノイズ発生器340から受信したノイズパターンを加える。
逆マルチチャネル変換器360は、逆加重器350から再構築されたスペクトル係数データを、およびDEMUX310からチャネルモード情報を受信する。マルチチャネルオーディオが単独にコーディングされたチャネルにある場合、逆マルチチャネル変換器360はチャネルを通過させる。マルチチャネルデータが合同でコーディングされたチャネルにある場合、逆マルチチャネル変換器360は、データを単独でコーディングされたチャネルに変換する。
逆周波数変換器370は、マルチチャネル変換器360により出力されたスペクトル係数データ、およびDEMUX310からのブロックサイズなどのサイド情報を受信する。逆周波数変換器370は、エンコーダにおいて使用された周波数変換の逆を適用し、再構築されたオーディオサンプル395のブロックを出力する。
C.第2のオーディオエンコーダ
図4を参照すると、エンコーダ400は、あるサンプル深度およびレートにおける入力オーディオサンプル405の時系列を受信する。入力オーディオサンプル405は、マルチチャネルオーディオ(例えば、ステレオ、サラウンド)またはモノオーディオ向けのものである。エンコーダ400は、オーディオサンプル405を圧縮し、エンコーダ400の様々なモジュールによって生成される情報を多重化して、WMA Pro形式などの圧縮形式、ASFなどのコンテナ形式、または他の圧縮またはコンテナ形式でビットストリーム495を出力する。
エンコーダ400は、オーディオサンプル405の複数のエンコーディングモードから選択する。図4において、エンコーダ400は、混合/純粋可逆コーディングモードと不可逆コーディングモードとを切り替える。可逆コーディングモードは、混合/純粋可逆コーダ472を含み、通常は高品質(および高ビットレート)圧縮に使用される。不可逆コーディングモードは、加重器442および量子化器460のようなコンポーネントを含み、通常は調整可能品質(および制御ビットレート)圧縮に使用される。選択の決定は、ユーザ入力またはその他の基準によって異なる。
マルチチャネルオーディオデータの不可逆コーディングの場合、マルチチャネルプリプロセッサ410は、オプションで時間領域オーディオサンプル405を再行列化する。例えば、マルチチャネルプリプロセッサ410は、オーディオサンプル405を選択的に再行列化して、1つまたは複数のコーディングされたチャネルをドロップするか、またはエンコーダ400のチャネル間相関を増大させ、しかもデコーダ500の(何らかの形式の)再構築を可能にする。マルチチャネルプリプロセッサ410は、マルチチャネル後処理の命令などのサイド情報をMUX490に送信することができる。
ウィンドウモジュール420は、オーディオ入力サンプル405のフレームをサブフレームブロック(ウィンドウ)に分割する。ウィンドウは、経時変化サイズおよびウィンドウ形成機能を有することができる。エンコーダ400が不可逆コーディングを使用する場合、可変サイズのウィンドウは可変の時間解像度を可能にする。ウィンドウモジュール420は、分割されたデータのブロックを出力し、ブロックサイズなどのサイド情報をMUX490に出力する。
図4において、タイルコンフィギュラ442は、マルチチャネルオーディオのフレームをチャネル単位ベースで分割する。タイルコンフィギュラ442は、品質/ビットレートが許容する場合、フレーム内の各チャネルを単独で分割する。これにより、例えば、タイルコンフィギュラ422は、さらに小さいウィンドウで特定のチャネルに出現する過渡現象を隔離することができるが、より大きいウィンドウを他のチャネルの周波数解像度または圧縮効率に使用することができる。これは、チャネル単位ベースで過渡現象を隔離することにより圧縮効率を向上させることができるが、多くの場合、個々のチャネルの分割を指定する追加情報が必要となる。時間的に同一場所に配置される同じサイズのウィンドウは、マルチチャネル変換を通じてのさらなる冗長性の低減に適している。したがって、タイルコンフィギュラ422は、時間的に同一の場所に配置される同じサイズのウィンドウをタイルとしてグループ化する。
図6は、5.1チャネルオーディオのフレームの例示のタイル構成600を示す図である。タイル構成600は、0から6までの番号が付けられた7つのタイルを含む。タイル0は、チャネル0、2、3、および4からのサンプルを含み、第1の1/4フレームにわたる。タイル1は、チャネル1からのサンプルを含み、前半の1/2フレームにわたる。タイル2は、チャネル5からのサンプルを含み、フレーム全体にわたる。タイル3は、タイル0と同様であるが、第2の1/4フレームにわたる。タイル4および6は、チャネル0、2、および3のサンプルを含み、それぞれ第3および第4の1/4フレームにわたる。最後に、タイル5は、チャネル1および4からのサンプルを含み、後半の1/2フレームにわたる。示されているように、特定のタイルは、不連続のチャネルのウィンドウを含むことができる。
周波数変換器430は、オーディオサンプルを受信し、それらを周波数領域のデータに変換して、図2の周波数変換器210について上記で説明されているような変換を適用する。周波数変換器430は、スペクトル係数データのブロックを加重器442に出力し、ブロックサイズなどのサイド情報をMUX490に出力する。周波数変換器430は、周波数係数およびサイド情報を知覚モデラー440に出力する。
知覚モデラー440は、一般に図2の知覚モデラー230に関して上記で説明されているように、聴覚モデルに従ってオーディオデータを処理して、人間の聴覚系の特性をモデル化する。
加重器442は、一般に図2の加重器240に関して上記で説明されているように、知覚モデラー440から受信した情報に基づいて量子化行列の加重係数を生成する。加重器442は、周波数変換器430から受信したデータに加重係数を適用する。加重器442は、量子化行列およびチャネル加重係数などのサイド情報をMUX490に出力する。量子化行列は圧縮されてもよい。
マルチチャネルオーディオデータの場合、マルチチャネル変換器450は、チャネル間相関を利用するためにマルチチャネル変換を適用することができる。例えば、マルチチャネル変換器450は、タイル内のチャネルおよび/または量子化帯域のすべてではなく一部に、マルチチャネル変換を選択的かつ柔軟に適用する。マルチチャネル変換器450は、事前定義された行列つまりカスタムの行列を選択的に使用し、効率的な圧縮をカスタム行列に適用する。マルチチャネル変換器450は、例えば、使用されたマルチチャネル変換およびタイルのマルチチャネル変換された部分を示すサイド情報をMUX490に生成する。
量子化器460は、マルチチャネル変換器450の出力を量子化し、量子化された係数データをエントロピーエンコーダ470に生成して、量子化ステップサイズを含むサイド情報をMUX490に生成する。図4において、量子化器460は、タイルあたりの量子化係数を計算する適応型の均一なスカラー量子化器であるが、代わりに量子化器460は他の種類の量子化を実行してもよい。
エントロピーエンコーダ470は、一般に図2のエントロピーエンコーダ260に関して上記で説明されているように、量子化器460から受信した量子化係数データを可逆圧縮する。
コントローラ480は、エンコーダ400の出力のビットレートおよび/または品質を制御するために量子化器460と連動する。コントローラ480は、品質および/またはビットレートの制約を満足することを目的として、量子化係数を量子化器460に出力する。
混合/純粋可逆エンコーダ472および関連するエントロピーエンコーダ474は、混合/純粋可逆コーディングモードのオーディオデータを圧縮する。エンコーダ400は、シーケンス全体に混合/純粋可逆コーディングモードを使用するか、あるいはフレームごと、ブロックごと、タイルごと、またはその他の単位でコーディングモードを切り替える。
MUX490は、オーディオエンコーダ400の他のモジュールから受信したサイド情報を、エントロピーエンコーダ470、474から受信したエントロピーエンコードデータと共に多重化する。MUX490は、レート制御またはその他の目的のために、1つまたは複数のバッファを含む。
D.第2のオーディオデコーダ
図5を参照すると、第2のオーディオデコーダ500は、圧縮されたオーディオ情報のビットストリーム505を受信する。ビットストリーム505は、エントロピーエンコードデータ、およびデコーダ500がオーディオサンプル595を再構築したサイド情報を含む。
DEMUX510は、ビットストリーム505の情報を解析し、情報をデコーダ500のモジュールに送信する。DEMUX510は、オーディオの複雑さのばらつき、ネットワークジッタ、および/または他の要因によるビットレートの短期的な変動を補償するための、1つまたは複数のバッファを含む。
エントロピーデコーダ520は、通常エンコーダ400において使用されるエントロピーエンコーディング技法の逆を適用して、DEMUX510から受信したエントロピーコードを可逆解凍する。不可逆コーディングモードで圧縮されているデータをデコードする場合、エントロピーデコーダ520は、量子化されたスペクトル係数データを生成する。
混合/純粋可逆デコーダ522および関連するエントロピーデコーダ520は、混合/純粋可逆コーディングモードの可逆エンコードされたオーディオデータを解凍する。
タイル構成デコーダ530は、DEMUX590からフレームのタイルのパターンを示す情報を受信し、必要に応じてこれをデコードする。タイルパターン情報は、エントロピーエンコードされるか、あるいはパラメータ化されてもよい。次いで、タイル構成デコーダ530は、タイルパターン情報を、デコーダ500の様々な他のモジュールに渡す。
逆マルチチャネル変換器540は、エントロピーデコーダ520から量子化されたスペクトル係数データを、タイル構成デコーダ530からタイルパターン情報を、例えば使用されるマルチチャネル変換およびタイルの変換された部分を示すサイド情報をDEMUX510から受信する。この情報を使用して、逆マルチチャネル変換器540は、変換行列を必要に応じて解凍し、1つまたは複数の逆マルチチャネル変換をオーディオデータに選択的かつ柔軟に適用する。
逆量子化器/加重器550は、タイルおよびチャネル量子化係数および量子化行列などの情報をDEMUX510から受信し、逆マルチチャネル変換器540から量子化スペクトル係数データを受信する。逆量子化器/加重器550は、受信した加重係数情報を必要に応じて解凍する。次いで、量子化器/加重器550は、逆量子化および加重を実行する。
逆周波数変換器560は、逆量子化器/加重器550によって出力されたスペクトル係数データ、DEMUX510からのサイド情報、およびタイル構成デコーダ530からのタイルパターン情報を受信する。逆周波数変換器570は、エンコーダにおいて使用された周波数変換の逆を適用し、ブロックをオーバーラッパー/加算器570に出力する。
タイル構成デコーダ530からタイルパターン情報を受信することに加えて、オーバーラッパー/加算器570は、逆周波数変換器560および/または混合/純粋可逆デコーダ522からデコードされた情報を受信する。オーバーラッパー/加算器570は、必要に応じてオーディオデータを重複または加算し、様々なモードでエンコードされたオーディオデータのフレームまたはその他のシーケンスをインターリーブする。
マルチチャネルポストプロセッサ580は、オプションで、オーバーラッパー/加算器570によって出力された時間領域オーディオサンプルを再行列化する。ビットストリーム制御の後処理の場合、後処理変換行列は時間の経過と共に変化し、信号で伝えられるか、またはビットストリーム505に含まれる。
III.マルチチャネル処理の概要
この節は、マルチチャネル前処理技法、柔軟マルチチャネル変換技法、およびマルチチャネル後処理技法を含む、一部のエンコーダおよびデコーダにおいて使用される一部のマルチチャネル処理技法の概要である。
A.マルチチャネル前処理
一部のエンコーダは、時間領域の入力オーディオサンプルにマルチチャネル前処理を実行する。
従来のエンコーダにおいて、N個のソースオーディオチャネルが入力としてある場合、エンコーダによって生成される出力チャネルの数もまたNである。コーディングされるチャネルの数は、ソースチャネルと1対1に対応するか、またはコーディングされるチャネルはマルチチャネル変換コーディングされたチャネルであってもよい。しかし、ソースのコーディングの複雑さが圧縮を困難にする場合、またはエンコーダバッファが満杯である場合、エンコーダは、元の入力オーディオチャネルまたはマルチチャネル変換コーディングされたチャネルのうちの1つまたは複数を変更またはドロップする(つまり、コーディングしない)ことができる。これは、コーディングの複雑さを軽減して、オーディオの全般的な知覚品質を高めるために行われてもよい。品質主導型の前処理の場合、エンコーダは、全体的なオーディオ品質および/またはチャネル分離を円滑に制御するように、測定されたオーディオ品質に対してマルチチャネル前処理を実行することができる。
例えば、エンコーダは、1つまたは複数のチャネルをあまりクリティカルにしないようにマルチチャネルオーディオイメージを変更して、チャネルがエンコーダでドロップされてもさらにデコーダにおいて「重信(phantom)」つまりコーディングされていないチャネルとして再構築されるようにしてもよい。こうすることで、品質に劇的な影響をもたらす可能性のある、チャネルの完全な削除または厳格な量子化の必要をなくすことができる。
エンコーダは、コーディングされるチャネルの数が、出力用のチャネルの数よりも少ないときに行うべきアクションをデコーダに指示することができる。次いで、重信チャネルを作成するために、マルチチャネル後処理変換がデコーダにおいて使用されてもよい。例えば、(ビットストリームを通じて)エンコーダは、デコーディングされた左右のチャネルを平均化することによって重信センターを作成するようデコーダに指示することができる。後に、マルチチャネル変換は(後処理なしで)平均化されたバック左および右チャネル間の冗長性を活用することができるか、またはエンコーダはバック左および右チャネルの一部のマルチチャネル後処理を実行するようにデコーダに指示することができる。あるいは、エンコーダは、別の目的のために、マルチチャネル後処理を実行するようデコーダに通知することができる。
図7は、マルチチャネル前処理の一般的な技法700を示す。エンコーダは、時間領域マルチチャネルオーディオデータにマルチチャネル前処理を実行して(710)、変換されたオーディオデータを時間領域に生成する。例えば、前処理は、連続する実数値の要素を持つ一般変換行列を伴う。一般変換行列は、チャネル間相関を人為的に増大させるために選択されてもよい。これは、エンコーダの残りの部分の複雑さを軽減するが、損失チャネル分離を代償とする。
次いで、出力はエンコーダの残りの部分に供給されるが、これは、エンコーダが実行できるその他の処理に加え、図4を参照して説明される技法またはその他の圧縮技法を使用してデータをエンコードし(720)、エンコードされたマルチチャネルオーディオデータを生成する。
エンコーダおよびデコーダによって使用される構文は、一般または事前定義された後処理マルチチャネル変換行列の記述を可能にすることができるが、これはフレーム単位ベースで変わるかまたはオン/オフにされてもよい。エンコーダは、この柔軟性を使用してステレオ/サラウンドイメージの欠陥を制限することができ、人為的にチャネル間相関を増大させることによって特定の状況における全体的な品質を高めるためにチャネル分離をトレードオフする。代替として、デコーダおよびエンコーダは、例えば、フレーム単位ベース以外で変換行列の変更を可能にするものなど、マルチチャネル前および後処理の別の構文を使用することができる。
B.柔軟マルチチャネル変換
一部のエンコーダは、チャネル間相関を効果的に利用する柔軟マルチチャネル変換を実行することができる。対応するデコーダは、対応する逆マルチチャネル変換を実行することができる。
例えば、エンコーダは、チャネル間のリーク信号が制御され、測定可能であり、元の信号と類似したスペクトルを持つように、知覚加重後にマルチチャネル変換を配置することができる(そしてデコーダは、逆加重前に逆マルチチャネル変換を配置することができる)。エンコーダは、マルチチャネル変換の前に周波数領域のマルチチャネルオーディオに加重係数を適用することができる(例えば、加重係数およびチャネルごとの量子化ステップ修飾子の両方)。エンコーダは、加重オーディオデータに1つまたは複数のマルチチャネル変換を実行し、マルチチャネル変換されたオーディオデータを量子化することができる。
デコーダは、特定の周波数索引において複数のチャネルからサンプルをベクトルに収集し、逆マルチチャネル変換を実行して出力を生成することができる。その後、デコーダは、マルチチャネルオーディオに逆量子化および逆加重を行うことができ、逆マルチチャネル変換の出力をマスクで色づけする。したがって、(量子化により)チャネルにわたって生じるリークは、リーク信号の可聴性が測定可能かつ制御可能であるようにスペクトル的に成形されてもよく、所定の再構築されたチャネルの他のチャネルのリークは、所定のチャネルの元の破損してない信号とスペクトル的に似た形状をしている。
エンコーダは、どのチャネルが一緒に変換されるかを制限するために、マルチチャネル変換のチャネルをグループ化することができる。例えば、エンコーダは、タイル内のどのチャネルが相関するかを決定して、相関するチャネルをグループ化することができる。エンコーダは、マルチチャネル変換のチャネルをグループ化するとき、チャネルの信号間のペアワイズ相関および帯域間の相関、あるいはその他のおよび/または追加の要因を考慮することができる。例えば、エンコーダは、チャネル内の信号間のペアワイズ相関を計算してから、それに応じてチャネルをグループ化することができる。グループ内のチャネルのいずれかとペアワイズ相関しないチャネルは、引き続きそのグループに適合することができる。グループに適合しないチャネルの場合、エンコーダは、帯域レベルで適合性をチェックして、それに応じてチャネルの1つまたは複数のグループを調整することができる。エンコーダは、一部の帯域のグループに適合するが、別の帯域では適合しないチャネルを識別することができる。適合しない帯域における変換をオフにすることで、実際にマルチチャネル変換コーディングされる帯域間の相関を向上させ、コーディングの効率を高めることができる。チャネルグループ内のチャネルは、隣接している必要はない。単一のタイルは複数のチャネルグループを含むことができ、各チャネルグループは異なる関連マルチチャネル変換を備えることができる。エンコーダは、どのチャネルが適合するかを決定した後、チャネルグループ情報をビットストリームに入れることができる。次いで、デコーダは、ビットストリームから情報を取り出して処理することができる。
エンコーダは、どの帯域が一緒に変換されるかを制限するために、周波数帯域レベルにおいてマルチチャネル変換を選択的にオンまたはオフにすることができる。このようにして、エンコーダは、マルチチャネル変換において適合しない帯域を選択的に除外することができる。マルチチャネル変換が特定の帯域に対してオフにされるとき、エンコーダは、その帯域の恒等変換を使用して、その帯域でデータを変更せずに通過させることができる。周波数帯域の数は、オーディオデータのサンプリング周波数およびタイルのサイズに関連する。一般に、サンプリング周波数が高くなるか、またはタイルのサイズが大きくなると、それに応じて周波数帯域の数も増大する。エンコーダは、タイルのチャネルグループのチャネルに対する周波数帯域レベルにおいてマルチチャネル変換を選択的にオンまたはオフにすることができる。デコーダは、特定のビットストリーム構文に従ってビットストリームから、タイルのチャネルグループに対するマルチチャネル変換の帯域オン/オフ情報を取り出すことができる。
エンコーダは、特にデコーダにおける計算上の複雑さを制限するために、階層マルチチャネル変換を使用することができる。階層変換により、エンコーダは、変換全体を複数の段階に分割して、個々の段階の計算の複雑さを軽減し、場合によってはマルチチャネル変換を指定するために必要な情報量を減少させることができる。このカスケード式構造を使用することで、エンコーダは、より大規模な変換全体を、ある程度の精度まで、より小規模な変換でエミュレートすることができる。次いで、デコーダは、対応する階層逆変換を実行することができる。エンコーダは、複数のマルチチャネル変換の周波数帯域オン/オフ情報を結合することもできる。デコーダは、特定のビットストリーム構文に従ってビットストリームから、チャネルグループに対するマルチチャネル変換の階層の情報を取り出すことができる。
エンコーダは、変換行列を指定するために使用されるビットレートを減少させるために、事前定義されたマルチチャネル変換行列を使用することができる。エンコーダは、複数の使用可能な事前定義された行列形式から選択して、選択された行列をビットストリームで通知することができる。行列の一部の形式は、ビットストリームの追加の信号を必要としない場合もある。追加の仕様を必要とするものもある。デコーダは、行列形式を示す情報および(必要に応じて)行列を指定する追加情報を取り出すことができる。
エンコーダは、タイルのチャネルの量子化行列、チャネルごとの量子化ステップ修飾子、および全体の量子化タイル係数を計算して、適用することができる。これにより、エンコーダは、聴覚モデルに従ってノイズを成形し、チャネル間のノイズのバランスをとり、全体的な歪みを制御することができる。対応するデコーダは、全体の量子化タイル係数、チャネルごとの量子化ステップ修飾子、およびタイルのチャネルの量子化行列をデコードして適用し、逆量子化および逆加重ステップを組み合わせることができる。
C.マルチチャネル後処理
一部のデコーダは、再構築された時間領域のオーディオサンプルにマルチチャネル後処理を実行する。
例えば、デコードされるチャネルの数は、(例えば、エンコーダが1つまたは複数の入力チャネルをコーディングしなかったため)、出力用のチャネルの数よりも少ない場合もある。そのような場合は、デコードされるチャネルの実際のデータに基づいて1つまたは複数の「重信」チャネルを作成するために、マルチチャネル後処理変換が使用されてもよい。デコードされるチャネルの数が出力チャネルの数と等しい場合、後処理変換は、表示の任意の空間回転、スピーカ位置間の出力チャネルの再マップ、またはその他の空間または特殊効果のために使用されてもよい。デコードされるチャネルの数が、(例えば、ステレオ機器でサラウンドサウンドオーディオを再生するなど)出力チャネルの数よりも大きい場合、チャネルを「折りたたむ」ために後処理変換が使用されてもよい。これらのシナリオおよび適用の変換行列は、エンコーダによって提供されるかまたは通知されてもよい。
図8は、マルチチャネル後処理の一般的な技法800を示す。デコーダは、エンコードされたマルチチャネルオーディオデータをデコードし(810)、再構築された時間領域マルチチャネルオーディオデータを生成する。
次いで、デコーダは、時間領域マルチチャネルオーディオデータにマルチチャネル後処理を実行する(820)。エンコーダが複数のコード化チャネルを生成し、デコーダがそれよりも多数のチャネルを出力する場合、後処理は、より少ない数のコード化チャネルから多数の出力チャネルを生成するために一般変換を伴う。例えば、デコーダは、再構築されたコーディングされたチャネルごとに1つずつ、(時間的に)同一場所に配置されたサンプルを取り、欠落しているチャネル(つまりエンコーダによってドロップされたチャネル)をゼロで埋め込む。デコーダは、一般後処理変換行列でサンプルを乗算する。
一般後処理変換行列は、あらかじめ定められた要素を持つ行列であってもよいか、またはエンコーダによって指定された要素を持つ一般行列であってもよい。エンコーダは、あらかじめ定められた行列(例えば、1つまたは複数のフラグビットを持つもの)を使用するようデコーダに通知するか、または一般行列の要素をデコーダに送信するか、あるいはデコーダが常に同じ一般後処理変換行列を使用するよう構成されてもよい。柔軟性を高めるために、マルチチャネル後処理は、フレーム単位またはその他の単位でオン/オフにされてもよい(その場合、デコーダは恒等行列を使用してチャネルが変更されないようにしておくことができる)。
マルチチャネル前処理、後処理、および柔軟なマルチチャネル変換の詳細については、特許文献1、名称「Multi-Channel Audio Encoding and Decoding」を参照されたい。
IV.マルチチャネルオーディオのチャネル拡張処理
マルチチャネルソースをコーディングするための通常のコード化方式において、変調重複変換(「MLT」)または離散コサイン変換(「DCT」)などの変換を使用する時間−周波数変換がエンコーダにおいて実行され、対応する逆変換がデコーダにおいて実行される。チャネルのいくつかのMLTまたはDCT係数はチャネルグループにまとめられ、コーディングされるべきチャネルを取得するために線形変換がチャネル全体にわたり適用される。ステレオソースの左右のチャネルが相関する場合、それらは和−差(sum−difference)変換(M/Sまたはミッド/サイドコーディングとも呼ばれる)を使用してコーディングされてもよい。そうすることで、2つのチャネル間の相関が除去され、その結果、これらをコーディングするために必要なビット数が少なくてすむ。しかし、低ビットレートにおいては、差チャネルがコーディングされないことも(その結果ステレオイメージが失われる)、または品質が両チャネルの多量の量子化の影響を受けることもある。
説明される技法およびツールは、既存のジョイントコーディング方式(例えば、ミッド/サイドコーディング、強度ステレオコーディングなど)に望ましい代替をもたらす。チャネルグループ(例えば、左/右ペア、フロント左/右ペア、バック左/右ペア、またはその他のグループ)の和および差チャネルをコーディングするのではなく、説明される技法およびツールは、1つまたは複数の結合チャネル(チャネルの和、相関性解除変換を適用した後の主要構成要素、またはその他の結合チャネルであってもよい)を追加パラメータと共にコーディングして、それぞれの物理チャネルのチャネル間相関と出力を記述し、それぞれの物理チャネルのチャネル間相関と出力を保持する物理チャネルを再構築できるようにする。言い換えれば、物理チャネルの二次統計が保持される。そのような処理は、チャネル拡張処理と呼ぶことができる。
例えば、複素変換を使用することで、それぞれのチャネルのチャネル間相関と出力を維持するチャネルの再構築が可能になる。狭帯域信号近似の場合、二次統計を保持することは、明示的な相関係数情報または位相情報を送信することなく、個々のチャネルの出力および位相を保持する再構築をもたらすのに十分である。
説明される技法およびツールは、コーディングされたチャネルの修正バージョンとして、コーディングされていないチャネルを表す。コーディングされるチャネルは、実際の物理チャネルまたは(例えば、各サンプルに適用される線形変換を使用する)物理チャネルの変換バージョンであってもよい。例えば、説明される技法およびツールは、1つのコーディングされたチャネルと複数のパラメータを使用して複数の物理チャネルの再構築を可能にする。1つの実施形態において、パラメータは、帯域ベースの2つの物理チャネルとコーディングされたチャネル間の出力(強度またはエネルギーとも呼ばれる)の比率を含む。例えば、左(L)および右(R)ステレオチャネルを備える信号をコーディングするために、出力比はL/MおよびR/Mであり、ここでMはコーディングされたチャネル(「和(sum)」または「モノ(mono)」チャネル)の出力であり、Lは左チャネルの出力、Rは右チャネルの出力である。チャネル拡張コーディングはすべての周波数範囲に使用することができるが、これは必須ではない。例えば、低周波数の場合、エンコーダは(例えば、和および差を使用して)チャネル変換の両方のチャネルをコーディングすることができるが、高周波数の場合、エンコーダは和チャネルと複数のパラメータをコーディングすることができる。
説明される実施形態は、マルチチャネルソースをコーディングするために必要なビットレートを大幅に軽減することができる。チャネルを変更するためのパラメータは、全ビットレートのわずかな部分しか占めないので、結合チャネルのコーディングのためにより多くのビットレートを残す。例えば、2つのチャネルソースについて、パラメータのコーディングが使用可能なビットレートの10%を占める場合、ビットの90%は結合チャネルをコーディングするために使用することができる。多くの場合、これは、たとえチャネル間依存の原因となったとしても、両チャネルをコーディングするよりも大幅な節約である。
チャネルは、前述の2:1の比率以外の、再構築されたチャネル/コーディングされたチャネルの比率で再構築されてもよい。例えば、デコーダは、左右のチャネルおよび中央チャネルを、単一のコーディングされたチャネルから再構築することができる。その他の配置もまた可能である。さらに、パラメータは、様々な方法で定義されてもよい。例えば、パラメータは、帯域ベース以外の単位で定義することもできる。
A.複素変換およびスケール/形状パラメータ
説明される実施形態において、エンコーダは結合チャネルを形成し、結合チャネルを形成するために使用されたチャネルの再構築のためにデコーダにパラメータを供給する。デコーダは、順複素変換を使用して結合チャネルの(各々実数成分と虚数成分を有する)複素係数を導き出す。次いで、結合チャネルから物理チャネルを再構築するため、デコーダは、エンコーダによって供給されたパラメータを使用して複素係数を基準化する。例えば、デコーダは、エンコーダによって供給されたパラメータからスケール因数を導き出し、それらを使用して複素係数を基準化する。結合チャネルは多くの場合、和チャネル(モノチャネルと呼ばれることもある)であるが、物理チャネルの別の組合せであってもよい。物理チャネルの位相がずれているため、チャネルを合計することで相互に打ち消し合うことになる場合、結合チャネルは、差チャネル(例えば、左右のチャネル間の差)であってもよい。
例えば、エンコーダは、左右の物理チャネルの和チャネルと複数のパラメータを、1つまたは複数の複素パラメータを含むことができるデコーダに送信する(複素パラメータは、1つまたは複数の複素数から何らかの方法で導き出されるが、エンコーダによって送信された複素パラメータ(例えば、虚数と実数を伴う比率)は、それ自体が複素数ではないことがある)。エンコーダはまた、デコーダがスペクトル係数を基準化するために複素スケール因数を導き出すことができる実数パラメータのみを送信することができる(エンコーダは通常、結合チャネル自体をエンコードするために複素変換を使用することはない。代わりに、エンコーダは、複数のエンコーディング技法のいずれかを使用して、結合チャネルをエンコードすることができる)。
図9は、エンコーダによって実行される簡易化チャネル拡張コーディング技法900を示す。910において、エンコーダは、1つまたは複数の結合チャネル(例えば、和チャネル)を形成する。次いで、920において、エンコーダは、結合チャネルと共にデコーダに送信すべき1つまたは複数のパラメータを導き出す。図10は、デコーダによって実行される簡易逆チャネル拡張デコーディング技法1000を示す。1010において、デコーダは、1つまたは複数の結合チャネルの1つまたは複数のパラメータを受信する。次いで、1020において、デコーダは、パラメータを使用して結合チャネル係数を基準化する。例えば、デコーダは、パラメータから複素スケール因数を導き出し、スケール因数を使用して係数を基準化する。
エンコーダにおける時間−周波数変換の後、各チャネルのスペクトルは通常サブバンドに分割される。説明される実施形態において、エンコーダは、様々な周波数サブバンドの様々なパラメータを決定することができ、デコーダは、エンコーダによって供給された1つまたは複数のパラメータを使用して再構築されたチャネル内のそれぞれの帯域に対する結合チャネルの帯域のスケール因数を基準化することができる。左右のチャネルが1つのコーディングされたチャネルから再構築されるようなコーディング配置において、左右の各チャネルのサブバンドの各係数は、コーディングされたチャネルのサブバンドの基準化されたバージョンによって表される。
例えば、図11は、チャネル再構築中の結合チャネル1120の帯域1110における係数の基準化を示す。デコーダは、エンコーダによって供給された1つまたは複数のパラメータを使用して、デコーダによって再構築されている左チャネル1230および右チャネル1240の対応するサブバンドの基準化された係数を導き出す。
1つの実施形態において、左右の各チャネルの各サブバンドは、スケールパラメータおよび形状パラメータを有する。形状パラメータはエンコーダによって決定され、デコーダに送信されてもよく、または形状パラメータは、コーディングされている場所と同じ場所にスペクトル係数をとることにより仮定されてもよい。エンコーダは、コーディングされたチャネルの1つまたは複数からの基準化されたスペクトルのバージョンを使用して、1つのチャネルのすべての周波数を表す。チャネルのチャネル間二次統計がサブバンドごとに保持されうるように、(実数成分と虚数成分を有する)複素変換が使用される。コーディングされたチャネルは実際のチャネルの線形変換であるため、パラメータはすべてのチャネルに対して送信される必要はない。例えば、P個のチャネルがN個のチャネルを使用してコーディングされる場合(ここでN<P)、パラメータはすべてのP個のチャネルに対して送信される必要はない。スケールおよび形状パラメータの詳細については、以下の第V節において説明される。
パラメータは、物理チャネルと結合チャネルとの出力比が変化するのに応じて経時的に変化することがある。したがって、フレーム内の周波数帯域のパラメータは、フレーム単位ベースまたはその他の単位で決定されてもよい。現在のフレーム内の現在の帯域のパラメータは、説明される実施形態におけるその他の周波数帯域および/またはその他のフレームからのパラメータに基づいて差分コーディングされる。
デコーダは、順複素変換を実行して、結合チャネルの複素スペクトル係数を導き出す。次いで、ビットストリームで送信されたパラメータ(相互相関または正規化相関行列の出力比および虚数対実数比など)を使用して、スペクトル係数を基準化する。複素基準化の出力は、後処理フィルタに送信される。このフィルタの出力は、物理チャネルを再構築するために、基準化されて追加される。
チャネル拡張コーディングは、すべての周波数帯域またはすべての時間ブロックに対して実行される必要はない。例えば、チャネル拡張コーディングは、帯域ベース、ブロックベース、またはその他の単位でオンまたはオフに適応して切り替えられてもよい。このようにして、エンコーダは、この処理を実行することが効率的、あるいは有益である場合に、実行するよう選択することができる。残りの帯域またはブロックは、相関性を解除することなく、あるいは他の方法を使用して、従来のチャネル相関性解除により処理されてもよい。
説明される実施形態における達成可能な複素スケール因数は、特定の境界内の値に制限される。例えば、説明される実施形態は、ログ領域でパラメータをエンコードし、値はチャネル間の可能な相互相関の量によって制約される。
複素変換を使用して結合チャネルから再構築されうるチャネルは、左右のチャネルペアに限定されることはなく、また結合チャネルも左右のチャネルの結合に限定されることはない。例えば、結合チャネルは、2つ、3つ、またはそれ以上の物理チャネルを表すことができる。結合チャネルから再構築されるチャネルは、バック左/バック右、バック左/左、バック右/右、左/中央、右/中央、および左/中央/右などのグループであってもよい。その他のグループもまた可能である。再構築されるチャネルは、すべてが複素変換を使用して再構築されてもよく、あるいは一部のチャネルが複素変換を使用するが、一部は使用せずに再構築されてもよい。
B.パラメータの補間
エンコーダは、明示的パラメータを決定すべきアンカーポイントを選択し、アンカーポイント間にパラメータを補間することができる。アンカーポイント間の時間量およびアンカーポイントの数は、コンテンツおよび/またはエンコーダ側の決定に応じて固定であっても、または異なっていてもよい。時間tにおいてアンカーポイントが選択された場合、エンコーダは、スペクトル内のすべての周波数帯域にそのアンカーポイントを使用することができる。代替として、エンコーダは、異なる周波数帯域の異なる時間においてアンカーポイントを選択することができる。
図12は、実際の出力比と、アンカーポイントにおける出力比から補間された出力比とのグラフィカルな比較である。図12に示される例において、補間は、出力比の変動を平滑化し(例えば、アンカーポイント1200および1202間、1202および1204間、1204および1206間、1206および1208間)、頻繁に変化する出力比からのアーティファクトの防止に役立つ。エンコーダは、補間をオンまたはオフにすることも、またはパラメータをまったく補間しないこともできる。例えば、エンコーダは、出力比の変化が時間の経過に伴って穏やかである場合にパラメータを補間するか、またはパラメータがフレーム間であまり変化しない(例えば、図12のアンカーポイント1208および1210間)場合、あるいはパラメータの変化が急激で補間によりパラメータの不正確な表現をもたらすことになる場合は、補間をオフにするように選択することができる。
C.詳細な説明
一般的な線形チャネル変換は、Y=AXと表記することができるが、ここでXは、Pチャネルからの係数のLベクトルのセットであり(P×L次元行列)、AはP×Pチャネル変換行列であり、YはコーディングされるべきPチャネルからのLの変換されたベクトルのセットである(P×L次元行列)。L(ベクトル次元)は、線形チャネル変換アルゴリズムが操作する所定のサブフレームの帯域サイズである。エンコーダが、YのPチャネルのサブセットNをコーディングする場合、これはZ=BXと表記することができ、ここでベクトルZはN×L行列であり、Bは、コーディングされるべきNチャネルに対応する行列YのN行をとることにより形成されるN×P行列である。Nチャネルからの再構築は、ベクトルZのコーディング後に行列Cとのもう1つの行列乗算を伴い、W=CQ(Z)を得るが、ここでQはベクトルZの量子化を表す。Zに代入すると、式W=CQ(BX)が得られる。量子化ノイズが無視できると仮定すれば、W=CBX。Cは、ベクトルXとWの間のチャネル間二次統計を保持するために適切に選択されうる。式では、これは、WW*=CBXX***=XX*と表すことができ、ここでXX*は対称P×P行列である。
XX*は対称P×P行列であるので、行列にはP(P+1)/2の自由度がある。N>=(P+1)/2である場合、式が満たされるようにP×N行列Cを考え出すことは可能である。N<(P+1)/2である場合、これを解くためにさらに多くの情報が必要となる。そのような場合には、複素変換を使用して、制約の一部を満足する他の解法を考え出すことができる。
例えば、Xが複素ベクトルであり、Cが複素行列である場合、Re(CBXX***)=Re(XX*)となるようなCを求めようと試みることができる。この式によれば、適切な複素行列Cについて、対称行列XX*の実数部分は、対称行列の積CBXX***の実数部分と等しい。
M=2およびN=1である場合、BXX**は単に、αと呼ばれる実数スカラー(L×1)行列である。図13に示される式について解く。B0=B1=β(何らかの定数)である場合、図14における制約は成り立つ。解くことで、|C0|、|C1|および|C0‖C1|cos(φ0−φ1)について図15に示される値が得られる。エンコーダは、|C0|および|C1|を送信する。次いで、図16に示される制約を使用して解くことができる。これらの量は基本的に、出力比L/MおよびR/Mであることは図15から明らかである。図16に示される制約の符号は、XX*の虚数部分と一致するように位相の符号を制御するために使用されてもよい。それにより、φ0−φ1について解くことができるが、実数値については解くことができない。厳密な値を解くために、図17に表されるように、各係数のモノチャネルの角度が保持されるというもう1つの仮定が行われる。これを保持するには、|C0|sinφ0+|C1|sinφ1=0であることが十分であり、これは図18に示されるφ0およびφ1の結果を与える。
図16に示される制約を使用して、2つのスケール因数の実数部分および虚数部分を解くことができる。例えば、2つのスケール因数の実数部分は、それぞれ、図19に示されるように、|C0|cosφ0および|C1|cosφ1を解くことにより求めることができる。2つのスケール因数の虚数部分は、それぞれ、図20に示されるように、|C0|sinφ0および|C1|sinφ1を解くことにより求めることができる。
したがって、エンコーダが複素スケール因数の絶対値を送信する場合、デコーダは、元の物理チャネルのチャネル間二次指数部を保持する2つの個々のチャネルを再構築することができ、2つの再構築されたチャネルは、コーディングされたチャネルの適正な位相を保持する。
実施例1において、チャネル間二次統計の虚数部分は(図20に示されるように)解かれるが、デコーダにおいては実数部分のみが保持され、これだけが単一のモノソースから再構築される。しかし、チャネル間二次統計の虚数部分もまた、実施例1で説明されているように、(複素基準化に加えて)前の段階からの出力が後処理されて追加の立体音響化効果を達成する場合には、保持することができる。出力は、線形フィルタを通じてフィルタリングされ、基準化されて、前の段階からの出力に追加される。
前の分析からの現在の信号(それぞれ、2つのチャネルのW0およびW1)に加えて、デコーダが、図21に示されるように、使用可能な両チャネルの処理済みバージョン(それぞれW0FおよびW1F)である効果信号を有するものと仮定する。次いで、変換全体は、図23に示されるように表すことができるが、これはW0F=C00FおよびW1F=C10Fであることを仮定する。図22に示される再構築の手順に従うことで、デコーダは元の信号の二次統計を保持することができることを示している。デコーダは、Wの元のバージョンとフィルタリングされたバージョンの一次結合をとり、Xの二次統計を保持する信号Sを作成する。
実施例1において、複素定数C0およびC1は、2つのパラメータ(例えば、左−モノ(L/M)および右−モノ(R/M)出力比)を送信することにより、チャネル間二次統計の実数部分と一致するように選択することができることが決定された。エンコーダによってもう1つのパラメータが送信される場合、マルチチャネルソースのチャネル間二次統計全体が保持されうる。
例えば、エンコーダは、2つのチャネル間の相互相関の虚数対実数比を表す追加の複素パラメータを送信して、2つのチャネルソースのチャネル間二次統計全体を保持することができる。図24において定義されるように、相関行列はRXXによって与えられるものと仮定するが、ここでUは複素固有ベクトルの正規直交行列であり、Λは固有値の対角行列である。この因数分解が任意の対称行列について存在しなければならないことに留意されたい。任意の達成可能な出力相関行列について、固有値もまた実数でなければならない。この因数分解により、複素カルフーネン−レーヴ変換(「KLT」)を求めることができる。KLTは、圧縮のための相関解除されたソースを作成するために使用されてきた。ここで、無相関のソースをとり、所望の相関を作成する逆算を行うことにする。U*UΛU*U=Λであり、対角行列であるので、ベクトルXのKLTはU*によって与えられる。Zの出力はαである。したがって、以下のような変換を選択して、
Figure 2009524108
0FおよびW1FがそれぞれW0およびW1と同じ出力を有し、W0およびW1に無相関であると仮定する場合、図23または22における再構築手順は、最終出力に所望の相関行列を生成する。実際には、エンコーダは、出力比|C0|および|C1|と、虚数対実数比Im(X0* 1)/αを送信する。デコーダは、(図25に示されるように)相互相関行列の正規化バージョンを再構築することができる。次いで、デコーダはθを計算し、固有値と固有ベクトルを求め、所望の変換に到達する。
|C0|と|C1|の間の関係により、これらは独立した値を持つことができない。このため、エンコーダは、これらを合同で、または条件付きで量子化する。このことは、実施例1および実施例2のいずれにもあてはまる。
図26に示されるように、出力の幾何平均によって正規化できるような場合に、エンコーダからデコーダに出力行列の正規化バージョンを直接送信することによってなど、その他のパラメータ化もまた可能である。ここで、エンコーダは行列の第1行しか送信できないが、対角の積が1であるため十分である。しかし、ここでデコーダは、図27に示されるように、固有値を基準化する。
UおよびΛを直接表すために、もう1つのパラメータ化が可能である。Uが一連のギブンス回転に因数分解されてもよいことが示されている。各ギブンス回転は、角度によって表すことができる。エンコーダは、ギブンス回転角度と固有値を送信する。
さらに、両パラメータ化は、追加の任意の事前回転Vを組み入れ、VV*=I(Iは恒等行列を表す)であるため、引き続き同じ相関行列を生成することができる。つまり、図28に示される関係は、任意の回転Vについて有効である。例えば、図29に表されるように、デコーダは、各チャネルに進むフィルタリングされた信号の量が同じであるように、事前回転を選択する。デコーダは、図30における関係が成り立つようにωを選択することができる。
図31に示される行列が認識されると、デコーダは、これまでのように再構築を行い、チャネルW0およびW1を取得することができる。次いで、デコーダは、線形フィルタをW0およびW1に適用することにより、W0FおよびW1F(効果信号)を取得する。例えば、デコーダは、全通過フィルタを使用し、フィルタのタップのいずれかにおける出力をとって、効果信号を取得することができる(全通過フィルタの使用法の詳細については、非特許文献1を参照されたい)。後処理として追加される信号の強度は、図31に示される行列において与えられる。
全通過フィルタは、他の全通過フィルタのカスケードとして表すことができる。ソースを正確にモデル化するために必要となる反響の量に応じて、全通過フィルタのいずれかからの出力が取り込まれてもよい。このパラメータはまた、帯域、サブフレーム、またはソースのいずれかに基づいて送信されてもよい。例えば、全通過フィルタのカスケードにおける第1、第2、または第3段階の出力が取り込まれてもよい。
フィルタの出力を取り込み、それを基準化して、元の再構築に追加することにより、デコーダは、チャネル間二次統計を保持することができる。分析は効果信号の出力および相関構造について特定の仮定を行うが、そのような仮定は必ずしも実際には完全に満たされるとは限らない。それらの仮定を精緻化するために、さらなる処理とより正確な近似を使用することができる。例えば、フィルタリングされた信号が所望の出力よりも大きい出力を有する場合、図32に示されるように、フィルタリングされた信号は正しい出力を有するように基準化されてもよい。これにより、出力が大きくなりすぎた場合にも正しく保持されるようになる。出力がしきい値を超えるかどうかを判別する計算が、図33に示される。
場合によっては、結合されている2つの物理チャネルの信号の位相がずれていることもあり、そのため、和コーディングが使用される場合には、行列は特異行列となる。そのような場合、行列の最大値ノルムは制限されてもよい。行列の最大基準化を制限するためのこのパラメータ(しきい値)はまた、帯域、サブフレーム、またはソースに基づいてビットストリームで送信されてもよい。
実施例1におけるように、この例の分析は、B0=B1=βであることを仮定する。しかし、同じ代数原理を任意の変換に使用して同様の結果を得ることができる。
V.その他のコーディング変換によるチャネル拡張コーディング
上記で第IV節において説明されるチャネル拡張コーディング技法およびツールは、他の技法およびツールと組み合わせて使用されてもよい。例えば、エンコーダは、基本コーディング変換、周波数拡張コーディング変換(例えば、拡張帯域知覚類似性コーディング変換)、およびチャネル拡張コーディング変換を使用することができる(周波数拡張コーディングは、以下の第V.A.節において説明される)。エンコーダにおいて、これらの変換は、基本コーディングモジュール、基本コーディングモジュールから分離されている周波数拡張コーディングモジュール、および基本コーディングモジュールと周波数拡張コーディングモジュールから分離されているチャネル拡張コーディングモジュールで実行されてもよい。あるいは、同じモジュール内で様々な組合せで様々な変換を実行することができる。
A.周波数拡張コーディングの概要
この節は、一部のエンコーダおよびデコーダにおいて、より高い周波数スペクトルデータを、スペクトルのベースバンドデータに応じてコーディングするために使用される周波数拡張コーディング技法およびツールの概要を示す(拡張帯域知覚類似性周波数コーディング、またはワイドセンス知覚類似性コーディングと呼ばれることもある)。
デコーダへの出力ビットストリームにおいて伝送のためのスペクトル係数をコーディングすることは、使用可能なビットレートのかなり大きい部分を消費する可能性がある。したがって、低ビットレートにおいて、エンコーダは、スペクトル係数の帯域幅内のベースバンドをコーディングし、ベースバンドの外側の係数をベースバンド係数の基準化され成形されたバージョンとして表すことによって、少なくした数の係数をコーディングするように選択することができる。
図34は、エンコーダにおいて使用することができる一般的なモジュール3400を示す。示されているモジュール3400は、スペクトル係数3415のセットを受信する。したがって、低ビットレートにおいて、エンコーダは、少ない数の係数、つまり通常はスペクトルの下端にあるスペクトル係数3415の帯域幅内のベースバンドをコーディングするように選択することができる。ベースバンドの外側のスペクトル係数は、「拡張帯域」スペクトル係数と呼ばれる。ベースバンドと拡張バンドの分割は、ベースバンド/拡張帯域分割セクション3420において実行される。サブバンドの分割もまた、このセクションにおいて実行されてもよい(例えば、拡張帯域サブバンド)。
再構築されたオーディオの歪み(例えば、こもった音つまり低域通過の音)を防ぐため、拡張帯域スペクトル係数は、成形ノイズ、他の周波数成分の成形バージョン、またはこの2つの組合せとして表される。拡張帯域スペクトル係数は、互いに素であっても重複してもよい(例えば、64または128の係数の)複数のサブバンドに分割することができる。たとえ実際のスペクトルが多少異なっていたとしても、この拡張帯域コーディングは、元の知覚効果と類似する知覚効果をもたらす。
ベースバンド/拡張帯域分割セクション3420は、ベースバンドスペクトル係数3425、拡張帯域スペクトル係数、および、例えばベースバンド幅と拡張帯域サブバンドの個々のサイズと数を記述するサイド情報(圧縮することができる)を出力する。
図34に示される例において、エンコーダは、コーディングモジュール3430において係数およびサイド情報(3435)をコーディングする。エンコーダは、ベースバンドおよび拡張帯域スペクトル係数に対して個別のエントロピーコーダを含むことができ、および/または様々なエントロピーコーディング技法を使用して様々なカテゴリの係数をコーディングすることができる。対応するデコーダは通常、補足的なデコーディング技法を使用する(もう1つの可能な実施態様を示すため、図36ではベースバンドと拡張帯域係数に対して別個のデコーディングモジュールを示す)。
拡張帯域コーダは、2つのパラメータを使用してサブバンドをエンコードすることができる。1つのパラメータ(スケールパラメータと呼ばれる)は、帯域内の総エネルギーを表すために使用される。もう1つのパラメータ(形状パラメータと呼ばれる)は、帯域内のスペクトルの形状を表すために使用される。
図35は、拡張帯域コーダにおける拡張帯域の各サブバンドをエンコードする例示の技法3500を示す。拡張帯域コーダは、3510においてスケールパラメータを計算し、3520において形状パラメータを計算する。拡張帯域コーダによってコーディングされた各サブバンドは、スケールパラメータと形状パラメータの積として表すことができる。
例えば、スケールパラメータは、現在のサブバンド内の係数の二乗平均平方根値であってもよい。これは、すべての係数の平均二乗値の平方根をとることにより求められる。平均二乗値は、サブバンドのすべての係数の二乗値の和をとり、係数の数で除算することにより求められる。
形状パラメータは、すでにコーディングされているスペクトルの一部(例えば、ベースバンドコーダによりコーディングされたベースバンドスペクトル係数の一部)の正規化バージョンを指定する変位ベクトル、正規化ランダムノイズベクトル、または固定コードブックからのスペクトル形状のベクトルであってもよい。スペクトルの別の部分を指定する変位ベクトルは、通常はスペクトル全体を通じて繰り返す調性信号の高調波があるので、オーディオにおいて有用である。ノイズまたはその他の固定コードブックを使用することで、スペクトルのベースバンド−コーディングされた部分で十分に表されていない成分の低ビットレートのコーディングを容易にすることができる。
一部のエンコーダにより、ベクトルの変更はスペクトルデータをより詳細に表すことができるようになる。一部の可能な変更は、ベクトルの線形または非線形変換、あるいはベクトルを2つ以上の他の元のベクトルまたは変更済みのベクトルの組合せとして表すことを含む。ベクトルの組合せの場合、変更は、1つのベクトルの1つまたは複数の部分をとり、それを他のベクトルの1つまたは複数の部分と組み合わせることを含む。ベクトル変更を使用する場合、新しいベクトルを形成する方法に関してデコーダに通知するためにビットが送信される。追加のビットにもかかわらず、変更は、実波形コーディングの場合に比べて、スペクトルデータを表すために消費するビットは少なくてすむ。
拡張帯域コーダは、拡張帯域のサブバンドあたりの別個のスケール因数をコーディングする必要はない。その代わり、拡張帯域コーダは、拡張サブバンドのスケールパラメータをそれらの周波数の関数としてもたらす多項式関数の係数のセットをコーディングすることによってなど、サブバンドのスケールパラメータを周波数の関数として表すことができる。さらに、拡張帯域コーダは、拡張サブバンドの形状を特徴付ける追加の値をコーディングすることができる。例えば、拡張帯域コーダは、運動ベクトルによって示されるベースバンドの部分の移動または引き伸ばしを指定するために値をエンコードすることができる。そのような場合、形状パラメータは、コーディングされたベースバンドからのベクトル、固定コードブック、またはランダムノイズベクトルに関して拡張サブバンドの形状をより詳細に表すために、(例えば、位置、移動、および/または引き伸ばしを指定する)値のセットとしてコーディングされる。
拡張帯域の各サブバンドをコーディングするスケールおよび形状パラメータはいずれも、ベクトルであってもよい。例えば、拡張サブバンドは、周波数応答特性によるフィルタscale(f)と周波数応答特性による励起shape(f)の時間領域においてベクトル積scale(f)・shape(f)として表すことができる。このコーディングは、線形予測コーディング(LPC)フィルタと励起の形態であってもよい。LPCフィルタは、拡張サブバンドのスケールと形状の下位表現であり、励起は拡張サブバンドのピッチおよび/またはノイズ特性を表す。励起は、スペクトルのベースバンドコーディングされた部分を分析すること、およびベースバンドコーディングされたスペクトルの部分、固定コードブックスペクトル、またはコーディングされている励起と一致するランダムノイズを識別することによってもたらされてもよい。これは、拡張サブバンドを、ベースバンドコーディングされたスペクトルの一部として表すが、照合は時間領域において行われる。
再び図35を参照すると、3530において、拡張帯域コーダは、(例えば、ベースバンドの各部分の正規化バージョンとの最小二乗平均比較を使用して)拡張帯域の現在のサブバンドと類似した形状を持つベースバンドスペクトル係数から、類似の帯域のベースバンドスペクトル係数を検索する。3532において、拡張帯域コーダは、ベースバンドスペクトル係数からのこの類似の帯域が、現在の拡張帯域と形状が十分に類似しているかどうかを検査する(例えば、最小二乗平均値があらかじめ選択されているしきい値よりも小さい)。十分に類似している場合、3534において、拡張帯域コーダは、ベースバンドスペクトル係数のこの類似の帯域を指し示すベクトルを決定する。ベクトルは、ベースバンドの開始係数位置であってもよい。(調性と無調性を確認するなど)その他の方法も、ベースバンドスペクトル係数の類似の帯域が、現在の拡張帯域に形状が十分に類似しているかを調べるために使用することができる。
ベースバンドの十分に類似する部分が見出されない場合、拡張帯域コーダは、スペクトル形状の固定コードブックを頼りにして(3540)現在のサブバンドを表す。十分に類似する部分が見出された場合(3542)、3544において、拡張帯域コーダは、コードブックのその索引を形状パラメータとして使用する。それ以外の場合は、3550において、拡張帯域コーダは、現在のサブバンドの形状を、正規化ランダムノイズベクトルとして表す。
代替として、拡張帯域コーダは、他の決定プロセスによりスペクトル係数がどのように表現されうるかを決定することができる。
拡張帯域コーダは、スケールおよび形状パラメータを(例えば予測コーディング、量子化および/またはエントロピーコーディングを使用して)圧縮することができる。例えば、スケールパラメータは、先行の拡張サブバンドに基づいて予測的にコーディングされてもよい。マルチチャネルオーディオの場合、サブバンドのスケールパラメータは、チャネルの先行するサブバンドから予測することができる。スケールパラメータはまた、数ある変形の中でも特に、2つ以上の他のサブバンドから、ベースバンドスペクトルから、または前のオーディオ入力ブロックから、チャネルにわたって予測することができる。予測の選択は、(例えば、同じ拡張帯域、チャネル、またはタイル(入力ブロック)内の)前のいずれの帯域がより高い相関をもたらすかを調べることにより行われてもよい。拡張帯域コーダは、均一または不均一量子化を使用してスケールパラメータを量子化することができ、結果として得られる量子化値はエントロピーコーディングされたものであってもよい。拡張帯域コーダはまた、形状パラメータに対して、(例えば、先行のサブバンドからの)予測コーディング、量子化、およびエントロピーコーディングを使用することもできる。
サブバンドのサイズが所定の実施態様について可変である場合、これはサブバンドのサイズを変更してコーディングの効率を高める機会をもたらす。多くの場合、類似した特性を持つサブバンドは、品質にほとんど影響を及ぼすことなく組み合わせることができる。極めて可変なデータを持つサブバンドは、サブバンドが分割される場合には、より詳細に表すことができる。しかし、より小さいサブバンドは、大きいサブバンドの場合に比べて、同じスペクトルデータを表すためにより多くのサブバンド(さらに通常は、より多くのビット)を必要とする。これらの利害関係のバランスをとるため、エンコーダは、品質測定およびビットレート情報に基づいてサブバンドの決定を行うことができる。
デコーダは、ベースバンド/拡張帯域分割によりビットストリームを逆多重化し、対応するデコーディング技法を使用して(例えば、ベースバンドデコーダおよび拡張帯域デコーダで)帯域をデコーディングする。デコーダはまた、追加の機能を実行することができる。
図36は、ベースバンドデータと拡張帯域データのための周波数拡張コーディングを使用するエンコーダおよび別個のエンコーディングモジュールによって生成されたビットストリームをデコードするためのオーディオデコーダ3600の態様を示す。図36において、エンコードされたビットストリーム3605内のベースバンドデータと拡張帯域データは、それぞれベースバンドデコーダ3640および拡張帯域デコーダ3640においてデコードされる。ベースバンドデコーダ3640は、ベースバンドコーデックの通常のデコーディングを使用して、ベースバンドスペクトル係数をデコードする。拡張帯域デコーダFF50は、形状パラメータの運動ベクトルによって指し示されたベースバンドスペクトル係数の部分にわたりコピーすること、およびスケールパラメータのスケーリング因数により基準化することによって含む、拡張帯域データをデコードする。ベースバンドおよび拡張帯域スペクトル係数は単一のスペクトルに結合され、それが逆変換3680によって変換されてオーディオ信号を再構築する。
第IV節では、1つまたは複数のコーディングされたチャネルからのスペクトルの基準化バージョンを使用して、コーディングされていないチャネルのすべての周波数を表す技法について説明した。周波数拡張コーディングは、拡張帯域係数はベースバンド係数の基準化バージョンを使用して表されるという点において異なる。しかし、それらの技法は、結合チャネルに周波数拡張コーディングを実行すること、および以下に説明するようなその他の方法などによって、併用することもできる。
B.その他のコーディング変換によるチャネル拡張コーディングの例
図37は、時間−周波数(T/F)基本変換3710、T/F周波数拡張変換3720、およびT/Fチャネル拡張変換3730を使用してマルチチャネルソースオーディオ3705を処理する例示のエンコーダ3700の態様を示す図である(その他のエンコーダは、異なる組合せ、または図示されているものに加えて他の変換を使用してもよい)。
T/F変換は、3つの変換の各々について異なっていてもよい。
基本変換の場合、マルチチャネル変換器3712の後、コーディング3715は、スペクトル係数のコーディングを備える。チャネル拡張コーディングも使用される場合、マルチチャネル変換コーディングされたチャネルの少なくとも一部の少なくとも一部の周波数範囲は、コーディングされる必要はない。周波数拡張コーディングも使用される場合、少なくとも一部の周波数範囲はコーディングされる必要はない。周波数拡張変換の場合、コーディング3715は、サブフレーム内の帯域のスケールおよび形状パラメータのコーディングを備える。チャネル拡張コーディングも使用される場合、これらのパラメータは、チャネルの一部の一部の周波数範囲について送信される必要がないこともある。チャネル拡張変換の場合、コーディング3715は、サブフレーム内の帯域のチャネル間相関を正確に保持するためのパラメータ(例えば、出力比および複素パラメータ)のコーディングを備える。簡単にするため、コーディングは、単一のコーディングモジュール3715において形成されるものとして示される。しかし、様々なコーディングモジュールにおいて、様々なコーディングタスクが実行されてもよい。
図38、図39、図40は、例示のエンコーダ3700によって生成されたビットストリーム3795などのビットストリームをデコードするデコーダ3800、3900、および4000の態様を示す図である。デコーダ3800、3900、および4000において、一部のデコーダに存在する一部のモジュール(例えば、エントロピーデコーディング、逆量子化/加重、追加後処理)は、簡単にするために示されていない。さらに、示されているモジュールは、場合によっては、様々な方法で再配置されるか、結合されるか、または分割されることもある。例えば、単一のパスが示されているが、処理パスは、2つ以上の処理パスに概念的に分割されてもよい。
デコーダ3800において、基本スペクトル係数は、逆基本マルチチャネル変換3810、逆基本T/F変換3820、順T/F周波数拡張変換3830、周波数拡張処理3840、逆周波数拡張T/F変換3850、順T/Fチャネル拡張変換3860、チャネル拡張処理3870、および逆チャネル拡張T/F変換3880により処理されて、再構築されたオーディオ3895を生成する。
しかし、実際上は、このデコーダは、望ましくないことに複雑なものである場合もある。さらに、チャネル拡張変換は複雑であるが、他の2つの変換は複雑ではない。したがって、他のデコーダは、次の方法で調整されてもよい。周波数拡張コーディングのT/F変換は、(1)基本T/F変換、または(2)チャネル拡張T/F変換の実数部分に限定することができる。
これにより、図39および図40に示されるような構成が可能になる。
図39において、デコーダ3900は、周波数拡張処理3910、逆マルチチャネル変換3920、逆基本T/F変換3930、順チャネル拡張変換3940、チャネル拡張処理3950、および逆チャネル拡張T/F変換3960により基本スペクトル係数を処理して、再構築されたオーディオ3995を生成する。
図40において、デコーダ4000は、逆マルチチャネル変換4010、逆基本T/F変換4020、順チャネル拡張変換の実数部分4030、周波数拡張処理4040、順チャネル拡張変換の虚数部分の導出4050、チャネル拡張処理4060、および逆チャネル拡張T/F変換4070により基本スペクトル係数を処理して、再構築されたオーディオ4095を生成する。
これらの構成のいずれが使用されてもよく、デコーダはどの構成が使用されるかを動的に変更することができる。1つの実施態様において、基本および周波数拡張コーディングに使用される変換は、MLT(MCLT(変調複素重複変換)の実数部分である)であり、チャネル拡張変換に使用される変換はMCLTである。しかし、この2つは異なるサブフレームサイズを備える。
サブフレーム内の各MCLT係数は、そのサブフレームにわたる基底関数を有する。各サブフレームは隣接する2つのサブフレームと重複するだけなので、所定のサブフレームの正確なMCLT係数を求めるため必要となるのは、現在のサブフレーム、前のサブフレーム、および次のサブフレームからのMLT係数のみである。
変換は同じサイズの変換ブロックを使用することができるか、または変換ブロックは異なる種類の変換に対して異なるサイズであってもよい。周波数拡張コーディング変換がより小さい時間ウィンドウブロックで動作することにより品質を向上させることができる場合のように、基本コーディング変換および周波数拡張コーディング変換において様々なサイズの変換ブロックが望ましいこともある。しかし、基本コーディング、周波数拡張コーディング、およびチャネルコーディングにおいて変換サイズを変更すると、エンコーダおよびデコーダに重大な複雑性をもたらすことになる。したがって、少なくとも一部の変換タイプの間で変換サイズを共有することが望ましいと考えられる。
一例として、基本コーディング変換および周波数拡張コーディング変換が同じ変換ブロックサイズを共有する場合、チャネル拡張コーディング変換は、基本コーディング/周波数拡張コーディング変換のブロックサイズとは関係なく変換ブロックサイズを有することができる。この例において、デコーダは、逆基本コーディング変換が後に続く周波数再構築を備えることができる。次いで、デコーダは、順方向複素変換を実行して、コーディングされた結合チャネルを基準化するスペクトル係数を導き出す。複素チャネルコーディング変換は、他の2つの変換とは無関係に、その独自の変換ブロックサイズを使用する。デコーダは、導き出されたスペクトル係数を使用してコーディングされた結合チャネル(例えば、和チャネル)から周波数領域で物理チャネルを再構築し、逆複素変換を実行して再構築された物理チャネルから時間領域サンプルを取得する。
もう1つの例として、基本コーディング変換および周波数拡張コーディング変換が異なる変換ブロックサイズを有する場合、チャネルコーディング変換は、周波数拡張コーディング変換のブロックサイズと同じ変換ブロックサイズを有することができる。この例において、デコーダは、周波数再構築が後に続く逆基本コーディング変換を備えることができる。デコーダは、周波数再構築に使用されたものと同じ変換ブロックサイズを使用して、逆チャネル変換を実行する。次いで、デコーダは、複素成分の順変換を実行して、スペクトル係数を導き出す。
順変換において、デコーダは、実数部分からチャネル拡張変換係数のMCLT係数の虚数部分を計算することができる。例えば、デコーダは、前のブロックからの一部の帯域(例えば、3つの帯域またはそれ以上)から、現在のブロックからの一部の帯域(例えば、2つの帯域)から、および次のブロックからの一部の帯域(例えば、3つの帯域またはそれ以上)から実数部分を調べることにより、現在のブロックの虚数部分を計算することができる。
虚数部分への実数部分のマッピングは、逆変調DCT基底ベクトルと順変調離散サイン変調(DST)基底ベクトル間の内積をとることを伴う。所定のサブフレームの虚数部分を計算することは、サブフレーム内のすべてのDST係数を求めることを伴う。これは、前のサブフレーム、現在のサブフレーム、および次のサブフレームからのDCT基底ベクトルについてのみ、非ゼロとなりうる。さらに、求めようと試みているDST係数とほぼ類似する周波数のDCT基底ベクトルのみが、重大なエネルギーを有する。前、現在、および次のサブフレームのサブフレームサイズがすべて同じである場合、エネルギーはDST係数を求めようとしている周波数とは異なる周波数に対して大幅に減少する。したがって、DCT係数を所与として所定のサブフレームのDST係数を求めるために、複雑性の低い解決策を見出すことができる。
具体的に、Xs=A*Xc(−1)+B*Xc(0)+C*Xc(1)を計算することができるが、ここでXc(−1)、Xc(0)、Xc(1)は前、現在、および次のブロックからのDCT係数を表し、Xsは現在のブロックのDST係数を表す。
1)様々なウィンドウ形状/サイズに対してA、B、C行列を事前計算する。
2)A、B、およびC行列をしきい値処理し、ピーク値よりも大幅に小さい値は0まで下げられ、疎行列まで縮小される。
3)非ゼロの行列要素のみを使用して、行列乗算を計算する。
複素フィルタバンクが必要とされるアプリケーションにおいて、これは、虚数部分を直接に計算することなく、実数部分から虚数を、あるいはその逆を導き出す迅速な方法である。
デコーダは、導き出されたスケール因数を使用してコーディングされた結合チャネル(例えば、和チャネル)から周波数領域で物理チャネルを再構築し、逆複素変換を実行して再構築された物理チャネルから時間領域サンプルを取得する。
この手法により、逆DCTおよび順DSTを伴う強引な手法に比べて、複雑さが大幅に軽減される。
C.周波数/チャネルコーディングにおける計算の複雑性の軽減
周波数/チャネルコーディングは、基本コーディング変換、周波数コーディング変換、およびチャネルコーディング変換により行うことができる。ブロックまたはフレームベースで相互に変換を切り替えることは、知覚品質を向上させることができるが、計算上は高価である。一部のシナリオ(例えば、低処理能力の装置など)においては、そのような高い複雑性は許容されない場合もある。複雑性を軽減するための1つの解決策は、エンコーダに、周波数およびチャネルのコーディングに常に基本コーディング変換を強制的に選択させることである。しかし、この手法は、出力の制約がない再生装置についても、品質に制約を設けることになる。もう1つの解決策は、エンコーダに変換の制約なしで実行させ、低複雑性が要求される場合、デコーダに、周波数/チャネルコーディングパラメータを基本コーディング変換領域にマッピングさせることである。マッピングが適切な方法で行われた場合、第2の解決策は、適度な複雑性で、高出力装置向けの良好な品質と、低出力装置向けの良好な品質を達成することができる。他の領域から基本変換領域へのパラメータのマッピングは、ビットストリームからの他の情報を使用せずに実行されるか、またはマッピングパフォーマンスを高めるためにエンコーダによってビットストリームに加えられた追加情報を使用して実行されてもよい。
D.様々なウィンドウサイズ間の移行における周波数コーディングのエネルギートラッキングの向上
第V.B節において示されているように、周波数コーディングエンコーダは、基本コーディング変換、周波数コーディング変換(例えば、拡張帯域知覚類似性コーディング変換)、およびチャネルコーディング変換を使用することができる。しかし、周波数エンコーディングが、2つの異なる変換を切り替える場合、周波数エンコーディングの開始点には、特別な注意が必要とされることがある。これは、基本変換などの変換の1つにおける信号が通常、最後にコーディングされた係数によって定義された明瞭な通過帯域で、帯域通過されるためである。しかし、異なる変換にマップされる場合、そのような明瞭な境界はあいまいなものになる可能性がある。1つの実施態様において、周波数エンコーダは、開始点を慎重に定義することにより、信号出力がまったく失われていないことを確認する。具体的には、以下のことを行う。
1)各帯域に対して、周波数エンコーダは、前に(基本コーディングなどによって)圧縮された信号のエネルギーを計算する−E1
2)各帯域に対して、周波数エンコーダは、元の信号のエネルギーを計算する−E2
3)Tを事前定義されたしきい値として、(E2−E1)>Tである場合、周波数エンコーダはこの帯域に開始点としてマークを付ける。
4)周波数エンコーダは、ここでオペレーションを開始し、
5)周波数エンコーダは、開始点をデコーダに伝送する。
このようにして、異なる変換を切り替えるとき、周波数エンコーダはエネルギー差を検出し、それに応じて開始点を伝送する。
VI.周波数拡張コーディングの形状およびスケールパラメータ
A.変調DCTコーディングを使用するエンコーダの変位ベクトル
上記の第V節において説明されているように、拡張帯域知覚類似性周波数コーディングは、時間ウィンドウ内の周波数帯域の形状パラメータおよびスケールパラメータを決定することを伴う。形状パラメータは、拡張帯域(通常は、ベースバンドよりも高い帯域)のコーディング係数の基準としての役割を果たすベースバンド(通常は低帯域)の部分を指定する。例えば、ベースバンドの指定された部分の係数は、基準化されてから、拡張帯域に適用されてもよい。
変位ベクトルdは、図41において示されるように、時間tにおいてチャネルの信号を変調するために使用することができる。図41は、それぞれ時間t0およびt1における、2つのオーディオブロック4100および4110の変位ベクトルの表現を示す。図41に示される例は周波数拡張コーディングの概念を伴うが、この原理は、周波数拡張コーディングに関連しないその他の変調方式に適用することができる。
図41に示されている例において、オーディオブロック4100および4110は、範囲0からN−1にN個のサブバンドを備え、各ブロックのサブバンドは低周波数ベースバンドと高周波数拡張帯に分割されている。オーディオブロック4100の場合、変位ベクトルd0は、サブバンドm0とn0の間の変位として示されている。同様にオーディオブロック4110の場合、変位ベクトルd1は、サブバンドm1とn1の間の変位として示されている。
変位ベクトルは拡張帯域係数の形状を正確に記述することを意図されているので、変位ベクトルに最大の柔軟性を許容することが望ましいと考えられることもある。しかし、状況によっては、変位ベクトルの値を制限することで、知覚品質の向上をもたらす。例えば、エンコーダは、サブバンドが各々常時偶数または奇数になるようにサブバンドmおよびnを選択して、変位ベクトルdによってカバーされるサブバンドの数を常に偶数にすることができる。変調離散コサイン変換(DCT)を使用するエンコーダにおいて、変位ベクトルdによってカバーされるサブバンドの数が偶数である場合、より良好な再構築が可能である。
拡張帯域知覚類似性周波数コーディングが、変調DCTを使用して実行される場合、ベースバンドからの余弦波は、拡張帯域の変調余弦波を生成するように変調される。変位ベクトルdによってカバーされるサブバンドの数が偶数である場合、変調は正確な再構築に至る。しかし、変位ベクトルdによってカバーされるサブバンドの数が奇数である場合、変調は、再構築されたオーディオの歪みをまねく。したがって、偶数のサブバンドのみをカバーする(およびdの柔軟性の一部を犠牲にする)ように変位ベクトルを制限することにより、変調信号の歪みを防いでより良好な全般的音質を達成することができる。したがって、図41に示される例において、オーディオブロック4100および4110の変位ベクトルは各々偶数のサブバンドをカバーする。
B.スケールパラメータのアンカーポイント
周波数コーディングが、基本コーダよりも小さいウィンドウを有する場合、ビットレートは増大する傾向がある。ウィンドウは小さいが、不快なアーティファクトを防ぐために周波数解像度をかなり高いレベルに維持することが依然として重要であるからである。
図42は、様々なサイズのオーディオブロックの簡略化した配置を示す。時間ウィンドウ4210は、時間ウィンドウ4212〜4222よりも長い継続時間を有するが、各時間ウィンドウは同数の周波数帯域を有している。
図42のチェックマークは、各周波数帯域のアンカーポイントを示す。図42に示されるように、アンカーポイント間で時間距離が異なる可能性があるように、アンカーポイントの数は帯域間で異なる可能性がある(簡単にするため、図42において、すべてのウィンドウ、帯域、またはアンカーポイントは示されていない)。これらのアンカーポイントにおいて、スケールパラメータが決定される。次いで、他の時間ウィンドウ内の同じ帯域のスケールパラメータは、アンカーポイントにおいてパラメータから補間されてもよい。
代替として、アンカーポイントは、別の方法で決定することもできる。
説明されている実施形態を参照して、本発明の原理を説明し示してきたが、説明されている実施形態は、そのような原理を逸脱することなく配置および詳細に変更を加えることができることが理解されよう。特に明記されていない限り、本明細書において説明されるプログラム、プロセス、または方法は、特定のタイプのコンピュータ環境に関連しない、あるいは限定されないことを理解されたい。様々なタイプの汎用または特殊用途のコンピューティング環境が、本明細書において説明される教示に従って使用されるか、またはオペレーションを実行してもよい。ソフトウェアにおいて示される説明されている実施形態の要素は、ハードウェアにおいても実施することができ、またその逆も可能である。
本発明の原理が適用されうる多くの可能な実施形態に照らして、添付の特許請求の範囲およびその等価物の範囲および精神に含まれうるすべてのそのような実施形態を本発明として主張する。
説明されている様々な実施形態が共に実施されうる一般的なオペレーティング環境を示すブロック図である。 説明されている様々な実施形態が共に実施されうる一般的なエンコーダおよび/またはデコーダを示すブロック図である。 説明されている様々な実施形態が共に実施されうる一般的なエンコーダおよび/またはデコーダを示すブロック図である。 説明されている様々な実施形態が共に実施されうる一般的なエンコーダおよび/またはデコーダを示すブロック図である。 説明されている様々な実施形態が共に実施されうる一般的なエンコーダおよび/またはデコーダを示すブロック図である。 例示のタイル構成を示す図である。 マルチチャネル前処理の一般的な技法を示す流れ図である。 マルチチャネル後処理の一般的な技法を示す流れ図である。 チャネル拡張エンコーディングにおいて結合チャネルの複素スケール因数を導き出す技法を示す流れ図である。 チャネル拡張デコーディングにおいて複素スケール因数を使用する技法を示す流れ図である。 チャネル再構築における結合チャネル係数の基準化を示す図である。 実際の出力比と、アンカーポイントにおいて出力比から補間された出力比とのグラフィカルな比較を示す図である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 一部の実施形態におけるチャネル拡張処理の詳細を示す式および関連する行列の配列である。 周波数拡張コーディングを実行するエンコーダの態様を示すブロック図である。 拡張帯域サブバンドをエンコードする例示の技法を示す流れ図である。 周波数拡張デコーディングを実行するデコーダの態様を示すブロック図である。 チャネル拡張コーディングおよび周波数拡張コーディングを実行するエンコーダの態様を示すブロック図である。 チャネル拡張デコーディングおよび周波数拡張デコーディングを実行するデコーダの態様を示すブロック図である。 チャネル拡張デコーディングおよび周波数拡張デコーディングを実行するデコーダの態様を示すブロック図である。 チャネル拡張デコーディングおよび周波数拡張デコーディングを実行するデコーダの態様を示すブロック図である。 2つのオーディオブロックの変位ベクトルの表現を示す図である。 スケールパラメータの補間のためのアンカーポイントを有するオーディオブロックの配置を示す図である。

Claims (20)

  1. オーディオエンコーダにおいて、
    マルチチャネルオーディオデータを受信するステップであって、前記マルチチャネルオーディオデータは複数のソースチャネルのグループを備えるステップと、
    前記マルチチャネルオーディオデータにチャネル拡張コーディングを実行するステップであって、前記チャネル拡張コーディングは、
    前記グループの結合チャネルをエンコードするステップと、
    前記エンコードされた結合チャネルの変更バージョンとして前記グループの個々のソースチャネルを表すための複数のパラメータを決定するステップとを備えるステップと、
    周波数拡張コーディングを実行するステップとを備えることを特徴とするコンピュータ実施の方法。
  2. 前記周波数拡張コーディングは、
    前記マルチチャネルオーディオデータの周波数帯域をベースバンドグループと拡張帯域グループに分割するステップを備えることを特徴とする請求項1に記載の方法。
  3. 前記周波数拡張コーディングは、
    前記ベースバンドグループのオーディオ係数に基づいて前記拡張帯域グループのオーディオ係数をコーディングするステップをさらに備えることを特徴とする請求項2に記載の方法。
  4. 前記エンコードされた結合チャネルおよび前記複数のパラメータをオーディオデコーダに送信するステップと、
    周波数拡張コーディングデータを前記オーディオデコーダに送信するステップとをさらに備え、
    前記エンコードされた結合チャネル、前記複数のパラメータ、および前記周波数拡張コーディングデータは、前記複数のソースチャネルの少なくとも2つの前記オーディオデコーダにおける再構築を容易にすることを特徴とする請求項1に記載の方法。
  5. 前記複数のパラメータは、前記少なくとも2つのソースチャネルの出力比を備えることを特徴とする請求項4に記載の方法。
  6. 前記複数のパラメータは、前記少なくとも2つのソースチャネルにわたり二次統計を保持するための複素パラメータを備えることを特徴とする請求項4に記載の方法。
  7. 前記オーディオデコーダは、前記少なくとも2つのソースチャネルにわたり二次統計を保持することを特徴とする請求項4に記載の方法。
  8. 前記オーディオエンコーダは、基本変換モジュール、周波数拡張変換モジュール、およびチャネル拡張変換モジュールを備えることを特徴とする請求項1に記載の方法。
  9. 前記マルチチャネルオーディオデータに基本コーディングを実行するステップをさらに備えることを特徴とする請求項1に記載の方法。
  10. 前記基本コーディングされたマルチチャネルオーディオデータにマルチチャネル変換を実行するステップをさらに備えることを特徴とする請求項9に記載の方法。
  11. それによりプログラムされたコンピュータに請求項1に記載の方法を実行させるためのコンピュータ実行可能命令を格納することを特徴とするコンピュータ可読媒体。
  12. オーディオデコーダにおいて、
    エンコードされたマルチチャネルオーディオデータを受信するステップであって、前記エンコードされたマルチチャネルオーディオデータはチャネル拡張コーディングデータおよび周波数拡張コーディングデータを備えるステップと、
    前記チャネル拡張コーディングデータおよび前記周波数拡張コーディングデータを使用して複数のオーディオチャネルを再構築するステップとを備え、
    前記チャネル拡張コーディングデータは、
    前記複数のオーディオチャネルの結合チャネルと、
    前記複数のオーディオチャネルの個々のチャネルを前記結合チャネルの変更バージョンとして表すための複数のパラメータとを備えることを特徴とするコンピュータ実施の方法。
  13. それによりプログラムされたコンピュータに請求項12に記載の方法を実行させるためのコンピュータ実行可能命令を格納することを特徴とするコンピュータ可読媒体。
  14. オーディオデコーダにおいて、
    マルチチャネルオーディオデータを受信するステップと、
    前記受信したマルチチャネルオーディオデータに逆マルチチャネル変換を実行するステップと、
    前記受信したマルチチャネルオーディオデータに逆基本時間−周波数変換を実行するステップと、
    前記受信したマルチチャネルオーディオデータに周波数拡張処理を実行するステップと、
    前記受信したマルチチャネルオーディオデータにチャネル拡張処理を実行するステップとを備えることを特徴とするコンピュータ実施の方法。
  15. 前記周波数拡張処理は、前記逆マルチチャネル変換および前記逆基本時間−周波数変換の前に、前記受信したマルチチャネルオーディオデータに実行されることを特徴とする請求項14に記載の方法。
  16. 前記受信したマルチチャネルオーディオデータに順チャネル拡張変換および逆チャネル拡張変換を実行するステップをさらに備えることを特徴とする請求項14に記載の方法。
  17. 前記周波数拡張処理は、少なくとも一部の前記順チャネル拡張変換の後に、前記受信したマルチチャネルオーディオデータに実行されることを特徴とする請求項16に記載の方法。
  18. 前記少なくとも一部の前記順チャネル拡張変換は、前記順チャネル拡張変換の実数部分であることを特徴とする請求項17に記載の方法。
  19. 前記順チャネル拡張変換の虚数部分は、前記順チャネル拡張変換の実数部分から導き出されることを特徴とする請求項16に記載の方法。
  20. それによりプログラムされたコンピュータに請求項14に記載の方法を実行させるためのコンピュータ実行可能命令を格納することを特徴とするコンピュータ可読媒体。
JP2008551278A 2006-01-20 2007-01-03 拡張帯域周波数コーディングによる複素変換チャネルコーディング Pending JP2009524108A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/336,606 US7831434B2 (en) 2006-01-20 2006-01-20 Complex-transform channel coding with extended-band frequency coding
PCT/US2007/000021 WO2007087117A1 (en) 2006-01-20 2007-01-03 Complex-transform channel coding with extended-band frequency coding

Publications (1)

Publication Number Publication Date
JP2009524108A true JP2009524108A (ja) 2009-06-25

Family

ID=38286603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008551278A Pending JP2009524108A (ja) 2006-01-20 2007-01-03 拡張帯域周波数コーディングによる複素変換チャネルコーディング

Country Status (9)

Country Link
US (2) US7831434B2 (ja)
EP (1) EP1974470A4 (ja)
JP (1) JP2009524108A (ja)
KR (1) KR101143225B1 (ja)
CN (2) CN102708868B (ja)
AU (2) AU2007208482B2 (ja)
CA (1) CA2637185C (ja)
RU (2) RU2555221C2 (ja)
WO (1) WO2007087117A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009530651A (ja) * 2006-03-15 2009-08-27 フランス テレコム 主成分分析によりマルチチャネルオーディオ信号を符号化するための装置および方法
JP2014523548A (ja) * 2011-06-30 2014-09-11 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張信号生成装置及びその方法
JP2019148807A (ja) * 2015-07-31 2019-09-05 アップル インコーポレイテッドApple Inc. エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
JP2021529354A (ja) * 2018-07-04 2021-10-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法
US20230124006A1 (en) * 2021-10-15 2023-04-20 Lemon Inc. System and method for training a transformer-in-transformer-based neural network model for audio data
US12367883B2 (en) 2018-07-04 2025-07-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal audio coding using signal whitening as processing

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7742927B2 (en) * 2000-04-18 2010-06-22 France Telecom Spectral enhancing method and device
US6934677B2 (en) * 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7502743B2 (en) 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7724827B2 (en) * 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US8599925B2 (en) * 2005-08-12 2013-12-03 Microsoft Corporation Efficient coding and decoding of transform blocks
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7953604B2 (en) * 2006-01-20 2011-05-31 Microsoft Corporation Shape and scale parameters for extended-band frequency coding
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US7774205B2 (en) * 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
US20100250260A1 (en) * 2007-11-06 2010-09-30 Lasse Laaksonen Encoder
CA2704812C (en) * 2007-11-06 2016-05-17 Nokia Corporation An encoder for encoding an audio signal
KR101161866B1 (ko) * 2007-11-06 2012-07-04 노키아 코포레이션 오디오 코딩 장치 및 그 방법
US9275648B2 (en) * 2007-12-18 2016-03-01 Lg Electronics Inc. Method and apparatus for processing audio signal using spectral data of audio signal
KR101449434B1 (ko) * 2008-03-04 2014-10-13 삼성전자주식회사 복수의 가변장 부호 테이블을 이용한 멀티 채널 오디오를부호화/복호화하는 방법 및 장치
JP5425066B2 (ja) * 2008-06-19 2014-02-26 パナソニック株式会社 量子化装置、符号化装置およびこれらの方法
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US8117039B2 (en) * 2008-12-15 2012-02-14 Ericsson Television, Inc. Multi-staging recursive audio frame-based resampling and time mapping
WO2010070770A1 (ja) * 2008-12-19 2010-06-24 富士通株式会社 音声帯域拡張装置及び音声帯域拡張方法
US9245529B2 (en) * 2009-06-18 2016-01-26 Texas Instruments Incorporated Adaptive encoding of a digital signal with one or more missing values
JP2011065093A (ja) * 2009-09-18 2011-03-31 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
CA2778368C (en) 2009-10-20 2016-01-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using an iterative interval size reduction
JP4709928B1 (ja) * 2010-01-21 2011-06-29 株式会社東芝 音質補正装置及び音質補正方法
US9378745B2 (en) * 2010-04-09 2016-06-28 Dolby International Ab MDCT-based complex prediction stereo coding
JP5975243B2 (ja) * 2011-08-24 2016-08-23 ソニー株式会社 符号化装置および方法、並びにプログラム
LT3217667T (lt) 2011-10-17 2020-11-10 Kabushiki Kaisha Toshiba Kodavimo būdas ir dekodavimo būdas
KR101276049B1 (ko) * 2012-01-25 2013-06-20 세종대학교산학협력단 조건부 스플릿 벡터 양자화를 이용한 음성 압축 장치 및 그 방법
US8773291B2 (en) * 2012-02-13 2014-07-08 Intel Corporation Audio receiver and sample rate converter without PLL or clock recovery
KR102123770B1 (ko) * 2012-03-29 2020-06-16 텔레폰악티에볼라겟엘엠에릭슨(펍) 하모닉 오디오 신호의 변환 인코딩/디코딩
CN106791833B (zh) 2012-06-27 2019-10-11 株式会社东芝 编码方法、解码方法、编码设备以及解码设备
JP6231093B2 (ja) * 2012-07-09 2017-11-15 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ信号の符号化及び復号
CN104704825B (zh) * 2012-08-21 2019-08-30 Emc 公司 分段图像数据的无损压缩
CA2889942C (en) * 2012-11-05 2019-09-17 Panasonic Intellectual Property Corporation Of America Speech audio encoding device, speech audio decoding device, speech audio encoding method, and speech audio decoding method
US10043535B2 (en) 2013-01-15 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
TWI546799B (zh) * 2013-04-05 2016-08-21 杜比國際公司 音頻編碼器及解碼器
EP2981960B1 (en) 2013-04-05 2019-03-13 Dolby International AB Stereo audio encoder and decoder
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
US9425757B2 (en) * 2013-05-15 2016-08-23 Infineon Technologies Ag Apparatus and method for controlling an amplification gain of an amplifier, and a digitizer circuit and microphone assembly
EP2824661A1 (en) * 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
FR3008533A1 (fr) * 2013-07-12 2015-01-16 Orange Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
CN110890101B (zh) 2013-08-28 2024-01-12 杜比实验室特许公司 用于基于语音增强元数据进行解码的方法和设备
CN105556597B (zh) * 2013-09-12 2019-10-29 杜比国际公司 多声道音频内容的编码和解码
TW202514598A (zh) 2013-09-12 2025-04-01 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
TWI579831B (zh) 2013-09-12 2017-04-21 杜比國際公司 用於參數量化的方法、用於量化的參數之解量化方法及其電腦可讀取的媒體、音頻編碼器、音頻解碼器及音頻系統
WO2015037969A1 (ko) * 2013-09-16 2015-03-19 삼성전자 주식회사 신호 부호화방법 및 장치와 신호 복호화방법 및 장치
CN105745703B (zh) * 2013-09-16 2019-12-10 三星电子株式会社 信号编码方法和装置以及信号解码方法和装置
KR101805630B1 (ko) * 2013-09-27 2017-12-07 삼성전자주식회사 멀티 디코딩 처리 방법 및 이를 수행하기 위한 멀티 디코더
US10045135B2 (en) 2013-10-24 2018-08-07 Staton Techiya, Llc Method and device for recognition and arbitration of an input connection
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
GB2524333A (en) * 2014-03-21 2015-09-23 Nokia Technologies Oy Audio signal payload
CN105632505B (zh) * 2014-11-28 2019-12-20 北京天籁传音数字技术有限公司 主成分分析pca映射模型的编解码方法及装置
JP6567691B2 (ja) * 2015-05-20 2019-08-28 テレフオンアクチーボラゲット エルエム エリクソン(パブル) マルチチャネルオーディオ信号のコード化
CN105072588B (zh) * 2015-08-06 2018-10-16 北京大学 全线性无纠错保护的多媒体数据组播方法
US12125492B2 (en) * 2015-09-25 2024-10-22 Voiceage Coproration Method and system for decoding left and right channels of a stereo sound signal
CN105844592A (zh) * 2016-01-14 2016-08-10 辽宁师范大学 高光谱图像的小波域全变分混合去噪方法
WO2017125563A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for estimating an inter-channel time difference
KR101968456B1 (ko) 2016-01-26 2019-04-11 돌비 레버러토리즈 라이쎈싱 코오포레이션 적응형 양자화
RU2638756C2 (ru) * 2016-05-13 2017-12-15 Кабусики Кайся Тосиба Устройство кодирования, устройство декодирования, способ кодирования и способ декодирования
EP3469588A1 (en) * 2016-06-30 2019-04-17 Huawei Technologies Duesseldorf GmbH Apparatuses and methods for encoding and decoding a multichannel audio signal
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
US11227615B2 (en) * 2017-09-08 2022-01-18 Sony Corporation Sound processing apparatus and sound processing method
CN110535497B (zh) * 2018-08-10 2022-07-19 中兴通讯股份有限公司 Csi发送、接收方法及其装置、通信节点及存储介质
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation
US20210224024A1 (en) * 2020-01-21 2021-07-22 Audiowise Technology Inc. Bluetooth audio system with low latency, and audio source and audio sink thereof
CN113948096A (zh) * 2020-07-17 2022-01-18 华为技术有限公司 多声道音频信号编解码方法和装置
WO2022164229A1 (ko) * 2021-01-27 2022-08-04 삼성전자 주식회사 오디오 처리 장치 및 방법
EP4243015A4 (en) 2021-01-27 2024-04-17 Samsung Electronics Co., Ltd. Audio processing device and method
CN115223579A (zh) * 2021-04-20 2022-10-21 华为技术有限公司 一种编解码器协商与切换方法
CN113282552B (zh) * 2021-06-04 2022-11-22 上海天旦网络科技发展有限公司 流量统计日志的相似性向量化方法及系统
CN115691515A (zh) * 2022-07-12 2023-02-03 南京拓灵智能科技有限公司 一种音频编解码方法及装置
CN115346540B (zh) * 2022-08-18 2025-02-14 北京百瑞互联技术股份有限公司 一种联合立体声音频编解码方法及装置
CN117746889B (zh) * 2022-12-21 2025-01-28 行吟信息科技(武汉)有限公司 音频处理方法、装置、电子设备及存储介质
CN117730367A (zh) * 2023-10-31 2024-03-19 北京小米移动软件有限公司 分组方法、编码器、解码器以及存储介质

Family Cites Families (137)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US728395A (en) * 1900-05-24 1903-05-19 Henry Howard Evaporating apparatus.
US4251688A (en) * 1979-01-15 1981-02-17 Ana Maria Furner Audio-digital processing system for demultiplexing stereophonic/quadriphonic input audio signals into 4-to-72 output audio signals
EP0064119B1 (fr) 1981-04-30 1985-08-28 International Business Machines Corporation Perfectionnement aux procédés de codage de la voix et dispositif de mise en oeuvre du procédé perfectionné
CA1253255A (en) 1983-05-16 1989-04-25 Nec Corporation System for simultaneously coding and decoding a plurality of signals
US4953196A (en) 1987-05-13 1990-08-28 Ricoh Company, Ltd. Image transmission system
US4907276A (en) 1988-04-05 1990-03-06 The Dsp Group (Israel) Ltd. Fast search method for vector quantizer communication and pattern recognition systems
US5539829A (en) 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
JP2844695B2 (ja) 1989-07-19 1999-01-06 ソニー株式会社 信号符号化装置
JP2921879B2 (ja) 1989-09-29 1999-07-19 株式会社東芝 画像データ処理装置
JP2560873B2 (ja) 1990-02-28 1996-12-04 日本ビクター株式会社 直交変換符号化復号化方法
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
JP3033156B2 (ja) 1990-08-24 2000-04-17 ソニー株式会社 ディジタル信号符号化装置
US5274740A (en) 1991-01-08 1993-12-28 Dolby Laboratories Licensing Corporation Decoder for variable number of channel presentation of multidimensional sound fields
US5559900A (en) 1991-03-12 1996-09-24 Lucent Technologies Inc. Compression of signals for perceptual quality by selecting frequency bands having relatively high energy
US5487086A (en) 1991-09-13 1996-01-23 Comsat Corporation Transform vector quantization for adaptive predictive coding
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5285498A (en) 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
JP3343962B2 (ja) 1992-11-11 2002-11-11 ソニー株式会社 高能率符号化方法及び装置
US5455888A (en) * 1992-12-04 1995-10-03 Northern Telecom Limited Speech bandwidth extension method and apparatus
ES2165370T3 (es) 1993-06-22 2002-03-16 Thomson Brandt Gmbh Metodo para obtener una matriz decodificadora multicanal.
TW272341B (ja) 1993-07-16 1996-03-11 Sony Co Ltd
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5623577A (en) 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5581653A (en) 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
DE4331376C1 (de) 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
KR960012475B1 (ko) 1994-01-18 1996-09-20 대우전자 주식회사 디지탈 오디오 부호화장치의 채널별 비트 할당 장치
US5684920A (en) 1994-03-17 1997-11-04 Nippon Telegraph And Telephone Acoustic signal transform coding method and decoding method having a high efficiency envelope flattening method therein
DE4409368A1 (de) 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277677B2 (ja) 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
US5635930A (en) 1994-10-03 1997-06-03 Sony Corporation Information encoding method and apparatus, information decoding method and apparatus and recording medium
AU697176B2 (en) 1994-11-04 1998-10-01 Koninklijke Philips Electronics N.V. Encoding and decoding of a wideband digital information signal
US5629780A (en) 1994-12-19 1997-05-13 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Image data compression having minimum perceptual error
US5701389A (en) 1995-01-31 1997-12-23 Lucent Technologies, Inc. Window switching based on interblock and intrablock frequency band energy
JP3307138B2 (ja) 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
EP0820624A1 (en) 1995-04-10 1998-01-28 Corporate Computer Systems, Inc. System for compression and decompression of audio signals for digital transmission
US6940840B2 (en) * 1995-06-30 2005-09-06 Interdigital Technology Corporation Apparatus for adaptive reverse power control for spread-spectrum communications
US5790759A (en) 1995-09-19 1998-08-04 Lucent Technologies Inc. Perceptual noise masking measure based on synthesis filter frequency response
US5960390A (en) * 1995-10-05 1999-09-28 Sony Corporation Coding method for using multi channel audio signals
DE19549621B4 (de) 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5686964A (en) 1995-12-04 1997-11-11 Tabatabai; Ali Bit rate control mechanism for digital image and video data compression
US5687191A (en) 1995-12-06 1997-11-11 Solana Technology Development Corporation Post-compression hidden data transport
US5682152A (en) 1996-03-19 1997-10-28 Johnson-Grace Company Data compression using adaptive bit allocation and hybrid lossless entropy encoding
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
DE19628293C1 (de) 1996-07-12 1997-12-11 Fraunhofer Ges Forschung Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion
DE19628292B4 (de) 1996-07-12 2007-08-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten
US6697491B1 (en) * 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
US5969750A (en) 1996-09-04 1999-10-19 Winbcnd Electronics Corporation Moving picture camera with universal serial bus interface
US5745275A (en) * 1996-10-15 1998-04-28 Lucent Technologies Inc. Multi-channel stabilization of a multi-channel transmitter through correlation feedback
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
KR100488537B1 (ko) 1996-11-20 2005-09-30 삼성전자주식회사 듀얼모드오디오디코더의재현방법및필터
FI970266A7 (fi) * 1997-01-22 1998-07-23 Nokia Corp Menetelmä solukkoradiojärjestelmän ohjauskanavien kantaman pidentämiseksi ja solukkoradiojärjestelmä
ES2178142T3 (es) 1997-02-08 2002-12-16 Matsushita Electric Ind Co Ltd Matriz de cuantificacion para la codificacion de imagenes fijas y en movimiento.
JP3143406B2 (ja) 1997-02-19 2001-03-07 三洋電機株式会社 音声符号化方法
KR100265112B1 (ko) * 1997-03-31 2000-10-02 윤종용 디브이디 디스크와 디브이디 디스크를 재생하는 장치 및 방법
US6064954A (en) 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
CN1205842C (zh) 1997-04-10 2005-06-08 索尼株式会社 编码方法和装置、解码方法和装置
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
DE19730129C2 (de) 1997-07-14 2002-03-07 Fraunhofer Ges Forschung Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6185253B1 (en) 1997-10-31 2001-02-06 Lucent Technology, Inc. Perceptual compression and robust bit-rate control system
US6959220B1 (en) 1997-11-07 2005-10-25 Microsoft Corporation Digital audio signal filtering mechanism and method
EP1057292B1 (en) 1998-02-21 2004-04-28 STMicroelectronics Asia Pacific Pte Ltd. A fast frequency transformation techique for transform audio coders
US6253185B1 (en) 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6249614B1 (en) 1998-03-06 2001-06-19 Alaris, Inc. Video compression and decompression using dynamic quantization and/or encoding
US6353807B1 (en) * 1998-05-15 2002-03-05 Sony Corporation Information coding method and apparatus, code transform method and apparatus, code transform control method and apparatus, information recording method and apparatus, and program providing medium
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
JP3998330B2 (ja) 1998-06-08 2007-10-24 沖電気工業株式会社 符号化装置
DE19840835C2 (de) 1998-09-07 2003-01-09 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Entropiecodieren von Informationswörtern und Vorrichtung und Verfahren zum Decodieren von Entropie-codierten Informationswörtern
SE519552C2 (sv) * 1998-09-30 2003-03-11 Ericsson Telefon Ab L M Flerkanalig signalkodning och -avkodning
US6300888B1 (en) 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6611212B1 (en) * 1999-04-07 2003-08-26 Dolby Laboratories Licensing Corp. Matrix improvements to lossless encoding and decoding
US6246345B1 (en) 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
US6370502B1 (en) 1999-05-27 2002-04-09 America Online, Inc. Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec
US6226616B1 (en) * 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
US6658162B1 (en) 1999-06-26 2003-12-02 Sharp Laboratories Of America Image coding method using visual optimization
US6418405B1 (en) * 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6496798B1 (en) 1999-09-30 2002-12-17 Motorola, Inc. Method and apparatus for encoding and decoding frames of voice model parameters into a low bit rate digital voice message
AU2018201A (en) 1999-10-12 2001-04-23 Perception Digital Technology (Bvi) Limited Digital multimedia jukebox
US6836761B1 (en) * 1999-10-21 2004-12-28 Yamaha Corporation Voice converter for assimilation by frame synthesis with temporal alignment
US7096240B1 (en) * 1999-10-30 2006-08-22 Stmicroelectronics Asia Pacific Pte Ltd. Channel coupling for an AC-3 encoder
US6738074B2 (en) 1999-12-29 2004-05-18 Texas Instruments Incorporated Image compression system and method
US6499010B1 (en) 2000-01-04 2002-12-24 Agere Systems Inc. Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6434190B1 (en) * 2000-02-10 2002-08-13 Texas Instruments Incorporated Generalized precoder for the upstream voiceband modem channel
DE60132853D1 (de) 2000-07-07 2008-04-03 Nokia Siemens Networks Oy Verfahren und Vorrichtung für die perzeptuelle Tonkodierung von einem mehrkanal Tonsignal mit Verwendung der kaskadierten diskreten Cosinustransformation oder der modifizierten diskreten Cosinustransformation
DE10041512B4 (de) * 2000-08-24 2005-05-04 Infineon Technologies Ag Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
US6760698B2 (en) 2000-09-15 2004-07-06 Mindspeed Technologies Inc. System for coding speech information using an adaptive codebook with enhanced variable resolution scheme
US7103537B2 (en) * 2000-10-13 2006-09-05 Science Applications International Corporation System and method for linear prediction
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6463408B1 (en) 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US7062445B2 (en) 2001-01-26 2006-06-13 Microsoft Corporation Quantization loop with heuristic approach
US20040062401A1 (en) 2002-02-07 2004-04-01 Davis Mark Franklin Audio channel translation
US7254239B2 (en) 2001-02-09 2007-08-07 Thx Ltd. Sound system and method of sound reproduction
CA2443837C (en) 2001-04-13 2012-06-19 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
AU2002240461B2 (en) 2001-05-25 2007-05-17 Dolby Laboratories Licensing Corporation Comparing audio using characterizations based on auditory events
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7146313B2 (en) 2001-12-14 2006-12-05 Microsoft Corporation Techniques for measurement of perceptual audio quality
US7460993B2 (en) 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US6934677B2 (en) 2001-12-14 2005-08-23 Microsoft Corporation Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands
US7240001B2 (en) * 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US20030215013A1 (en) 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
US7072726B2 (en) 2002-06-19 2006-07-04 Microsoft Corporation Converting M channels of digital audio data into N channels of digital audio data
JP4322207B2 (ja) 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
BR0305555A (pt) 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
BRPI0305710B1 (pt) * 2002-08-01 2017-11-07 Panasonic Corporation "apparatus and method of decoding of audio"
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7299190B2 (en) * 2002-09-04 2007-11-20 Microsoft Corporation Quantization and inverse quantization for audio
DE60303689T2 (de) * 2002-09-19 2006-10-19 Matsushita Electric Industrial Co., Ltd., Kadoma Audiodecodierungsvorrichtung und -verfahren
KR20040060718A (ko) 2002-12-28 2004-07-06 삼성전자주식회사 오디오 스트림 믹싱 방법, 그 장치 및 그 정보저장매체
ATE355590T1 (de) * 2003-04-17 2006-03-15 Koninkl Philips Electronics Nv Audiosignalsynthese
AU2003222397A1 (en) * 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension
US7318035B2 (en) 2003-05-08 2008-01-08 Dolby Laboratories Licensing Corporation Audio coding systems and methods using spectral component coupling and spectral component regeneration
US6790759B1 (en) * 2003-07-31 2004-09-14 Freescale Semiconductor, Inc. Semiconductor device with strain relieving bump design
US7519538B2 (en) * 2003-10-30 2009-04-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
ES2324926T3 (es) * 2004-03-01 2009-08-19 Dolby Laboratories Licensing Corporation Descodificacion de audio multicanal.
US7602922B2 (en) * 2004-04-05 2009-10-13 Koninklijke Philips Electronics N.V. Multi-channel encoder
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
DE602004028171D1 (de) * 2004-05-28 2010-08-26 Nokia Corp Mehrkanalige audio-erweiterung
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
ATE429698T1 (de) * 2004-09-17 2009-05-15 Harman Becker Automotive Sys Bandbreitenerweiterung von bandbegrenzten tonsignalen
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
WO2007043808A1 (en) * 2005-10-12 2007-04-19 Samsung Electronics Co., Ltd. Method and apparatus for processing/transmitting bit-stream, and method and apparatus for receiving/processing bit-stream
US20070168197A1 (en) 2006-01-18 2007-07-19 Nokia Corporation Audio coding
US8190425B2 (en) * 2006-01-20 2012-05-29 Microsoft Corporation Complex cross-correlation parameters for multi-channel audio
US7831434B2 (en) 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009530651A (ja) * 2006-03-15 2009-08-27 フランス テレコム 主成分分析によりマルチチャネルオーディオ信号を符号化するための装置および方法
US10037766B2 (en) 2011-06-30 2018-07-31 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwith extension signal
US9349380B2 (en) 2011-06-30 2016-05-24 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal
JP2016197271A (ja) * 2011-06-30 2016-11-24 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張信号の復号化装置
US9734843B2 (en) 2011-06-30 2017-08-15 Samsung Electronics Co., Ltd. Apparatus and method for generating bandwidth extension signal
JP2018025830A (ja) * 2011-06-30 2018-02-15 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張信号の復号化装置
JP2014523548A (ja) * 2011-06-30 2014-09-11 サムスン エレクトロニクス カンパニー リミテッド 帯域幅拡張信号生成装置及びその方法
JP2019148807A (ja) * 2015-07-31 2019-09-05 アップル インコーポレイテッドApple Inc. エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
JP2021529354A (ja) * 2018-07-04 2021-10-28 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法
JP7384893B2 (ja) 2018-07-04 2023-11-21 フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチシグナルエンコーダ、マルチシグナルデコーダ、および信号白色化または信号後処理を使用する関連方法
US12367883B2 (en) 2018-07-04 2025-07-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multisignal audio coding using signal whitening as processing
US20230124006A1 (en) * 2021-10-15 2023-04-20 Lemon Inc. System and method for training a transformer-in-transformer-based neural network model for audio data
US11854558B2 (en) * 2021-10-15 2023-12-26 Lemon Inc. System and method for training a transformer-in-transformer-based neural network model for audio data

Also Published As

Publication number Publication date
CN101371447B (zh) 2012-06-06
RU2422987C2 (ru) 2011-06-27
AU2010249173A1 (en) 2010-12-23
CA2637185C (en) 2014-03-25
US20110035226A1 (en) 2011-02-10
RU2011108927A (ru) 2012-09-20
US20070174062A1 (en) 2007-07-26
EP1974470A4 (en) 2010-12-15
CN101371447A (zh) 2009-02-18
CA2637185A1 (en) 2007-08-02
US9105271B2 (en) 2015-08-11
US7831434B2 (en) 2010-11-09
RU2008129802A (ru) 2010-01-27
HK1176455A1 (zh) 2013-07-26
EP1974470A1 (en) 2008-10-01
CN102708868B (zh) 2016-08-10
RU2555221C2 (ru) 2015-07-10
AU2010249173B2 (en) 2012-08-23
AU2007208482B2 (en) 2010-09-16
KR101143225B1 (ko) 2012-05-21
WO2007087117A1 (en) 2007-08-02
KR20080093994A (ko) 2008-10-22
CN102708868A (zh) 2012-10-03
AU2007208482A1 (en) 2007-08-02

Similar Documents

Publication Publication Date Title
US7831434B2 (en) Complex-transform channel coding with extended-band frequency coding
US7953604B2 (en) Shape and scale parameters for extended-band frequency coding
US8190425B2 (en) Complex cross-correlation parameters for multi-channel audio
US8046214B2 (en) Low complexity decoder for complex transform coding of multi-channel sound
US8249883B2 (en) Channel extension coding for multi-channel source
US9741354B2 (en) Bitstream syntax for multi-process audio decoding
US7860720B2 (en) Multi-channel audio encoding and decoding with different window configurations
US7299190B2 (en) Quantization and inverse quantization for audio
US8255234B2 (en) Quantization and inverse quantization for audio
KR20070098930A (ko) 근접-투명 또는 투명 멀티-채널 인코더/디코더 구성
HK1176455B (en) Complex-transform channel coding with extended-band frequency coding
MX2008009186A (en) Complex-transform channel coding with extended-band frequency coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120907

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130107

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130207

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130307

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20130308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20130308

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130423

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130701