JP6564068B2 - 符号化されたオーディオ信号を処理するための装置および方法 - Google Patents
符号化されたオーディオ信号を処理するための装置および方法 Download PDFInfo
- Publication number
- JP6564068B2 JP6564068B2 JP2017558779A JP2017558779A JP6564068B2 JP 6564068 B2 JP6564068 B2 JP 6564068B2 JP 2017558779 A JP2017558779 A JP 2017558779A JP 2017558779 A JP2017558779 A JP 2017558779A JP 6564068 B2 JP6564068 B2 JP 6564068B2
- Authority
- JP
- Japan
- Prior art keywords
- group
- downmix
- matrix
- signal
- input audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 101
- 238000000034 method Methods 0.000 title claims description 73
- 238000012545 processing Methods 0.000 title claims description 72
- 239000011159 matrix material Substances 0.000 claims description 134
- 238000009877 rendering Methods 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000000926 separation method Methods 0.000 description 19
- 239000000203 mixture Substances 0.000 description 11
- 230000003595 spectral effect Effects 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101100180304 Arabidopsis thaliana ISS1 gene Proteins 0.000 description 1
- 101100519257 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) PDR17 gene Proteins 0.000 description 1
- 101100042407 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SFB2 gene Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Amplifiers (AREA)
Description
・ダウンミックス信号が、ダウンミックス信号の既存のグループに割り当てられるか否かを検出するステップ。
・ダウンミックス信号と関連付けられた複数の入力オーディオ・オブジェクトの少なくとも1つの入力オーディオ・オブジェクトが、ダウンミックス信号の既存のグループと関連付けられた入力オーディオ・オブジェクトのセットの一部であるか否かを検出するステップ。
・ダウンミックス信号がダウンミックス信号の既存のグループに割り当てがない(ゆえに、既にダウンミックス信号はグループに割り当てられていない)場合に、および、ダウンミックス信号と関連付けられた複数の入力オーディオ・オブジェクトのすべての入力オーディオ・オブジェクトが、ダウンミックス信号の既存のグループと関連がない(ゆえに、既にダウンミックス信号の入力オーディオ・オブジェクトが、−異なるダウンミックス信号を経て−グループに割り当てられていない)場合に、ダウンミックス信号を新しいダウンミックス信号グループに割り当てるステップ。
・ダウンミックス信号が、ダウンミックス信号の既存のグループと関連する場合、または、ダウンミックス信号と関連付けられた複数の入力オーディオ・オブジェクトの少なくとも1つの入力オーディオ・オブジェクトが、ダウンミックス信号の既存のグループと関連する場合のいずれかの場合に、ダウンミックス信号をダウンミックス信号の既存のグループに結合するステップ。
・ダウンミックス信号を、複数の入力オーディオ・オブジェクトの入力オーディオ・オブジェクトのセットと関連付けられた複数のダウンミックス信号グループに分類するステップ
・分類結果を提供するために、入力オーディオ・オブジェクトのそれぞれのセットのオブジェクトパラメータに対して、少なくとも1つの処理ステップを個々に実行するステップ
・復号化されたオーディオ信号を提供するために、前記分類結果を結合するステップ
一般のパラメトリック分離計画は、予備のパラメトリック情報を使って、信号のミックス物(ダウンミックス)からオーディオソースの数を推定することを目的とする。この仕事の典型的な解決は、最小平均2乗エラー(MMSE)推定アルゴリズムの応用に基づく。SAOC技術は、そのようなパラメトリックオーディオ符号化システムの1つの例である。
・「符号器(エンコーダ)」は、入力の「オーディオ・オブジェクト」S、および、「ミックス化パラメータ」Dと共に提供される。「ミキサー」は、「オーディオ・オブジェクト」Sを、「ミックス化パラメータ」Dを使って、「ダウンミックス信号」Xの数の中にダウンミックスする(例えば、ダウンミックス化ゲイン(利得))。
・「サイド情報推定器」は、入力の「オーディオ・オブジェクト」Sの特徴を説明するサイド情報を取り出す(例えば、共分散特性)。
・「ダウンミックス信号」Xおよびサイド情報が送信または格納される。これらのダウンミックスオーディオ信号は、(MPEG−1/2レイヤーIIまたはIII、および、MPEG−2/4高度オーディオ符号化(AAC)、および、MPEG一体化スピーチ、および、オーディオ符号化(USAC)などの)オーディオコーダを使ってさらに圧縮される。サイド情報も、再表現されて、効率的に符号化される(例えば、オブジェクト能力およびオブジェクト相関係数のコード化された関係として)。
SAOC 3D復号器は、パラメトリック的に再構成されレンダリングされた信号(ドライ信号)Ydry、および、その非相関されたバージョン(ウェット信号)Ywetのミックス物として、修正されレンダリングされた出力Yを作成する。
・マトリクスUを使って入力オーディオ・オブジェクトをパラメトリック的に再構成する非ミックス化
・レンダリング化情報(マトリクスR)を使ってレンダリングすること
・非相関
・ビットストリームに含まれた情報に基づいて計算された、マトリクスPを使ってポストミックスすること
・音楽的な伴奏からの信号を含んでいる2つの関係付けられたオーディオ・オブジェクトの1つのグループ(ステレオのペアの左右)
・スピーチ信号を含んでいる1つの独立したオーディオ・オブジェクトの1つのグループ
・ピアノのレコーディングを含んでいる2つの関係付けられたオーディオ・オブジェクトの1つのグループ(ステレオのペアの左右)。
・M1=1ダウンミックスチャンネルを持つグループG1、オブジェクトの第1のグループを含む
・M2=1ダウンミックスチャンネルを持つグループG2、オブジェクトの第2のグループを含む
・M3=1ダウンミックスチャンネルを持つグループG3、オブジェクトの第3のグループを含む
その結果、Ndmx=M1+M2+M3
・第1の2つのオーディオ・オブジェクト(音楽的な伴奏)は消音される(すなわち、利得0によってレンダリングされる)
・第3の入力ブジェクト(スピーチ)はセンターチャンネルにレンダリングされる
・オブジェクト4は左のチャンネルにレンダリングされ、オブジェクト5は右のチャンネルにレンダリングされる。
・スピーチ信号だけを含むセンターチャンネルは、リファレンス信号に比べて厳しく損われる。大きなスペクトルホールが気付かれる。(エネルギーの失われた時間−周波数領域である)これらのスペクトルホールは、厳しい可聴の人工物の中に通じる。
・小さなスペクトルギャップも、信号エネルギーのほとんどが集中される左右のチャンネル(特に、低周波数領域)の中に存在する。また、これらのスペクトルギャップは可聴の人工物をもたらす。
・ダウンミックスチャンネルの中にオブジェクトグループのクロスミックスは存在しない。すなわち、1つのダウンミックスチャンネルの中にミックスされたオブジェクトは、どのような他のダウンミックスチャンネルの中に
も存在しない。第2のダウンミックスチャンネルは、1つのオブジェクト(スピーチ)のみを含む。従って、システム出力の中のスペクトルギャップは、それが他のダウンミックスチャンネルと一緒に処理されるので、生成のみできる。
・SAOC 3Dシステムは、「通り抜け」システムではない。すなわち、仮に1つの入力信号が1つのダウンミックスチャンネルの中に単独でミックスされるならば、この入力信号のオーディオ品質は、復号化とレンダリング化の中に保存される。
・SAOC 3Dシステムは、マルチチャネルダウンミックス信号の処理のために、可聴の人工物を導入する。ダウンミックスチャンネルの1つのグループに含まれたオブジェクトの出力品質は、ダウンミックスチャンネルの残りの処理に依存する。
・先ず、仮にVがユニタリーマトリクスであるならば、その時、T=ΦVもユニタリーマトリクスである。
・2番目に、アイデンティティマトリクスIを持つΦΦ*=Φ*Φ=I。
・先ず、これらのダウンミックスチャンネルに含まれた入力オーディオ・オブジェクトは、他のダウンミックスチャンネルに含まれない。
・2番目に、1つのグループのダウンミックスチャンネルに含まれた全ての入力信号は、他のグループのダウンミックスチャンネルに含まれた他の入力信号に関連しない(例えば、相互関係は、符号化されたオーディオ信号内で信号によって伝えられない)。そのような相互関係は、復号化の間に、個々のオーディオ・オブジェクトの結合される処理を暗示する。
・グループGkのダウンミックスチャンネルに含まれた入力オーディオ・オブジェクトは、他のダウンミックスチャンネルの中に含まれない。例えば、仮に、対応するダウンミックス利得が、最も小さい量子化インデックスによって与えられるか、または、それがゼロに等しいならば、入力オーディオ・オブジェクトはダウンミックスチャンネルの中に含まれない。
・グループGkのダウンミックスチャンネルに含まれた全ての入力信号iは、他のグループのダウンミックスチャンネルに含まれた入力信号jに関連しない。例えば、(例えばWO 2011/039195 A1と比較しなさい)仮に2つのオブジェクトが関連する(bsRelatedTo[i][j]==1)ならば、または、仮にそれらが関連しない(bsRelatedTo[i][j]==0)ならば、ビットストリーム可変bsRelatedTo[i][j]は、信号を伝えるために使用される。例えば、関連付けられた2つのオブジェクトを信号で伝える異なる方法は、相互関係または共分散情報に基づいて使われる。
・1つのグループのみが作成される状況に対して、出力は従来技術システムの現状とビット同一である。
・分類はシステムの「通り抜け」機能を維持する。これは、仮に1つの入力オーディオ・オブジェクトが1つのダウンミックスチャンネルの中に単独でミックスされるならば、復号器がそれを完全に再構成する可能性があることを暗示する。
・グループkのダウンミックスチャンネルに含まれた入力信号は、他のダウンミックスチャンネルに含まれない。仮に、対応するダウンミックス利得が、最も小さい量子化インデックスにより与えられるならば、入力信号はダウンミックスチャンネルに含まれない(ISO/IEC 23003−2:2010の表49)。
・グループkのダウンミックスチャンネルに含まれた全ての入力信号iは、他のグループのダウンミックスチャンネルに含まれた入力信号に関連しない(すなわちbsRelatedTo[i][j]==0)。
1.個々の入力オーディオ・オブジェクト111は、入力オーディオ・オブジェクトのちょうど1つのセットに属し、従って、ダウンミックス信号102の1つのグループに属する。
2.個々の入力オーディオ・オブジェクト111は、符号化されたオーディオ信号において、ダウンミックス信号の異なるグループと関連付けられた異なるセットに属する入力オーディオ・オブジェクト111に信号で伝えられる関係を全然持たない。これは、符号化されたオーディオ信号が、規格のため、個々の入力オーディオ・オブジェクトの結合された計算を結果として生じるような情報を全然持たないことを意味する。
3.個々のグループ102内のダウンミックス信号101の数は最小化される。
[BCC] C. Faller and F. Baumgarte, "Binaural Cue Coding - Part II: Schemes a nd applications," IEEE Trans. on Speech and Audio Proc., vol. 11, no. 6, Nov. 2003.
[ISS1] M. Parvaix and L. Girin: "Informed Source Separation of underdetermined i nstantaneous Stereo Mixtures using Source Index Embedding", IEEE ICASSP, 2010.
[ISS2] M. Parvaix, L. Girin, J.-M. Brossier: "A watermarking-based method for in formed source separation of audio signals with a single sensor", IEEE Tr ansactions on Audio, Speech and Language Processing, 2010.
[ISS3] A. Liutkus, J. Pinel, R. Badeau, L. Girin, G. Richard: "Informed source s eparation through spectrogram coding and data embedding", Signal Process ing Journal, 2011.
[ISS4] A. Ozerov, A. Liutkus, R. Badeau, G. Richard: "Informed source separation : source coding meets source separation", IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2011.
[ISS5] S. Zhang and L. Girin: "An Informed Source Separation System for Speech S ignals", INTERSPEECH, 2011.
[ISS6] L. Girin and J. Pinel: "Informed Audio Source Separation from Compressed Linear Stereo Mixtures", AES 42nd International Conference: Semantic Aud io, 2011.
[JSC] C. Faller, "Parametric Joint-Coding of Audio Sources", 120th AES Conventi on, Paris, 2006.
[SAOC] ISO/IEC, "MPEG audio technologies - Part 2: Spatial Audio Object Coding (SAOC)," ISO/IEC JTC1/SC29/WG11 (MPEG) International Standard 23003-2.
[SAOC1] J. Herre, S. Disch, J. Hilpert, O. Hellmuth: "From SAC To SAOC - R ecent Developments in Parametric Coding of Spatial Audio", 22nd Regional UK AES Conference, Cambridge, UK, April 2007.
[SAOC2] J. Engdegard, B. Resch, C. Falch, O. Hellmuth, J. Hilpert, A. Holz er, L. Terentiev, J. Breebaart, J. Koppens, E. Schuijers and W. Oomen: " Spatial Audio Object Coding (SAOC) - The Upcoming MPEG Standard on Par ametric Object Based Audio Coding", 124th AES Convention, Amsterdam 2008 .
[SAOC3D] ISO/IEC, JTC1/SC29/WG11 N14747, Text of ISO/MPEG 23008-3/DIS 3D Au dio, Sapporo, July 2014.
[SAOC3D2] J. Herre, J. Hilpert, A. Kuntz, and J. Plogsties, "MPEG-H Audio - The new standard for universal spatial / 3D audio coding," 137th AES Con vention, Los Angeles, 2011.
Claims (21)
- 複数の入力オーディオ・オブジェクト(111)およびオブジェクト・パラメータ(E)に関連付けられた複数のダウンミックス信号(101)を含む符号化されたオーディオ信号(100)を処理するための装置(1)であって、
前記複数のダウンミックス信号(101)を、前記符号化されたオーディオ信号(100)内の情報に基づいて、複数のダウンミックス信号(102)グループに分類するように構成された分類器(2)であって、
ダウンミックス信号(102)のそれぞれのグループは、前記複数の入力オーディオ・オブジェクト(111)の入力オーディオ・オブジェクト(111)のセットに関連付けられている分類器(2)と、
分類結果(103,104)を提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)について少なくとも1つの処理ステップを個々に実行するように構成されたプロセッサ(3)と、
復号化されたオーディオ信号(110)を提供するために、前記分類結果(103,104)を結合するように構成された結合器(4)と、を備え、
分類器(2)は、前記複数の入力オーディオ・オブジェクト(111)のそれぞれの入力オーディオ・オブジェクト(111)が、1つの入力オーディオ・オブジェクト(111)のセットにしか属さないように、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号(102)グループに分類するように構成され、
前記分類器(2)は、入力オーディオ・オブジェクトのそれぞれのセットのそれぞれの入力オーディオ・オブジェクト(111)が、前記符号化されたオーディオ信号(100)の中で信号で伝えられた関係において、他の入力オーディオ・オブジェクト(111)と関係がない、または、前記符号化されたオーディオ信号(100)の中で信号で伝えられた関係において、同じ入力オーディオ・オブジェクト(111)のセットに属している少なくとも1つの入力オーディオ・オブジェクト(111)とのみ関係を持つように、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号(102)グループに分類するように構成されている、装置。 - 前記分類器(2)は、
それぞれの入力オーディオ・オブジェクト(111)が、1つの入力オーディオ・オブジェクトのセットにしか属さず、従って、1つのダウンミックス信号(102)グループに属し、
それぞれの入力オーディオ・オブジェクト(111)が、異なるダウンミックス信号グループと関連付けられた異なるセットに属する入力オーディオ・オブジェクト(111)と、前記符号化されたオーディオ信号において信号で伝えられる関係を持たず、
それぞれのダウンミックス信号(102)グループ内のダウンミックス信号(101)の数が最小化される、
との条件で、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号グループ(102)に分類するように構成されている、請求項1に記載の装置。 - 前記分類器(2)は、1つのダウンミックス信号(102)グループには1つの単一のダウンミックス信号(101)しか属さないように、前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するように構成されている、請求項1または請求項2に記載の装置。
- 前記分類器(2)は、少なくとも以下のステップ;
ダウンミックス信号(101)が既存のダウンミックス信号(102)グループに割り当てられるか否かを検出するステップと、
前記ダウンミックス信号(101)に関連付けられた複数の入力オーディオ・オブジェクト(111)の少なくとも1つの入力オーディオ・オブジェクト(111)が、既存のダウンミックス信号(102)グループに関連付けられた入力オーディオ・オブジェクト(111)のセットの一部であるか否かを検出するステップと、
前記ダウンミックス信号(101)がダウンミックス信号(102)の既存のグループへの割り当てがない場合、および前記ダウンミックス信号(101)に関連付けられた複数の入力オーディオ・オブジェクトの全ての入力オーディオ・オブジェクト(111)が、ダウンミックス信号(102)の既存のグループとの関連がない場合に、前記ダウンミックス信号(101)を新しいダウンミックス信号(102)グループに割り当てるステップと、
前記ダウンミックス信号(101)が、ダウンミックス信号(102)の既存のグループに割り当てられる場合、または、前記ダウンミックス信号(101)に関連付けられた複数の入力オーディオ・オブジェクトの少なくとも1つの入力オーディオ・オブジェクト(111)が、ダウンミックス信号(102)の前記既存のグループに関連付けられている場合、前記ダウンミックス信号(101)をダウンミックス信号(102)の既存のグループに結合するステップと、
を適用して、前記複数のダウンミックス信号(101)を、前記複数のダウンミックス信号(102)グループに分類するように構成されている、請求項1ないし請求項3のいずれかに記載の装置。 - 前記プロセッサ(3)は、分類結果として個々のマトリクスを提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)に対して、様々な処理ステップを個々に実行するように構成され、
前記結合器(4)は、前記個々のマトリクスを結合するように構成されている、請求項1ないし請求項4のいずれかに記載の装置。 - 前記プロセッサ(3)は、個々のマトリクスを提供するために入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)に対して、少なくとも1つの処理ステップを個々に実行するように構成され、
前記装置(1)は、少なくとも1つのオーバーオール・マトリクスを提供するために、オブジェクトパラメータを一緒に処理するように構成されたポストプロセッサ(5)を含み、
前記結合器(4)は、前記個々のマトリクスと前記少なくとも1つのオーバーオール・マトリクスとを結合するように構成されている、請求項1ないし請求項5のいずれかに記載の装置。 - 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記ダウンミックス信号(102)の個々のグループに関連付けられた前記入力オーディオ・オブジェクトのセットの入力オーディオ・オブジェクトの数と、ダウンミックス信号(102)の個々のグループに属しているダウンミックス信号(101)の数との少なくとも1つにサイズが依存しているマトリクスを個々に計算するように構成された計算機(301)を含む、請求項1ないし請求項6のいずれかに記載の装置。
- プロセッサ(3)は、ダウンミックス信号のそれぞれのグループについて、ダウンミックス信号(102)の個々のグループ内の最大エネルギー値に基づいて、個々の閾値を計算するように構成されている、請求項1ないし請求項7のいずれかに記載の装置。
- 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々のダウンミックス化マトリクス(Dk)を決定するように構成され、
前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々のグループ共分散マトリクス(Ek)を決定するように構成され、
前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のダウンミックス化マトリクス(Dk)および前記個々のグループ共分散マトリクス(Ek)に基づいて、個々のグループダウンミックス共分散マトリクス(Δk)を決定するように構成され、
前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々の正規化された逆グループマトリクス(Jk)を決定するように構成されている、請求項1ないし請求項8のいずれかに記載の装置。 - 前記結合器(4)は、前記個々の正規化された逆グループマトリクス(Jk)を結合して、オーバーオールの正規化された逆グループマトリクス(J)を得るように構成されている、請求項9に記載の装置。
- 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のダウンミックス化マトリクス(Dk)と前記個々のグループ共分散マトリクス(Ek)と前記個々の正規化された逆グループマトリクス(Jk)に基づいて、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を決定するように構成され、
前記結合器(4)は、前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を結合して、オーバーオールのグループ・パラメトリック非ミックス化マトリクス(U)を得るように構成されている、請求項9または請求項10に記載の装置。 - 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のダウンミックス化マトリクス(Dk)と前記個々のグループ共分散マトリクス(Ek)と前記個々の正規化された逆グループマトリクス(Jk)に基づいて、個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を決定するように構成され、
前記結合器(4)は、前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)を結合して、オーバーオールのグループ・パラメトリック非ミックス化マトリクス(U)を得るように構成されている、請求項11に記載の装置。 - 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、個々のグループレンダリング化マトリクス(Rk)を決定するように構成されている、請求項1ないし請求項12のいずれかに記載の装置。
- 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のグループレンダリング化マトリクス(Rk)と前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)に基づいて、個々のアップミックス化マトリクス(RkUk)を決定するように構成され、
前記結合器(4)は、前記アップミックス化マトリクス(RkUk)結合して、オーバーオールのアップミックス化マトリクス(RU)を得るように構成されている、請求項13に記載の装置。 - 前記プロセッサ(3)は、ダウンミックス信号(102)のそれぞれのグループについて、前記個々のグループレンダリング化マトリクス(Rk)と前記個々のグループ共分散マトリクス(Ek)に基づいて、個々のグループ共分散マトリクス(Ck)を決定するように構成され、
前記結合器(4)は、前記個々のグループ共分散マトリクス(Ck)を結合して、オーバーオールのグループ共分散マトリクス(C)を得るように構成されている、請求項13または請求項14に記載の装置。 - 前記プロセッサ(3)は、前記個々のグループレンダリング化マトリクス(Rk)と前記個々のグループ・パラメトリック非ミックス化マトリクス(Uk)と前記個々のダウンミックス化マトリクス(Dk)と前記個々のグループ共分散マトリクス(Ek)とに基づいて、パラメトリック的に推定された信号の個々のグループ共分散マトリクス(Ey dry)kを決定するように構成され、
前記結合器(4)は、前記パラメトリック的に推定された信号の個々のグループ共分散マトリクス(Ey dry)kを結合して、オーバーオールのパラメトリック的に推定された信号Ey dryを得るように構成されている、請求項13ないし請求項15のいずれかに記載の装置。 - 前記プロセッサ(3)は、ダウンミックス共分散マトリクス(EDMX)の特異値分解に基づいて、正規化された逆マトリクス(J)を決定するように構成されている、請求項1ないし請求項16のいずれかに記載の装置。
- 前記プロセッサ(3)は、パラメトリック非ミックス化マトリクス(U)の決定のために、ダウンミックス信号(102)の個々のグループ(k)に割り当てられたダウンミックス信号(m,n)に対応している要素(Δ(m,n))を選択することによって、サブマトリクス(Δk)を決定するように構成されている、請求項1ないし請求項17のいずれかに記載の装置。
- 前記結合器(4)は、ダウンミックス信号(102)のそれぞれのグループについて、個々に決定されたマトリクスに基づいて、ポストミックス化マトリクス(P)を決定するように構成され、
前記結合器(4)は、復号化されたオーディオ信号(110)を得るために、ポストミックス化マトリクス(P)を前記複数のダウンミックス信号(101)に適用するように構成されている、請求項1ないし請求項18のいずれかに記載の装置。 - 複数の入力オーディオ・オブジェクト(111)およびオブジェクト・パラメータ(E)に関連付けられた複数のダウンミックス信号(101)を含む符号化されたオーディオ信号(100)を処理するための方法であって、
前記方法は、
前記ダウンミックス信号(101)を、前記符号化されたオーディオ信号(100)内の情報に基づいて、複数のダウンミックス信号(102)グループに分類するステップであって、
ダウンミックス信号(102)のそれぞれのグループは、前記複数の入力オーディオ・オブジェクト(111)の入力オーディオ・オブジェクト(111)のセットに関連付けられるステップと、
分類結果(103,104)を提供するために、入力オーディオ・オブジェクト(111)のそれぞれのセットのオブジェクト・パラメータ(Ek)に対して少なくとも1つの処理ステップを個々に実行するステップと、
復号化されたオーディオ信号(110)を提供するために、前記分類結果(103,104)を結合するステップとを含み、
前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するステップは、前記複数の入力オーディオ・オブジェクト(111)のそれぞれの入力オーディオ・オブジェクト(111)が、1つの入力オーディオ・オブジェクトのセットだけに属するように、実行され、
前記複数のダウンミックス信号(101)を前記複数のダウンミックス信号(102)グループに分類するステップは、それぞれの入力オーディオ・オブジェクトのセットのそれぞれの入力オーディオ・オブジェクト(111)が、前記符号化オーディオ信号(100)で信号で伝えられた関係において、他の入力オーディオ・オブジェクトとの関係がないか、もしくは前記符号化されたオーディオ信号(100)で信号で伝えられた関係において、同じ入力オーディオ・オブジェクト(111)のセットに属する少なくとも1つの入力オーディオ・オブジェクト(111)とのみ関係を持つように実行される、方法。 - コンピュータまたはプロセッサにおいて実行する場合に、請求項20に記載の方法を実行するためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019136552A JP6906570B2 (ja) | 2015-02-02 | 2019-07-25 | 符号化されたオーディオ信号を処理するための装置および方法 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15153486.4 | 2015-02-02 | ||
EP15153486 | 2015-02-02 | ||
PCT/EP2016/052037 WO2016124524A1 (en) | 2015-02-02 | 2016-02-01 | Apparatus and method for processing an encoded audio signal |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019136552A Division JP6906570B2 (ja) | 2015-02-02 | 2019-07-25 | 符号化されたオーディオ信号を処理するための装置および方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018507444A JP2018507444A (ja) | 2018-03-15 |
JP6564068B2 true JP6564068B2 (ja) | 2019-08-21 |
Family
ID=52449979
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017558779A Active JP6564068B2 (ja) | 2015-02-02 | 2016-02-01 | 符号化されたオーディオ信号を処理するための装置および方法 |
JP2019136552A Active JP6906570B2 (ja) | 2015-02-02 | 2019-07-25 | 符号化されたオーディオ信号を処理するための装置および方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019136552A Active JP6906570B2 (ja) | 2015-02-02 | 2019-07-25 | 符号化されたオーディオ信号を処理するための装置および方法 |
Country Status (18)
Country | Link |
---|---|
US (3) | US10152979B2 (ja) |
EP (1) | EP3254280B1 (ja) |
JP (2) | JP6564068B2 (ja) |
KR (1) | KR102088337B1 (ja) |
CN (1) | CN107533845B (ja) |
AR (1) | AR103584A1 (ja) |
AU (1) | AU2016214553B2 (ja) |
CA (1) | CA2975431C (ja) |
ES (1) | ES2978713T3 (ja) |
HK (1) | HK1247433A1 (ja) |
MX (1) | MX370034B (ja) |
MY (1) | MY182955A (ja) |
PL (1) | PL3254280T3 (ja) |
RU (1) | RU2678136C1 (ja) |
SG (1) | SG11201706101RA (ja) |
TW (1) | TWI603321B (ja) |
WO (1) | WO2016124524A1 (ja) |
ZA (1) | ZA201704862B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11004455B2 (en) | 2015-02-02 | 2021-05-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an encoded audio signal |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113016032B (zh) | 2018-11-20 | 2024-08-20 | 索尼集团公司 | 信息处理装置和方法以及程序 |
CN110739000B (zh) * | 2019-10-14 | 2022-02-01 | 武汉大学 | 一种适应于个性化交互系统的音频对象编码方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2862799B1 (fr) * | 2003-11-26 | 2006-02-24 | Inst Nat Rech Inf Automat | Dispositif et methode perfectionnes de spatialisation du son |
US7792722B2 (en) | 2004-10-13 | 2010-09-07 | Ares Capital Management Pty Ltd | Data processing system and method incorporating feedback |
CA2613731C (en) * | 2005-06-30 | 2012-09-18 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
CN101479787B (zh) * | 2006-09-29 | 2012-12-26 | Lg电子株式会社 | 用于编码和解码基于对象的音频信号的方法和装置 |
RU2417459C2 (ru) * | 2006-11-15 | 2011-04-27 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для декодирования аудиосигнала |
AU2008243406B2 (en) * | 2007-04-26 | 2011-08-25 | Dolby International Ab | Apparatus and method for synthesizing an output signal |
US8515767B2 (en) * | 2007-11-04 | 2013-08-20 | Qualcomm Incorporated | Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs |
CN102160113B (zh) * | 2008-08-11 | 2013-05-08 | 诺基亚公司 | 多声道音频编码器和解码器 |
US20100042446A1 (en) | 2008-08-12 | 2010-02-18 | Bank Of America | Systems and methods for providing core property review |
MX2011011399A (es) * | 2008-10-17 | 2012-06-27 | Univ Friedrich Alexander Er | Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto. |
WO2010105695A1 (en) * | 2009-03-20 | 2010-09-23 | Nokia Corporation | Multi channel audio coding |
KR101388901B1 (ko) * | 2009-06-24 | 2014-04-24 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램 |
TWI573131B (zh) * | 2011-03-16 | 2017-03-01 | Dts股份有限公司 | 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器 |
RU2014133903A (ru) | 2012-01-19 | 2016-03-20 | Конинклейке Филипс Н.В. | Пространственные рендеризация и кодирование аудиосигнала |
TWI505262B (zh) | 2012-05-15 | 2015-10-21 | Dolby Int Ab | 具多重子流之多通道音頻信號的有效編碼與解碼 |
US9761229B2 (en) * | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
WO2014021588A1 (ko) * | 2012-07-31 | 2014-02-06 | 인텔렉추얼디스커버리 주식회사 | 오디오 신호 처리 방법 및 장치 |
EP2717262A1 (en) | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
KR20140128564A (ko) * | 2013-04-27 | 2014-11-06 | 인텔렉추얼디스커버리 주식회사 | 음상 정위를 위한 오디오 시스템 및 방법 |
EP2830050A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
CN104683933A (zh) * | 2013-11-29 | 2015-06-03 | 杜比实验室特许公司 | 音频对象提取 |
WO2015150384A1 (en) * | 2014-04-01 | 2015-10-08 | Dolby International Ab | Efficient coding of audio scenes comprising audio objects |
CN105895086B (zh) * | 2014-12-11 | 2021-01-12 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
MX370034B (es) | 2015-02-02 | 2019-11-28 | Fraunhofer Ges Forschung | Aparato y método para procesar una señal de audio codificada. |
-
2016
- 2016-02-01 MX MX2017009769A patent/MX370034B/es active IP Right Grant
- 2016-02-01 JP JP2017558779A patent/JP6564068B2/ja active Active
- 2016-02-01 WO PCT/EP2016/052037 patent/WO2016124524A1/en active Application Filing
- 2016-02-01 RU RU2017130900A patent/RU2678136C1/ru active
- 2016-02-01 CA CA2975431A patent/CA2975431C/en active Active
- 2016-02-01 ES ES16702413T patent/ES2978713T3/es active Active
- 2016-02-01 PL PL16702413.2T patent/PL3254280T3/pl unknown
- 2016-02-01 MY MYPI2017001099A patent/MY182955A/en unknown
- 2016-02-01 AU AU2016214553A patent/AU2016214553B2/en active Active
- 2016-02-01 EP EP16702413.2A patent/EP3254280B1/en active Active
- 2016-02-01 CN CN201680020876.XA patent/CN107533845B/zh active Active
- 2016-02-01 SG SG11201706101RA patent/SG11201706101RA/en unknown
- 2016-02-01 KR KR1020177024703A patent/KR102088337B1/ko active Active
- 2016-02-01 TW TW105103125A patent/TWI603321B/zh active
- 2016-02-02 AR ARP160100288A patent/AR103584A1/es active IP Right Grant
-
2017
- 2017-07-18 ZA ZA2017/04862A patent/ZA201704862B/en unknown
- 2017-07-21 US US15/656,301 patent/US10152979B2/en active Active
-
2018
- 2018-05-23 HK HK18106656.2A patent/HK1247433A1/zh unknown
- 2018-11-20 US US16/197,299 patent/US10529344B2/en active Active
-
2019
- 2019-07-25 JP JP2019136552A patent/JP6906570B2/ja active Active
- 2019-11-22 US US16/693,084 patent/US11004455B2/en active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11004455B2 (en) | 2015-02-02 | 2021-05-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing an encoded audio signal |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2483887B1 (en) | Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value | |
CN104885150B (zh) | 用于多声道缩混/上混情况的通用空间音频对象编码参数化概念的解码器和方法 | |
US10818301B2 (en) | Encoder, decoder, system and method employing a residual concept for parametric audio object coding | |
TW201248619A (en) | Encoding and decoding of slot positions of events in an audio signal frame | |
JP6906570B2 (ja) | 符号化されたオーディオ信号を処理するための装置および方法 | |
US10607615B2 (en) | Apparatus and method for decoding an encoded audio signal to obtain modified output signals | |
JP6277202B2 (ja) | 隠しオブジェクトを信号混合操作に使用する空間オーディオオブジェクト符号化の装置及び方法 | |
BR112017015930B1 (pt) | Aparelho e método para processar um sinal de áudio codificado |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180824 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180905 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181204 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6564068 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |