JP2011066868A - Audio signal encoding method, encoding device, decoding method, and decoding device - Google Patents
Audio signal encoding method, encoding device, decoding method, and decoding device Download PDFInfo
- Publication number
- JP2011066868A JP2011066868A JP2009282358A JP2009282358A JP2011066868A JP 2011066868 A JP2011066868 A JP 2011066868A JP 2009282358 A JP2009282358 A JP 2009282358A JP 2009282358 A JP2009282358 A JP 2009282358A JP 2011066868 A JP2011066868 A JP 2011066868A
- Authority
- JP
- Japan
- Prior art keywords
- dimensional
- channels
- plane
- encoding
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 309
- 238000000034 method Methods 0.000 title claims description 70
- 238000013507 mapping Methods 0.000 claims abstract description 23
- 238000000926 separation method Methods 0.000 claims description 32
- 238000006243 chemical reaction Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 20
- 238000003786 synthesis reaction Methods 0.000 claims description 20
- 230000010354 integration Effects 0.000 claims description 17
- 230000005540 biological transmission Effects 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 30
- 101100290389 Schizosaccharomyces pombe (strain 972 / ATCC 24843) ceg1 gene Proteins 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000002194 synthesizing effect Effects 0.000 description 4
- 101100041822 Schizosaccharomyces pombe (strain 972 / ATCC 24843) sce3 gene Proteins 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 101100018996 Caenorhabditis elegans lfe-2 gene Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 101100041819 Arabidopsis thaliana SCE1 gene Proteins 0.000 description 1
- 101100126625 Caenorhabditis elegans itr-1 gene Proteins 0.000 description 1
- 101150072594 DSE1 gene Proteins 0.000 description 1
- 101150016104 DSE2 gene Proteins 0.000 description 1
- 101100042631 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) SIN3 gene Proteins 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2205/00—Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
- H04R2205/024—Positioning of loudspeaker enclosures for spatial sound reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
Description
本発明はオーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置に係り、特に多チャンネルのオーディオ信号に対して、所定の音声符号化方式の規格に準拠したオーディオ符号化信号を生成するオーディオ信号符号化方法及び符号化装置、並びにその符号化されたオーディオ信号を復号化する復号化方法及び復号化装置に関する。 The present invention relates to an audio signal encoding method, an encoding device, a decoding method, and a decoding device, and particularly generates an audio encoded signal that conforms to a predetermined audio encoding standard for a multi-channel audio signal. The present invention relates to an audio signal encoding method and encoding apparatus, and a decoding method and decoding apparatus for decoding the encoded audio signal.
多チャンネルのオーディオ信号を符号化するオーディオ信号符号化方式として、複数のエンコーダを用いる方式が知られている(例えば、特許文献1参照)。 As an audio signal encoding method for encoding a multi-channel audio signal, a method using a plurality of encoders is known (see, for example, Patent Document 1).
このオーディオ信号符号化方式では、符号化側では多チャンネルのオーディオ信号(音声信号)を、それぞれのチャンネルに対応するA/Dコンバータでデジタル信号に変換した後、各チャンネルに対応した並列駆動の複数のエンコーダ群でそれぞれの群毎に、例えば現行のデジタル放送において実績があるMPEG−2 AAC(Moving Picture Experts Group 2 Advanced Audio Coding)規格により符号化し、一本の伝送ストリームに多重して送出する。 In this audio signal encoding method, a multi-channel audio signal (audio signal) is converted into a digital signal by an A / D converter corresponding to each channel on the encoding side, and then a plurality of parallel drive units corresponding to each channel are converted. For example, each encoder group is encoded according to the MPEG-2 AAC (Moving Picture Experts Group 2 Advanced Audio Coding) standard, which has a track record in the current digital broadcasting, and is multiplexed and transmitted in one transmission stream.
復号化側では、受信した一本の伝送ストリームから複数の群毎の多チャンネルオーディオ信号を分離して、それぞれを並列駆動の複数のデコーダ群でMPEG−2 AAC規格に基づいて伸張処理した後、元の多チャンネルそれぞれに対応したD/Aコンバータによりアナログ信号のオーディオ信号に復号化する。この復号化された多チャンネルのオーディオ信号は、聴取位置を中心とする水平平面とその上方の水平平面にそれぞれ配置された複数個のスピーカに供給されてこれらを駆動することにより、3次元的音場を再現する。 On the decoding side, a multi-channel audio signal for each of a plurality of groups is separated from one received transmission stream, and each of them is decompressed by a plurality of parallel-driven decoder groups based on the MPEG-2 AAC standard. It is decoded into an audio signal of an analog signal by a D / A converter corresponding to each original multi-channel. The decoded multi-channel audio signal is supplied to and driven by a plurality of speakers arranged on a horizontal plane centered at the listening position and a horizontal plane above the three-dimensional sound signal. Reproduce the place.
しかしながら、上記のMPEG−2 AAC規格は、2次元平面(幅×奥行き)に設置された複数個のスピーカにより再生を行うオーディオ信号を符号化する方式であり、チャンネル配置情報も2次元平面を想定している。すなわち、3次元空間(幅×奥行き×高さ)に設置された複数個のスピーカにより再生を行う場合を想定していないため、多平面(3次元空間)におけるチャンネル配置を、例えば上方フロントチャンネル何チャンネルのように、3次元空間用のチャンネル配置情報を定義することができない。 However, the above MPEG-2 AAC standard is a method for encoding an audio signal to be reproduced by a plurality of speakers installed on a two-dimensional plane (width × depth), and channel arrangement information is also assumed to be a two-dimensional plane. is doing. In other words, since it is not assumed that reproduction is performed by a plurality of speakers installed in a three-dimensional space (width × depth × height), the channel arrangement in a multi-plane (three-dimensional space) is, for example, an upper front channel. Like a channel, channel arrangement information for a three-dimensional space cannot be defined.
このため、上記の従来のオーディオ信号符号化方法では、フロントチャンネルと、上方フロントチャンネルを識別することができず、一本の伝送ストリームとして多平面を伝送することができない。従って、上記の従来のオーディオ信号符号化方法では、3次元の音源位置を明確に指定した3次元の音場再現ができない。 For this reason, in the conventional audio signal encoding method described above, the front channel and the upper front channel cannot be identified, and a multi-plane cannot be transmitted as a single transmission stream. Therefore, the above-described conventional audio signal encoding method cannot reproduce a three-dimensional sound field in which a three-dimensional sound source position is clearly specified.
また、上記の従来のオーディオ信号符号化方法では、送信側(符号化側)で多チャンネルの独立した複数のMPEG−2 AAC規格の符号化信号をそれぞれ所定ビット毎に分割してストリームとして一本の伝送路上に時分割多重して送り出すようにしているため、伝送ストリームは、MPEG−2 AAC規格に準拠したストリームではない。従って、復号化装置として、MPEG−2 AAC規格に準拠したデコーダを用意しても、従来のオーディオ信号符号化方法固有の分離処理を行わなければ、受信した一本の伝送ストリームをそのまま復号化することができない。 In the above-described conventional audio signal encoding method, a plurality of independent MPEG-2 AAC standard encoded signals of multiple channels on the transmission side (encoding side) are divided into predetermined streams, respectively, as one stream. Therefore, the transmission stream is not a stream compliant with the MPEG-2 AAC standard. Therefore, even if a decoder compliant with the MPEG-2 AAC standard is prepared as a decoding device, if a separation process specific to the conventional audio signal encoding method is not performed, one received transmission stream is decoded as it is. I can't.
更に、上記の従来のオーディオ信号符号化方法では、多重化する前に、複数本の独立した符号化ストリームを作るために、チャンネル数に応じた多数のエンコーダが必要であり、また時分割多重のための多重器も必要であるため、回路規模が大きく、また符号化ストリームそれぞれが、ヘッダ情報(同期コードなど)や転送レート調整用ビット等を有しているので、それらを多重化すると冗長な情報により一本のストリームサイズが大きくなり、伝送効率が悪い。上記の従来のオーディオ信号復号化方法も同様に、多数のデコーダだけでなく、分離器も必要であるため回路規模が大きくなってしまう。 Furthermore, in the conventional audio signal encoding method described above, a large number of encoders corresponding to the number of channels are necessary to create a plurality of independent encoded streams before multiplexing, and time division multiplexing is also possible. A large-scale circuit, and each encoded stream has header information (synchronization code, etc.), transfer rate adjustment bits, and the like. The size of one stream increases due to information, and transmission efficiency is poor. Similarly, the conventional audio signal decoding method described above requires not only a large number of decoders but also a separator, so that the circuit scale becomes large.
本発明は以上の点に鑑みなされたもので、3次元の音源位置を明確に指定した3次元の音場再現を、MPEG−2 AAC規格、MPEG−4 AAC規格、AC−3(Audio Code number3)を基にしたE−AC3(Enhanced AC3)方式等の所定の符号化方式に準拠した符号化ストリームにより可能とすると共に伝送効率の良いオーディオ信号符号化を行い得るオーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置を提供することを目的とする。
The present invention has been made in view of the above points. Three-dimensional sound field reproduction in which a three-dimensional sound source position is clearly specified is reproduced by MPEG-2 AAC standard, MPEG-4 AAC standard, AC-3 (
上記の目的を達成するため、本発明のオーディオ信号符号化方法は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、2次元平面の数と、各平面に対応するチャンネル数と、2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの2次元平面内における位置を示すチャンネルマッピング情報を出力する第1のステップと、平面情報とチャンネルマッピング情報とに基づいて、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、その符号化要素と平面位置情報とを2次元平面毎に出力する第2のステップと、第2のステップにより2次元平面毎に出力された符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する第3のステップとを含むことを特徴とする。 In order to achieve the above object, an audio signal encoding method according to the present invention includes a position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space that outputs audio signals of a plurality of channels, and a three-dimensional space. Output plane information including the number of two-dimensional planes, the number of channels corresponding to each plane, and the order of division of the two-dimensional plane, based on a division direction that is a direction for dividing the plurality of two-dimensional planes. Further, based on the first step of outputting channel mapping information indicating the position of each speaker corresponding to each channel in the two-dimensional plane, the two-dimensional audio signal is two-dimensionally based on the plane information and the channel mapping information. Encoding elements are generated by encoding as a single program for each plane, and the channel arrangement in the two-dimensional plane is shown. A second step of generating plane position information including information and outputting the encoded element and the plane position information for each two-dimensional plane; and an encoded element output for each two-dimensional plane by the second step; And a third step of generating and outputting one encoded stream by integrating all the plane position information.
ここで、上記第3のステップで生成される1本の符号化ストリームには、3次元空間に立体的に配置される複数チャンネルのオーディオ信号の内、一部のチャンネルのみを復号化できるようにするための情報が平面位置情報として付加されていてもよい。 Here, in the one encoded stream generated in the third step, only a part of the channels of the audio signals of a plurality of channels arranged in a three-dimensional space can be decoded. Information may be added as plane position information.
また、上記第3のステップで生成される1本の符号化ストリームには、3次元空間に立体的に配置される複数チャンネルのオーディオ信号を、複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報が付加されていてもよい。 In addition, in the one encoded stream generated in the third step, a plurality of channels of audio signals arranged three-dimensionally in a three-dimensional space is reproduced as a signal converted to a smaller number of channels than the plurality of channels. Conversion coefficient information for making it possible may be added.
また、上記の変換係数情報は、3次元空間に立体的に配置される少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していてもよい。 Also, the above conversion coefficient information includes a filter coefficient corresponding to a head-related transfer function from the position of each speaker of a speaker with a small number of channels arranged three-dimensionally in a three-dimensional space to the viewer's right ear, And a filter coefficient corresponding to the head-related transfer function up to the left ear of the person.
また、本発明は、上記第1のステップで生成されるチャンネルマッピング情報には、3次元空間に立体的に配置される複数のスピーカのうち、複数のチャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力する各スピーカの2次元平面における位置を示す情報も含むようにし、上記第2のステップでは、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号とは別に、少ないチャンネル数に予め変換したオーディオ信号について、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、第2の符号化要素と第2の平面位置情報とを2次元平面毎に出力するようにし、上記第3のステップでは、第2の符号化要素と第2の平面位置情報とを、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した符号化要素と、2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようにしてもよい。 Further, according to the present invention, the channel mapping information generated in the first step is an audio that has been converted in advance into a smaller number of channels than a plurality of channels among a plurality of speakers arranged three-dimensionally in a three-dimensional space. Information indicating the position of each speaker that outputs a signal in a two-dimensional plane is also included, and in the second step, a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. Separately, the audio signal that has been converted into a small number of channels in advance is encoded as a group of programs for each two-dimensional plane to generate a second encoding element, and the channel arrangement in the two-dimensional plane Second plane position information including information indicating the second plane position information is generated and the second coding element and the second plane position information are In the third step, the second encoding element and the second plane position information are encoded as a group of programs for each two-dimensional plane of audio signals of a plurality of channels. Thus, a single encoded stream may be generated and output together with the encoded elements generated in this way and the plane position information including information indicating the channel arrangement in the two-dimensional plane.
また、上記の目的を達成するため、本発明のオーディオ信号符号化装置は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、2次元平面の数と、各2次元平面に対応するチャンネル数と、2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの2次元平面内における位置を示すチャンネルマッピング情報を出力する3次元空間分割部と、平面情報とチャンネルマッピング情報とに基づいて、3次元空間に配置されるスピーカから出力するための多チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、その符号化要素と平面位置情報とを2次元平面毎に出力する平面符号化部と、平面符号化部により2次元平面毎に出力された符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力するストリーム統合部とを有することを特徴とする。 In order to achieve the above object, the audio signal encoding device according to the present invention includes a position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space for outputting a plurality of channels of audio signals, and a three-dimensional A plane including the number of two-dimensional planes, the number of channels corresponding to each two-dimensional plane, and the division order of the two-dimensional plane based on a division direction that is a direction for dividing the space into a plurality of two-dimensional planes 3D space division unit for outputting information and further outputting channel mapping information indicating the position in the 2D plane of each speaker corresponding to each channel, and the 3D space based on the plane information and the channel mapping information By encoding a multi-channel audio signal to be output from a speaker arranged in a 2-dimensional plane as a single program A plane encoding unit that generates a coding element, generates plane position information including information indicating a channel arrangement in a two-dimensional plane, and outputs the coding element and the plane position information for each two-dimensional plane; A stream integration unit that generates a single encoded stream by outputting all of the encoding elements and plane position information output for each two-dimensional plane by the plane encoding unit. To do.
ここで、上記のストリーム統合部は、3次元空間に立体的に配置される複数チャンネルの音源情報の内、一部のチャンネルのみを復号化できるようにするための情報を平面位置情報として付加した1本の符号化ストリームを生成してもよい。 Here, the above-mentioned stream integration unit adds information for enabling decoding of only some of the plural channels of sound source information arranged in a three-dimensional space as plane position information. One encoded stream may be generated.
また、上記のストリーム統合部は、3次元空間に立体的に配置される複数チャンネルのオーディオ信号を複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報を付加した1本の符号化ストリームを生成するようにしてもよい。 In addition, the above stream integration unit has added conversion coefficient information for enabling reproduction of a multi-channel audio signal arranged three-dimensionally in a three-dimensional space into a signal converted to a number of channels smaller than the plurality of channels. One encoded stream may be generated.
上記の変換係数情報は、3次元空間に立体的に配置される少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していてもよい。 The above conversion coefficient information includes a filter coefficient corresponding to a head-related transfer function from the position of each speaker of a speaker with a small number of channels arranged in a three-dimensional space to the viewer's right ear, And a filter coefficient corresponding to the head-related transfer function up to the left ear.
また、本発明のオーディオ信号符号化装置は、上記の3次元空間分割部は、3次元空間に立体的に配置される複数のスピーカのうち、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力するスピーカの2次元平面における位置を示す情報も出力するようにし、上記の平面符号化部は、複数チャンネルのオーディオ信号とは別に、少ないチャンネル数に予め変換したオーディオ信号について、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、第2の符号化要素と第2の平面位置情報とを2次元平面毎に出力するようにし、上記のストリーム統合部は、第2の符号化要素と第2の平面位置情報とを、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した符号化要素と2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしてもよい。 Also, in the audio signal encoding device of the present invention, the three-dimensional space division unit described above is an audio signal that is converted in advance into a number of channels smaller than a plurality of channels among a plurality of speakers arranged three-dimensionally in a three-dimensional space. Information indicating the position of the speaker in the two-dimensional plane is also output, and the plane encoding unit described above is a two-dimensional plane for audio signals that have been converted into a small number of channels separately from the audio signals of a plurality of channels. A second encoding element is generated by performing encoding as a group of programs, and second plane position information including information indicating the channel arrangement in the two-dimensional plane is generated. The encoding element and the second plane position information are output for each two-dimensional plane, and the stream integration unit is configured to output the second encoding element and the second plane information. Plane position information, including plane position information including coding elements generated by encoding audio signals of a plurality of channels as a group of programs for each two-dimensional plane and information indicating channel arrangement in the two-dimensional plane; A single encoded stream integrated together may be generated and output.
また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、複数チャンネルのオーディオ信号よりも少ないチャンネル数に予め変換したオーディオ信号についても、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、第1及び第2の平面位置情報と第1及び第2の符号化要素とを複数の2次元平面のそれぞれについて分離する第1のステップと、第1のステップで分離された2次元平面毎の第1及び第2の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号と、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の第1及び第2の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号と、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップとを含むことを特徴とする。 In order to achieve the above object, the audio signal decoding method of the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A first encoding element is generated by encoding a plurality of two-dimensional planes as a single program, and further, first plane position information including information indicating channel arrangement in the two-dimensional plane is generated. In addition, the second encoding is performed by encoding an audio signal that has been converted into a smaller number of channels than a plurality of channels of audio signals into a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Generating elements, and further generating second plane position information including information indicating the channel arrangement in the two-dimensional plane, and integrating them The first encoded stream is received as an input, and the first and second plane position information and the first and second encoded elements are separated from the encoded stream for each of a plurality of two-dimensional planes. 1 step and the first and second coding elements for each two-dimensional plane separated in the first step are respectively decoded and converted in advance into a multi-channel audio signal and a smaller number of channels than the plurality of channels. A second step of decoding into the audio signal, and combining the first and second plane position information for each two-dimensional plane separated in the first step, and decoding a plurality of channels of audio signals, Third order indicating the position of the speaker that outputs the audio signal of each channel of the audio signal converted in advance to the number of channels smaller than a plurality of channels Characterized in that it comprises a third step of generating the channel arrangement information.
また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルのオーディオ信号を複数チャンネルよりも少ないチャンネル数のオーディオ信号として再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離する第1のステップと、第1のステップで分離された2次元平面毎に符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の平面位置情報を合成して、複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られる第1のステップで分離された変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、複数チャンネルのオーディオ信号よりも少ないチャンネル数のオーディオ信号に変換する第4のステップとを含むことを特徴とする。 In order to achieve the above object, the audio signal decoding method of the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional It is obtained by generating conversion coefficient information including information indicating conversion coefficients so that audio signals of a plurality of channels arranged in space can be reproduced as audio signals having fewer channels than a plurality of channels, and integrating them. One encoded stream is received as an input, and plane position information and encoding elements are received from the encoded stream as a plurality of secondary Separating each of the planes, further separating the transform coefficient information, and decoding the encoding elements for each of the two-dimensional planes separated in the first step to form a multi-channel audio signal A second step of decoding and a three-dimensional position indicating the position of the speaker that outputs the audio signal of each channel of the audio signals of a plurality of channels by combining the plane position information for each two-dimensional plane separated in the first step A third step of generating channel arrangement information and the decoded multi-channel audio signal are multiplied by the transform coefficient information separated in the first step obtained based on the three-dimensional channel arrangement information. Audio signals with fewer channels than multi-channel audio signals so that they can be played back on two or more two-dimensional planes Characterized in that it comprises a fourth step of conversion.
また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルのオーディオ信号を少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離する第1のステップと、第1のステップで分離された2次元平面毎に符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の平面位置情報を合成して、複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られる第1のステップで分離された変換係数情報を乗じて、複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換する第4のステップとを含むことを特徴とする。 In order to achieve the above object, the audio signal decoding method of the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional A single encoded stream obtained by generating transform coefficient information including information indicating transform coefficients for enabling reproduction of audio signals of a plurality of channels arranged in space with a small number of channels, and integrating them. Receiving as input and separating plane position information and coding elements from each of the plurality of two-dimensional planes from the encoded stream; A first step of separating the conversion coefficient information, a second step of decoding the encoding elements for each of the two-dimensional planes separated in the first step, and decoding into a multi-channel audio signal; 3rd channel arrangement information which shows the position of the speaker which outputs the audio signal of each channel of the audio signal of a plurality of channels by combining the plane position information for every two-dimensional plane separated in one step is generated. Multiplying the decoded multi-channel audio signal by the transform coefficient information separated in the first step obtained on the basis of the three-dimensional channel arrangement information to the 2-channel binaural from the multi-channel audio signal And a fourth step of converting into a signal.
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離するストリーム分離部と、ストリーム分離部において分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部とを有することを特徴とする。 In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. Encoding elements are generated by encoding each group of two-dimensional planes as a single program, and plane position information including information indicating the channel arrangement in the two-dimensional plane is generated and integrated. And receiving a single encoded stream obtained as an input, and separating the plane position information and the encoding element from the encoded stream for each of a plurality of two-dimensional planes by the stream separator. A plane decoding unit that decodes the encoded elements for each two-dimensional plane and decodes them into audio signals of a plurality of channels; The three-dimensional channel arrangement information indicating the position of the speaker that outputs the audio signal of each channel of the decoded multi-channel audio signal is generated by synthesizing the plane position information for each two-dimensional plane separated by the segment separation unit. And a three-dimensional space synthesizing unit.
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号についても、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、第1及び第2の平面位置情報と第1及び第2の符号化要素とを複数の2次元平面のそれぞれについて分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の第1及び第2の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号と、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の第1及び第2の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号と、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部とを有することを特徴とする。 In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A first encoding element is generated by encoding a plurality of two-dimensional planes as a single program, and further, first plane position information including information indicating channel arrangement in the two-dimensional plane is generated. In addition, a second encoding element is generated by encoding an audio signal having a smaller number of channels than a plurality of previously converted channels as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Furthermore, the second plane position information including information indicating the channel arrangement in the two-dimensional plane is generated, and one code obtained by integrating them is obtained. A stream separation unit that receives an encoded stream as an input and separates the first and second plane position information and the first and second encoded elements for each of a plurality of two-dimensional planes from the encoded stream; The first and second coding elements for each two-dimensional plane separated by the separation unit are respectively decoded and decoded into a plurality of channels of audio signals and audio signals with fewer channels than the plurality of channels converted in advance. By combining the first and second plane position information for each two-dimensional plane separated by the plane decoding unit and the stream separation unit, the decoded plural-channel audio signal and fewer than the pre-converted plural channels 3D channel indicating the position of the speaker that outputs the audio signal of each channel of the audio signal of the number of channels And having a three-dimensional space combining unit for generating location information.
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルよりも少ないチャンネル数のオーディオ信号で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られるストリーム分離部で分離された変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、複数チャンネルよりも少ないチャンネル数のオーディオ信号に変換するダウンミックス部とを有することを特徴とする。 In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional One encoded stream obtained by generating transform coefficient information including information indicating transform coefficients for enabling reproduction with audio signals having a smaller number of channels than a plurality of channels arranged in space and integrating them From the encoded stream, the plane position information and the encoded elements are separated for each of a plurality of two-dimensional planes. A stream separation unit that separates transform coefficient information, a plane decoding unit that decodes the encoded elements for each two-dimensional plane separated by the stream separation unit, and decodes them into a multi-channel audio signal; and stream separation 3D to generate 3D channel arrangement information indicating the position of the speaker that outputs the audio signal of each channel of the decoded audio signals of a plurality of channels by combining the plane position information for each 2D plane separated by the unit Multiply the decoded multi-channel audio signal by the spatial coefficient unit and the transform coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and reproduce it on one or more two-dimensional planes. A downmix unit that converts the audio signal into a smaller number of channels than a plurality of channels. And wherein the door.
また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルよりも少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られるストリーム分離部で分離された変換係数情報を乗じて、複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換するダウンミックス部とを有することを特徴とする。 In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional Generating transform coefficient information including information indicating transform coefficients for enabling reproduction with a smaller number of channels than a plurality of channels arranged in space, and using one encoded stream obtained by integrating them as an input Receiving, separating the plane position information and the coding element from each of the plurality of two-dimensional planes from the encoded stream, and further converting coefficient information The stream separation unit to be separated, the plane decoding unit that decodes the encoding elements for each two-dimensional plane separated by the stream separation unit, and decodes the audio signals of a plurality of channels, and the stream separation unit A three-dimensional space synthesis unit for synthesizing plane position information for each two-dimensional plane and generating three-dimensional channel arrangement information indicating a position of a speaker that outputs an audio signal of each channel of the decoded audio signals of a plurality of channels; The decoded multi-channel audio signal is multiplied by the conversion coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and converted from the multi-channel audio signal to the 2-channel binaural signal. And a downmix unit.
本発明のオーディオ信号符号化方法及び装置によれば、3次元空間に対応する音声信号の3次元空間における位置を明確に指定した3次元の音場再現が可能な符号化ストリームを生成することができる。 According to the audio signal encoding method and apparatus of the present invention, it is possible to generate an encoded stream capable of reproducing a three-dimensional sound field in which a position in a three-dimensional space of an audio signal corresponding to the three-dimensional space is clearly specified. it can.
また、本発明のオーディオ信号復号化方法及び装置によれば、符号化側で生成した3次元空間に対応する音声信号を2次元平面毎の音声信号に分割し、分割した2次元平面毎のオーディオ信号を符号化した符号化要素を、分割情報と平面でのチャンネル配置情報とを含めて統合した符号化ストリームを復号化するため、3次元空間における音源位置を明確に指定した3次元の音場再現ができる。 According to the audio signal decoding method and apparatus of the present invention, the audio signal corresponding to the three-dimensional space generated on the encoding side is divided into audio signals for each two-dimensional plane, and the divided audio for each two-dimensional plane is divided. A three-dimensional sound field that clearly specifies a sound source position in a three-dimensional space in order to decode a coded stream in which coding elements obtained by coding a signal are integrated including division information and channel arrangement information in a plane. Can be reproduced.
次に、本発明の実施の形態について図面と共に詳細に説明する。 Next, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明になるオーディオ信号符号化装置の一実施の形態のブロック図を示す。同図に示すように、本実施の形態のオーディオ信号符号化装置10は、3次元空間分割部11と、3つの平面符号化部12、13及び14と、ストリーム統合部15とから構成され、外部からNチャンネル(Nは自然数)のオーディオ信号、分割方向、各チャンネルのオーディオ信号の3次元チャンネル配置情報を入力として受け、例えばMPEG準拠の符号化ストリームを出力する。
FIG. 1 shows a block diagram of an embodiment of an audio signal encoding apparatus according to the present invention. As shown in the figure, the audio
上記の「分割方向」は、Nチャンネルの各チャンネル毎のオーディオ信号がそれぞれ発音されるN個のスピーカが配置された、X軸,Y軸,Z軸の3軸からなる3次元空間を、2次元平面に分割するときの分割方向が、X−Y平面分割、X−Z平面分割、Y−Z平面分割の3種類のいずれであるかを示す情報である。なお、「分割方向」は必ずしも外部から入力される必要はなく、3次元空間分割部11は、X−Y平面分割、X−Z平面分割、Y−Z平面分割の内、いずれか1つの「分割方向」を常に使用するようにしてもよい。また、上記の「3次元チャンネル配置情報」は、入力されたNチャンネル(ch)のオーディオ信号が発音される3次元空間上の各チャンネルのスピーカ(あるいは音源)の配置位置を、聴取者の位置(リスニングポイント)を原点(0,0,0)としたときの、3次元座標(x,y,z)で示す情報である。更に、上記のNchオーディオ信号は、Nchのアナログオーディオ信号を各チャンネル別に、例えばパルス符号変調(PCM)して得られたデジタル信号である。
The above-mentioned “division direction” refers to a three-dimensional space composed of three axes of the X axis, the Y axis, and the Z axis in which N speakers each generating an audio signal for each of the N channels are arranged. This is information indicating whether the division direction when dividing into a three-dimensional plane is one of three types: XY plane division, XZ plane division, and YZ plane division. Note that the “division direction” is not necessarily input from the outside, and the three-dimensional
3次元空間分割部11は、分割方向と3次元チャンネル配置情報とに基づいて、3次元空間上に配置されたスピーカに対応するNチャンネルの音源に関する情報を、複数の2次元平面の音源に関する情報に分割し、平面情報と、分割された2次元平面上における音源位置を示すチャンネルマッピング情報とを出力する。平面情報には、平面総数、平面毎のチャンネル総数、平面分割順序を示す情報が含まれる。チャンネルマッピング情報は、各チャンネルと平面との関連付け、各チャンネルと平面内の位置(フロント、サイド、リア等)との関連付けを表す。
Based on the division direction and the three-dimensional channel arrangement information, the three-dimensional
平面符号化部12、13及び14は、3次元空間を分割して得られた3つの2次元の平面のうち、割り当てられた一平面毎に設けられており、上記の平面情報とチャンネルマッピング情報とに基づいて、平面に含まれる各チャンネルのオーディオ信号に対して例えばMPEG準拠の符号化方式により、ひとまとまりのプログラムとして符号化を行い、オーディオ信号そのものを符号化した際に得られるメインデータ(符号化データ)を意味する符号化要素(SCE、CPEエレメント)と、補助データとして、その平面内のチャンネル配置(フロント何チャンネル、サイド何チャンネル、リア何チャンネル)を示す情報を含む平面位置情報(PCEエレメント)とを出力する。
The
ここで、本実施の形態では、上記の符号化方式として、BSデジタル放送で使用されているMPEG−2 AAC符号化方式を例として説明する。なお、MPEG−4 AAC符号化方式でもよく、この符号化方式は、MPEG−2 AAC符号化方式に新たなオプションツールが追加された形であるので、MPEG−2 AAC符号化方式で代用することができる。なお、以下の説明では、両符号化方式をまとめて「MPEG−2/4 AAC」と記す。 Here, in this embodiment, an MPEG-2 AAC encoding method used in BS digital broadcasting will be described as an example of the above encoding method. The MPEG-4 AAC encoding method may be used, and this encoding method is a form in which a new optional tool is added to the MPEG-2 AAC encoding method. Therefore, the MPEG-2 AAC encoding method should be substituted. Can do. In the following description, both encoding methods are collectively referred to as “MPEG-2 / 4 AAC”.
ストリーム統合部15は、平面符号化部12、13及び14からそれぞれ出力された、3つの平面の平面位置情報と符号化要素とを統合して、1本のMPEG準拠(ここでは、MPEG−2/4 AAC)の符号化ストリームを生成して出力する。
The
次に、本実施の形態のオーディオ信号符号化装置10の動作について詳細に説明する。ここでは、図2に示す22.2chの3次元のスピーカ配置による立体音場を生成するために、図2に示すスピーカ配置の3次元空間を、図3(A)〜(C)に示す3つの2次元平面に分割し、図5に示す構成のMPEG−2/4 AAC符号化ストリームを生成する例について説明する。
Next, the operation of the audio
図2は、22.2chを有する音響システムのスピーカ配置を示す。この22.2chを有する音響システムのスピーカ配置は、衛星デジタル放送の高度化(高度BS)において定義されている。図2に示すように、上層9チャンネル、中層10チャンネル、下層3チャンネル、LFE(Low Frequency Effect)2チャンネルによる合計22.2chにより、(幅×奥行き×高さ)の3次元空間が構築される。なお、LFEチャンネルは主に低音域の音声が割り当てられるチャンネルである。
FIG. 2 shows the speaker arrangement of an acoustic system with 22.2 ch. The speaker arrangement of the sound system having 22.2 ch is defined in the advancement of satellite digital broadcasting (advanced BS). As shown in FIG. 2, a three-dimensional space of (width × depth × height) is constructed by a total of 22.2 channels of the upper layer 9 channels, the
この22.2chの3次元空間の立体音場を示す符号化ストリームを、BSデジタル放送と同様に、MPEG−2/4 AAC符号化方式により符号化して構築しようとする場合、前述したようにMPEG−2/4 AAC符号化方式では高さ方向を定義することができないので、基本的に現規格では符号化ストリームを構築することができない。 In the case where an encoded stream representing a 32.2 spatial space in 3D space is encoded by the MPEG-2 / 4 AAC encoding method in the same way as BS digital broadcasting, as described above, MPEG is used. Since the height direction cannot be defined in the −2/4 AAC encoding method, basically, the encoded stream cannot be constructed in the current standard.
そこで、本実施の形態では、図2に示した3次元空間(幅×奥行き×高さ)を、一例として3次元空間の高さ方向に分割して、図3(A)に示すように上層の9チャンネル(UFL,UFC,UFR,USL,USC,USR,UBL,UBC,UBR)を有する2次元平面と、図3(B)に示すように中層の10チャンネル(MFL,MFLC,MFC,MFRC,MFR,MSL,MSR,MBL,MBC,MBR)を有する2次元平面と、図3(C)に示すように下層3チャンネル(LFL,LFC,LFR)とLFE2チャンネル(LFEL,LFER)とからなる3.2チャンネルの下層部の2次元平面の3つに分割している。このように、3次元空間を高さ方向に分割することで、MPEG−2/4 AAC符号化方式における2次元平面のチャンネル配置を定義することが可能となる。なお、ここでは、一例として22.2ch音響システムに対応して3層に分割しているが、分割数を限定するものではない。同様に分割方向は高さ方向に限定するものではない。 Therefore, in the present embodiment, the three-dimensional space (width × depth × height) shown in FIG. 2 is divided in the height direction of the three-dimensional space as an example, and an upper layer as shown in FIG. 2 channels with 9 channels (UFL, UFC, UFR, USL, USC, USR, UBL, UBC, UBR) and 10 channels in the middle layer (MFL, MFLC, MFC, MFRC) as shown in FIG. , MFR, MSL, MSR, MBL, MBC, MBR), as shown in FIG. 3 (C), the lower 3 channels (LFL, LFC, LFR) and LFE2 channels (LFEL, LFER) 3.2 Divided into three channels in the two-dimensional plane of the lower layer of the channel. As described above, by dividing the three-dimensional space in the height direction, it is possible to define a channel arrangement on a two-dimensional plane in the MPEG-2 / 4 AAC encoding system. In addition, although divided | segmented into 3 layers here as an example corresponding to a 22.2ch sound system, the division | segmentation number is not limited. Similarly, the dividing direction is not limited to the height direction.
再び図1に戻って説明する。3次元空間分割部11は、入力される分割方向が一例としてX−Y分割を示しており、また、入力される3次元チャンネル配置情報として、表1に示す情報が入力されたものとする。
Returning again to FIG. As an example, the three-dimensional
3次元空間分割部11は、表1に示す3次元チャンネル配置情報に基づいて、平面総数と、平面毎のチャンネル総数と、平面分割順序とからなる平面情報を生成して出力する。ここで、上記の平面総数は2次元平面の総数であるので「3」、上記の平面毎のチャンネル総数は表2に示され、上記の平面分割順序は4ビット表現で例えば「0011」である。ここで、「0011」で表される平面分割順序は、X−Y分割で、上層部から中層部を経て下層部+LFEの順序で分割することを示す。なお、X−Y分割で、下層部+LFEから中層部を経て上層部への順序で分割する場合は、上記平面分割順序は「0010」とされる。また、分割しない場合は上記平面分割順序は「0000」とされる。
Based on the three-dimensional channel arrangement information shown in Table 1, the three-dimensional
平面番号「0」は上層部の2次元平面を示し、そのチャンネル総数は図3(A)、図4(A)に示すように「9」である。また、平面番号「1」は中層部の2次元平面を示し、そのチャンネル総数は図3(B)、図4(B)に示すように「10」である。更に、平面番号「2」は下層部+LFEの2次元平面を示し、図3(C)、図4(C)に示すように3.2chであるので、そのチャンネル総数は「5」である。従って、全チャンネル総数はch0〜ch23の24チャンネルとなる。 The plane number “0” indicates the two-dimensional plane of the upper layer part, and the total number of channels is “9” as shown in FIGS. 3A and 4A. The plane number “1” indicates the two-dimensional plane of the middle layer, and the total number of channels is “10” as shown in FIGS. 3B and 4B. Further, the plane number “2” indicates a two-dimensional plane of the lower layer portion + LFE, and is 3.2 ch as shown in FIGS. 3C and 4C, and therefore the total number of channels is “5”. Therefore, the total number of all channels is 24 channels of ch0 to ch23.
また、3次元空間分割部11は、X−Y分割である場合、同じ高さ(Z軸)のチャンネルをまとめて一平面とし、また原点からのY軸の距離が同じものをフロント(front)、サイド(side)、バック(back)に分割する。また、センターのような単独チャンネルと、L/Rのようなペアチャンネルとの分離も行う。
Further, in the case of XY division, the three-dimensional
これにより、3次元空間分割部11は、フロントチャンネルで単独チャンネルを示す「front single 識別」、フロントチャンネルでペアチャンネルを示す「front pair識別」、サイドチャンネルで単独チャンネルを示す「side single 識別」、サイドチャンネルでペアチャンネルを示す「side pair識別」、バックチャンネルで単独チャンネルを示す「back single 識別」、バックチャンネルでペアチャンネルを示す「back pair識別」、LFEチャンネルで単独チャンネルを示す「LFE single 識別」を各チャンネル毎に示すチャンネルマッピング情報を生成する。表3は、このチャンネルマッピング情報を示す。
Accordingly, the three-dimensional
平面符号化部12は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、22.2chの入力オーディオ信号のうち、平面番号「0」の上層部の2次元平面の各チャンネルのオーディオ信号に対してMPEG−2/4 AAC符号化方式による符号化を行い、平面位置情報と符号化要素とを生成して出力する。
Based on the plane information and the channel mapping information from the three-dimensional
また、平面符号化部12の符号化動作と並行して、平面符号化部13は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、平面番号「1」の中層部の2次元平面の各チャンネルのオーディオ信号に対して、また平面符号化部14は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、平面番号「2」の下層部+LFEの2次元平面の各チャンネルのオーディオ信号に対して、それぞれMPEG−2/4 AAC符号化方式による符号化を行い、平面位置情報と符号化要素とを生成して出力する。
In parallel with the encoding operation of the plane encoding unit 12, the
このとき平面符号化部12〜14は、同一平面のチャンネルの符号化形態(チャンネルペアで符号化:CPE、シングルチャンネルで符号化:SCE)を、チャンネルマッピング情報を基に決定して符号化を行い、符号化要素を生成する。また、平面符号化部12〜14は、チャンネルマッピング情報から平面位置情報を生成する。これはストリーム中のプログラムコンフィグエレメント(PCE)に相当する。 At this time, the plane encoding units 12 to 14 determine the encoding mode of channels on the same plane (encoding with a channel pair: CPE, encoding with a single channel: SCE) based on the channel mapping information and encoding. To generate a coding element. In addition, the plane encoding units 12 to 14 generate plane position information from the channel mapping information. This corresponds to a program configuration element (PCE) in the stream.
ストリーム統合部15は、平面符号化部12〜14からそれぞれ出力された平面位置情報と符号化要素とから、MPEG−2/4 AAC符号化方式に準拠した符号化ストリームを生成して出力する。
The
次に、オーディオ信号符号化装置10から出力されるMPEG準拠符号化ストリームの各例について説明する。
Next, examples of MPEG-compliant encoded streams output from the audio
図5は、本発明により図2に示した22.2chの3次元空間を、図3(A)〜(C)に示すような3つの2次元平面に分割して符号化して得られるMPEG準拠符号化ストリームの第1の例のフォーマットを示す。このMPEG準拠符号化ストリームは、MPEG−2/4 AAC符号化方式で符号化されたストリームで、そのフォーマットは、ADTS(Audio_Data_Transport_Stream)フォーマットと呼ばれており、この図5(A)もADTSフォーマットに準拠している。 FIG. 5 shows an MPEG conformity obtained by dividing and encoding the 22.2 ch three-dimensional space shown in FIG. 2 into three two-dimensional planes as shown in FIGS. The format of the 1st example of an encoding stream is shown. This MPEG-compliant encoded stream is a stream encoded by the MPEG-2 / 4 AAC encoding method, and its format is called an ADTS (Audio_Data_Transport_Stream) format. FIG. 5A is also converted to the ADTS format. It is compliant.
図5(A)に示すように、符号化フォーマットは、1オーディオフレームに相当する「adts_frame」単位で時系列的に合成された構造である。「adts_frame」は、同期コード、フレーム長などの情報やCRCエラー検出コードを含む「adts_header」と呼ぶヘッダと、符号化したオーディオ情報がエレメントと呼ばれる単位にまとめられて収められたブロックである「raw_data_block」とからなる。 As shown in FIG. 5A, the encoding format has a structure synthesized in time series in units of “adts_frame” corresponding to one audio frame. “Adts_frame” is a block in which a header called “adts_header” including information such as a synchronization code, a frame length, and a CRC error detection code, and encoded audio information are stored in a unit called an element “raw_data_block” It consists of.
本実施の形態の符号化ストリームは、図5(A)、(B)に示すように、「raw_data_block」が、チャンネル情報用のPCE(Program_Config_Element)と、上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」と、スタッフィングビット用のFIL(File_element)と、フレームの終わりを示すEND(Terminator)とから構成される。 As shown in FIGS. 5A and 5B, the encoded stream according to the present embodiment includes “raw_data_block” including channel information PCE (Program_Config_Element), upper layer information “upper_layer”, and middle layer information “ middle_layer ", lower layer + LFE information" lower + LFE_layer ", stuffing bit FIL (File_element), and END (Terminator) indicating the end of the frame.
チャンネル情報用のPCEは図5(B)に示すように「PCE0」、「PCE1」、「PCE2」からなる。「PCE0」は、図1に示した平面符号化部12から出力された上層の平面位置情報である。同様に、「PCE1」、「PCE2」は、それぞれ図1に示した平面符号化部13、14から出力された中層と下層+LFEの平面位置情報である。
The PCE for channel information includes “PCE0”, “PCE1”, and “PCE2” as shown in FIG. “PCE0” is the plane position information of the upper layer output from the plane encoding unit 12 shown in FIG. Similarly, “PCE1” and “PCE2” are the plane position information of the middle layer and the lower layer + LFE output from the
上層の情報「upper_layer」は、図5(C)に示すように、フロントのSCE(Single_Channel_Element)0及びCPE(Channel_Pair_Element)0と、サイドのSCE1及びCPE1と、バック(リア)のSCE2及びCPE2とからなる。この上層の情報「upper_layer」は、図1に示した平面符号化部12から出力された符号化要素である。なお、ここでは、エレメントの名称とタグ番号(element_instance_tag)を一緒に記載している。例えば、SCEでタグ番号0を有するものを「SCE0」と記載している。
As shown in FIG. 5C, the upper layer information “upper_layer” is obtained from the front SCE (Single_Channel_Element) 0 and CPE (Channel_Pair_Element) 0, the side SCE1 and CPE1, and the back (rear) SCE2 and CPE2. Become. The upper layer information “upper_layer” is an encoding element output from the plane encoding unit 12 illustrated in FIG. 1. Here, the element name and the tag number (element_instance_tag) are described together. For example, an SCE having a
同様に、中層の情報「middle_layer」は、図5(D)に示すように、フロントのSCE3、CPE3及びCPE4と、サイドのCPE5と、バックのSCE4及びCPE6とからなる。この中層の情報「middle_layer」は、図1に示した平面符号化部13から出力された符号化要素である。また、下層+LFEの情報「lower+LFE_layer」は、図5(E)に示すように、フロントのSCE5及びCPE7と、LFEのLFE(LFE_Channel_Element)0及びLFE1とからなる。この下層+LFEの情報「lower+LFE_layer」は、図1に示した平面符号化部14から出力された符号化要素である。
Similarly, as shown in FIG. 5D, the middle layer information “middle_layer” includes front SCE3, CPE3, and CPE4, side CPE5, and back SCE4 and CPE6. The middle layer information “middle_layer” is an encoding element output from the
図6は、上記のPCEの構成を、記述言語を用いて示した図である。各名称の後ろには、ビット数とその単位(uimsbfは符号無し整数値、bslbfはビット列)を表している。先頭にある「element_innstance_tag」は、タグ番号であり、複数のPCEが存在した場合に、それらを区別することができる。「num_front_channel_elements」はフロントチャンネルに存在するエレメント数を表しており、同様に、サイドチャンネル用、バックチャンネル用、LFEチャンネル用にそれぞれ、「num_side_channel_elements」,「num_back_channnel_elements」, 「num_lfe_channel_elements」が存在する。 FIG. 6 is a diagram showing the configuration of the above PCE using a description language. Each name is followed by the number of bits and its unit (uimsbf is an unsigned integer value and bslbf is a bit string). “Element_innstance_tag” at the head is a tag number, and when there are a plurality of PCEs, they can be distinguished. “Num_front_channel_elements” represents the number of elements existing in the front channel. Similarly, “num_side_channel_elements”, “num_back_channnel_elements”, and “num_lfe_channel_elements” exist for the side channel, the back channel, and the LFE channel, respectively.
そして、そのエレメントがSCEであるかCPEであるかを区別する情報1ビットと、そのエレメントに付けられているタグ番号(element_instance_tag)と同一の情報が4ビットで追加される(例えば、「front_element_is_cpe」,「front_element_tag_select」)。LFEについてはチャンネルペアとして符号化されることはないので、SCE/CPEを区別する情報はなく、タグ番号だけが4ビットで追加される(lfe_element_tag_select)。 Then, 1 bit of information for identifying whether the element is SCE or CPE, and 4 bits of the same information as the tag number (element_instance_tag) attached to the element are added (for example, “front_element_is_cpe”) , "Front_element_tag_select"). Since LFE is not encoded as a channel pair, there is no information for distinguishing SCE / CPE, and only the tag number is added in 4 bits (lfe_element_tag_select).
図7は、本実施の形態のオーディオ信号符号化装置10により生成されるMPEG準拠符号化ストリームで定義されるPCEを記述言語を用いて表した図を示す。図7(A)は上層部に存在する9chを記述したPCE0、同図(B)は、中層部に存在する10chを記述したPCE1、同図(C)は下層部+LFEに存在する3.2chを記述したPCE2の構成を記述言語を用いて示す。このように、本実施の形態によれば、PCE0、PCE1、PCE2は問題なく定義できることが分かる。
FIG. 7 is a diagram showing the PCE defined by the MPEG-compliant encoded stream generated by the audio
このように、本実施の形態では、22.2chを有する1つのプログラムは、高さ方向に分割された3プログラムから構成されるものとして分割し、図5(B)に示すように符号化ストリームに現れるPCE0を上層用、2番目に現れるPCE1を中層用、最後に現れるPCE2を低層+LFE用と定義する。そして、分割された2次元平面に含まれるチャンネルをMPEG−2/4 AAC符号化方式により符号化して各プログラムを構成し、ストリーム統合部15が全てのプログラムを統合することで、MPEG規格に準拠し、かつ、3次元空間に対応した符号化ストリームを構築することができる。
As described above, in this embodiment, one program having 22.2 ch is divided as being composed of three programs divided in the height direction, and an encoded stream is obtained as shown in FIG. PCE0 that appears in the upper layer is defined as the upper layer, PCE1 that appears second is the middle layer, and PCE2 that appears last is defined as the lower layer + LFE. Then, the channels included in the divided two-dimensional plane are encoded by the MPEG-2 / 4 AAC encoding method to configure each program, and the
このように、本実施の形態によれば、3次元空間用のチャンネル配置の定義を追加することなく、3次元の音源位置を明確に指定した3次元の音場再現が可能なMPEG−2/4AAC規格に準拠した符号化ストリームを生成することができる。また、本実施の形態によれば、3つの2次元平面のそれぞれの符号化要素をストリーム統合して1本の符号化ストリームを生成しており、独立した符号化ストリームを多重化しないため、冗長な情報が存在せず、伝送効率の良いオーディオ信号符号化ができる。 As described above, according to the present embodiment, MPEG-2 / which can reproduce a three-dimensional sound field in which a three-dimensional sound source position is clearly specified without adding a definition of channel arrangement for a three-dimensional space. An encoded stream compliant with the 4AAC standard can be generated. In addition, according to the present embodiment, each encoded element of the three two-dimensional planes is stream-integrated to generate one encoded stream, and independent encoded streams are not multiplexed. Audio information can be encoded with good transmission efficiency.
更に、本実施の形態によれば、多重器を用いることなく、1個のオーディオ信号符号化装置10により22.2chのオーディオ信号の符号化を行うことができるので回路規模を比較的小規模とすることができる。更に、本実施の形態によれば、符号化ストリームから、選択した2次元平面に関するストリーム情報だけを抜き出して復号することができる。
Furthermore, according to the present embodiment, since a single audio
なお、高度BSに関する答申は、電波産業会(ARIB:Association of Radio Industries and Businesses)より答申されたものであること、従来からARIB標準規格STD-B32において、MPEG規格の使用制限、厳密化を行っていることから、本実施の形態のように平面位置情報であるPCEと分割した2次元平面の符号化要素との対応を示す定義を追記することは、特に問題にならない。MPEG国際標準規格を修正して、日本のローカル放送方式に対応することの方が問題は大きい。 In addition, the report on advanced BS is a report from the Association of Radio Industries and Businesses (ARIB), and the ARIB standard STD-B32 has traditionally restricted and tightened the use of MPEG standards. Therefore, it is not particularly problematic to add a definition indicating the correspondence between the PCE that is the plane position information and the encoded elements of the divided two-dimensional plane as in the present embodiment. It is more problematic to modify the MPEG international standard to support Japanese local broadcasting.
なお、上記の実施の形態では、図2に示した3次元空間(幅×奥行き×高さ)を、3次元空間の高さ方向に分割(すなわち、前記のX−Y分割)して2次元平面を得るようにしたが、分割方法はこれに限定されるものではない。例えば、図8(A)〜(C)に示すように、奥行き方向に分割(X−Z分割)して、3つの2次元平面(幅×高さ)を得て、各2次元平面のチャンネルのオーディオ信号毎に符号化するようにしてもよい。X−Z分割の場合は、同じ奥行き(Y軸)のチャンネルをまとめて一平面とする。図8(A)は、3次元空間の奥行き方向の分割により、前方部を有する2次元平面のチャンネル位置(スピーカ位置)を示す。図8(B)は、中方部を有する2次元平面のチャンネル位置(スピーカ位置)、図8(C)は、後方部を有する2次元平面のチャンネル位置(スピーカ位置)を示す。 In the above embodiment, the three-dimensional space (width × depth × height) shown in FIG. 2 is divided in the height direction of the three-dimensional space (that is, the above-described XY division) to obtain a two-dimensional space. Although a plane is obtained, the dividing method is not limited to this. For example, as shown in FIGS. 8A to 8C, division in the depth direction (XZ division) is performed to obtain three two-dimensional planes (width × height), and channels of each two-dimensional plane. It may be encoded for each audio signal. In the case of XZ division, channels having the same depth (Y axis) are combined into one plane. FIG. 8A shows a channel position (speaker position) on a two-dimensional plane having a front portion by dividing the three-dimensional space in the depth direction. FIG. 8B shows a channel position (speaker position) on a two-dimensional plane having a middle part, and FIG. 8C shows a channel position (speaker position) on a two-dimensional plane having a rear part.
この例の場合、2種類のデフォルト定義が必要となる。第1のデフォルト定義は、高さ方向の分割と同様に、22.2chを有する1番組(プログラム)は、奥行き方向に分割された3プログラムから構成されるものとし、一例として、符号化ストリームに最初に現れるPCE0を前方+LFE用、2番目に現れるPCE1を中方用、最後に現れるPCE2を後方用と定義することである。 In this example, two types of default definitions are required. The first default definition is that, as with the division in the height direction, one program (program) having 22.2 ch is composed of three programs divided in the depth direction. PCE0 that appears first is for forward + LFE, PCE1 that appears second is for the middle, and PCE2 that appears last is for the rear.
第2の定義は、フロントチャンネル、サイドチャンネル、バックチャンネルの定義が明確でなくなるため、一例として、下層部をフロントチャンネルにより対応し、中層部をサイドチャンネルにより対応し、上層部をバックチャンネルにより対応するものと定義することである。 In the second definition, the definition of the front channel, side channel, and back channel is not clear. For example, the lower layer corresponds to the front channel, the middle layer corresponds to the side channel, and the upper layer corresponds to the back channel. It is to define what to do.
以上のように定義することで、3次元空間に配置された22.2chの音源位置を持つオーディオ信号を、MPEG規格に準拠した符号化方式(ここでは、MPEG−2/4AAC符号化方式)で符号化された符号化ストリームを構築することができる。このような奥行き方向の分割を行うメリットは、前方からの距離が一定で、水平角は同一であるので、違いが仰角による伝搬時間の違いだけとなり、各2次元平面内の存在する音源間の相関が高いと考えられるためである。 By defining as described above, an audio signal having a sound source position of 22.2ch arranged in a three-dimensional space is encoded by an encoding method compliant with the MPEG standard (in this case, MPEG-2 / 4 AAC encoding method). An encoded encoded stream can be constructed. The merit of such a division in the depth direction is that the distance from the front is constant and the horizontal angle is the same, so the difference is only the difference in propagation time due to the elevation angle, and between the sound sources existing in each two-dimensional plane This is because the correlation is considered high.
なお、上記のX−Y分割やX−Z分割以外に、Y−Z分割も可能である。このY−Z分割では、同じ幅(X軸)のチャンネルをまとめて一平面とするものである。このY−Z分割では原点からのZ軸からの距離が同じものをフロント、サイド、リニアに分類する。なお、前記の4ビットの平面分割順序は、X−Z分割の場合は、スピーカ配置において前方から後方への分割順序かその逆の順序かを示し、Y−Z分割の場合は、左方から右方への分割順序かその逆の順序かを予め定められた4ビットの値で示す。 In addition to the above XY division and XZ division, YZ division is also possible. In this YZ division, channels having the same width (X axis) are combined into one plane. In this YZ division, those having the same distance from the Z axis from the origin are classified into front, side, and linear. In the case of XZ division, the 4-bit plane division order indicates the division order from the front to the rear in the speaker arrangement or the reverse order, and in the case of YZ division, the left side is the left side. The division order to the right or the reverse order is indicated by a predetermined 4-bit value.
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第2の例について説明する。 Next, a second example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention will be described.
図9は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第2の例のフォーマットを示す。図9に示す第2の例のフォーマットは、図5に示した高さ方向の分割による3次元空間用符号化ストリームに、図9(B)にPCE3で示すように5.1ch互換用PCEを追加したものである。このPCE3は、3次元空間に配置された22.2chよりも少ないチャンネル数からなる既存のサラウンドシステムで用いられる音声と同じ音源位置にある情報だけを復号化できるようにするための平面位置情報であり、ストリーム統合部15が平面位置情報に基づいて生成し、符号化ストリームに付加する。
FIG. 9 shows the format of the second example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding apparatus according to the present invention. The format of the second example shown in FIG. 9 is obtained by adding 5.1ch compatible PCE as shown by PCE3 in FIG. 9B to the encoded stream for three-dimensional space by dividing in the height direction shown in FIG. It is added. This PCE3 is plane position information for decoding only the information at the same sound source position as the voice used in the existing surround system having the number of channels smaller than 22.2ch arranged in the three-dimensional space. Yes, the
図9(D)に示す中層の符号化要素(エレメント)のうち、5.1chのセンターチャネルをMFCの要素SCE3で代用し、5.1chのフロントレフト、ライトチャンネルのMFL及びMFRの要素CPE4で代用する。そして、5.1chのバックレフト、ライトをMBL及びMBRの要素CPE6で代用する。また、図9(E)に示す下層+LFEの符号化要素(エレメント)のうち、5.1chのLFEを要素LFE0で代用する。なお、5.1chのサラウンドシステムを例としたが、以上の様に、3次元空間に配置された22.2chの内、一部のチャンネルのみを復号化するための情報を付加することで、5.1chだけでなく7.1chや9.1chなどの既存のサラウンドシステムにも同様にして対応することができる。 Among the coding elements (elements) in the middle layer shown in FIG. 9 (D), the 5.1ch center channel is substituted with the MFC element SCE3, the 5.1ch front left, the right channel MFL and the MFR element CPE4. to substitute. Then, the 5.1ch backleft and right are substituted by the MBL and MBR element CPE6. Further, among the lower layer + LFE encoding elements (elements) shown in FIG. 9E, the 5.1ch LFE is substituted with the element LFE0. In addition, although the 5.1ch surround system was taken as an example, as described above, by adding information for decoding only some of the 22.2ch arranged in the three-dimensional space, In addition to 5.1ch, existing surround systems such as 7.1ch and 9.1ch can be similarly handled.
このようにして、第2の例のフォーマットのMPEG準拠の符号化ストリームを復号化した際、5.1chサラウンドシステムでの再生を可能とするため、復号化した22.2ch信号をダウンミックスして5.1ch信号を生成するのではなく、復号化の時点で5.1chに対応したストリーム部分(斜線部)だけを復号化して、5.1ch信号を生成することが可能となる。 In this way, when the MPEG-compliant encoded stream in the format of the second example is decoded, the decoded 22.2ch signal is downmixed to enable playback in the 5.1ch surround system. Instead of generating a 5.1ch signal, it is possible to generate a 5.1ch signal by decoding only the stream portion (hatched portion) corresponding to 5.1ch at the time of decoding.
また、この第2の例のフォーマットのMPEG準拠の符号化ストリームでは、中層と下層+LFEに復号すべきエレメントが及んでいるので、デコード処理の最適化を図ることからも、中層においてLFEも処理するように中層のチャンネル数を10.1chとして符号化ストリームを構成しておくことも可能である。また、5.1ch出力に関係するエレメントだけを1プログラムとして定義した符号化ストリーム構成としてもよい。 In addition, in the MPEG-compliant encoded stream of the format of the second example, the elements to be decoded reach the middle layer and the lower layer + LFE, so that the LFE is also processed in the middle layer in order to optimize the decoding process. As described above, the encoded stream can be configured with the number of channels in the middle layer set to 10.1 ch. Moreover, it is good also as an encoding stream structure which defined only the element relevant to 5.1ch output as one program.
図10は、図9(B)にPCE3として示した5.1ch互換用PCEにおける設定例を示す。この5.1ch互換用PCEは、従来知られている5.1ch用PCEと比較して対応するエレメントのタグ番号だけが異なる。 FIG. 10 shows a setting example in the 5.1ch compatible PCE shown as PCE3 in FIG. The 5.1ch compatible PCE differs from the conventionally known 5.1ch PCE only in the tag number of the corresponding element.
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例について説明する。 Next, a third example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention will be described.
図11は、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例のフォーマットを示す。図11に示す第3の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号をAAC+SBR符号化方式により符号化して構築した符号化ストリームのフォーマットである。 FIG. 11 shows the format of the third example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention. The format of the third example shown in FIG. 11 is obtained by encoding the 22.2 channel audio signal reproduced by the audio signal encoding apparatus according to the present invention with the 22.2 channel speaker arrangement shown in FIG. 2 using the AAC + SBR encoding method. This is a format of an encoded stream constructed by converting into a format.
SBR(Spectral Band Replication)は、AACのオプションツールとしてMPEGにて2003年に追加された技術である。AAC+SBR符号化方式は、通常のAAC符号化では高音質の実現が困難な低ビットレートにおいて、1/2サンプリング周波数を用いてAAC規格で符号化し、それにより破棄される高域成分については、低域成分から予測復元される高域成分の推定値と原信号の高域成分との差を基に補完情報を生成し、AAC符号化ストリーム中のFILに多重するものである。 SBR (Spectral Band Replication) is a technology added in 2003 as an AAC option tool in MPEG. The AAC + SBR encoding method uses the AAC standard with a 1/2 sampling frequency at a low bit rate, where high sound quality is difficult to achieve with normal AAC encoding. Complement information is generated based on the difference between the estimated value of the high frequency component that is predicted and restored from the frequency component and the high frequency component of the original signal, and is multiplexed on the FIL in the AAC encoded stream.
図11に示すフォーマットでは、図5に示した第1の例のフォーマットと同様に、22.2chを有する1番組は、高さ方向に分割された3プログラムから構成されるものとして分割を行い、図11(B)に示すようにストリームに最初に現れるPCE0を上層用、2番目に現れるPCE1を中層用、最後に現れるPCE2を低層+LFE用と定義する。そして、このフォーマットでは、図11(C)〜(E)に示すように「raw_data_block」中に上層、中層、下層部+LFEに含まれるメインオーディオ用のエレメントSCE、CPEを持ち、各エレメントSCE、CPEの後ろにSBR情報を含むFIL SBRを連続させている。 In the format shown in FIG. 11, similarly to the format of the first example shown in FIG. 5, one program having 22.2 ch is divided as being composed of three programs divided in the height direction, As shown in FIG. 11B, PCE0 that appears first in the stream is defined as the upper layer, PCE1 that appears second is defined as the middle layer, and PCE2 that appears last is defined as the low layer + LFE. In this format, as shown in FIGS. 11C to 11E, “raw_data_block” includes main audio elements SCE and CPE included in the upper layer, the middle layer, and the lower layer part + LFE, and each element SCE and CPE The FIL SBR including the SBR information is continued behind.
上記のAAC+SBR符号化は、図1に示した平面符号化部12〜14により行う。このようにして、図11に示すMPEG規格に準拠した3次元空間用AAC+SBR符号化ストリームを構築することができる。 The AAC + SBR encoding is performed by the plane encoding units 12 to 14 illustrated in FIG. In this way, it is possible to construct a three-dimensional space AAC + SBR encoded stream compliant with the MPEG standard shown in FIG.
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第4の例について説明する。 Next, a fourth example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention will be described.
図12は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第4の例のフォーマットを示す。図12に示す第4の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、既存の5.1chのサラウンドオーディオ信号との互換再生が可能なように符号化して構築した符号化ストリームのフォーマットである。 FIG. 12 shows the format of the fourth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding apparatus according to the present invention. The format of the fourth example shown in FIG. 12 includes the 22.2 ch audio signal reproduced by the audio signal encoding apparatus according to the present invention and the 22.2 ch speaker arrangement shown in FIG. 2, and the existing 5.1 ch. This is a format of an encoded stream constructed by encoding so as to be compatible with the surround audio signal.
この図12に示すフォーマットは、図9に示したフォーマットと同様に、図5に示した高さ方向の分割による3次元空間用符号化ストリームに、図12(B)に示すように5.1ch互換用PCE3を追加した点で図9に示したフォーマットと類似している。しかし、この図12に示すフォーマットは、図12(D)に示すように、中層の符号化要素(エレメント)として、5.1chのフロントチャネルのMFCの要素SCE3、ミドルチャネルのMFL及びMFRの要素CPE4、及びバックチャネルのMBL及びMBRの要素CPE6だけでなく、5.1chのLFEの要素LFE0も含む点で図9に示したフォーマットと異なる。 The format shown in FIG. 12 is similar to the format shown in FIG. 9 in the encoded stream for three-dimensional space by the height direction division shown in FIG. 5, and 5.1ch as shown in FIG. It is similar to the format shown in FIG. 9 in that a compatible PCE3 is added. However, as shown in FIG. 12D, the format shown in FIG. 12 includes 5.1ch front channel MFC element SCE3, middle channel MFL and MFR elements as a middle layer encoding element (element). 9 is different from the format shown in FIG. 9 in that it includes not only CPE4 and backchannel MBL and MBR element CPE6 but also 5.1ch LFE element LFE0.
図9に示したフォーマットの場合は、CPE6をデコードした後、SCE5及びCPE7を読み捨ててLFE0のデコードを行う必要があったのに対し、この図12に示すフォーマットでは、CPE6をデコードした後、直ちにLFE0のデコードを行うことができる。 In the case of the format shown in FIG. 9, after decoding CPE6, SCE5 and CPE7 had to be read and discarded to decode LFE0, whereas in the format shown in FIG. 12, immediately after decoding CPE6, LFE0 can be decoded.
次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第5の例について説明する。 Next, a fifth example of the MPEG-compliant encoded stream generated by the audio signal encoding device according to the present invention will be described.
図13は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第5の例のフォーマットを示す。図13に示す第5の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、既存の5.1chのサラウンドオーディオ信号との互換再生が可能なように符号化して構築した符号化ストリームのフォーマットである点は、図9及び図12に示したフォーマットと同様であるが、このフォーマットは5.1chに関係するエレメントだけを1プログラムとして定義したものである。 FIG. 13 shows the format of a fifth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. The format of the fifth example shown in FIG. 13 includes the 22.2 ch audio signal reproduced by the audio signal encoding apparatus according to the present invention and the 22.2 ch speaker arrangement shown in FIG. 2, and the existing 5.1 ch. The format of the encoded stream constructed by encoding so as to be compatible with the surround audio signal is the same as the format shown in FIGS. 9 and 12, but this format is 5.1 ch. Only relevant elements are defined as one program.
すなわち、図13(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を5.1ch用とし、2番目に現れるエレメントPCE1を高さ方向に分割したときの上層用、3番目に現れるエレメントPCE2を高さ方向に分割したときの中層用、4番目に現れるエレメントPCE3を高さ方向に分割したときの下層+LFE用と定義する。上記のPCE0は、図9(B)に示したPCE3と同様、5.1ch、7.1ch、9.1chなどの既存のサラウンド音声と同じ音源位置にある情報だけを復号化できるようにするための平面位置情報である。ストリーム統合部15が平面位置情報に基づいて上記のPCEを生成し、符号化ストリームに統合する。
That is, as shown in FIG. 13B, in the encoded stream format of this example, the element PCE0 that appears first in the encoded stream is for 5.1ch, and the element PCE1 that appears second is divided in the height direction. For the upper layer, when the element PCE2 that appears third is divided in the height direction, for the middle layer when the element PCE2 appears fourth, and for the lower layer + LFE when the element PCE3 that appears fourth is divided in the height direction. The above PCE0 is similar to the PCE3 shown in FIG. 9B, so that only information in the same sound source position as the existing surround sound such as 5.1ch, 7.1ch, 9.1ch, etc. can be decoded. Is the plane position information. The
更に、図13(B)に示すように、このフォーマットでは、エレメントPCE3に続いて、5.1chの情報「5.1ch compatible_layer」を配置し、続いて上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」を順番に配置した点に特徴がある。5.1chの情報「5.1ch compatible_layer」は、図13(C)に示される。ストリーム統合部が、各符号化要素を基に「5.1ch compatible_layer」を符号化ストリームに付加する。 Furthermore, as shown in FIG. 13B, in this format, 5.1ch information “5.1ch compatible_layer” is arranged after element PCE3, followed by upper layer information “upper_layer” and middle layer information “middle_layer”. ”And information“ lower + LFE_layer ”of the lower layer + LFE are arranged in order. The 5.1ch information “5.1ch compatible_layer” is illustrated in FIG. The stream integration unit adds “5.1ch compatible_layer” to the encoded stream based on each encoded element.
このフォーマットの符号化ストリームを復号化する際に、5.1ch再生を選択した場合は、図13(B)に示すPCE0のデコードに続いて、5.1chの情報「5.1ch compatible_layer」だけをデコードし、続く2次元平面の上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」は読み飛ばすことで、図9や図12に示したフォーマットの符号化ストリームをデコードする場合に比べて、再生処理が高速化できる。 If 5.1ch playback is selected when decoding an encoded stream of this format, only 5.1ch information “5.1ch compatible_layer” is decoded following the decoding of PCE0 shown in FIG. Then, the upper layer information “upper_layer”, the middle layer information “middle_layer”, and the lower layer + LFE information “lower + LFE_layer” are skipped and the encoded stream of the format shown in FIG. 9 or FIG. The playback process can be speeded up as compared with the case of decoding.
図14は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第6の例のフォーマットを示す。図14に示す第6の例のフォーマットは、図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、22.2chのオーディオ信号を5.1chにダウンミックスした信号を同時に本発明になるオーディオ信号符号化装置に入力し、それぞれを符号化して、一本の符号化ストリームにしたものである。 FIG. 14 shows the format of a sixth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. The format of the sixth example shown in FIG. 14 is a signal obtained by downmixing a 22.2 channel audio signal reproduced with the 22.2 channel speaker arrangement shown in FIG. 2 and a 22.2 channel audio signal to 5.1 channel. Are simultaneously input to the audio signal encoding apparatus according to the present invention, and each is encoded into one encoded stream.
この第6の例のフォーマットの符号化ストリームを生成する本発明になるオーディオ信号符号化装置は、図1に示した平面符号化部12〜14に、更に一つの平面符号化部を追加した構成である。これにより、22.2chのオーディオ信号については、図1に示した平面符号化部12〜14が、MPEG−2/4 AAC符号化方式の符号化ストリームの第1の例を生成する場合と同様に、図3(A)〜(C)に示すような3つの2次元平面に分割して符号化する。一方、5.1chダウンミックス信号については、新たに追加された一つの平面符号化部が新たな1プログラムとして符号化し、符号化要素を生成する。そして、図1のストリーム統合部15において、22.2chのオーディオ信号と、5.1chダウンミックス信号に関する、全ての符号化要素と全ての平面位置情報とを統合して、MPEG準拠の符号化ストリームを構築する。
The audio signal encoding apparatus according to the present invention for generating the encoded stream of the format of the sixth example has a configuration in which one plane encoding unit is further added to the plane encoding units 12 to 14 shown in FIG. It is. As a result, the 22.2ch audio signal is the same as when the plane encoding units 12 to 14 shown in FIG. 1 generate the first example of the encoded stream of the MPEG-2 / 4 AAC encoding method. Then, the data is divided into three two-dimensional planes as shown in FIGS. On the other hand, for the 5.1ch downmix signal, one newly added plane encoding unit encodes it as a new program, and generates an encoding element. 1 integrates all the encoding elements and all the plane position information regarding the 22.2ch audio signal and the 5.1ch downmix signal in the
また、図14(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を5.1chダウンミックス信号用とし、2番目に現れるエレメントPCE1を高さ方向に分割したときの上層用、3番目に現れるエレメントPCE2を高さ方向に分割したときの中層用、4番目に現れるエレメントPCE3を高さ方向に分割したときの下層+LFE用と定義している。 Also, as shown in FIG. 14B, the encoded stream format in this example is such that the element PCE0 that appears first in the encoded stream is used for the 5.1ch downmix signal, and the element PCE1 that appears second is the height. It is defined as the upper layer when divided in the direction, the middle layer when the element PCE2 that appears third is divided in the height direction, and the lower layer + LFE when the element PCE3 that appears fourth is divided in the height direction .
更に、図14(B)に示すように、このフォーマットでは、エレメントPCE3に続いて、5.1chダウンミックス信号の情報「5.1ch downmix_layer」を配置し、続いて上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」を順番に配置した点に特徴がある。5.1chダウンミックス信号の情報「5.1ch downmix_layer」は、図14(C)に示される。 Furthermore, as shown in FIG. 14 (B), in this format, 5.1ch downmix signal information “5.1ch downmix_layer” is arranged subsequent to element PCE3, followed by upper layer information “upper_layer”, middle layer information Information “middle_layer” and lower layer + LFE information “lower + LFE_layer” are arranged in order. The information “5.1ch downmix_layer” of the 5.1ch downmix signal is shown in FIG.
このフォーマットの符号化ストリームを復号化する際に、5.1ch再生を選択した場合は、図14(B)に示すPCE0のデコードに続いて、5.1chダウンミックス信号の情報「5.1ch downmix_layer」だけをデコードし、続く2次元平面の上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」は読み飛ばすことで、図9や図12に示したフォーマットの符号化ストリームをデコードする場合に比べて、再生処理が高速化できる。また、予め22.2ch信号とは別に、5.1ch信号を生成しているため、この例のフォーマットの符号化ストリームを復号化した場合は、ダウンミックス係数によりデジタルデータ的に加算する場合に比べて、コンテンツの音質及び、音楽表現は向上する。 If 5.1ch playback is selected when decoding an encoded stream of this format, 5.1ch downmix signal information “5.1ch downmix_layer” follows PCE0 decoding shown in FIG. 14B. Only the upper layer information “upper_layer”, the middle layer information “middle_layer”, and the lower layer + LFE information “lower + LFE_layer” are skipped, and the format shown in FIG. 9 and FIG. The playback process can be speeded up as compared to the case of decoding the encoded stream. In addition, since the 5.1ch signal is generated separately from the 22.2ch signal in advance, when the encoded stream of the format of this example is decoded, it is compared with the case of adding digital data with the downmix coefficient. Thus, the sound quality and music expression of the content are improved.
そして、図1に新たに追加された前記一つの平面符号化部において、「front single 識別」に割り振られたチャンネルは、SCEとして符号化され、「front pair識別」、及び「back pair識別」に割り振られたチャンネルは、それぞれCPEとして符号化され、「LFE single 識別」に割り振られたチャンネルは、LFEとして符号化される。 Then, in the one plane encoding unit newly added to FIG. 1, the channel allocated to “front single identification” is encoded as SCE, and is converted into “front pair identification” and “back pair identification”. The allocated channels are each encoded as CPE, and the channels allocated to “LFE single identification” are encoded as LFE.
図15は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第7の例のフォーマットを示す。図15に示す第7の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号を、5.1chダウンミックス信号に変換するための変換係数を伴ったフォーマットである。 FIG. 15 shows the format of a seventh example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. The format of the seventh example shown in FIG. 15 is a 5.1ch downmix of the 22.2ch audio signal reproduced by the audio signal encoding apparatus according to the present invention and the 22.2ch speaker arrangement shown in FIG. It is a format with a conversion coefficient for converting into a signal.
すなわち、図15(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を上層用、2番目に現れるエレメントPCE1を中層用、3番目に現れるエレメントPCE2を下層+LFE用と定義し、続いて、DSE(データストリームエレメント)として、DSE0を定義する。このDSE0には5.1chダウンミックス信号に変換するのに必要な各チャンネルに対する変換係数を記述する。 That is, as shown in FIG. 15B, the format of the encoded stream of this example is that the element PCE0 that appears first in the encoded stream is for the upper layer, the element PCE1 that appears second is for the middle layer, and the element that appears third PCE2 is defined for lower layer + LFE, and then DSE0 is defined as DSE (data stream element). In DSE0, conversion coefficients for each channel necessary for conversion into a 5.1ch downmix signal are described.
図16は、上記のDSE0の構成を、図6と同様に記述言語を用いて示した図である。図16において、各名称の後ろには、ビット数とその単位(uimsbfは符号無し整数値)を表している。先頭にある「element_instance_tag」はタグ番号であり、複数のDSEが存在した場合に、それらを区別することができる。「data_byte_align_flag」は、DSE内でバイトアラインが成されたかを示すフラグである。「count」にはデータ長が入る。「esc_count」はデータ長255以上を表現するためのものである。「data_stream_byte」にはデータ長分の実データが含められる。以上から、DSE0には実データに関するフォーマットの制約が無いため自由な記述が可能であり、この部分にダウンミックス用変換係数を記述することで、復号化の終わりにそれらの係数を用いてダウンミックスを実行することができる。 FIG. 16 is a diagram showing the configuration of the above DSE0 using a description language as in FIG. In FIG. 16, the number of bits and the unit (uimsbf is an unsigned integer value) are shown after each name. “Element_instance_tag” at the head is a tag number, and when there are a plurality of DSEs, they can be distinguished. “Data_byte_align_flag” is a flag indicating whether byte alignment has been performed in the DSE. “Count” contains the data length. “Esc_count” is for expressing a data length of 255 or more. “Data_stream_byte” includes actual data for the data length. From the above, DSE0 can be described freely because there are no restrictions on the format of the actual data. By describing the downmix transform coefficients in this part, downmix can be performed using these coefficients at the end of decoding. Can be executed.
次に、本発明になるオーディオ信号復号化装置について説明する。 Next, an audio signal decoding apparatus according to the present invention will be described.
図17は、本発明になるオーディオ信号復号化装置の第1の実施の形態のブロック図を示す。同図に示すように、本実施の形態のオーディオ信号復号化装置20は、ストリーム分離部21と、3つの平面復号化部22、23及び24と、3次元空間合成部25とから構成され、外部から図5、図9、図11、図12又は図13に示すフォーマットのMPEG準拠の符号化ストリームを入力信号として受け、その符号化ストリームを復号化して3次元チャンネル配置情報とNchオーディオ信号とを出力する。
FIG. 17 shows a block diagram of a first embodiment of an audio signal decoding apparatus according to the present invention. As shown in the figure, the audio signal decoding apparatus 20 according to the present embodiment includes a
ストリーム分離部21は、入力された上記のMPEG準拠の符号化ストリームから3つの2次元平面それぞれの符号化要素と平面位置情報とを分離して、5.1ch互換用以外の3つの平面位置情報(PCE)は3次元空間合成部25にそれぞれ供給し、3つの符号化要素は2次元平面毎に設けられた平面復号化部22、23及び24に別々に供給する。
The
平面復号化部22、23及び24は、図1に示した平面符号化部12、13、14から出力された符号化要素と同じ符号化要素をストリーム分離部21から供給され、入力された符号化要素を復号化して、その符号化要素が示す2次元平面の各スピーカ位置に対応したチャンネルのオーディオ信号を出力する。
The
例えば、図5に示したフォーマットのMPEG−2/4 AAC符号化方式の符号化ストリーム入力時は、平面復号化部22は図5(C)に示した上層の情報「upper_layer」の符号化要素を復号化し、図3(A)に示した上層の9chのオーディオ信号を対応するチャンネルに出力する。また、平面復号化部23は図5(D)に示した中層の情報「middle_layer」の符号化要素を復号化し、図3(B)に示した中層の10chのオーディオ信号を対応するチャンネルに出力する。更に、平面復号化部24は図5(E)に示した下層及びLFEの情報「lower+LFE_layer」の符号化要素を復号化し、図3(C)に示した下層及びLFEの3.2chのオーディオ信号を対応するチャンネルに出力する。
For example, when an encoded stream of the MPEG-2 / 4 AAC encoding method having the format shown in FIG. 5 is input, the
一方、3次元空間合成部25は、平面復号化部21から入力される平面位置情報(PCE)から平面分割の種類と個数、2次元平面におけるフロント、サイド、リアの各チャンネル配置を識別した後、これらのチャンネル配置と2次元平面内のチャンネルとの対応をとり、各チャンネルの位置情報をリスニングポイントである原点座標(0,0,0)からの距離で表現された3次元チャンネル配置情報(x,y,z)を出力する。
On the other hand, the three-dimensional
このようにして、平面復号化部22、23及び24から復号化された全部で22.2ch(=Nch)のオーディオ信号と、3次元空間合成部25から出力された3次元チャンネル配置情報とを出力することにより、各チャンネルの3次元空間内の位置を明確にすることができ、図示しない対応する各チャンネルのスピーカによって立体音場を再生させることができる。このように、本実施の形態によれば、MPEG−2/4 AAC規格に準拠した符号化ストリームを復号化して、22.2chの各チャンネルの音源位置を明確に指定した立体音場の再生ができる。
In this way, a total of 22.2 ch (= Nch) audio signals decoded from the
また、図14に示すフォーマットのMPEG準拠の符号化ストリームを復号化する本発明のオーディオ信号復号化装置は、図17に示した本発明のオーディオ信号復号化装置20内に、平面復号化部22〜24に並列に更に一つの平面復号化部を新たに追加すると共に、ストリーム分離部21により前記3つの2次元平面それぞれの符号化要素と平面位置情報とを分離すると共に、5.1chダウンミックス信号に関する符号化要素と平面位置情報も分離できるようにする。
Further, the audio signal decoding apparatus of the present invention for decoding the MPEG-compliant encoded stream of the format shown in FIG. 14 is included in the
これにより、22.2chのオーディオ信号に対応する3つの符号化要素は2次元平面毎に設けられた平面復号化部22、23及び24により復号化される。また、5.1chダウンミックス信号に関する符号化要素は、上記の新たに追加された平面復号化部により復号化されて、オーディオ信号として出力される。また、3次元空間合成部25は、22.2chのオーディオ信号に関する3つの平面位置情報と5.1chダウンミックス信号に関する平面位置情報から、3次元チャンネル配置情報(x,y,z)を出力する。
Thereby, the three encoding elements corresponding to the audio signal of 22.2ch are decoded by the
図18は、本発明になるオーディオ信号復号化装置の第2の実施の形態のブロック図を示す。同図中、図17と同一構成部分には同一符号を付し、その説明を省略する。同図に示すように、本実施の形態のオーディオ信号復号化装置30は、ストリーム分離部31と、3つの平面復号化部22、23及び24と、3次元空間合成部25と、ダウンミックス部32とから構成される。このオーディオ信号復号化装置30は、外部から図15に示すフォーマットのMPEG準拠の符号化ストリームを入力信号として受け、その符号化ストリームを復号化して3次元チャンネル配置情報とNchオーディオ信号を生成し、そして、外部より入力されたダウンミックス選択フラグに応じて、Nchオーディオ信号を出力するか、または、ダウンミックスされたオーディオ信号を出力する。
FIG. 18 is a block diagram showing a second embodiment of the audio signal decoding apparatus according to the present invention. In the figure, the same components as those in FIG. As shown in the figure, the audio signal decoding apparatus 30 according to the present embodiment includes a
図17に示したオーディオ信号復号化装置20との相違点は、オーディオ信号復号化装置30は、ストリーム分離部31において、3つの平面位置情報及び符号化要素と共に変換係数情報を分離する点と、外部よりダウンミックス選択フラグの入力を伴ったダウンミックス部32を有している点である。以下では、その相違点について詳細に説明する。
17 is different from the audio signal decoding device 20 shown in FIG. 17 in that the audio signal decoding device 30 separates transform coefficient information together with three plane position information and coding elements in the
例えば、図15に示したフォーマットのMPEG−2/4 AAC符号化方式の符号化ストリーム入力時は、オーディオ信号復号化装置30はストリーム分離部31において図15(B)に示したDSE0を分離し、5.1chダウンミックス信号に変換するのに必要な各チャンネルに対する変換係数情報を抽出し、ダウンミックス部32に渡す。
For example, when an encoded stream of the MPEG-2 / 4 AAC encoding method having the format shown in FIG. 15 is input, the audio signal decoding apparatus 30 separates DSE0 shown in FIG. Conversion coefficient information for each channel necessary for conversion into a 5.1ch downmix signal is extracted and passed to the
ダウンミックス部32は、3次元空間合成部25からの3次元チャンネル配置情報と、平面復号化部22、23及び24からの全部でNchの復号オーディオ信号と、上記変換係数情報と、ダウンミックス選択フラグとを入力として受け、ダウンミックス選択フラグに応じて、Nchオーディオ信号、またはダウンミックスされたオーディオ信号を出力する。上記の3次元チャンネル配置情報と変換係数情報とが対になっているため、入力されたNchオーディオ信号に乗じる変換係数は、チャンネル番号により識別される。また、ダウンミックス選択フラグは、例えば、表7に示すような種類が存在する。
The
図19は、図18中のダウンミックス部32の一例のブロック図を示す。図19に示すように、ダウンミックス部32は、モード1ブロック321、モード2ブロック322、モード3ブロック323、モード4ブロック324及び出力セレクタ325から構成されている。モード番号は表7に示したダウンミックス選択フラグ番号に対応している。入力されたダウンミックス選択フラグに応じて、モード1ブロック321〜モード4ブロック324のうち、各番号に対応したモードブロックが有効になり、入力されたオーディオ信号、3次元チャンネル配置情報、及び変換係数情報を用いてダウンミックス処理がなされて、出力セレクタ325からオーディオ信号が出力される。以下、各モードついて詳細に説明する。
FIG. 19 shows a block diagram of an example of the
まず、ダウンミックス部32に、ダウンミックス選択フラグ番号「0」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、ダウンミックスを行わず、入力されたNchオーディオ信号を出力セレクタ325で選択してそのまま出力する。この場合、モード1ブロック321〜モード4ブロック324は使用しない。
First, the configuration and operation when the downmix selection flag number “0” is input to the
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「1」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、モード1ブロック321を有効とすると共に、出力セレクタ325をモード1ブロック321から出力されるオーディオ信号を選択する。
Next, the configuration and operation when the downmix selection flag number “1” is input to the
図20は、モード1ブロック321の一例の全体ブロック図を示す。同図に示すように、モード1ブロック321は、上層チャンネルダウンミックス部101、中層チャンネルダウンミックス部102、下層チャンネルダウンミックス部103及び5.1ch合成部104から構成されている。モード1ブロック321は、入力された3次元チャンネル配置情報に基づいて、各ダウンミックス部101〜103で入力されたNchオーディオ信号の必要なチャンネルのオーディオ信号を選択してダウンミックス処理を行う。
FIG. 20 shows an overall block diagram of an example of the
上層チャンネルダウンミックス部101は、Nchオーディオ信号のうち上層部に存在するチャンネルのオーディオ信号について、変換係数情報を用いて5.1chのダウンミックス信号に変換し、そのダウンミックス信号を5.1ch合成部104へ出力する。同様に、中層チャンネルダウンミックス部102、下層チャンネルダウンミックス部103は、変換係数情報を用いて中層部、下層部に存在するチャンネルのオーディオ信号をそれぞれ5.1chのダウンミックス信号に変換し、そのダウンミックス信号を5.1ch合成部104へ出力する。
The upper layer
5.1ch合成部104は、各ダウンミックス部101〜103から入力された5.1chダウンミックス信号について、対応するチャンネル毎に加算することで、1枚の2次元平面に存在する最終的な5.1chのオーディオ信号を生成して出力する。
The 5.1
ダウンミックス方法について説明する。例えば、前述したMPEG−2 AAC規格は、下記の式(1a)、(1b)を用いて1枚の2次元平面でのダウンミックスを実行し、左右の2ch(L'、R')に変換する。 The downmix method will be described. For example, the MPEG-2 AAC standard described above performs downmix on one two-dimensional plane using the following formulas (1a) and (1b), and converts them to left and right 2ch (L ', R') To do.
ここで、係数Aは可変の値で、1/√2、1/2、1/(2√2)、0という値をとれる。このため、例えば、A=1/√2を用いるとすると、式(1a)、(1b)は下記の式(2a)、(2b)で表現することができる。 Here, the coefficient A is a variable value and can take values of 1 / √2, 1/2, 1 / (2√2), and 0. Therefore, for example, if A = 1 / √2 is used, the expressions (1a) and (1b) can be expressed by the following expressions (2a) and (2b).
L’=C1×[L+C2×(C+LS)] (2a)
R’=C1×[R+C2×(C+RS)] (2b)
ただし、式(2a)、(2b)中、C1、C2は係数である。
L ′ = C1 × [L + C2 × (C + L S )] (2a)
R ′ = C1 × [R + C2 × (C + R S )] (2b)
However, in formulas (2a) and (2b), C1 and C2 are coefficients.
MPEG−2 AAC規格に示したダウンミックス手法は、再生出力を行うチャンネルである(L,R)の側面にあるチャンネル(LならばCとLs、RならばCとRs)に係数を乗じて加算しているので、これを中層部に応用して、中層ダウンミックスLをM_L、中層ダウンミックスRをM_R、中層ダウンミックスCをM_C、中層ダウンミックスBLをM_BL、中層ダウンミックスBRをM_BRとし、中層ダウンミックスLFEをM_LFEとすると、係数C1、C2と中層の10チャンネル(MFL,MFLC,MFC,MFRC,MFR,MSL,MSR,MBL,MBC,MBR)とを用いて以下のような式となる。ここでは、係数C1、C2の値として、例えば、C1=(2/3)、C2=(1/√2)としている。
The downmix method shown in the MPEG-2 AAC standard multiplies a channel on the side of (L, R) which is a channel for reproduction output (C and Ls if L, C and Rs if R) by a coefficient. Since it is added, this is applied to the middle layer, and the middle layer downmix L is M_L, the middle layer downmix R is M_R, the middle layer downmix C is M_C, the middle layer downmix BL is M_BL, and the middle layer downmix BR is M_BR. When the middle layer downmix LFE is M_LFE, using the coefficients C1 and C2 and the
M_L=C1×[MFL+C2×(MFLC+MSL)] (3a)
M_R=C1×[MFR+C2×(MFRC+MSR)] (3b)
M_C=C1×[MFC+C2×(MFLC+MFRC)] (3c)
M_BL=C1×[MBL+C2×(MSL+MBC)] (3d)
M_BR=C1×[MBR+C2×(MSR+MBC)] (3e)
M_LFE=0 (3f)
上層部についても、これを応用して、上層ダウンミックスLをU_L、上層ダウンミックスRをU_R、上層ダウンミックスCをU_C、上層ダウンミックスBLをU_BL、上層ダウンミックスBRをU_BRとし、上層ダウンミックスLFEをU_LFEとすると、これらは、係数C1、C2、C3と、上層の9チャンネル(UFL,UFC,UFR,USL,USC,USR,UBL,
UBC,UBR)とを用いて以下のような式となる。ここでは、係数C1、C2、C3の値として、例えば、C1=(2/3)、C2=C3=(1/√2)としている。
M_L = C1 × [MFL + C2 × (MFLC + MSL)] (3a)
M_R = C1 × [MFR + C2 × (MFRC + MSR)] (3b)
M_C = C1 × [MFC + C2 × (MFLC + MFRC)] (3c)
M_BL = C1 × [MBL + C2 × (MSL + MBC)] (3d)
M_BR = C1 × [MBR + C2 × (MSR + MBC)] (3e)
M_LFE = 0 (3f)
By applying this to the upper layer, the upper layer downmix L is U_L, the upper layer downmix R is U_R, the upper layer downmix C is U_C, the upper layer downmix BL is U_BL, the upper layer downmix BR is U_BR, and the upper layer downmix is U_BR. If LFE is U_LFE, these are the coefficients C1, C2, C3 and the upper 9 channels (UFL, UFC, UFR, USL, USC, USR, UBL,
UBC, UBR) and the following formula. Here, as the values of the coefficients C1, C2, and C3, for example, C1 = (2/3) and C2 = C3 = (1 / √2).
U_L=C1×[C3×(UFL+C2×USL)] (4a)
U_R=C1×[C3×(UFR+C2×USR)] (4b)
U_C=C1×[C3×(UFC+C2×USC)] (4c)
U_BL=C1×[C3×{UBL+C2×(USL+UBC)+USC}] (4d)
U_BR=C1×[C3×{UBR+C2×(USR+UBC)+USC}] (4e)
U_LFE=0 (4f)
下層部については、ダウンミックスすべき信号は、LFEチャンネルだけである。下層ダウンミックスLをL_L、下層ダウンミックスRをL_R、下層ダウンミックスCをL_C、下層ダウンミックスBLをL_BL、下層ダウンミックスBRをL_BRとし、下層ダウンミックスLFEをL_LFEとすると、係数C1、C2と下層の3チャンネル(LFL,LFC,LFR)とLFEの2チャンネル(LFEL,LFER)とを用いて以下のような式となる。ここでは、係数C1、C2の値として、例えば、C1=(2/3)、C2=(1/√2)としている。
U_L = C1 × [C3 × (UFL + C2 × USL)] (4a)
U_R = C1 × [C3 × (UFR + C2 × USR)] (4b)
U_C = C1 × [C3 × (UFC + C2 × USC)] (4c)
U_BL = C1 × [C3 × {UBL + C2 × (USL + UBC) + USC}] (4d)
U_BR = C1 × [C3 × {UBR + C2 × (USR + UBC) + USC}] (4e)
U_LFE = 0 (4f)
For the lower layer, the only signal to be downmixed is the LFE channel. If the lower layer downmix L is L_L, the lower layer downmix R is L_R, the lower layer downmix C is L_C, the lower layer downmix BL is L_BL, the lower layer downmix BR is L_BR, and the lower layer downmix LFE is L_LFE, the coefficients C1, C2 and Using the lower three channels (LFL, LFC, LFR) and the two LFE channels (LFEL, LFER), the following equation is obtained. Here, as the values of the coefficients C1 and C2, for example, C1 = (2/3) and C2 = (1 / √2).
L_L=C1×LFL (5a)
L_R=C1×LFR (5b)
L_C=C1×LFC (5c)
L_BL=0 (5d)
L_BR=0 (5e)
L_LFE=C2×(LFEL+LFER) (5f)
以上より、最終の5.1chダウンミックス信号を、L'、R'、C'、BL'、BR'、LFE’とすると、これらは以下の式で表される。
L_L = C1 × LFL (5a)
L_R = C1 × LFR (5b)
L_C = C1 × LFC (5c)
L_BL = 0 (5d)
L_BR = 0 (5e)
L_LFE = C2 × (LFEL + LFER) (5f)
From the above, assuming that the final 5.1ch downmix signal is L ′, R ′, C ′, BL ′, BR ′, LFE ′, these are expressed by the following equations.
L’=(U_L)+(M_L)+(L_L) (6a)
R’=(U_R)+(M_R)+(L_R) (6b)
C’=(U_C)+(M_C)+(L_C) (6c)
BL’=(U_BL)+(M_BL)+(L_BL) (6d)
BR’=(U_BR)+(M_BR)+(L_BR) (6e)
LFE’=(U_LFE)+(M_LFE)+(L_LFE) (6f)
前述の例で示したC1=(2/3)、C2=C3=(1/√2)の場合、C1=(−3.5)dB、C2=C3=(−3.0)dBであるので、この値と加算時の増加量(+6dB)とを考慮して信号の増加レベルを計算すると、ダウンミックス後の信号(L'、R'、C'、BL'、BR')は、−1.44dB、LFE’は0dBとなり、ほぼ元の信号レベルに近い値を持つダウンミックス信号を生成することができる。
L ′ = (U_L) + (M_L) + (L_L) (6a)
R ′ = (U_R) + (M_R) + (L_R) (6b)
C ′ = (U_C) + (M_C) + (L_C) (6c)
BL ′ = (U_BL) + (M_BL) + (L_BL) (6d)
BR ′ = (U_BR) + (M_BR) + (L_BR) (6e)
LFE ′ = (U_LFE) + (M_LFE) + (L_LFE) (6f)
When C1 = (2/3) and C2 = C3 = (1 / √2) shown in the above example, C1 = (− 3.5) dB and C2 = C3 = (− 3.0) dB. Therefore, if the increase level of the signal is calculated in consideration of this value and the increase amount at the time of addition (+6 dB), the signals (L ′, R ′, C ′, BL ′, BR ′) after the downmix are − 1.44 dB and LFE ′ are 0 dB, and a downmix signal having a value almost close to the original signal level can be generated.
以上の変換係数についてDSEを用いて符号化ストリームで伝送する際に、ダウンミックス信号の計算の仕方を、オーディオ信号符号化装置とオーディオ信号復号化装置で、上式のように取り決めるのであれば、係数C1、C2、C3だけを伝送するようにすればよい。もし、計算の仕方に自由度を持たせるのであれば、チャンネル毎に乗じる係数に分解して、それぞれを伝送するようにする。式(3a)〜式(6f)を分解してチャンネルに対応させた表を表8に示す。 When transmitting the coded coefficients using the DSE for the above transform coefficients, if the way of calculating the downmix signal is determined by the audio signal encoding device and the audio signal decoding device as in the above equation, Only the coefficients C1, C2, and C3 need to be transmitted. If there is a degree of freedom in the calculation method, it is divided into coefficients to be multiplied for each channel and each is transmitted. Table 8 shows a table in which the equations (3a) to (6f) are decomposed to correspond to the channels.
図21は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第8の例のフォーマットを示す。このフォーマットは、図21(B)に示すように、符号化ストリームに最初に現れるエレメントPCE0を上層用、2番目に現れるエレメントPCE1を中層用、3番目に現れるエレメントPCE2を下層+LFE用と定義し、続いて、DSEを同様な順番で、DSE0を上層用、DSE1を中層用、DSE2を下層+LFE用と定義している。そして、各DSEでは、各2次元平面に含まれるチャンネルの変換係数だけを送る。この変換係数とチャンネルと平面番号と対応要素との関係は、例えば、表9A、表9B、表9Cに示すようになる。 FIG. 21 shows the format of an eighth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. As shown in FIG. 21B, this format defines the element PCE0 that appears first in the encoded stream as the upper layer, the element PCE1 that appears second as the middle layer, and the element PCE2 that appears third as the lower layer + LFE. Subsequently, DSE is defined in the same order as DSE0 for the upper layer, DSE1 for the middle layer, and DSE2 for the lower layer + LFE. In each DSE, only the conversion coefficients of the channels included in each two-dimensional plane are sent. The relationship among the conversion coefficient, channel, plane number, and corresponding element is as shown in Tables 9A, 9B, and 9C, for example.
同様に、図23は、モード1ブロック321内の表9Bに対応した中層チャンネルに対するダウンミックス処理を行う図20の中層チャンネルダウンミックス部102の一例の構成図を示す。図23に示すように、中層チャンネルダウンミックス部102は、中層の10チャンネルのそれぞれと変換係数情報とを乗算する10個の乗算器1021と、所定の乗算器出力を加算する加算器1022〜1026とより構成される。これにより、中層チャンネルダウンミックス部102は、式(3a)〜式(3f)に示した中層の5.1chダウンミックス出力(M_L,M_R,M_C,M_BL,M_BR,M_LFE)を生成して出力する。
Similarly, FIG. 23 shows a configuration diagram of an example of the middle-layer
同様に、図24は、モード1ブロック321内の表9Cに対応した下層チャンネルに対するダウンミックス処理を行う図20の下層チャンネルダウンミックス部103の一例の構成図を示す。図24に示すように、下層チャンネルダウンミックス部103は、下層の5チャンネルのそれぞれと変換係数情報とを乗算する5個の乗算器1031と、所定の乗算器出力を加算する加算器1032とより構成される。これにより、下層チャンネルダウンミックス部103は、式(5a)〜式(5f)に示した下層の5.1chダウンミックス出力(L_L,L_R,L_C,L_BL,L_BR,L_LFE)を生成して出力する。
Similarly, FIG. 24 shows a configuration diagram of an example of the lower layer
図25は、図20のモード1ブロック321内の5.1ch合成部104の一例のブロック図を示す。図25に示すように、5.1ch合成部104は、上層、中層及び下層の各チャンネルのうち、5.1chの対応するチャンネルの信号同士を加算する6個の加算器1041〜1046により、式(6a)〜式(6f)に示した加算結果をそれぞれ得て、前述の最終の5.1chダウンミックス信号L'、R'、C'、BL'、BR'、LFE’を出力する。
FIG. 25 shows a block diagram of an example of the 5.1
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「2」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、図19のモード2ブロック322を有効とすると共に、出力セレクタ325をモード2ブロック322から出力されるオーディオ信号を選択する。
Next, the configuration and operation when the downmix selection flag number “2” is input to the
図26は、モード2ブロック322の一例の全体ブロック図を示す。同図に示すように、モード2ブロック322は、上層チャンネルダウンミックス部201、中層チャンネルダウンミックス部202、下層チャンネルダウンミックス部203、5.1ch合成部204及び2ch合成部205から構成されている。モード2ブロック322は、入力された3次元チャンネル配置情報に基づいて、各ダウンミックス部201〜203で入力されたNchオーディオ信号の必要なチャンネルを選択させてダウンミックス処理させた後、5.1ch合成部204で5.1chのダウンミックス信号を生成した後、2ch合成部205により5.1chダウンミックス信号から2chのオーディオ信号に変換して出力する。
FIG. 26 shows an overall block diagram of an example of the
モード2ブロック322は、図20に示したモード1ブロック321と同様の構成に、2ch合成部205を追加した構成であるので、次に2ch合成部205について説明する。
The
図27は、図26中の2ch合成部205の一例のブロック図を示す。図27に示すように、2ch合成部205は、5.1chダウンミックス信号L'、R'、C'、BL'、BR'、LFE’と変換係数情報とをそれぞれ乗算する乗算器2051〜2055と、乗算器2051、2053、2054の各出力信号を加算合成する加算器2056と、乗算器2052、2053、2055の各出力信号を加算合成する加算器2057とより構成されている。加算器2056は、ダウンミックスした左チャンネル信号L”を出力する。また、加算器2057は、ダウンミックスした右チャンネル信号R”を出力する。
FIG. 27 shows a block diagram of an example of the
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「3」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は図19のモード3ブロック323を有効とすると共に、出力セレクタ325をモード3ブロック323から出力されるオーディオ信号を選択する。
Next, the configuration and operation when the downmix selection flag number “3” is input to the
ダウンミックス選択フラグ番号「3」の場合、モード3ブロック323によるダウンミックスにより、1枚の2次元平面上の2chバイノーラル(binaural)信号を生成する。バイノーラル信号を生成するためには、Nchオーディオ信号の位置を示す3次元チャンネル配置情報で示されるオーディオ信号の音源位置(X,Y,Z)から、聴取者位置(0,0,0)に着席する聴取者の右耳までの頭部伝達関数(HRTF_R)と当該聴取者の左耳までの頭部伝達関数(HRTF_L)とを予め測定しておき、それらの頭部伝達関数に基づくフィルタ係数を用いて、各信号にフィルタ演算を行い、右耳用、左耳用にまとめることを行う。
When the downmix selection flag number is “3”, a 2ch binaural signal on one two-dimensional plane is generated by downmixing by the
図28は、モード3ブロック323の一例の全体ブロック図を示す。図28において、モード3ブロック323は、各チャンネルch0〜chN−1のオーディオ信号が入力される左耳用のN個のフィルタ32310〜3231N-1と、各チャンネルch0〜chN−1のオーディオ信号が入力される右耳用のN個のフィルタ32320〜3232N-1と、フィルタ32310〜3231N-1の各出力信号を加算する加算器3233と、フィルタ32320〜3232N-1の各出力信号を加算する加算器3234とより構成される。
FIG. 28 shows an overall block diagram of an example of the
モード3ブロック323の各フィルタ32310〜3231N-1と32320〜3232N-1とは、ダウンミックス選択フラグ番号「3」が選択された場合に、入力される変換係数情報に基づいたフィルタ係数に設定される。このフィルタ係数は、各チャンネルに対する対応要素(UFCなど)に対応した頭部伝達関数(HRTF: Head-Related Transfer Function)に基づくフィルタ係数である。固定位置に対する頭部伝達関数のデータベースで十分であれば、符号化ストリームとして伝送する必要はないが、自由度の高い3次元配置を必要とする場合には、その3次元配置からリスナーの右耳、左耳までの頭部伝達関数が必要となる。
If each filter 3231 0 ~3231 N-1
図28において、前述からの例でいえば、ch0はUFCであり、UFCの3次元配置(0, Y, Z)から発した音がリスナーの左耳に届く際の伝達特性(HRTF(0, L))をフィルタ32310により、またリスナーの右耳に届く際の伝達特性(HRTF(0, R))をフィルタ32320によりそれぞれch0の信号に畳み込み、出力する。同様に、ch1の信号に対して、UFLの伝達特性HRTF(1, L)をフィルタ32311により、また、伝達関数HRTF(1, R)をフィルタ32321により、それぞれ畳み込み、出力する。
In FIG. 28, in the example from the above, ch0 is UFC, and the transmission characteristics (HRTF (0, Y, Z) when sound emitted from the UFC three-dimensional arrangement (0, Y, Z) reaches the listener's left ear. L)) is convoluted with the filter 3231 0 and the transfer characteristic (HRTF (0, R)) when reaching the listener's right ear is convolved with the ch0 signal by the
そして、加算器3233は、全てのLchに対するフィルタ32310〜3231N-1の各出力信号を加算合成してLチャンネルのバイノーラル信号を出力する。また、これと並行して加算器3234は、全てのRchに対するフィルタ32320〜3232N-1の各出力信号を加算合成してRチャンネルのバイノーラル信号を出力する。このモードは、ヘッドホン試聴時に有効なモードとなる。
The adder 3233 adds and synthesizes the output signals of the filters 3231 0 to 3231 N−1 for all Lch, and outputs an L channel binaural signal. In parallel with this, the adder 3234 adds and synthesizes the output signals of the
次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「4」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、図19のモード4ブロック324を有効とすると共に、出力セレクタ325をモード4ブロック324から出力されるオーディオ信号を選択する。
Next, the configuration and operation when the downmix selection flag number “4” is input to the
図29は、モード4ブロック324の一例の全体ブロック図を示す。同図に示すように、モード4ブロック324は、上層チャンネルダウンミックス部3241、中層チャンネルダウンミックス部3242、下層チャンネルダウンミックス部3243から構成されている。このモード4ブロック324は、図20に示したモード1ブロック321と同様の構成から5.1ch合成部104を削除した構成である。
FIG. 29 shows an overall block diagram of an example of the
このモードは、平面総数だけ存在する2次元平面について、2次元平面毎に5.1chダウンミックスを行い出力するモードである。このモードの利点は、上層用に9ch分のスピーカを設置できない場合でも、図30に示すような、上層、中層、下層用にそれぞれ合計3個のユニットを備えたトールボーイ型スピーカ41〜45を配置することで、計5本のスピーカ41〜45と1個のサブウーハー(LFE)とにより、1枚の2次元平面上での5.1chダウンミックスでは得られない効果を得ることができる点である。 This mode is a mode in which a 5.1ch downmix is performed for each two-dimensional plane and output for a two-dimensional plane having a total number of planes. The advantage of this mode is that even if speakers for 9 channels cannot be installed for the upper layer, the tallboy speakers 41 to 45 having a total of three units for the upper layer, middle layer, and lower layer as shown in FIG. By arranging, a total of five speakers 41 to 45 and one subwoofer (LFE) can obtain an effect that cannot be obtained by a 5.1ch downmix on one two-dimensional plane. It is.
なお、本発明は以上の実施の形態に限定されるものではなく、例えば「ストリームに最初に現れるPCE0を上層用、2番目に現れるPCE1を中層用、3番目に現れるPCE2を低層+LFE用と定義する」といった取り決めを行わないのであれば、別途PCE中のコメントフィールドに前述した3種類の平面情報を記載したり、あるいは、DSE(データストリームエレメント)に記載するようにし、PCEの「element_instance_tag」の順番(小さい番号)からの並びと対応させる(この番号がプログラム番号を意味する。)ようにしてもよい。この場合は、上記の3つの平面の情報を自由な並びで配置できる。 The present invention is not limited to the above embodiment. For example, “PCE0 that appears first in the stream is for the upper layer, PCE1 that appears second is for the middle layer, and PCE2 that appears third is defined for the lower layer + LFE. If you do not make an arrangement such as “Yes”, enter the above three types of plane information separately in the comment field in the PCE, or in the DSE (data stream element), and set the “element_instance_tag” in the PCE. You may make it respond | correspond to the arrangement | sequence from an order (small number) (this number means a program number). In this case, the information on the above three planes can be arranged in any order.
また、オーディオ信号符号化装置10は、3つの平面符号化部12〜14を有しているが、1個の符号化部でメモリに蓄えつつ、3平面分の符号化処理を行うようにしてもよい。同様に、オーディオ信号復号化装置20は、3つの平面復号化部22〜24を有しているが、1個の復号化部でメモリに蓄えつつ、3平面分の復号化処理を行うようにしてもよい。更に、本発明は22.2ch以外の多チャンネルの3次元空間に配置されたスピーカにより立体音場を形成する多チャンネルオーディオ信号にも適用できることは勿論である。
The audio
また、以上の実施の形態ではMPEG−2/4 AAC方式を例に説明したが、例えば、E−AC3方式に本発明を適用することができる。E−AC3方式の場合、公知の文献("SMPTE Proposed Recommended Practice, Digital Cinema Channel Mapping and Labeling, RP 226,"(c)SMPTE 2004)に示された上方スピーカを伴ったチャンネル配置に準拠して符号化ストリームを生成することができるが、チャンネル配置がSMPTE提案に限定的であるため、22.2chを符号化することができない。しかし、本発明のオーディオ信号符号化装置は複数のプログラムを1本のストリームに統合化できる符号化を行うため、本発明をEーAC3方式に適用可能である。 In the above embodiment, the MPEG-2 / 4 AAC system has been described as an example, but the present invention can be applied to, for example, the E-AC3 system. In the case of the E-AC3 system, a code according to a channel arrangement with an upper speaker shown in a known document ("SMPTE Proposed Recommended Practice, Digital Cinema Channel Mapping and Labeling, RP 226," (c) SMPTE 2004) is used. However, since the channel arrangement is limited to the SMPTE proposal, 22.2ch cannot be encoded. However, since the audio signal encoding apparatus of the present invention performs encoding capable of integrating a plurality of programs into one stream, the present invention can be applied to the E-AC3 system.
また、本発明はオーディオ信号符号化装置10の動作をコンピュータにより実行する符号化プログラムや、オーディオ信号復号化装置20,30の動作をコンピュータにより実行する復号化プログラムも包含するものである。
The present invention also includes an encoding program for executing the operation of the audio
10 オーディオ信号符号化装置
11 3次元空間分割部
12、13、14 平面符号化部
15 ストリーム統合部
20、30 オーディオ信号復号化装置
21、31 ストリーム分離部
22、23、24 平面復号化部
25 3次元空間合成部
32 ダウンミックス部
41〜45 トールボーイ型スピーカ
101、201、3241 上層チャンネルダウンミックス部
102、202、3242 中層チャンネルダウンミックス部
103、203、3243 下層チャンネルダウンミックス部
104、204 5.1ch合成部
205 2ch合成部
321 モード1ブロック
322 モード2ブロック
323 モード3ブロック
324 モード4ブロック
325 出力セレクタ
DESCRIPTION OF
Claims (18)
前記平面情報と前記チャンネルマッピング情報とに基づいて、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、前記符号化要素と前記平面位置情報とを前記2次元平面毎に出力する第2のステップと、
前記第2のステップにより前記2次元平面毎に出力された前記符号化要素と前記平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する第3のステップと
を含むことを特徴とするオーディオ信号符号化方法。 The position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space that outputs audio signals of a plurality of channels, and a dividing direction that is a direction for dividing the three-dimensional space into a plurality of two-dimensional planes. Based on this, plane information including the number of the two-dimensional planes, the number of channels corresponding to the respective two-dimensional planes, and the division order of the two-dimensional planes is output, and the 2 of each speaker corresponding to each channel is output. A first step of outputting channel mapping information indicating a position in a dimension plane;
Based on the plane information and the channel mapping information, an encoding element is generated by encoding the audio signals of the plurality of channels as a group of programs for each two-dimensional plane, and further, the two-dimensional plane A second step of generating plane position information including information indicating a channel arrangement in the output and outputting the coding element and the plane position information for each two-dimensional plane;
And a third step of generating and outputting one encoded stream by integrating all of the encoding elements output for each of the two-dimensional planes by the second step and the plane position information. An audio signal encoding method characterized by the above.
前記第2のステップでは、前記3次元空間に立体的に配置される前記複数のスピーカから出力するための前記複数チャンネルのオーディオ信号とは別に、前記少ないチャンネル数に予め変換したオーディオ信号について、前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、前記第2の符号化要素と前記第2の平面位置情報とを前記2次元平面毎に出力するようにし、
前記第3のステップでは、前記第2の符号化要素と前記第2の平面位置情報とを、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した前記符号化要素と、前記2次元平面内のチャンネル配置を示す情報を含む前記平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしたことを特徴とする請求項1記載のオーディオ信号符号化方法。 In the channel mapping information generated in the first step, an audio signal converted in advance to a number of channels smaller than the plurality of channels among the plurality of speakers arranged three-dimensionally in a three-dimensional space is output. Including information indicating the position of each speaker in the two-dimensional plane;
In the second step, apart from the plurality of channels of audio signals to be output from the plurality of speakers arranged three-dimensionally in the three-dimensional space, the audio signal previously converted into the small number of channels, A second encoding element is generated by encoding as a group of programs for each two-dimensional plane, and further, second plane position information including information indicating the channel arrangement in the two-dimensional plane is generated. And outputting the second encoding element and the second plane position information for each two-dimensional plane,
In the third step, the second encoding element and the second plane position information are generated by encoding the plurality of channels of audio signals as a group of programs for each two-dimensional plane. An encoded stream integrated with the encoded element and the plane position information including information indicating a channel arrangement in the two-dimensional plane is generated and output. Item 6. An audio signal encoding method according to Item 1.
前記平面情報と前記チャンネルマッピング情報とに基づいて、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、前記符号化要素と前記平面位置情報とを前記2次元平面毎に出力する平面符号化部と、
前記平面符号化部により前記2次元平面毎に出力された前記符号化要素と前記平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力するストリーム統合部と
を有することを特徴とするオーディオ信号符号化装置。 The position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space that outputs audio signals of a plurality of channels, and a dividing direction that is a direction for dividing the three-dimensional space into a plurality of two-dimensional planes. Based on this, plane information including the number of the two-dimensional planes, the number of channels corresponding to the respective two-dimensional planes, and the division order of the two-dimensional planes is output, and the 2 of each speaker corresponding to each channel is output. A three-dimensional space division unit that outputs channel mapping information indicating a position in a three-dimensional plane;
Based on the plane information and the channel mapping information, an encoding element is generated by encoding the audio signals of the plurality of channels as a group of programs for each two-dimensional plane, and further, the two-dimensional plane A plane encoding unit that generates plane position information including information indicating the channel arrangement in the plane, and outputs the encoding element and the plane position information for each two-dimensional plane;
A stream integration unit that integrates all of the encoding elements output by the plane encoding unit for each of the two-dimensional planes and the plane position information, and generates and outputs one encoded stream. An audio signal encoding device.
前記平面符号化部は、前記複数チャンネルのオーディオ信号とは別に、前記少ないチャンネル数に予め変換したオーディオ信号について、前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、前記第2の符号化要素と前記第2の平面位置情報とを前記2次元平面毎に出力するようにし、
前記ストリーム統合部は、前記第2の符号化要素と前記第2の平面位置情報とを、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した前記符号化要素と前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしたことを特徴とする請求項6記載のオーディオ信号符号化装置。 The three-dimensional space division unit is a position on the two-dimensional plane of a speaker that outputs an audio signal converted in advance to a number of channels smaller than the plurality of channels among the plurality of speakers arranged three-dimensionally in a three-dimensional space. To output information indicating
The plane encoding unit encodes an audio signal previously converted into the small number of channels separately from the plurality of channels of audio signals by performing encoding as a group of programs for each two-dimensional plane. Generating second plane position information including information indicating channel arrangement in the two-dimensional plane, and generating the second encoding element and the second plane position information. Output every 2D plane,
The stream integration unit generates the second encoding element and the second plane position information by encoding the audio signals of the plurality of channels as a group of programs for each two-dimensional plane. 7. A single encoded stream integrated with plane position information including information indicating channel arrangement in the two-dimensional plane is generated and output. Audio signal encoding device.
前記第1のステップにおいて分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記3次元空間に配置された前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと
を含むことを特徴とするオーディオ信号復号化方法。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. And generating plane position information including information indicating the channel arrangement in the two-dimensional plane, receiving one encoded stream obtained by integrating them as an input, and the encoded stream A first step of separating the plane position information and the encoding element for each of the plurality of two-dimensional planes;
A second step of decoding the encoding elements for each of the two-dimensional planes separated in the first step, respectively, and decoding the decoded audio signals into the plurality of channels of audio signals arranged in the three-dimensional space;
A three-dimensional channel indicating the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated in the first step. An audio signal decoding method comprising: a third step of generating arrangement information.
前記第1のステップで分離された前記2次元平面毎の前記第1及び第2の符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号と、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記第1及び第2の平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号と、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと
を含むことを特徴とするオーディオ信号復号化方法。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded as a set of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. 1 encoding element is generated, and further, first plane position information including information indicating the channel arrangement in the two-dimensional plane is generated, and the number of channels is smaller than that of the plurality of audio signals in advance. The audio signal is also encoded as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space to generate a second encoding element, and the channel arrangement in the two-dimensional plane is further changed. Generating the second plane position information including the information to be received, and receiving one encoded stream obtained by integrating them as an input, From encoded stream, a first step of separating each of the said first and second planar position information first and second coding elements of said plurality of two-dimensional plane,
The first and second coding elements for each of the two-dimensional planes separated in the first step are respectively decoded and converted in advance into the audio signal of the plurality of channels and the number of channels smaller than the plurality of channels. A second step of decoding into an audio signal,
By combining the first and second plane position information for each two-dimensional plane separated in the first step, the decoded audio signals of the plurality of channels and the number of channels smaller than the plurality of channels. An audio signal decoding method comprising: a third step of generating three-dimensional channel arrangement information indicating a position of a speaker that outputs an audio signal of each channel of an audio signal converted in advance.
前記第1のステップで分離された前記2次元平面毎に前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記第1のステップで分離された前記変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、前記複数チャンネルのオーディオ信号よりも少ないチャンネル数のオーディオ信号に変換する第4のステップと
を含むことを特徴とするオーディオ信号復号化方法。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Generating plane position information including information indicating the channel arrangement in the two-dimensional plane, and further reducing the audio signals of the plurality of channels arranged in the three-dimensional space from the plurality of channels. Generates transform coefficient information including information indicating transform coefficients for enabling reproduction as an audio signal of the number of channels, receives one encoded stream obtained by integrating them as an input, and from the encoded stream Separating the plane position information and the encoding element for each of the plurality of two-dimensional planes; A first step of separating the serial transform coefficient information,
A second step of decoding each of the encoding elements for each of the two-dimensional planes separated in the first step, and decoding into the plurality of channels of audio signals;
Three-dimensional channel arrangement information indicating the position of a speaker that outputs the audio signal of each channel of the plurality of audio signals is synthesized by combining the plane position information for each of the two-dimensional planes separated in the first step. A third step of generating,
The decoded audio signals of the plurality of channels are reproduced on one or more two-dimensional planes by multiplying the transform coefficient information separated in the first step obtained based on the three-dimensional channel arrangement information. And a fourth step of converting the audio signal into a smaller number of channels than the plurality of channels of audio signals.
前記第1のステップで分離された前記2次元平面毎に前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記第1のステップで分離された前記変換係数情報を乗じて、前記複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換する第4のステップと
を含むことを特徴とするオーディオ信号復号化方法。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Can generate plane position information including information indicating the channel arrangement in the two-dimensional plane, and can reproduce the audio signals of the plurality of channels arranged in the three-dimensional space with a small number of channels. Generation of transform coefficient information including information indicating transform coefficients for receiving and receiving one encoded stream obtained by integrating them as an input, from the encoded stream, the plane position information and the code Separating a transform element for each of the plurality of two-dimensional planes, and further separating the transform coefficient information;
A second step of decoding each of the encoding elements for each of the two-dimensional planes separated in the first step, and decoding into the plurality of channels of audio signals;
Three-dimensional channel arrangement information indicating the position of a speaker that outputs the audio signal of each channel of the plurality of audio signals is synthesized by combining the plane position information for each of the two-dimensional planes separated in the first step. A third step of generating,
The decoded multi-channel audio signal is multiplied by the transform coefficient information separated in the first step obtained based on the three-dimensional channel arrangement information to obtain two channels from the multi-channel audio signal. The audio signal decoding method characterized by including the 4th step of converting into the binaural signal of this.
前記ストリーム分離部において分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と
を有することを特徴とするオーディオ信号復号化装置。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. And generating plane position information including information indicating the channel arrangement in the two-dimensional plane, receiving one encoded stream obtained by integrating them as an input, and the encoded stream A stream separation unit for separating the plane position information and the encoding element for each of the plurality of two-dimensional planes;
A plane decoding unit that decodes each of the encoding elements for each of the two-dimensional planes separated in the stream separation unit and decodes the encoded signals into the plurality of channels of audio signals;
A three-dimensional channel arrangement that indicates the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated by the stream separation unit An audio signal decoding apparatus comprising: a three-dimensional space synthesis unit that generates information.
前記ストリーム分離部で分離された前記2次元平面毎の前記第1及び第2の符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号と、前記予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記第1及び第2の平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号と、前記予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と
を有することを特徴とするオーディオ信号復号化装置。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded as a set of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. 1 is generated, and further, first plane position information including information indicating the channel arrangement in the two-dimensional plane is generated, and an audio signal having a smaller number of channels than the plurality of previously converted channels is generated. The second encoding element is generated by encoding as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space, and information indicating channel arrangement in the two-dimensional plane is further generated. Second plane position information including the received encoded stream is received as an input, and an encoded stream obtained by integrating them is received as an input. From arm, a stream separation unit separating the said first and second said planar position information of the first and second coding elements for each of the plurality of two-dimensional plane,
The first and second coding elements for each of the two-dimensional planes separated by the stream separation unit are decoded, respectively, so that the plurality of channels of audio signals and the number of channels smaller than the plurality of pre-converted channels A plane decoding unit for decoding into the audio signal of
The first and second plane position information for each of the two-dimensional planes separated by the stream separation unit is synthesized, and the decoded audio signals of the plurality of channels are less than the plurality of channels converted in advance. An audio signal decoding apparatus comprising: a three-dimensional space synthesis unit that generates three-dimensional channel arrangement information indicating a position of a speaker that outputs an audio signal of each channel of audio signals of the number of channels.
前記ストリーム分離部で分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記ストリーム分離部で分離された前記変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、前記複数チャンネルよりも少ないチャンネル数のオーディオ信号に変換するダウンミックス部と
を有することを特徴とするオーディオ信号復号化装置。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Generating plane position information including information indicating the channel arrangement in the two-dimensional plane, and further reproducing with audio signals having a smaller number of channels than the plurality of channels arranged in the three-dimensional space. Generating transform coefficient information including information indicating transform coefficients for enabling and receiving one encoded stream obtained by integrating them, and receiving the plane position information and the encoded stream from the encoded stream Stream separation that separates encoding elements from each of the plurality of two-dimensional planes and further separates the transform coefficient information And,
A plane decoding unit that decodes each of the encoding elements for each of the two-dimensional planes separated by the stream separation unit and decodes the encoded signals into the plurality of channels of audio signals;
A three-dimensional channel arrangement that indicates the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated by the stream separation unit A three-dimensional space synthesis unit for generating information;
The decoded audio signals of the plurality of channels are multiplied by the transform coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and reproduced on one or more two-dimensional planes. An audio signal decoding apparatus comprising: a downmix unit that converts an audio signal having a smaller number of channels than the plurality of channels.
前記ストリーム分離部で分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記ストリーム分離部で分離された前記変換係数情報を乗じて、前記複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換するダウンミックス部と
を有することを特徴とするオーディオ信号復号化装置。 A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. To generate plane position information including information indicating the channel arrangement in the two-dimensional plane, and to reproduce with a smaller number of channels than the plurality of channels arranged in the three-dimensional space. Generating transform coefficient information including information indicating transform coefficients to be received, receiving one encoded stream obtained by integrating them, and receiving the plane position information and the encoded element from the encoded stream For each of the plurality of two-dimensional planes, and further, a stream separator for separating the transform coefficient information;
A plane decoding unit that decodes each of the encoding elements for each of the two-dimensional planes separated by the stream separation unit and decodes the encoded signals into the plurality of channels of audio signals;
A three-dimensional channel arrangement that indicates the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated by the stream separation unit A three-dimensional space synthesis unit for generating information;
The decoded audio signal of the plurality of channels is multiplied by the transform coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and the two-channel audio signal is obtained from the plurality of channels of the audio signal. An audio signal decoding device comprising: a downmix unit that converts a binaural signal.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009282358A JP2011066868A (en) | 2009-08-18 | 2009-12-14 | Audio signal encoding method, encoding device, decoding method, and decoding device |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009189577 | 2009-08-18 | ||
| JP2009282358A JP2011066868A (en) | 2009-08-18 | 2009-12-14 | Audio signal encoding method, encoding device, decoding method, and decoding device |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2011066868A true JP2011066868A (en) | 2011-03-31 |
Family
ID=43952575
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009282358A Pending JP2011066868A (en) | 2009-08-18 | 2009-12-14 | Audio signal encoding method, encoding device, decoding method, and decoding device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2011066868A (en) |
Cited By (21)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014007095A1 (en) * | 2012-07-02 | 2014-01-09 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| WO2014007094A1 (en) * | 2012-07-02 | 2014-01-09 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| CN103748629A (en) * | 2012-07-02 | 2014-04-23 | 索尼公司 | Decoding device and method, encoding device and method, and program |
| JP2014520491A (en) * | 2011-07-01 | 2014-08-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Systems and tools for improved 3D audio creation and presentation |
| JP2014204317A (en) * | 2013-04-05 | 2014-10-27 | 日本放送協会 | Acoustic signal reproducing device and acoustic signal preparation device |
| JP2014222856A (en) * | 2013-05-14 | 2014-11-27 | 日本放送協会 | Acoustic signal reproduction device and acoustic signal preparation device |
| JP2014222853A (en) * | 2013-05-14 | 2014-11-27 | 日本放送協会 | Acoustic signal reproduction device and acoustic signal preparation device |
| JP2014222852A (en) * | 2013-05-14 | 2014-11-27 | 日本放送協会 | Acoustic signal reproduction device and acoustic signal preparation device |
| WO2014199536A1 (en) * | 2013-06-10 | 2014-12-18 | パナソニック株式会社 | Audio playback device and method therefor |
| KR20150047943A (en) * | 2013-10-25 | 2015-05-06 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| EP2743921A4 (en) * | 2012-07-02 | 2015-06-03 | Sony Corp | DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM |
| JP2015195545A (en) * | 2014-03-25 | 2015-11-05 | 日本放送協会 | Channel number converter |
| KR20160015265A (en) * | 2013-05-29 | 2016-02-12 | 퀄컴 인코포레이티드 | Filtering with binaural room impulse responses with content analysis and weighting |
| WO2016052185A1 (en) * | 2014-09-29 | 2016-04-07 | ソニー株式会社 | Transmission device, transmission method, receiving device and receiving method |
| JP2016149766A (en) * | 2015-02-05 | 2016-08-18 | 日本放送協会 | Characteristic adjustment device for audio signal, characteristic adjustment program for audio signal, and characteristic adjustment method for audio signal |
| JP2016530788A (en) * | 2013-07-22 | 2016-09-29 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | Audio decoder, audio encoder, method for providing at least four audio channel signals based on a coded representation, method for providing a coded representation based on at least four audio channel signals with bandwidth extension, and Computer program |
| JP2018201225A (en) * | 2014-04-11 | 2018-12-20 | サムスン エレクトロニクス カンパニー リミテッド | Rendering method, apparatus and recording medium for acoustic signal |
| KR20210034564A (en) * | 2013-10-25 | 2021-03-30 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| CN114005454A (en) * | 2015-06-17 | 2022-02-01 | 三星电子株式会社 | Internal sound channel processing method and device for realizing low-complexity format conversion |
| KR20220042086A (en) * | 2021-03-18 | 2022-04-04 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| JP2022545709A (en) * | 2019-08-30 | 2022-10-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Channel identification of multichannel audio signals |
Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05176391A (en) * | 1991-12-12 | 1993-07-13 | Takenaka Komuten Co Ltd | Acoustic reproducing device |
| JPH11178089A (en) * | 1997-12-05 | 1999-07-02 | Victor Co Of Japan Ltd | Sound collection reproduction method for multi-channel audio signal, recording device, record medium, and reproduction device |
| JP2000090582A (en) * | 1998-09-07 | 2000-03-31 | Victor Co Of Japan Ltd | Transmission method for audio signal, audio disk, enoding device and decoding device |
| JP2007081710A (en) * | 2005-09-13 | 2007-03-29 | Yamaha Corp | Signal processing apparatus |
| JP2007532960A (en) * | 2004-04-16 | 2007-11-15 | コーディング テクノロジーズ アクチボラゲット | Apparatus and method for displaying a multi-channel audio signal |
| JP2008252834A (en) * | 2007-03-30 | 2008-10-16 | Toshiba Corp | Audio playback device |
| JP2008288935A (en) * | 2007-05-18 | 2008-11-27 | Panasonic Corp | Audio processing device |
| JP2009531886A (en) * | 2006-03-24 | 2009-09-03 | ドルビー スウェーデン アクチボラゲット | Spatial downmix generation from parametric representations of multichannel signals |
-
2009
- 2009-12-14 JP JP2009282358A patent/JP2011066868A/en active Pending
Patent Citations (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH05176391A (en) * | 1991-12-12 | 1993-07-13 | Takenaka Komuten Co Ltd | Acoustic reproducing device |
| JPH11178089A (en) * | 1997-12-05 | 1999-07-02 | Victor Co Of Japan Ltd | Sound collection reproduction method for multi-channel audio signal, recording device, record medium, and reproduction device |
| JP2000090582A (en) * | 1998-09-07 | 2000-03-31 | Victor Co Of Japan Ltd | Transmission method for audio signal, audio disk, enoding device and decoding device |
| JP2007532960A (en) * | 2004-04-16 | 2007-11-15 | コーディング テクノロジーズ アクチボラゲット | Apparatus and method for displaying a multi-channel audio signal |
| JP2007081710A (en) * | 2005-09-13 | 2007-03-29 | Yamaha Corp | Signal processing apparatus |
| JP2009531886A (en) * | 2006-03-24 | 2009-09-03 | ドルビー スウェーデン アクチボラゲット | Spatial downmix generation from parametric representations of multichannel signals |
| JP2008252834A (en) * | 2007-03-30 | 2008-10-16 | Toshiba Corp | Audio playback device |
| JP2008288935A (en) * | 2007-05-18 | 2008-11-27 | Panasonic Corp | Audio processing device |
Cited By (85)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9549275B2 (en) | 2011-07-01 | 2017-01-17 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| EP4543049A3 (en) * | 2011-07-01 | 2025-06-11 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3d audio authoring and rendering |
| EP4543049A2 (en) | 2011-07-01 | 2025-04-23 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3d audio authoring and rendering |
| TWI873802B (en) * | 2011-07-01 | 2025-02-21 | 美商杜比實驗室特許公司 | Apparatus, method and non-transitory medium for enhanced 3d audio authoring and rendering |
| US12047768B2 (en) | 2011-07-01 | 2024-07-23 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| JP2014520491A (en) * | 2011-07-01 | 2014-08-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Systems and tools for improved 3D audio creation and presentation |
| TWI816597B (en) * | 2011-07-01 | 2023-09-21 | 美商杜比實驗室特許公司 | Apparatus, method and non-transitory medium for enhanced 3d audio authoring and rendering |
| US11641562B2 (en) | 2011-07-01 | 2023-05-02 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| EP4135348A3 (en) * | 2011-07-01 | 2023-04-05 | Dolby Laboratories Licensing Corporation | Apparatus for controlling the spread of rendered audio objects, method and non-transitory medium therefor |
| EP4132011A3 (en) * | 2011-07-01 | 2023-03-01 | Dolby Laboratories Licensing Corp. | Apparatus for rendering audio objects according to imposed speaker zone constraints, corresponding method and computer program product |
| TWI785394B (en) * | 2011-07-01 | 2022-12-01 | 美商杜比實驗室特許公司 | Apparatus, method and non-transitory medium for enhanced 3d audio authoring and rendering |
| EP2727381B1 (en) * | 2011-07-01 | 2022-01-26 | Dolby Laboratories Licensing Corporation | Apparatus and method for rendering audio objects |
| EP3913931A1 (en) * | 2011-07-01 | 2021-11-24 | Dolby Laboratories Licensing Corp. | Apparatus for rendering audio, method and storage means therefor |
| US11057731B2 (en) | 2011-07-01 | 2021-07-06 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| KR101547467B1 (en) | 2011-07-01 | 2015-08-26 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | System and tools for enhanced 3d audio authoring and rendering |
| US10609506B2 (en) | 2011-07-01 | 2020-03-31 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| US9204236B2 (en) | 2011-07-01 | 2015-12-01 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| US10244343B2 (en) | 2011-07-01 | 2019-03-26 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| US9838826B2 (en) | 2011-07-01 | 2017-12-05 | Dolby Laboratories Licensing Corporation | System and tools for enhanced 3D audio authoring and rendering |
| JP2017041897A (en) * | 2011-07-01 | 2017-02-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Systems and tools for improved 3D audio creation and presentation |
| US10140995B2 (en) | 2012-07-02 | 2018-11-27 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
| RU2648945C2 (en) * | 2012-07-02 | 2018-03-28 | Сони Корпорейшн | Decoding device, decoding method, coding device, coding method and program |
| JPWO2014007096A1 (en) * | 2012-07-02 | 2016-06-02 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| EP2743921A4 (en) * | 2012-07-02 | 2015-06-03 | Sony Corp | DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM |
| WO2014007094A1 (en) * | 2012-07-02 | 2014-01-09 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| US9437198B2 (en) | 2012-07-02 | 2016-09-06 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
| CN103748629A (en) * | 2012-07-02 | 2014-04-23 | 索尼公司 | Decoding device and method, encoding device and method, and program |
| US9542952B2 (en) | 2012-07-02 | 2017-01-10 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
| JPWO2014007095A1 (en) * | 2012-07-02 | 2016-06-02 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| JPWO2014007094A1 (en) * | 2012-07-02 | 2016-06-02 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| EP2741286A4 (en) * | 2012-07-02 | 2015-04-08 | Sony Corp | DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM |
| US10304466B2 (en) | 2012-07-02 | 2019-05-28 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program with downmixing of decoded audio data |
| AU2013284704B2 (en) * | 2012-07-02 | 2019-01-31 | Sony Corporation | Decoding device and method, encoding device and method, and program |
| WO2014007095A1 (en) * | 2012-07-02 | 2014-01-09 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| CN103748628A (en) * | 2012-07-02 | 2014-04-23 | 索尼公司 | Decoding device and method, encoding device and method, and program |
| JPWO2014007097A1 (en) * | 2012-07-02 | 2016-06-02 | ソニー株式会社 | Decoding device and method, encoding device and method, and program |
| CN103782339A (en) * | 2012-07-02 | 2014-05-07 | 索尼公司 | Decoding device and method, encoding device and method, and program |
| US10083700B2 (en) | 2012-07-02 | 2018-09-25 | Sony Corporation | Decoding device, decoding method, encoding device, encoding method, and program |
| JP2018116313A (en) * | 2012-07-02 | 2018-07-26 | ソニー株式会社 | Television receiver, signal processing method, and program |
| JP2018116312A (en) * | 2012-07-02 | 2018-07-26 | ソニー株式会社 | Television receiver, signal processing method, and program |
| JP2018142003A (en) * | 2012-07-02 | 2018-09-13 | ソニー株式会社 | Television receiver, signal processing method, and program |
| JP2014204317A (en) * | 2013-04-05 | 2014-10-27 | 日本放送協会 | Acoustic signal reproducing device and acoustic signal preparation device |
| JP2014222856A (en) * | 2013-05-14 | 2014-11-27 | 日本放送協会 | Acoustic signal reproduction device and acoustic signal preparation device |
| JP2014222853A (en) * | 2013-05-14 | 2014-11-27 | 日本放送協会 | Acoustic signal reproduction device and acoustic signal preparation device |
| JP2014222852A (en) * | 2013-05-14 | 2014-11-27 | 日本放送協会 | Acoustic signal reproduction device and acoustic signal preparation device |
| US9674632B2 (en) | 2013-05-29 | 2017-06-06 | Qualcomm Incorporated | Filtering with binaural room impulse responses |
| KR20160015265A (en) * | 2013-05-29 | 2016-02-12 | 퀄컴 인코포레이티드 | Filtering with binaural room impulse responses with content analysis and weighting |
| KR101719094B1 (en) | 2013-05-29 | 2017-03-22 | 퀄컴 인코포레이티드 | Filtering with binaural room impulse responses with content analysis and weighting |
| JP2016523466A (en) * | 2013-05-29 | 2016-08-08 | クゥアルコム・インコーポレイテッドQualcomm Incorporated | Binaural room impulse response filtering using content analysis and weighting |
| US9788120B2 (en) | 2013-06-10 | 2017-10-10 | Socionext Inc. | Audio playback device and audio playback method |
| WO2014199536A1 (en) * | 2013-06-10 | 2014-12-18 | パナソニック株式会社 | Audio playback device and method therefor |
| JPWO2014199536A1 (en) * | 2013-06-10 | 2017-02-23 | 株式会社ソシオネクスト | Audio playback apparatus and method |
| US10770080B2 (en) | 2013-07-22 | 2020-09-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
| US10741188B2 (en) | 2013-07-22 | 2020-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
| US12380899B2 (en) | 2013-07-22 | 2025-08-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
| JP2016530788A (en) * | 2013-07-22 | 2016-09-29 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | Audio decoder, audio encoder, method for providing at least four audio channel signals based on a coded representation, method for providing a coded representation based on at least four audio channel signals with bandwidth extension, and Computer program |
| US9940938B2 (en) | 2013-07-22 | 2018-04-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
| US9953656B2 (en) | 2013-07-22 | 2018-04-24 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
| US11657826B2 (en) | 2013-07-22 | 2023-05-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals |
| US10147431B2 (en) | 2013-07-22 | 2018-12-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
| US11488610B2 (en) | 2013-07-22 | 2022-11-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension |
| US10645513B2 (en) | 2013-10-25 | 2020-05-05 | Samsung Electronics Co., Ltd. | Stereophonic sound reproduction method and apparatus |
| KR20150047943A (en) * | 2013-10-25 | 2015-05-06 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| KR20210034564A (en) * | 2013-10-25 | 2021-03-30 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| KR102380232B1 (en) | 2013-10-25 | 2022-03-29 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| KR102231755B1 (en) * | 2013-10-25 | 2021-03-24 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| US11051119B2 (en) | 2013-10-25 | 2021-06-29 | Samsung Electronics Co., Ltd. | Stereophonic sound reproduction method and apparatus |
| JP2018201224A (en) * | 2013-10-25 | 2018-12-20 | サムスン エレクトロニクス カンパニー リミテッド | Audio signal rendering method and apparatus |
| JP2015195545A (en) * | 2014-03-25 | 2015-11-05 | 日本放送協会 | Channel number converter |
| JP2018201225A (en) * | 2014-04-11 | 2018-12-20 | サムスン エレクトロニクス カンパニー リミテッド | Rendering method, apparatus and recording medium for acoustic signal |
| US10674299B2 (en) | 2014-04-11 | 2020-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
| US11785407B2 (en) | 2014-04-11 | 2023-10-10 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
| US10873822B2 (en) | 2014-04-11 | 2020-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
| US11245998B2 (en) | 2014-04-11 | 2022-02-08 | Samsung Electronics Co.. Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
| WO2016052185A1 (en) * | 2014-09-29 | 2016-04-07 | ソニー株式会社 | Transmission device, transmission method, receiving device and receiving method |
| US11012736B2 (en) | 2014-09-29 | 2021-05-18 | Sony Corporation | Transmission apparatus, transmission method, reception apparatus, and reception method |
| JP2016149766A (en) * | 2015-02-05 | 2016-08-18 | 日本放送協会 | Characteristic adjustment device for audio signal, characteristic adjustment program for audio signal, and characteristic adjustment method for audio signal |
| CN114005454A (en) * | 2015-06-17 | 2022-02-01 | 三星电子株式会社 | Internal sound channel processing method and device for realizing low-complexity format conversion |
| JP2022545709A (en) * | 2019-08-30 | 2022-10-28 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Channel identification of multichannel audio signals |
| JP7581333B2 (en) | 2019-08-30 | 2024-11-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Channel Identification of Multi-Channel Audio Signals |
| US12165657B2 (en) | 2019-08-30 | 2024-12-10 | Dolby Laboratories Licensing Corporation | Channel identification of multi-channel audio signals |
| KR20220129511A (en) * | 2021-03-18 | 2022-09-23 | 삼성전자주식회사 | Stereophonic sound reproduction method and apparatus |
| KR102608824B1 (en) | 2021-03-18 | 2023-12-04 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
| KR102443055B1 (en) | 2021-03-18 | 2022-09-14 | 삼성전자주식회사 | Stereophonic sound reproduction method and apparatus |
| KR20220042086A (en) * | 2021-03-18 | 2022-04-04 | 삼성전자주식회사 | Method and apparatus for 3D sound reproducing |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP2011066868A (en) | Audio signal encoding method, encoding device, decoding method, and decoding device | |
| KR100754220B1 (en) | Binaural decoder for MPE surround and its decoding method | |
| CN101479786B (en) | Method for encoding and decoding object-based audio signal and apparatus thereof | |
| RU2643644C2 (en) | Coding and decoding of audio signals | |
| CN108307272B (en) | Audio signal processing method and device | |
| RU2618383C2 (en) | Encoding and decoding of audio objects | |
| CN102160113B (en) | Multichannel audio coder and decoder | |
| RU2406166C2 (en) | Coding and decoding methods and devices based on objects of oriented audio signals | |
| CN101542597B (en) | Method and apparatus for encoding and decoding object-based audio signals | |
| CN101411063B (en) | Filter adaptive frequency resolution | |
| JP2013174891A (en) | High quality multi-channel audio encoding and decoding apparatus | |
| JP2010508545A (en) | Method and apparatus for encoding and decoding object-based audio signals | |
| CN104904239A (en) | Binaural audio processing | |
| WO2020152394A1 (en) | Audio representation and associated rendering | |
| CN112823534A (en) | Signal processing device and method, and program | |
| JP4859925B2 (en) | Audio signal decoding method and apparatus | |
| JP4568363B2 (en) | Audio signal decoding method and apparatus | |
| WO2008084436A1 (en) | An object-oriented audio decoder | |
| JP4124702B2 (en) | Stereo sound signal encoding apparatus, stereo sound signal encoding method, and stereo sound signal encoding program | |
| CN108206984B (en) | Codec for transmitting three-dimensional acoustic signals using multiple channels and method for encoding and decoding the same | |
| CN101292285A (en) | Method and device for encoding and decoding multi-channel audio signal | |
| KR20070081735A (en) | Method and apparatus for encoding / decoding audio signal | |
| JP2006270649A (en) | Voice / acoustic signal processing apparatus and method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20111012 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120329 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130214 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130927 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131203 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140408 |
