[go: up one dir, main page]

JP2011066868A - Audio signal encoding method, encoding device, decoding method, and decoding device - Google Patents

Audio signal encoding method, encoding device, decoding method, and decoding device Download PDF

Info

Publication number
JP2011066868A
JP2011066868A JP2009282358A JP2009282358A JP2011066868A JP 2011066868 A JP2011066868 A JP 2011066868A JP 2009282358 A JP2009282358 A JP 2009282358A JP 2009282358 A JP2009282358 A JP 2009282358A JP 2011066868 A JP2011066868 A JP 2011066868A
Authority
JP
Japan
Prior art keywords
dimensional
channels
plane
encoding
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009282358A
Other languages
Japanese (ja)
Inventor
Sadahiro Yasura
定浩 安良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2009282358A priority Critical patent/JP2011066868A/en
Publication of JP2011066868A publication Critical patent/JP2011066868A/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2205/00Details of stereophonic arrangements covered by H04R5/00 but not provided for in any of its subgroups
    • H04R2205/024Positioning of loudspeaker enclosures for spatial sound reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To reproduce a three-dimensional sound field with clear designation of a three-dimensional sound source position by an encoding stream according to a predetermined encoding system, and to encode an audio signal with good transmission efficiency. <P>SOLUTION: A three-dimensional space divider 11 outputs plane information and channel mapping information, based on positions of a plurality of speakers arranged stereoscopically in three-dimensional space for outputting audio signals of a plurality of channels, and based on a dividing direction for dividing the three-dimensional space into a plurality of planes. Plane encoders 12 to 14 generate encoding elements as a result of encoding as a group of programs for each two-dimensional plane based on the plane information and the channel mapping information, and further generates and outputs plane positional information. A stream integrating section 15 integrates all the encoding elements and the plane positional information to generate and output one encoding stream. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明はオーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置に係り、特に多チャンネルのオーディオ信号に対して、所定の音声符号化方式の規格に準拠したオーディオ符号化信号を生成するオーディオ信号符号化方法及び符号化装置、並びにその符号化されたオーディオ信号を復号化する復号化方法及び復号化装置に関する。   The present invention relates to an audio signal encoding method, an encoding device, a decoding method, and a decoding device, and particularly generates an audio encoded signal that conforms to a predetermined audio encoding standard for a multi-channel audio signal. The present invention relates to an audio signal encoding method and encoding apparatus, and a decoding method and decoding apparatus for decoding the encoded audio signal.

多チャンネルのオーディオ信号を符号化するオーディオ信号符号化方式として、複数のエンコーダを用いる方式が知られている(例えば、特許文献1参照)。   As an audio signal encoding method for encoding a multi-channel audio signal, a method using a plurality of encoders is known (see, for example, Patent Document 1).

このオーディオ信号符号化方式では、符号化側では多チャンネルのオーディオ信号(音声信号)を、それぞれのチャンネルに対応するA/Dコンバータでデジタル信号に変換した後、各チャンネルに対応した並列駆動の複数のエンコーダ群でそれぞれの群毎に、例えば現行のデジタル放送において実績があるMPEG−2 AAC(Moving Picture Experts Group 2 Advanced Audio Coding)規格により符号化し、一本の伝送ストリームに多重して送出する。   In this audio signal encoding method, a multi-channel audio signal (audio signal) is converted into a digital signal by an A / D converter corresponding to each channel on the encoding side, and then a plurality of parallel drive units corresponding to each channel are converted. For example, each encoder group is encoded according to the MPEG-2 AAC (Moving Picture Experts Group 2 Advanced Audio Coding) standard, which has a track record in the current digital broadcasting, and is multiplexed and transmitted in one transmission stream.

復号化側では、受信した一本の伝送ストリームから複数の群毎の多チャンネルオーディオ信号を分離して、それぞれを並列駆動の複数のデコーダ群でMPEG−2 AAC規格に基づいて伸張処理した後、元の多チャンネルそれぞれに対応したD/Aコンバータによりアナログ信号のオーディオ信号に復号化する。この復号化された多チャンネルのオーディオ信号は、聴取位置を中心とする水平平面とその上方の水平平面にそれぞれ配置された複数個のスピーカに供給されてこれらを駆動することにより、3次元的音場を再現する。   On the decoding side, a multi-channel audio signal for each of a plurality of groups is separated from one received transmission stream, and each of them is decompressed by a plurality of parallel-driven decoder groups based on the MPEG-2 AAC standard. It is decoded into an audio signal of an analog signal by a D / A converter corresponding to each original multi-channel. The decoded multi-channel audio signal is supplied to and driven by a plurality of speakers arranged on a horizontal plane centered at the listening position and a horizontal plane above the three-dimensional sound signal. Reproduce the place.

特開2000−236599号公報JP 2000-236599 A

しかしながら、上記のMPEG−2 AAC規格は、2次元平面(幅×奥行き)に設置された複数個のスピーカにより再生を行うオーディオ信号を符号化する方式であり、チャンネル配置情報も2次元平面を想定している。すなわち、3次元空間(幅×奥行き×高さ)に設置された複数個のスピーカにより再生を行う場合を想定していないため、多平面(3次元空間)におけるチャンネル配置を、例えば上方フロントチャンネル何チャンネルのように、3次元空間用のチャンネル配置情報を定義することができない。   However, the above MPEG-2 AAC standard is a method for encoding an audio signal to be reproduced by a plurality of speakers installed on a two-dimensional plane (width × depth), and channel arrangement information is also assumed to be a two-dimensional plane. is doing. In other words, since it is not assumed that reproduction is performed by a plurality of speakers installed in a three-dimensional space (width × depth × height), the channel arrangement in a multi-plane (three-dimensional space) is, for example, an upper front channel. Like a channel, channel arrangement information for a three-dimensional space cannot be defined.

このため、上記の従来のオーディオ信号符号化方法では、フロントチャンネルと、上方フロントチャンネルを識別することができず、一本の伝送ストリームとして多平面を伝送することができない。従って、上記の従来のオーディオ信号符号化方法では、3次元の音源位置を明確に指定した3次元の音場再現ができない。   For this reason, in the conventional audio signal encoding method described above, the front channel and the upper front channel cannot be identified, and a multi-plane cannot be transmitted as a single transmission stream. Therefore, the above-described conventional audio signal encoding method cannot reproduce a three-dimensional sound field in which a three-dimensional sound source position is clearly specified.

また、上記の従来のオーディオ信号符号化方法では、送信側(符号化側)で多チャンネルの独立した複数のMPEG−2 AAC規格の符号化信号をそれぞれ所定ビット毎に分割してストリームとして一本の伝送路上に時分割多重して送り出すようにしているため、伝送ストリームは、MPEG−2 AAC規格に準拠したストリームではない。従って、復号化装置として、MPEG−2 AAC規格に準拠したデコーダを用意しても、従来のオーディオ信号符号化方法固有の分離処理を行わなければ、受信した一本の伝送ストリームをそのまま復号化することができない。   In the above-described conventional audio signal encoding method, a plurality of independent MPEG-2 AAC standard encoded signals of multiple channels on the transmission side (encoding side) are divided into predetermined streams, respectively, as one stream. Therefore, the transmission stream is not a stream compliant with the MPEG-2 AAC standard. Therefore, even if a decoder compliant with the MPEG-2 AAC standard is prepared as a decoding device, if a separation process specific to the conventional audio signal encoding method is not performed, one received transmission stream is decoded as it is. I can't.

更に、上記の従来のオーディオ信号符号化方法では、多重化する前に、複数本の独立した符号化ストリームを作るために、チャンネル数に応じた多数のエンコーダが必要であり、また時分割多重のための多重器も必要であるため、回路規模が大きく、また符号化ストリームそれぞれが、ヘッダ情報(同期コードなど)や転送レート調整用ビット等を有しているので、それらを多重化すると冗長な情報により一本のストリームサイズが大きくなり、伝送効率が悪い。上記の従来のオーディオ信号復号化方法も同様に、多数のデコーダだけでなく、分離器も必要であるため回路規模が大きくなってしまう。   Furthermore, in the conventional audio signal encoding method described above, a large number of encoders corresponding to the number of channels are necessary to create a plurality of independent encoded streams before multiplexing, and time division multiplexing is also possible. A large-scale circuit, and each encoded stream has header information (synchronization code, etc.), transfer rate adjustment bits, and the like. The size of one stream increases due to information, and transmission efficiency is poor. Similarly, the conventional audio signal decoding method described above requires not only a large number of decoders but also a separator, so that the circuit scale becomes large.

本発明は以上の点に鑑みなされたもので、3次元の音源位置を明確に指定した3次元の音場再現を、MPEG−2 AAC規格、MPEG−4 AAC規格、AC−3(Audio Code number3)を基にしたE−AC3(Enhanced AC3)方式等の所定の符号化方式に準拠した符号化ストリームにより可能とすると共に伝送効率の良いオーディオ信号符号化を行い得るオーディオ信号符号化方法、符号化装置、復号化方法及び復号化装置を提供することを目的とする。   The present invention has been made in view of the above points. Three-dimensional sound field reproduction in which a three-dimensional sound source position is clearly specified is reproduced by MPEG-2 AAC standard, MPEG-4 AAC standard, AC-3 (Audio Code number 3). ) Based audio signal encoding method and encoding capable of performing audio signal encoding with high transmission efficiency while enabling an encoded stream compliant with a predetermined encoding method such as E-AC3 (Enhanced AC3) method An object is to provide an apparatus, a decoding method, and a decoding apparatus.

上記の目的を達成するため、本発明のオーディオ信号符号化方法は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、2次元平面の数と、各平面に対応するチャンネル数と、2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの2次元平面内における位置を示すチャンネルマッピング情報を出力する第1のステップと、平面情報とチャンネルマッピング情報とに基づいて、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、その符号化要素と平面位置情報とを2次元平面毎に出力する第2のステップと、第2のステップにより2次元平面毎に出力された符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する第3のステップとを含むことを特徴とする。   In order to achieve the above object, an audio signal encoding method according to the present invention includes a position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space that outputs audio signals of a plurality of channels, and a three-dimensional space. Output plane information including the number of two-dimensional planes, the number of channels corresponding to each plane, and the order of division of the two-dimensional plane, based on a division direction that is a direction for dividing the plurality of two-dimensional planes. Further, based on the first step of outputting channel mapping information indicating the position of each speaker corresponding to each channel in the two-dimensional plane, the two-dimensional audio signal is two-dimensionally based on the plane information and the channel mapping information. Encoding elements are generated by encoding as a single program for each plane, and the channel arrangement in the two-dimensional plane is shown. A second step of generating plane position information including information and outputting the encoded element and the plane position information for each two-dimensional plane; and an encoded element output for each two-dimensional plane by the second step; And a third step of generating and outputting one encoded stream by integrating all the plane position information.

ここで、上記第3のステップで生成される1本の符号化ストリームには、3次元空間に立体的に配置される複数チャンネルのオーディオ信号の内、一部のチャンネルのみを復号化できるようにするための情報が平面位置情報として付加されていてもよい。   Here, in the one encoded stream generated in the third step, only a part of the channels of the audio signals of a plurality of channels arranged in a three-dimensional space can be decoded. Information may be added as plane position information.

また、上記第3のステップで生成される1本の符号化ストリームには、3次元空間に立体的に配置される複数チャンネルのオーディオ信号を、複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報が付加されていてもよい。   In addition, in the one encoded stream generated in the third step, a plurality of channels of audio signals arranged three-dimensionally in a three-dimensional space is reproduced as a signal converted to a smaller number of channels than the plurality of channels. Conversion coefficient information for making it possible may be added.

また、上記の変換係数情報は、3次元空間に立体的に配置される少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していてもよい。   Also, the above conversion coefficient information includes a filter coefficient corresponding to a head-related transfer function from the position of each speaker of a speaker with a small number of channels arranged three-dimensionally in a three-dimensional space to the viewer's right ear, And a filter coefficient corresponding to the head-related transfer function up to the left ear of the person.

また、本発明は、上記第1のステップで生成されるチャンネルマッピング情報には、3次元空間に立体的に配置される複数のスピーカのうち、複数のチャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力する各スピーカの2次元平面における位置を示す情報も含むようにし、上記第2のステップでは、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号とは別に、少ないチャンネル数に予め変換したオーディオ信号について、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、第2の符号化要素と第2の平面位置情報とを2次元平面毎に出力するようにし、上記第3のステップでは、第2の符号化要素と第2の平面位置情報とを、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した符号化要素と、2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようにしてもよい。   Further, according to the present invention, the channel mapping information generated in the first step is an audio that has been converted in advance into a smaller number of channels than a plurality of channels among a plurality of speakers arranged three-dimensionally in a three-dimensional space. Information indicating the position of each speaker that outputs a signal in a two-dimensional plane is also included, and in the second step, a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. Separately, the audio signal that has been converted into a small number of channels in advance is encoded as a group of programs for each two-dimensional plane to generate a second encoding element, and the channel arrangement in the two-dimensional plane Second plane position information including information indicating the second plane position information is generated and the second coding element and the second plane position information are In the third step, the second encoding element and the second plane position information are encoded as a group of programs for each two-dimensional plane of audio signals of a plurality of channels. Thus, a single encoded stream may be generated and output together with the encoded elements generated in this way and the plane position information including information indicating the channel arrangement in the two-dimensional plane.

また、上記の目的を達成するため、本発明のオーディオ信号符号化装置は、複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、2次元平面の数と、各2次元平面に対応するチャンネル数と、2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの2次元平面内における位置を示すチャンネルマッピング情報を出力する3次元空間分割部と、平面情報とチャンネルマッピング情報とに基づいて、3次元空間に配置されるスピーカから出力するための多チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、その符号化要素と平面位置情報とを2次元平面毎に出力する平面符号化部と、平面符号化部により2次元平面毎に出力された符号化要素と平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力するストリーム統合部とを有することを特徴とする。   In order to achieve the above object, the audio signal encoding device according to the present invention includes a position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space for outputting a plurality of channels of audio signals, and a three-dimensional A plane including the number of two-dimensional planes, the number of channels corresponding to each two-dimensional plane, and the division order of the two-dimensional plane based on a division direction that is a direction for dividing the space into a plurality of two-dimensional planes 3D space division unit for outputting information and further outputting channel mapping information indicating the position in the 2D plane of each speaker corresponding to each channel, and the 3D space based on the plane information and the channel mapping information By encoding a multi-channel audio signal to be output from a speaker arranged in a 2-dimensional plane as a single program A plane encoding unit that generates a coding element, generates plane position information including information indicating a channel arrangement in a two-dimensional plane, and outputs the coding element and the plane position information for each two-dimensional plane; A stream integration unit that generates a single encoded stream by outputting all of the encoding elements and plane position information output for each two-dimensional plane by the plane encoding unit. To do.

ここで、上記のストリーム統合部は、3次元空間に立体的に配置される複数チャンネルの音源情報の内、一部のチャンネルのみを復号化できるようにするための情報を平面位置情報として付加した1本の符号化ストリームを生成してもよい。   Here, the above-mentioned stream integration unit adds information for enabling decoding of only some of the plural channels of sound source information arranged in a three-dimensional space as plane position information. One encoded stream may be generated.

また、上記のストリーム統合部は、3次元空間に立体的に配置される複数チャンネルのオーディオ信号を複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報を付加した1本の符号化ストリームを生成するようにしてもよい。   In addition, the above stream integration unit has added conversion coefficient information for enabling reproduction of a multi-channel audio signal arranged three-dimensionally in a three-dimensional space into a signal converted to a number of channels smaller than the plurality of channels. One encoded stream may be generated.

上記の変換係数情報は、3次元空間に立体的に配置される少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していてもよい。   The above conversion coefficient information includes a filter coefficient corresponding to a head-related transfer function from the position of each speaker of a speaker with a small number of channels arranged in a three-dimensional space to the viewer's right ear, And a filter coefficient corresponding to the head-related transfer function up to the left ear.

また、本発明のオーディオ信号符号化装置は、上記の3次元空間分割部は、3次元空間に立体的に配置される複数のスピーカのうち、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力するスピーカの2次元平面における位置を示す情報も出力するようにし、上記の平面符号化部は、複数チャンネルのオーディオ信号とは別に、少ないチャンネル数に予め変換したオーディオ信号について、2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、第2の符号化要素と第2の平面位置情報とを2次元平面毎に出力するようにし、上記のストリーム統合部は、第2の符号化要素と第2の平面位置情報とを、複数チャンネルのオーディオ信号を2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した符号化要素と2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしてもよい。   Also, in the audio signal encoding device of the present invention, the three-dimensional space division unit described above is an audio signal that is converted in advance into a number of channels smaller than a plurality of channels among a plurality of speakers arranged three-dimensionally in a three-dimensional space. Information indicating the position of the speaker in the two-dimensional plane is also output, and the plane encoding unit described above is a two-dimensional plane for audio signals that have been converted into a small number of channels separately from the audio signals of a plurality of channels. A second encoding element is generated by performing encoding as a group of programs, and second plane position information including information indicating the channel arrangement in the two-dimensional plane is generated. The encoding element and the second plane position information are output for each two-dimensional plane, and the stream integration unit is configured to output the second encoding element and the second plane information. Plane position information, including plane position information including coding elements generated by encoding audio signals of a plurality of channels as a group of programs for each two-dimensional plane and information indicating channel arrangement in the two-dimensional plane; A single encoded stream integrated together may be generated and output.

また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、複数チャンネルのオーディオ信号よりも少ないチャンネル数に予め変換したオーディオ信号についても、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、第1及び第2の平面位置情報と第1及び第2の符号化要素とを複数の2次元平面のそれぞれについて分離する第1のステップと、第1のステップで分離された2次元平面毎の第1及び第2の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号と、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の第1及び第2の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号と、複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップとを含むことを特徴とする。   In order to achieve the above object, the audio signal decoding method of the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A first encoding element is generated by encoding a plurality of two-dimensional planes as a single program, and further, first plane position information including information indicating channel arrangement in the two-dimensional plane is generated. In addition, the second encoding is performed by encoding an audio signal that has been converted into a smaller number of channels than a plurality of channels of audio signals into a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Generating elements, and further generating second plane position information including information indicating the channel arrangement in the two-dimensional plane, and integrating them The first encoded stream is received as an input, and the first and second plane position information and the first and second encoded elements are separated from the encoded stream for each of a plurality of two-dimensional planes. 1 step and the first and second coding elements for each two-dimensional plane separated in the first step are respectively decoded and converted in advance into a multi-channel audio signal and a smaller number of channels than the plurality of channels. A second step of decoding into the audio signal, and combining the first and second plane position information for each two-dimensional plane separated in the first step, and decoding a plurality of channels of audio signals, Third order indicating the position of the speaker that outputs the audio signal of each channel of the audio signal converted in advance to the number of channels smaller than a plurality of channels Characterized in that it comprises a third step of generating the channel arrangement information.

また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルのオーディオ信号を複数チャンネルよりも少ないチャンネル数のオーディオ信号として再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離する第1のステップと、第1のステップで分離された2次元平面毎に符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の平面位置情報を合成して、複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られる第1のステップで分離された変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、複数チャンネルのオーディオ信号よりも少ないチャンネル数のオーディオ信号に変換する第4のステップとを含むことを特徴とする。   In order to achieve the above object, the audio signal decoding method of the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional It is obtained by generating conversion coefficient information including information indicating conversion coefficients so that audio signals of a plurality of channels arranged in space can be reproduced as audio signals having fewer channels than a plurality of channels, and integrating them. One encoded stream is received as an input, and plane position information and encoding elements are received from the encoded stream as a plurality of secondary Separating each of the planes, further separating the transform coefficient information, and decoding the encoding elements for each of the two-dimensional planes separated in the first step to form a multi-channel audio signal A second step of decoding and a three-dimensional position indicating the position of the speaker that outputs the audio signal of each channel of the audio signals of a plurality of channels by combining the plane position information for each two-dimensional plane separated in the first step A third step of generating channel arrangement information and the decoded multi-channel audio signal are multiplied by the transform coefficient information separated in the first step obtained based on the three-dimensional channel arrangement information. Audio signals with fewer channels than multi-channel audio signals so that they can be played back on two or more two-dimensional planes Characterized in that it comprises a fourth step of conversion.

また、上記の目的を達成するため、本発明のオーディオ信号復号化方法は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルのオーディオ信号を少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離する第1のステップと、第1のステップで分離された2次元平面毎に符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する第2のステップと、第1のステップで分離された2次元平面毎の平面位置情報を合成して、複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られる第1のステップで分離された変換係数情報を乗じて、複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換する第4のステップとを含むことを特徴とする。   In order to achieve the above object, the audio signal decoding method of the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional A single encoded stream obtained by generating transform coefficient information including information indicating transform coefficients for enabling reproduction of audio signals of a plurality of channels arranged in space with a small number of channels, and integrating them. Receiving as input and separating plane position information and coding elements from each of the plurality of two-dimensional planes from the encoded stream; A first step of separating the conversion coefficient information, a second step of decoding the encoding elements for each of the two-dimensional planes separated in the first step, and decoding into a multi-channel audio signal; 3rd channel arrangement information which shows the position of the speaker which outputs the audio signal of each channel of the audio signal of a plurality of channels by combining the plane position information for every two-dimensional plane separated in one step is generated. Multiplying the decoded multi-channel audio signal by the transform coefficient information separated in the first step obtained on the basis of the three-dimensional channel arrangement information to the 2-channel binaural from the multi-channel audio signal And a fourth step of converting into a signal.

また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離するストリーム分離部と、ストリーム分離部において分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部とを有することを特徴とする。   In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. Encoding elements are generated by encoding each group of two-dimensional planes as a single program, and plane position information including information indicating the channel arrangement in the two-dimensional plane is generated and integrated. And receiving a single encoded stream obtained as an input, and separating the plane position information and the encoding element from the encoded stream for each of a plurality of two-dimensional planes by the stream separator. A plane decoding unit that decodes the encoded elements for each two-dimensional plane and decodes them into audio signals of a plurality of channels; The three-dimensional channel arrangement information indicating the position of the speaker that outputs the audio signal of each channel of the decoded multi-channel audio signal is generated by synthesizing the plane position information for each two-dimensional plane separated by the segment separation unit. And a three-dimensional space synthesizing unit.

また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号についても、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、第1及び第2の平面位置情報と第1及び第2の符号化要素とを複数の2次元平面のそれぞれについて分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の第1及び第2の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号と、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の第1及び第2の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号と、予め変換した複数チャンネルよりも少ないチャンネル数のオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部とを有することを特徴とする。   In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A first encoding element is generated by encoding a plurality of two-dimensional planes as a single program, and further, first plane position information including information indicating channel arrangement in the two-dimensional plane is generated. In addition, a second encoding element is generated by encoding an audio signal having a smaller number of channels than a plurality of previously converted channels as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Furthermore, the second plane position information including information indicating the channel arrangement in the two-dimensional plane is generated, and one code obtained by integrating them is obtained. A stream separation unit that receives an encoded stream as an input and separates the first and second plane position information and the first and second encoded elements for each of a plurality of two-dimensional planes from the encoded stream; The first and second coding elements for each two-dimensional plane separated by the separation unit are respectively decoded and decoded into a plurality of channels of audio signals and audio signals with fewer channels than the plurality of channels converted in advance. By combining the first and second plane position information for each two-dimensional plane separated by the plane decoding unit and the stream separation unit, the decoded plural-channel audio signal and fewer than the pre-converted plural channels 3D channel indicating the position of the speaker that outputs the audio signal of each channel of the audio signal of the number of channels And having a three-dimensional space combining unit for generating location information.

また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルよりも少ないチャンネル数のオーディオ信号で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られるストリーム分離部で分離された変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、複数チャンネルよりも少ないチャンネル数のオーディオ信号に変換するダウンミックス部とを有することを特徴とする。   In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional One encoded stream obtained by generating transform coefficient information including information indicating transform coefficients for enabling reproduction with audio signals having a smaller number of channels than a plurality of channels arranged in space and integrating them From the encoded stream, the plane position information and the encoded elements are separated for each of a plurality of two-dimensional planes. A stream separation unit that separates transform coefficient information, a plane decoding unit that decodes the encoded elements for each two-dimensional plane separated by the stream separation unit, and decodes them into a multi-channel audio signal; and stream separation 3D to generate 3D channel arrangement information indicating the position of the speaker that outputs the audio signal of each channel of the decoded audio signals of a plurality of channels by combining the plane position information for each 2D plane separated by the unit Multiply the decoded multi-channel audio signal by the spatial coefficient unit and the transform coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and reproduce it on one or more two-dimensional planes. A downmix unit that converts the audio signal into a smaller number of channels than a plurality of channels. And wherein the door.

また、上記の目的を達成するため、本発明のオーディオ信号復号化装置は、3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される複数チャンネルよりも少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、平面位置情報と符号化要素とを複数の2次元平面のそれぞれについて分離し、さらに、変換係数情報を分離するストリーム分離部と、ストリーム分離部で分離された2次元平面毎の符号化要素をそれぞれ復号化して、複数チャンネルのオーディオ信号へと復号する平面復号化部と、ストリーム分離部で分離された2次元平面毎の平面位置情報を合成して、復号された複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、復号された複数チャンネルのオーディオ信号に対して、3次元チャンネル配置情報を基に得られるストリーム分離部で分離された変換係数情報を乗じて、複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換するダウンミックス部とを有することを特徴とする。   In order to achieve the above object, the audio signal decoding apparatus according to the present invention includes a plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space. A plurality of two-dimensional planes are encoded as a group of programs to generate an encoding element, and plane position information including information indicating channel arrangement in the two-dimensional plane is generated, and further, three-dimensional Generating transform coefficient information including information indicating transform coefficients for enabling reproduction with a smaller number of channels than a plurality of channels arranged in space, and using one encoded stream obtained by integrating them as an input Receiving, separating the plane position information and the coding element from each of the plurality of two-dimensional planes from the encoded stream, and further converting coefficient information The stream separation unit to be separated, the plane decoding unit that decodes the encoding elements for each two-dimensional plane separated by the stream separation unit, and decodes the audio signals of a plurality of channels, and the stream separation unit A three-dimensional space synthesis unit for synthesizing plane position information for each two-dimensional plane and generating three-dimensional channel arrangement information indicating a position of a speaker that outputs an audio signal of each channel of the decoded audio signals of a plurality of channels; The decoded multi-channel audio signal is multiplied by the conversion coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and converted from the multi-channel audio signal to the 2-channel binaural signal. And a downmix unit.

本発明のオーディオ信号符号化方法及び装置によれば、3次元空間に対応する音声信号の3次元空間における位置を明確に指定した3次元の音場再現が可能な符号化ストリームを生成することができる。   According to the audio signal encoding method and apparatus of the present invention, it is possible to generate an encoded stream capable of reproducing a three-dimensional sound field in which a position in a three-dimensional space of an audio signal corresponding to the three-dimensional space is clearly specified. it can.

また、本発明のオーディオ信号復号化方法及び装置によれば、符号化側で生成した3次元空間に対応する音声信号を2次元平面毎の音声信号に分割し、分割した2次元平面毎のオーディオ信号を符号化した符号化要素を、分割情報と平面でのチャンネル配置情報とを含めて統合した符号化ストリームを復号化するため、3次元空間における音源位置を明確に指定した3次元の音場再現ができる。   According to the audio signal decoding method and apparatus of the present invention, the audio signal corresponding to the three-dimensional space generated on the encoding side is divided into audio signals for each two-dimensional plane, and the divided audio for each two-dimensional plane is divided. A three-dimensional sound field that clearly specifies a sound source position in a three-dimensional space in order to decode a coded stream in which coding elements obtained by coding a signal are integrated including division information and channel arrangement information in a plane. Can be reproduced.

本発明のオーディオ信号符号化装置の一実施の形態のブロック図である。It is a block diagram of one embodiment of an audio signal encoding device of the present invention. 22.2chのスピーカ配置を示す図である。It is a figure which shows the speaker arrangement | positioning of 22.2ch. 図2に示すスピーカ配置の3次元空間を高さ方向に3つに分割した2次元平面のスピーカ配置(チャンネル位置)を示す図である。It is a figure which shows the speaker arrangement (channel position) of the two-dimensional plane which divided | segmented the three-dimensional space of the speaker arrangement shown in FIG. 2 into three in the height direction. 図3に示した3つの2次元平面の各対応要素(スピーカ位置)の3次元座標を示す図である。It is a figure which shows the three-dimensional coordinate of each corresponding element (speaker position) of three two-dimensional planes shown in FIG. 本発明により3つの2次元平面に分割して符号化して得られるMPEG準拠符号化ストリームの第1の例のフォーマットを示す図である。It is a figure which shows the format of the 1st example of the MPEG based encoding stream obtained by dividing | segmenting and encoding to three two-dimensional plane by this invention. 図5中のPCEの構成を、記述言語を用いて示した図である。It is the figure which showed the structure of PCE in FIG. 5 using the description language. 図1のオーディオ信号符号化装置により生成されるMPEG準拠符号化ストリームで定義されるPCEを記述言語を用いて表した図である。FIG. 2 is a diagram showing a PCE defined by an MPEG-compliant encoded stream generated by the audio signal encoding device of FIG. 1 using a description language. 図2に示すスピーカ配置の3次元空間を奥行き方向に3つに分割した2次元平面のスピーカ配置(チャンネル位置)を示す図である。It is a figure which shows the speaker arrangement (channel position) of the two-dimensional plane which divided | segmented the three-dimensional space of the speaker arrangement shown in FIG. 2 into the depth direction. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第2の例のフォーマットを示す図である。It is a figure which shows the format of the 2nd example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 図9にPCE3として示した5.1ch互換用PCEにおける設定例を示す図である。It is a figure which shows the example of a setting in PCE for 5.1ch compatibility shown as PCE3 in FIG. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例のフォーマットを示す図である。It is a figure which shows the format of the 3rd example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第4の例のフォーマットを示す図である。It is a figure which shows the format of the 4th example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第5の例のフォーマットを示す図である。It is a figure which shows the format of the 5th example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第6の例のフォーマットを示す図である。It is a figure which shows the format of the 6th example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第7の例のフォーマットを示す図である。It is a figure which shows the format of the 7th example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 図15中のDSE0の構成を、記述言語を用いて示した図である。It is the figure which showed the structure of DSE0 in FIG. 15 using the description language. 本発明のオーディオ信号復号化装置の第1の実施形態のブロック図である。It is a block diagram of 1st Embodiment of the audio signal decoding apparatus of this invention. 本発明のオーディオ信号復号化装置の第2の実施形態のブロック図である。It is a block diagram of 2nd Embodiment of the audio signal decoding apparatus of this invention. 図18中のダウンミックス部の一例のブロック図である。It is a block diagram of an example of the downmix part in FIG. 図19中のモード1ブロックの一例のブロック図である。It is a block diagram of an example of the mode 1 block in FIG. 本発明のオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第8の例のフォーマットを示す図である。It is a figure which shows the format of the 8th example of the encoding stream based on MPEG produced | generated by the audio signal encoding apparatus of this invention. 図20中の上層チャンネルダウンミックス部の一例の構成図である。It is a block diagram of an example of the upper layer channel downmix part in FIG. 図20中の中層チャンネルダウンミックス部の一例の構成図である。It is a block diagram of an example of the middle layer channel downmix part in FIG. 図20中の下層チャンネルダウンミックス部の一例の構成図である。It is a block diagram of an example of the lower layer channel downmix part in FIG. 図20中の5.1ch合成部の一例の構成図である。It is a block diagram of an example of the 5.1ch synthetic | combination part in FIG. 図19中のモード2ブロックの一例のブロック図である。It is a block diagram of an example of the mode 2 block in FIG. 図26中の2ch合成部の一例のブロック図である。FIG. 27 is a block diagram of an example of a 2ch combining unit in FIG. 26. 図19中のモード3ブロックの一例のブロック図である。It is a block diagram of an example of the mode 3 block in FIG. 図19中のモード4ブロックの一例のブロック図である。It is a block diagram of an example of the mode 4 block in FIG. 図18に示す本発明のオーディオ信号復号化装置におけるモード4のときの効果を説明するスピーカ配置の一例を示す図である。It is a figure which shows an example of the speaker arrangement | positioning explaining the effect at the time of the mode 4 in the audio signal decoding apparatus of this invention shown in FIG.

次に、本発明の実施の形態について図面と共に詳細に説明する。   Next, embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明になるオーディオ信号符号化装置の一実施の形態のブロック図を示す。同図に示すように、本実施の形態のオーディオ信号符号化装置10は、3次元空間分割部11と、3つの平面符号化部12、13及び14と、ストリーム統合部15とから構成され、外部からNチャンネル(Nは自然数)のオーディオ信号、分割方向、各チャンネルのオーディオ信号の3次元チャンネル配置情報を入力として受け、例えばMPEG準拠の符号化ストリームを出力する。   FIG. 1 shows a block diagram of an embodiment of an audio signal encoding apparatus according to the present invention. As shown in the figure, the audio signal encoding device 10 according to the present embodiment includes a three-dimensional space division unit 11, three plane encoding units 12, 13, and 14, and a stream integration unit 15. An externally received N-channel (N is a natural number) audio signal, division direction, and three-dimensional channel arrangement information of the audio signal of each channel are received as inputs, and an MPEG-compliant encoded stream is output, for example.

上記の「分割方向」は、Nチャンネルの各チャンネル毎のオーディオ信号がそれぞれ発音されるN個のスピーカが配置された、X軸,Y軸,Z軸の3軸からなる3次元空間を、2次元平面に分割するときの分割方向が、X−Y平面分割、X−Z平面分割、Y−Z平面分割の3種類のいずれであるかを示す情報である。なお、「分割方向」は必ずしも外部から入力される必要はなく、3次元空間分割部11は、X−Y平面分割、X−Z平面分割、Y−Z平面分割の内、いずれか1つの「分割方向」を常に使用するようにしてもよい。また、上記の「3次元チャンネル配置情報」は、入力されたNチャンネル(ch)のオーディオ信号が発音される3次元空間上の各チャンネルのスピーカ(あるいは音源)の配置位置を、聴取者の位置(リスニングポイント)を原点(0,0,0)としたときの、3次元座標(x,y,z)で示す情報である。更に、上記のNchオーディオ信号は、Nchのアナログオーディオ信号を各チャンネル別に、例えばパルス符号変調(PCM)して得られたデジタル信号である。   The above-mentioned “division direction” refers to a three-dimensional space composed of three axes of the X axis, the Y axis, and the Z axis in which N speakers each generating an audio signal for each of the N channels are arranged. This is information indicating whether the division direction when dividing into a three-dimensional plane is one of three types: XY plane division, XZ plane division, and YZ plane division. Note that the “division direction” is not necessarily input from the outside, and the three-dimensional space division unit 11 may select any one of “X-Y plane division, XZ plane division, and YZ plane division”. The “division direction” may always be used. Also, the above-mentioned “3D channel arrangement information” indicates the arrangement position of the speakers (or sound sources) of each channel on the 3D space where the input N channel (ch) audio signal is generated, and the position of the listener. This is information indicated by three-dimensional coordinates (x, y, z) where (listening point) is the origin (0, 0, 0). Further, the Nch audio signal is a digital signal obtained by subjecting an Nch analog audio signal to each channel, for example, pulse code modulation (PCM).

3次元空間分割部11は、分割方向と3次元チャンネル配置情報とに基づいて、3次元空間上に配置されたスピーカに対応するNチャンネルの音源に関する情報を、複数の2次元平面の音源に関する情報に分割し、平面情報と、分割された2次元平面上における音源位置を示すチャンネルマッピング情報とを出力する。平面情報には、平面総数、平面毎のチャンネル総数、平面分割順序を示す情報が含まれる。チャンネルマッピング情報は、各チャンネルと平面との関連付け、各チャンネルと平面内の位置(フロント、サイド、リア等)との関連付けを表す。   Based on the division direction and the three-dimensional channel arrangement information, the three-dimensional space division unit 11 obtains information on N-channel sound sources corresponding to speakers arranged in the three-dimensional space, and information on a plurality of two-dimensional plane sound sources. The plane information and channel mapping information indicating the sound source position on the divided two-dimensional plane are output. The plane information includes information indicating the total number of planes, the total number of channels for each plane, and the plane division order. The channel mapping information represents an association between each channel and a plane, and an association between each channel and a position (front, side, rear, etc.) in the plane.

平面符号化部12、13及び14は、3次元空間を分割して得られた3つの2次元の平面のうち、割り当てられた一平面毎に設けられており、上記の平面情報とチャンネルマッピング情報とに基づいて、平面に含まれる各チャンネルのオーディオ信号に対して例えばMPEG準拠の符号化方式により、ひとまとまりのプログラムとして符号化を行い、オーディオ信号そのものを符号化した際に得られるメインデータ(符号化データ)を意味する符号化要素(SCE、CPEエレメント)と、補助データとして、その平面内のチャンネル配置(フロント何チャンネル、サイド何チャンネル、リア何チャンネル)を示す情報を含む平面位置情報(PCEエレメント)とを出力する。   The plane encoding units 12, 13 and 14 are provided for each assigned plane among the three two-dimensional planes obtained by dividing the three-dimensional space, and the plane information and channel mapping information described above are provided. Based on the above, the main data obtained when the audio signal of each channel included in the plane is encoded as a group of programs by, for example, an MPEG-compliant encoding method, and the audio signal itself is encoded ( Plane position information (SCE, CPE element) meaning the encoded data) and plane position information including information indicating the channel arrangement (front channel, side channel, rear channel) in the plane as auxiliary data PCE element).

ここで、本実施の形態では、上記の符号化方式として、BSデジタル放送で使用されているMPEG−2 AAC符号化方式を例として説明する。なお、MPEG−4 AAC符号化方式でもよく、この符号化方式は、MPEG−2 AAC符号化方式に新たなオプションツールが追加された形であるので、MPEG−2 AAC符号化方式で代用することができる。なお、以下の説明では、両符号化方式をまとめて「MPEG−2/4 AAC」と記す。   Here, in this embodiment, an MPEG-2 AAC encoding method used in BS digital broadcasting will be described as an example of the above encoding method. The MPEG-4 AAC encoding method may be used, and this encoding method is a form in which a new optional tool is added to the MPEG-2 AAC encoding method. Therefore, the MPEG-2 AAC encoding method should be substituted. Can do. In the following description, both encoding methods are collectively referred to as “MPEG-2 / 4 AAC”.

ストリーム統合部15は、平面符号化部12、13及び14からそれぞれ出力された、3つの平面の平面位置情報と符号化要素とを統合して、1本のMPEG準拠(ここでは、MPEG−2/4 AAC)の符号化ストリームを生成して出力する。   The stream integration unit 15 integrates the plane position information and the encoding elements of the three planes output from the plane encoding units 12, 13, and 14 respectively, and integrates one MPEG compliant (here, MPEG-2). / 4 AAC) encoded stream is generated and output.

次に、本実施の形態のオーディオ信号符号化装置10の動作について詳細に説明する。ここでは、図2に示す22.2chの3次元のスピーカ配置による立体音場を生成するために、図2に示すスピーカ配置の3次元空間を、図3(A)〜(C)に示す3つの2次元平面に分割し、図5に示す構成のMPEG−2/4 AAC符号化ストリームを生成する例について説明する。   Next, the operation of the audio signal encoding device 10 of the present embodiment will be described in detail. Here, in order to generate the three-dimensional sound field by the 22.2ch three-dimensional speaker arrangement shown in FIG. 2, the three-dimensional space of the speaker arrangement shown in FIG. 2 is represented by 3 shown in FIGS. An example in which an MPEG-2 / 4 AAC encoded stream having the configuration shown in FIG. 5 is generated by dividing into two two-dimensional planes will be described.

図2は、22.2chを有する音響システムのスピーカ配置を示す。この22.2chを有する音響システムのスピーカ配置は、衛星デジタル放送の高度化(高度BS)において定義されている。図2に示すように、上層9チャンネル、中層10チャンネル、下層3チャンネル、LFE(Low Frequency Effect)2チャンネルによる合計22.2chにより、(幅×奥行き×高さ)の3次元空間が構築される。なお、LFEチャンネルは主に低音域の音声が割り当てられるチャンネルである。   FIG. 2 shows the speaker arrangement of an acoustic system with 22.2 ch. The speaker arrangement of the sound system having 22.2 ch is defined in the advancement of satellite digital broadcasting (advanced BS). As shown in FIG. 2, a three-dimensional space of (width × depth × height) is constructed by a total of 22.2 channels of the upper layer 9 channels, the middle layer 10 channels, the lower layer 3 channels, and the LFE (Low Frequency Effect) 2 channels. . The LFE channel is a channel to which mainly low-frequency sound is assigned.

この22.2chの3次元空間の立体音場を示す符号化ストリームを、BSデジタル放送と同様に、MPEG−2/4 AAC符号化方式により符号化して構築しようとする場合、前述したようにMPEG−2/4 AAC符号化方式では高さ方向を定義することができないので、基本的に現規格では符号化ストリームを構築することができない。   In the case where an encoded stream representing a 32.2 spatial space in 3D space is encoded by the MPEG-2 / 4 AAC encoding method in the same way as BS digital broadcasting, as described above, MPEG is used. Since the height direction cannot be defined in the −2/4 AAC encoding method, basically, the encoded stream cannot be constructed in the current standard.

そこで、本実施の形態では、図2に示した3次元空間(幅×奥行き×高さ)を、一例として3次元空間の高さ方向に分割して、図3(A)に示すように上層の9チャンネル(UFL,UFC,UFR,USL,USC,USR,UBL,UBC,UBR)を有する2次元平面と、図3(B)に示すように中層の10チャンネル(MFL,MFLC,MFC,MFRC,MFR,MSL,MSR,MBL,MBC,MBR)を有する2次元平面と、図3(C)に示すように下層3チャンネル(LFL,LFC,LFR)とLFE2チャンネル(LFEL,LFER)とからなる3.2チャンネルの下層部の2次元平面の3つに分割している。このように、3次元空間を高さ方向に分割することで、MPEG−2/4 AAC符号化方式における2次元平面のチャンネル配置を定義することが可能となる。なお、ここでは、一例として22.2ch音響システムに対応して3層に分割しているが、分割数を限定するものではない。同様に分割方向は高さ方向に限定するものではない。   Therefore, in the present embodiment, the three-dimensional space (width × depth × height) shown in FIG. 2 is divided in the height direction of the three-dimensional space as an example, and an upper layer as shown in FIG. 2 channels with 9 channels (UFL, UFC, UFR, USL, USC, USR, UBL, UBC, UBR) and 10 channels in the middle layer (MFL, MFLC, MFC, MFRC) as shown in FIG. , MFR, MSL, MSR, MBL, MBC, MBR), as shown in FIG. 3 (C), the lower 3 channels (LFL, LFC, LFR) and LFE2 channels (LFEL, LFER) 3.2 Divided into three channels in the two-dimensional plane of the lower layer of the channel. As described above, by dividing the three-dimensional space in the height direction, it is possible to define a channel arrangement on a two-dimensional plane in the MPEG-2 / 4 AAC encoding system. In addition, although divided | segmented into 3 layers here as an example corresponding to a 22.2ch sound system, the division | segmentation number is not limited. Similarly, the dividing direction is not limited to the height direction.

再び図1に戻って説明する。3次元空間分割部11は、入力される分割方向が一例としてX−Y分割を示しており、また、入力される3次元チャンネル配置情報として、表1に示す情報が入力されたものとする。   Returning again to FIG. As an example, the three-dimensional space dividing unit 11 indicates XY division as an input division direction, and information shown in Table 1 is input as input three-dimensional channel arrangement information.

Figure 2011066868
表1は、図2に示した22.2chのスピーカ配置の3次元空間を、図3(A)〜(C)に示した高さ方向に3つの2次元平面に分割したときの、3次元チャンネル配置情報と各チャンネルと図3(A)〜(C)及び図4(A)〜(C)に示す対応要素(スピーカ位置)との関係を示す。表1に示す3次元チャンネル配置情報は、図4(B)に示したリスナー位置を原点とした時の距離を示す。なお、図4(A)〜(C)は図3(A)〜(C)と同じ3つの2次元平面を示しており、更に各対応要素の3次元座標を示している。
Figure 2011066868
Table 1 shows the three-dimensional space when the two-dimensional speaker arrangement of 22.2ch shown in FIG. 2 is divided into three two-dimensional planes in the height direction shown in FIGS. The relationship between channel arrangement information, each channel, and the corresponding elements (speaker positions) shown in FIGS. 3 (A) to 3 (C) and FIGS. 4 (A) to 4 (C) is shown. The three-dimensional channel arrangement information shown in Table 1 indicates the distance when the listener position shown in FIG. 4A to 4C show the same three two-dimensional planes as in FIGS. 3A to 3C, and further show the three-dimensional coordinates of the corresponding elements.

3次元空間分割部11は、表1に示す3次元チャンネル配置情報に基づいて、平面総数と、平面毎のチャンネル総数と、平面分割順序とからなる平面情報を生成して出力する。ここで、上記の平面総数は2次元平面の総数であるので「3」、上記の平面毎のチャンネル総数は表2に示され、上記の平面分割順序は4ビット表現で例えば「0011」である。ここで、「0011」で表される平面分割順序は、X−Y分割で、上層部から中層部を経て下層部+LFEの順序で分割することを示す。なお、X−Y分割で、下層部+LFEから中層部を経て上層部への順序で分割する場合は、上記平面分割順序は「0010」とされる。また、分割しない場合は上記平面分割順序は「0000」とされる。   Based on the three-dimensional channel arrangement information shown in Table 1, the three-dimensional space division unit 11 generates and outputs plane information including the total number of planes, the total number of channels for each plane, and the plane division order. Here, the total number of planes is “2” because it is the total number of two-dimensional planes, the total number of channels for each plane is shown in Table 2, and the plane division order is “0011” in 4-bit representation, for example. . Here, the plane division order represented by “0011” indicates that the division is an XY division and the division is performed in the order of the lower layer portion + LFE from the upper layer portion through the middle layer portion. In addition, when dividing in the order from the lower layer portion + LFE to the upper layer portion through the middle layer portion in the XY division, the plane division order is “0010”. In the case of no division, the plane division order is “0000”.

Figure 2011066868
表2に示す平面毎のチャンネル総数は、オーディオ信号符号化装置10が後述する図5に示すフォーマットの符号化ストリームを生成する場合の例で、平面番号とチャンネル総数と図5の対応エレメントであるPCE(Program_Config_Element)との関係を示す。
Figure 2011066868
The total number of channels for each plane shown in Table 2 is an example in the case where the audio signal encoding apparatus 10 generates an encoded stream of the format shown in FIG. 5 to be described later, and is the plane number, the total number of channels, and the corresponding elements in FIG. The relationship with PCE (Program_Config_Element) is shown.

平面番号「0」は上層部の2次元平面を示し、そのチャンネル総数は図3(A)、図4(A)に示すように「9」である。また、平面番号「1」は中層部の2次元平面を示し、そのチャンネル総数は図3(B)、図4(B)に示すように「10」である。更に、平面番号「2」は下層部+LFEの2次元平面を示し、図3(C)、図4(C)に示すように3.2chであるので、そのチャンネル総数は「5」である。従って、全チャンネル総数はch0〜ch23の24チャンネルとなる。   The plane number “0” indicates the two-dimensional plane of the upper layer part, and the total number of channels is “9” as shown in FIGS. 3A and 4A. The plane number “1” indicates the two-dimensional plane of the middle layer, and the total number of channels is “10” as shown in FIGS. 3B and 4B. Further, the plane number “2” indicates a two-dimensional plane of the lower layer portion + LFE, and is 3.2 ch as shown in FIGS. 3C and 4C, and therefore the total number of channels is “5”. Therefore, the total number of all channels is 24 channels of ch0 to ch23.

また、3次元空間分割部11は、X−Y分割である場合、同じ高さ(Z軸)のチャンネルをまとめて一平面とし、また原点からのY軸の距離が同じものをフロント(front)、サイド(side)、バック(back)に分割する。また、センターのような単独チャンネルと、L/Rのようなペアチャンネルとの分離も行う。   Further, in the case of XY division, the three-dimensional space division unit 11 combines channels having the same height (Z axis) into one plane, and sets the same Y axis distance from the origin to the front. Divide into side, back. Also, a single channel such as the center is separated from a pair channel such as L / R.

これにより、3次元空間分割部11は、フロントチャンネルで単独チャンネルを示す「front single 識別」、フロントチャンネルでペアチャンネルを示す「front pair識別」、サイドチャンネルで単独チャンネルを示す「side single 識別」、サイドチャンネルでペアチャンネルを示す「side pair識別」、バックチャンネルで単独チャンネルを示す「back single 識別」、バックチャンネルでペアチャンネルを示す「back pair識別」、LFEチャンネルで単独チャンネルを示す「LFE single 識別」を各チャンネル毎に示すチャンネルマッピング情報を生成する。表3は、このチャンネルマッピング情報を示す。   Accordingly, the three-dimensional space division unit 11 performs “front single identification” indicating a single channel in the front channel, “front pair identification” indicating a pair channel in the front channel, “side single identification” indicating a single channel in the side channel, “Side pair identification” indicating a pair channel in the side channel, “back single identification” indicating a single channel in the back channel, “back pair identification” indicating a pair channel in the back channel, “LFE single identification” indicating a single channel in the LFE channel Is generated for each channel. Table 3 shows this channel mapping information.

Figure 2011066868
表3において、対応要素は、オーディオ信号符号化装置10が後述する図5に示すフォーマットの符号化ストリームを生成する場合の、そのフォーマットの対応要素を示す。
Figure 2011066868
In Table 3, the corresponding element indicates a corresponding element of the format when the audio signal encoding apparatus 10 generates an encoded stream of the format shown in FIG.

平面符号化部12は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、22.2chの入力オーディオ信号のうち、平面番号「0」の上層部の2次元平面の各チャンネルのオーディオ信号に対してMPEG−2/4 AAC符号化方式による符号化を行い、平面位置情報と符号化要素とを生成して出力する。   Based on the plane information and the channel mapping information from the three-dimensional space division unit 11, the plane encoding unit 12 has each channel of the two-dimensional plane of the upper layer of the plane number “0” in the 22.2ch input audio signal. The audio signal is encoded by the MPEG-2 / 4 AAC encoding method, and plane position information and encoding elements are generated and output.

また、平面符号化部12の符号化動作と並行して、平面符号化部13は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、平面番号「1」の中層部の2次元平面の各チャンネルのオーディオ信号に対して、また平面符号化部14は、3次元空間分割部11からの平面情報とチャンネルマッピング情報に基づいて、平面番号「2」の下層部+LFEの2次元平面の各チャンネルのオーディオ信号に対して、それぞれMPEG−2/4 AAC符号化方式による符号化を行い、平面位置情報と符号化要素とを生成して出力する。   In parallel with the encoding operation of the plane encoding unit 12, the plane encoding unit 13 determines the middle layer of the plane number “1” based on the plane information and the channel mapping information from the three-dimensional space division unit 11. For the audio signal of each channel of the two-dimensional plane, and the plane encoding unit 14, based on the plane information and the channel mapping information from the three-dimensional space division unit 11, the lower layer part of the plane number “2” + LFE 2 The audio signal of each channel on the dimension plane is encoded by the MPEG-2 / 4 AAC encoding method, and plane position information and encoding elements are generated and output.

このとき平面符号化部12〜14は、同一平面のチャンネルの符号化形態(チャンネルペアで符号化:CPE、シングルチャンネルで符号化:SCE)を、チャンネルマッピング情報を基に決定して符号化を行い、符号化要素を生成する。また、平面符号化部12〜14は、チャンネルマッピング情報から平面位置情報を生成する。これはストリーム中のプログラムコンフィグエレメント(PCE)に相当する。   At this time, the plane encoding units 12 to 14 determine the encoding mode of channels on the same plane (encoding with a channel pair: CPE, encoding with a single channel: SCE) based on the channel mapping information and encoding. To generate a coding element. In addition, the plane encoding units 12 to 14 generate plane position information from the channel mapping information. This corresponds to a program configuration element (PCE) in the stream.

ストリーム統合部15は、平面符号化部12〜14からそれぞれ出力された平面位置情報と符号化要素とから、MPEG−2/4 AAC符号化方式に準拠した符号化ストリームを生成して出力する。   The stream integration unit 15 generates and outputs an encoded stream compliant with the MPEG-2 / 4 AAC encoding method from the plane position information and the encoding elements output from the plane encoding units 12 to 14 respectively.

次に、オーディオ信号符号化装置10から出力されるMPEG準拠符号化ストリームの各例について説明する。   Next, examples of MPEG-compliant encoded streams output from the audio signal encoding device 10 will be described.

図5は、本発明により図2に示した22.2chの3次元空間を、図3(A)〜(C)に示すような3つの2次元平面に分割して符号化して得られるMPEG準拠符号化ストリームの第1の例のフォーマットを示す。このMPEG準拠符号化ストリームは、MPEG−2/4 AAC符号化方式で符号化されたストリームで、そのフォーマットは、ADTS(Audio_Data_Transport_Stream)フォーマットと呼ばれており、この図5(A)もADTSフォーマットに準拠している。   FIG. 5 shows an MPEG conformity obtained by dividing and encoding the 22.2 ch three-dimensional space shown in FIG. 2 into three two-dimensional planes as shown in FIGS. The format of the 1st example of an encoding stream is shown. This MPEG-compliant encoded stream is a stream encoded by the MPEG-2 / 4 AAC encoding method, and its format is called an ADTS (Audio_Data_Transport_Stream) format. FIG. 5A is also converted to the ADTS format. It is compliant.

図5(A)に示すように、符号化フォーマットは、1オーディオフレームに相当する「adts_frame」単位で時系列的に合成された構造である。「adts_frame」は、同期コード、フレーム長などの情報やCRCエラー検出コードを含む「adts_header」と呼ぶヘッダと、符号化したオーディオ情報がエレメントと呼ばれる単位にまとめられて収められたブロックである「raw_data_block」とからなる。   As shown in FIG. 5A, the encoding format has a structure synthesized in time series in units of “adts_frame” corresponding to one audio frame. “Adts_frame” is a block in which a header called “adts_header” including information such as a synchronization code, a frame length, and a CRC error detection code, and encoded audio information are stored in a unit called an element “raw_data_block” It consists of.

本実施の形態の符号化ストリームは、図5(A)、(B)に示すように、「raw_data_block」が、チャンネル情報用のPCE(Program_Config_Element)と、上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」と、スタッフィングビット用のFIL(File_element)と、フレームの終わりを示すEND(Terminator)とから構成される。   As shown in FIGS. 5A and 5B, the encoded stream according to the present embodiment includes “raw_data_block” including channel information PCE (Program_Config_Element), upper layer information “upper_layer”, and middle layer information “ middle_layer ", lower layer + LFE information" lower + LFE_layer ", stuffing bit FIL (File_element), and END (Terminator) indicating the end of the frame.

チャンネル情報用のPCEは図5(B)に示すように「PCE0」、「PCE1」、「PCE2」からなる。「PCE0」は、図1に示した平面符号化部12から出力された上層の平面位置情報である。同様に、「PCE1」、「PCE2」は、それぞれ図1に示した平面符号化部13、14から出力された中層と下層+LFEの平面位置情報である。   The PCE for channel information includes “PCE0”, “PCE1”, and “PCE2” as shown in FIG. “PCE0” is the plane position information of the upper layer output from the plane encoding unit 12 shown in FIG. Similarly, “PCE1” and “PCE2” are the plane position information of the middle layer and the lower layer + LFE output from the plane coding units 13 and 14 shown in FIG. 1, respectively.

上層の情報「upper_layer」は、図5(C)に示すように、フロントのSCE(Single_Channel_Element)0及びCPE(Channel_Pair_Element)0と、サイドのSCE1及びCPE1と、バック(リア)のSCE2及びCPE2とからなる。この上層の情報「upper_layer」は、図1に示した平面符号化部12から出力された符号化要素である。なお、ここでは、エレメントの名称とタグ番号(element_instance_tag)を一緒に記載している。例えば、SCEでタグ番号0を有するものを「SCE0」と記載している。   As shown in FIG. 5C, the upper layer information “upper_layer” is obtained from the front SCE (Single_Channel_Element) 0 and CPE (Channel_Pair_Element) 0, the side SCE1 and CPE1, and the back (rear) SCE2 and CPE2. Become. The upper layer information “upper_layer” is an encoding element output from the plane encoding unit 12 illustrated in FIG. 1. Here, the element name and the tag number (element_instance_tag) are described together. For example, an SCE having a tag number 0 is described as “SCE0”.

同様に、中層の情報「middle_layer」は、図5(D)に示すように、フロントのSCE3、CPE3及びCPE4と、サイドのCPE5と、バックのSCE4及びCPE6とからなる。この中層の情報「middle_layer」は、図1に示した平面符号化部13から出力された符号化要素である。また、下層+LFEの情報「lower+LFE_layer」は、図5(E)に示すように、フロントのSCE5及びCPE7と、LFEのLFE(LFE_Channel_Element)0及びLFE1とからなる。この下層+LFEの情報「lower+LFE_layer」は、図1に示した平面符号化部14から出力された符号化要素である。   Similarly, as shown in FIG. 5D, the middle layer information “middle_layer” includes front SCE3, CPE3, and CPE4, side CPE5, and back SCE4 and CPE6. The middle layer information “middle_layer” is an encoding element output from the plane encoding unit 13 illustrated in FIG. 1. Further, as shown in FIG. 5E, the lower layer + LFE information “lower + LFE_layer” includes front SCE 5 and CPE 7 and LFE LFE (LFE_Channel_Element) 0 and LFE 1. This lower layer + LFE information “lower + LFE_layer” is a coding element output from the plane coding unit 14 shown in FIG.

図6は、上記のPCEの構成を、記述言語を用いて示した図である。各名称の後ろには、ビット数とその単位(uimsbfは符号無し整数値、bslbfはビット列)を表している。先頭にある「element_innstance_tag」は、タグ番号であり、複数のPCEが存在した場合に、それらを区別することができる。「num_front_channel_elements」はフロントチャンネルに存在するエレメント数を表しており、同様に、サイドチャンネル用、バックチャンネル用、LFEチャンネル用にそれぞれ、「num_side_channel_elements」,「num_back_channnel_elements」, 「num_lfe_channel_elements」が存在する。   FIG. 6 is a diagram showing the configuration of the above PCE using a description language. Each name is followed by the number of bits and its unit (uimsbf is an unsigned integer value and bslbf is a bit string). “Element_innstance_tag” at the head is a tag number, and when there are a plurality of PCEs, they can be distinguished. “Num_front_channel_elements” represents the number of elements existing in the front channel. Similarly, “num_side_channel_elements”, “num_back_channnel_elements”, and “num_lfe_channel_elements” exist for the side channel, the back channel, and the LFE channel, respectively.

そして、そのエレメントがSCEであるかCPEであるかを区別する情報1ビットと、そのエレメントに付けられているタグ番号(element_instance_tag)と同一の情報が4ビットで追加される(例えば、「front_element_is_cpe」,「front_element_tag_select」)。LFEについてはチャンネルペアとして符号化されることはないので、SCE/CPEを区別する情報はなく、タグ番号だけが4ビットで追加される(lfe_element_tag_select)。   Then, 1 bit of information for identifying whether the element is SCE or CPE, and 4 bits of the same information as the tag number (element_instance_tag) attached to the element are added (for example, “front_element_is_cpe”) , "Front_element_tag_select"). Since LFE is not encoded as a channel pair, there is no information for distinguishing SCE / CPE, and only the tag number is added in 4 bits (lfe_element_tag_select).

図7は、本実施の形態のオーディオ信号符号化装置10により生成されるMPEG準拠符号化ストリームで定義されるPCEを記述言語を用いて表した図を示す。図7(A)は上層部に存在する9chを記述したPCE0、同図(B)は、中層部に存在する10chを記述したPCE1、同図(C)は下層部+LFEに存在する3.2chを記述したPCE2の構成を記述言語を用いて示す。このように、本実施の形態によれば、PCE0、PCE1、PCE2は問題なく定義できることが分かる。   FIG. 7 is a diagram showing the PCE defined by the MPEG-compliant encoded stream generated by the audio signal encoding apparatus 10 of the present embodiment using a description language. 7A shows PCE0 describing 9ch existing in the upper layer part, FIG. 7B shows PCE1 describing 10ch existing in the middle layer part, and FIG. 7C shows 3.2ch existing in the lower layer part + LFE. The configuration of PCE2 that describes is described using a description language. Thus, according to this embodiment, it can be seen that PCE0, PCE1, and PCE2 can be defined without problems.

このように、本実施の形態では、22.2chを有する1つのプログラムは、高さ方向に分割された3プログラムから構成されるものとして分割し、図5(B)に示すように符号化ストリームに現れるPCE0を上層用、2番目に現れるPCE1を中層用、最後に現れるPCE2を低層+LFE用と定義する。そして、分割された2次元平面に含まれるチャンネルをMPEG−2/4 AAC符号化方式により符号化して各プログラムを構成し、ストリーム統合部15が全てのプログラムを統合することで、MPEG規格に準拠し、かつ、3次元空間に対応した符号化ストリームを構築することができる。   As described above, in this embodiment, one program having 22.2 ch is divided as being composed of three programs divided in the height direction, and an encoded stream is obtained as shown in FIG. PCE0 that appears in the upper layer is defined as the upper layer, PCE1 that appears second is the middle layer, and PCE2 that appears last is defined as the lower layer + LFE. Then, the channels included in the divided two-dimensional plane are encoded by the MPEG-2 / 4 AAC encoding method to configure each program, and the stream integration unit 15 integrates all the programs, thereby conforming to the MPEG standard. In addition, an encoded stream corresponding to a three-dimensional space can be constructed.

このように、本実施の形態によれば、3次元空間用のチャンネル配置の定義を追加することなく、3次元の音源位置を明確に指定した3次元の音場再現が可能なMPEG−2/4AAC規格に準拠した符号化ストリームを生成することができる。また、本実施の形態によれば、3つの2次元平面のそれぞれの符号化要素をストリーム統合して1本の符号化ストリームを生成しており、独立した符号化ストリームを多重化しないため、冗長な情報が存在せず、伝送効率の良いオーディオ信号符号化ができる。   As described above, according to the present embodiment, MPEG-2 / which can reproduce a three-dimensional sound field in which a three-dimensional sound source position is clearly specified without adding a definition of channel arrangement for a three-dimensional space. An encoded stream compliant with the 4AAC standard can be generated. In addition, according to the present embodiment, each encoded element of the three two-dimensional planes is stream-integrated to generate one encoded stream, and independent encoded streams are not multiplexed. Audio information can be encoded with good transmission efficiency.

更に、本実施の形態によれば、多重器を用いることなく、1個のオーディオ信号符号化装置10により22.2chのオーディオ信号の符号化を行うことができるので回路規模を比較的小規模とすることができる。更に、本実施の形態によれば、符号化ストリームから、選択した2次元平面に関するストリーム情報だけを抜き出して復号することができる。   Furthermore, according to the present embodiment, since a single audio signal encoding apparatus 10 can encode a 22.2 channel audio signal without using a multiplexer, the circuit scale can be made relatively small. can do. Furthermore, according to the present embodiment, it is possible to extract and decode only stream information relating to the selected two-dimensional plane from the encoded stream.

なお、高度BSに関する答申は、電波産業会(ARIB:Association of Radio Industries and Businesses)より答申されたものであること、従来からARIB標準規格STD-B32において、MPEG規格の使用制限、厳密化を行っていることから、本実施の形態のように平面位置情報であるPCEと分割した2次元平面の符号化要素との対応を示す定義を追記することは、特に問題にならない。MPEG国際標準規格を修正して、日本のローカル放送方式に対応することの方が問題は大きい。   In addition, the report on advanced BS is a report from the Association of Radio Industries and Businesses (ARIB), and the ARIB standard STD-B32 has traditionally restricted and tightened the use of MPEG standards. Therefore, it is not particularly problematic to add a definition indicating the correspondence between the PCE that is the plane position information and the encoded elements of the divided two-dimensional plane as in the present embodiment. It is more problematic to modify the MPEG international standard to support Japanese local broadcasting.

なお、上記の実施の形態では、図2に示した3次元空間(幅×奥行き×高さ)を、3次元空間の高さ方向に分割(すなわち、前記のX−Y分割)して2次元平面を得るようにしたが、分割方法はこれに限定されるものではない。例えば、図8(A)〜(C)に示すように、奥行き方向に分割(X−Z分割)して、3つの2次元平面(幅×高さ)を得て、各2次元平面のチャンネルのオーディオ信号毎に符号化するようにしてもよい。X−Z分割の場合は、同じ奥行き(Y軸)のチャンネルをまとめて一平面とする。図8(A)は、3次元空間の奥行き方向の分割により、前方部を有する2次元平面のチャンネル位置(スピーカ位置)を示す。図8(B)は、中方部を有する2次元平面のチャンネル位置(スピーカ位置)、図8(C)は、後方部を有する2次元平面のチャンネル位置(スピーカ位置)を示す。   In the above embodiment, the three-dimensional space (width × depth × height) shown in FIG. 2 is divided in the height direction of the three-dimensional space (that is, the above-described XY division) to obtain a two-dimensional space. Although a plane is obtained, the dividing method is not limited to this. For example, as shown in FIGS. 8A to 8C, division in the depth direction (XZ division) is performed to obtain three two-dimensional planes (width × height), and channels of each two-dimensional plane. It may be encoded for each audio signal. In the case of XZ division, channels having the same depth (Y axis) are combined into one plane. FIG. 8A shows a channel position (speaker position) on a two-dimensional plane having a front portion by dividing the three-dimensional space in the depth direction. FIG. 8B shows a channel position (speaker position) on a two-dimensional plane having a middle part, and FIG. 8C shows a channel position (speaker position) on a two-dimensional plane having a rear part.

この例の場合、2種類のデフォルト定義が必要となる。第1のデフォルト定義は、高さ方向の分割と同様に、22.2chを有する1番組(プログラム)は、奥行き方向に分割された3プログラムから構成されるものとし、一例として、符号化ストリームに最初に現れるPCE0を前方+LFE用、2番目に現れるPCE1を中方用、最後に現れるPCE2を後方用と定義することである。   In this example, two types of default definitions are required. The first default definition is that, as with the division in the height direction, one program (program) having 22.2 ch is composed of three programs divided in the depth direction. PCE0 that appears first is for forward + LFE, PCE1 that appears second is for the middle, and PCE2 that appears last is for the rear.

第2の定義は、フロントチャンネル、サイドチャンネル、バックチャンネルの定義が明確でなくなるため、一例として、下層部をフロントチャンネルにより対応し、中層部をサイドチャンネルにより対応し、上層部をバックチャンネルにより対応するものと定義することである。   In the second definition, the definition of the front channel, side channel, and back channel is not clear. For example, the lower layer corresponds to the front channel, the middle layer corresponds to the side channel, and the upper layer corresponds to the back channel. It is to define what to do.

以上のように定義することで、3次元空間に配置された22.2chの音源位置を持つオーディオ信号を、MPEG規格に準拠した符号化方式(ここでは、MPEG−2/4AAC符号化方式)で符号化された符号化ストリームを構築することができる。このような奥行き方向の分割を行うメリットは、前方からの距離が一定で、水平角は同一であるので、違いが仰角による伝搬時間の違いだけとなり、各2次元平面内の存在する音源間の相関が高いと考えられるためである。   By defining as described above, an audio signal having a sound source position of 22.2ch arranged in a three-dimensional space is encoded by an encoding method compliant with the MPEG standard (in this case, MPEG-2 / 4 AAC encoding method). An encoded encoded stream can be constructed. The merit of such a division in the depth direction is that the distance from the front is constant and the horizontal angle is the same, so the difference is only the difference in propagation time due to the elevation angle, and between the sound sources existing in each two-dimensional plane This is because the correlation is considered high.

なお、上記のX−Y分割やX−Z分割以外に、Y−Z分割も可能である。このY−Z分割では、同じ幅(X軸)のチャンネルをまとめて一平面とするものである。このY−Z分割では原点からのZ軸からの距離が同じものをフロント、サイド、リニアに分類する。なお、前記の4ビットの平面分割順序は、X−Z分割の場合は、スピーカ配置において前方から後方への分割順序かその逆の順序かを示し、Y−Z分割の場合は、左方から右方への分割順序かその逆の順序かを予め定められた4ビットの値で示す。   In addition to the above XY division and XZ division, YZ division is also possible. In this YZ division, channels having the same width (X axis) are combined into one plane. In this YZ division, those having the same distance from the Z axis from the origin are classified into front, side, and linear. In the case of XZ division, the 4-bit plane division order indicates the division order from the front to the rear in the speaker arrangement or the reverse order, and in the case of YZ division, the left side is the left side. The division order to the right or the reverse order is indicated by a predetermined 4-bit value.

次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第2の例について説明する。   Next, a second example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention will be described.

図9は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第2の例のフォーマットを示す。図9に示す第2の例のフォーマットは、図5に示した高さ方向の分割による3次元空間用符号化ストリームに、図9(B)にPCE3で示すように5.1ch互換用PCEを追加したものである。このPCE3は、3次元空間に配置された22.2chよりも少ないチャンネル数からなる既存のサラウンドシステムで用いられる音声と同じ音源位置にある情報だけを復号化できるようにするための平面位置情報であり、ストリーム統合部15が平面位置情報に基づいて生成し、符号化ストリームに付加する。   FIG. 9 shows the format of the second example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding apparatus according to the present invention. The format of the second example shown in FIG. 9 is obtained by adding 5.1ch compatible PCE as shown by PCE3 in FIG. 9B to the encoded stream for three-dimensional space by dividing in the height direction shown in FIG. It is added. This PCE3 is plane position information for decoding only the information at the same sound source position as the voice used in the existing surround system having the number of channels smaller than 22.2ch arranged in the three-dimensional space. Yes, the stream integration unit 15 generates based on the plane position information and adds it to the encoded stream.

図9(D)に示す中層の符号化要素(エレメント)のうち、5.1chのセンターチャネルをMFCの要素SCE3で代用し、5.1chのフロントレフト、ライトチャンネルのMFL及びMFRの要素CPE4で代用する。そして、5.1chのバックレフト、ライトをMBL及びMBRの要素CPE6で代用する。また、図9(E)に示す下層+LFEの符号化要素(エレメント)のうち、5.1chのLFEを要素LFE0で代用する。なお、5.1chのサラウンドシステムを例としたが、以上の様に、3次元空間に配置された22.2chの内、一部のチャンネルのみを復号化するための情報を付加することで、5.1chだけでなく7.1chや9.1chなどの既存のサラウンドシステムにも同様にして対応することができる。   Among the coding elements (elements) in the middle layer shown in FIG. 9 (D), the 5.1ch center channel is substituted with the MFC element SCE3, the 5.1ch front left, the right channel MFL and the MFR element CPE4. to substitute. Then, the 5.1ch backleft and right are substituted by the MBL and MBR element CPE6. Further, among the lower layer + LFE encoding elements (elements) shown in FIG. 9E, the 5.1ch LFE is substituted with the element LFE0. In addition, although the 5.1ch surround system was taken as an example, as described above, by adding information for decoding only some of the 22.2ch arranged in the three-dimensional space, In addition to 5.1ch, existing surround systems such as 7.1ch and 9.1ch can be similarly handled.

このようにして、第2の例のフォーマットのMPEG準拠の符号化ストリームを復号化した際、5.1chサラウンドシステムでの再生を可能とするため、復号化した22.2ch信号をダウンミックスして5.1ch信号を生成するのではなく、復号化の時点で5.1chに対応したストリーム部分(斜線部)だけを復号化して、5.1ch信号を生成することが可能となる。   In this way, when the MPEG-compliant encoded stream in the format of the second example is decoded, the decoded 22.2ch signal is downmixed to enable playback in the 5.1ch surround system. Instead of generating a 5.1ch signal, it is possible to generate a 5.1ch signal by decoding only the stream portion (hatched portion) corresponding to 5.1ch at the time of decoding.

また、この第2の例のフォーマットのMPEG準拠の符号化ストリームでは、中層と下層+LFEに復号すべきエレメントが及んでいるので、デコード処理の最適化を図ることからも、中層においてLFEも処理するように中層のチャンネル数を10.1chとして符号化ストリームを構成しておくことも可能である。また、5.1ch出力に関係するエレメントだけを1プログラムとして定義した符号化ストリーム構成としてもよい。   In addition, in the MPEG-compliant encoded stream of the format of the second example, the elements to be decoded reach the middle layer and the lower layer + LFE, so that the LFE is also processed in the middle layer in order to optimize the decoding process. As described above, the encoded stream can be configured with the number of channels in the middle layer set to 10.1 ch. Moreover, it is good also as an encoding stream structure which defined only the element relevant to 5.1ch output as one program.

図10は、図9(B)にPCE3として示した5.1ch互換用PCEにおける設定例を示す。この5.1ch互換用PCEは、従来知られている5.1ch用PCEと比較して対応するエレメントのタグ番号だけが異なる。   FIG. 10 shows a setting example in the 5.1ch compatible PCE shown as PCE3 in FIG. The 5.1ch compatible PCE differs from the conventionally known 5.1ch PCE only in the tag number of the corresponding element.

次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例について説明する。   Next, a third example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention will be described.

図11は、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第3の例のフォーマットを示す。図11に示す第3の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号をAAC+SBR符号化方式により符号化して構築した符号化ストリームのフォーマットである。   FIG. 11 shows the format of the third example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention. The format of the third example shown in FIG. 11 is obtained by encoding the 22.2 channel audio signal reproduced by the audio signal encoding apparatus according to the present invention with the 22.2 channel speaker arrangement shown in FIG. 2 using the AAC + SBR encoding method. This is a format of an encoded stream constructed by converting into a format.

SBR(Spectral Band Replication)は、AACのオプションツールとしてMPEGにて2003年に追加された技術である。AAC+SBR符号化方式は、通常のAAC符号化では高音質の実現が困難な低ビットレートにおいて、1/2サンプリング周波数を用いてAAC規格で符号化し、それにより破棄される高域成分については、低域成分から予測復元される高域成分の推定値と原信号の高域成分との差を基に補完情報を生成し、AAC符号化ストリーム中のFILに多重するものである。   SBR (Spectral Band Replication) is a technology added in 2003 as an AAC option tool in MPEG. The AAC + SBR encoding method uses the AAC standard with a 1/2 sampling frequency at a low bit rate, where high sound quality is difficult to achieve with normal AAC encoding. Complement information is generated based on the difference between the estimated value of the high frequency component that is predicted and restored from the frequency component and the high frequency component of the original signal, and is multiplexed on the FIL in the AAC encoded stream.

図11に示すフォーマットでは、図5に示した第1の例のフォーマットと同様に、22.2chを有する1番組は、高さ方向に分割された3プログラムから構成されるものとして分割を行い、図11(B)に示すようにストリームに最初に現れるPCE0を上層用、2番目に現れるPCE1を中層用、最後に現れるPCE2を低層+LFE用と定義する。そして、このフォーマットでは、図11(C)〜(E)に示すように「raw_data_block」中に上層、中層、下層部+LFEに含まれるメインオーディオ用のエレメントSCE、CPEを持ち、各エレメントSCE、CPEの後ろにSBR情報を含むFIL SBRを連続させている。   In the format shown in FIG. 11, similarly to the format of the first example shown in FIG. 5, one program having 22.2 ch is divided as being composed of three programs divided in the height direction, As shown in FIG. 11B, PCE0 that appears first in the stream is defined as the upper layer, PCE1 that appears second is defined as the middle layer, and PCE2 that appears last is defined as the low layer + LFE. In this format, as shown in FIGS. 11C to 11E, “raw_data_block” includes main audio elements SCE and CPE included in the upper layer, the middle layer, and the lower layer part + LFE, and each element SCE and CPE The FIL SBR including the SBR information is continued behind.

上記のAAC+SBR符号化は、図1に示した平面符号化部12〜14により行う。このようにして、図11に示すMPEG規格に準拠した3次元空間用AAC+SBR符号化ストリームを構築することができる。   The AAC + SBR encoding is performed by the plane encoding units 12 to 14 illustrated in FIG. In this way, it is possible to construct a three-dimensional space AAC + SBR encoded stream compliant with the MPEG standard shown in FIG.

次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第4の例について説明する。   Next, a fourth example of the MPEG-compliant encoded stream generated by the audio signal encoding apparatus according to the present invention will be described.

図12は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第4の例のフォーマットを示す。図12に示す第4の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、既存の5.1chのサラウンドオーディオ信号との互換再生が可能なように符号化して構築した符号化ストリームのフォーマットである。   FIG. 12 shows the format of the fourth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding apparatus according to the present invention. The format of the fourth example shown in FIG. 12 includes the 22.2 ch audio signal reproduced by the audio signal encoding apparatus according to the present invention and the 22.2 ch speaker arrangement shown in FIG. 2, and the existing 5.1 ch. This is a format of an encoded stream constructed by encoding so as to be compatible with the surround audio signal.

この図12に示すフォーマットは、図9に示したフォーマットと同様に、図5に示した高さ方向の分割による3次元空間用符号化ストリームに、図12(B)に示すように5.1ch互換用PCE3を追加した点で図9に示したフォーマットと類似している。しかし、この図12に示すフォーマットは、図12(D)に示すように、中層の符号化要素(エレメント)として、5.1chのフロントチャネルのMFCの要素SCE3、ミドルチャネルのMFL及びMFRの要素CPE4、及びバックチャネルのMBL及びMBRの要素CPE6だけでなく、5.1chのLFEの要素LFE0も含む点で図9に示したフォーマットと異なる。   The format shown in FIG. 12 is similar to the format shown in FIG. 9 in the encoded stream for three-dimensional space by the height direction division shown in FIG. 5, and 5.1ch as shown in FIG. It is similar to the format shown in FIG. 9 in that a compatible PCE3 is added. However, as shown in FIG. 12D, the format shown in FIG. 12 includes 5.1ch front channel MFC element SCE3, middle channel MFL and MFR elements as a middle layer encoding element (element). 9 is different from the format shown in FIG. 9 in that it includes not only CPE4 and backchannel MBL and MBR element CPE6 but also 5.1ch LFE element LFE0.

図9に示したフォーマットの場合は、CPE6をデコードした後、SCE5及びCPE7を読み捨ててLFE0のデコードを行う必要があったのに対し、この図12に示すフォーマットでは、CPE6をデコードした後、直ちにLFE0のデコードを行うことができる。   In the case of the format shown in FIG. 9, after decoding CPE6, SCE5 and CPE7 had to be read and discarded to decode LFE0, whereas in the format shown in FIG. 12, immediately after decoding CPE6, LFE0 can be decoded.

次に、本発明になるオーディオ信号符号化装置により生成されるMPEG準拠の符号化ストリームの第5の例について説明する。   Next, a fifth example of the MPEG-compliant encoded stream generated by the audio signal encoding device according to the present invention will be described.

図13は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第5の例のフォーマットを示す。図13に示す第5の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、既存の5.1chのサラウンドオーディオ信号との互換再生が可能なように符号化して構築した符号化ストリームのフォーマットである点は、図9及び図12に示したフォーマットと同様であるが、このフォーマットは5.1chに関係するエレメントだけを1プログラムとして定義したものである。   FIG. 13 shows the format of a fifth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. The format of the fifth example shown in FIG. 13 includes the 22.2 ch audio signal reproduced by the audio signal encoding apparatus according to the present invention and the 22.2 ch speaker arrangement shown in FIG. 2, and the existing 5.1 ch. The format of the encoded stream constructed by encoding so as to be compatible with the surround audio signal is the same as the format shown in FIGS. 9 and 12, but this format is 5.1 ch. Only relevant elements are defined as one program.

すなわち、図13(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を5.1ch用とし、2番目に現れるエレメントPCE1を高さ方向に分割したときの上層用、3番目に現れるエレメントPCE2を高さ方向に分割したときの中層用、4番目に現れるエレメントPCE3を高さ方向に分割したときの下層+LFE用と定義する。上記のPCE0は、図9(B)に示したPCE3と同様、5.1ch、7.1ch、9.1chなどの既存のサラウンド音声と同じ音源位置にある情報だけを復号化できるようにするための平面位置情報である。ストリーム統合部15が平面位置情報に基づいて上記のPCEを生成し、符号化ストリームに統合する。   That is, as shown in FIG. 13B, in the encoded stream format of this example, the element PCE0 that appears first in the encoded stream is for 5.1ch, and the element PCE1 that appears second is divided in the height direction. For the upper layer, when the element PCE2 that appears third is divided in the height direction, for the middle layer when the element PCE2 appears fourth, and for the lower layer + LFE when the element PCE3 that appears fourth is divided in the height direction. The above PCE0 is similar to the PCE3 shown in FIG. 9B, so that only information in the same sound source position as the existing surround sound such as 5.1ch, 7.1ch, 9.1ch, etc. can be decoded. Is the plane position information. The stream integration unit 15 generates the PCE based on the plane position information and integrates it into the encoded stream.

更に、図13(B)に示すように、このフォーマットでは、エレメントPCE3に続いて、5.1chの情報「5.1ch compatible_layer」を配置し、続いて上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」を順番に配置した点に特徴がある。5.1chの情報「5.1ch compatible_layer」は、図13(C)に示される。ストリーム統合部が、各符号化要素を基に「5.1ch compatible_layer」を符号化ストリームに付加する。   Furthermore, as shown in FIG. 13B, in this format, 5.1ch information “5.1ch compatible_layer” is arranged after element PCE3, followed by upper layer information “upper_layer” and middle layer information “middle_layer”. ”And information“ lower + LFE_layer ”of the lower layer + LFE are arranged in order. The 5.1ch information “5.1ch compatible_layer” is illustrated in FIG. The stream integration unit adds “5.1ch compatible_layer” to the encoded stream based on each encoded element.

このフォーマットの符号化ストリームを復号化する際に、5.1ch再生を選択した場合は、図13(B)に示すPCE0のデコードに続いて、5.1chの情報「5.1ch compatible_layer」だけをデコードし、続く2次元平面の上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」は読み飛ばすことで、図9や図12に示したフォーマットの符号化ストリームをデコードする場合に比べて、再生処理が高速化できる。   If 5.1ch playback is selected when decoding an encoded stream of this format, only 5.1ch information “5.1ch compatible_layer” is decoded following the decoding of PCE0 shown in FIG. Then, the upper layer information “upper_layer”, the middle layer information “middle_layer”, and the lower layer + LFE information “lower + LFE_layer” are skipped and the encoded stream of the format shown in FIG. 9 or FIG. The playback process can be speeded up as compared with the case of decoding.

図14は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第6の例のフォーマットを示す。図14に示す第6の例のフォーマットは、図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号と、22.2chのオーディオ信号を5.1chにダウンミックスした信号を同時に本発明になるオーディオ信号符号化装置に入力し、それぞれを符号化して、一本の符号化ストリームにしたものである。   FIG. 14 shows the format of a sixth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. The format of the sixth example shown in FIG. 14 is a signal obtained by downmixing a 22.2 channel audio signal reproduced with the 22.2 channel speaker arrangement shown in FIG. 2 and a 22.2 channel audio signal to 5.1 channel. Are simultaneously input to the audio signal encoding apparatus according to the present invention, and each is encoded into one encoded stream.

この第6の例のフォーマットの符号化ストリームを生成する本発明になるオーディオ信号符号化装置は、図1に示した平面符号化部12〜14に、更に一つの平面符号化部を追加した構成である。これにより、22.2chのオーディオ信号については、図1に示した平面符号化部12〜14が、MPEG−2/4 AAC符号化方式の符号化ストリームの第1の例を生成する場合と同様に、図3(A)〜(C)に示すような3つの2次元平面に分割して符号化する。一方、5.1chダウンミックス信号については、新たに追加された一つの平面符号化部が新たな1プログラムとして符号化し、符号化要素を生成する。そして、図1のストリーム統合部15において、22.2chのオーディオ信号と、5.1chダウンミックス信号に関する、全ての符号化要素と全ての平面位置情報とを統合して、MPEG準拠の符号化ストリームを構築する。   The audio signal encoding apparatus according to the present invention for generating the encoded stream of the format of the sixth example has a configuration in which one plane encoding unit is further added to the plane encoding units 12 to 14 shown in FIG. It is. As a result, the 22.2ch audio signal is the same as when the plane encoding units 12 to 14 shown in FIG. 1 generate the first example of the encoded stream of the MPEG-2 / 4 AAC encoding method. Then, the data is divided into three two-dimensional planes as shown in FIGS. On the other hand, for the 5.1ch downmix signal, one newly added plane encoding unit encodes it as a new program, and generates an encoding element. 1 integrates all the encoding elements and all the plane position information regarding the 22.2ch audio signal and the 5.1ch downmix signal in the stream integration unit 15 in FIG. Build up.

また、図14(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を5.1chダウンミックス信号用とし、2番目に現れるエレメントPCE1を高さ方向に分割したときの上層用、3番目に現れるエレメントPCE2を高さ方向に分割したときの中層用、4番目に現れるエレメントPCE3を高さ方向に分割したときの下層+LFE用と定義している。   Also, as shown in FIG. 14B, the encoded stream format in this example is such that the element PCE0 that appears first in the encoded stream is used for the 5.1ch downmix signal, and the element PCE1 that appears second is the height. It is defined as the upper layer when divided in the direction, the middle layer when the element PCE2 that appears third is divided in the height direction, and the lower layer + LFE when the element PCE3 that appears fourth is divided in the height direction .

更に、図14(B)に示すように、このフォーマットでは、エレメントPCE3に続いて、5.1chダウンミックス信号の情報「5.1ch downmix_layer」を配置し、続いて上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」を順番に配置した点に特徴がある。5.1chダウンミックス信号の情報「5.1ch downmix_layer」は、図14(C)に示される。   Furthermore, as shown in FIG. 14 (B), in this format, 5.1ch downmix signal information “5.1ch downmix_layer” is arranged subsequent to element PCE3, followed by upper layer information “upper_layer”, middle layer information Information “middle_layer” and lower layer + LFE information “lower + LFE_layer” are arranged in order. The information “5.1ch downmix_layer” of the 5.1ch downmix signal is shown in FIG.

このフォーマットの符号化ストリームを復号化する際に、5.1ch再生を選択した場合は、図14(B)に示すPCE0のデコードに続いて、5.1chダウンミックス信号の情報「5.1ch downmix_layer」だけをデコードし、続く2次元平面の上層の情報「upper_layer」、中層の情報「middle_layer」、及び下層+LFEの情報「lower+LFE_layer」は読み飛ばすことで、図9や図12に示したフォーマットの符号化ストリームをデコードする場合に比べて、再生処理が高速化できる。また、予め22.2ch信号とは別に、5.1ch信号を生成しているため、この例のフォーマットの符号化ストリームを復号化した場合は、ダウンミックス係数によりデジタルデータ的に加算する場合に比べて、コンテンツの音質及び、音楽表現は向上する。   If 5.1ch playback is selected when decoding an encoded stream of this format, 5.1ch downmix signal information “5.1ch downmix_layer” follows PCE0 decoding shown in FIG. 14B. Only the upper layer information “upper_layer”, the middle layer information “middle_layer”, and the lower layer + LFE information “lower + LFE_layer” are skipped, and the format shown in FIG. 9 and FIG. The playback process can be speeded up as compared to the case of decoding the encoded stream. In addition, since the 5.1ch signal is generated separately from the 22.2ch signal in advance, when the encoded stream of the format of this example is decoded, it is compared with the case of adding digital data with the downmix coefficient. Thus, the sound quality and music expression of the content are improved.

Figure 2011066868
表4は、表1に5.1chダウンミックス信号に関する情報を追加したものである。表4は、5.1chダウンミックス信号の3次元チャンネル配置情報と各チャンネルと図3(A)〜(C)及び図4(A)〜(C)に示す対応要素(スピーカ位置)との関係を示している。ここでは、5.1chダウンミックス信号は、中層部に位置するものとしている。また、22.2chのオーディオ信号と、5.1chダウンミックス信号との区別をするために、ダウンミックス(downmix)識別情報が追加されている。
Figure 2011066868
Table 4 is obtained by adding information on the 5.1ch downmix signal to Table 1. Table 4 shows the relationship between the three-dimensional channel arrangement information of the 5.1ch downmix signal, each channel, and the corresponding elements (speaker positions) shown in FIGS. 3 (A) to 3 (C) and FIGS. 4 (A) to 4 (C). Is shown. Here, the 5.1ch downmix signal is assumed to be located in the middle layer. Also, downmix identification information is added to distinguish between a 22.2 channel audio signal and a 5.1 channel downmix signal.

Figure 2011066868
表5は、表2に5.1chダウンミックス信号に関する情報を追加したものである。平面番号「1」として中層部の2次元平面を示し、そのチャンネル総数は、「6」である。また、PCEのタグ番号(element_instance_tag)は「0」としている。3次元空間を2次元平面に分割した際の平面総数に応じてPCEの個数は可変し、PCEに付随するタグ番号も変化するので、5.1chダウンミックス信号用のタグ番号は常に「0」を使うようにしてもよい。
Figure 2011066868
Table 5 is obtained by adding information on the 5.1ch downmix signal to Table 2. The plane number “1” indicates the two-dimensional plane of the middle layer, and the total number of channels is “6”. The tag number (element_instance_tag) of PCE is “0”. Since the number of PCEs varies according to the total number of planes when the three-dimensional space is divided into two-dimensional planes, and the tag number associated with the PCE also changes, the tag number for the 5.1ch downmix signal is always “0”. May be used.

Figure 2011066868
表6は、表3に5.1chダウンミックス信号に関するチャンネルマッピング情報を追加したものである。downmix識別情報を追加して、5.1chダウンミックス信号であるch24〜ch29にのみ、「1」が立つようにしている。また、ch24〜ch29は、平面番号「1」として中層部の2次元平面を示し、それぞれのチャンネルは、既存の5.1chサラウンドの配置同様に、フロントチャンネルで単独チャンネルを示す「front single 識別」に割り振られるチャンネル(ch24)と、フロントチャンネルでペアチャンネルを示す「front pair識別」に割り振られるチャンネル(ch25、26)と、バックチャンネルでペアチャンネルを示す「back pair識別」に割り振られるチャンネル(ch27、28)と、LFEチャンネルで単独チャンネルを示す「LFE single 識別」に割り振られるチャンネル(ch29)より構成されている。
Figure 2011066868
Table 6 is obtained by adding channel mapping information related to the 5.1ch downmix signal to Table 3. Downmix identification information is added so that “1” stands only in ch24 to ch29 which are 5.1 ch downmix signals. In addition, ch24 to ch29 indicate a two-dimensional plane of the middle layer portion as a plane number “1”, and each channel indicates “front single identification” indicating a single channel as a front channel as in the existing 5.1ch surround arrangement. Channel (ch24) allocated to the channel, channels (ch25, 26) allocated to "front pair identification" indicating a pair channel in the front channel, and channels (ch27) allocated to "back pair identification" indicating the pair channel in the back channel. , 28) and a channel (ch29) allocated to “LFE single identification” indicating a single channel in the LFE channel.

そして、図1に新たに追加された前記一つの平面符号化部において、「front single 識別」に割り振られたチャンネルは、SCEとして符号化され、「front pair識別」、及び「back pair識別」に割り振られたチャンネルは、それぞれCPEとして符号化され、「LFE single 識別」に割り振られたチャンネルは、LFEとして符号化される。   Then, in the one plane encoding unit newly added to FIG. 1, the channel allocated to “front single identification” is encoded as SCE, and is converted into “front pair identification” and “back pair identification”. The allocated channels are each encoded as CPE, and the channels allocated to “LFE single identification” are encoded as LFE.

図15は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第7の例のフォーマットを示す。図15に示す第7の例のフォーマットは、本発明になるオーディオ信号符号化装置により図2に示した22.2chのスピーカ配置で再生される22.2chのオーディオ信号を、5.1chダウンミックス信号に変換するための変換係数を伴ったフォーマットである。   FIG. 15 shows the format of a seventh example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. The format of the seventh example shown in FIG. 15 is a 5.1ch downmix of the 22.2ch audio signal reproduced by the audio signal encoding apparatus according to the present invention and the 22.2ch speaker arrangement shown in FIG. It is a format with a conversion coefficient for converting into a signal.

すなわち、図15(B)に示すように、この例の符号化ストリームのフォーマットは、符号化ストリームに最初に現れるエレメントPCE0を上層用、2番目に現れるエレメントPCE1を中層用、3番目に現れるエレメントPCE2を下層+LFE用と定義し、続いて、DSE(データストリームエレメント)として、DSE0を定義する。このDSE0には5.1chダウンミックス信号に変換するのに必要な各チャンネルに対する変換係数を記述する。   That is, as shown in FIG. 15B, the format of the encoded stream of this example is that the element PCE0 that appears first in the encoded stream is for the upper layer, the element PCE1 that appears second is for the middle layer, and the element that appears third PCE2 is defined for lower layer + LFE, and then DSE0 is defined as DSE (data stream element). In DSE0, conversion coefficients for each channel necessary for conversion into a 5.1ch downmix signal are described.

図16は、上記のDSE0の構成を、図6と同様に記述言語を用いて示した図である。図16において、各名称の後ろには、ビット数とその単位(uimsbfは符号無し整数値)を表している。先頭にある「element_instance_tag」はタグ番号であり、複数のDSEが存在した場合に、それらを区別することができる。「data_byte_align_flag」は、DSE内でバイトアラインが成されたかを示すフラグである。「count」にはデータ長が入る。「esc_count」はデータ長255以上を表現するためのものである。「data_stream_byte」にはデータ長分の実データが含められる。以上から、DSE0には実データに関するフォーマットの制約が無いため自由な記述が可能であり、この部分にダウンミックス用変換係数を記述することで、復号化の終わりにそれらの係数を用いてダウンミックスを実行することができる。   FIG. 16 is a diagram showing the configuration of the above DSE0 using a description language as in FIG. In FIG. 16, the number of bits and the unit (uimsbf is an unsigned integer value) are shown after each name. “Element_instance_tag” at the head is a tag number, and when there are a plurality of DSEs, they can be distinguished. “Data_byte_align_flag” is a flag indicating whether byte alignment has been performed in the DSE. “Count” contains the data length. “Esc_count” is for expressing a data length of 255 or more. “Data_stream_byte” includes actual data for the data length. From the above, DSE0 can be described freely because there are no restrictions on the format of the actual data. By describing the downmix transform coefficients in this part, downmix can be performed using these coefficients at the end of decoding. Can be executed.

次に、本発明になるオーディオ信号復号化装置について説明する。   Next, an audio signal decoding apparatus according to the present invention will be described.

図17は、本発明になるオーディオ信号復号化装置の第1の実施の形態のブロック図を示す。同図に示すように、本実施の形態のオーディオ信号復号化装置20は、ストリーム分離部21と、3つの平面復号化部22、23及び24と、3次元空間合成部25とから構成され、外部から図5、図9、図11、図12又は図13に示すフォーマットのMPEG準拠の符号化ストリームを入力信号として受け、その符号化ストリームを復号化して3次元チャンネル配置情報とNchオーディオ信号とを出力する。   FIG. 17 shows a block diagram of a first embodiment of an audio signal decoding apparatus according to the present invention. As shown in the figure, the audio signal decoding apparatus 20 according to the present embodiment includes a stream separation unit 21, three plane decoding units 22, 23 and 24, and a three-dimensional space synthesis unit 25. An MPEG-compliant encoded stream in the format shown in FIG. 5, FIG. 9, FIG. 11, FIG. 12 or FIG. 13 is received as an input signal from the outside, and the encoded stream is decoded to obtain three-dimensional channel arrangement information and Nch audio signal Is output.

ストリーム分離部21は、入力された上記のMPEG準拠の符号化ストリームから3つの2次元平面それぞれの符号化要素と平面位置情報とを分離して、5.1ch互換用以外の3つの平面位置情報(PCE)は3次元空間合成部25にそれぞれ供給し、3つの符号化要素は2次元平面毎に設けられた平面復号化部22、23及び24に別々に供給する。   The stream separation unit 21 separates the encoding elements and the plane position information of each of the three two-dimensional planes from the input MPEG-compliant encoded stream, and three plane position information other than for 5.1ch compatibility. (PCE) is supplied to the three-dimensional space synthesis unit 25, and the three coding elements are separately supplied to the plane decoding units 22, 23, and 24 provided for each two-dimensional plane.

平面復号化部22、23及び24は、図1に示した平面符号化部12、13、14から出力された符号化要素と同じ符号化要素をストリーム分離部21から供給され、入力された符号化要素を復号化して、その符号化要素が示す2次元平面の各スピーカ位置に対応したチャンネルのオーディオ信号を出力する。   The plane decoding units 22, 23, and 24 are supplied with the same encoding elements as the encoding elements output from the plane encoding units 12, 13, and 14 shown in FIG. The encoding element is decoded, and an audio signal of a channel corresponding to each speaker position on the two-dimensional plane indicated by the encoding element is output.

例えば、図5に示したフォーマットのMPEG−2/4 AAC符号化方式の符号化ストリーム入力時は、平面復号化部22は図5(C)に示した上層の情報「upper_layer」の符号化要素を復号化し、図3(A)に示した上層の9chのオーディオ信号を対応するチャンネルに出力する。また、平面復号化部23は図5(D)に示した中層の情報「middle_layer」の符号化要素を復号化し、図3(B)に示した中層の10chのオーディオ信号を対応するチャンネルに出力する。更に、平面復号化部24は図5(E)に示した下層及びLFEの情報「lower+LFE_layer」の符号化要素を復号化し、図3(C)に示した下層及びLFEの3.2chのオーディオ信号を対応するチャンネルに出力する。   For example, when an encoded stream of the MPEG-2 / 4 AAC encoding method having the format shown in FIG. 5 is input, the plane decoding unit 22 encodes the upper layer information “upper_layer” shown in FIG. Is output, and the upper 9-channel audio signal shown in FIG. 3A is output to the corresponding channel. Also, the plane decoding unit 23 decodes the encoding element of the middle layer information “middle_layer” shown in FIG. 5D and outputs the middle layer 10ch audio signal shown in FIG. 3B to the corresponding channel. To do. Further, the plane decoding unit 24 decodes the encoding element of the lower layer and LFE information “lower + LFE_layer” shown in FIG. 5E, and the lower layer and LFE of 3.2 ch shown in FIG. Output the audio signal to the corresponding channel.

一方、3次元空間合成部25は、平面復号化部21から入力される平面位置情報(PCE)から平面分割の種類と個数、2次元平面におけるフロント、サイド、リアの各チャンネル配置を識別した後、これらのチャンネル配置と2次元平面内のチャンネルとの対応をとり、各チャンネルの位置情報をリスニングポイントである原点座標(0,0,0)からの距離で表現された3次元チャンネル配置情報(x,y,z)を出力する。   On the other hand, the three-dimensional space synthesis unit 25 identifies the type and number of plane divisions from the plane position information (PCE) input from the plane decoding unit 21 and the front, side, and rear channel arrangements in the two-dimensional plane. The three-dimensional channel arrangement information (corresponding to the channel arrangement and the channel in the two-dimensional plane, and the position information of each channel expressed by the distance from the origin coordinates (0, 0, 0) as the listening point) x, y, z) is output.

このようにして、平面復号化部22、23及び24から復号化された全部で22.2ch(=Nch)のオーディオ信号と、3次元空間合成部25から出力された3次元チャンネル配置情報とを出力することにより、各チャンネルの3次元空間内の位置を明確にすることができ、図示しない対応する各チャンネルのスピーカによって立体音場を再生させることができる。このように、本実施の形態によれば、MPEG−2/4 AAC規格に準拠した符号化ストリームを復号化して、22.2chの各チャンネルの音源位置を明確に指定した立体音場の再生ができる。   In this way, a total of 22.2 ch (= Nch) audio signals decoded from the plane decoding units 22, 23, and 24 and the three-dimensional channel arrangement information output from the three-dimensional space synthesis unit 25 are used. By outputting, the position of each channel in the three-dimensional space can be clarified, and a three-dimensional sound field can be reproduced by a speaker of each corresponding channel (not shown). As described above, according to the present embodiment, an encoded stream compliant with the MPEG-2 / 4 AAC standard is decoded to reproduce a three-dimensional sound field in which the sound source position of each 22.2ch channel is clearly specified. it can.

また、図14に示すフォーマットのMPEG準拠の符号化ストリームを復号化する本発明のオーディオ信号復号化装置は、図17に示した本発明のオーディオ信号復号化装置20内に、平面復号化部22〜24に並列に更に一つの平面復号化部を新たに追加すると共に、ストリーム分離部21により前記3つの2次元平面それぞれの符号化要素と平面位置情報とを分離すると共に、5.1chダウンミックス信号に関する符号化要素と平面位置情報も分離できるようにする。   Further, the audio signal decoding apparatus of the present invention for decoding the MPEG-compliant encoded stream of the format shown in FIG. 14 is included in the plane decoding unit 22 in the audio signal decoding apparatus 20 of the present invention shown in FIG. In addition, one plane decoding unit is newly added in parallel to 24 to 24, and the stream separation unit 21 separates the encoding elements and plane position information of each of the three two-dimensional planes, and 5.1ch downmix. It is also possible to separate the coding element and the plane position information relating to the signal.

これにより、22.2chのオーディオ信号に対応する3つの符号化要素は2次元平面毎に設けられた平面復号化部22、23及び24により復号化される。また、5.1chダウンミックス信号に関する符号化要素は、上記の新たに追加された平面復号化部により復号化されて、オーディオ信号として出力される。また、3次元空間合成部25は、22.2chのオーディオ信号に関する3つの平面位置情報と5.1chダウンミックス信号に関する平面位置情報から、3次元チャンネル配置情報(x,y,z)を出力する。   Thereby, the three encoding elements corresponding to the audio signal of 22.2ch are decoded by the plane decoding units 22, 23 and 24 provided for each two-dimensional plane. Also, the encoding element related to the 5.1ch downmix signal is decoded by the newly added plane decoding unit and output as an audio signal. The three-dimensional space synthesis unit 25 outputs three-dimensional channel arrangement information (x, y, z) from the three plane position information related to the 22.2ch audio signal and the plane position information related to the 5.1ch downmix signal. .

図18は、本発明になるオーディオ信号復号化装置の第2の実施の形態のブロック図を示す。同図中、図17と同一構成部分には同一符号を付し、その説明を省略する。同図に示すように、本実施の形態のオーディオ信号復号化装置30は、ストリーム分離部31と、3つの平面復号化部22、23及び24と、3次元空間合成部25と、ダウンミックス部32とから構成される。このオーディオ信号復号化装置30は、外部から図15に示すフォーマットのMPEG準拠の符号化ストリームを入力信号として受け、その符号化ストリームを復号化して3次元チャンネル配置情報とNchオーディオ信号を生成し、そして、外部より入力されたダウンミックス選択フラグに応じて、Nchオーディオ信号を出力するか、または、ダウンミックスされたオーディオ信号を出力する。   FIG. 18 is a block diagram showing a second embodiment of the audio signal decoding apparatus according to the present invention. In the figure, the same components as those in FIG. As shown in the figure, the audio signal decoding apparatus 30 according to the present embodiment includes a stream separation unit 31, three plane decoding units 22, 23 and 24, a three-dimensional space synthesis unit 25, and a downmix unit. 32. The audio signal decoding apparatus 30 receives an MPEG-compliant encoded stream of the format shown in FIG. 15 from the outside as an input signal, decodes the encoded stream, generates three-dimensional channel arrangement information and an Nch audio signal, Then, according to a downmix selection flag input from the outside, an Nch audio signal is output or a downmixed audio signal is output.

図17に示したオーディオ信号復号化装置20との相違点は、オーディオ信号復号化装置30は、ストリーム分離部31において、3つの平面位置情報及び符号化要素と共に変換係数情報を分離する点と、外部よりダウンミックス選択フラグの入力を伴ったダウンミックス部32を有している点である。以下では、その相違点について詳細に説明する。   17 is different from the audio signal decoding device 20 shown in FIG. 17 in that the audio signal decoding device 30 separates transform coefficient information together with three plane position information and coding elements in the stream separation unit 31. The downmix unit 32 is accompanied by an input of a downmix selection flag from the outside. Below, the difference is demonstrated in detail.

例えば、図15に示したフォーマットのMPEG−2/4 AAC符号化方式の符号化ストリーム入力時は、オーディオ信号復号化装置30はストリーム分離部31において図15(B)に示したDSE0を分離し、5.1chダウンミックス信号に変換するのに必要な各チャンネルに対する変換係数情報を抽出し、ダウンミックス部32に渡す。   For example, when an encoded stream of the MPEG-2 / 4 AAC encoding method having the format shown in FIG. 15 is input, the audio signal decoding apparatus 30 separates DSE0 shown in FIG. Conversion coefficient information for each channel necessary for conversion into a 5.1ch downmix signal is extracted and passed to the downmix unit 32.

ダウンミックス部32は、3次元空間合成部25からの3次元チャンネル配置情報と、平面復号化部22、23及び24からの全部でNchの復号オーディオ信号と、上記変換係数情報と、ダウンミックス選択フラグとを入力として受け、ダウンミックス選択フラグに応じて、Nchオーディオ信号、またはダウンミックスされたオーディオ信号を出力する。上記の3次元チャンネル配置情報と変換係数情報とが対になっているため、入力されたNchオーディオ信号に乗じる変換係数は、チャンネル番号により識別される。また、ダウンミックス選択フラグは、例えば、表7に示すような種類が存在する。   The downmix unit 32 includes 3D channel arrangement information from the 3D space synthesis unit 25, Nch decoded audio signals from the plane decoding units 22, 23 and 24, the transform coefficient information, and downmix selection. The flag is received as an input, and an Nch audio signal or a downmixed audio signal is output according to the downmix selection flag. Since the three-dimensional channel arrangement information and the conversion coefficient information are paired, the conversion coefficient to be multiplied by the input Nch audio signal is identified by the channel number. In addition, the types of downmix selection flags shown in Table 7 exist, for example.

Figure 2011066868
表7において、ダウンミックス選択フラグ番号「0」は、ダウンミックスを行わずNchオーディオ信号をそのまま出力するモードである。また、ダウンミックス選択フラグ番号「1」は、ダウンミックスを実行し、1枚の2次元平面に存在する5.1chとして出力するモードである。また、ダウンミックス選択フラグ番号「2」は、ダウンミックスを実行し、1枚の2次元平面に存在する2chとして出力するモードである。また、ダウンミックス選択フラグ番号「3」は、ダウンミックスにより、1枚の2次元平面に存在する2chバイノーラル信号を生成するモードである。更に、ダウンミックス選択フラグ番号「4」は、平面総数分の2次元平面に存在する5.1chとして出力するモードである。
Figure 2011066868
In Table 7, the downmix selection flag number “0” is a mode in which the Nch audio signal is output as it is without downmixing. The downmix selection flag number “1” is a mode in which downmix is executed and output as 5.1ch existing on one two-dimensional plane. The downmix selection flag number “2” is a mode in which downmix is executed and output as 2ch existing on one two-dimensional plane. The downmix selection flag number “3” is a mode for generating a 2ch binaural signal existing on one two-dimensional plane by downmixing. Further, the downmix selection flag number “4” is a mode for outputting as 5.1ch existing on the two-dimensional plane corresponding to the total number of planes.

図19は、図18中のダウンミックス部32の一例のブロック図を示す。図19に示すように、ダウンミックス部32は、モード1ブロック321、モード2ブロック322、モード3ブロック323、モード4ブロック324及び出力セレクタ325から構成されている。モード番号は表7に示したダウンミックス選択フラグ番号に対応している。入力されたダウンミックス選択フラグに応じて、モード1ブロック321〜モード4ブロック324のうち、各番号に対応したモードブロックが有効になり、入力されたオーディオ信号、3次元チャンネル配置情報、及び変換係数情報を用いてダウンミックス処理がなされて、出力セレクタ325からオーディオ信号が出力される。以下、各モードついて詳細に説明する。   FIG. 19 shows a block diagram of an example of the downmix unit 32 in FIG. As shown in FIG. 19, the downmix unit 32 includes a mode 1 block 321, a mode 2 block 322, a mode 3 block 323, a mode 4 block 324, and an output selector 325. The mode number corresponds to the downmix selection flag number shown in Table 7. In accordance with the input downmix selection flag, the mode block corresponding to each number among the mode 1 block 321 to the mode 4 block 324 becomes valid, and the input audio signal, three-dimensional channel arrangement information, and conversion coefficient Downmix processing is performed using the information, and an audio signal is output from the output selector 325. Hereinafter, each mode will be described in detail.

まず、ダウンミックス部32に、ダウンミックス選択フラグ番号「0」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、ダウンミックスを行わず、入力されたNchオーディオ信号を出力セレクタ325で選択してそのまま出力する。この場合、モード1ブロック321〜モード4ブロック324は使用しない。   First, the configuration and operation when the downmix selection flag number “0” is input to the downmix unit 32 will be described. In this case, the downmix unit 32 does not perform the downmix, selects the input Nch audio signal by the output selector 325 and outputs it as it is. In this case, the mode 1 block 321 to the mode 4 block 324 are not used.

次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「1」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、モード1ブロック321を有効とすると共に、出力セレクタ325をモード1ブロック321から出力されるオーディオ信号を選択する。   Next, the configuration and operation when the downmix selection flag number “1” is input to the downmix unit 32 will be described. In this case, the downmix unit 32 enables the mode 1 block 321 and selects the audio signal output from the mode 1 block 321 by the output selector 325.

図20は、モード1ブロック321の一例の全体ブロック図を示す。同図に示すように、モード1ブロック321は、上層チャンネルダウンミックス部101、中層チャンネルダウンミックス部102、下層チャンネルダウンミックス部103及び5.1ch合成部104から構成されている。モード1ブロック321は、入力された3次元チャンネル配置情報に基づいて、各ダウンミックス部101〜103で入力されたNchオーディオ信号の必要なチャンネルのオーディオ信号を選択してダウンミックス処理を行う。   FIG. 20 shows an overall block diagram of an example of the mode 1 block 321. As shown in the figure, the mode 1 block 321 includes an upper layer channel downmix unit 101, a middle layer channel downmix unit 102, a lower layer channel downmix unit 103, and a 5.1 channel combining unit 104. The mode 1 block 321 selects an audio signal of a necessary channel of the Nch audio signal input by each of the downmix units 101 to 103 based on the input three-dimensional channel arrangement information, and performs a downmix process.

上層チャンネルダウンミックス部101は、Nchオーディオ信号のうち上層部に存在するチャンネルのオーディオ信号について、変換係数情報を用いて5.1chのダウンミックス信号に変換し、そのダウンミックス信号を5.1ch合成部104へ出力する。同様に、中層チャンネルダウンミックス部102、下層チャンネルダウンミックス部103は、変換係数情報を用いて中層部、下層部に存在するチャンネルのオーディオ信号をそれぞれ5.1chのダウンミックス信号に変換し、そのダウンミックス信号を5.1ch合成部104へ出力する。   The upper layer channel downmix unit 101 converts the channel audio signal existing in the upper layer portion of the Nch audio signal into a 5.1ch downmix signal using the conversion coefficient information, and combines the downmix signal with 5.1ch. Output to the unit 104. Similarly, the middle layer channel downmix unit 102 and the lower layer channel downmix unit 103 use the conversion coefficient information to convert the audio signals of the channels existing in the middle layer portion and the lower layer portion into 5.1ch downmix signals, respectively. The downmix signal is output to the 5.1ch synthesis unit 104.

5.1ch合成部104は、各ダウンミックス部101〜103から入力された5.1chダウンミックス信号について、対応するチャンネル毎に加算することで、1枚の2次元平面に存在する最終的な5.1chのオーディオ信号を生成して出力する。   The 5.1ch synthesizing unit 104 adds the 5.1ch downmix signals input from the downmix units 101 to 103 for each corresponding channel, so that the final 5 existing on one two-dimensional plane is present. Generate and output a .1ch audio signal.

ダウンミックス方法について説明する。例えば、前述したMPEG−2 AAC規格は、下記の式(1a)、(1b)を用いて1枚の2次元平面でのダウンミックスを実行し、左右の2ch(L'、R')に変換する。   The downmix method will be described. For example, the MPEG-2 AAC standard described above performs downmix on one two-dimensional plane using the following formulas (1a) and (1b), and converts them to left and right 2ch (L ', R') To do.

Figure 2011066868
式(1a)、(1b)において、右辺はオリジナル音声に関し、Lは左フロントチャンネル信号、Rは右フロントチャンネル信号、Cは前方センターチャンネル信号、Lsは左リアチャンネル信号、Rsは右リアチャンネル信号、Aはダウンミックスの係数を示す。また、L’は左チャンネルのダウンミックス信号、R’は右チャンネルのダウンミックス信号を示す。
Figure 2011066868
In the equations (1a) and (1b), the right side relates to the original sound, L is the left front channel signal, R is the right front channel signal, C is the front center channel signal, Ls is the left rear channel signal, and Rs is the right rear channel signal. , A represents a downmix coefficient. L ′ represents a left channel downmix signal, and R ′ represents a right channel downmix signal.

ここで、係数Aは可変の値で、1/√2、1/2、1/(2√2)、0という値をとれる。このため、例えば、A=1/√2を用いるとすると、式(1a)、(1b)は下記の式(2a)、(2b)で表現することができる。   Here, the coefficient A is a variable value and can take values of 1 / √2, 1/2, 1 / (2√2), and 0. Therefore, for example, if A = 1 / √2 is used, the expressions (1a) and (1b) can be expressed by the following expressions (2a) and (2b).

L’=C1×[L+C2×(C+L)] (2a)
R’=C1×[R+C2×(C+R)] (2b)
ただし、式(2a)、(2b)中、C1、C2は係数である。
L ′ = C1 × [L + C2 × (C + L S )] (2a)
R ′ = C1 × [R + C2 × (C + R S )] (2b)
However, in formulas (2a) and (2b), C1 and C2 are coefficients.

MPEG−2 AAC規格に示したダウンミックス手法は、再生出力を行うチャンネルである(L,R)の側面にあるチャンネル(LならばCとLs、RならばCとRs)に係数を乗じて加算しているので、これを中層部に応用して、中層ダウンミックスLをM_L、中層ダウンミックスRをM_R、中層ダウンミックスCをM_C、中層ダウンミックスBLをM_BL、中層ダウンミックスBRをM_BRとし、中層ダウンミックスLFEをM_LFEとすると、係数C1、C2と中層の10チャンネル(MFL,MFLC,MFC,MFRC,MFR,MSL,MSR,MBL,MBC,MBR)とを用いて以下のような式となる。ここでは、係数C1、C2の値として、例えば、C1=(2/3)、C2=(1/√2)としている。   The downmix method shown in the MPEG-2 AAC standard multiplies a channel on the side of (L, R) which is a channel for reproduction output (C and Ls if L, C and Rs if R) by a coefficient. Since it is added, this is applied to the middle layer, and the middle layer downmix L is M_L, the middle layer downmix R is M_R, the middle layer downmix C is M_C, the middle layer downmix BL is M_BL, and the middle layer downmix BR is M_BR. When the middle layer downmix LFE is M_LFE, using the coefficients C1 and C2 and the middle layer 10 channels (MFL, MFLC, MFC, MFRC, MFR, MSL, MSR, MBL, MBC, MBR), Become. Here, as the values of the coefficients C1 and C2, for example, C1 = (2/3) and C2 = (1 / √2).

M_L=C1×[MFL+C2×(MFLC+MSL)] (3a)
M_R=C1×[MFR+C2×(MFRC+MSR)] (3b)
M_C=C1×[MFC+C2×(MFLC+MFRC)] (3c)
M_BL=C1×[MBL+C2×(MSL+MBC)] (3d)
M_BR=C1×[MBR+C2×(MSR+MBC)] (3e)
M_LFE=0 (3f)
上層部についても、これを応用して、上層ダウンミックスLをU_L、上層ダウンミックスRをU_R、上層ダウンミックスCをU_C、上層ダウンミックスBLをU_BL、上層ダウンミックスBRをU_BRとし、上層ダウンミックスLFEをU_LFEとすると、これらは、係数C1、C2、C3と、上層の9チャンネル(UFL,UFC,UFR,USL,USC,USR,UBL,
UBC,UBR)とを用いて以下のような式となる。ここでは、係数C1、C2、C3の値として、例えば、C1=(2/3)、C2=C3=(1/√2)としている。
M_L = C1 × [MFL + C2 × (MFLC + MSL)] (3a)
M_R = C1 × [MFR + C2 × (MFRC + MSR)] (3b)
M_C = C1 × [MFC + C2 × (MFLC + MFRC)] (3c)
M_BL = C1 × [MBL + C2 × (MSL + MBC)] (3d)
M_BR = C1 × [MBR + C2 × (MSR + MBC)] (3e)
M_LFE = 0 (3f)
By applying this to the upper layer, the upper layer downmix L is U_L, the upper layer downmix R is U_R, the upper layer downmix C is U_C, the upper layer downmix BL is U_BL, the upper layer downmix BR is U_BR, and the upper layer downmix is U_BR. If LFE is U_LFE, these are the coefficients C1, C2, C3 and the upper 9 channels (UFL, UFC, UFR, USL, USC, USR, UBL,
UBC, UBR) and the following formula. Here, as the values of the coefficients C1, C2, and C3, for example, C1 = (2/3) and C2 = C3 = (1 / √2).

U_L=C1×[C3×(UFL+C2×USL)] (4a)
U_R=C1×[C3×(UFR+C2×USR)] (4b)
U_C=C1×[C3×(UFC+C2×USC)] (4c)
U_BL=C1×[C3×{UBL+C2×(USL+UBC)+USC}] (4d)
U_BR=C1×[C3×{UBR+C2×(USR+UBC)+USC}] (4e)
U_LFE=0 (4f)
下層部については、ダウンミックスすべき信号は、LFEチャンネルだけである。下層ダウンミックスLをL_L、下層ダウンミックスRをL_R、下層ダウンミックスCをL_C、下層ダウンミックスBLをL_BL、下層ダウンミックスBRをL_BRとし、下層ダウンミックスLFEをL_LFEとすると、係数C1、C2と下層の3チャンネル(LFL,LFC,LFR)とLFEの2チャンネル(LFEL,LFER)とを用いて以下のような式となる。ここでは、係数C1、C2の値として、例えば、C1=(2/3)、C2=(1/√2)としている。
U_L = C1 × [C3 × (UFL + C2 × USL)] (4a)
U_R = C1 × [C3 × (UFR + C2 × USR)] (4b)
U_C = C1 × [C3 × (UFC + C2 × USC)] (4c)
U_BL = C1 × [C3 × {UBL + C2 × (USL + UBC) + USC}] (4d)
U_BR = C1 × [C3 × {UBR + C2 × (USR + UBC) + USC}] (4e)
U_LFE = 0 (4f)
For the lower layer, the only signal to be downmixed is the LFE channel. If the lower layer downmix L is L_L, the lower layer downmix R is L_R, the lower layer downmix C is L_C, the lower layer downmix BL is L_BL, the lower layer downmix BR is L_BR, and the lower layer downmix LFE is L_LFE, the coefficients C1, C2 and Using the lower three channels (LFL, LFC, LFR) and the two LFE channels (LFEL, LFER), the following equation is obtained. Here, as the values of the coefficients C1 and C2, for example, C1 = (2/3) and C2 = (1 / √2).

L_L=C1×LFL (5a)
L_R=C1×LFR (5b)
L_C=C1×LFC (5c)
L_BL=0 (5d)
L_BR=0 (5e)
L_LFE=C2×(LFEL+LFER) (5f)
以上より、最終の5.1chダウンミックス信号を、L'、R'、C'、BL'、BR'、LFE’とすると、これらは以下の式で表される。
L_L = C1 × LFL (5a)
L_R = C1 × LFR (5b)
L_C = C1 × LFC (5c)
L_BL = 0 (5d)
L_BR = 0 (5e)
L_LFE = C2 × (LFEL + LFER) (5f)
From the above, assuming that the final 5.1ch downmix signal is L ′, R ′, C ′, BL ′, BR ′, LFE ′, these are expressed by the following equations.

L’=(U_L)+(M_L)+(L_L) (6a)
R’=(U_R)+(M_R)+(L_R) (6b)
C’=(U_C)+(M_C)+(L_C) (6c)
BL’=(U_BL)+(M_BL)+(L_BL) (6d)
BR’=(U_BR)+(M_BR)+(L_BR) (6e)
LFE’=(U_LFE)+(M_LFE)+(L_LFE) (6f)
前述の例で示したC1=(2/3)、C2=C3=(1/√2)の場合、C1=(−3.5)dB、C2=C3=(−3.0)dBであるので、この値と加算時の増加量(+6dB)とを考慮して信号の増加レベルを計算すると、ダウンミックス後の信号(L'、R'、C'、BL'、BR')は、−1.44dB、LFE’は0dBとなり、ほぼ元の信号レベルに近い値を持つダウンミックス信号を生成することができる。
L ′ = (U_L) + (M_L) + (L_L) (6a)
R ′ = (U_R) + (M_R) + (L_R) (6b)
C ′ = (U_C) + (M_C) + (L_C) (6c)
BL ′ = (U_BL) + (M_BL) + (L_BL) (6d)
BR ′ = (U_BR) + (M_BR) + (L_BR) (6e)
LFE ′ = (U_LFE) + (M_LFE) + (L_LFE) (6f)
When C1 = (2/3) and C2 = C3 = (1 / √2) shown in the above example, C1 = (− 3.5) dB and C2 = C3 = (− 3.0) dB. Therefore, if the increase level of the signal is calculated in consideration of this value and the increase amount at the time of addition (+6 dB), the signals (L ′, R ′, C ′, BL ′, BR ′) after the downmix are − 1.44 dB and LFE ′ are 0 dB, and a downmix signal having a value almost close to the original signal level can be generated.

以上の変換係数についてDSEを用いて符号化ストリームで伝送する際に、ダウンミックス信号の計算の仕方を、オーディオ信号符号化装置とオーディオ信号復号化装置で、上式のように取り決めるのであれば、係数C1、C2、C3だけを伝送するようにすればよい。もし、計算の仕方に自由度を持たせるのであれば、チャンネル毎に乗じる係数に分解して、それぞれを伝送するようにする。式(3a)〜式(6f)を分解してチャンネルに対応させた表を表8に示す。   When transmitting the coded coefficients using the DSE for the above transform coefficients, if the way of calculating the downmix signal is determined by the audio signal encoding device and the audio signal decoding device as in the above equation, Only the coefficients C1, C2, and C3 need to be transmitted. If there is a degree of freedom in the calculation method, it is divided into coefficients to be multiplied for each channel and each is transmitted. Table 8 shows a table in which the equations (3a) to (6f) are decomposed to correspond to the channels.

Figure 2011066868
このようにすれば、各チャンネルのオーディオ信号に、対応するダウンミックスチャンネル生成要素の係数を乗じるだけで、ダウンミックスチャンネルの生成ができ、計算式に縛られることは無い。また、式(3a)〜式(6f)からも分るように、2次元平面単位で、5.1chダウンミックス信号を生成することができるので、符号化ストリームを図21に示すようなフォーマットに構成することができる。
Figure 2011066868
In this way, it is possible to generate a downmix channel simply by multiplying the audio signal of each channel by the coefficient of the corresponding downmix channel generation element, and there is no restriction on the calculation formula. Further, as can be seen from the equations (3a) to (6f), the 5.1ch downmix signal can be generated in units of two-dimensional planes, so that the encoded stream has the format shown in FIG. Can be configured.

図21は、本発明になるオーディオ信号符号化装置により生成されるMPEG−2/4 AAC符号化方式の符号化ストリームの第8の例のフォーマットを示す。このフォーマットは、図21(B)に示すように、符号化ストリームに最初に現れるエレメントPCE0を上層用、2番目に現れるエレメントPCE1を中層用、3番目に現れるエレメントPCE2を下層+LFE用と定義し、続いて、DSEを同様な順番で、DSE0を上層用、DSE1を中層用、DSE2を下層+LFE用と定義している。そして、各DSEでは、各2次元平面に含まれるチャンネルの変換係数だけを送る。この変換係数とチャンネルと平面番号と対応要素との関係は、例えば、表9A、表9B、表9Cに示すようになる。   FIG. 21 shows the format of an eighth example of the encoded stream of the MPEG-2 / 4 AAC encoding method generated by the audio signal encoding device according to the present invention. As shown in FIG. 21B, this format defines the element PCE0 that appears first in the encoded stream as the upper layer, the element PCE1 that appears second as the middle layer, and the element PCE2 that appears third as the lower layer + LFE. Subsequently, DSE is defined in the same order as DSE0 for the upper layer, DSE1 for the middle layer, and DSE2 for the lower layer + LFE. In each DSE, only the conversion coefficients of the channels included in each two-dimensional plane are sent. The relationship among the conversion coefficient, channel, plane number, and corresponding element is as shown in Tables 9A, 9B, and 9C, for example.

Figure 2011066868
Figure 2011066868

Figure 2011066868
Figure 2011066868

Figure 2011066868
以上の変換係数を用いて、モード1ブロック321は5.1chのダウンミックス処理を行う。図22は、モード1ブロック321内の表9Aに対応した上層チャンネルに対するダウンミックス処理を行う図20の上層チャンネルダウンミックス部101の一例の構成図を示す。図22に示すように、上層チャンネルダウンミックス部101は、上層の9チャンネルのそれぞれと変換係数情報とを乗算する9個の乗算器1011と、所定の乗算器出力を加算する加算器1012〜1014と、乗算器1015と、加算器1016及び1017とより構成される。これにより、上層チャンネルダウンミックス部101は、式(4a)〜式(4f)に示した上層の5.1chダウンミックス出力(U_L,U_R,U_C,U_BL,U_BR,U_LFE)を生成して出力する。
Figure 2011066868
Using the above conversion coefficients, the mode 1 block 321 performs 5.1 ch downmix processing. FIG. 22 shows a configuration diagram of an example of the upper layer channel downmix unit 101 of FIG. 20 that performs the downmix processing for the upper layer channel corresponding to Table 9A in the mode 1 block 321. As shown in FIG. 22, the upper layer channel downmix unit 101 includes nine multipliers 1011 for multiplying each of the upper nine channels and transform coefficient information, and adders 1012 to 1014 for adding predetermined multiplier outputs. And a multiplier 1015 and adders 1016 and 1017. Thereby, the upper layer channel downmix unit 101 generates and outputs the upper layer 5.1ch downmix outputs (U_L, U_R, U_C, U_BL, U_BR, U_LFE) shown in the equations (4a) to (4f). .

同様に、図23は、モード1ブロック321内の表9Bに対応した中層チャンネルに対するダウンミックス処理を行う図20の中層チャンネルダウンミックス部102の一例の構成図を示す。図23に示すように、中層チャンネルダウンミックス部102は、中層の10チャンネルのそれぞれと変換係数情報とを乗算する10個の乗算器1021と、所定の乗算器出力を加算する加算器1022〜1026とより構成される。これにより、中層チャンネルダウンミックス部102は、式(3a)〜式(3f)に示した中層の5.1chダウンミックス出力(M_L,M_R,M_C,M_BL,M_BR,M_LFE)を生成して出力する。   Similarly, FIG. 23 shows a configuration diagram of an example of the middle-layer channel downmix unit 102 in FIG. 20 that performs the downmix processing for the middle-layer channel corresponding to Table 9B in the mode 1 block 321. As shown in FIG. 23, the middle-layer channel downmix unit 102 includes ten multipliers 1021 that multiply each of the ten middle-layer channels and transform coefficient information, and adders 1022 to 1026 that add predetermined multiplier outputs. It is composed of. Thereby, the middle layer channel downmix unit 102 generates and outputs the middle layer 5.1ch downmix outputs (M_L, M_R, M_C, M_BL, M_BR, M_LFE) shown in the equations (3a) to (3f). .

同様に、図24は、モード1ブロック321内の表9Cに対応した下層チャンネルに対するダウンミックス処理を行う図20の下層チャンネルダウンミックス部103の一例の構成図を示す。図24に示すように、下層チャンネルダウンミックス部103は、下層の5チャンネルのそれぞれと変換係数情報とを乗算する5個の乗算器1031と、所定の乗算器出力を加算する加算器1032とより構成される。これにより、下層チャンネルダウンミックス部103は、式(5a)〜式(5f)に示した下層の5.1chダウンミックス出力(L_L,L_R,L_C,L_BL,L_BR,L_LFE)を生成して出力する。   Similarly, FIG. 24 shows a configuration diagram of an example of the lower layer channel downmix unit 103 of FIG. 20 that performs the downmix processing for the lower layer channel corresponding to Table 9C in the mode 1 block 321. As shown in FIG. 24, the lower layer channel downmix unit 103 includes five multipliers 1031 for multiplying each of the lower five channels and the transform coefficient information, and an adder 1032 for adding a predetermined multiplier output. Composed. Thereby, the lower layer channel downmix unit 103 generates and outputs the lower layer 5.1ch downmix outputs (L_L, L_R, L_C, L_BL, L_BR, L_LFE) shown in the equations (5a) to (5f). .

図25は、図20のモード1ブロック321内の5.1ch合成部104の一例のブロック図を示す。図25に示すように、5.1ch合成部104は、上層、中層及び下層の各チャンネルのうち、5.1chの対応するチャンネルの信号同士を加算する6個の加算器1041〜1046により、式(6a)〜式(6f)に示した加算結果をそれぞれ得て、前述の最終の5.1chダウンミックス信号L'、R'、C'、BL'、BR'、LFE’を出力する。   FIG. 25 shows a block diagram of an example of the 5.1ch combining unit 104 in the mode 1 block 321 of FIG. As shown in FIG. 25, the 5.1ch combining unit 104 includes six adders 1041 to 1046 that add signals of corresponding channels of 5.1ch among the upper layer, middle layer, and lower layer channels. The addition results shown in (6a) to (6f) are obtained, and the final 5.1ch downmix signals L ′, R ′, C ′, BL ′, BR ′, LFE ′ are output.

次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「2」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、図19のモード2ブロック322を有効とすると共に、出力セレクタ325をモード2ブロック322から出力されるオーディオ信号を選択する。   Next, the configuration and operation when the downmix selection flag number “2” is input to the downmix unit 32 will be described. In this case, the downmix unit 32 validates the mode 2 block 322 of FIG. 19 and selects the audio signal output from the mode 2 block 322 by the output selector 325.

図26は、モード2ブロック322の一例の全体ブロック図を示す。同図に示すように、モード2ブロック322は、上層チャンネルダウンミックス部201、中層チャンネルダウンミックス部202、下層チャンネルダウンミックス部203、5.1ch合成部204及び2ch合成部205から構成されている。モード2ブロック322は、入力された3次元チャンネル配置情報に基づいて、各ダウンミックス部201〜203で入力されたNchオーディオ信号の必要なチャンネルを選択させてダウンミックス処理させた後、5.1ch合成部204で5.1chのダウンミックス信号を生成した後、2ch合成部205により5.1chダウンミックス信号から2chのオーディオ信号に変換して出力する。   FIG. 26 shows an overall block diagram of an example of the mode 2 block 322. As shown in the figure, the mode 2 block 322 includes an upper layer channel downmix unit 201, a middle layer channel downmix unit 202, a lower layer channel downmix unit 203, a 5.1ch synthesis unit 204, and a 2ch synthesis unit 205. . The mode 2 block 322 selects a necessary channel of the Nch audio signal input from each of the downmix units 201 to 203 based on the input three-dimensional channel arrangement information, and then performs a downmix process. After the 5.1ch downmix signal is generated by the synthesizer 204, the 2ch synthesizer 205 converts the 5.1ch downmix signal into a 2ch audio signal and outputs it.

モード2ブロック322は、図20に示したモード1ブロック321と同様の構成に、2ch合成部205を追加した構成であるので、次に2ch合成部205について説明する。   The mode 2 block 322 has the same configuration as the mode 1 block 321 shown in FIG. 20 with the addition of the 2ch combining unit 205, so the 2ch combining unit 205 will be described next.

図27は、図26中の2ch合成部205の一例のブロック図を示す。図27に示すように、2ch合成部205は、5.1chダウンミックス信号L'、R'、C'、BL'、BR'、LFE’と変換係数情報とをそれぞれ乗算する乗算器2051〜2055と、乗算器2051、2053、2054の各出力信号を加算合成する加算器2056と、乗算器2052、2053、2055の各出力信号を加算合成する加算器2057とより構成されている。加算器2056は、ダウンミックスした左チャンネル信号L”を出力する。また、加算器2057は、ダウンミックスした右チャンネル信号R”を出力する。   FIG. 27 shows a block diagram of an example of the 2ch synthesis unit 205 in FIG. As shown in FIG. 27, the 2ch synthesis unit 205 multiplies 5.1ch downmix signals L ′, R ′, C ′, BL ′, BR ′, LFE ′ and transform coefficient information, respectively. And an adder 2056 that adds and synthesizes the output signals of the multipliers 2051, 2053, and 2054, and an adder 2057 that adds and synthesizes the output signals of the multipliers 2052, 2053, and 2055. The adder 2056 outputs the down-mixed left channel signal L ″. The adder 2057 outputs the down-mixed right channel signal R ″.

次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「3」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は図19のモード3ブロック323を有効とすると共に、出力セレクタ325をモード3ブロック323から出力されるオーディオ信号を選択する。   Next, the configuration and operation when the downmix selection flag number “3” is input to the downmix unit 32 will be described. In this case, the downmix unit 32 enables the mode 3 block 323 of FIG. 19 and selects the audio signal output from the mode 3 block 323 by the output selector 325.

ダウンミックス選択フラグ番号「3」の場合、モード3ブロック323によるダウンミックスにより、1枚の2次元平面上の2chバイノーラル(binaural)信号を生成する。バイノーラル信号を生成するためには、Nchオーディオ信号の位置を示す3次元チャンネル配置情報で示されるオーディオ信号の音源位置(X,Y,Z)から、聴取者位置(0,0,0)に着席する聴取者の右耳までの頭部伝達関数(HRTF_R)と当該聴取者の左耳までの頭部伝達関数(HRTF_L)とを予め測定しておき、それらの頭部伝達関数に基づくフィルタ係数を用いて、各信号にフィルタ演算を行い、右耳用、左耳用にまとめることを行う。   When the downmix selection flag number is “3”, a 2ch binaural signal on one two-dimensional plane is generated by downmixing by the mode 3 block 323. In order to generate a binaural signal, the user is seated at the listener position (0, 0, 0) from the sound source position (X, Y, Z) of the audio signal indicated by the three-dimensional channel arrangement information indicating the position of the Nch audio signal. The head-related transfer function (HRTF_R) to the listener's right ear and the head-related transfer function (HRTF_L) to the listener's left ear are measured in advance, and the filter coefficients based on those head-related transfer functions are calculated. The filter operation is performed on each signal to be combined for the right ear and the left ear.

図28は、モード3ブロック323の一例の全体ブロック図を示す。図28において、モード3ブロック323は、各チャンネルch0〜chN−1のオーディオ信号が入力される左耳用のN個のフィルタ32310〜3231N-1と、各チャンネルch0〜chN−1のオーディオ信号が入力される右耳用のN個のフィルタ32320〜3232N-1と、フィルタ32310〜3231N-1の各出力信号を加算する加算器3233と、フィルタ32320〜3232N-1の各出力信号を加算する加算器3234とより構成される。 FIG. 28 shows an overall block diagram of an example of the mode 3 block 323. In FIG. 28, the mode 3 block 323 includes N filters 3231 0 to 3231 N-1 for the left ear to which audio signals of the channels ch0 to chN-1 are input, and audio of the channels ch0 to chN-1. N filters 3232 0 to 3232 N-1 for the right ear to which signals are input, an adder 3233 for adding output signals of the filters 3231 0 to 3231 N-1 , and filters 3232 0 to 3232 N-1 And an adder 3234 for adding the respective output signals.

モード3ブロック323の各フィルタ32310〜3231N-1と32320〜3232N-1とは、ダウンミックス選択フラグ番号「3」が選択された場合に、入力される変換係数情報に基づいたフィルタ係数に設定される。このフィルタ係数は、各チャンネルに対する対応要素(UFCなど)に対応した頭部伝達関数(HRTF: Head-Related Transfer Function)に基づくフィルタ係数である。固定位置に対する頭部伝達関数のデータベースで十分であれば、符号化ストリームとして伝送する必要はないが、自由度の高い3次元配置を必要とする場合には、その3次元配置からリスナーの右耳、左耳までの頭部伝達関数が必要となる。 If each filter 3231 0 ~3231 N-1 mode 3 Block 323 and 3232 0 to 3232 and N-1 downmix selection flag number "3" is selected, the filter based on the transform coefficient information input Set to coefficient. This filter coefficient is a filter coefficient based on a head-related transfer function (HRTF) corresponding to a corresponding element (such as UFC) for each channel. If the database of head-related transfer functions for a fixed position is sufficient, it is not necessary to transmit it as an encoded stream. However, if a three-dimensional arrangement with a high degree of freedom is required, the right ear of the listener is determined from the three-dimensional arrangement. The head-related transfer function to the left ear is required.

図28において、前述からの例でいえば、ch0はUFCであり、UFCの3次元配置(0, Y, Z)から発した音がリスナーの左耳に届く際の伝達特性(HRTF(0, L))をフィルタ32310により、またリスナーの右耳に届く際の伝達特性(HRTF(0, R))をフィルタ32320によりそれぞれch0の信号に畳み込み、出力する。同様に、ch1の信号に対して、UFLの伝達特性HRTF(1, L)をフィルタ32311により、また、伝達関数HRTF(1, R)をフィルタ32321により、それぞれ畳み込み、出力する。 In FIG. 28, in the example from the above, ch0 is UFC, and the transmission characteristics (HRTF (0, Y, Z) when sound emitted from the UFC three-dimensional arrangement (0, Y, Z) reaches the listener's left ear. L)) is convoluted with the filter 3231 0 and the transfer characteristic (HRTF (0, R)) when reaching the listener's right ear is convolved with the ch0 signal by the filter 3232 0 and output. Similarly, the UFL transfer characteristic HRTF (1, L) is convoluted with the filter 3231 1 and the transfer function HRTF (1, R) is convoluted with the filter 3232 1 to output the ch1 signal.

そして、加算器3233は、全てのLchに対するフィルタ32310〜3231N-1の各出力信号を加算合成してLチャンネルのバイノーラル信号を出力する。また、これと並行して加算器3234は、全てのRchに対するフィルタ32320〜3232N-1の各出力信号を加算合成してRチャンネルのバイノーラル信号を出力する。このモードは、ヘッドホン試聴時に有効なモードとなる。 The adder 3233 adds and synthesizes the output signals of the filters 3231 0 to 3231 N−1 for all Lch, and outputs an L channel binaural signal. In parallel with this, the adder 3234 adds and synthesizes the output signals of the filters 3232 0 to 3232 N−1 for all Rch and outputs an R channel binaural signal. This mode is an effective mode when listening to headphones.

次に、ダウンミックス部32に、ダウンミックス選択フラグ番号「4」が入力された場合の構成及び動作について説明する。この場合は、ダウンミックス部32は、図19のモード4ブロック324を有効とすると共に、出力セレクタ325をモード4ブロック324から出力されるオーディオ信号を選択する。   Next, the configuration and operation when the downmix selection flag number “4” is input to the downmix unit 32 will be described. In this case, the downmix unit 32 validates the mode 4 block 324 of FIG. 19 and selects the audio signal output from the mode 4 block 324 by the output selector 325.

図29は、モード4ブロック324の一例の全体ブロック図を示す。同図に示すように、モード4ブロック324は、上層チャンネルダウンミックス部3241、中層チャンネルダウンミックス部3242、下層チャンネルダウンミックス部3243から構成されている。このモード4ブロック324は、図20に示したモード1ブロック321と同様の構成から5.1ch合成部104を削除した構成である。   FIG. 29 shows an overall block diagram of an example of the mode 4 block 324. As shown in the figure, the mode 4 block 324 includes an upper layer channel downmix unit 3241, a middle layer channel downmix unit 3242, and a lower layer channel downmix unit 3243. The mode 4 block 324 has a configuration in which the 5.1ch combining unit 104 is deleted from the same configuration as the mode 1 block 321 shown in FIG.

このモードは、平面総数だけ存在する2次元平面について、2次元平面毎に5.1chダウンミックスを行い出力するモードである。このモードの利点は、上層用に9ch分のスピーカを設置できない場合でも、図30に示すような、上層、中層、下層用にそれぞれ合計3個のユニットを備えたトールボーイ型スピーカ41〜45を配置することで、計5本のスピーカ41〜45と1個のサブウーハー(LFE)とにより、1枚の2次元平面上での5.1chダウンミックスでは得られない効果を得ることができる点である。   This mode is a mode in which a 5.1ch downmix is performed for each two-dimensional plane and output for a two-dimensional plane having a total number of planes. The advantage of this mode is that even if speakers for 9 channels cannot be installed for the upper layer, the tallboy speakers 41 to 45 having a total of three units for the upper layer, middle layer, and lower layer as shown in FIG. By arranging, a total of five speakers 41 to 45 and one subwoofer (LFE) can obtain an effect that cannot be obtained by a 5.1ch downmix on one two-dimensional plane. It is.

なお、本発明は以上の実施の形態に限定されるものではなく、例えば「ストリームに最初に現れるPCE0を上層用、2番目に現れるPCE1を中層用、3番目に現れるPCE2を低層+LFE用と定義する」といった取り決めを行わないのであれば、別途PCE中のコメントフィールドに前述した3種類の平面情報を記載したり、あるいは、DSE(データストリームエレメント)に記載するようにし、PCEの「element_instance_tag」の順番(小さい番号)からの並びと対応させる(この番号がプログラム番号を意味する。)ようにしてもよい。この場合は、上記の3つの平面の情報を自由な並びで配置できる。   The present invention is not limited to the above embodiment. For example, “PCE0 that appears first in the stream is for the upper layer, PCE1 that appears second is for the middle layer, and PCE2 that appears third is defined for the lower layer + LFE. If you do not make an arrangement such as “Yes”, enter the above three types of plane information separately in the comment field in the PCE, or in the DSE (data stream element), and set the “element_instance_tag” in the PCE. You may make it respond | correspond to the arrangement | sequence from an order (small number) (this number means a program number). In this case, the information on the above three planes can be arranged in any order.

また、オーディオ信号符号化装置10は、3つの平面符号化部12〜14を有しているが、1個の符号化部でメモリに蓄えつつ、3平面分の符号化処理を行うようにしてもよい。同様に、オーディオ信号復号化装置20は、3つの平面復号化部22〜24を有しているが、1個の復号化部でメモリに蓄えつつ、3平面分の復号化処理を行うようにしてもよい。更に、本発明は22.2ch以外の多チャンネルの3次元空間に配置されたスピーカにより立体音場を形成する多チャンネルオーディオ信号にも適用できることは勿論である。   The audio signal encoding apparatus 10 includes three plane encoding units 12 to 14, but performs encoding processing for three planes while storing the memory in a single encoding unit. Also good. Similarly, the audio signal decoding apparatus 20 includes three plane decoding units 22 to 24, but performs decoding processing for three planes while storing in one memory with one decoding unit. May be. Furthermore, the present invention can also be applied to multi-channel audio signals that form a three-dimensional sound field by speakers arranged in a multi-channel three-dimensional space other than 22.2 ch.

また、以上の実施の形態ではMPEG−2/4 AAC方式を例に説明したが、例えば、E−AC3方式に本発明を適用することができる。E−AC3方式の場合、公知の文献("SMPTE Proposed Recommended Practice, Digital Cinema Channel Mapping and Labeling, RP 226,"(c)SMPTE 2004)に示された上方スピーカを伴ったチャンネル配置に準拠して符号化ストリームを生成することができるが、チャンネル配置がSMPTE提案に限定的であるため、22.2chを符号化することができない。しかし、本発明のオーディオ信号符号化装置は複数のプログラムを1本のストリームに統合化できる符号化を行うため、本発明をEーAC3方式に適用可能である。   In the above embodiment, the MPEG-2 / 4 AAC system has been described as an example, but the present invention can be applied to, for example, the E-AC3 system. In the case of the E-AC3 system, a code according to a channel arrangement with an upper speaker shown in a known document ("SMPTE Proposed Recommended Practice, Digital Cinema Channel Mapping and Labeling, RP 226," (c) SMPTE 2004) is used. However, since the channel arrangement is limited to the SMPTE proposal, 22.2ch cannot be encoded. However, since the audio signal encoding apparatus of the present invention performs encoding capable of integrating a plurality of programs into one stream, the present invention can be applied to the E-AC3 system.

また、本発明はオーディオ信号符号化装置10の動作をコンピュータにより実行する符号化プログラムや、オーディオ信号復号化装置20,30の動作をコンピュータにより実行する復号化プログラムも包含するものである。   The present invention also includes an encoding program for executing the operation of the audio signal encoding device 10 by a computer and a decoding program for executing the operations of the audio signal decoding devices 20 and 30 by a computer.

10 オーディオ信号符号化装置
11 3次元空間分割部
12、13、14 平面符号化部
15 ストリーム統合部
20、30 オーディオ信号復号化装置
21、31 ストリーム分離部
22、23、24 平面復号化部
25 3次元空間合成部
32 ダウンミックス部
41〜45 トールボーイ型スピーカ
101、201、3241 上層チャンネルダウンミックス部
102、202、3242 中層チャンネルダウンミックス部
103、203、3243 下層チャンネルダウンミックス部
104、204 5.1ch合成部
205 2ch合成部
321 モード1ブロック
322 モード2ブロック
323 モード3ブロック
324 モード4ブロック
325 出力セレクタ
DESCRIPTION OF SYMBOLS 10 Audio signal encoding apparatus 11 Three-dimensional space division part 12, 13, 14 Planar encoding part 15 Stream integration part 20, 30 Audio signal decoding apparatus 21, 31 Stream separation part 22, 23, 24 Planar decoding part 25 3 Dimensional space synthesis unit 32 Downmix unit 41 to 45 Tallboy speaker 101, 201, 3241 Upper channel downmix unit 102, 202, 3242 Middle channel downmix unit 103, 203, 3243 Lower channel downmix unit 104, 204 5. 1ch synthesis unit 205 2ch synthesis unit 321 Mode 1 block 322 Mode 2 block 323 Mode 3 block 324 Mode 4 block 325 Output selector

Claims (18)

複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、前記3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、前記2次元平面の数と、各2次元平面に対応するチャンネル数と、前記2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの前記2次元平面内における位置を示すチャンネルマッピング情報を出力する第1のステップと、
前記平面情報と前記チャンネルマッピング情報とに基づいて、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、前記符号化要素と前記平面位置情報とを前記2次元平面毎に出力する第2のステップと、
前記第2のステップにより前記2次元平面毎に出力された前記符号化要素と前記平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力する第3のステップと
を含むことを特徴とするオーディオ信号符号化方法。
The position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space that outputs audio signals of a plurality of channels, and a dividing direction that is a direction for dividing the three-dimensional space into a plurality of two-dimensional planes. Based on this, plane information including the number of the two-dimensional planes, the number of channels corresponding to the respective two-dimensional planes, and the division order of the two-dimensional planes is output, and the 2 of each speaker corresponding to each channel is output. A first step of outputting channel mapping information indicating a position in a dimension plane;
Based on the plane information and the channel mapping information, an encoding element is generated by encoding the audio signals of the plurality of channels as a group of programs for each two-dimensional plane, and further, the two-dimensional plane A second step of generating plane position information including information indicating a channel arrangement in the output and outputting the coding element and the plane position information for each two-dimensional plane;
And a third step of generating and outputting one encoded stream by integrating all of the encoding elements output for each of the two-dimensional planes by the second step and the plane position information. An audio signal encoding method characterized by the above.
前記第3のステップで生成される前記1本の符号化ストリームには、3次元空間に立体的に配置される前記複数チャンネルのオーディオ信号の内、一部のチャンネルのみを復号化できるようにするための情報が前記平面位置情報として付加されていることを特徴とする請求項1記載のオーディオ信号符号化方法。   In the one encoded stream generated in the third step, only a part of the channels of the audio signals of the plurality of channels arranged in a three-dimensional space can be decoded. 2. The audio signal encoding method according to claim 1, wherein information for adding the information is added as the planar position information. 前記第3のステップで生成される前記1本の符号化ストリームには、3次元空間に立体的に配置される前記複数チャンネルのオーディオ信号を、前記複数チャンネルよりも少ないチャンネル数に変換したオーディオ信号として再生できるようにするための変換係数情報が付加されていることを特徴とする請求項1記載のオーディオ信号符号化方法。   In the one encoded stream generated in the third step, an audio signal obtained by converting the audio signals of the plurality of channels arranged three-dimensionally in a three-dimensional space into a smaller number of channels than the plurality of channels. 2. The audio signal encoding method according to claim 1, wherein transform coefficient information is added so as to be reproducible. 前記変換係数情報は、前記3次元空間に立体的に配置される前記少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、前記視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していることを特徴とする請求項3記載のオーディオ信号符号化方法。   The transform coefficient information includes a filter coefficient corresponding to a head-related transfer function from the position of each speaker of the speaker with a small number of channels arranged three-dimensionally in the three-dimensional space to the viewer's right ear, and the viewing 4. The audio signal encoding method according to claim 3, further comprising a filter coefficient corresponding to a head-related transfer function up to the left ear of the person. 前記第1のステップで生成されるチャンネルマッピング情報には、3次元空間に立体的に配置される前記複数のスピーカのうち、前記複数のチャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力する各スピーカの前記2次元平面における位置を示す情報も含むようにし、
前記第2のステップでは、前記3次元空間に立体的に配置される前記複数のスピーカから出力するための前記複数チャンネルのオーディオ信号とは別に、前記少ないチャンネル数に予め変換したオーディオ信号について、前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、前記第2の符号化要素と前記第2の平面位置情報とを前記2次元平面毎に出力するようにし、
前記第3のステップでは、前記第2の符号化要素と前記第2の平面位置情報とを、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した前記符号化要素と、前記2次元平面内のチャンネル配置を示す情報を含む前記平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしたことを特徴とする請求項1記載のオーディオ信号符号化方法。
In the channel mapping information generated in the first step, an audio signal converted in advance to a number of channels smaller than the plurality of channels among the plurality of speakers arranged three-dimensionally in a three-dimensional space is output. Including information indicating the position of each speaker in the two-dimensional plane;
In the second step, apart from the plurality of channels of audio signals to be output from the plurality of speakers arranged three-dimensionally in the three-dimensional space, the audio signal previously converted into the small number of channels, A second encoding element is generated by encoding as a group of programs for each two-dimensional plane, and further, second plane position information including information indicating the channel arrangement in the two-dimensional plane is generated. And outputting the second encoding element and the second plane position information for each two-dimensional plane,
In the third step, the second encoding element and the second plane position information are generated by encoding the plurality of channels of audio signals as a group of programs for each two-dimensional plane. An encoded stream integrated with the encoded element and the plane position information including information indicating a channel arrangement in the two-dimensional plane is generated and output. Item 6. An audio signal encoding method according to Item 1.
複数チャンネルのオーディオ信号を出力する3次元空間に立体的に配置される複数のスピーカの各スピーカの位置と、前記3次元空間を複数の2次元平面に分割するための方向である分割方向とに基づいて、前記2次元平面の数と、各2次元平面に対応するチャンネル数と、前記2次元平面の分割順序とを含む平面情報を出力し、さらに、各チャンネルが対応する各スピーカの前記2次元平面内における位置を示すチャンネルマッピング情報を出力する3次元空間分割部と、
前記平面情報と前記チャンネルマッピング情報とに基づいて、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、前記符号化要素と前記平面位置情報とを前記2次元平面毎に出力する平面符号化部と、
前記平面符号化部により前記2次元平面毎に出力された前記符号化要素と前記平面位置情報とを全て統合して、1本の符号化ストリームを生成して出力するストリーム統合部と
を有することを特徴とするオーディオ信号符号化装置。
The position of each speaker of a plurality of speakers arranged three-dimensionally in a three-dimensional space that outputs audio signals of a plurality of channels, and a dividing direction that is a direction for dividing the three-dimensional space into a plurality of two-dimensional planes. Based on this, plane information including the number of the two-dimensional planes, the number of channels corresponding to the respective two-dimensional planes, and the division order of the two-dimensional planes is output, and the 2 of each speaker corresponding to each channel is output. A three-dimensional space division unit that outputs channel mapping information indicating a position in a three-dimensional plane;
Based on the plane information and the channel mapping information, an encoding element is generated by encoding the audio signals of the plurality of channels as a group of programs for each two-dimensional plane, and further, the two-dimensional plane A plane encoding unit that generates plane position information including information indicating the channel arrangement in the plane, and outputs the encoding element and the plane position information for each two-dimensional plane;
A stream integration unit that integrates all of the encoding elements output by the plane encoding unit for each of the two-dimensional planes and the plane position information, and generates and outputs one encoded stream. An audio signal encoding device.
前記ストリーム統合部は、3次元空間に立体的に配置される前記複数チャンネルの音源情報の内、一部のチャンネルのみを復号化できるようにするための情報を前記平面位置情報として付加した前記1本の符号化ストリームを生成することを特徴とする請求項6記載のオーディオ信号符号化装置。   The stream integration unit adds the information for enabling decoding only a part of the plurality of channels of sound source information arranged three-dimensionally in a three-dimensional space as the plane position information. 7. The audio signal encoding apparatus according to claim 6, wherein an encoded stream of the book is generated. 前記ストリーム統合部は、3次元空間に立体的に配置される前記複数チャンネルのオーディオ信号を前記複数チャンネルよりも少ないチャンネル数に変換した信号に再生できるようにするための変換係数情報を付加した前記1本の符号化ストリームを生成することを特徴とする請求項6記載のオーディオ信号符号化装置。   The stream integration unit is configured to add conversion coefficient information for allowing the audio signals of the plurality of channels arranged three-dimensionally in a three-dimensional space to be reproduced into a signal converted to a number of channels smaller than the plurality of channels. 7. The audio signal encoding apparatus according to claim 6, wherein one encoded stream is generated. 前記変換係数情報は、前記3次元空間に立体的に配置される前記少ないチャンネル数のスピーカの各スピーカの位置から、視聴者の右耳までの頭部伝達関数に相当するフィルタ係数と、前記視聴者の左耳までの頭部伝達関数に相当するフィルタ係数とを有していることを特徴とする請求項8記載のオーディオ信号符号化装置。   The transform coefficient information includes a filter coefficient corresponding to a head-related transfer function from the position of each speaker of the speaker with a small number of channels arranged three-dimensionally in the three-dimensional space to the viewer's right ear, and the viewing 9. The audio signal encoding apparatus according to claim 8, further comprising a filter coefficient corresponding to a head-related transfer function up to the left ear of the person. 前記3次元空間分割部は、3次元空間に立体的に配置される前記複数のスピーカのうち、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号を出力するスピーカの前記2次元平面における位置を示す情報も出力するようにし、
前記平面符号化部は、前記複数チャンネルのオーディオ信号とは別に、前記少ないチャンネル数に予め変換したオーディオ信号について、前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成して、前記第2の符号化要素と前記第2の平面位置情報とを前記2次元平面毎に出力するようにし、
前記ストリーム統合部は、前記第2の符号化要素と前記第2の平面位置情報とを、前記複数チャンネルのオーディオ信号を前記2次元平面毎にひとまとまりのプログラムとして符号化を行うことで生成した前記符号化要素と前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報と一緒に統合した、1本の符号化ストリームを生成して出力するようしたことを特徴とする請求項6記載のオーディオ信号符号化装置。
The three-dimensional space division unit is a position on the two-dimensional plane of a speaker that outputs an audio signal converted in advance to a number of channels smaller than the plurality of channels among the plurality of speakers arranged three-dimensionally in a three-dimensional space. To output information indicating
The plane encoding unit encodes an audio signal previously converted into the small number of channels separately from the plurality of channels of audio signals by performing encoding as a group of programs for each two-dimensional plane. Generating second plane position information including information indicating channel arrangement in the two-dimensional plane, and generating the second encoding element and the second plane position information. Output every 2D plane,
The stream integration unit generates the second encoding element and the second plane position information by encoding the audio signals of the plurality of channels as a group of programs for each two-dimensional plane. 7. A single encoded stream integrated with plane position information including information indicating channel arrangement in the two-dimensional plane is generated and output. Audio signal encoding device.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離する第1のステップと、
前記第1のステップにおいて分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記3次元空間に配置された前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと
を含むことを特徴とするオーディオ信号復号化方法。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. And generating plane position information including information indicating the channel arrangement in the two-dimensional plane, receiving one encoded stream obtained by integrating them as an input, and the encoded stream A first step of separating the plane position information and the encoding element for each of the plurality of two-dimensional planes;
A second step of decoding the encoding elements for each of the two-dimensional planes separated in the first step, respectively, and decoding the decoded audio signals into the plurality of channels of audio signals arranged in the three-dimensional space;
A three-dimensional channel indicating the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated in the first step. An audio signal decoding method comprising: a third step of generating arrangement information.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、前記複数チャンネルのオーディオ信号よりも少ないチャンネル数に予め変換したオーディオ信号についても、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記第1及び第2の平面位置情報と前記第1及び第2の符号化要素とを前記複数の2次元平面のそれぞれについて分離する第1のステップと、
前記第1のステップで分離された前記2次元平面毎の前記第1及び第2の符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号と、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記第1及び第2の平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号と、前記複数チャンネルよりも少ないチャンネル数に予め変換したオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと
を含むことを特徴とするオーディオ信号復号化方法。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded as a set of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. 1 encoding element is generated, and further, first plane position information including information indicating the channel arrangement in the two-dimensional plane is generated, and the number of channels is smaller than that of the plurality of audio signals in advance. The audio signal is also encoded as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space to generate a second encoding element, and the channel arrangement in the two-dimensional plane is further changed. Generating the second plane position information including the information to be received, and receiving one encoded stream obtained by integrating them as an input, From encoded stream, a first step of separating each of the said first and second planar position information first and second coding elements of said plurality of two-dimensional plane,
The first and second coding elements for each of the two-dimensional planes separated in the first step are respectively decoded and converted in advance into the audio signal of the plurality of channels and the number of channels smaller than the plurality of channels. A second step of decoding into an audio signal,
By combining the first and second plane position information for each two-dimensional plane separated in the first step, the decoded audio signals of the plurality of channels and the number of channels smaller than the plurality of channels. An audio signal decoding method comprising: a third step of generating three-dimensional channel arrangement information indicating a position of a speaker that outputs an audio signal of each channel of an audio signal converted in advance.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルのオーディオ信号を前記複数チャンネルよりも少ないチャンネル数のオーディオ信号として再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離する第1のステップと、
前記第1のステップで分離された前記2次元平面毎に前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記第1のステップで分離された前記変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、前記複数チャンネルのオーディオ信号よりも少ないチャンネル数のオーディオ信号に変換する第4のステップと
を含むことを特徴とするオーディオ信号復号化方法。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Generating plane position information including information indicating the channel arrangement in the two-dimensional plane, and further reducing the audio signals of the plurality of channels arranged in the three-dimensional space from the plurality of channels. Generates transform coefficient information including information indicating transform coefficients for enabling reproduction as an audio signal of the number of channels, receives one encoded stream obtained by integrating them as an input, and from the encoded stream Separating the plane position information and the encoding element for each of the plurality of two-dimensional planes; A first step of separating the serial transform coefficient information,
A second step of decoding each of the encoding elements for each of the two-dimensional planes separated in the first step, and decoding into the plurality of channels of audio signals;
Three-dimensional channel arrangement information indicating the position of a speaker that outputs the audio signal of each channel of the plurality of audio signals is synthesized by combining the plane position information for each of the two-dimensional planes separated in the first step. A third step of generating,
The decoded audio signals of the plurality of channels are reproduced on one or more two-dimensional planes by multiplying the transform coefficient information separated in the first step obtained based on the three-dimensional channel arrangement information. And a fourth step of converting the audio signal into a smaller number of channels than the plurality of channels of audio signals.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルのオーディオ信号を少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離する第1のステップと、
前記第1のステップで分離された前記2次元平面毎に前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する第2のステップと、
前記第1のステップで分離された前記2次元平面毎の前記平面位置情報を合成して、前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する第3のステップと、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記第1のステップで分離された前記変換係数情報を乗じて、前記複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換する第4のステップと
を含むことを特徴とするオーディオ信号復号化方法。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Can generate plane position information including information indicating the channel arrangement in the two-dimensional plane, and can reproduce the audio signals of the plurality of channels arranged in the three-dimensional space with a small number of channels. Generation of transform coefficient information including information indicating transform coefficients for receiving and receiving one encoded stream obtained by integrating them as an input, from the encoded stream, the plane position information and the code Separating a transform element for each of the plurality of two-dimensional planes, and further separating the transform coefficient information;
A second step of decoding each of the encoding elements for each of the two-dimensional planes separated in the first step, and decoding into the plurality of channels of audio signals;
Three-dimensional channel arrangement information indicating the position of a speaker that outputs the audio signal of each channel of the plurality of audio signals is synthesized by combining the plane position information for each of the two-dimensional planes separated in the first step. A third step of generating,
The decoded multi-channel audio signal is multiplied by the transform coefficient information separated in the first step obtained based on the three-dimensional channel arrangement information to obtain two channels from the multi-channel audio signal. The audio signal decoding method characterized by including the 4th step of converting into the binaural signal of this.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離するストリーム分離部と、
前記ストリーム分離部において分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と
を有することを特徴とするオーディオ信号復号化装置。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. And generating plane position information including information indicating the channel arrangement in the two-dimensional plane, receiving one encoded stream obtained by integrating them as an input, and the encoded stream A stream separation unit for separating the plane position information and the encoding element for each of the plurality of two-dimensional planes;
A plane decoding unit that decodes each of the encoding elements for each of the two-dimensional planes separated in the stream separation unit and decodes the encoded signals into the plurality of channels of audio signals;
A three-dimensional channel arrangement that indicates the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated by the stream separation unit An audio signal decoding apparatus comprising: a three-dimensional space synthesis unit that generates information.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第1の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第1の平面位置情報を生成すると共に、予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号についても、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで第2の符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む第2の平面位置情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記第1及び第2の平面位置情報と前記第1及び第2の符号化要素とを前記複数の2次元平面のそれぞれについて分離するストリーム分離部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記第1及び第2の符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号と、前記予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記第1及び第2の平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号と、前記予め変換した前記複数チャンネルよりも少ないチャンネル数のオーディオ信号の各チャンネルのオーディオ信号をそれぞれ出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と
を有することを特徴とするオーディオ信号復号化装置。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded as a set of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. 1 is generated, and further, first plane position information including information indicating the channel arrangement in the two-dimensional plane is generated, and an audio signal having a smaller number of channels than the plurality of previously converted channels is generated. The second encoding element is generated by encoding as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space, and information indicating channel arrangement in the two-dimensional plane is further generated. Second plane position information including the received encoded stream is received as an input, and an encoded stream obtained by integrating them is received as an input. From arm, a stream separation unit separating the said first and second said planar position information of the first and second coding elements for each of the plurality of two-dimensional plane,
The first and second coding elements for each of the two-dimensional planes separated by the stream separation unit are decoded, respectively, so that the plurality of channels of audio signals and the number of channels smaller than the plurality of pre-converted channels A plane decoding unit for decoding into the audio signal of
The first and second plane position information for each of the two-dimensional planes separated by the stream separation unit is synthesized, and the decoded audio signals of the plurality of channels are less than the plurality of channels converted in advance. An audio signal decoding apparatus comprising: a three-dimensional space synthesis unit that generates three-dimensional channel arrangement information indicating a position of a speaker that outputs an audio signal of each channel of audio signals of the number of channels.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルよりも少ないチャンネル数のオーディオ信号で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離するストリーム分離部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記ストリーム分離部で分離された前記変換係数情報を乗じて、1枚以上の2次元平面で再生されるように、前記複数チャンネルよりも少ないチャンネル数のオーディオ信号に変換するダウンミックス部と
を有することを特徴とするオーディオ信号復号化装置。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. Generating plane position information including information indicating the channel arrangement in the two-dimensional plane, and further reproducing with audio signals having a smaller number of channels than the plurality of channels arranged in the three-dimensional space. Generating transform coefficient information including information indicating transform coefficients for enabling and receiving one encoded stream obtained by integrating them, and receiving the plane position information and the encoded stream from the encoded stream Stream separation that separates encoding elements from each of the plurality of two-dimensional planes and further separates the transform coefficient information And,
A plane decoding unit that decodes each of the encoding elements for each of the two-dimensional planes separated by the stream separation unit and decodes the encoded signals into the plurality of channels of audio signals;
A three-dimensional channel arrangement that indicates the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated by the stream separation unit A three-dimensional space synthesis unit for generating information;
The decoded audio signals of the plurality of channels are multiplied by the transform coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and reproduced on one or more two-dimensional planes. An audio signal decoding apparatus comprising: a downmix unit that converts an audio signal having a smaller number of channels than the plurality of channels.
3次元空間に立体的に配置される複数のスピーカから出力するための複数チャンネルのオーディオ信号を、前記3次元空間に含まれる複数の2次元平面毎にひとまとまりのプログラムとして符号化することで符号化要素を生成し、さらに、前記2次元平面内のチャンネル配置を示す情報を含む平面位置情報を生成し、さらに、3次元空間に配置される前記複数チャンネルよりも少ないチャンネル数で再生できるようにするための変換係数を示す情報を含む変換係数情報を生成し、それらを統合して得られる1本の符号化ストリームを入力として受け、その符号化ストリームから、前記平面位置情報と前記符号化要素とを前記複数の2次元平面のそれぞれについて分離し、さらに、前記変換係数情報を分離するストリーム分離部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記符号化要素をそれぞれ復号化して、前記複数チャンネルのオーディオ信号へと復号する平面復号化部と、
前記ストリーム分離部で分離された前記2次元平面毎の前記平面位置情報を合成して、復号された前記複数チャンネルのオーディオ信号の各チャンネルのオーディオ信号を出力するスピーカの位置を示す3次元チャンネル配置情報を生成する3次元空間合成部と、
復号された前記複数チャンネルのオーディオ信号に対して、前記3次元チャンネル配置情報を基に得られる前記ストリーム分離部で分離された前記変換係数情報を乗じて、前記複数チャンネルのオーディオ信号から2チャンネルのバイノーラル信号に変換するダウンミックス部と
を有することを特徴とするオーディオ信号復号化装置。
A plurality of channels of audio signals to be output from a plurality of speakers arranged three-dimensionally in a three-dimensional space are encoded by encoding them as a group of programs for each of a plurality of two-dimensional planes included in the three-dimensional space. To generate plane position information including information indicating the channel arrangement in the two-dimensional plane, and to reproduce with a smaller number of channels than the plurality of channels arranged in the three-dimensional space. Generating transform coefficient information including information indicating transform coefficients to be received, receiving one encoded stream obtained by integrating them, and receiving the plane position information and the encoded element from the encoded stream For each of the plurality of two-dimensional planes, and further, a stream separator for separating the transform coefficient information;
A plane decoding unit that decodes each of the encoding elements for each of the two-dimensional planes separated by the stream separation unit and decodes the encoded signals into the plurality of channels of audio signals;
A three-dimensional channel arrangement that indicates the position of a speaker that outputs the audio signal of each channel of the decoded audio signals of the plurality of channels by combining the plane position information for each of the two-dimensional planes separated by the stream separation unit A three-dimensional space synthesis unit for generating information;
The decoded audio signal of the plurality of channels is multiplied by the transform coefficient information separated by the stream separation unit obtained based on the three-dimensional channel arrangement information, and the two-channel audio signal is obtained from the plurality of channels of the audio signal. An audio signal decoding device comprising: a downmix unit that converts a binaural signal.
JP2009282358A 2009-08-18 2009-12-14 Audio signal encoding method, encoding device, decoding method, and decoding device Pending JP2011066868A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009282358A JP2011066868A (en) 2009-08-18 2009-12-14 Audio signal encoding method, encoding device, decoding method, and decoding device

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009189577 2009-08-18
JP2009282358A JP2011066868A (en) 2009-08-18 2009-12-14 Audio signal encoding method, encoding device, decoding method, and decoding device

Publications (1)

Publication Number Publication Date
JP2011066868A true JP2011066868A (en) 2011-03-31

Family

ID=43952575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009282358A Pending JP2011066868A (en) 2009-08-18 2009-12-14 Audio signal encoding method, encoding device, decoding method, and decoding device

Country Status (1)

Country Link
JP (1) JP2011066868A (en)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014007095A1 (en) * 2012-07-02 2014-01-09 ソニー株式会社 Decoding device and method, encoding device and method, and program
WO2014007094A1 (en) * 2012-07-02 2014-01-09 ソニー株式会社 Decoding device and method, encoding device and method, and program
CN103748629A (en) * 2012-07-02 2014-04-23 索尼公司 Decoding device and method, encoding device and method, and program
JP2014520491A (en) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション Systems and tools for improved 3D audio creation and presentation
JP2014204317A (en) * 2013-04-05 2014-10-27 日本放送協会 Acoustic signal reproducing device and acoustic signal preparation device
JP2014222856A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
JP2014222853A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
JP2014222852A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
WO2014199536A1 (en) * 2013-06-10 2014-12-18 パナソニック株式会社 Audio playback device and method therefor
KR20150047943A (en) * 2013-10-25 2015-05-06 삼성전자주식회사 Method and apparatus for 3D sound reproducing
EP2743921A4 (en) * 2012-07-02 2015-06-03 Sony Corp DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM
JP2015195545A (en) * 2014-03-25 2015-11-05 日本放送協会 Channel number converter
KR20160015265A (en) * 2013-05-29 2016-02-12 퀄컴 인코포레이티드 Filtering with binaural room impulse responses with content analysis and weighting
WO2016052185A1 (en) * 2014-09-29 2016-04-07 ソニー株式会社 Transmission device, transmission method, receiving device and receiving method
JP2016149766A (en) * 2015-02-05 2016-08-18 日本放送協会 Characteristic adjustment device for audio signal, characteristic adjustment program for audio signal, and characteristic adjustment method for audio signal
JP2016530788A (en) * 2013-07-22 2016-09-29 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Audio decoder, audio encoder, method for providing at least four audio channel signals based on a coded representation, method for providing a coded representation based on at least four audio channel signals with bandwidth extension, and Computer program
JP2018201225A (en) * 2014-04-11 2018-12-20 サムスン エレクトロニクス カンパニー リミテッド Rendering method, apparatus and recording medium for acoustic signal
KR20210034564A (en) * 2013-10-25 2021-03-30 삼성전자주식회사 Method and apparatus for 3D sound reproducing
CN114005454A (en) * 2015-06-17 2022-02-01 三星电子株式会社 Internal sound channel processing method and device for realizing low-complexity format conversion
KR20220042086A (en) * 2021-03-18 2022-04-04 삼성전자주식회사 Method and apparatus for 3D sound reproducing
JP2022545709A (en) * 2019-08-30 2022-10-28 ドルビー ラボラトリーズ ライセンシング コーポレイション Channel identification of multichannel audio signals

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05176391A (en) * 1991-12-12 1993-07-13 Takenaka Komuten Co Ltd Acoustic reproducing device
JPH11178089A (en) * 1997-12-05 1999-07-02 Victor Co Of Japan Ltd Sound collection reproduction method for multi-channel audio signal, recording device, record medium, and reproduction device
JP2000090582A (en) * 1998-09-07 2000-03-31 Victor Co Of Japan Ltd Transmission method for audio signal, audio disk, enoding device and decoding device
JP2007081710A (en) * 2005-09-13 2007-03-29 Yamaha Corp Signal processing apparatus
JP2007532960A (en) * 2004-04-16 2007-11-15 コーディング テクノロジーズ アクチボラゲット Apparatus and method for displaying a multi-channel audio signal
JP2008252834A (en) * 2007-03-30 2008-10-16 Toshiba Corp Audio playback device
JP2008288935A (en) * 2007-05-18 2008-11-27 Panasonic Corp Audio processing device
JP2009531886A (en) * 2006-03-24 2009-09-03 ドルビー スウェーデン アクチボラゲット Spatial downmix generation from parametric representations of multichannel signals

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05176391A (en) * 1991-12-12 1993-07-13 Takenaka Komuten Co Ltd Acoustic reproducing device
JPH11178089A (en) * 1997-12-05 1999-07-02 Victor Co Of Japan Ltd Sound collection reproduction method for multi-channel audio signal, recording device, record medium, and reproduction device
JP2000090582A (en) * 1998-09-07 2000-03-31 Victor Co Of Japan Ltd Transmission method for audio signal, audio disk, enoding device and decoding device
JP2007532960A (en) * 2004-04-16 2007-11-15 コーディング テクノロジーズ アクチボラゲット Apparatus and method for displaying a multi-channel audio signal
JP2007081710A (en) * 2005-09-13 2007-03-29 Yamaha Corp Signal processing apparatus
JP2009531886A (en) * 2006-03-24 2009-09-03 ドルビー スウェーデン アクチボラゲット Spatial downmix generation from parametric representations of multichannel signals
JP2008252834A (en) * 2007-03-30 2008-10-16 Toshiba Corp Audio playback device
JP2008288935A (en) * 2007-05-18 2008-11-27 Panasonic Corp Audio processing device

Cited By (85)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9549275B2 (en) 2011-07-01 2017-01-17 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
EP4543049A3 (en) * 2011-07-01 2025-06-11 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
EP4543049A2 (en) 2011-07-01 2025-04-23 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
TWI873802B (en) * 2011-07-01 2025-02-21 美商杜比實驗室特許公司 Apparatus, method and non-transitory medium for enhanced 3d audio authoring and rendering
US12047768B2 (en) 2011-07-01 2024-07-23 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
JP2014520491A (en) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション Systems and tools for improved 3D audio creation and presentation
TWI816597B (en) * 2011-07-01 2023-09-21 美商杜比實驗室特許公司 Apparatus, method and non-transitory medium for enhanced 3d audio authoring and rendering
US11641562B2 (en) 2011-07-01 2023-05-02 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
EP4135348A3 (en) * 2011-07-01 2023-04-05 Dolby Laboratories Licensing Corporation Apparatus for controlling the spread of rendered audio objects, method and non-transitory medium therefor
EP4132011A3 (en) * 2011-07-01 2023-03-01 Dolby Laboratories Licensing Corp. Apparatus for rendering audio objects according to imposed speaker zone constraints, corresponding method and computer program product
TWI785394B (en) * 2011-07-01 2022-12-01 美商杜比實驗室特許公司 Apparatus, method and non-transitory medium for enhanced 3d audio authoring and rendering
EP2727381B1 (en) * 2011-07-01 2022-01-26 Dolby Laboratories Licensing Corporation Apparatus and method for rendering audio objects
EP3913931A1 (en) * 2011-07-01 2021-11-24 Dolby Laboratories Licensing Corp. Apparatus for rendering audio, method and storage means therefor
US11057731B2 (en) 2011-07-01 2021-07-06 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
KR101547467B1 (en) 2011-07-01 2015-08-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 System and tools for enhanced 3d audio authoring and rendering
US10609506B2 (en) 2011-07-01 2020-03-31 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US9204236B2 (en) 2011-07-01 2015-12-01 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US10244343B2 (en) 2011-07-01 2019-03-26 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
US9838826B2 (en) 2011-07-01 2017-12-05 Dolby Laboratories Licensing Corporation System and tools for enhanced 3D audio authoring and rendering
JP2017041897A (en) * 2011-07-01 2017-02-23 ドルビー ラボラトリーズ ライセンシング コーポレイション Systems and tools for improved 3D audio creation and presentation
US10140995B2 (en) 2012-07-02 2018-11-27 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
RU2648945C2 (en) * 2012-07-02 2018-03-28 Сони Корпорейшн Decoding device, decoding method, coding device, coding method and program
JPWO2014007096A1 (en) * 2012-07-02 2016-06-02 ソニー株式会社 Decoding device and method, encoding device and method, and program
EP2743921A4 (en) * 2012-07-02 2015-06-03 Sony Corp DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM
WO2014007094A1 (en) * 2012-07-02 2014-01-09 ソニー株式会社 Decoding device and method, encoding device and method, and program
US9437198B2 (en) 2012-07-02 2016-09-06 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
CN103748629A (en) * 2012-07-02 2014-04-23 索尼公司 Decoding device and method, encoding device and method, and program
US9542952B2 (en) 2012-07-02 2017-01-10 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
JPWO2014007095A1 (en) * 2012-07-02 2016-06-02 ソニー株式会社 Decoding device and method, encoding device and method, and program
JPWO2014007094A1 (en) * 2012-07-02 2016-06-02 ソニー株式会社 Decoding device and method, encoding device and method, and program
EP2741286A4 (en) * 2012-07-02 2015-04-08 Sony Corp DEVICE AND METHOD FOR DECODING, DEVICE AND METHOD FOR CODING AND PROGRAM
US10304466B2 (en) 2012-07-02 2019-05-28 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program with downmixing of decoded audio data
AU2013284704B2 (en) * 2012-07-02 2019-01-31 Sony Corporation Decoding device and method, encoding device and method, and program
WO2014007095A1 (en) * 2012-07-02 2014-01-09 ソニー株式会社 Decoding device and method, encoding device and method, and program
CN103748628A (en) * 2012-07-02 2014-04-23 索尼公司 Decoding device and method, encoding device and method, and program
JPWO2014007097A1 (en) * 2012-07-02 2016-06-02 ソニー株式会社 Decoding device and method, encoding device and method, and program
CN103782339A (en) * 2012-07-02 2014-05-07 索尼公司 Decoding device and method, encoding device and method, and program
US10083700B2 (en) 2012-07-02 2018-09-25 Sony Corporation Decoding device, decoding method, encoding device, encoding method, and program
JP2018116313A (en) * 2012-07-02 2018-07-26 ソニー株式会社 Television receiver, signal processing method, and program
JP2018116312A (en) * 2012-07-02 2018-07-26 ソニー株式会社 Television receiver, signal processing method, and program
JP2018142003A (en) * 2012-07-02 2018-09-13 ソニー株式会社 Television receiver, signal processing method, and program
JP2014204317A (en) * 2013-04-05 2014-10-27 日本放送協会 Acoustic signal reproducing device and acoustic signal preparation device
JP2014222856A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
JP2014222853A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
JP2014222852A (en) * 2013-05-14 2014-11-27 日本放送協会 Acoustic signal reproduction device and acoustic signal preparation device
US9674632B2 (en) 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
KR20160015265A (en) * 2013-05-29 2016-02-12 퀄컴 인코포레이티드 Filtering with binaural room impulse responses with content analysis and weighting
KR101719094B1 (en) 2013-05-29 2017-03-22 퀄컴 인코포레이티드 Filtering with binaural room impulse responses with content analysis and weighting
JP2016523466A (en) * 2013-05-29 2016-08-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated Binaural room impulse response filtering using content analysis and weighting
US9788120B2 (en) 2013-06-10 2017-10-10 Socionext Inc. Audio playback device and audio playback method
WO2014199536A1 (en) * 2013-06-10 2014-12-18 パナソニック株式会社 Audio playback device and method therefor
JPWO2014199536A1 (en) * 2013-06-10 2017-02-23 株式会社ソシオネクスト Audio playback apparatus and method
US10770080B2 (en) 2013-07-22 2020-09-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US10741188B2 (en) 2013-07-22 2020-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US12380899B2 (en) 2013-07-22 2025-08-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
JP2016530788A (en) * 2013-07-22 2016-09-29 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. Audio decoder, audio encoder, method for providing at least four audio channel signals based on a coded representation, method for providing a coded representation based on at least four audio channel signals with bandwidth extension, and Computer program
US9940938B2 (en) 2013-07-22 2018-04-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US9953656B2 (en) 2013-07-22 2018-04-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US11657826B2 (en) 2013-07-22 2023-05-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
US10147431B2 (en) 2013-07-22 2018-12-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US11488610B2 (en) 2013-07-22 2022-11-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, method for providing at least four audio channel signals on the basis of an encoded representation, method for providing an encoded representation on the basis of at least four audio channel signals and computer program using a bandwidth extension
US10645513B2 (en) 2013-10-25 2020-05-05 Samsung Electronics Co., Ltd. Stereophonic sound reproduction method and apparatus
KR20150047943A (en) * 2013-10-25 2015-05-06 삼성전자주식회사 Method and apparatus for 3D sound reproducing
KR20210034564A (en) * 2013-10-25 2021-03-30 삼성전자주식회사 Method and apparatus for 3D sound reproducing
KR102380232B1 (en) 2013-10-25 2022-03-29 삼성전자주식회사 Method and apparatus for 3D sound reproducing
KR102231755B1 (en) * 2013-10-25 2021-03-24 삼성전자주식회사 Method and apparatus for 3D sound reproducing
US11051119B2 (en) 2013-10-25 2021-06-29 Samsung Electronics Co., Ltd. Stereophonic sound reproduction method and apparatus
JP2018201224A (en) * 2013-10-25 2018-12-20 サムスン エレクトロニクス カンパニー リミテッド Audio signal rendering method and apparatus
JP2015195545A (en) * 2014-03-25 2015-11-05 日本放送協会 Channel number converter
JP2018201225A (en) * 2014-04-11 2018-12-20 サムスン エレクトロニクス カンパニー リミテッド Rendering method, apparatus and recording medium for acoustic signal
US10674299B2 (en) 2014-04-11 2020-06-02 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
US11785407B2 (en) 2014-04-11 2023-10-10 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
US10873822B2 (en) 2014-04-11 2020-12-22 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
US11245998B2 (en) 2014-04-11 2022-02-08 Samsung Electronics Co.. Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
WO2016052185A1 (en) * 2014-09-29 2016-04-07 ソニー株式会社 Transmission device, transmission method, receiving device and receiving method
US11012736B2 (en) 2014-09-29 2021-05-18 Sony Corporation Transmission apparatus, transmission method, reception apparatus, and reception method
JP2016149766A (en) * 2015-02-05 2016-08-18 日本放送協会 Characteristic adjustment device for audio signal, characteristic adjustment program for audio signal, and characteristic adjustment method for audio signal
CN114005454A (en) * 2015-06-17 2022-02-01 三星电子株式会社 Internal sound channel processing method and device for realizing low-complexity format conversion
JP2022545709A (en) * 2019-08-30 2022-10-28 ドルビー ラボラトリーズ ライセンシング コーポレイション Channel identification of multichannel audio signals
JP7581333B2 (en) 2019-08-30 2024-11-12 ドルビー ラボラトリーズ ライセンシング コーポレイション Channel Identification of Multi-Channel Audio Signals
US12165657B2 (en) 2019-08-30 2024-12-10 Dolby Laboratories Licensing Corporation Channel identification of multi-channel audio signals
KR20220129511A (en) * 2021-03-18 2022-09-23 삼성전자주식회사 Stereophonic sound reproduction method and apparatus
KR102608824B1 (en) 2021-03-18 2023-12-04 삼성전자주식회사 Method and apparatus for 3D sound reproducing
KR102443055B1 (en) 2021-03-18 2022-09-14 삼성전자주식회사 Stereophonic sound reproduction method and apparatus
KR20220042086A (en) * 2021-03-18 2022-04-04 삼성전자주식회사 Method and apparatus for 3D sound reproducing

Similar Documents

Publication Publication Date Title
JP2011066868A (en) Audio signal encoding method, encoding device, decoding method, and decoding device
KR100754220B1 (en) Binaural decoder for MPE surround and its decoding method
CN101479786B (en) Method for encoding and decoding object-based audio signal and apparatus thereof
RU2643644C2 (en) Coding and decoding of audio signals
CN108307272B (en) Audio signal processing method and device
RU2618383C2 (en) Encoding and decoding of audio objects
CN102160113B (en) Multichannel audio coder and decoder
RU2406166C2 (en) Coding and decoding methods and devices based on objects of oriented audio signals
CN101542597B (en) Method and apparatus for encoding and decoding object-based audio signals
CN101411063B (en) Filter adaptive frequency resolution
JP2013174891A (en) High quality multi-channel audio encoding and decoding apparatus
JP2010508545A (en) Method and apparatus for encoding and decoding object-based audio signals
CN104904239A (en) Binaural audio processing
WO2020152394A1 (en) Audio representation and associated rendering
CN112823534A (en) Signal processing device and method, and program
JP4859925B2 (en) Audio signal decoding method and apparatus
JP4568363B2 (en) Audio signal decoding method and apparatus
WO2008084436A1 (en) An object-oriented audio decoder
JP4124702B2 (en) Stereo sound signal encoding apparatus, stereo sound signal encoding method, and stereo sound signal encoding program
CN108206984B (en) Codec for transmitting three-dimensional acoustic signals using multiple channels and method for encoding and decoding the same
CN101292285A (en) Method and device for encoding and decoding multi-channel audio signal
KR20070081735A (en) Method and apparatus for encoding / decoding audio signal
JP2006270649A (en) Voice / acoustic signal processing apparatus and method

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111012

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140408