[go: up one dir, main page]

JP4936894B2 - オーディオデコーダ、方法及びプログラム - Google Patents

オーディオデコーダ、方法及びプログラム Download PDF

Info

Publication number
JP4936894B2
JP4936894B2 JP2006531500A JP2006531500A JP4936894B2 JP 4936894 B2 JP4936894 B2 JP 4936894B2 JP 2006531500 A JP2006531500 A JP 2006531500A JP 2006531500 A JP2006531500 A JP 2006531500A JP 4936894 B2 JP4936894 B2 JP 4936894B2
Authority
JP
Japan
Prior art keywords
phase
encoded data
signal
audio
phase difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006531500A
Other languages
English (en)
Other versions
JPWO2006022124A1 (ja
Inventor
修二 宮阪
良明 高木
直也 田中
峰生 津島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2006531500A priority Critical patent/JP4936894B2/ja
Publication of JPWO2006022124A1 publication Critical patent/JPWO2006022124A1/ja
Application granted granted Critical
Publication of JP4936894B2 publication Critical patent/JP4936894B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)

Description

本発明は、複数の原信号をダウンミックスした信号と原信号間の関係を表す補助情報から、原信号を復号化するデコーダに関し、特に、前記補助情報が原信号間の位相差及びゲイン比を表す場合に、高い精度で原信号をデコードする技術に関する。
近年、Spatial Codec(空間的符号化)といわれる技術開発が行われている。これは、非常に少ない情報量でマルチチャネルの臨場感を圧縮・符号化することを目的としており、例えば、既にデジタルテレビの音声方式として広く用いられているマルチチャネルコーデックであるAAC方式が、5.1ch当り512kbpsや、384kbpsというビットレートを要するのに対し、Spatial Codecでは、128kbpsや、64kbps、さらに48kbpsといった非常に少ないビットレートでマルチチャネル信号を圧縮・符号化することを目指している。
そのための技術として、例えば特許文献1に、チャンネル間の位相差及びゲイン比を符号化することによって少ない情報量で臨場感を圧縮符号化できることが述べられている。
一方、既に広く用いられている圧縮方式においても、チャンネル間の位相差や、ゲイン比を符号化する技術を部分的に取り入れているものもある。例えば前述のAAC方式(ISO/IEC13818-7)では、Intensity Stereoと言われる技術が搭載されている。
UP2003/0236583A1号米国特許公報
しかしながら、特許文献1では、チャンネル間の位相差や、ゲイン比を符号化することが述べられているが、そのような情報に基づいてどのようにすれば正確にもとのマルチチャネル信号に分離できるかの具体的なデコード処理過程は開示されていない。特に位相差の方向性情報をどのように扱うかに関して技術が開示されていない。
また、MPEG方式AAC規格(ISO/IEC13818-7)における、Intensity Stereoでは、位相差は、複数の周波数帯域ごとに、2値の量子化精度で量子化されることが開示されている。この場合、位相差の方向性情報は不要であるが、位相差0°と180°しか表現出来ないので、そのことに起因して音質劣化が発生する。
本発明は、このような従来の問題点に鑑みてなされたものであって、原信号のダウンミックス信号と、チャンネル間位相差情報及びゲイン比情報とを、周波数帯域ごとに量子化して得られた情報から、原信号を正確に再生することのできるオーディオデコーダを提供することを目的とする。
上記の課題を解決するため、本発明のオーディオデコーダは、2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第1の符号化データと、前記2つのオーディオ信号間のゲイン比Dを複数の周波数帯域のそれぞれについて表す第2の符号化データと、前記2つのオーディオ信号間の位相差θを複数の周波数帯域のそれぞれについて表す第3の符号化データとを含むビットストリームをデコードして、前記2つのオーディオ信号を再生するオーディオデコーダであって、前記第1の符号化データを前記ダウンミックス信号に復号化する復号化手段と、前記復号化手段で生成されたダウンミックス信号を、前記複数の周波数帯域ごとに、周波数領域の信号に変換する変換手段と、前記複数の周波数帯域ごとに、隣接2辺の長さの比が前記第2の符号化データによって表されるゲイン比Dと等しく、かつその夾角が前記第3の符号化データによって表される位相差θと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する決定手段と、前記複数の周波数帯域ごとに、前記周波数領域の信号を、前記2つの位相回転子と前記第2の符号化データによって表されるゲイン比Dとを用いて、前記復号化されたダウンミックス信号に対してそれぞれ位相差α及びβを持つ2つの分離信号に分離する分離手段と、前記2つの分離信号それぞれを時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する逆変換手段とを備える。
この構成によれば、角度α及びβで表されるところの、前記ダウンミックス信号を基準とする前記2つのオーディオ信号の絶対位相が再生されるので、前記2つのオーディオ信号間の相対的な位相差θのみを再生していた従来技術に比べて、信号の再生精度が向上する。
また、前記決定手段は、2つの複素数e-jα及びe、又はそれらの共役複素数e及びe-jβを前記2つの位相回転子として決定し、前記分離手段は、前記位相回転子として決定されたそれぞれの複素数を、前記変換手段で生成された周波数領域の信号に乗算することによって、前記2つの分離信号を生成してもよい。
また、前記ビットストリームは、前記2つのオーディオ信号のいずれの位相が進んでいるかを示す位相極性情報Sを表す第4の符号化データをさらに含んでおり、前記分離手段は、前記決定された2つの複素数及びそれらの共役複素数のうちの前記第4の符号化データによって表される位相極性情報Sに応じた一方を、前記変換手段で生成された周波数領域の信号に乗算することによって、前記2つの分離信号を生成するとしてもよい。
この構成によれば、分離信号を得るための位相差の付与を、周波数領域で正確に行うことができる。特に、位相極性情報Sを導入することによって、2つのオーディオ信号の位相の進み遅れを正確に再生可能となる。
また、前記決定手段は、前記角度α及び角度βを
α=arccos((1+Dcosθ)/((1+D2+2Dcosθ)0.5))
β=arccos((D+cosθ)/((1+D2+2Dcosθ)0.5))
に従って求め、求めたα及びβを用いて前記2つの位相回転子を決定してもよく、また、前記角度αに対応するcosα、及び角度βに対応するcosβを
cosα=(1+Dcosθ)/((1+D2+2Dcosθ)0.5)
cosβ=(D+cosθ)/((1+D2+2Dcosθ)0.5)
に従って求め、求めたcosα及びcosβを用いて前記2つの位相回転子を決定してもよい。
この構成によれば、前記ダウンミックス信号に対する前記2つのオーディオ信号の絶対位相が、幾何学的に厳密に再生される。位相回転子は一般に、直接的な位相回転角度ではなく、位相回転角度の三角関数を用いて表されることを考慮すれば、特に後者の構成によって、計算量の多いarccos演算を行うことなく効率的に、位相回転子を決定することができる。
また、前記第3の符号化データは、前記2つのオーディオ信号間の位相差θを、cosθの値を用いて0゜から180゜の範囲で表し、前記決定手段は、前記第3の符号化データによって表されるcosθの値を用いて、前記2つの位相回転子を決定するとしてもよい。
この構成によれば、cosθを演算する必要がなくなるので、効率的に位相回転子を決定することができる。
また、前記決定手段は、複数の位相差それぞれに対応して、位相差の三角関数を少なくとも用いて表される関数値を記憶しているテーブルを有し、前記第3の符号化データによって表される位相差θに対応する関数値を前記テーブルから参照して、前記位相回転子を決定してもよい。また、前記テーブルは、前記複数の位相差θそれぞれに対応するsinθの値とcosθの値とを記憶しているとしてもよく、好ましくは、同一の位相差θに対応するsinθの値とcosθの値とを、隣接する領域に記憶しているとしてもよい。
この構成によれば、前記位相回転子を決定する際に、少なくとも三角関数の処理を削減できる。さらに、sinθの値とcosθの値とを隣接する領域に記憶すれば、関数値の効率的な取得が可能となる。
また、前記テーブルは、ゲイン比Dと位相差θとの複数の組み合わせそれぞれに対応して、
W(D,θ)=(1+Dcosθ)/((1+D2+2Dcosθ)0.5)
X(D,θ)=(Dsinθ)/((1+D2+2Dcosθ)0.5)
Y(D,θ)=(D+cosθ)/((1+D2+2Dcosθ)0.5)
Z(D,θ)=sinθ/((1+D2+2Dcosθ)0.5)
なる4つの関数値を記憶しており、前記決定手段は、前記第2の符号化データによって表されるゲイン比Dと第3の符号化データによって表される位相差θとの組み合わせに対応する前記4つの関数値を前記テーブルから参照して、前記位相回転子を決定してもよく、好ましくは、同一のゲイン比Dと位相差θとの組み合わせに対応する前記4つの関数値を、隣接する領域に記憶しているとしてもよい。また、前記テーブルは、前記4つの関数値をさらにゲイン比Dに応じて補正した値を記憶しているとしてもよい。
この構成によれば、位相回転子の決定に必要な値の全てを、テーブル引きによって得ることが可能となる。特に、同一のD及びθの組み合わせに対応する前記4つの関数値を隣接する領域に記憶すれば、関数値の効率的な取得が可能となる。
また、前記分離手段は、前記変換手段で生成された周波数領域の信号に残響を付加するリバーブ処理を施して残響信号を生成し、前記周波数領域の信号と前記生成された残響信号とを前記位相回転子に応じて定められる割合で混合することによって、前記2つの分離信号を生成してもよい。
この構成によれば、前記位相回転子に応じた量の残響を付加することで信号を分離して聴覚上の拡がり感を生ぜしめる技術に、前述した信号位相を厳密に再現する効果を相乗することが可能となる。
また、前記ビットストリームは、前記周波数帯域の少なくとも1つについて、若しくは予め定められた周波数よりも低い周波数帯域についてのみ、前記2つのオーディオ信号のいずれの位相がその周波数帯域において進んでいるかを示す位相極性情報Sを表す第4の符号化データを含んでおり、前記決定手段は、前記周波数帯域ごとに、2つの複素数e-jα及びe、又はそれらの共役複素数e及びe-jβの何れかを前記2つの位相回転子として決定し、前記分離手段は、前記第4の符号化データを含んでいない周波数帯域については、前記決定されたそれぞれの複素数を前記変換手段で生成された周波数領域の信号に乗算し、前記第4の符号化データを含んでいる周波数帯域については、前記決定された2つの複素数及びそれらの共役複素数のうちの前記第4の符号化データによって表される位相極性情報Sに応じた一方を前記変換手段で生成された周波数領域の信号に乗算することによって、前記2つの分離信号を生成してもよい。
この構成によれば、信号の周波数成分ごとに適切な位相回転による分離がなされることによって、全体としてより高い精度で、信号の再生が行われる。特に、人間の聴覚の位相の進み遅れに関する感度が比較的高い周波数帯域において低下することを考慮すれば、前記位相極性情報Sを、予め定められた周波数よりも低い周波数帯域についてのみ取り扱うことで、聴覚上の音質を劣化させることなく、符号化される情報量を削減できる。
さらに、本発明は、オーディオデコーダとして実現することができるだけでなく、上述したオーディオデコーダが備える特徴的な手段によって実行される処理をステップとするオーディオデコード方法、及びコンピュータプログラムとして実現することもできる。また、オーディオデコード用の集積回路装置として実現することもできる。
本発明のオーディオデコーダによれば、2つのオーディオ信号をダウンミックスして得られたダウンミックス信号と、前記2つのオーディオ信号間のゲイン比Dと位相差θとから、前記ダウンミックス信号を基準とする前記2つのオーディオ信号の絶対位相を再生するので、前記2つのオーディオ信号間の相対的な位相差θのみを再生していた従来技術に比べて、信号の再生精度が向上する。
(実施の形態1)
以下本発明の実施の形態1におけるオーディオデコーダについて図面を参照しながら説明する。
図1は本実施の形態1におけるオーディオデコーダの構成を示す図である。図1に示されるオーディオデコーダは、2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第1の符号化データと、前記2つのオーディオ信号間のゲイン比Dを表す第2の符号化データと、前記2つのオーディオ信号間の位相差θを表す第3の符号化データと、前記2つのオーディオ信号のうちいずれの信号の位相が進んでいるかを示す位相極性情報Sを表す第4の符号化データとを含むビットストリームをデコードして、前記2つのオーディオ信号を再生するオーディオデコーダであり、復号化部100、変換部101、位相回転子決定部102、分離部103、及び逆変換部104から構成される。
復号化部100は、前記第1の符号化データを前記ダウンミックス信号に復号化し、変換部101は、前記復号化部100で生成されたダウンミックス信号を周波数領域の信号に変換する。
位相回転子決定部102は、隣接2辺の夾角が前記第3の符号化データによって表される位相差θと等しく、かつ前記隣接2辺の長さの比が前記第2の符号化データによって表されるゲイン比Dと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する。
分離部103は、前記変換部101で生成された周波数領域の信号から、前記2つの位相回転子と前記ゲイン比Dとを用いて2つの分離信号を分離し、逆変換部104は、前記2つの分離信号を時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する。
図2は、本オーディオデコーダの入力となるビットストリームの構成を簡単に示した図である。本ビットストリームには、所定の時間間隔で設けられるフレームごとに前述した第1から第4の符号化データが格納されており、図2では、2フレーム分のみ例示されている。
図2において、第1の符号化データ格納領域200、第2の符号化データ格納領域201、第3の符号化データ格納領域202、及び第4の符号化データ格納領域203にそれぞれ第1フレームに関する対応データが格納され、第2フレームについても同様の構成が繰り返される。
前記第1の符号化データ格納領域200には、例えば2チャンネルの信号をダウンミックスした信号をMPEG規格AAC方式で圧縮した信号が格納されているものとする。ここでは、信号をベクトル合成する処理をダウンミックスと言う。
前記第2の符号化データ格納領域201には、前記2チャンネルのオーディオ信号間のゲイン比Dを表す値が格納されている。前記第3の符号化データ格納領域202には、前記2チャンネルのオーディオ信号間の位相差θを表す値が格納されている。前記第4の符号化データ格納領域203には、前記2チャンネルのオーディオ信号のうちいずれの信号の位相が進んでいるかを示す位相極性情報Sを表す値が格納されている。
ここで注意するべきことは、前記位相差θを表す値は、必ずしも位相差θを直接的に符号化したものである必要はなく、例えば、cosθのような値を符号化したデータでもよい。その場合、cosθの値によって前記位相差θを0゜から180゜の範囲で表すことができる。
図3は、前記第2の符号化データ格納領域201、前記第3の符号化データ格納領域202、前記第4の符号化データ格納領域203に、それぞれどのような、ゲイン比情報、位相差情報、位相極性情報が格納されているかを示した図である。図3は、ゲイン比情報は、22個の周波数帯域ごと格納されていることを示している。例えば、1個目のゲイン比情報は、0.000000kHzから0.086133kHzまでの帯域のゲイン比情報であり、2個目のゲイン比情報は、0.086133kHzから0.172266kHzまでの帯域のゲイン比情報である、というように、計22個のゲイン比情報が格納されている。同様に位相差情報は、19個格納されていることが示されている。同様に位相極性情報は、11個格納されていることが示されている。勿論図3で示されている周波数帯域の分割の仕方や、分割の個数などは、一例に過ぎず、他の値であってもよい。
また、図3では、位相差情報の個数がゲイン比情報の個数よりもすくなくなっているが、これは聴覚の特性において、一般的にゲイン比情報に対する感度が高いのでこのようにしているが、圧縮のビットレートや、扱うオーディオ信号のサンプリング周波数によっては、位相差情報の個数とゲイン比情報の個数を同じにしてもよいことはいうまでもない。
また、位相極性情報についても同様である。本実施の形態では、約1kHz程度までの位相極性情報は格納されているが、それ以上の帯域については、格納していない。また、圧縮のビットレートが低い場合は、位相極性情報は1つも格納しない。これは、聴覚の特性において、位相極性情報感度がそれほど高くないということに起因する。勿論圧縮のビットレートに余裕があるときは、全帯域に渡って格納する方が、音質的によりよいことは言うまでもない。
以上のように構成されたオーディオデコーダの動作について以下説明する。
まず、復号化部100は、前記ビットストリームに格納されている前記第1の符号化データを復号化する。図2に示すように、当該第1の符号化データは、2チャンネルのオーディオ信号(簡略に原信号と呼ぶ)をダウンミックスして得られた一つのオーディオ信号をAACで符号化した符号化データであるので、復号化部100は、AAC方式のビットストリームをデコードする通常のAACデコーダで実現できる。
次に、変換部101は、復号化部100で復号化した信号を周波数領域の信号に変換する。本実施の形態では、例えば、フーリエ変換によって、前記復号化部100で復号化した信号を周波数領域の複素フーリエ級数に変換する。さらに、変換された複素フーリエ級数は、図3の左の列に示すような22個の周波数帯域ごとにグループ化され分割される。
ここでは、一例としてフーリエ変換を例示したが、必ずしもその必要はなく、複素数によるQMFフィルタバンクなどを用いてもよい。
また、位相回転子決定部102は、前記第2の符号化データと前記第3の符号化データに応じて、位相回転角がαとβとである位相回転子を求める。
ここで、前記第2の符号化データは、2チャンネルの原信号間の周波数帯域ごとのゲイン比を表す値であり、図3に示すように、22帯域ごとにゲイン比Dがビットストリームに格納されているので、それらを取り出すことによってゲイン比情報が得られる。また、前記第3の符号化データは、2チャンネルの原信号間の周波数帯域ごとの位相差を表す値であり、図3に示すように、19帯域ごとに位相差θがビットストリームに格納されているので、それらを取り出すことによって位相差情報が得られる。
このようにして得られたゲイン比Dと位相差θとから、いかにして、ダウンミックス信号と、2チャンネルそれぞれの原信号との位相差α及びβが求まるかを、以下、図4と図5とを用いて説明する。
図4は、ゲイン比Dと位相差θとの様子の一例をしめすものである。ダウンミックス信号は、原信号を表す2つの矢印を2辺とする平行四辺形の対角線の方向の信号なので、ダウンミックス信号と、それぞれの原信号との位相差α及びβは、図4に示した場所に現れる。
図5は、位相差αとβとを幾何学的に求めるための考え方を示した図である。図5は、図4の平行四辺形を対角線で分離した三角形を示しているが、対角線の長さをXとした場合、当該三角形は、辺の長さが、1、D、X、各辺が成す角度が、α、180−θ、β、となる。ここで三角関数の余弦定理を利用すれば、
X2 = 1 + D2 - 2Dcos(180-θ) = 1 + D2 + 2Dcosθ (式1)
1 = X2 + D2 - 2DXcosβ (式2)
D2 = 1 + X2 - 2Xcosα (式3)
となる。
式1より、X = (1 + D2 + 2Dcosθ)0.5
これを、式2、式3に代入することにより、
α=arccos((1+Dcosθ)/((1+D2+2Dcosθ)0.5)) (式4)
β=arccos((D+cosθ)/((1+D2+2Dcosθ)0.5)) (式5)
が得られる。つまり、前記位相回転子決定部102では、上記式4及び式5に沿って、位相差α、βをもとめ、それに応じた位相回転子を求める。勿論、上記の説明は、数学的裏付けの説明であって、実際の演算過程においては、近似計算や、三角関数のテーブル引きなどによって行われてもよいことは言うまでもない。
また、余弦定理を直接的に用いる必要もない。例えば、前記α、βを解く問題を図10に示すような幾何学的な問題と捉え、
α=atan(Dsin(θ)/(1+Dcos(θ)))
β=atan(sin(θ)/(D+cos(θ)))
というように求めてもよいことはいうまでもない。要するに、もともとの2つのオーディオ信号間の位相差θとゲイン比Dとから位相回転角αとβとを求める際に、前記位相回転角αとβを、隣接2辺の比がDでその夾角がθであるところの平行四辺形の前記夾角が当該平行四辺形の対角線によって分割されて得られる角度として求められればよい。
また、上記説明では、前記位相回転子決定部102は、位相回転角α、βをもとめる、としたが、実際的には、位相回転角α、βそのものの値は必要ではなく、位相を回転させる為の回転子e及びe-jβか、又はそれらの共役複素数であるe-jα及びeが必要であるので、前記位相回転子決定部102は、下記三角関数値をもとめることが必要である。逆にいうと、下記三角関数値をもとめるだけで十分である。必要な三角関数値は、
cosα・・・(eの実数部)
sinα・・・(eの虚数部)
cosβ・・・(eの実数部)
sinβ・・・(eの虚数部)
である。つまり、先に示したα、βを求める演算では、arccos演算を用いて、わざわざα、βそのものを求めていたが、それは不要であり、
cosα=(1+Dcosθ)/((1+D2+2Dcosθ)0.5) (式6)
cosβ=(D+cosθ)/((1+D2+2Dcosθ)0.5) (式7)
として、右辺の演算を行えばよいことになる。
sinα、sinβについては、三平方の定理((cosX)2 + (sinX)2 = 1)などを用いれば簡単に求められることは言うまでもない。
さらに、分離部103は、変換部101で変換した周波数領域の信号を前記2つの位相回転角α、βと、前記第4の符号化データとを用いて2つの信号に分離する。この過程を、図6(a)及び(b)を用いて説明する。
図6(a)は、復号信号、すなわち2チャンネルの原信号をダウンミックスして得られたダウンミックス信号と、分離されるべき原信号との関係を示した図である。中心の長い矢印が、復号信号であり、本実施の形態では、復号信号をフーリエ級数に変換しているので、この矢印は、複素平面上でのベクトルである。このベクトルをCとした時、Cの位相を−α分だけ回転させるには、複素数e-jαを設け、C * e-jαで表される複素数の乗算を行えばよい。同様に、ベクトルCの位相をβ分だけ回転させるには、複素数eを設け、C * eで表される複素数の乗算を行えばよい。
このような位相回転子の乗算が行われた時点では、復号信号を表すベクトルCに−α、+βの角度だけ位相の回転が施される結果、図6(b)に示されるように、位相回転が完了した時点の信号1及び信号2を表す2つのベクトルが得られる。これらのベクトルの長さは、ベクトルCの長さと等しい。
次に、分離される信号の振幅に応じたゲイン補正を行うために、−α回転した信号1のベクトルに対しては1/((1+D2+2Dcosθ)0.5)なる補正値を乗じ、+β回転した信号2のベクトルに対してはD/((1+D2+2Dcosθ)0.5)なる補正値を乗じる。この補正は、隣接2辺の長さの比がDで、かつその夾角がθであるところの平行四辺形の対角線の長さが((1+D2+2Dcosθ)0.5)であることに基づく。
なお、上記説明においては、対角線の長さが((1+D2+2Dcosθ)0.5)であるので、そのことに基づいて、それぞれの信号に1/((1+D2+2Dcosθ)0.5)あるいはD/((1+D2+2Dcosθ)0.5)を乗じることによってゲインを補正することを述べたが、符号化時に、位相差θに基づいてダウンミックス信号そのものに対してゲインの調整が行われているような場合は、その限りではない。例えば、符号化時に以下のような処理が行われる場合がある。
すなわち、符号化前の、1つ目の信号のゲインが1で2つ目の信号のゲインがDで、その位相差がθである場合、ダウンミックス前の信号のエネルギーは(1+D2)0.5と表現される。一方、ダウンミックス後の信号のエネルギーを(1+D2+2Dcosθ)0.5と表現すると、上記θに応じて、ダウンミックス信号のエネルギーはもともとの信号が持っているエネルギー(1+D2)0.5と異なってしまう。
具体的に、ダウンミックス後の信号のエネルギー(1+D2+2Dcosθ)0.5は、もともとの信号が持っているエネルギー(1+D2)0.5と比べて、位相差が90度である場合には一致するものの、位相差が0度に近づくほど大きくなり、位相差が180度に近づくほど小さくなる。つまり、この表現によれば、同相信号から得られるダウンミックス信号のエネルギーが大きくなり過ぎ、また、逆相信号から得られるダウンミックス信号のエネルギーが小さくなり過ぎる。
そこで、ダウンミックス信号のエネルギーが、位相差によらず、もともとの信号が持っているエネルギーと一致するように、ダウンミックス信号に(1+D2)0.5/(1+D2+2Dcosθ)0.5を乗じる調整が行われることがある。
符号化時にそのような調整が行われている場合、復号化時には、まず、上記の符号化時のダウンミックス信号そのものに対するエネルギー調整を解除して元のゲインに戻すために、(1+D2+2Dcosθ)0.5/(1+D2)0.5をダウンミックス信号に乗じ、その後の位相角による分離時に、分離されるそれぞれの信号に、前述した1/((1+D2+2Dcosθ)0.5)あるいはD/((1+D2+2Dcosθ)0.5)を乗じる。
この連続する乗算によって、分母、分子の(1+D2+2Dcosθ)0.5は相殺され、1/((1+D2)0.5)あるいはD/((1+D2)0.5)が、ゲイン比の補正の乗数として処理される。このような場合には、図6(b)に示されている、位相回転が完了した時点の信号1及び信号2に、ゲイン比Dのみに依存する乗数1/((1+D2)0.5)あるいはD/((1+D2)0.5)を乗じゲインを補正する。
このようなベクトルの回転と長さの補正によって、図6(a)に示されるように、ダウンミックス信号を信号1及び信号2の2つの信号に分離できる。
分離部103では、図3に示した周波数帯域ごとに上記の処理をおこなう。ここで注意することは、高域側の周波数帯域では、ゲイン比情報2個に対して位相差情報が1個しか存在しない場合があるので、その場合は、1つの位相差情報を共有することになる。
また、上記の説明では、一例として、位相の回転を−αと+βとした(すなわち、回転子e-jα及びeを用いるとした)が、原信号の位相の進み遅れの関係によっては+αと−βである場合もあり得る。その場合の復号信号と分離されるべき原信号との関係は、図6(a)に示される平行四辺形を裏返した平行四辺形(不図示)によって表され、このとき用いるべき回転子は共役複素数e及びe-jβである。
そのことを正確に処理するための情報が、前記第4の符号化データ、すなわち前記位相極性情報であり、図3に示すように、低域側の11個の周波数帯域についてビットストリーム内に存在している。この情報を用いて、位相の回転方向を正確に定めることができる。分離部103は、位相回転子決定部102によって決定された2つの複素数、及びそれらの共役複素数のうちの、位相極性情報に応じた一方を用いて2つの信号を分離する。
この位相極性情報は、人間の聴覚が位相極性に感度の低い周波数帯域では不要であるので、必ずしも全ての周波数帯域について存在しなくてもよい。位相極性情報が存在しない周波数帯域について、分離部103は位相回転子決定部102によって決定された2つの複素数をそのまま用いて2つの信号を分離する。
ビットレートが低い場合は、この位相極性情報が1つも存在しない変形例を考えることもできる。そのような変形例に係るオーディオデコーダの一構成例を図11に示す。この変形例に係るオーディオデコーダは、位相極性情報を取り扱うオーディオデコーダ(図1を参照)と比べて、第4の符号化データ(S)が省かれ、分離部103aが全ての周波数帯域において位相回転子決定部102によって決定された2つの複素数をそのまま用いて2つの信号を分離する点が異なる。
前記位相極性情報が存在しない場合で、位相差θが180度、即ちもともとの2つの信号が逆位相の場合あるいはそれに近い場合は、ダウンミックス信号が備えている位相の状態が、もともとの2つの信号のうちのエネルギーの強い方の信号の位相の状態をしめしていることが明らかであるので、前記αとβとをともに0度としてもよい。その場合、本来180度の位相であった方の信号は逆相になってしまうが、少なくともエネルギーの強い方の信号の位相は正確に保たれることとなる。
最後に、逆変換部104は、分離部103で生成された周波数領域の信号を時間領域の信号に逆変換する。本実施の形態では、前記変換部101を、フーリエ変換によって複素フーリエ級数を求める部であるとしたので、前記逆変換部104は、逆フーリエ変換の処理ということになる。
以上のように本実施の形態によれば、2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第1の符号化データと、前記2つのオーディオ信号間のゲイン比Dを表す第2の符号化データと、前記2つのオーディオ信号間の位相差θを表す第3の符号化データとを含むビットストリームをデコードして、前記2つのオーディオ信号を再生するオーディオデコーダにおいて、前記第1の符号化データを前記ダウンミックス信号に復号化する復号化手段と、前記復号化手段で復号化されたダウンミックス信号を周波数領域の信号に変換する変換手段と、隣接2辺の長さの比が前記第2の符号化データによって表されるゲイン比Dと等しく、かつその夾角が前記第3の符号化データによって表される位相差θと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する決定手段と、前記周波数領域の信号を、前記2つの位相回転子と前記第2の符号化データによって表されるゲイン比Dとを用いて、前記復号化されたダウンミックス信号に対してそれぞれ位相差α及びβを持つ2つの分離信号に分離する分離手段と、前記2つの分離信号それぞれを時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する逆変換手段とを備えることによって、2チャンネルのオーディオ信号を1チャンネルにダウンミックスして得られるダウンミックス信号と、前記オーディオ信号間の位相差及びゲイン比を表す少量の補助情報とから、前記ダウンミックス信号を基準とする前記2つのオーディオ信号の絶対位相が再生されるので、前記2つのオーディオ信号間の相対的な位相差θのみを再生していた従来技術に比べて、信号の再生精度が向上する。
本実施の形態では、2チャンネルの信号を1チャンネルにダウンミックスした信号を処理するように記載したが、必ずしもそうではなく、例えば、前方左、前方右、後方左、後方右、の4チャンネルの信号を、まず、前方左と後方左をダウンミスクし、さらに前方右、後方右をダウンミックスし、さらにそれぞれダウンミックスされた信号をさらにダウンミックスしたような場合でも、まず左右に分離し、その後それぞれを前後に分離するような際に、本願に記載した発明を用いればよい。
また、本実施の形態では、位相回転子決定部102と分離部103において、三角関数の演算を必要としたので、安価なプロセッサなどでは処理が困難であるが、以下のように工夫することで、非常に簡単に処理できることになる。
まず、位相回転子決定部102では、位相差θとゲイン比Dとから、位相差αとβを求めることを行ったが、分離部103が位相回転処理を行う際には、位相差αとβそのものを用いるわけではなく、実際に用いる値は、e(+/-)jα、e(-/+)jβの値である。すなわち、
(+/-)jα = cosα (+/-) jsinα
(-/+)jβ = cosβ (-/+) jsinβ
なので、実際に必要な値は、cosα、sinα、cosβ、及びsinβであり、それらは、
cosα=(1+Dcosθ)/((1+D2+2Dcosθ)0.5) (式8)
sinα=(Dsinθ)/((1+D2+2Dcosθ)0.5) (式9)
cosβ=(D+cosθ)/((1+D2+2Dcosθ)0.5) (式10)
sinβ=sinθ/((1+D2+2Dcosθ)0.5) (式11)
であるので、位相差情報θをアドレスとして、cosθとsinθとが参照できるテーブルを備えておけば、三角関数の処理は不要となり、加算、乗算、除算、平方根演算のみの演算となる。さらにこのとき、cosθとsinθとをテーブルの隣接する領域に書いておけば、簡単なアドレシングで双方の値を取り出せる。特に近年のプロセッサでは、64ビット幅のデータ転送経路(データバス)を備えているものが多いので、cosθとsinθとを隣接する領域に書いておけば、1マシンサイクルで双方の値を取り出せる。
さらに、cosα、sinα、cosβ、及びsinβは、位相差情報θとゲイン比情報Dとで一意に確定するので、位相差情報θとゲイン比情報Dとをアドレスとする2次元テーブルを備えておけば、実際の演算に必要な値、cosα、sinα、cosβ、及びsinβが、テーブルアクセスだけで取り出せることになる。勿論この場合も、同一の位相差情報θとゲイン比情報Dと組み合わせに関するcosα、sinα、cosβ、及びsinβの値を隣接する領域に書いておけば、簡単なアドレシングで全ての値を取り出せることになる。
さらに現実的には、上記で図6(a)及び(b)を参照して信号の分離処理過程について詳細に説明したように、信号の分離に最終的に使用する値は、位相回転処理を行うためのcosα、sinα、cosβ、及びsinβの値に対し、分離される信号を表すベクトルの長さ、すなわち信号のゲインを補正するための補正値を掛け合わせた値である。
そこで、前記補正値をF1(D,θ)、F2(D,θ)なる関数値で表し、cosα、sinα、cosβ、及びsinβそのものの値を格納するのではなく、補正後の値
cosα * F1(D,θ)
sinα * F1(D,θ)
cosβ * F2(D,θ)
sinβ * F2(D,θ)
をテーブルに格納することが望ましい。ここで、都合のよいことには、関数値F1(D,θ)、F2(D,θ)は何れもDとθとの関数値であり、今ここで考えているテーブルもDとθとでアドレスされる2次元テーブルなので、前記補正後の値を、メモリサイズの増加やアクセスの手続きの複雑さの増加を招くことなく、このテーブルに格納し参照することができる。
ここで、前述の信号の分離処理過程の説明においては、関数値F1(D,θ)、F2(D,θ)をそれぞれ、
F1(D,θ)=1/((1+D2+2Dcosθ)0.5)
F2(D,θ)=D/((1+D2+2Dcosθ)0.5)
であるとしたが、現実の符号化規格では
F1(D,θ)=1/((1+D2)0.5)
F2(D,θ)=D/((1+D2)0.5)
として処理される場合もあるので、適宜現実の符号化規格に合わせて上記のように補正値を調整すればよいことは言うまでもない。
尚、近年開示された、MPEG方式Enhanced AAC+SBR方式(ISO 14496-3:AMENDMENT2)では、2つのオーディオ信号間の位相差θとゲイン比Dのみならず、当該ダウンミックス信号に対しオールパスフィルタの手法を用いて作成した残響信号を用い、2つのオーディオ信号をダウンミックスした信号をもとの2つのオーディオ信号に分離する方法が開示されている。しかしながらここでは、位相回転角αとβは、+θ/2、-θ/2というように、単純に均等配分している。
本願で述べている手法は、幾何学的原理に基づいて厳密に位相回転角を求めるので、上記手法よりも分離性能が優れているので、本願の手法をEnhanced AAC+SBRデコーダの実装に取り入れれば、ビットストリーム上は何も変更なく、即ちストリーム互換で、高音質を得ることができる。言い換えると、本願の実施の形態で述べた手法は、残響信号を用いる手法と組み合わせてもよいということである。
MPEG方式Enhanced AAC+SBR方式(ISO 14496-3:AMENDMENT2)では、ゲイン比Dは、IID(Inter-channel Intensity Differences)として符号化されている。また、位相差θは、IPD(Inter-channel Phase Differences)或いは、ICC(Inter-channel Coherence)として符号化されている。特にICCは、2つのオーディオ信号間の相関の強さを示す指数であるので、この値が正の大きな値である場合、相関が強い、つまり位相差が少ない、ということになる。また、この値が0に近い場合、相関がない、つまり位相差が90度に近い、ということになる。また、この値が負で絶対値が大きい場合、負の相関が強い、つまり位相差が180度に近い、ということになる。このようにICCは2つのオーディオ信号間の位相差を示すパラメータとして利用できるのである。
さらに都合の良いことには、ICCは前記のような特徴をもつため、ICCは、2つのオーディオ信号間の位相差θに対してcosθの値を示しているということである。ICCがcosθの値そのものであれば、上記説明した(式6)から(式11)などにおけるcosθの値は、ICCそのものを使えばよいことになるので、計算が極めて簡易化されることとなる。
また、前記残響信号を用いる場合、処理対象のオーディオ信号の性質によっては、音のシャープさが失われる場合がある。例えば、もともとの2つのオーディオ信号間の位相差が広い場合、即ち逆相に近い場合や、もともとの2つのオーディオ信号間のゲイン比が大きい場合、或いは、振幅が急峻に変化するアタック成分の強い場合などである。そのような場合は、残響信号を用いないようにすればよい。或いは残響信号を生成する方法を複数通り用意しておき、処理対象のオーディオ信号の性質に応じて、何れの方法を選択するかを切り替えればよい。
この時、処理対象のオーディオ信号の性質を判定することは、デコーダ側で実施できることであるので、当該判定結果に応じて制御を切り替えるようにすることによって、ビットストリーム上は何も変更なく、即ちストリーム互換で、高音質を得ることができる。
勿論、新しい符号化方式の規格ではビットストリーム上に残響信号を利用するか否かのフラグを設けておけば、デコーダ側での判断が不要になるので、デコーダが軽量に実装できることは言うまでもない。或いは、どのような方法で残響信号を生成するかを示すフラグを設けておけば、デコーダ側での判断が不要になるので、デコーダが軽量に実装できることは言うまでもない。
ここで、残響信号を生成するため方法を複数通り用意する方法として、例えば、残響信号を生成するための位相シフト量を複数通り用意するなどの方法がある。
また、本願で述べた分離角を計算する手法や、単純に均等配分する手法を、信号の性質に応じて適宜切り替えてもよい。また切り替えのためにフラグをビットストリーム上に盛り込んでもよい。
また、分離角を計算する手法は、何れかの方法に固定し、残響信号を用いるか否かのフラグをビットストリーム上に盛り込んでもよい。
(実施の形態2)
以下本発明の実施の形態2におけるオーディオエンコーダについて図面を参照しながら説明する。
図7は本実施の形態2におけるオーディオエンコーダの構成を示す図である。このオーディオエンコーダは、実施の形態1で説明したオーディオデコーダにて良好にデコードされるビットストリームを生成するエンコーダであり、第1の符号化部700、第1の変換部701、第2の変換部702、第1の分割部703、第2の分割部704、第3の分割部705、第4の分割部706、第2の符号化部707、第3の符号化部708、及びフォーマッタ709から構成される。
第1の符号化部700は、2つのオーディオ信号をダウンミックスした信号を符号化する。
第1の変換部701は、第1のオーディオ信号を周波数領域の信号に変換し、第2の変換部702は、第2のオーディオ信号を周波数領域の信号に変換する。
第1の分割部703は、第1の変換部701で生成された前記周波数領域の信号を複数の周波数帯域ごとに分割し、第2の分割部704は、第1の変換部701で生成された前記周波数領域の信号を第1の分割部703とは異なる分割の仕方で分割する。
第3の分割部705は、第2の変換部702で生成された前記周波数領域の信号を第1の分割部703と同じ分割の仕方で分割し、第4の分割部706は、第2の変換部702で生成された前記周波数領域の信号を第2の分割部704と同じ分割の仕方で分割する。
第2の符号化部707は、第1の分割部703で分割された周波数帯域信号と第3の分割部705で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとのゲイン比を検出し符号化する。
第3の符号化部708は、第2の分割部704で分割された周波数帯域信号と第4の分割部706で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとの位相差および、どちらの信号の位相が進んでいるかという情報を検出し符号化する。
フォーマッタ709は、前記第1から第3の符号化部の出力信号を多重化する。
以上のように構成されたオーディオエンコーダの動作について以下説明する。
まず、第1の符号化部700において、2つのオーディオ信号をダウンミックスした信号を符号化する。ここでダウンミックスの方法は、単に加算してもよいし、加算して所定の係数をかけるような方法でもよい。要するに、2つのオーディオ信号のベクトル合成が得られる方法であればよい。符号化の方法もどのようなものでもよいが、本実施の形態では、MPEG規格AAC方式で符号化するものとする。
次に、第1の変換部701では、第1のオーディオ信号を周波数領域の信号に変換する。本実施の形態では、フーリエ変換を用いて入力のオーディオ信号を複素フーリエ級数に変換するものとする。
第2の変換部702では、第2のオーディオ信号を周波数領域の信号に変換する。本実施の形態では、フーリエ変換を用いて入力のオーディオ信号を複素フーリエ級数に変換するものとする。
次に、第1の分割部703では、第1の変換部701で生成された前記周波数領域の信号を複数の周波数帯域ごとに分割する。この時、分割の仕方は、図3のテーブルに従う。図3において、左の列は分割する周波数帯域の開始周波数を示しており、左から2番目の列は、ゲイン比情報に関する実際の分割の仕方をしめしている。すなわち、第1の分割部703では、前記第1の変換部701で生成された前記周波数領域の信号を図3のテーブルの一番左の列と左から2番目の列に従って、それぞれ示されている周波数帯域ごとに分割する。
同様に、第2の分割部704でも、第1の変換部701で生成された前記周波数領域の信号を複数の周波数帯域ごとに分割する。この時、分割の仕方は、図3のテーブルに従う。図3において、左の列は分割する周波数帯域の開始周波数を示しており、左から3番目の列は、位相差情報に関する実際の分割の仕方をしめしている。すなわち、第2の分割部704では、第1の変換部701で生成された前記周波数領域の信号を図3のテーブルの一番左の列と左から3番目の列に従って、それぞれ示されている周波数帯域ごとに分割する。
第3の分割部705では、第2の変換部702で生成された前記周波数領域の信号を前記第1の分割部703と同じ分割の仕方で分割する。
第4の分割部706では、第2の変換部702で生成された前記周波数領域の信号を前記第2の分割部704と同じ分割の仕方で分割する。
次に、第2の符号化部707では、第1の分割部703で分割された周波数帯域信号と第3の分割部705で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとのゲイン比を検出し符号化する。ここでゲイン比を検出する方法は、対応する帯域ごとの振幅の最大値どうしを比較する方法や、エネルギーレベルを比較する方法など、どのような方法でもよく、そのようにして検出されたゲイン比を第2の符号化部707で符号化する。
次に、第3の符号化部708は、第2の分割部704で分割された周波数帯域信号と第4の分割部706で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとの位相差、及びどちらの信号の位相が進んでいるかという情報、すなわち位相極性情報を検出し符号化する。ここで、位相差を検出する方法は、当該周波数帯域内の、フーリエ級数の、実数値と虚数値の代表値から位相差を求める方法など、どのような方法でもよく、そのようにして検出された位相差及び位相極性情報を第3の符号化部708で符号化する。
ここで、図3の位相極性情報の欄(右端)に注意されたい。位相極性情報は、低域側から11個の周波数帯域に対してのみ検出し符号化するようにしている。これは、位相極性情報の聴覚的感度が、高域では非常に鈍くなるという特性を活用し、それによって音質の劣化なく、ビットレートを削減する狙いがある。
ビットレートが低い場合は、位相極性情報は1つも符号化しない。
最後に、フォーマッタ709において、前記第1から第3の符号化部の出力信号を多重化し、ビットストリームを形成するが、それはどのような方法であってもよい。
以上のように本実施の形態によれば、2つのオーディオ信号をダウンミックスした信号を符号化する第1の符号化部と、前記第1のオーディオ信号を周波数領域の信号に変換する第1の変換部と、前記第2のオーディオ信号を周波数領域の信号に変換する第2の変換部と、前記第1の変換部で生成された前記周波数領域の信号を複数の周波数帯域ごとに分割する第1の分割部と、前記第1の変換部で生成された前記周波数領域の信号を前記第1の分割部とは異なる分割の仕方で分割する第2の分割部と、前記第2の変換部で生成された前記周波数領域の信号を前記第1の分割部と同じ分割の仕方で分割する第3の分割部と、前記第2の変換部で生成された前記周波数領域の信号を前記第2の分割部と同じ分割の仕方で分割する第4の分割部と、前記第1の分割部で分割された周波数帯域信号と前記第3の分割部で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとのゲイン比を検出し符号化する第2の符号化部と、前記第2の分割部で分割された周波数帯域信号と前記第4の分割部で分割された周波数帯域信号との、それぞれ対応する周波数帯域ごとの位相差および、どちらに信号の位相が進んでいるかという情報を検出し符号化する第3の符号化部と、前記第1から第3の符号化部の出力信号を多重化するフォーマッタとを備えることによって、元々は2チャンネルの信号であるにも関わらず、1チャンネルにダウンミックスした信号を符号化したものと、それを2チャンネルに分離するための非常に少ない情報を符号化したものとビットストリームを形成できるので、高圧縮を実現できることとなる。そして、このビットストリームは、実施の形態1で説明したオーディオデコーダに適合し、前記オーディオデコーダによって、高い精度で本来の2チャンネル信号に再生される。
図8に、本実施の形態における位相差を符号化するために符号帳を示す。
位相差をθとしたとき、図8は、θをcosθとして表して、cosθの値を符号化するためのテーブルである。図8の一番左の列は、量子化における閾値を示している。すなわち図8は、cosθの値を11レベルの量子化値で表すためのテーブルであり、例えば、cosθの値が、-1.000から-0.969の間のものは、同じ量子化レベルとして符号化するようにしている。
図8からも明らかなように、cosθの値が0近傍(位相差90°近傍)は、+1近傍(位相差0°近傍)や−1近傍(位相差180°近傍)に比べて量子化の精度を粗く設定している。これは、位相差90°近傍においては、位相差の変動の検知感度が低く、位相差0°近傍や位相差180°近傍は、位相差の変動の検知感度が高いという聴覚の特性を考慮したものである。
また、このような量子化の閾値を設ければ、当然位相差90°近傍の量子化値が発生する頻度が高くなるので、可変長符号すなわちハフマン符号を用いると符号化効率が向上する。図8の中央に列は、それぞれの量子化レベルのハフマン符号長をしめしており、右側の列は、対応するハフマン符号をしめした。図から明らかなように、90°近辺の量子化値に対する符号長は非常に短いものになっている。
また、この性質をさらに利用すれば、エンコードにおけるビットレートを低くしたい場合は、図9に示すように、位相差の量子化値が、90°近傍の量子化値になる頻度を高くするために、90°近辺の量子化の精度を粗く設定することが効率的である。なぜならば、位相差90°近辺は、聴覚的な感度が鈍く、量子化による聴感上の劣化が少なく抑えられ、しかも、短い符号長の符号の発生頻度が上がるので、平均のビットレートが低くなるためである。
勿論図8に示したものは、単なる一例であり、11値の量子化レベルは、必ずしもそうでなくてもよいし、ハフマン符号長の割り当て方も、図に示したとおりでなくてもよいことは言うまでもない。
本発明に係るオーディオデコーダは、オーディオ再生装置に利用でき、とりわけ低ビットレートでの音楽放送サービスや音楽配信サービスにおける受信機器への応用に好適である。
図1は、本実施の形態1におけるオーディオデコーダの構成を示す図である。 図2は、本オーディオデコーダの入力となるビットストリームの構成を簡単に示した図である。 図3は、ゲイン比情報、位相差情報、位相極性情報がどのように格納されるかを示した図である。 図4は、ゲイン比Dと位相差θとの様子の一例を示した図である。 図5は、位相差αとβとを幾何学的に求めるための考え方を示した図である。 図6(a)は、ダウンミックス信号ともとの2チャンネル信号との関係を示した図であり、図6(b)は、ダウンミックス信号と位相回転が完了した時点の信号1及び信号2との関係を示した図である。 図7は、本実施の形態2におけるオーディオエンコーダの構成を示す図である。 図8は、位相差を符号化するために符号帳を示した図である。 図9は、低ビットレート時に位相差を符号化するために符号帳を示した図である。 図10は、位相差αとβとを幾何学的に求めるための別の考え方を示した図である。 図11は、変形例におけるオーディオデコーダの構成を示す図である。
符号の説明
100 復号化手段
101 変換手段
102 位相回転子決定手段
103 位相回転手段
104 逆変換手段
200 第1の符号化データ格納領域
201 第2の符号化データ格納領域
202 第3の符号化データ格納領域
203 第4の符号化データ格納領域
700 第1の符号化手段
701 第1の変換手段
702 第2の変換手段
703 第1の分割手段
704 第2の分割手段
705 第3の分割手段
706 第4の分割手段
707 第2の符号化手段
708 第3の符号化手段
709 フォーマッタ

Claims (18)

  1. 2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第1の符号化データと、前記2つのオーディオ信号間のゲイン比Dを複数の周波数帯域のそれぞれについて表す第2の符号化データと、前記2つのオーディオ信号間の位相差θを前記複数の周波数帯域のそれぞれについて表す第3の符号化データとを含むビットストリームをデコードして、前記2つのオーディオ信号を再生するオーディオデコーダであって、
    前記第1の符号化データを前記ダウンミックス信号に復号化する復号化手段と、
    前記復号化手段で生成されたダウンミックス信号を、前記複数の周波数帯域ごとに、周波数領域の信号に変換する変換手段と、
    前記複数の周波数帯域ごとに、隣接2辺の長さの比が前記第2の符号化データによって表されるゲイン比Dと等しく、かつその夾角が前記第3の符号化データによって表される位相差θと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する決定手段と、
    前記複数の周波数帯域ごとに、前記周波数領域の信号を、前記2つの位相回転子と前記第2の符号化データによって表されるゲイン比Dとを用いて、2つの分離信号に分離する分離手段と、
    前記2つの分離信号それぞれを時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する逆変換手段と
    を備えることを特徴とするオーディオデコーダ。
  2. 前記決定手段は、2つの複素数e-jα及びe、又はそれらの共役複素数e及びe-jβを前記2つの位相回転子として決定し、
    前記分離手段は、前記位相回転子として決定されたそれぞれの複素数を、前記変換手段で生成された周波数領域の信号に乗算することによって、前記2つの分離信号を生成する
    ことを特徴とする請求項1に記載のオーディオデコーダ。
  3. 前記ビットストリームは、前記2つのオーディオ信号のいずれの位相が進んでいるかを示す位相極性情報Sを表す第4の符号化データをさらに含んでおり、
    前記分離手段は、前記決定された2つの複素数及びそれらの共役複素数のうちの
    前記第4の符号化データによって表される位相極性情報Sに応じた一方を、前記変換手段で生成された周波数領域の信号に乗算することによって、前記2つの分離信号を生成する
    ことを特徴とする請求項2に記載のオーディオデコーダ。
  4. 前記決定手段は、前記角度α及び角度βを
    α=arccos((1+Dcosθ)/((1+D2+2Dcosθ)0.5))
    β=arccos((D+cosθ)/((1+D2+2Dcosθ)0.5))
    に従って求め、求めたα及びβを用いて前記2つの位相回転子を決定する
    ことを特徴とする請求項1に記載のオーディオデコーダ。
  5. 前記決定手段は、前記角度αに対応するcosα、及び角度βに対応するcosβを
    cosα=(1+Dcosθ)/((1+D2+2Dcosθ)0.5)
    cosβ=(D+cosθ)/((1+D2+2Dcosθ)0.5)
    に従って求め、求めたcosα及びcosβを用いて前記2つの位相回転子を決定する
    ことを特徴とする請求項1に記載のオーディオデコーダ。
  6. 前記第3の符号化データは、前記2つのオーディオ信号間の位相差θを、cosθの値を
    用いて表し、
    前記決定手段は、前記第3の符号化データによって表されるcosθの値を用いて、前記2つの位相回転子を決定する
    ことを特徴とする請求項1に記載のオーディオデコーダ。
  7. 前記cosθの値は、前記2つのオーディオ信号間の相関値として求める
    ことを特徴とする請求項6に記載のオーディオデコーダ。
  8. 前記決定手段は、
    複数の位相差それぞれに対応して、位相差の三角関数を少なくとも用いて表される関数値を記憶しているテーブルを有し、
    前記第3の符号化データによって表される位相差θに対応する関数値を前記テーブルから参照して、前記位相回転子を決定する
    ことを特徴とする請求項1に記載のオーディオデコーダ。
  9. 前記テーブルは、前記複数の位相差θそれぞれに対応するsinθの値とcosθの値とを記憶している
    ことを特徴とする請求項8に記載のオーディオデコーダ。
  10. 前記テーブルは、同一の位相差θに対応するsinθの値とcosθの値とを、隣接する領域に記憶している
    ことを特徴とする請求項9に記載のオーディオデコーダ。
  11. 前記テーブルは、ゲイン比Dと位相差θとの複数の組み合わせそれぞれに対応して、
    W(D,θ)=(1+Dcosθ)/((1+D2+2Dcosθ)0.5)
    X(D,θ)=(Dsinθ)/((1+D2+2Dcosθ)0.5)
    Y(D,θ)=(D+cosθ)/((1+D2+2Dcosθ)0.5)
    Z(D,θ)=sinθ/((1+D2+2Dcosθ)0.5)
    なる4つの関数値を記憶しており、
    前記決定手段は、前記第2の符号化データによって表されるゲイン比Dと第3の符号化データによって表される位相差θとの組み合わせに対応する前記4つの関数値を前記テーブルから参照して、前記位相回転子を決定する
    ことを特徴とする請求項8に記載のオーディオデコーダ。
  12. 前記テーブルは、同一のゲイン比Dと位相差θとの組み合わせに対応する前記4つの関数値を、隣接する領域に記憶している
    ことを特徴とする請求項11に記載のオーディオデコーダ。
  13. 前記テーブルは、前記4つの関数値をさらにゲイン比Dに応じて補正した値を記憶している
    ことを特徴とする請求項11記載のオーディオデコーダ。
  14. 前記分離手段は、前記変換手段で生成された周波数領域の信号に残響を付加するリバーブ処理を施して残響信号を生成し、前記周波数領域の信号と前記生成された残響信号とを前記位相回転子に応じて定められる割合で混合することによって、前記2つの分離信号を生成する
    ことを特徴とする請求項1記載のオーディオデコーダ。
  15. 前記ビットストリームは、前記周波数帯域の少なくとも1つについて、前記2つのオーディオ信号のいずれの位相がその周波数帯域において進んでいるかを示す位相極性情報Sを表す第4の符号化データを含んでおり、
    前記決定手段は、前記周波数帯域ごとに、2つの複素数e-jα及びe、又はそれらの共役複素数e及びe-jβの何れかを前記2つの位相回転子として決定し、
    前記分離手段は、前記第4の符号化データを含んでいない周波数帯域については、前記決定されたそれぞれの複素数を前記変換手段で生成された周波数領域の信号に乗算し、前記第4の符号化データを含んでいる周波数帯域については、前記決定された2つの複素数及びそれらの共役複素数のうちの前記第4の符号化データによって表される位相極性情報Sに応じた一方を前記変換手段で生成された周波数領域の信号に乗算することによって、前記2つの分離信号を生成する
    ことを特徴とする請求項1に記載のオーディオデコーダ。
  16. 前記ビットストリームは、予め定められた周波数よりも低い周波数帯域についてのみ、前記第4の符号化データを含んでいる
    ことを特徴とする請求項15に記載のオーディオデコーダ。
  17. 2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第1の符号化データと、前記2つのオーディオ信号間のゲイン比Dを複数の周波数帯域のそれぞれについて表す第2の符号化データと、前記2つのオーディオ信号間の位相差θを複数の周波数帯域のそれぞれについて表す第3の符号化データとを含むビットストリームをデコードして、前記2つのオーディオ信号を再生するオーディオデコード方法であって、
    前記第1の符号化データを前記ダウンミックス信号に復号化する復号化ステップと、
    前記復号化ステップで生成されたダウンミックス信号を、前記複数の周波数帯域ごとに、周波数領域の信号に変換する変換ステップと、
    前記複数の周波数帯域ごとに、隣接2辺の長さの比が前記第2の符号化データによって表されるゲイン比Dと等しく、かつその夾角が前記第3の符号化データによって表される位相差θと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する決定ステップと、
    前記複数の周波数帯域ごとに、前記変換ステップで生成された周波数領域の信号から、前記決定された2つの位相回転子と前記ゲイン比Dとを用いて、2つの分離信号を生成する分離ステップと、
    前記2つの分離信号それぞれを時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する逆変換ステップと、
    を含むことを特徴とするオーディオデコード方法。
  18. 2つのオーディオ信号をダウンミックスして得られたダウンミックス信号を表す第1の符号化データと、前記2つのオーディオ信号間のゲイン比Dを複数の周波数帯域のそれぞれについて表す第2の符号化データと、前記2つのオーディオ信号間の位相差θを複数の周波数帯域のそれぞれについて表す第3の符号化データとを含むビットストリームをデコードして、前記2つのオーディオ信号を再生するオーディオデコード処理を行うためのコンピュータ実行可能なプログラムであって、
    前記第1の符号化データを前記ダウンミックス信号に復号化する復号化ステップと、
    前記復号化ステップで生成されたダウンミックス信号を、前記複数の周波数帯域ごとに、周波数領域の信号に変換する変換ステップと、
    前記複数の周波数帯域ごとに、隣接2辺の長さの比が前記第2の符号化データによって表されるゲイン比Dと等しく、かつその夾角が前記第3の符号化データによって表される位相差θと等しい平行四辺形において、前記夾角が対角線で分割されて得られる角度α及びβをそれぞれ位相回転角とする2つの位相回転子を決定する決定ステップと、
    前記複数の周波数帯域ごとに、前記変換ステップで生成された周波数領域の信号から、前記決定された2つの位相回転子と前記ゲイン比Dとを用いて、2つの分離信号を生成する分離ステップと、
    前記2つの分離信号それぞれを時間領域の信号に逆変換して、前記2つのオーディオ信号を再生する逆変換ステップと、
    をコンピュータに実行させることを特徴とするプログラム。
JP2006531500A 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム Active JP4936894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006531500A JP4936894B2 (ja) 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
JP2004248989 2004-08-27
JP2004248989 2004-08-27
JP2005110192 2005-04-06
JP2005110192 2005-04-06
PCT/JP2005/014128 WO2006022124A1 (ja) 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム
JP2006531500A JP4936894B2 (ja) 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム

Publications (2)

Publication Number Publication Date
JPWO2006022124A1 JPWO2006022124A1 (ja) 2008-07-31
JP4936894B2 true JP4936894B2 (ja) 2012-05-23

Family

ID=35967343

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006531500A Active JP4936894B2 (ja) 2004-08-27 2005-08-02 オーディオデコーダ、方法及びプログラム

Country Status (3)

Country Link
US (1) US8046217B2 (ja)
JP (1) JP4936894B2 (ja)
WO (1) WO2006022124A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007010785A1 (ja) 2005-07-15 2007-01-25 Matsushita Electric Industrial Co., Ltd. オーディオデコーダ
US8284961B2 (en) 2005-07-15 2012-10-09 Panasonic Corporation Signal processing device
KR20080082917A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
KR20080082924A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호의 처리 방법 및 장치
KR101100214B1 (ko) 2007-03-16 2011-12-28 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
KR101453732B1 (ko) * 2007-04-16 2014-10-24 삼성전자주식회사 스테레오 신호 및 멀티 채널 신호 부호화 및 복호화 방법및 장치
JP2010538572A (ja) 2007-09-06 2010-12-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及び装置
KR101505831B1 (ko) * 2007-10-30 2015-03-26 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 방법 및 장치
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
JP5333257B2 (ja) * 2010-01-20 2013-11-06 富士通株式会社 符号化装置、符号化システムおよび符号化方法
US8762158B2 (en) * 2010-08-06 2014-06-24 Samsung Electronics Co., Ltd. Decoding method and decoding apparatus therefor
CA2899134C (en) * 2013-01-29 2019-07-30 Frederik Nagel Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003090206A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Signal synthesizing
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3432822B2 (ja) * 1991-06-11 2003-08-04 クゥアルコム・インコーポレイテッド 可変速度ボコーダ
FI915834A0 (fi) 1991-12-11 1991-12-11 Nokia Mobile Phones Ltd Foerfarande foer flerantennmottagning.
GB9211756D0 (en) * 1992-06-03 1992-07-15 Gerzon Michael A Stereophonic directional dispersion method
JP2827777B2 (ja) 1992-12-11 1998-11-25 日本ビクター株式会社 音像定位制御における中間伝達特性の算出方法並びにこれを利用した音像定位制御方法及び装置
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
US7630500B1 (en) * 1994-04-15 2009-12-08 Bose Corporation Spatial disassembly processor
US5854813A (en) * 1994-12-29 1998-12-29 Motorola, Inc. Multiple access up converter/modulator and method
US5602874A (en) * 1994-12-29 1997-02-11 Motorola, Inc. Method and apparatus for reducing quantization noise
WO1996021305A1 (en) 1994-12-29 1996-07-11 Motorola Inc. Multiple access digital transmitter and receiver
US6009130A (en) * 1995-12-28 1999-12-28 Motorola, Inc. Multiple access digital transmitter and receiver
US6167161A (en) * 1996-08-23 2000-12-26 Nec Corporation Lossless transform coding system having compatibility with lossy coding
US5724429A (en) * 1996-11-15 1998-03-03 Lucent Technologies Inc. System and method for enhancing the spatial effect of sound produced by a sound system
US6539357B1 (en) * 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
CN1307612C (zh) 2002-04-22 2007-03-28 皇家飞利浦电子股份有限公司 声频信号的编码解码方法、编码器、解码器及相关设备
AU2003222397A1 (en) * 2003-04-30 2004-11-23 Nokia Corporation Support of a multichannel audio extension

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003090206A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Signal synthesizing
JP2005523624A (ja) * 2002-04-22 2005-08-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 信号合成方法
JP2004048741A (ja) * 2002-06-24 2004-02-12 Agere Systems Inc オーディオミキシングのための等化技術

Also Published As

Publication number Publication date
US8046217B2 (en) 2011-10-25
WO2006022124A1 (ja) 2006-03-02
JPWO2006022124A1 (ja) 2008-07-31
US20070255572A1 (en) 2007-11-01

Similar Documents

Publication Publication Date Title
US12165656B2 (en) Encoding of a multi-channel audio signal to generate binaural signal and decoding of an encoded binauralsignal
RU2690885C1 (ru) Стереофонический кодер и декодер аудиосигналов
US8433583B2 (en) Audio decoding
US8036904B2 (en) Audio encoder and method for scalable multi-channel audio coding, and an audio decoder and method for decoding said scalable multi-channel audio coding
JP4887307B2 (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
US9384740B2 (en) Apparatus and method for encoding and decoding multi-channel signal
US8798276B2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
US8284961B2 (en) Signal processing device
JP4936894B2 (ja) オーディオデコーダ、方法及びプログラム
US20160078872A1 (en) Compatible multi-channel coding/decoding
EP1944758A2 (en) Method of coding data
US20080201152A1 (en) Apparatus for Encoding and Decoding Audio Signal and Method Thereof
US20080212803A1 (en) Apparatus For Encoding and Decoding Audio Signal and Method Thereof
US20090299756A1 (en) Ratio of speech to non-speech audio such as for elderly or hearing-impaired listeners
CN101410889A (zh) 对作为听觉事件的函数的空间音频编码参数进行控制
WO2006005390A1 (en) Apparatus and method for generating a multi-channel output signal
WO2007109338A1 (en) Low bit rate audio encoding and decoding
CA2556575A1 (en) Multichannel audio coding
CN101133441A (zh) 音源的参数联合编码
TWI409803B (zh) 音頻訊號之編碼及解碼方法及其裝置
RU2798009C2 (ru) Стереофонический кодер и декодер аудиосигналов
CN101010726A (zh) 音频解码器、方法以及程序
MX2008009565A (en) Apparatus and method for encoding/decoding signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080528

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120131

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120221

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4936894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350