JP3762579B2 - デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 - Google Patents
デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 Download PDFInfo
- Publication number
- JP3762579B2 JP3762579B2 JP22205499A JP22205499A JP3762579B2 JP 3762579 B2 JP3762579 B2 JP 3762579B2 JP 22205499 A JP22205499 A JP 22205499A JP 22205499 A JP22205499 A JP 22205499A JP 3762579 B2 JP3762579 B2 JP 3762579B2
- Authority
- JP
- Japan
- Prior art keywords
- block
- short
- acoustic signal
- blocks
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
本発明はデジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体に関し、特に例えばDVD、デジタル放送等に利用するデジタル音響信号の圧縮・符号化に関する。
【0002】
【従来の技術】
従来より、デジタル音響信号の高品質圧縮・符号化においては、人間の聴覚心理特性が利用されている。その特性は、小さな音が大きな音によってマスキングされて聴こえなくなるというものである。即ち、ある周波数で大きな音が発生すると、その近傍の周波数の小さな音はマスクされて人間の耳には感知されなくなる。ここで、マスクされて聴こえなくなる限界の強度をマスキング閾値という。一方、人間の耳はマスキングとは無関係に、4kHz付近の音に対して最も感度が良く、それより上下の帯域になればなるほど次第に感度が悪くなっていくという性質もある。この性質は、静寂な状況で音を感知し得る限界の強度として表され、これを絶対可聴閾値という。
【0003】
これらのことを音響信号の強度分布を示す図9に従って説明する。太い実線(A)が音響信号の強度分布、点線(B)がこの音響信号に対するマスキング閾値、そして、細い実線(C)が絶対可聴閾値を、それぞれ表す。同図に示すように、人間の耳には、音響信号に対するマスキング閾値及び絶対可聴閾値よりも大きな強度の音のみ感知できる。従って、音響信号の強度分布の中で、音響信号に対するマスキング閾値及び絶対可聴閾値よりも大きな部分の情報のみを取りだしても、聴覚的には元の音響信号と同じように感じられるのである。
【0004】
このことは、音響信号の符号化においては、図9の斜線で示した部分のみに符号化ビットを割り当てることと等価である。ただし、ここでのビット割り当ては、音響信号の全体域を複数の小帯域に分割して、その分割帯域(D)の単位で行っている。各斜線の領域の横幅は、その分割体域幅に相当する。
【0005】
各分割帯域で、斜線領域の下限の強度以下の音は耳に聴こえない。よって、原音と符号/復号化音の強度の誤差がこの下限を超えなければ両者の差を感知できない。その意味で、この下限の強度を許容誤差強度と呼ぶ。音響信号を量子化して圧縮するに際し、原音に対する符号/復号化音の量子化誤差強度が許容誤差強度以下になるように量子化すれば、原音の音質を損なわずに音響信号を圧縮できる。よって、図9の斜線領域のみに符号化ビットを割り当てるということは、各分割帯域での量子化誤差強度がちょうど許容誤差強度になるように量子化することと等価である。
【0006】
この音響信号の符号化方式としては、MPEG(Moving Picture Experts Group) AudioやDolby Digital等があるが、いずれもここで説明したような性質を用いている。その中で、現在最も符号化効率がよいとされているのが、ISO/IEC 13818−7にて標準化されているMPEG−2AudioAAC(Advanced Audio Coding)という方式である。
【0007】
図10はAACの符号化の基本的な構成を示すブロック図である。同図において、聴覚心理モデル部101は時間軸に沿ってブロック化された入力音響信号の各分割帯域毎に許容誤差強度を算出する。一方、同じくブロック化された入力信号に対して、ゲインコントロール102及びフィルタバンク103ではMDCT(Modified Discrete Cosine Transform)による周波数領域への変換を行い、TNS(Temporal Noise Shaping)104、予測器106では予測符号化、そしてインテンシティ/カップリング105及びMSステレオ(Middle Side Stereo)(以下M/Sと略す)107は、ステレオ相関符号化処理を、それぞれ行う。その後、正規化係数108を決定し、量子化器109ではその正規化係数108を基に音響信号を量子化する。この正規化係数は図9の許容誤差強度に対応するもので、各分割帯域毎に定められる。量子化後、ノイズレスコーディング110では予め定められたハフマン符号表に基づいて、正規化係数と量子化値にそれぞれハフマン符号を与えてノイズレスコーディングを行い、最後にマルチプレクサ111にて符号ビットストリームを形成する。
【0008】
さて、上述のフィルタバンク103におけるMDCTとは、図11に示すように時間軸に沿って変換領域を50%ずつオーバーラップさせながらDCTを施すものである。これによって、各変換領域の境界部での歪みの発生が抑えられる。また、生成されるMDCT係数の数は変換領域のサンプル数の半分である。AACでは入力音響信号ブロックに対して、2048サンプルの長い変換領域(ロングブロック)、又は各256サンプルの8個の短い変換領域(ショートブロック)のいずれかを適用する。よって、MDCT係数の数はロングの場合は1024、ショートでは128となる。ショートブロックは常に8ブロックを連続して適用することにより、ロングブロックを用いた場合とMDCT係数の数を合わせるようになっている。
【0009】
一般に、図12のように信号波形の変化の少ない定常的な部分にはロングブロックを、図13のように変化の激しいアタック部にはショートブロックを用いる。この両者の使い分けは重要で、もし図13のような信号にロングブロックを適用すると、本来のアタックの前にプリエコーとよばれるノイズが発生する。また、図12のような信号にショートブロックを適用すると、周波数領域での解像度の不足から適切なビット割り当てがなされずに符号化効率が低下し、やはりノイズが発生し、特に低周波数の音に対しては顕著である。
【0010】
ショートブロックについては、さらに、グループ分けの問題がある。グループ分けとは、上記の8つのショートブロックを、正規化係数の同じ連続するブロックごとにまとめてグループ化することである。グループ内で正規化係数を共通化することで、情報量の削減効果が上がる。具体的には、図10のノイズレスコーディング110にて正規化係数にハフマン符号を割り当てる際に、各ショートブロック単位ではなく、グループ単位で割り当てるのである。図14にグループ分けの一例を示す。ここではグループ数が3で、各グループ内のブロック数は、最初の第0グループでは5、次の第1グループでは1、最後の第2グループでは2、となっている。グループ分けを適切に行わないと、符号量の増加や音質の低下を招く。グループの分割数が多きすぎると、本来共通化できるはずの正規化係数を重複して符号化することになり、符号化効率が低下する。逆に、グループ数が少なすぎると、音響信号の変化が激しいにも拘わらず共通の正規化係数で量子化することになるので、音質が低下する。なお、ISO/IEC13818−7では、グループ分けに関して、符号のシンタクスの規定はあるものの、具体的なグループ分けの基準や手法については考慮されていない。
【0011】
前述のように、符号化に際しては入力音響信号ブロックに対して適切にロングブロックとショートブロックを区別して適用しなければならない。このロング/ショートの判定を行うのは図10の聴覚心理モデル部101である。ISO/IEC13818−7では、聴覚心理モデル部101における、各着目ブロックに対するロング/ショートの判定方法の一例が示されている。その判定処理の概要を以下に説明する。
【0012】
ステップ1:音響信号の再構築
ロングブロック用に1024サンプル(ショートブロック用には128サンプル)を新たに読み込み、前ブロックにて既に読み込んでいる1024サンプル(128サンプル)と合わせて2048サンプル(256サンプル)の信号系列を再構築する。
【0013】
ステップ2:ハン窓の掛け合わせとFFT
ステップ1にて構築した2048サンプル(256サンプル)の音響信号にハン窓を掛け合わせ、さらに、FFT(Fast Fourier Transform)を施して1024個(128個)のFFT係数を算出する。
【0014】
ステップ3:FFT係数の予測値の計算
先行する2ブロック分のFFT係数の実数部と虚数部から、現在着目しているブロックのFFT係数の実数部と虚数部を予測し、それぞれ1024個(128個)の予測値を算出する。
【0015】
ステップ4:非予測可能性値の計算
ステップ2にて算出した各FFT係数の実数部と虚数部と、ステップ3にて算出した各FFT係数の実数部と虚数部の予測値から、それぞれの非予測可能性値を算出する。ここで、非予測可能性値は0から1の間の値をとり、0に近いほど音響信号の純音性が高く、1に近いほど雑音性が高い、言い替えれば純音性が低いことを示す。
【0016】
ステップ5:各分割帯域での音響信号の強度と非予測可能性値の計算
ここでの分割帯域は、図9で示したものに相当する。各分割帯域毎に、ステップ2にて算出した各FFT係数を基にして音響信号の強度を算出する。さらに、ステップ4にて算出した非予測可能性値を強度で重み付けして、各分割帯域毎の非予測可能性値を算出する。
【0017】
ステップ6:広がり関数を掛けた強度と非予測可能性値の畳み込み
各分割帯域における他の分割帯域の音響信号強度及び非予測可能性値の影響を広がり関数で求め、それぞれを畳み込んで正規化する。
【0018】
ステップ7:純音性指標の計算
各分割帯域bにおいて、ステップ6にて算出した畳み込み非予測可能性値(cb(b))を基に、純音性指標tb(b)(=−0.299−0.43loge(cb(b)))を算出する。さらに、純音性指標を0から1の間に制限する。ここで、指標が1に近いほど音響信号の純音性が高く、0に近いほど雑音性が高いことを示す。
【0019】
ステップ8:S/N比の計算
各分割帯域において、ステップ7にて算出した純音性指標を基に、S/N比を算出する。ここで、一般に雑音成分のほうが純音成分よりもマスキング効果が大きいという性質を利用する。
【0020】
ステップ9:強度比の計算
各分割帯域において、ステップ8にて算出したS/N比を基に、畳み込み音響信号強度とマスキング閾値の比を算出する。
【0021】
ステップ10:許容誤差強度の計算
各分割帯域において、ステップ6にて算出した畳み込み音響信号強度と、ステップ9にて算出した音響信号強度とマスキング閾値の比を基に、マスキング閾値を算出する。
【0022】
ステップ11:プリエコー調整と絶対可聴閾値の考慮
各分割帯域において、ステップ10にて算出したマスキング閾値を、前ブロックでの許容誤差強度を用いてプリエコー調整する。さらに、この調整値と絶対可聴閾値の大きい方の値を、現ブロックでの許容誤差強度とする。
【0023】
ステップ12:知覚エントロピーの計算
ロングブロック用とショートブロック用のそれぞれについて、式(1)で定義される知覚エントロピー(Perceptual Entropy(PE))を算出する。
【0024】
【数1】
【0025】
ただし、w(b)は分割帯域bの幅、nb(b)はステップ11にて算出した分割帯域bにおける許容誤差強度、e(b)はステップ5にて算出した分割帯域bにおける音響信号の強度、をそれぞれ示す。ここで、PEは図9におけるビット割り当て領域(斜線領域)の面積の総和に対応すると考えられる。
【0026】
ステップ13:ロング/ショートブロックの判定(図15に示すロング/ショートブロック判定動作フローを参照)
ステップ12にて算出したロングブロック用のPEの値(ステップS10)が、予め定められた定数(switch_pe)より大きい場合は、着目ブロックをショートブロックと判定し(ステップS11,S12)、小さい場合はロングブロックと判定する(ステップS11,S13)。ここで、switch_peはアプリケーションに依存して決められる値である。
【0027】
以上が、ISO/IEC13818−7にて記載されたロング/ショートの判定方法である。ところが、上述のISO/IEC13818−7にて記載されたロング/ショートブロックの判定方法では、必ずしも適切な判定がなされない。つまり、本来ショートと判定すべき部分をロングと判定して(またはその逆で)、音質の劣化を生じる場合がある。
【0028】
一方、特開平9−232964号公報では、入力信号を所定区間毎に取り込んで2乗和をそれぞれ求め、各区間毎に2乗和された信号の少なくとも2以上の区間にわたる変化度によって上記信号の過渡状態を検出するように過渡状態検出回路2を構成し、直交変換処理やフィルタ処理を行わずに、時間軸上の入力信号の2乗和計算を行うだけで過渡状態、即ち、ロング/ショートが変化する部分を検出することができるようにしている。この方法では入力信号の2乗和のみを用いて、知覚エントロピーを考慮していないので、必ずしも聴覚上の特性に合致した判定ができず、音質が劣化する恐れがある。
【0029】
そこで、同一グループ内の各ショートブロックに関する知覚エントロピーの最大値と最小値の差が予め定められた閾値より小さくなるように入力音響信号ブロックをグループ分けし、その結果、グループ数が1の場合、又はこれと他の条件を満足する場合は入力音響信号ブロックを1つのロングブロックで周波数領域に変換し、それ以外の場合は複数のショートブロックで変換するという方法がある。この方法について動作フローを示す図16に従って以下に説明する。なお、入力音響信号の例として、図17の音響データを用い、図17では連続する8つの各ショートブロックに対応する通し番号を付している。
【0030】
先ず、入力された音響信号は連続する8つのショートブロックに分割される。そして、この8つのショートブロックの知覚エントロピーをそれぞれ計算し、これらを順にPE(i)(0≦i≦7)とする(ステップS20)。この計算は、上述のISO/IEC13818−7における各着目ブロックに対するロング/ショートの判定方法のステップ1からステップ12にて説明した方法を各ショートブロックに対して行うことで実現する。次に、group_len[0]=1,group_len[gnum]=0(0≦gnum≦7)と初期化する(ステップS21)。ここで、gnumはグループ分におけるグループの通し番号、group_len[gnum]は第gnumグループ内に含まれるショートブロックの数、をそれぞれ表す。そして、gnum=0,min=PE(0),max=PE(0)とそれぞれ初期化する(ステップS22)。このmin,maxは、PE(i)の最小値、最大値をそれぞれ表す。図18により、ここでは、min=110,max=110となる。さらに、インデックスiをi=1と初期化する(ステップS23)。このインデックスはショートブロックの通し番号に対応する。
【0031】
次に、PE(i)によってmin、又はmaxの更新をする。即ち、PE(i)<minならmin=PE(i)、PE(i)>maxならmax=PE(i)とする(ステップS24)。図18の例では、PE(1)=96なので、min=96、max=110となる。そして、グループ分けの判定をする(ステップS25)。即ち、求めたmax−minが予め定められた閾値thと比較されて当該閾値th以上の場合は、ショートブロックi−1とiの間でグループ分けを行うためにステップS26に進み、thより小さい場合は、ショートブロックi−1とiが同一グループに含まれると判定してステップS27に進むのである。この例ではth=50としておく。即ち、同一のグループに含まれる各ショートブロックのPE(i)の最大値と最小値の差が50より小さくなるように、グループ分けするということである。i=1のときは、max−min=110−96=14<50=thなので、ショートブロック0と1は同一グループに含まれると判定されてステップS27へ進む。なお、ここではgnum=0なので、ショートブロック0と1は第0グループに含まれる。そして、group_len[gnum]の値を1だけインクリメントする(ステップS28)。これは、第gnumグループに含まれるショートブロックの数を1だけ増やすということである。この例では、ステップS21,S22でgnum=0かつgroup_len[0]=1と初期化されているので、ステップS27ではgroup_len[0]=2となる。これは、第0グループに含まれるショートブロックとしてブロック0,1の2つのブロックが既に確定していることに対応する。
【0032】
次に、インデックスiを1だけインクリメントし(ステップS28)、iが7より小さい場合はステップS24へ戻る(ステップS29)。この例ではi=2<7となるのでステップS24へ戻る。
【0033】
その後、以上で説明したのと同様の動作がi=4まで続く。i=4のときは、図18より、図16のステップS24にてmin=96,max=137となるので、ステップS25ではmax−min=41<50=thと判定され、やはり、ステップS25からそのままステップS27へ進む。そして、ステップS27にて、group_len[0]=5となる。これは即ち、第0グループに含まれるショートブロックとしてブロック0,1,2,3,4の5つのブロックが確定したことに対応する。そして、ステップS28にてi=5となった後、ステップS29を経て再びステップS24に戻ると、今度はPE(5)=152なのでmin=96,max=152となる。すると、ステップS25ではmax−min=56>50=thと判定されるので、ステップS26へ進む。これはショートブロック4と5の間でグループ分けを行うことを意味する。ステップS26ではgnumの値を1だけインクリメントし、かつ、min,maxをそれぞれ最新のPE(i)に置き換える。ここでは、gnum=1,min=152,max=152となる。gnum=1はショートブロック5が含まれるグループが第1グループであることに対応する。
【0034】
次に、ステップS27でgroup_len[1]を1だけインクリメントする。group_len[1]はステップS21にて0に初期化されていたので、ここで改めてgroup_len[1]=1となる。これは、第1グループに含まれるショートブロックとしてブロック5の1つのブロックが確定したことに対応する。
【0035】
以下同様に、図16のステップS28でi=6となり、ステップS29からまたステップS24へ戻ると、今度は図18よりPE(6)=269なので、min=152,max=269となり、ステップS85にてmax−min=117>50と判定され、ステップS26へ進む。つまり、ショートブロック5と6の間でもグループ分けがなされるのである。そして、ステップS26にてgnum=2,min=269,max=269となり、さらにステップS27でgroup_len[2]=1となる。そして、ステップS28でi=7とした後これまでと同様に、ステップS24でPE(7)=231なので、min=231,max=269となり、ステップS25にてmax−min=38<50と判定され、ステップS27へ進む。つまり、ショートブロック6と7はいずれも第2グループに含まれる。これに対応して、ステップS27でgroup_len[2]=2となる。さて、次のステップS28でi=8となるとステップS29の判定により、ステップS30へ進む。これで、8つのショートブロック全てについてのグループ分けが完了したことになる。
【0036】
この例では、結局、gnum=2,group_len[0]=5,group_len[1]=1,group_len[2]=2となる。即ち、グループの数は3で、各グループに含まれるショートブロックの数は、第0グループが5、第1グループが1、第2グループが2という結果である。これは、図14に示したグループ分けの例と同様のものである。
【0037】
しかし、この方法でも適切なロング/ショートの判定ができない場合が存在する。それは、低周波成分に純音性の高い成分を含む音響データを符号化する場合がある。ショートブロックによる変換は時間領域での解像度が増す反面、周波数領域での解像度は低下する。一方、人間の耳は低周波数領域で高い解像度のマスキング特性を有し、特に純音性の高い音響データに対しては非常に狭い周波数帯域のみがマスキングされる。
【0038】
ところが、低周波成分に純音性の高い成分を含む音響データをショートブロックで変換すると、ショートブロックに起因する周波数領域での解像度の不足によってもとの音響データのエネルギーが周辺の周波数帯域に分散し、それが人間の耳の低周波成分におけるマスキングの幅を超えて広がることで、結果的に音質の劣化を感じてしまう。このことは、単にショートブロックに関する知覚エントロピーのみに基づいてロング/ショートの判定を行うのは不十分であり、さらに、音響データの純音性とマスキング特性の周波数依存性を組み合わせて考慮する必要があることを示している。
【0039】
そこで、我々は次に、入力音響信号フレームを複数のショートブロックに分割し、それぞれのショートブロックについて、予め定めた1つまたは複数の分割帯域に含まれる音響成分の純音性指標が、分割帯域毎に予め定めた閾値より大きいかどうかを判定し、前記予め定めた1つまたは複数の分割帯域の全てにおいて純音性指標が前記予め定めた閾値より大きいようなショートブロックが少なくとも1つ存在する場合は、入力音響信号フレームを1つのロングブロックで周波数領域に変換すると判定する、という方法を出願した。この方法の具体的な実現例をフローチャートで表したものが図19である。
【0040】
図19はデジタル音響信号符号化装置の動作を示すフローチャートである。以下、両図を用いて本実施例の具体的な動作を説明する。その際、入力音響信号の例として、図17の音響データを用いるが、図17では連続する8つの各ショートブロックに対応する通し番号を付している。
【0041】
先ず、入力された音響信号は連続する8つのショートブロックi(0≦i≦7)に関し、各分割帯域sfbでの純音性指標をそれぞれ計算し、これらをtb[i][sfb]とする(ステップS40)。ここで、sfbは図17に示すように、各分割帯域を識別するための通し番号である。なお、この純音性指標の計算は、上述ISO/IEC13818−7における各着目ブロックに対するロング/ショートの判定ステップの内ステップ7にて説明した方法による。次に、tonal_flag=0と初期化する(ステップS41)。更に、ショートブロックの通し番号iをi=0と初期化する(ステップS42)。そして、ショートブロックiに関し、予め定めた1つ又は複数の分割領域において各純音性指標がそれぞれの分割帯域について予め定めた閾値より大きいかどうかを調べる(ステップS43)。図19の例では、sfb=7,8,9である分割領域に関して調べており、それぞれ純音性指標の閾値を、th7,th8,th9としている。
【0042】
さて、ここにおける例では、それぞれのショートブロックiに関し、stb=7,8,9における純音性指標の値が図5に示したようなものであったとする。また、th7=0.6,th8=0.9,th9=0.8と定められているものとする。すると、最初のi=0のときは、tb[0][7]=0.12<0.6=th7,tb予[0][8]=0.08<0.9=th8,tb[0][9]=0.15<0.8=th9なので、ステップS43における判定はnoとなり、次のステップS106に進む。そして、iの値が1つだけインクリメントされてi=1となり、ステップS46の判定を経て、再びステップS43に戻る。
【0043】
その後、以上説明した動作と同様の動作がi=5まで続く。i=6となった後(ステップS45)、ステップS46を経て再びステップS43に戻る。今後は、tb[6][7]=0.67>0.6=th7,tb[6][8]=0.95>0.9=th8,tb[6][9]=0.89>0.8=th9なので、ステップS43における判定はyesとなり、ステップS44に進む。そして、tonal_flag=1となる(ステップS44)。次に、i=7となり(ステップS45)、ステップS46を経てまたステップS43へ戻る。i=7ではtb[7][7]=0.42<0.6=th7,tb[7][8]=0.84<0.9=th8,tb[7][9]=0.81>0.8=th9なので、ステップS43の判定はnoであり、ステップS45へ進む。一方、tonal_flag=1のまま変わらない。そして、i=8となった後(ステップS45)、ステップS46の判定を経て今度はステップS47へ進む。そして、tonal_flagの値を調べる(ステップS47)。この例ではtonal_flag=1なので判定はyesとなりステップS48へ進む。よって、入力された音響ブロックを1つのロングブロックによってMDCT変換するものと判定される。
【0044】
【発明が解決しようとする課題】
しかしながら、これらの方法でも、適切にロング/ショートの判定が無されない場合がある。それは、本来ショートブロックで変換するのが普通であるにもかかわらず、上記従来例のグループ分けの結果が1グループとなるため、ロングブロックと判定されてしまうような場合がある。また、図9によれば、4kHz以上の領域で入力音響信号のサンプリング周波数が小さくなるほど、絶対可聴閾値の寄与度は低下するので、ビット割り当て領域(図9での斜線領域)の面積は相対的に増大する。その結果、上述のISO/IEC13818−7にて記載されたロング/ショートブロックの判定方法におけるステップ12で計算した知覚エントロピー(PE)の値も大きくなっていく。ところが、各ショートブロックの知覚エントロピーの合計値の差に関する閾値が、サンプリング周波数によらずに共通の値であると、あるサンプリング周波数では適切にロング/ショートの判定ができても、他の周波数の場合は適切に判定できないという問題点が生じる。
【0045】
本発明はこれらの問題点を解決するためのものであり、入力音響信号のサンプリング周波数の違いにも対応して、音質が劣化しないように適切にショートブロックをグループ分けし、かつロング/ショートの別が判別できる、デジタル音響信号装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体を提供することを目的とする。
【0046】
【課題を解決するための手段】
本発明は前記問題点を解決するために、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング/ショートブロック判定手段とを具備することに特徴がある。また、ロング/ショートブロック判定手段は、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング/ショートの判定ができるデジタル音響信号符号化装置を提供できる。
【0047】
また、別の発明として、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する判定手段とを具備することに特徴がある。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化装置を提供できる。
【0048】
更に、閾値を入力音響信号のサンプリング周波数毎に定めたことにより、入力音響信号のサンプリング周波数の違いに応じた適切なロング/ショートの判定ができる。
【0049】
また、別の発明としてのデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定する。また、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかの判定は、絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング/ショートの判定ができるデジタル音響信号符号化方法を提供できる。
【0050】
また、別のデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化方法を提供できる。
【0051】
更に、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【0052】
【発明の実施の形態】
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング/ショートブロック判定手段とを具備する。
【0053】
【実施例】
以下、本発明の実施例を図面に基づいて説明する。
図1は本発明の一実施例に係るデジタル音響信号符号化装置の構成を示すブロックである。同図に示す本実施例のデジタル音響信号符号化装置は、入力された音響信号を所定の数、以下の説明では8つの連続するブロックに分割するブロック分割手段11、分割された各ブロックの知覚エントロピーPEを上述した算出式によって計算する知覚エントロピー算出手段12、算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段13、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較する比較手段14及び比較結果に応じてロングブロック又はショートブロックのいずれかを判定するロング/ショートブロック判定手段15を含んで構成されている。
【0054】
ここで、図2は本発明の第1の実施例に係るデジタル音響信号符号化装置の動作を示すフローチャートである。以下、両図を用いて本実施例の具体的な動作を説明する。その際、入力音響信号の例として、図3の音響データを用いる。ここでは、時間的に連続する2フレームに含まれる合計16のショートブロックを示している。フレームは時間順にフレームf−1、フレームfとし、現在着目しているフレームは後のフレームfの方である。さらに、それぞれのフレームにおいて各ショートブロックに対応する通し番号を付している。
【0055】
先ず、ブロック分割手段11によってフレームf内の連続する8つのショートブロックi(0≦i≦7)のそれぞれに関し、知覚エントロピー算出手段12によって知覚エントロピーPE[f][i]を計算する(ステップS101)。この知覚エントロピーの計算は、上述のISO/IEC13818−7にて記載されたロング/ショートブロックの判定方法におけるステップ12にて説明した方法による。次に、知覚エントロピー総和算出手段13によって下記式で定義されるようにPE[f][i]の0≦i≦7に関する合計値SPE[f]を求める(ステップS102)。
【0056】
【数2】
【0057】
そして、比較手段14によって前フレームf−1にて上記と同様の方法で既に求めていたSPE[f−1]とSPE[f]の差の絶対値を求め、それとあらかじめ定められた閾値switch_pe_sとの大小を比較する(ステップS103)。ロング/ショートブロック判定手段15ではswitch_pe_sより大きい場合はステップS104に進み、フレームfを複数のショートブロックで変換する、と判定する。一方、switch_pe_sより小さい場合はステップS105に進み、フレームfを1つのロングブロックで変換する、と判定する。
【0058】
図4は図3の各ショートブロックに対応するPE[f][i]を示す図である。同図に示す例では、SPE[f−1]=1390,SPE[f]=1030なので、switch_pe_s=500である場合は、|SPE[f−1]−SPE[f]|=360<switch_pe_s=500となるので、フレームfについては、1つのロングブロックで変換する、と判定される。
【0059】
次に、本発明の第2の実施例に係るデジタル音響信号符号化装置の動作を図5に示すフローチャートに従って説明する。なお、ステップS201からステップS204までは図2のステップS101からステップS104までとそれぞれ同様の処理を行うものとし、異なる動作について説明する。ステップS203にて前フレームf−1にて上記と同様の方法で既に求めていたSPE[f−1]とSPE[f]の差の絶対値を求め、それとあらかじめ定められた閾値switch_pe_sとの大小を比較する。switch_pe_sより大きい場合はステップS204に進み、フレームfを複数のショートブロックで変換する、と判定する。一方、switch_pe_sより小さい場合はステップS205に進み、フレーム内の各ショートブロックの知覚エントロピーの合計値の差の情報のみでは判定不能とし、他の手段によるロング/ショートの判定をする。その一例として、同一グループ内の各ショートブロックに関する知覚エントロピーの最大値と最小値の差が予め定められた閾値より小さくなるようにフレームfをグループ分けし、その結果、グループ数が1の場合は、ステップS206に進んでフレームfを1つのロングブロックで周波数領域に変換し、それ以外の場合は、ステップS204に進んで複数のショートブロックで変換する、と判定する。なお、グループ分けの詳細は図16のフローチャートに示したとおりである。
【0060】
具体例として、図3及び図4に加えて、フレームfのグループ分けの結果を示した図6を含めた例を考えるとする。ここでもswitch_pe_s=500とする。上述したように、図3及び図4に示す例では|SPE[f−1]−SPE[f]|=360<switch_pe_s=500なので、最終的にグループ分けの結果による判定に委ねられる。図6ではフレームfは3グループにグループ分けされている(ショートブロックi=0,1,2,3,4が第0グループ、i=5が第1グループ、i=6,7が第2グループ)ので、複数のショートブロックで変換する、と判定する。なお、ステップS205にて用いるロング/ショートの判定方法は、ここで用いたグループ分けの結果に基づく方法に限らず、他の判定方法を用いても構わない。また、図2及び図5においてswitch_pe_sを1つ定めたが、サンプリング周波数毎のswitch_pe_sの値の一例を示す図7のように入力音響信号のサンプリング周波数毎に定めておき、実際に入力される音響信号のサンプリング周波数に応じて図7を参照してswitch_pe_sの値を設定してもよい。
【0061】
次に、図8は本発明のシステム構成を示すブロック図である。つまり、同図は上記実施例におけるデジタル音響信号符号化方法によるソフトウェアを実行するマイクロプロセッサ等から構築するハードウェアを示すものである。同図において、デジタル音響信号符号化システムはインターフェース(以下I/Fと略す)81、CPU82、ROM83、RAM84、表示装置85、ハードディスク86、キーボード87及びCD−ROMドライブ88を含んで構成されている。また、汎用の処理装置を用意し、CD−ROM89などの読取可能な記録媒体には、本発明のデジタル音響信号符号化方法を実行するプログラムが記録されている。更に、I/F81を介して外部装置から制御信号が入力され、キーボード87によって操作者による指令又は自動的に本発明のプログラムが起動される。そして、CPU82は当該プログラムに従って上述のデジタル音響信号符号化方法に伴う符号化制御処理を施し、その処理結果をRAM84やハードディスク86等の記憶装置に格納し、必要により表示装置85などに出力する。以上のように、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【0062】
なお、本発明は上記実施例に限定されるものではなく、特許請求の範囲内に記載であれば多種の変形や置換可能であることは言うまでもない。
【0063】
【発明の効果】
以上説明したように、本発明によれば、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング/ショートブロック判定手段とを具備することに特徴がある。また、ロング/ショートブロック判定手段は、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング/ショートの判定ができるデジタル音響信号符号化装置を提供できる。
【0064】
また、別の発明として、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する判定手段とを具備することに特徴がある。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化装置を提供できる。
【0065】
更に、閾値を入力音響信号のサンプリング周波数毎に定めたことにより、入力音響信号のサンプリング周波数の違いに応じた適切なロング/ショートの判定ができる。
【0066】
また、別の発明としてのデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定する。また、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかの判定は、絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング/ショートの判定ができるデジタル音響信号符号化方法を提供できる。
【0067】
また、別のデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、絶対値が閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化方法を提供できる。
【0068】
更に、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【図面の簡単な説明】
【図1】本発明に係るデジタル音響信号符号化装置の構成を示すブロック図である。
【図2】本発明の第1の実施例に係るデジタル音響信号符号化方法の動作を示すフローチャートである。
【図3】第1の実施例における音響信号の一例の信号波形を示す図である。
【図4】ショートブロック別の時間的に連続する2つのフレーム内の知覚エントロピー値の関係を示す図である。
【図5】本発明の第2の実施例に係るデジタル音響信号符号化方法の動作を示すフローチャートである。
【図6】第2の実施例におけるグループ分けの一例を示す図である。
【図7】サンプリング周波数毎の閾値の一例を示す図である。
【図8】本発明のシステム構成を示すブロック図である。
【図9】音響信号とマスキング閾値及び絶対可聴閾値の強度分布を示す図である。
【図10】AACの符号化の基本的な構成を示すブロック図である。
【図11】MDCTの変換領域を示す図である。
【図12】変化の少ない信号波形の場合のMDCTの変換領域を示す図である。
【図13】変化の激しい信号波形の場合のMDCTの変換領域を示す図である。
【図14】グループ分けの一例を示す図である。
【図15】ISO/IEC13818−7におけるロング/ショートブロック判定動作を示すフローチャートである。
【図16】従来のデジタル音響信号符号化方法の動作を示すフローチャートである。
【図17】音響信号の一例の信号波形を示す図である。
【図18】ショートブロックに対する知覚エントロピーとの関係を示す図である。
【図19】別の従来のデジタル音響信号符号化方法の動作を示すフローチャートである。
【符号の説明】
11 ブロック分割手段、12 知覚エントロピー算出手段、
13 知覚エントロピー総和算出手段、14 比較手段、
15 ロング/ショートブロック判定手段、81 I/F、82 CPU、
83 ROM、84 RAM、85 表示装置、86 ハードディスク、
87 キーボード、88 CD−ROMドライブ、89 CD−ROM。
Claims (10)
- デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を1つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ1つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる1つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化装置において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、
該知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、
時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、
該比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング/ショートブロック判定手段と
を具備することを特徴とするデジタル音響信号符号化装置。 - 前記ロング/ショートブロック判定手段は、前記比較手段による比較結果で前記絶対値が前記閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する請求項1に記載のデジタル音響信号符号化装置。
- デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を1つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ1つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる1つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化装置において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、
該知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、
時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、
該比較手段による比較結果で前記絶対値が前記閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する判定手段と
を具備することを特徴とするデジタル音響信号符号化装置。 - 前記閾値は入力音響信号のサンプリング周波数毎に定めた値である請求項1〜3のいずれかに記載のデジタル音響信号符号化装置。
- デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を1つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ1つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる1つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化方法において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定することを特徴とするデジタル音響信号符号化方法。 - 入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかの判定は、前記絶対値が前記閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する請求項5に記載のデジタル音響信号符号化方法。
- デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を1つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ1つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる1つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化方法において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、前記絶対値が前記閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定することを特徴とするデジタル音響信号符号化方法。 - 前記閾値は入力音響信号のサンプリング周波数毎に定めた値である請求項5〜7のいずれかに記載のデジタル音響信号符号化装置。
- コンピュータにより、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を1つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ1つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる1つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するように実行するデジタル音響信号符号化プログラムを記録した媒体において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定する機能を有するデジタル音響信号符号化プログラムを記録した媒体。 - コンピュータにより、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を1つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ1つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる1つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するように実行するデジタル音響信号符号化プログラムを記録した媒体において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する2つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、前記絶対値が前記閾値より大きい場合時間的に連続する2つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する機能を有するデジタル音響信号符号化プログラムを記録した媒体。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22205499A JP3762579B2 (ja) | 1999-08-05 | 1999-08-05 | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
EP00116221A EP1074976B1 (en) | 1999-08-05 | 2000-08-04 | Block switching based subband audio coder |
DE60015030T DE60015030T2 (de) | 1999-08-05 | 2000-08-04 | Auf Block Umschaltung basierender Teilband-Audiokodierer |
US09/633,290 US6799164B1 (en) | 1999-08-05 | 2000-08-04 | Method, apparatus, and medium of digital acoustic signal coding long/short blocks judgement by frame difference of perceptual entropy |
KR1020000045308A KR100348368B1 (ko) | 1999-08-05 | 2000-08-04 | 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체 |
ES00116221T ES2231090T3 (es) | 1999-08-05 | 2000-08-04 | Codificador de audio con sub-bandas basado en la conmutacion de bloques. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22205499A JP3762579B2 (ja) | 1999-08-05 | 1999-08-05 | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001053617A JP2001053617A (ja) | 2001-02-23 |
JP3762579B2 true JP3762579B2 (ja) | 2006-04-05 |
Family
ID=16776386
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22205499A Expired - Fee Related JP3762579B2 (ja) | 1999-08-05 | 1999-08-05 | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6799164B1 (ja) |
EP (1) | EP1074976B1 (ja) |
JP (1) | JP3762579B2 (ja) |
KR (1) | KR100348368B1 (ja) |
DE (1) | DE60015030T2 (ja) |
ES (1) | ES2231090T3 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7006555B1 (en) | 1998-07-16 | 2006-02-28 | Nielsen Media Research, Inc. | Spectral audio encoding |
US7035873B2 (en) | 2001-08-20 | 2006-04-25 | Microsoft Corporation | System and methods for providing adaptive media property classification |
US7065416B2 (en) * | 2001-08-29 | 2006-06-20 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to melodic movement properties |
US7532943B2 (en) * | 2001-08-21 | 2009-05-12 | Microsoft Corporation | System and methods for providing automatic classification of media entities according to sonic properties |
WO2002056297A1 (en) * | 2001-01-11 | 2002-07-18 | Sasken Communication Technologies Limited | Adaptive-block-length audio coder |
JP4141235B2 (ja) * | 2002-02-08 | 2008-08-27 | 株式会社リコー | 画像補正装置及びプログラム |
US20030215013A1 (en) * | 2002-04-10 | 2003-11-20 | Budnikov Dmitry N. | Audio encoder with adaptive short window grouping |
US7426462B2 (en) * | 2003-09-29 | 2008-09-16 | Sony Corporation | Fast codebook selection method in audio encoding |
US7283968B2 (en) * | 2003-09-29 | 2007-10-16 | Sony Corporation | Method for grouping short windows in audio encoding |
US7349842B2 (en) * | 2003-09-29 | 2008-03-25 | Sony Corporation | Rate-distortion control scheme in audio encoding |
US7325023B2 (en) | 2003-09-29 | 2008-01-29 | Sony Corporation | Method of making a window type decision based on MDCT data in audio encoding |
US7516064B2 (en) * | 2004-02-19 | 2009-04-07 | Dolby Laboratories Licensing Corporation | Adaptive hybrid transform for signal analysis and synthesis |
DE102004009949B4 (de) * | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
US7436969B2 (en) * | 2004-09-02 | 2008-10-14 | Hewlett-Packard Development Company, L.P. | Method and system for optimizing denoising parameters using compressibility |
US7627481B1 (en) | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
JP5118022B2 (ja) | 2005-05-26 | 2013-01-16 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の符号化/復号化方法及び符号化/復号化装置 |
EP1913578B1 (en) | 2005-06-30 | 2012-08-01 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
US7411528B2 (en) | 2005-07-11 | 2008-08-12 | Lg Electronics Co., Ltd. | Apparatus and method of processing an audio signal |
US7565018B2 (en) * | 2005-08-12 | 2009-07-21 | Microsoft Corporation | Adaptive coding and decoding of wide-range coefficients |
WO2007055462A1 (en) | 2005-08-30 | 2007-05-18 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007040358A1 (en) | 2005-10-05 | 2007-04-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7646319B2 (en) | 2005-10-05 | 2010-01-12 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
US7672379B2 (en) | 2005-10-05 | 2010-03-02 | Lg Electronics Inc. | Audio signal processing, encoding, and decoding |
US7696907B2 (en) | 2005-10-05 | 2010-04-13 | Lg Electronics Inc. | Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor |
KR100878828B1 (ko) * | 2005-10-05 | 2009-01-14 | 엘지전자 주식회사 | 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치 |
US7653533B2 (en) | 2005-10-24 | 2010-01-26 | Lg Electronics Inc. | Removing time delays in signal paths |
JP2007183528A (ja) * | 2005-12-06 | 2007-07-19 | Fujitsu Ltd | 符号化装置、符号化方法、および符号化プログラム |
US7752053B2 (en) | 2006-01-13 | 2010-07-06 | Lg Electronics Inc. | Audio signal processing using pilot based coding |
US20090144054A1 (en) * | 2007-11-30 | 2009-06-04 | Kabushiki Kaisha Toshiba | Embedded system to perform frame switching |
US9313359B1 (en) | 2011-04-26 | 2016-04-12 | Gracenote, Inc. | Media content identification on mobile devices |
US11706481B2 (en) | 2012-02-21 | 2023-07-18 | Roku, Inc. | Media content identification on mobile devices |
EP2830065A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency |
WO2016142002A1 (en) | 2015-03-09 | 2016-09-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal |
US9943253B2 (en) * | 2015-03-20 | 2018-04-17 | Innovo IP, LLC | System and method for improved audio perception |
WO2019007969A1 (en) * | 2017-07-03 | 2019-01-10 | Dolby International Ab | DETECTION AND CODING OF LOW COMPLEXITY DENSED TRANSIENT EVENTS |
JP7257975B2 (ja) * | 2017-07-03 | 2023-04-14 | ドルビー・インターナショナル・アーベー | 密集性の過渡事象の検出及び符号化の複雑さの低減 |
US10922139B2 (en) | 2018-10-11 | 2021-02-16 | Visa International Service Association | System, method, and computer program product for processing large data sets by balancing entropy between distributed data segments |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
EP0720316B1 (en) * | 1994-12-30 | 1999-12-08 | Daewoo Electronics Co., Ltd | Adaptive digital audio encoding apparatus and a bit allocation method thereof |
EP0721257B1 (en) * | 1995-01-09 | 2005-03-30 | Daewoo Electronics Corporation | Bit allocation for multichannel audio coder based on perceptual entropy |
US5699479A (en) * | 1995-02-06 | 1997-12-16 | Lucent Technologies Inc. | Tonality for perceptual audio compression based on loudness uncertainty |
GB9819920D0 (en) * | 1998-09-11 | 1998-11-04 | Nds Ltd | Audio encoding system |
-
1999
- 1999-08-05 JP JP22205499A patent/JP3762579B2/ja not_active Expired - Fee Related
-
2000
- 2000-08-04 EP EP00116221A patent/EP1074976B1/en not_active Expired - Lifetime
- 2000-08-04 KR KR1020000045308A patent/KR100348368B1/ko not_active IP Right Cessation
- 2000-08-04 DE DE60015030T patent/DE60015030T2/de not_active Expired - Lifetime
- 2000-08-04 ES ES00116221T patent/ES2231090T3/es not_active Expired - Lifetime
- 2000-08-04 US US09/633,290 patent/US6799164B1/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR100348368B1 (ko) | 2002-08-10 |
US6799164B1 (en) | 2004-09-28 |
KR20010021226A (ko) | 2001-03-15 |
EP1074976A3 (en) | 2001-06-27 |
DE60015030D1 (de) | 2004-11-25 |
DE60015030T2 (de) | 2005-11-10 |
EP1074976A2 (en) | 2001-02-07 |
EP1074976B1 (en) | 2004-10-20 |
JP2001053617A (ja) | 2001-02-23 |
ES2231090T3 (es) | 2005-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3762579B2 (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
JP3739959B2 (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
JP5539203B2 (ja) | 改良された音声及びオーディオ信号の変換符号化 | |
US9305558B2 (en) | Multi-channel audio encoding/decoding with parametric compression/decompression and weight factors | |
US8615391B2 (en) | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same | |
US9443525B2 (en) | Quality improvement techniques in an audio encoder | |
US7668711B2 (en) | Coding equipment | |
KR101162275B1 (ko) | 오디오 신호 처리 방법 및 장치 | |
JP4767687B2 (ja) | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 | |
JP4021124B2 (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
JP2000515266A (ja) | オーディオ信号コーディング中にノイズ置換を信号で知らせる方法 | |
JP2004199075A (ja) | ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置 | |
JP3813025B2 (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
JP2000206990A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
KR100590340B1 (ko) | 디지털 오디오 부호화 방법 및 장치 | |
JP2000276198A (ja) | デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体 | |
JPH0746137A (ja) | 音声高能率符号化装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041124 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060104 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060113 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100120 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110120 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120120 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130120 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140120 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |