JP3762579B2

JP3762579B2 - デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体

Info

Publication number: JP3762579B2
Application number: JP22205499A
Authority: JP
Inventors: 禎史荒木
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1999-08-05
Filing date: 1999-08-05
Publication date: 2006-04-05
Anticipated expiration: 2019-08-05
Also published as: KR100348368B1; US6799164B1; KR20010021226A; EP1074976A3; DE60015030D1; DE60015030T2; EP1074976A2; EP1074976B1; JP2001053617A; ES2231090T3

Description

【０００１】
【発明の属する技術分野】
本発明はデジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体に関し、特に例えばＤＶＤ、デジタル放送等に利用するデジタル音響信号の圧縮・符号化に関する。
【０００２】
【従来の技術】
従来より、デジタル音響信号の高品質圧縮・符号化においては、人間の聴覚心理特性が利用されている。その特性は、小さな音が大きな音によってマスキングされて聴こえなくなるというものである。即ち、ある周波数で大きな音が発生すると、その近傍の周波数の小さな音はマスクされて人間の耳には感知されなくなる。ここで、マスクされて聴こえなくなる限界の強度をマスキング閾値という。一方、人間の耳はマスキングとは無関係に、４ｋＨｚ付近の音に対して最も感度が良く、それより上下の帯域になればなるほど次第に感度が悪くなっていくという性質もある。この性質は、静寂な状況で音を感知し得る限界の強度として表され、これを絶対可聴閾値という。
【０００３】
これらのことを音響信号の強度分布を示す図９に従って説明する。太い実線（Ａ）が音響信号の強度分布、点線（Ｂ）がこの音響信号に対するマスキング閾値、そして、細い実線（Ｃ）が絶対可聴閾値を、それぞれ表す。同図に示すように、人間の耳には、音響信号に対するマスキング閾値及び絶対可聴閾値よりも大きな強度の音のみ感知できる。従って、音響信号の強度分布の中で、音響信号に対するマスキング閾値及び絶対可聴閾値よりも大きな部分の情報のみを取りだしても、聴覚的には元の音響信号と同じように感じられるのである。
【０００４】
このことは、音響信号の符号化においては、図９の斜線で示した部分のみに符号化ビットを割り当てることと等価である。ただし、ここでのビット割り当ては、音響信号の全体域を複数の小帯域に分割して、その分割帯域（Ｄ）の単位で行っている。各斜線の領域の横幅は、その分割体域幅に相当する。
【０００５】
各分割帯域で、斜線領域の下限の強度以下の音は耳に聴こえない。よって、原音と符号／復号化音の強度の誤差がこの下限を超えなければ両者の差を感知できない。その意味で、この下限の強度を許容誤差強度と呼ぶ。音響信号を量子化して圧縮するに際し、原音に対する符号／復号化音の量子化誤差強度が許容誤差強度以下になるように量子化すれば、原音の音質を損なわずに音響信号を圧縮できる。よって、図９の斜線領域のみに符号化ビットを割り当てるということは、各分割帯域での量子化誤差強度がちょうど許容誤差強度になるように量子化することと等価である。
【０００６】
この音響信号の符号化方式としては、ＭＰＥＧ（ＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）ＡｕｄｉｏやＤｏｌｂｙＤｉｇｉｔａｌ等があるが、いずれもここで説明したような性質を用いている。その中で、現在最も符号化効率がよいとされているのが、ＩＳＯ／ＩＥＣ１３８１８−７にて標準化されているＭＰＥＧ−２ＡｕｄｉｏＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ）という方式である。
【０００７】
図１０はＡＡＣの符号化の基本的な構成を示すブロック図である。同図において、聴覚心理モデル部１０１は時間軸に沿ってブロック化された入力音響信号の各分割帯域毎に許容誤差強度を算出する。一方、同じくブロック化された入力信号に対して、ゲインコントロール１０２及びフィルタバンク１０３ではＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）による周波数領域への変換を行い、ＴＮＳ（ＴｅｍｐｏｒａｌＮｏｉｓｅＳｈａｐｉｎｇ）１０４、予測器１０６では予測符号化、そしてインテンシティ／カップリング１０５及びＭＳステレオ（ＭｉｄｄｌｅＳｉｄｅＳｔｅｒｅｏ）（以下Ｍ／Ｓと略す）１０７は、ステレオ相関符号化処理を、それぞれ行う。その後、正規化係数１０８を決定し、量子化器１０９ではその正規化係数１０８を基に音響信号を量子化する。この正規化係数は図９の許容誤差強度に対応するもので、各分割帯域毎に定められる。量子化後、ノイズレスコーディング１１０では予め定められたハフマン符号表に基づいて、正規化係数と量子化値にそれぞれハフマン符号を与えてノイズレスコーディングを行い、最後にマルチプレクサ１１１にて符号ビットストリームを形成する。
【０００８】
さて、上述のフィルタバンク１０３におけるＭＤＣＴとは、図１１に示すように時間軸に沿って変換領域を５０％ずつオーバーラップさせながらＤＣＴを施すものである。これによって、各変換領域の境界部での歪みの発生が抑えられる。また、生成されるＭＤＣＴ係数の数は変換領域のサンプル数の半分である。ＡＡＣでは入力音響信号ブロックに対して、２０４８サンプルの長い変換領域（ロングブロック）、又は各２５６サンプルの８個の短い変換領域（ショートブロック）のいずれかを適用する。よって、ＭＤＣＴ係数の数はロングの場合は１０２４、ショートでは１２８となる。ショートブロックは常に８ブロックを連続して適用することにより、ロングブロックを用いた場合とＭＤＣＴ係数の数を合わせるようになっている。
【０００９】
一般に、図１２のように信号波形の変化の少ない定常的な部分にはロングブロックを、図１３のように変化の激しいアタック部にはショートブロックを用いる。この両者の使い分けは重要で、もし図１３のような信号にロングブロックを適用すると、本来のアタックの前にプリエコーとよばれるノイズが発生する。また、図１２のような信号にショートブロックを適用すると、周波数領域での解像度の不足から適切なビット割り当てがなされずに符号化効率が低下し、やはりノイズが発生し、特に低周波数の音に対しては顕著である。
【００１０】
ショートブロックについては、さらに、グループ分けの問題がある。グループ分けとは、上記の８つのショートブロックを、正規化係数の同じ連続するブロックごとにまとめてグループ化することである。グループ内で正規化係数を共通化することで、情報量の削減効果が上がる。具体的には、図１０のノイズレスコーディング１１０にて正規化係数にハフマン符号を割り当てる際に、各ショートブロック単位ではなく、グループ単位で割り当てるのである。図１４にグループ分けの一例を示す。ここではグループ数が３で、各グループ内のブロック数は、最初の第０グループでは５、次の第１グループでは１、最後の第２グループでは２、となっている。グループ分けを適切に行わないと、符号量の増加や音質の低下を招く。グループの分割数が多きすぎると、本来共通化できるはずの正規化係数を重複して符号化することになり、符号化効率が低下する。逆に、グループ数が少なすぎると、音響信号の変化が激しいにも拘わらず共通の正規化係数で量子化することになるので、音質が低下する。なお、ＩＳＯ／ＩＥＣ１３８１８−７では、グループ分けに関して、符号のシンタクスの規定はあるものの、具体的なグループ分けの基準や手法については考慮されていない。
【００１１】
前述のように、符号化に際しては入力音響信号ブロックに対して適切にロングブロックとショートブロックを区別して適用しなければならない。このロング／ショートの判定を行うのは図１０の聴覚心理モデル部１０１である。ＩＳＯ／ＩＥＣ１３８１８−７では、聴覚心理モデル部１０１における、各着目ブロックに対するロング／ショートの判定方法の一例が示されている。その判定処理の概要を以下に説明する。
【００１２】
ステップ１：音響信号の再構築
ロングブロック用に１０２４サンプル（ショートブロック用には１２８サンプル）を新たに読み込み、前ブロックにて既に読み込んでいる１０２４サンプル（１２８サンプル）と合わせて２０４８サンプル（２５６サンプル）の信号系列を再構築する。
【００１３】
ステップ２：ハン窓の掛け合わせとＦＦＴ
ステップ１にて構築した２０４８サンプル（２５６サンプル）の音響信号にハン窓を掛け合わせ、さらに、ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）を施して１０２４個（１２８個）のＦＦＴ係数を算出する。
【００１４】
ステップ３：ＦＦＴ係数の予測値の計算
先行する２ブロック分のＦＦＴ係数の実数部と虚数部から、現在着目しているブロックのＦＦＴ係数の実数部と虚数部を予測し、それぞれ１０２４個（１２８個）の予測値を算出する。
【００１５】
ステップ４：非予測可能性値の計算
ステップ２にて算出した各ＦＦＴ係数の実数部と虚数部と、ステップ３にて算出した各ＦＦＴ係数の実数部と虚数部の予測値から、それぞれの非予測可能性値を算出する。ここで、非予測可能性値は０から１の間の値をとり、０に近いほど音響信号の純音性が高く、１に近いほど雑音性が高い、言い替えれば純音性が低いことを示す。
【００１６】
ステップ５：各分割帯域での音響信号の強度と非予測可能性値の計算
ここでの分割帯域は、図９で示したものに相当する。各分割帯域毎に、ステップ２にて算出した各ＦＦＴ係数を基にして音響信号の強度を算出する。さらに、ステップ４にて算出した非予測可能性値を強度で重み付けして、各分割帯域毎の非予測可能性値を算出する。
【００１７】
ステップ６：広がり関数を掛けた強度と非予測可能性値の畳み込み
各分割帯域における他の分割帯域の音響信号強度及び非予測可能性値の影響を広がり関数で求め、それぞれを畳み込んで正規化する。
【００１８】
ステップ７：純音性指標の計算
各分割帯域ｂにおいて、ステップ６にて算出した畳み込み非予測可能性値（ｃｂ（ｂ））を基に、純音性指標ｔｂ（ｂ）（＝−０．２９９−０．４３ｌｏｇ_e（ｃｂ（ｂ）））を算出する。さらに、純音性指標を０から１の間に制限する。ここで、指標が１に近いほど音響信号の純音性が高く、０に近いほど雑音性が高いことを示す。
【００１９】
ステップ８：Ｓ／Ｎ比の計算
各分割帯域において、ステップ７にて算出した純音性指標を基に、Ｓ／Ｎ比を算出する。ここで、一般に雑音成分のほうが純音成分よりもマスキング効果が大きいという性質を利用する。
【００２０】
ステップ９：強度比の計算
各分割帯域において、ステップ８にて算出したＳ／Ｎ比を基に、畳み込み音響信号強度とマスキング閾値の比を算出する。
【００２１】
ステップ１０：許容誤差強度の計算
各分割帯域において、ステップ６にて算出した畳み込み音響信号強度と、ステップ９にて算出した音響信号強度とマスキング閾値の比を基に、マスキング閾値を算出する。
【００２２】
ステップ１１：プリエコー調整と絶対可聴閾値の考慮
各分割帯域において、ステップ１０にて算出したマスキング閾値を、前ブロックでの許容誤差強度を用いてプリエコー調整する。さらに、この調整値と絶対可聴閾値の大きい方の値を、現ブロックでの許容誤差強度とする。
【００２３】
ステップ１２：知覚エントロピーの計算
ロングブロック用とショートブロック用のそれぞれについて、式（１）で定義される知覚エントロピー（ＰｅｒｃｅｐｔｕａｌＥｎｔｒｏｐｙ（ＰＥ））を算出する。
【００２４】
【数１】

【００２５】
ただし、ｗ（ｂ）は分割帯域ｂの幅、ｎｂ（ｂ）はステップ１１にて算出した分割帯域ｂにおける許容誤差強度、ｅ（ｂ）はステップ５にて算出した分割帯域ｂにおける音響信号の強度、をそれぞれ示す。ここで、ＰＥは図９におけるビット割り当て領域（斜線領域）の面積の総和に対応すると考えられる。
【００２６】
ステップ１３：ロング／ショートブロックの判定（図１５に示すロング／ショートブロック判定動作フローを参照）
ステップ１２にて算出したロングブロック用のＰＥの値（ステップＳ１０）が、予め定められた定数（ｓｗｉｔｃｈ＿ｐｅ）より大きい場合は、着目ブロックをショートブロックと判定し（ステップＳ１１，Ｓ１２）、小さい場合はロングブロックと判定する（ステップＳ１１，Ｓ１３）。ここで、ｓｗｉｔｃｈ＿ｐｅはアプリケーションに依存して決められる値である。
【００２７】
以上が、ＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートの判定方法である。ところが、上述のＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートブロックの判定方法では、必ずしも適切な判定がなされない。つまり、本来ショートと判定すべき部分をロングと判定して（またはその逆で）、音質の劣化を生じる場合がある。
【００２８】
一方、特開平９−２３２９６４号公報では、入力信号を所定区間毎に取り込んで２乗和をそれぞれ求め、各区間毎に２乗和された信号の少なくとも２以上の区間にわたる変化度によって上記信号の過渡状態を検出するように過渡状態検出回路２を構成し、直交変換処理やフィルタ処理を行わずに、時間軸上の入力信号の２乗和計算を行うだけで過渡状態、即ち、ロング／ショートが変化する部分を検出することができるようにしている。この方法では入力信号の２乗和のみを用いて、知覚エントロピーを考慮していないので、必ずしも聴覚上の特性に合致した判定ができず、音質が劣化する恐れがある。
【００２９】
そこで、同一グループ内の各ショートブロックに関する知覚エントロピーの最大値と最小値の差が予め定められた閾値より小さくなるように入力音響信号ブロックをグループ分けし、その結果、グループ数が１の場合、又はこれと他の条件を満足する場合は入力音響信号ブロックを１つのロングブロックで周波数領域に変換し、それ以外の場合は複数のショートブロックで変換するという方法がある。この方法について動作フローを示す図１６に従って以下に説明する。なお、入力音響信号の例として、図１７の音響データを用い、図１７では連続する８つの各ショートブロックに対応する通し番号を付している。
【００３０】
先ず、入力された音響信号は連続する８つのショートブロックに分割される。そして、この８つのショートブロックの知覚エントロピーをそれぞれ計算し、これらを順にＰＥ（ｉ）（０≦ｉ≦７）とする（ステップＳ２０）。この計算は、上述のＩＳＯ／ＩＥＣ１３８１８−７における各着目ブロックに対するロング／ショートの判定方法のステップ１からステップ１２にて説明した方法を各ショートブロックに対して行うことで実現する。次に、ｇｒｏｕｐ＿ｌｅｎ［０］＝１，ｇｒｏｕｐ＿ｌｅｎ［ｇｎｕｍ］＝０（０≦ｇｎｕｍ≦７）と初期化する（ステップＳ２１）。ここで、ｇｎｕｍはグループ分におけるグループの通し番号、ｇｒｏｕｐ＿ｌｅｎ［ｇｎｕｍ］は第ｇｎｕｍグループ内に含まれるショートブロックの数、をそれぞれ表す。そして、ｇｎｕｍ＝０，ｍｉｎ＝ＰＥ（０），ｍａｘ＝ＰＥ（０）とそれぞれ初期化する（ステップＳ２２）。このｍｉｎ，ｍａｘは、ＰＥ（ｉ）の最小値、最大値をそれぞれ表す。図１８により、ここでは、ｍｉｎ＝１１０，ｍａｘ＝１１０となる。さらに、インデックスｉをｉ＝１と初期化する（ステップＳ２３）。このインデックスはショートブロックの通し番号に対応する。
【００３１】
次に、ＰＥ（ｉ）によってｍｉｎ、又はｍａｘの更新をする。即ち、ＰＥ（ｉ）＜ｍｉｎならｍｉｎ＝ＰＥ（ｉ）、ＰＥ（ｉ）＞ｍａｘならｍａｘ＝ＰＥ（ｉ）とする（ステップＳ２４）。図１８の例では、ＰＥ（１）＝９６なので、ｍｉｎ＝９６、ｍａｘ＝１１０となる。そして、グループ分けの判定をする（ステップＳ２５）。即ち、求めたｍａｘ−ｍｉｎが予め定められた閾値ｔｈと比較されて当該閾値ｔｈ以上の場合は、ショートブロックｉ−１とｉの間でグループ分けを行うためにステップＳ２６に進み、ｔｈより小さい場合は、ショートブロックｉ−１とｉが同一グループに含まれると判定してステップＳ２７に進むのである。この例ではｔｈ＝５０としておく。即ち、同一のグループに含まれる各ショートブロックのＰＥ（ｉ）の最大値と最小値の差が５０より小さくなるように、グループ分けするということである。ｉ＝１のときは、ｍａｘ−ｍｉｎ＝１１０−９６＝１４＜５０＝ｔｈなので、ショートブロック０と１は同一グループに含まれると判定されてステップＳ２７へ進む。なお、ここではｇｎｕｍ＝０なので、ショートブロック０と１は第０グループに含まれる。そして、ｇｒｏｕｐ＿ｌｅｎ［ｇｎｕｍ］の値を１だけインクリメントする（ステップＳ２８）。これは、第ｇｎｕｍグループに含まれるショートブロックの数を１だけ増やすということである。この例では、ステップＳ２１，Ｓ２２でｇｎｕｍ＝０かつｇｒｏｕｐ＿ｌｅｎ［０］＝１と初期化されているので、ステップＳ２７ではｇｒｏｕｐ＿ｌｅｎ［０］＝２となる。これは、第０グループに含まれるショートブロックとしてブロック０，１の２つのブロックが既に確定していることに対応する。
【００３２】
次に、インデックスｉを１だけインクリメントし（ステップＳ２８）、ｉが７より小さい場合はステップＳ２４へ戻る（ステップＳ２９）。この例ではｉ＝２＜７となるのでステップＳ２４へ戻る。
【００３３】
その後、以上で説明したのと同様の動作がｉ＝４まで続く。ｉ＝４のときは、図１８より、図１６のステップＳ２４にてｍｉｎ＝９６，ｍａｘ＝１３７となるので、ステップＳ２５ではｍａｘ−ｍｉｎ＝４１＜５０＝ｔｈと判定され、やはり、ステップＳ２５からそのままステップＳ２７へ進む。そして、ステップＳ２７にて、ｇｒｏｕｐ＿ｌｅｎ［０］＝５となる。これは即ち、第０グループに含まれるショートブロックとしてブロック０，１，２，３，４の５つのブロックが確定したことに対応する。そして、ステップＳ２８にてｉ＝５となった後、ステップＳ２９を経て再びステップＳ２４に戻ると、今度はＰＥ（５）＝１５２なのでｍｉｎ＝９６，ｍａｘ＝１５２となる。すると、ステップＳ２５ではｍａｘ−ｍｉｎ＝５６＞５０＝ｔｈと判定されるので、ステップＳ２６へ進む。これはショートブロック４と５の間でグループ分けを行うことを意味する。ステップＳ２６ではｇｎｕｍの値を１だけインクリメントし、かつ、ｍｉｎ，ｍａｘをそれぞれ最新のＰＥ（ｉ）に置き換える。ここでは、ｇｎｕｍ＝１，ｍｉｎ＝１５２，ｍａｘ＝１５２となる。ｇｎｕｍ＝１はショートブロック５が含まれるグループが第１グループであることに対応する。
【００３４】
次に、ステップＳ２７でｇｒｏｕｐ＿ｌｅｎ［１］を１だけインクリメントする。ｇｒｏｕｐ＿ｌｅｎ［１］はステップＳ２１にて０に初期化されていたので、ここで改めてｇｒｏｕｐ＿ｌｅｎ［１］＝１となる。これは、第１グループに含まれるショートブロックとしてブロック５の１つのブロックが確定したことに対応する。
【００３５】
以下同様に、図１６のステップＳ２８でｉ＝６となり、ステップＳ２９からまたステップＳ２４へ戻ると、今度は図１８よりＰＥ（６）＝２６９なので、ｍｉｎ＝１５２，ｍａｘ＝２６９となり、ステップＳ８５にてｍａｘ−ｍｉｎ＝１１７＞５０と判定され、ステップＳ２６へ進む。つまり、ショートブロック５と６の間でもグループ分けがなされるのである。そして、ステップＳ２６にてｇｎｕｍ＝２，ｍｉｎ＝２６９，ｍａｘ＝２６９となり、さらにステップＳ２７でｇｒｏｕｐ＿ｌｅｎ［２］＝１となる。そして、ステップＳ２８でｉ＝７とした後これまでと同様に、ステップＳ２４でＰＥ（７）＝２３１なので、ｍｉｎ＝２３１，ｍａｘ＝２６９となり、ステップＳ２５にてｍａｘ−ｍｉｎ＝３８＜５０と判定され、ステップＳ２７へ進む。つまり、ショートブロック６と７はいずれも第２グループに含まれる。これに対応して、ステップＳ２７でｇｒｏｕｐ＿ｌｅｎ［２］＝２となる。さて、次のステップＳ２８でｉ＝８となるとステップＳ２９の判定により、ステップＳ３０へ進む。これで、８つのショートブロック全てについてのグループ分けが完了したことになる。
【００３６】
この例では、結局、ｇｎｕｍ＝２，ｇｒｏｕｐ＿ｌｅｎ［０］＝５，ｇｒｏｕｐ＿ｌｅｎ［１］＝１，ｇｒｏｕｐ＿ｌｅｎ［２］＝２となる。即ち、グループの数は３で、各グループに含まれるショートブロックの数は、第０グループが５、第１グループが１、第２グループが２という結果である。これは、図１４に示したグループ分けの例と同様のものである。
【００３７】
しかし、この方法でも適切なロング／ショートの判定ができない場合が存在する。それは、低周波成分に純音性の高い成分を含む音響データを符号化する場合がある。ショートブロックによる変換は時間領域での解像度が増す反面、周波数領域での解像度は低下する。一方、人間の耳は低周波数領域で高い解像度のマスキング特性を有し、特に純音性の高い音響データに対しては非常に狭い周波数帯域のみがマスキングされる。
【００３８】
ところが、低周波成分に純音性の高い成分を含む音響データをショートブロックで変換すると、ショートブロックに起因する周波数領域での解像度の不足によってもとの音響データのエネルギーが周辺の周波数帯域に分散し、それが人間の耳の低周波成分におけるマスキングの幅を超えて広がることで、結果的に音質の劣化を感じてしまう。このことは、単にショートブロックに関する知覚エントロピーのみに基づいてロング/ショートの判定を行うのは不十分であり、さらに、音響データの純音性とマスキング特性の周波数依存性を組み合わせて考慮する必要があることを示している。
【００３９】
そこで、我々は次に、入力音響信号フレームを複数のショートブロックに分割し、それぞれのショートブロックについて、予め定めた1つまたは複数の分割帯域に含まれる音響成分の純音性指標が、分割帯域毎に予め定めた閾値より大きいかどうかを判定し、前記予め定めた1つまたは複数の分割帯域の全てにおいて純音性指標が前記予め定めた閾値より大きいようなショートブロックが少なくとも1つ存在する場合は、入力音響信号フレームを1つのロングブロックで周波数領域に変換すると判定する、という方法を出願した。この方法の具体的な実現例をフローチャートで表したものが図１９である。
【００４０】
図１９はデジタル音響信号符号化装置の動作を示すフローチャートである。以下、両図を用いて本実施例の具体的な動作を説明する。その際、入力音響信号の例として、図１７の音響データを用いるが、図１７では連続する８つの各ショートブロックに対応する通し番号を付している。
【００４１】
先ず、入力された音響信号は連続する８つのショートブロックｉ（０≦ｉ≦７）に関し、各分割帯域ｓｆｂでの純音性指標をそれぞれ計算し、これらをｔｂ［ｉ］［ｓｆｂ］とする（ステップＳ４０）。ここで、ｓｆｂは図１７に示すように、各分割帯域を識別するための通し番号である。なお、この純音性指標の計算は、上述ＩＳＯ／ＩＥＣ１３８１８−７における各着目ブロックに対するロング／ショートの判定ステップの内ステップ７にて説明した方法による。次に、ｔｏｎａｌ＿ｆｌａｇ＝０と初期化する（ステップＳ４１）。更に、ショートブロックの通し番号ｉをｉ＝０と初期化する（ステップＳ４２）。そして、ショートブロックｉに関し、予め定めた１つ又は複数の分割領域において各純音性指標がそれぞれの分割帯域について予め定めた閾値より大きいかどうかを調べる（ステップＳ４３）。図１９の例では、ｓｆｂ＝７，８，９である分割領域に関して調べており、それぞれ純音性指標の閾値を、ｔｈ７，ｔｈ８，ｔｈ９としている。
【００４２】
さて、ここにおける例では、それぞれのショートブロックｉに関し、ｓｔｂ＝７，８，９における純音性指標の値が図５に示したようなものであったとする。また、ｔｈ７＝０．６，ｔｈ８＝０．９，ｔｈ９＝０．８と定められているものとする。すると、最初のｉ＝０のときは、ｔｂ［０］［７］＝０．１２＜０．６＝ｔｈ７，ｔｂ予［０］［８］＝０．０８＜０．９＝ｔｈ８，ｔｂ［０］［９］＝０．１５＜０．８＝ｔｈ９なので、ステップＳ４３における判定はｎｏとなり、次のステップＳ１０６に進む。そして、ｉの値が１つだけインクリメントされてｉ＝１となり、ステップＳ４６の判定を経て、再びステップＳ４３に戻る。
【００４３】
その後、以上説明した動作と同様の動作がｉ＝５まで続く。ｉ＝６となった後（ステップＳ４５）、ステップＳ４６を経て再びステップＳ４３に戻る。今後は、ｔｂ［６］［７］＝０．６７＞０．６＝ｔｈ７，ｔｂ［６］［８］＝０．９５＞０．９＝ｔｈ８，ｔｂ［６］［９］＝０．８９＞０．８＝ｔｈ９なので、ステップＳ４３における判定はｙｅｓとなり、ステップＳ４４に進む。そして、ｔｏｎａｌ＿ｆｌａｇ＝１となる（ステップＳ４４）。次に、ｉ＝７となり（ステップＳ４５）、ステップＳ４６を経てまたステップＳ４３へ戻る。ｉ＝７ではｔｂ［７］［７］＝０．４２＜０．６＝ｔｈ７，ｔｂ［７］［８］＝０．８４＜０．９＝ｔｈ８，ｔｂ［７］［９］＝０．８１＞０．８＝ｔｈ９なので、ステップＳ４３の判定はｎｏであり、ステップＳ４５へ進む。一方、ｔｏｎａｌ＿ｆｌａｇ＝１のまま変わらない。そして、ｉ＝８となった後（ステップＳ４５）、ステップＳ４６の判定を経て今度はステップＳ４７へ進む。そして、ｔｏｎａｌ＿ｆｌａｇの値を調べる（ステップＳ４７）。この例ではｔｏｎａｌ＿ｆｌａｇ＝１なので判定はｙｅｓとなりステップＳ４８へ進む。よって、入力された音響ブロックを１つのロングブロックによってＭＤＣＴ変換するものと判定される。
【００４４】
【発明が解決しようとする課題】
しかしながら、これらの方法でも、適切にロング／ショートの判定が無されない場合がある。それは、本来ショートブロックで変換するのが普通であるにもかかわらず、上記従来例のグループ分けの結果が１グループとなるため、ロングブロックと判定されてしまうような場合がある。また、図９によれば、４ｋＨｚ以上の領域で入力音響信号のサンプリング周波数が小さくなるほど、絶対可聴閾値の寄与度は低下するので、ビット割り当て領域（図９での斜線領域）の面積は相対的に増大する。その結果、上述のＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートブロックの判定方法におけるステップ１２で計算した知覚エントロピー（ＰＥ）の値も大きくなっていく。ところが、各ショートブロックの知覚エントロピーの合計値の差に関する閾値が、サンプリング周波数によらずに共通の値であると、あるサンプリング周波数では適切にロング／ショートの判定ができても、他の周波数の場合は適切に判定できないという問題点が生じる。
【００４５】
本発明はこれらの問題点を解決するためのものであり、入力音響信号のサンプリング周波数の違いにも対応して、音質が劣化しないように適切にショートブロックをグループ分けし、かつロング／ショートの別が判別できる、デジタル音響信号装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体を提供することを目的とする。
【００４６】
【課題を解決するための手段】
本発明は前記問題点を解決するために、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング／ショートブロック判定手段とを具備することに特徴がある。また、ロング／ショートブロック判定手段は、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング／ショートの判定ができるデジタル音響信号符号化装置を提供できる。
【００４７】
また、別の発明として、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する判定手段とを具備することに特徴がある。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化装置を提供できる。
【００４８】
更に、閾値を入力音響信号のサンプリング周波数毎に定めたことにより、入力音響信号のサンプリング周波数の違いに応じた適切なロング／ショートの判定ができる。
【００４９】
また、別の発明としてのデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定する。また、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかの判定は、絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング／ショートの判定ができるデジタル音響信号符号化方法を提供できる。
【００５０】
また、別のデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化方法を提供できる。
【００５１】
更に、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【００５２】
【発明の実施の形態】
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング／ショートブロック判定手段とを具備する。
【００５３】
【実施例】
以下、本発明の実施例を図面に基づいて説明する。
図１は本発明の一実施例に係るデジタル音響信号符号化装置の構成を示すブロックである。同図に示す本実施例のデジタル音響信号符号化装置は、入力された音響信号を所定の数、以下の説明では８つの連続するブロックに分割するブロック分割手段１１、分割された各ブロックの知覚エントロピーＰＥを上述した算出式によって計算する知覚エントロピー算出手段１２、算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段１３、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較する比較手段１４及び比較結果に応じてロングブロック又はショートブロックのいずれかを判定するロング／ショートブロック判定手段１５を含んで構成されている。
【００５４】
ここで、図２は本発明の第１の実施例に係るデジタル音響信号符号化装置の動作を示すフローチャートである。以下、両図を用いて本実施例の具体的な動作を説明する。その際、入力音響信号の例として、図３の音響データを用いる。ここでは、時間的に連続する２フレームに含まれる合計１６のショートブロックを示している。フレームは時間順にフレームｆ−１、フレームｆとし、現在着目しているフレームは後のフレームｆの方である。さらに、それぞれのフレームにおいて各ショートブロックに対応する通し番号を付している。
【００５５】
先ず、ブロック分割手段１１によってフレームｆ内の連続する８つのショートブロックｉ（０≦ｉ≦７）のそれぞれに関し、知覚エントロピー算出手段１２によって知覚エントロピーＰＥ［ｆ］［ｉ］を計算する（ステップＳ１０１）。この知覚エントロピーの計算は、上述のＩＳＯ／ＩＥＣ１３８１８−７にて記載されたロング／ショートブロックの判定方法におけるステップ１２にて説明した方法による。次に、知覚エントロピー総和算出手段１３によって下記式で定義されるようにＰＥ［ｆ］［ｉ］の０≦ｉ≦７に関する合計値ＳＰＥ［ｆ］を求める（ステップＳ１０２）。
【００５６】
【数２】

【００５７】
そして、比較手段１４によって前フレームｆ−１にて上記と同様の方法で既に求めていたＳＰＥ［ｆ−１］とＳＰＥ［ｆ］の差の絶対値を求め、それとあらかじめ定められた閾値ｓｗｉｔｃｈ＿ｐｅ＿ｓとの大小を比較する（ステップＳ１０３）。ロング／ショートブロック判定手段１５ではｓｗｉｔｃｈ＿ｐｅ＿ｓより大きい場合はステップＳ１０４に進み、フレームｆを複数のショートブロックで変換する、と判定する。一方、ｓｗｉｔｃｈ＿ｐｅ＿ｓより小さい場合はステップＳ１０５に進み、フレームｆを１つのロングブロックで変換する、と判定する。
【００５８】
図４は図３の各ショートブロックに対応するＰＥ［ｆ］［ｉ］を示す図である。同図に示す例では、ＳＰＥ［ｆ−１］＝１３９０，ＳＰＥ［ｆ］＝１０３０なので、ｓｗｉｔｃｈ＿ｐｅ＿ｓ＝５００である場合は、｜ＳＰＥ［ｆ−１］−ＳＰＥ［ｆ］｜＝３６０＜ｓｗｉｔｃｈ＿ｐｅ＿ｓ＝５００となるので、フレームｆについては、１つのロングブロックで変換する、と判定される。
【００５９】
次に、本発明の第２の実施例に係るデジタル音響信号符号化装置の動作を図５に示すフローチャートに従って説明する。なお、ステップＳ２０１からステップＳ２０４までは図２のステップＳ１０１からステップＳ１０４までとそれぞれ同様の処理を行うものとし、異なる動作について説明する。ステップＳ２０３にて前フレームｆ−１にて上記と同様の方法で既に求めていたＳＰＥ［ｆ−１］とＳＰＥ［ｆ］の差の絶対値を求め、それとあらかじめ定められた閾値ｓｗｉｔｃｈ＿ｐｅ＿ｓとの大小を比較する。ｓｗｉｔｃｈ＿ｐｅ＿ｓより大きい場合はステップＳ２０４に進み、フレームｆを複数のショートブロックで変換する、と判定する。一方、ｓｗｉｔｃｈ＿ｐｅ＿ｓより小さい場合はステップＳ２０５に進み、フレーム内の各ショートブロックの知覚エントロピーの合計値の差の情報のみでは判定不能とし、他の手段によるロング/ショートの判定をする。その一例として、同一グループ内の各ショートブロックに関する知覚エントロピーの最大値と最小値の差が予め定められた閾値より小さくなるようにフレームｆをグループ分けし、その結果、グループ数が１の場合は、ステップＳ２０６に進んでフレームｆを１つのロングブロックで周波数領域に変換し、それ以外の場合は、ステップＳ２０４に進んで複数のショートブロックで変換する、と判定する。なお、グループ分けの詳細は図１６のフローチャートに示したとおりである。
【００６０】
具体例として、図３及び図４に加えて、フレームｆのグループ分けの結果を示した図６を含めた例を考えるとする。ここでもｓｗｉｔｃｈ＿ｐｅ＿ｓ＝５００とする。上述したように、図３及び図４に示す例では｜ＳＰＥ［ｆ−１］−ＳＰＥ［ｆ］｜＝３６０＜ｓｗｉｔｃｈ＿ｐｅ＿ｓ＝５００なので、最終的にグループ分けの結果による判定に委ねられる。図６ではフレームｆは３グループにグループ分けされている（ショートブロックｉ＝０，１，２，３，４が第０グループ、ｉ＝５が第１グループ、ｉ＝６，７が第２グループ）ので、複数のショートブロックで変換する、と判定する。なお、ステップＳ２０５にて用いるロング／ショートの判定方法は、ここで用いたグループ分けの結果に基づく方法に限らず、他の判定方法を用いても構わない。また、図２及び図５においてｓｗｉｔｃｈ＿ｐｅ＿ｓを１つ定めたが、サンプリング周波数毎のｓｗｉｔｃｈ＿ｐｅ＿ｓの値の一例を示す図７のように入力音響信号のサンプリング周波数毎に定めておき、実際に入力される音響信号のサンプリング周波数に応じて図７を参照してｓｗｉｔｃｈ＿ｐｅ＿ｓの値を設定してもよい。
【００６１】
次に、図８は本発明のシステム構成を示すブロック図である。つまり、同図は上記実施例におけるデジタル音響信号符号化方法によるソフトウェアを実行するマイクロプロセッサ等から構築するハードウェアを示すものである。同図において、デジタル音響信号符号化システムはインターフェース（以下Ｉ／Ｆと略す）８１、ＣＰＵ８２、ＲＯＭ８３、ＲＡＭ８４、表示装置８５、ハードディスク８６、キーボード８７及びＣＤ−ＲＯＭドライブ８８を含んで構成されている。また、汎用の処理装置を用意し、ＣＤ−ＲＯＭ８９などの読取可能な記録媒体には、本発明のデジタル音響信号符号化方法を実行するプログラムが記録されている。更に、Ｉ／Ｆ８１を介して外部装置から制御信号が入力され、キーボード８７によって操作者による指令又は自動的に本発明のプログラムが起動される。そして、ＣＰＵ８２は当該プログラムに従って上述のデジタル音響信号符号化方法に伴う符号化制御処理を施し、その処理結果をＲＡＭ８４やハードディスク８６等の記憶装置に格納し、必要により表示装置８５などに出力する。以上のように、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【００６２】
なお、本発明は上記実施例に限定されるものではなく、特許請求の範囲内に記載であれば多種の変形や置換可能であることは言うまでもない。
【００６３】
【発明の効果】
以上説明したように、本発明によれば、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング／ショートブロック判定手段とを具備することに特徴がある。また、ロング／ショートブロック判定手段は、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング／ショートの判定ができるデジタル音響信号符号化装置を提供できる。
【００６４】
また、別の発明として、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、比較手段による比較結果で絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する判定手段とを具備することに特徴がある。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化装置を提供できる。
【００６５】
更に、閾値を入力音響信号のサンプリング周波数毎に定めたことにより、入力音響信号のサンプリング周波数の違いに応じた適切なロング／ショートの判定ができる。
【００６６】
また、別の発明としてのデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定する。また、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかの判定は、絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する。よって、入力音響信号の特性に応じたロング／ショートの判定ができるデジタル音響信号符号化方法を提供できる。
【００６７】
また、別のデジタル音響信号符号化方法は、各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、絶対値が閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する。よって、入力音響信号の特性をより一層反映したブロック変換の判定が行なうことができるデジタル音響信号符号化方法を提供できる。
【００６８】
更に、本発明のデジタル音響信号符号化方法を実行するプログラムが記録した媒体を用いることにより、既存のシステムを変えることなく、かつ符号化システムを構築する装置を汎用的に使用することができる。
【図面の簡単な説明】
【図１】本発明に係るデジタル音響信号符号化装置の構成を示すブロック図である。
【図２】本発明の第１の実施例に係るデジタル音響信号符号化方法の動作を示すフローチャートである。
【図３】第１の実施例における音響信号の一例の信号波形を示す図である。
【図４】ショートブロック別の時間的に連続する２つのフレーム内の知覚エントロピー値の関係を示す図である。
【図５】本発明の第２の実施例に係るデジタル音響信号符号化方法の動作を示すフローチャートである。
【図６】第２の実施例におけるグループ分けの一例を示す図である。
【図７】サンプリング周波数毎の閾値の一例を示す図である。
【図８】本発明のシステム構成を示すブロック図である。
【図９】音響信号とマスキング閾値及び絶対可聴閾値の強度分布を示す図である。
【図１０】ＡＡＣの符号化の基本的な構成を示すブロック図である。
【図１１】ＭＤＣＴの変換領域を示す図である。
【図１２】変化の少ない信号波形の場合のＭＤＣＴの変換領域を示す図である。
【図１３】変化の激しい信号波形の場合のＭＤＣＴの変換領域を示す図である。
【図１４】グループ分けの一例を示す図である。
【図１５】ＩＳＯ／ＩＥＣ１３８１８−７におけるロング／ショートブロック判定動作を示すフローチャートである。
【図１６】従来のデジタル音響信号符号化方法の動作を示すフローチャートである。
【図１７】音響信号の一例の信号波形を示す図である。
【図１８】ショートブロックに対する知覚エントロピーとの関係を示す図である。
【図１９】別の従来のデジタル音響信号符号化方法の動作を示すフローチャートである。
【符号の説明】
１１ブロック分割手段、１２知覚エントロピー算出手段、
１３知覚エントロピー総和算出手段、１４比較手段、
１５ロング／ショートブロック判定手段、８１Ｉ／Ｆ、８２ＣＰＵ、
８３ＲＯＭ、８４ＲＡＭ、８５表示装置、８６ハードディスク、
８７キーボード、８８ＣＤ−ＲＯＭドライブ、８９ＣＤ−ＲＯＭ。

Claims

デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ１つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる１つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化装置において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、
該知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、
時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、
該比較手段による比較結果に基づいて、入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定するロング／ショートブロック判定手段と
を具備することを特徴とするデジタル音響信号符号化装置。
前記ロング／ショートブロック判定手段は、前記比較手段による比較結果で前記絶対値が前記閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する請求項１に記載のデジタル音響信号符号化装置。
デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化装置であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ１つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる１つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化装置において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出する知覚エントロピー算出手段と、
該知覚エントロピー算出手段によって算出された知覚エントロピーのフレーム内での総和を求める知覚エントロピー総和算出手段と、
時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と、予め定めた閾値とを比較する比較手段と、
該比較手段による比較結果で前記絶対値が前記閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する判定手段と
を具備することを特徴とするデジタル音響信号符号化装置。
前記閾値は入力音響信号のサンプリング周波数毎に定めた値である請求項１〜３のいずれかに記載のデジタル音響信号符号化装置。
デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ１つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる１つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化方法において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定することを特徴とするデジタル音響信号符号化方法。
入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかの判定は、前記絶対値が前記閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをロングブロックで変換すると判定する請求項５に記載のデジタル音響信号符号化方法。
デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ１つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる１つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するデジタル音響信号符号化方法において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、前記絶対値が前記閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定することを特徴とするデジタル音響信号符号化方法。
前記閾値は入力音響信号のサンプリング周波数毎に定めた値である請求項５〜７のいずれかに記載のデジタル音響信号符号化装置。
コンピュータにより、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ１つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる１つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するように実行するデジタル音響信号符号化プログラムを記録した媒体において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、比較結果に基づいて入力音響信号のブロックをロングブロック又はショートブロックのいずれかで変換するかを判定する機能を有するデジタル音響信号符号化プログラムを記録した媒体。
コンピュータにより、デジタル音響信号を時間軸に沿って入力してブロック化し、各ブロック毎にサブバンド分割や周波数領域への変換等の処理を施し、該音響信号を複数の帯域に分割し、各帯域毎に符号化ビットを割り当て、割り当てた符号化ビット数に応じて正規化係数を求め、前記音響信号を前記正規化係数で量子化することにより圧縮符号化するデジタル音響信号符号化方法であって、前記周波数領域への変換を行う際に、ブロック化した前記音響信号を１つの長い変換ブロック又は複数の短い変換ブロックのいずれかにて変換し、短い変換ブロックを用いる場合は当該複数の短い変換ブロックを、それぞれ１つまたは複数の短い変換ブロックを含むような複数のブロックにグループ化し、同一グループ内に含まれる１つまたは複数の短い変換ブロックには共通の正規化係数を対応させて音響信号を量子化するように実行するデジタル音響信号符号化プログラムを記録した媒体において、
各々の短い変換ブロック毎に算出した入力音響信号の知覚エントロピーを算出し、算出された知覚エントロピーのフレーム内での総和を求め、時間的に連続する２つのフレームの知覚エントロピーのフレーム内での各総和の差の絶対値と予め定めた閾値とを比較し、前記絶対値が前記閾値より大きい場合時間的に連続する２つのフレームのうち時間的に後ろのフレームをショートブロックで変換すると判定し、小さい場合判定不能と判定する機能を有するデジタル音響信号符号化プログラムを記録した媒体。