JP3189401B2

JP3189401B2 - 音声データ符号化方法及び音声データ符号化装置

Info

Publication number: JP3189401B2
Application number: JP20261492A
Authority: JP
Inventors: 浩之鈴木
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1992-07-29
Filing date: 1992-07-29
Publication date: 2001-07-16
Anticipated expiration: 2016-07-16
Also published as: JPH0653911A; KR940003232A; EP0581435A3; US5642383A; EP0581435A2

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、いわゆる高能率符号化
によって入力ディジタルデータの符号化を行ない、これ
を伝送，記録，再生し、復号化して再生信号を得るディ
ジタル音声データ符号化方法及び符号化装置に関するも
のである。

【０００２】

【従来の技術】オーディオ或いは音声等の信号の高能率
符号化の手法には種々あるが、例えば「ICASSP 1980 Th
e critical band coder digital encoding of the perc
eptualrequirements of the auditory system M.A.Kran
sner MIT 」では、聴覚マスキングを利用することで、
各帯域毎に必要な信号対雑音比を得て固定的なビット割
当を行なう手法が述べられている。しかしこの手法で
は、サイン波入力で特性を測定する場合にビット割当が
固定的であるため、特性値がそれほど良い値とならな
い。

【０００３】これらの問題を解決するために、ビット割
当に使用できる全ビットを、各小ブロック毎にあらかじ
め定められた固定ビット割当パターン分と、各ブロック
の信号の大きさに依存したビット配分を行なう分とに分
割使用し、その分割比を入力信号に関係する信号に依存
させ、前記信号のスペクトルが滑らかなほど前記固定ビ
ット割当パターン分への分割比率を大きくするような高
能率符号化装置が提案されている。

【０００４】この方法によれば、例えばサイン波入力の
ように、特定のスペクトルにエネルギーが集中する場合
には、そのスペクトルを含むブロックに多くのビットを
割り当てる事により、全体の信号対雑音特性を著しく改
善することができる。一般に、急峻なスペクトル成分を
もつ信号に対して人間の聴覚は極めて敏感であるため、
このような方法を用いる事によって信号対雑音特性を改
善することは、単に測定上の数値を向上させるばかりで
なく、聴感上の音質を改善するのに有効である。

【０００５】しかし、入力信号に依存したビットの割り
当てを、単に信号対雑音特性を改善させるという事を基
準にして行なうと、例えばトライアングルの音のよう
に、急峻なスペクトル成分を多数含む信号を低いビット
レートで圧縮しようとした場合には、各スペクトルに対
応するブロックに十分なビットが割り当てられず、聴感
上、十分な音質を得ることができない。

【０００６】そこで、本件出願人は、先に、ビット割当
に使用できる全ビットを、どの短時間に対しても予め定
められた固定ビット割当パターン分と、各ブロックの信
号の大きさに依存したビット配分を行なう分とに分割使
用し、固定ビット割当パターンに加えて、各ブロックの
信号の大きさに依存したビット配分についても、そのブ
ロックの対応する帯域に応じて重み付けする事により、
上述の課題を解決する手法を提案している。

【０００７】ここで、上記重み付けの際には、高域側の
雑音は人間の耳の感度のために低域側の雑音より耳につ
きにくく、また、低域側の信号にマスクされやすいとい
う事実を踏まえて、低域側のブロックにより多くのビッ
トが割り付けられるようにすると効果的である。

【０００８】一方、前述の様々な手法を用いた圧縮装置
に大振幅（０ｄＢ付近）の信号が入力されると、量子化
誤差の影響により伸張装置の出力部において有限の語長
に変換した際にオーバーフローを生じ、クリッピングに
よる高調波が発生するようになる。この高調波は、アナ
ログの信号に変換した際に折り返しによって圧縮装置に
入力された信号よりも低い周波数となり、人間に雑音と
して認識されることになる。この問題に対しては、圧縮
装置において量子化誤差の分をあらかじめ補正すること
によって容易に解決できる。

【０００９】

【発明が解決しようとする課題】上記提案の手法は上述
したように音声データの圧縮において非常に有効なもの
である。しかしながら、前述の提案のような手法を用い
ると量子化誤差は入力の信号によって変化し、より効果
的な手法では低域側の量子化誤差は比較的小さくなる
が、高域側の量子化誤差はそれに比べ大きくなる傾向が
生じる。従って量子化誤差の大きい部分に合わせて補正
を行うと量子化誤差の小さい部分のレベル変動が無視で
きなくなる虞れがある。また、量子化誤差の小さい部分
のレベル変動が無視できる程度の補正では量子化誤差の
大きい部分でのオーバーフローを防ぐことが出来なくな
る虞れがある。

【００１０】そこで本発明は、このような実情に鑑みて
なされたものであり、量子化誤差の小さい部分のレベル
変動を押さえつつ、量子化誤差の大きい部分のレベル変
動を補正することによって大振幅（０ｄＢ付近）の入力
に対する伸張装置でのオーバフローを防ぎ、可聴帯域で
の雑音の増加を抑えて聴感上良好な音質を得られるレベ
ル補整手法を用いた音声データ符号化方法及び符号化装
置の提供を目的とするものである。

【００１１】

【課題を解決するための手段】本発明の音声データ符号
化方法は、上述の目的を達成するために提案されたもの
であり、ディジタル音声データを所定時間毎にブロック
に分割して再量子化する音声データ符号化方法におい
て、ブロック毎に再量子化の量子化誤差を求め、その量
子化誤差及び当該ブロックの音声データのレベルに応じ
たレベル補正値を求め、このレベル補正値に応じて当該
ブロックの音声データのレベル補正を行うようにしたも
のである。

【００１２】さらに量子化誤差と無関係でかつ一定な、
誤差を固定的に補正する固定補正値を発生し、この固定
補正値と量子化誤差とに応じたレベル補正を行うように
する。

【００１３】また、上記レベル補正は、量子化誤差が予
め設定した値を越えた場合に行い、予め決められた音声
データの圧縮率に応じて行うようにする。

【００１４】次に、本発明の音声データ符号化装置は、
ディジタル音声データを所定時間毎にブロックに分割し
て再量子化する音声データ符号化装置において、ブロッ
ク毎に再量子化の量子化誤差を求める手段と、上記量子
化誤差及び当該ブロックの音声データのレベルに応じた
レベル補正値を算出するレベル補正値算出手段と、上記
レベル補正値に応じて当該ブロックの音声データのレベ
ル補正を行う手段とを有してなるものである。

【００１５】さらに量子化誤差と無関係でかつ一定な、
誤差を固定的に補正する固定補正値を発生する固定補正
値発生手段を有し、上記固定補正値と量子化誤差とに応
じたレベル補正を行うようにする。

【００１６】ここで、本発明の音声データ符号化方法又
は符号化装置での符号化の際には、音声データを所定時
間で分割されたブロックに対して予め定められた所定ビ
ット数のビットを、固定ビットと割当ビットとに分割使
用すると共に、入力信号のスペクトルに応じて上記固定
ビットと割当ビットの分割比を可変する。

【００１７】また、上記符号化の際には、直交変換を利
用するようにしている。

【００１８】すなわち、本発明に係る音声データ符号化
方法及び音声データ符号化装置によれば、上記レベル補
正の際に符号化にともなう量子化誤差の量を判断し、量
子化誤差の大きい部分ではより大きなレベル補正を行
い、量子化誤差の小さい部分では小さいレベル補正を行
うことによって、上述の問題を解決する。

【００１９】ここで、上記量子化誤差の量から決定され
るレベルの補正値は、周波数軸上で可変とするととも
に、時間軸上でも可変とするとより効果的である。

【００２０】また、量子化誤差の量と補正値を一義的に
決めるのではなく、入力信号の振幅情報と加味し、補正
の変換率、例えば振幅圧縮の特性を切り替える手法でも
良好な結果が得られる。

【００２１】一方、レベル補正値を変化させる際、急激
な変化は人間の聴感上悪い作用を及ぼすので、急激な変
化を抑制するような手法、例えばヒステリシス特性を持
たせる等の手法を併用するとより効果的である。

【００２２】

【作用】本発明によれば、量子化誤差と入力レベルとか
ら求めたレベル補正値に応じて音声データのレベル補正
を行うようにしているため、聴感にあった効率の良いビ
ット割当を実現する際に、量子化誤差の影響による伸張
装置でのオーバーフローから生じる低域の雑音の発生を
抑制できる。しかも、その際の比較的量子化誤差の少な
い部分のレベル変動も容易に押さえることが出来る。し
たがって、より低いビットレートで高音質の音楽信号を
符号化することが可能となる。

【００２３】

【実施例】以下、本発明の音声データ符号化方法及びこ
の方法が適用される音声データ符号化装置の実施例を図
面を参照しながら説明する。

【００２４】本実施例の音声データ符号化装置は、図１
に示すような人間の聴覚特性に応じてディジタル音声デ
ータを再量子化する音声データ符号化装置であって、こ
の図１のレベル補正回路２２，２３，２４には、図３に
示すような、量子化誤差を求める量子化誤差算出部３０
３と、上記量子化誤差と入力レベルとからレベル補正値
を求めるレベル補正値算出部３０４と、上記レベル補正
値に応じてディジタル音声データのレベル補正を行うレ
ベル補正部３０８とを有してなるものである。

【００２５】さらに、上記図１のレベル補正回路２２，
２３，２４には、図３に示すように、量子化誤差と無関
係でかつ一定な、誤差を固定的に補正する固定補正値を
発生する固定補正値発生部（固定補正値表）３０６を有
しており、図１の本実施例の音声データ符号化装置では
上記固定補正値と量子化誤差とに応じたレベル補正を行
うようにしている。

【００２６】以下、図１〜図４を用いて本実施例の符号
化方法及び符号化装置について詳細に説明する。なお、
本発明には、オーディオＰＣＭ信号等の入力ディジタル
信号を、いわゆる帯域分割符号化（ＳＢＣ）、適応変換
符号化（ＡＴＣ）及び適応ビット割当て（ＡＰＣ−Ａ
Ｂ）等の各技術を用いる高能率符号化技術を適用するこ
とができる。

【００２７】先ず、図１に示す本実施例の音声データ符
号化装置（高能率符号化装置）では、入力ディジタル信
号をフィルタ等により複数の周波数帯域に分割すると共
に、各周波数帯域毎に直交変換を行って、得られた周波
数軸のスペクトルデータを、後述する人間の聴覚特性を
考慮したいわゆる臨界帯域幅（クリティカルバンド）毎
に適応的にビット割当して符号化している。もちろんフ
ィルタ等による非ブロッキングの周波数分割幅は等分割
幅としてもよい。

【００２８】さらに、本発明実施例においては、上記直
交変換の前に入力信号に応じて適応的にブロックサイズ
（ブロック長）を変化させると共に、クリティカルバン
ド単位もしくは高域では臨界帯域幅（クリティカルバン
ド）を更に細分化したブロックでフローティング処理を
行っている。

【００２９】なお、上記クリティカルバンドとは、人間
の聴覚特性を考慮して分割された周波数帯域であり、あ
る純音の周波数近傍の同じ強さの狭帯域バンドノイズに
よって当該純音がマスクされるときのそのノイズの持つ
帯域のことである。このクリティカルバンドは、高域ほ
ど帯域幅が広くなっており、０〜２０ｋHzの全周波数帯
域が例えば２５のクリティカルバンドに分割される。

【００３０】すなわち、図１において、入力端子１０に
は例えば０〜２０ｋHzのオーディオＰＣＭ信号が供給さ
れている。この入力信号は、例えばいわゆるＱＭＦフィ
ルタ等の帯域分割フィルタ１１により０〜１０ｋHz帯域
と１０ｋHz〜２０ｋHz帯域とに分割され、０〜１０ｋHz
帯域の信号は同じくいわゆるＱＭＦフィルタ等の帯域分
割フィルタ１２により０〜５ｋHz帯域と５ｋHz〜１０ｋ
Hz帯域とに分割される。

【００３１】なお、上記ＱＭＦフィルタは、例えば、19
76 R.E.Crochiere Digital codingof speech in subba
ndsBell Syst.Tech. J. Vol.55,No.8 1976 に述べられ
ている。さらに、例えば、ICASSP 83,BOSTON Polyphase
Quadrature filters-A newsubband coding techniqueJ
oseph H. Rothweilerには、等バンド幅のフィルタ分割
手法が述べられている。

【００３２】上記帯域分割フィルタ１１からの１０ｋHz
〜２０ｋHz帯域の信号は直交変換回路の一例であるModi
fied Discrete Cosine Transform（MDCT）回路１３に送
られ、上記帯域分割フィルタ１２からの５ｋHz〜１０ｋ
Hz帯域の信号はＭＤＣＴ回路１４に送られ、上記帯域分
割フィルタ１２からの０〜５ｋHz帯域の信号はＭＤＣＴ
回路１５に送られることにより、それぞれＭＤＣＴ処理
される。

【００３３】なお、上記ＭＤＣＴについては、ICASSP 1
987 Subband/Transform CodingUsing Filter Bank De
signs Based on Time Domain Aliasing CancellationJ.
P.Princen A.B.Bradley Univ. of Surrey Royal Melb
ourne Inst.of Tech. に述べられている。また、上述し
た直交変換としては、例えば、入力オーディオ信号を所
定単位時間（フレーム）でブロック化し、当該ブロック
毎に高速フーリエ変換（ＦＦＴ），コサイン変換（ＤＣ
Ｔ）等も考えられる。

【００３４】ここで、本実施例の符号化装置での符号化
の際には、音声データを所定時間で分割したブロックに
対して予め定められた所定ビット数のビットを、固定ビ
ットと割当ビットとに分割使用すると共に、入力信号の
スペクトルに応じて上記固定ビットと割当ビットの分割
比を可変するようにしている。

【００３５】このため、上記各帯域分割フィルタ１１，
１２の各出力は、上記ＭＤＣＴ回路１３，１４，１５で
の直交変換の前に、入力信号に応じて適応的にブロック
サイズ（ブロック長）を変化させると共にクリティカル
バンド単位もしくは高域では臨界帯域幅（クリティカル
バンド）を更に細分化したブロックＢでフローティング
処理を行うためのブロックＢを決定するブロック決定回
路１９，２０，２１にも送られる。

【００３６】上記ブロック決定回路１９，２０，２１に
よる各ＭＤＣＴ回路１３，１４，１５へのブロックサイ
ズの具体例を図２に示す。この図２の具体例において、
本実施例では、高域側ほど周波数帯域を広げると共に時
間分解能を高め（ブロック長を短くし）ている。すなわ
ち、低域側の０〜５ｋHz帯域の信号でのブロックｂＬ及
び中域の５ｋHz〜１０ｋHz帯域の信号でのブロックｂＭ
に対して、高域側の１０ｋHz〜２０ｋHz帯域の信号に
は、図中ｂＨ１，ｂＨ２のブロックで合計２回のＭＤＣ
Ｔが施される。

【００３７】言い換えれば、本実施例では、各帯域の直
交変換ブロックサンプル数を同じにして装置の簡易化を
図りながら、クリティカルバンド幅の狭い低域側では周
波数分解能を高め、過渡的な信号に対して優勢な成分を
多く含む高域側では時間分解能を高めるようにしてい
る。また、各々の帯域は、信号の時間的変化が大きい場
合を想定して更に１／２、１／４の適応的なブロック分
割とすることも可能である。

【００３８】再び図１に戻って、各ＭＤＣＴ回路１３，
１４，１５にてＭＤＣＴ処理されて得られた周波数軸上
のスペクトルデータあるいはＭＤＣＴ係数データは、上
記臨界帯域（クリティカルバンド）又は高域では更にク
リティカルバンドを分割した帯域毎にまとめられて適応
ビット割当回路１６，１７，１８及びレベル補正回路２
２，２３，２４に送られている。

【００３９】上記適応ビット割当回路１６，１７，１８
は、臨界帯域（クリティカルバンド）又は高域では更に
クリティカルバンドを分割した帯域毎に必要なビットレ
ートとなるように割り当てビット数を決定し、当該ビッ
ト数の割り当てを示す情報（ビット長情報）を、それぞ
れ対応する上記レベル補正回路２２，２３，２４及び符
号化回路２５，２６，２７へと送る。

【００４０】上記各レベル補正回路２２，２３，２４で
は、上記適応ビット割当回路１６，１７，１８によって
割り当てられたビット数から、量子化で発生する量子化
誤差を求め、上記周波数軸上のスペクトルデータ或いは
ＭＤＣＴ係数データに対して、上記量子化誤差に応じた
レベル補正を施して、上記符号化回路２５，２６，２７
へ送る。なおこの時のレベル補正の方法としては、入力
信号の大きさに応じて補正をかける方法でも良く、ま
た、入力信号の大きさによらず一定値としてもかまわな
い。

【００４１】上記符号化回路２５，２６，２７では、上
記レベル補正が施された周波数軸上のスペクトルデータ
或いはＭＤＣＴ係数データを、上記対応する適応ビット
割当回路１６，１７，１８で割り当てられたビット数に
応じて再量子化している。

【００４２】このようにして符号化されたデータは、出
力端子２８，２９，３０を介して取り出される。また、
このとき、どのような信号の大きさに関する正規化がな
されたかを示す、フローティング情報と、どのようなビ
ット長で量子化がされたかを示すビット長情報（これら
情報は上記ブロック決定回路１９，２０，２１から得ら
れる）も出力端子３１，３２，３３を介して後段の構成
に同時に送られる。

【００４３】次に、図３に示す各レベル補正回路２２，
２３，２４の具体的構成及び動作について説明する。

【００４４】この図３において、上記図１における各Ｍ
ＤＣＴ回路１３，１４，１５の出力は、図３の入力端子
３０２に供給される。この各ＭＤＣＴ回路１３，１４，
１５からの出力は、上記レベル補正部３０８、レベル補
正値算出部３０５及び量子化誤差算出部３０３に送られ
る。

【００４５】また、図１における各適応ビット割当回路
１６，１７，１８の出力は、図３の入力端子３０１を介
して量子化誤差算出部３０３に送られる。当該量子化誤
差算出部３０３では、上記適応ビット割当回路１６，１
７，１８の出力と先のＭＤＣＴ回路１３，１４，１５の
出力とから量子化誤差を求める。すなわち、当該量子化
誤差算出部３０３では、スペクトラムの大きさに対する
ビットの割当数から量子化誤差を求める。

【００４６】この量子化誤差算出部３０３の出力は、先
のＭＤＣＴ回路１３，１４，１５の出力と共に、レベル
補正値算出部３０４へと送られ、ここでスペクトラムの
大きさと量子化誤差から各スペクトラム毎のレベル補正
値が求められる。なお、この時、上記レベル補正値は何
本かのスペクトラムをまとめたバンド毎に求めるように
してもよい。

【００４７】また、同時に、システム固有の固定的誤差
を補正するための情報が予め用意されている固定補正値
発生部（固定補正値表）３０６からの当該固定的誤差を
補正するための情報が、上記レベル補正値算出部３０４
に送られる。なお、この固定の補正値はゼロであっても
かまわない。

【００４８】上述のようにして求められたレベル補正値
は、変化量抑制部３０５へ送られる。この変化量抑制部
３０５では、急激なレベル補正によって発生する人間の
聴感上の違和感を低減するようなレベル変化の抑制処理
を行う。すなわち、当該変化量抑制部３０５では、過去
の補正値を保持する過去の補正値発生部（過去の補正値
表）３０７から供給される当該過去の補正値と、上記レ
ベル補正値算出部３０４の出力とが比較され、上記過去
の補正値と上記レベル補正値算出部３０４の出力との変
化が一定以上ある場合はレベル補正値を修正する。な
お、この時の修正法は一定率で行っても良いし、特定の
特性、あるいは近似式によって行っても良い。上記変化
量抑制部３０５によって修正を受けたレベル補正値は、
レベル補正部３０８へ入力され、当該レベル補正部３０
８で図１におけるＭＤＣＴ回路１３，１４，１５の出力
のレベルが補正され、出力端子３０９から図１における
符号化回路２５，２６，２７へ送られる。

【００４９】なお、本実施例では、上記図１のレベル補
正回路２２，２３，２４並びに符号化回路２５，２６，
２７を別回路としているが、同一の回路として実施して
も容易に構成できる。

【００５０】図４を用いて上述した本発明実施例の符号
化方法及び符号化装置における効果について説明する。

【００５１】例えば、図４の(a) に示すように、人間に
聞こえやすい低域での量子化誤差を小さく、聞こえにく
い高域での量子化誤差を大きく量子化した場合におい
て、周波数に関係なく固定のレベル補正を行うと、図４
の(b) に示すように量子化誤差の小さい低域のレベル変
化Ｌが無視できなくなる。

【００５２】この場合、本発明実施例の符号化方法を用
いて、例えば図４の(c) のように、量子化誤差に応じた
レベル補正を行うと、低域におけるレベル変動は無視で
きる程度となる。なお、このとき、低域と高域でのレベ
ルに差が生じる結果となるが、もともとの量子化誤差量
が人間の聴感特性を応用して決定した結果であるから、
このレベル差も聴感上の大きな問題とはならない。

【００５３】

【発明の効果】上述のように、本発明の音声データ符号
化方法においては、レベル補正の際に符号化に伴う量子
化誤差の量を判断し、量子化誤差の大きい部分ではより
大きなレベル補正を行い、量子化誤差の小さい部分では
小さいレベル補正を行うことによって、大振幅入力時の
クリッピングによるノイズの発生を効率良く抑制するだ
けでなく抑制の際のレベル変動も人間の聴感上好ましい
ものとすることができ、したがって、小規模で音質のよ
い音声データ符号化装置を実現することができる。

【図面の簡単な説明】

【図１】本実施例の音声データ符号化装置の構成例を示
すブロック回路図である。

【図２】本実施例装置における信号の周波数及び時間分
割を示す図である。

【図３】本実施例装置のレベル補正回路の一具体例を示
すブロック回路図である。

【図４】本発明実施例の効果の一例を説明するための図
である。

【符号の説明】

１０・・・・・・・・・・音声信号の入力端子１１，１２・・・・・・・帯域分割フィルタ１３，１４，１５・・・・ＭＤＣＴ回路１６，１７，１８・・・・適応ビット割当回路１９，２０，２１・・・・ブロックサイズ決定回路２２，２３，２４・・・・レベル補正回路２５，２６，２７・・・・符号化回路２８，２９，３０・・・・符号化データの出力端子３１，３２，３３・・・・ビット長情報，フローティン
グ情報の出力端子

Claims

(57)【特許請求の範囲】

【請求項１】ディジタル音声データを所定時間毎にブ
ロックに分割して再量子化する音声データ符号化方法に
おいて、上記ブロック毎に上記再量子化の量子化誤差を求め、上記量子化誤差及び当該ブロックの音声データのレベル
に応じたレベル補正値を求め、上記レベル補正値に応じて当該ブロックの音声データの
レベル補正を行うことを特徴とする音声データ符号化方
法。
【請求項２】さらに過去のレベル補正値を保持し、上記過去のレベル補正値に応じて上記レベル補正値を修
正することを特徴とする請求項１記載の音声データ符号
化方法。
【請求項３】さらに量子化誤差を固定的に補正する固
定補正値を生成し、上記固定補正値と上記量子化誤差とに応じて上記レベル
補正値を求めることを特徴とする請求項１記載の音声デ
ータ符号化方法。
【請求項４】上記レベル補正は、音声データの所定の
圧縮率に応じて行うことを特徴とする請求項１記載の音
声データ符号化方法。
【請求項５】ディジタル音声データを所定時間毎にブ
ロックに分割して再量子化する音声データ符号化装置に
おいて、上記ブロック毎に上記再量子化の量子化誤差を求める手
段と、上記量子化誤差及び当該ブロックの音声データのレベル
に応じたレベル補正値を算出するレベル補正値算出手段
と、上記レベル補正値に応じて当該ブロックの音声データの
レベル補正を行う手段とを有してなることを特徴とする
音声データ符号化装置。
【請求項６】過去のレベル補正値を保持する手段をさ
らに有し、上記レベル補正値算出手段は、上記量子化誤差と上記過
去のレベル補正値によりレベル補正値を算出することを
特徴とする請求項５記載の音声データ符号化装置。
【請求項７】量子化誤差を固定的に補正する固定補正
値を生成する手段をさらに有し、上記レベル補正値算出手段は、上記量子化誤差と上記固
定補正値によりレベル補正値を算出することを特徴とす
る請求項５記載の音声データ符号化装置。