JP3802219B2

JP3802219B2 - 音声符号化装置

Info

Publication number: JP3802219B2
Application number: JP03587698A
Authority: JP
Inventors: 文昭西田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1998-02-18
Filing date: 1998-02-18
Publication date: 2006-07-26
Anticipated expiration: 2018-02-18
Also published as: JPH11234139A; US6098039A

Description

【０００１】
【発明の属する技術分野】
本発明は音声符号化装置に係わり、特に、音声信号を複数の帯域に分割し、各帯域毎に量子化ビット数を割り当て、各帯域の音声信号を割り当てられたビット数で量子化して送出する音声符号化装置に関する。
【０００２】
【従来の技術】
音響（音声）信号の高能率符号化処理方式を採用する装置には、画像と音声を多重して片方向リアルタイム通信する遠隔監視システムがある。かかる遠隔監視装置システムによれば、人間が巡回することなく状況を動画像と音響（音声）で即座に監視することが可能になる。例えば複数の店舗に設置することにより店内の状況を本社で一括して監視したり、道路の各ポイントに設置することにより道路の渋滞状況を把握することができる等、さまざまな用途に応用できる。また遠隔監視装置以外の用途として双方向通信が要求されるテレビ会議システム等がある。
【０００３】
図１１は遠隔監視システムの構成図であり、１はセンターに設けられた集中監視装置としての復号装置、２は監視必要個所に設けられた監視装置としての符号化装置で、多数設けられており、集中監視装置１に通信回線３を介して画像や音声を多重伝送できるようになっている。符号化装置２では、カメラ２ａ、マイク２ｂのような入力装置から入力した画像信号、音響(音声)信号をそれぞれ画像符号器２ｃ、音声符号器２ｄで信号圧縮し、しかる後、これら圧縮した画像、音声を多重部(MUX)２ｅで多重して通信回線３を介して他方の装置(復号装置１)へ送信する。復号装置１側では、符号器側から送信されたこの圧縮信号を受信して分離部（DEMUX)１ａで画像と音声に分離し、それぞれを画像復号器１ｂ、音声復号器１ｃで圧縮信号の伸長をおこなう。伸長された画像信号、音声信号はそれぞれモニタ１ｄ、スピーカ１ｅ等の出力装置より出力される。
【０００４】
音声信号の高能率符号化処理方式として、圧縮に３２サブバンド・コーディング（帯域分割符号化）を使用し、聴感心理的な特性を利用して高能率の圧縮を実現する。人間の耳はあるレベル以下の音を聞き取ることができず、このレベルを各帯域毎にプロットしてできる特性曲線は最小マスキングしきい値曲線（最小可聴限界曲線）ＭＴＣと呼ばれている（図１２参照）。マスキング効果は周囲の音の状況により変化し、最小マスキングしきい値曲線ＭＴＣ以上のレベルを有する音であっても小さな音は大きな音により聞こえなくなってしまう。これは、大きな音によりマスキングしきい値曲線が図１２のＭＴＣ′のように変化するからであり、該曲線以下の音成分Ａ，Ｂはマスキングされて人間の耳に聞こえず、マスキングしきい値曲線ＭＴＣ′より上の音成分Ｃ，Ｄは聞こえる。
以上を考慮して、マスキングしきい値レベルＭＴＣ′以下の音Ａ，Ｂは量子化せず、マスキングしきい値レベル以上の音Ｃ，Ｄを量子化する。又、量子化する場合には、各サブバンドにおけるオーディオレベルとマスキングしきい値レベルの差の大きさに応じて量子化ビット数を割り当てて量子化し、量子化データと割り当てビット数等を出力する。
【０００５】
具体的には、図１３に示すように３６サブフレーム（３２サンプル／サブフレーム）サンプルのオーディオ信号で１フレームを構成し、各サブフレームのオーディオ信号をそれぞれ３２のサブバンド（帯域）に細分化し、３２バンドのサブバンド符号化を行う。すなわち、全帯域を３２の等間隔の周波数幅に分割し、それぞれのサンプル信号を後述の各サブバンドの量子化ビット数に応じて量子化して符号化を行い、１１５２（＝３６×３２）サンプルデータを１フレームとする。
１つのサブバンドの３６サンプルデータに対して共通に１つのスケールファクタが決められる。すなわち、３６個のそれぞれの波形の最大値が１．０になるように正規化し、その正規化倍率がスケールファクタとして符号化される。
【０００６】
又、各サブバンドの量子化ビット数を決定し、割り当てビット数とする。臨界帯域幅を考慮したマスキングレベルぎりぎりまでの量子化精度（量子化ビット数）を指定することにより、マスキング効果を最も効果的に利用できる。マスキングの結果、聴感系に認識されないレベルの信号しか含まれないバンドについては、完全に情報をなくすことができ、かかる場合はサンプルデータとしてビットを割り当てない。すなわち、各サブバンドにおけるサンプルデータの量子化ビット数が０の場合、サンプリングデータは存在しない。
【０００７】
図１４はオーディオ・ビット・ストリームの１フレームの構造説明図である。１０は１つ１つでオーディオ信号に復号できる最小ユニットで、常に一定のサンプル数＝１１５２（＝３６×３２）サンプルのデータを含んでいる。最小ユニット１０は３２ビットのヘッダ部１１と、エラーチェックコード（オプション）１２と、オーディオデータ部１３で構成され、オーディオデータ部１３は量子化ビット数１３ａ、スケールファクタ１３ｂ、サンプルデータ１３ｃを備えている。ヘッダ部１１には、１２ビットのオール”１”の同期ワード１１ａ、常に”１”のＩＤ１１ｂ、その他レイヤ識別１１ｃ、ビットレートインデックス、サンプリング周波数、モード等の情報が含まれている。
オーディオデータ部１３は図１５に示すような構造を有している。量子化ビット数１３ａは、各サブバンドｓｂ（０〜３１）における３６個のサンプリングデータの量子化ビット数を示し、スケールファクタ１３ｂは量子化ビット数が０以外のそれぞれの正規化倍率を示す。量子化ビット数が０でないサブバンドｓｂの各サンプリングデータは対応するスケールファクタＳiを乗算され、量子化ビット数で量子化されてサンプルデータ１３ｃとなる。
【０００８】
図１６は従来の音声符号器の構成図である。図中２１は入力音声信号を周波数領域のＮ帯域(例えばＮ＝３２のサブバンド)のデータに分割する帯域分割フィルタ、２２はＦＦＴアナライザで構成された心理聴覚モデルであり、１フレームｍ（＝１１５２）サンプリングのオーディオ信号が入力される毎に図１２で説明したマスキングしきい値特性ＭＴＣ′を求め、このマスキングしきい値特性ＭＴＣ′の各サブバンドにおけるマスクレベルと信号レベルとから各サブバンド(Ｎ＝３２)毎にＳＭＲ(Signal To Mask Ratio)を計算する。ＳＭＲはマスクレベルＭに対する信号レベルＳの比で、その単位はｄＢであり、１０log（Ｓ／Ｍ）により求まる。
【０００９】
２３は後述するビット割り当て処理に従って各帯域に量子化ビット数を割り当てるビット割り当て部である。ビット割り当て部２３は、心理聴覚モデル２２から出力される各帯域のＳＭＲを基に各帯域のＭＮＲ(Mask To Noise Ratio)を算出し、最小ＭＮＲに対応する帯域の量子化ビット数を１つ増加する。ＭＮＲとはマスクレベルＭに対する量子化ノイズＮの比で、その単位はｄＢであり、１０log（Ｍ／Ｎ）により求まる。ＭＮＲは量子化ノイズＮが大きいほど、すなわち、量子化ビット数が少ないほど値が小さくなり、量子化ノイズＮが小さいほど、すなわち、量子化ビット数が多いほど、値が大きくなる。又、量子化ノイズＮは量子化ビット数により決定されるから、量子化ビット数が既知であれば音声信号レベルＳと量子化ノイズレベルＮの比ＳＮＲ=１０log（Ｓ／Ｎ）は既知である。
【００１０】
以上より、着目帯域の最小ビット数から求まるＳＮＲより該帯域のＳＭＲを減算すれば着目帯域のＭＮＲを計算できる。すなわち、ＭＮＲは

により計算できる。
ビット割り当て部２３は、音声信号の設定ビットレートに応じて求まる１フレーム当りの全ビット数Ａが各帯域に割り当てられるまで、帯域のＭＮＲの再計算、最小ＭＮＲの決定、該最小ＭＮＲの帯域の量子化ビット数の１増加処理を繰り返し、１フレーム当りの全ビット数Ａが各帯域に割り当てたとき量子化ビット数の各帯域への割り当て制御を終了する。
【００１１】
２４は各帯域の量子化ビット数（割り当てビット数）を符号化する符号化部、２５はビットレート設定部であり、あらかじめ外部よりビットレートを設定するもので、１４種類のビットレート(32kbps〜448kbpsなど)が規定されており、所定ビットレートが設定される。２６は各帯域における３６サンプルデータに対して共通に１つのスケールファクタを計算するスケールファクタ計算部であり、３６個の波形の最大値が１．０になるように正規化し、その正規化倍率をスケールファクタとして計算するもの、２７は該スケールファクタを符号化する符号化部、２８は量子化部であり、各帯域の３６サンプルデータに対するスケールファクタをそれぞれ乗算した乗算結果を該帯域の量子化ビット数で量子化するもの、２９はビット多重部であり、量子化データ、スケールファクタ、量子化ビット数をコード化したものをビット多重し、設定されているビットプレートでビットストリームにして送出するものである。
【００１２】
帯域分割フィルタ２１は入力音声信号を周波数領域のＮ帯域(例えばＮ＝３２)のデータに分割し、心理聴覚モデル２２は人間の聴覚特性であるマスキング効果を考慮して、上記Ｎ帯域(例えばＮ＝３２)毎にＳＭＲを計算する。ビット割り当て部２３は、この各帯域のＳＭＲを基に各帯域のＭＮＲを(1)式により算出する。次に、ビット割り当て部２３は、予めビットレート設定部２５が設定したビットレートから１フレーム当りのビット数Ａを計算し、トータルの割り当てビット数が該ビット数Ａに達するまで最小ＭＮＲの帯域に量子化ビットの割り当てを行う。また、スケールファクタ計算部２６は、帯域分割フィルタ２１で帯域分割された各バンドの３６サンプルデータを用いてスケールファクタを計算し、量子化部２８はスケーリングファクタと量子化ビット数を考慮しながら各バンドの各サンプル信号の量子化を行う。ビット多重部２９は、量子化部の出力である量子化コードと、スケーリング計算部の出力（スケールファクタ）を符号化したコードと、ビット割り当て情報を符号化したコードをそれぞれ多重化すると共に、ビットレート設定部２５で設定したビットレートにもとづいてビットストリームにして送出する。
【００１３】
図１７はビット割り当て部のビット割り当て処理の説明図で、図１６と同一部分には同一符号を付している。２２は聴覚心理モデル、２３はビット割り当て部、２５はビットレート設定部である。
聴覚心理モデル２２は音声信号が入力されると、人間の聴覚特性を考慮して各帯域(例えばＮ＝３２）毎のＳＭＲ値を算出する。ここで算出された各帯域のＳＭＲ値を用いて、ビット割り当て部２３は各帯域に量子化のためのビット割り当てを行う。すなわち、ビットレート設定部２５で設定したビットレート(32kbps〜448kbpsの１４種類のビットレートの１つ)から、1フレーム当りに割り当て可能なビット数Ａを算出する(ステップ１０１）。音声の高能率符号化処理方式は音声信号をある一定のかたまりで処理する方式であり、この一定のかたまりをフレームといい、たとえば36×32（36サブフレーム、32サブバンド)を１フレームとしている。１フレームの時間的な長さとしては、一般的には音声の性質に大きな変化がないとされている20msec〜40msecが使われる。かかる１フレーム当りのビット数Ａの計算式は
【００１４】
Ａ＝設定されたビットレート×フレーム長 (2)
である。従って、サンプリング周波数をＦs(kHz)、ビットレートＢr(kbps)とすれば、上式は、
Ａ＝Ｂr×(32×36/Ｆs) (2)′
となる。尚、実際には量子化ビットとして割り当てられるビット数は、上記Ａより各帯域のスケールファクタや量子化ビット数を通知するためのビット数等を差し引いたビット数である。
ついで、(1)式により各帯域のＭＮＲを算出する（ステップ１０２）。各帯域のＭＮＲが求まれば、これらＭＮＲのうち、最小ＭＮＲを探索し（ステップ１０３）、最小ＭＮＲの帯域における量子化ビット数を１増加する（ステップ１０４）。具体的には、各帯域毎の記憶手段２３ａに量子化ビット数を記憶しておき、最小ＭＮＲに応じた帯域の量子化ビット数を１増加する。
【００１５】
ついで、1フレーム当りの割り当て可能ビット数から３６を減算する（ステップ１０５）。３６を減算する理由は、１帯域当り３６サンプリングデータがあり、それぞれのサンプルデータの量子化ビット数が１増加するからである。
以上により、割り当てビットが変化しているため、あらためて各帯域のＭＮＲを算出する（ステップ１０６）。ついで、１フレーム当りの割り当て可能ビット数Ａと０との比較をおこない（ステップ１０７）、０以上であれば、ステップ１０３以降のループ処理を繰り返し、０未満であれば直前の各帯域の記憶手段２３ａに記憶された割り当てビット数を最終的な量子化ビット数とする。
【００１６】
【発明が解決しようとする課題】
音声の高能率符号化処理方式には１４種類のビットレート（32kbps〜448kbps）までが規定されている。現状の装置では音声符号器、音声復号器に高能率符号化処理方式を適用する場合、画像に割り当てるビットレートと音声に割り当てるビットレートはそれぞれ固定で、全体のビットレートも画像のビットレートと音声のビットレートを加え合わせたビットレートとなり、該ビットレートで画像・音声の符号化データを送信している。
ところで、各店舗や道路等の監視エリアを監視するための遠隔監視システムにおける音声符号化装置は、重要度の低い音声信号(無音区間、雑音区間等における音声信号)も予め設定された固定ビットレートで符号化して伝送する。このため、従来の音声符号化方式は、伝送路の有効利用の点で好ましくなかった。すなわち、無音区間、雑音区間では音声信号を低いビットレートで伝送しても良いのであるが、従来は可変ビットレートによる音声符号データの伝送ができなかった。また、装置全体のビットレートが低く抑えられている場合、重要度の低い音声信号のビットレートを抑え、その分より重要な画像のビットレートを高くすることが望ましい。しかし、従来の音声符号化方式ではかかるビットレート可変の音声符号化を行うことができない。
【００１７】
以上から、本発明の目的は、ビットレート可変の音声符号化が可能で、重要度の低い音声信号のビットレートを抑えることにより伝送路の伝送効率を向上することである。
本発明の目的は、無音区間における音声信号のビットレートを抑えることにより伝送路の伝送効率を向上することである。
本発明の目的は、所定ＭＮＲ値以下の大きな量子化ノイズの発生を防止し、該ＭＮＲ値以上の小さな量子化ノイズを許容することにより、音声のビットレートを抑えることである。
本発明の別の目的は、ビットレート可変の音声符号化を行う場合、ビットレートの急変により違和感が生じないようにすることである。
【００１８】
【課題を解決するための手段】
本発明は、音声信号を複数の帯域に分割し、各帯域毎に量子化ビット数を割り当て、各帯域の音声信号を割り当てられたビット数で量子化して送出する音声符号化装置であり、(1) 音声マスクレベルＭに対する量子化ノイズレベルＮの比ＭＮＲを各帯域毎に算出するＭＮＲ算出手段、(2) ＭＮＲの下限値を設定するＭＮＲ設定手段、(3) 各帯域におけるＭＮＲのうち最小ＭＮＲと前記設定ＭＮＲを比較する手段、(4) 最小ＭＮＲが設定ＭＮＲより小さい場合には、最小ＭＮＲに対応する帯域の量子化ビット数を１つ増加する手段、(5) 最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなるまで、各帯域のＭＮＲの算出、最小ＭＮＲと設定ＭＮＲの比較、最小ＭＮＲの帯域への量子化ビットの割り当て制御を行い、最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなったとき量子化ビットの割り当て制御を終了するビット割り当て手段、(6) 各帯域の音声信号を割り当てられた量子化ビット数で量子化する手段、(7) 各帯域に割り当てた量子化ビット数を考慮して音声データ送出のためのビットレートを決定するビットレート決定手段を備え、前記ビット割り当て部は、量子化ビット数の割り当て処理中において、それまで各帯域に割り当てたトータルのビット数を用いて求まるビットレートが前フレームのビットレートから大幅に変化したか監視し、ビットレートが前フレームにおけるビットレートから大幅に変化したとき、ビット割り当て処理を打切り、前記量子化手段はビット割り当て打切り時までに各帯域に割り当てられている量子化ビット数で各帯域の音声信号を量子化する。
かかる音声符号化装置によれば、各帯域におけるＭＮＲ値が設定ＭＮＲ以上になるまで量子化ビット数を各帯域に割り当てて量子化すれば良く、無音信号あるいは無音に近い信号時に各帯域に大きな量子化ビット数を割り当てる必要がなくなり、伝送効率を向上できる。この場合、復号装置側の再生に際して所定ＭＮＲ値以下の量子化ノイズを聞こえなくできる。又、ビットレートが急変せず、滑らかに変化するため、音質の急変をなくせ違和感をなくすことができる。
【００２２】
【発明の実施の形態】
（Ａ）第１実施例
（ａ）本発明の符号化装置
図１は本発明の符号化装置の構成図である。図中、３１は入力音声信号を周波数領域のＮ帯域(例えばＮ＝３２サブバンド)のデータに分割する帯域分割フィルタ、３２はＦＦＴアナライザで構成された心理聴覚モデルであり、１フレームｍ（例えばｍ＝１１５２）サンプリングのオーディオ信号が入力される毎にマスキングしきい値特性ＭＴＣ′（図１２参照）を求め、このマスキングしきい値特性ＭＴＣ′の各サブバンドにおけるマスクレベルＭと信号レベルＳとから各サブバンド毎にＳＭＲを計算する。ＳＭＲはマスクレベルＭに対する信号レベルＳの比で、その単位はｄＢであり、１０log（Ｓ／Ｍ）により求まる。
【００２３】
３３は後述するビット割り当て処理に従って各帯域に量子化ビット数を割り当てるビット割り当て部である。ビット割り当て部３３は、心理聴覚モデル３２から出力される各帯域のＳＭＲを基に各帯域のＭＮＲを(1)式を用いて算出し、最小ＭＮＲに対応する帯域の量子化ビット数を１つ増加する。この場合、(1)式におけるＳＮＲは図２に示すＳＮＲ算出テーブルより求める。すなわち、量子化ビット数にＳＮＲを対応させてテーブル化しておき、着目帯域の量子化ビット数に応じたＳＮＲを該テーブルより求める。ビット割り当て部３３は、最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなるまで（全帯域のＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなるまで）、各帯域のＭＮＲの算出、最小ＭＮＲと設定ＭＮＲの比較、最小ＭＮＲの帯域への量子化ビットの割り当て制御を行い、最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなったとき量子化ビットの割り当て制御を終了する。
【００２４】
３４は設定されたＭＮＲの下限値（設定ＭＮＲ）を保持するＭＮＲ保持部であり、所定ＭＮＲ値以下の大きな量子化ノイズの発生を防止し、該ＭＮＲ値以上の量子化ノイズを許容する場合、このＭＮＲ値を設定ＭＮＲとして設定する。３５はビットレート算出部であり、１フレーム期間に各帯域に割り当てた量子化ビット数を考慮して音声データ送出のためのビットレートを決定するものである。図３はサンプリング周波数が48kHzの場合のビットレート算出テーブルであり、ビットレート(kbps)と１フレーム当りのビット数(bit)の対応を保持している。ビットレート算出部３５は、１フレーム期間の全ビット数を求め、ビットレート算出テーブルより１４種類のビットレートのうち所定のビットレートを決定する。尚、１フレーム当りのビット数をＡ、サンプリング周波数をＦs(kHz)、ビットレートＢr(kbps)、１フレームのサンプルデータ数を32×36とすれば、次式

が成立する。従って、ビットレート算出テーブルを使用しなくても次式
Ｂr＝Ａ／（32×36/Ｆs)＝Ａ・Ｆｓ／1152 (3)
よりビットレートが求まる。例えば、Ｆs＝48kHz、１フレーム期間の全量子化ビット数Ａを1152とすれば、(3)式よりビットレートは４８kbpsとなり、ビットレート算出テーブルの値と一致する。
【００２５】
図1に戻って、３６は各帯域に割り当てた量子化ビット数を符号化する符号化部、３７は各帯域における３６サンプルデータに対して共通に１つのスケールファクタを計算するスケールファクタ計算部で、３６個の波形の最大値が１．０になるように正規化し、その正規化倍率をスケールファクタＳｉとして計算、出力するものである。３８は該スケールファクタを符号化する符号化部、３９は量子化部であり、各帯域における３６個のサンプルデータにスケールファクタＳｉをそれぞれ乗算し、乗算結果を該帯域の量子化ビット数で量子化するもの、４０はビット多重部であり、量子化データ、スケールファクタ、量子化ビット数をコード化したものをビット多重し、ビットレート算出部３５で求めたビットレートでビットストリームにして送出するものである。
【００２６】
（ｂ）ビット割り当て処理
図４は本発明におけるビット割り当て処理の説明図で、図１と同一部分には同一符号を付している。３２は聴覚心理モデル、３３はビット割り当て部、３４は設定ＭＮＲを保持するＭＮＲ保持部、３５はビットレート算出部、４０はビット多重部である。
聴覚心理モデル３２は、１フレームｍサンプルの音声信号が入力されると、人間の聴覚特性を考慮して各帯域(Ｎ＝３２）毎のＳＭＲ値を算出する。ビット割り当て部3３は、この各帯域のＳＭＲ値を用いて以下の処理に従って各帯域に量子化のためのビット割り当てを行う。すなわち、(1)式により各帯域のＭＮＲを算出する（ステップ２０１）。この場合、(1)式におけるＳＮＲはＳＮＲテーブル３３ａより求める。
【００２７】
各帯域のＭＮＲが求まれば、これらＭＮＲのうち、最小ＭＮＲを探索し（ステップ２０２）、最小ＭＮＲと設定ＭＮＲの大小を比較する（ステップ２０３）。最小ＭＮＲが設定ＭＮＲより小さければ、該最小ＭＮＲの帯域における量子化ビット数を１増加する（ステップ２０４）。具体的には、各帯域毎の記憶手段３３ｂに量子化ビット数を記憶しておき、最小ＭＮＲに応じた帯域の量子化ビット数を１増加する。
ついで、割り当てた量子化ビット数が変化しているため、あらためて各帯域のＭＮＲを算出し（ステップ２０５）、ステップ２０２以降のループ処理を繰り返えす。尚、実際には、ステップ２０５のＭＮＲ計算処理において、量子化ビット数が１ビット増えた帯域のＭＮＲのみを計算して更新し、他の帯域のＭＮＲは更新しない。
【００２８】
一方、ステップ2０３において、最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなれば、すなわち、全帯域のＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなれば、ビット割り当て部３３は量子化ビットの割り当て処理を終了し、その旨及び各帯域の量子化ビット数をビットレート算出部３５に通知する。
ビットレート算出部３５は該通知により、各帯域に割り当てられた量子化ビット数を合計し、合計値を３６倍して１フレーム当りのビット数Ａを求める。ついで、ビットレート算出部３５は１フレーム当りのビット数Ａを用いて図３のビットレート算出テーブルより、あるいは、(3)式よりビットレートを計算し、ビット多重部４０に入力する。以後、ビット多重部４０は量子化データ、スケールファクタ、量子化ビット数をコード化したものをビット多重し、入力されたビットレートでビットストリームにして送出する。
【００２９】
（ｃ）従来の技術と本発明の違い
具体的に従来と本発明の音声符号化装置の違いを以下の１〜７の信号を使って説明する。１は音声のほとんど存在しない信号（無音状態）、２〜４は白色雑音（違いはレベル）、５〜７は正弦波（違いは周波数）である。
１ほぼ無音に近い信号
２白色雑音１（レベル小）
３白色雑音２（レベル中）
４白色雑音３（レベル大）
５ 1kHz正弦波
６ 7kHz正弦波
７ 15kHz正弦波
従来の音声符号化装置（図１６）でビットレートを128kbpsに固定して上記１〜７の信号をそれぞれ音声符号化すると、ビット割り当てが最終的に決定した時の最小ＭＮＲの平均値は図５、図６に示すようになる(シミュレーション結果による)。
【００３０】
図５において、人間の聴覚上無意味な信号(無音信号)の最小ＭＮＲと第１〜第３白色雑音のＭＮＲを比較すると、雑音レベルが低いほど最小ＭＮＲが大きくなり、無駄に量子化ビットを割り当て、結果的に無駄なビットレートを使用していることがわかる。これは雑音レベルに関係無くすべて同じビットレートを使用しているためである。本発明はこのような無駄なビットレートを使用しないようにする。すなわち、あるレベル以上の雑音を聞こえなくしたい場合、該雑音レベルに応じたＭＮＲ値を設定し、全帯域のＭＮＲが該設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなったときに、量子化ビットの割り当てを停止する。このようにすれば、割り当て量子化ビット数を少なくでき、結果的にビットレートを低くでき、しかも、設定ＭＮＲに応じた雑音レベルより大きな雑音を再生時に聞こえなくできる。例えば、図５の第３白色雑音の最小ＭＮＲ値（=10.12(dB)）を設定ＭＮＲにすると、各帯域の最小ＭＮＲが該設定ＭＮＲ値（=10.12(dB)）より大きくなったときに量子化ビットの割り当てが終了する。これにより、無用なビット割り当てを防止でき、結果的にビットレートを減小でき、しかも、復号装置側で第３白色雑音レベル以上の雑音を聞こえなくできる。
【００３１】
以上は入力白色雑音信号に対する場合であるが、最小ＭＮＲは図６に示すように周波数にも依存する。このため、所定周波数以上の雑音を除去したい場合には、該周波数に応じたＭＮＲを設定することにより、無用なビット割り当てを防止でき、結果的にビットレートを減小でき、しかも、復号装置側で前記周波数以上の雑音を聞こえなくすることができる。
従って、上記処理を常時オンにしておけば、音声の高能率符号化処理方式を適用した音声符号化装置において、入力信号の性質に従った疑似的な可変レート化が実現できる。
以上第１実施例によれば、音声信号の性質（雑音や無音、音響の周波数特性の違い)によって、音声のビットレートを疑似的に可変レート化することができ、余分なビットレート分を画像に割り当てたり、画像と音声の全体のビットレートを下げて伝送効率を向上することができる。
【００３２】
（ｄ）ビット割り当て制御の変形例
ビットレート可変の音声符号化を行う場合、ビットレートが急変すると音質が急変し、これにより違和感が生じる。そこで、ビットレートを滑らかに変化して違和感が生じないようにする必要がある。図７はビットレートの急変が生じないようにしたビット割り当て及びビットレート決定の説明図であり、図４と同一部分には同一符号を付している。４１はビットレート記憶部で、ビットレート算出部３５で算出した前フレームにおけるビットレートを記憶するものである。
ステップ２０１〜ステップ２０５の処理は図４の処理とまったく同じである。ステップ２０３で最小ＭＮＲが設定ＭＮＲより小さければ、ビット割り当て部３３はそれまでのビット割り当て処理において各帯域に割り当てた量子化ビット数の合計値を計算し、該合計値を３６倍して１フレームの合計ビット数を計算する。ついで、該合計ビット数を用いて図３のビットレート算出テーブルより、あるいは、(3)式よりビットレートを算出する(ステップ２５１）。尚、かかるステップ２５１のビットレート算出処理はビットレート算出部３５に依頼して求めることもできる。
【００３３】
ついで、求めたビットレートが前フレームのビットレートより設定幅以上変化したか監視し（ステップ２５２）、変化幅が設定幅以内であれば（ステップ２５３）、ステップ２０４に進んで最小ＭＮＲの帯域における量子化ビット数を１増加する（ステップ２０４）。ついで、割り当てた量子化ビット数が変化しているため、あらためて各帯域のＭＮＲを算出し（ステップ２０５）、以後、ステップ２０２以降のループ処理を繰り返えす。
一方、ステップ２５３において、変化幅が設定幅以上であれば、ビット割り当て部３３はビット割り当て処理を打切り、ビットレート算出部３５にその旨及び各帯域の量子化ビット数を通知する。
【００３４】
ビットレート算出部３５は該通知により、各帯域に割り当てられた量子化ビット数を合計し、合計値を３６倍して１フレーム当りのビット数Ａを求める。ついで、ビットレート算出部３５は１フレーム当りのビット数Ａを用いて図３のビットレート算出テーブルより、あるいは、(3)式よりビットレートを計算し、ビット多重部４０に入力すると共に、ビットレート記憶部４１に記憶する。以後、ビット多重部４０は量子化データ、スケールファクタ、量子化ビット数をコード化したものをビット多重し入力されたビットレートでビットストリームにして送出する。
以上のようにすれば、ビットレートが急変することはなく、音質が急変せず、違和感をなくすことができる。
【００３５】
（Ｂ）第２実施例
図８は本発明の第２実施例の音声符号化装置の構成図であり、図１の第１実施例と同一部分には同一符号を付している。第２実施例では、(1) 背景雑音が発生している時、図１６、図１７の従来方式に従って量子化ビットを割り当て、又、(2) 背景雑音が発生していない時、図１、図４の第１実施例の方式に従って量子化ビットを割り当てるものである。
図８において、５１は第１の量子化ビット割り当て制御部で、背景雑音発生時に、従来方式に従ってビットレート固定で各帯域毎に量子化ビット数を割り当てるもの、５２は第２の量子化ビット割り当て制御部で、背景雑音非発生時に、第１実施例方式に従ってビットレート可変で各帯域毎に量子化ビット数を割り当てるもの、５３は背景雑音を検出する背景雑音検出部、５４は切り替え部で、背景雑音発生時に心理聴覚モデル３２の出力を第１の量子化ビット割り当て制御部５１に入力し、背景雑音非発生時に心理聴覚モデル３２の出力を第２の量子化ビット割り当て制御部５２に入力するものである。
【００３６】
第１の量子化ビット割り当て制御部５１において、５５はビットレート固定の従来のビット割り当て処理に従って各帯域に量子化ビット数を割り当てるビット割り当て部、５６は雑音ビットレート設定部であり、あらかじめ外部より背景雑音時の低ビットレートを設定するもの、３６は各帯域の量子化ビット数を符号化して出力する符号化部であり、この符号化部３６は第２の量子化ビット割り当て制御部５２と共通に設けられている。
第２の量子化ビット割り当て制御部５２において、３３は第１実施例のビット割り当て処理に従って各帯域の量子化ビット数を割り当てるビット割り当て部、３４は設定されたＭＮＲを保持するＭＮＲ保持部、３５は各帯域に割り当てた量子化ビット数に基づいてビットレートを決定するビットレート算出部、３６は各帯域の量子化ビット数を符号化して出力する符号化部である。
【００３７】
背景雑音検出部５３は、図９に示すように、信号パワー算出部５３ａと、信号パワーレベル監視部５３ｂを備えている。信号パワー算出部５３ａは入力音声信号Ｘi (i=1、2、・・・)の所定時間のパワーを次式
Ｙ＝Σ（Ｘ²） (i=1,2,・・・)
により算出する。信号パワーレベル監視部５３ｂは算出されたパワーＹを監視し、該パワーが一定時間（例えば１秒）略同じレベルが続いたとき、それを背景雑音であると判断し、それを表わす信号を出力する（例えばハイレベル”１”）。一方、背景雑音以外と判断すればそれを表わす信号を出力する（例えばローレベル”０”）。
【００３８】
図１０は第２実施例の処理フローである。
背景雑音検出部５３により背景雑音が検出されたかチェックする（ステップ３０１）。背景雑音が検出されていなければ、切り替え部５４は心理聴覚モデル３２で算出された各帯域(Ｎ＝３２）のＳＭＲ値を第２の量子化ビット割り当て制御部５２に入力する。第２の量子化ビット割り当て制御部５２は、第１実施例と同様のビット割り当て制御を行うと共にビットレートを決定し（図４参照）、量子化部３９は決定された各帯域の量子化ビット数に基づいて各帯域の音声信号を量子化し（ステップ３０２）、ビット多重部４０は量子化データ、スケールファクタ、量子化ビット数をコード化したものを多重し、ビットレート算出部３５で算出したビットレートでこれら多重データをビットストリームにして送出する（ステップ３０３）。
【００３９】
一方、ステップ３０１において、背景雑音が検出されていると、切り替え部５４は心理聴覚モデル３２で算出された各帯域(Ｎ＝３２）のＳＭＲ値を第１の量子化ビット割り当て制御部５１に入力する。第１の量子化ビット割り当て制御部５１は、雑音ビットレートに基づいて図１６、図１７の従来方式に従って各帯域の量子化ビットを割り当て、量子化部３９は決定された各帯域の量子化ビット数に基づいて各帯域の音声信号を量子化し（ステップ３０４）、ビット多重部４０は量子化データ、スケールファクタ、量子化ビット数をコード化したものを多重し、低ビットレートである雑音ビットレートでこれら多重データをビットストリームにして送出する（ステップ３０３）。
【００４０】
以上第２実施例によれば、背景雑音時、低ビットレートである雑音ビットレートで音声信号を符号化して伝送するため伝送路の信号伝送効率を向上することができる。又、第２実施例によれば、非背景雑音時、第１実施例と同様の効果を得ることができる。すなわち、音声のビットレートを可変することができ、余分なビットレート分を画像伝送に割り当てたり、画像と音声の全体のビットレートを下げて伝送効率を向上することができる。又、背景雑音が無意味な音声であるようなテレビ会議装置に本方法を適用し、背景雑音時のビットレートを固定で低く設定することで、伝送路の有効利用ができる。
【００４１】
ところで、ビットレートを急変すると、音質が急変し、これにより違和感が生じる。そこで、第２の量子化ビット割り当て制御部５２は第１実施例の変形例（図７）と同様の処理を行うことによりビットレートを滑らかに変化して違和感が生じないようにする。すなわち、第２の量子化ビット割り当て制御部５２は、量子化ビット数の割り当て処理中において、それまで各帯域に割り当てたトータルのビットより求まるビットレートが前フレームのビットレートから大幅に変化したか監視し、ビットレートが前フレームにおけるビットレートから大幅に変化したとき、ビット割り当て処理を打切り、量子化部３９はビット割り当て打切り時までに各帯域に割り当てられている量子化ビット数で各帯域の音声信号を量子化する。
以上、本発明を実施例により説明したが、本発明は請求の範囲に記載した本発明の主旨に従い種々の変形が可能であり、本発明はこれらを排除するものではない。
【００４２】
【発明の効果】
以上本発明の音声符号化装置によれば、各帯域におけるＭＮＲ値が設定ＭＮＲ値以上になるまで量子化ビット数を各帯域に割り当てて量子化すれば良く、無音信号あるいは無音に近い信号時に各帯域に大きな量子化ビット数を割り当てる必要がなくなり、伝送効率を向上でき、しかも、復号側において再生時に設定ＭＮＲ値以下の量子化ノイズを聞こえなくできる。
【００４３】
又、本発明の音声符号化装置によれば、ビット割り当て手段は、量子化ビット数の割り当て処理中において、それまで各帯域に割り当てたトータルのビット数を用いて求まるビットレートが前フレームのビットレートから大幅に変化したか監視し、ビットレートが前フレームにおけるビットレートから大幅に変化したとき、ビット割り当て処理を打切り、量子化手段はビット割り当て打切り時までに各帯域に割り当てられている量子化ビット数で各帯域の音声信号を量子化するから、ビットレートが急変せず、滑らかに変化するため、音質の急変をなくせ違和感をなくすことができる。
【図面の簡単な説明】
【図１】本発明の第１実施例の音声符号化装置の構成図である。
【図２】ＳＮＲ算出テーブルである。
【図３】ビットレート算出テーブル（サンプリング周波数48KHzの場合)である。
【図４】ビット割り当て及びビットレート決定制御説明図である。
【図５】従来技術での入力白色雑音信号に対する平均ＭＮＲ値の説明図である。
【図６】従来技術での入力正弦波信号に対する平均ＭＮＲ値の説明図である。
【図７】ビット割り当て及びビットレート決定の別の制御説明図である。
【図８】本発明の第２実施例の音声符号化装置の構成図である。
【図９】背景雑音検出部の具体的な実施例である。
【図１０】第２実施例の処理フローである。
【図１１】遠隔監視システムの構成図である。
【図１２】マスキングしきい値特性図である。
【図１３】フレーム構成説明図である。
【図１４】オーディオビットストリームの構造説明図である。
【図１５】オーディオビットストリームのオーディオデータ部の構成図である。
【図１６】従来の音声符号器の構成図である。
【図１７】従来のビット割り当て部のビット割り当て制御説明図である。
【符号の説明】
３１・・帯域分割フィルタ
３２・・心理聴覚モデル
３３・・ビット割り当て部
３４・・ＭＮＲ保持部
３５・・ビットレート決定部
３６・・量子化ビット数を符号化する符号化部
３７・・スケールファクタ計算部
３８・・スケールファクタを符号化する符号化部
３９・・量子化部
４０・・ビット多重部

Claims

音声信号を複数の帯域に分割し、各帯域毎に量子化ビット数を割り当て、各帯域の音声信号を割り当てられたビット数で量子化して送出する音声符号化装置において、
音声マスクレベルＭに対する量子化ノイズレベルＮの比ＭＮＲを各帯域毎に算出するＭＮＲ算出手段、
ＭＮＲの下限値を設定するＭＮＲ設定手段、
各帯域におけるＭＮＲのうち最小ＭＮＲと前記設定ＭＮＲを比較する手段、最小ＭＮＲが設定ＭＮＲより小さい場合には、最小ＭＮＲに対応する帯域の量子化ビット数を１つ増加する手段、
最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなるまで、各帯域のＭＮＲの算出、最小ＭＮＲと設定ＭＮＲの比較、最小ＭＮＲの帯域への量子化ビットの割り当て制御を行い、最小ＭＮＲが設定ＭＮＲに等しくあるいは設定ＭＮＲより大きくなったとき量子化ビットの割り当て制御を終了するビット割り当て手段、
各帯域の音声信号を割り当てられた量子化ビット数で量子化する手段、
各帯域に割り当てた量子化ビット数を考慮して音声データ送出のためのビットレートを決定するビットレート決定手段、
を備え、前記ビット割り当て手段は、量子化ビット数の割り当て処理中において、それまで各帯域に割り当てたトータルのビット数より求まるビットレートが前フレームのビットレートから大幅に変化したか監視し、大幅に変化したときビット割り当て処理を打切り、前記量子化手段はビット割り当て打切り時までに各帯域に割り当てられている量子化ビット数で各帯域の音声信号を量子化する、
ことを特徴とする音声符号化装置。