JP4259401B2

JP4259401B2 - 音声処理装置及び音声符号化方法

Info

Publication number: JP4259401B2
Application number: JP2004164511A
Authority: JP
Inventors: 博康井手
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2004-06-02
Filing date: 2004-06-02
Publication date: 2009-04-30
Anticipated expiration: 2024-06-02
Also published as: JP2005345707A

Description

本発明は、音声処理装置及び音声符号化方法に関する。

音声信号に、周波数変換、ベクトル量子化及びエントロピー符号化を施して、特定の周波数成分を削除することにより、音声信号は効率良く圧縮される。特定の周波数成分を削除する処理では、エントロピー符号化後のデータ量を目標データ量以下に抑えるために、エネルギーが最も小さい周波数成分から音声信号が削除される（例えば、特許文献１参照。）。
特開２００１−１６６７９７号公報

しかしながら、エネルギーの小さい周波数成分から音声信号を削除することによって音声信号のデータ量を小さくする方法では、目標データ量がある程度低く設定されていると、雑音が残ってしまうことがあった。

本発明の課題は、音声信号の符号化（圧縮）処理において、他の周波数成分から孤立して存在する周波数成分を削除することにより、雑音を軽減させることである。

本発明に係る音声処理装置は、入力された音声信号をフレームに分割するフレーム化部と、前記フレーム化部により得られたフレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整するレベル調整部と、前記レベル調整部によりレベルが調整された音声信号に対し、周波数変換を施す周波数変換部と、前記周波数変換により得られた音声信号に対し、ベクトル量子化を施すベクトル量子化部と、前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すエントロピー符号化部と、前記エントロピー符号化部により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定する判定部と、前記判定部により、前記エントロピー符号化部により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除する第１の削除処理と、周波数軸上で隣り合う周波数成分が０で、かつ振幅値の絶対値が所定値より大きい周波数成分を削除する第２の削除処理を行うデータ削除部と、前記データ削除部でデータ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせるコントロール部と、を備えることを特徴としている。

また、前記データ削除部の第２の削除処理において、前記所定値は全周波数成分の振幅値の最大値から算出される値であることが好ましい。

また、前記データ削除部は、前記周波数変換部により得られた音声信号の高周波成分の値が低周波成分の値より大きいか否かを判定し、当該音声信号の高周波成分の値が低周波成分の値以下であると判定された場合に、周波数軸上で予め設定された周波数間隔以上離れて存在する高周波成分を削除するとともに、前記第２の削除処理を実行することが好ましい。

本発明に係る音声処理装置は、入力された音声信号をフレームに分割するフレーム化部と、前記フレーム化部により得られたフレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整するレベル調整部と、前記レベル調整部によりレベルが調整された音声信号に対し、周波数変換を施す周波数変換部と、前記周波数変換により得られた音声信号に対し、ベクトル量子化を施すベクトル量子化部と、前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すエントロピー符号化部と、前記エントロピー符号化部により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定する判定部と、前記判定部により、前記エントロピー符号化部により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除する第１の削除処理と、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除する第２の削除処理を行うデータ削除部と、前記データ削除部でデータ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせるコントロール部と、を備えることを特徴としている。

また、前記データ削除部は、前記周波数変換部により得られた音声信号の高周波成分の値が低周波成分の値より大きいか否かを判定し、当該音声信号の高周波成分の値が低周波成分の値以下であると判定された場合に、当該高周波成分の中から、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除することが好ましい。

更に、前記データ削除部は、前記周波数変換部により得られた音声信号における各周波数成分の対数を演算し、高周波成分における対数の和と、低周波成分における対数の和を比較することによって、当該音声信号の高周波成分の値が低周波成分の値より大きいか否かを判定することが好ましい。

また、前記データ削除部は、前記レベル調整部によりレベルが調整された音声信号を、高域通過フィルタと低域通過フィルタにより高周波成分と低周波成分に分離し、当該高域通過フィルタと低域通過フィルタにより得られた高周波成分の値が低周波成分の値より大きいか否かを判定することが好ましい。

本発明に係る音声符号化方法は、入力された音声信号をフレームに分割し、フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整し、レベルが調整された音声信号に対し、周波数変換を施し、前記周波数変換により得られた音声信号に対し、ベクトル量子化を施し、前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施し、前記エントロピー符号化により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定し、前記エントロピー符号化により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除し、周波数軸上で隣り合う周波数成分が０で、かつ振幅値の絶対値が所定値より大きい周波数成分を削除し、前記データ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせることを特徴としている。

本発明に係る音声符号化方法は、入力された音声信号をフレームに分割し、フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整し、レベルが調整された音声信号に対し、周波数変換を施し、前記周波数変換により得られた音声信号に対し、ベクトル量子化を施し、前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施し、前記エントロピー符号化により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定し、前記エントロピー符号化により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除し、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除し、前記データ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせることを特徴としている。

本発明によれば、エントロピー符号化後のデータ量を目標データ量以下に抑えるために、エネルギーの小さい周波数成分を音声信号から削除するようにした音声符号化を行う場合に、周波数軸上で隣り合う周波数成分が０でかつ振幅値の絶対値が所定値より大きい周波数成分を削除することで、雑音を軽減させることができる。

また、本発明によれば、エントロピー符号化後のデータ量を目標データ量以下に抑えるために、エネルギーの小さい周波数成分を音声信号から削除するようにした音声符号化を行う場合に、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除することにより、雑音を軽減させることができる。

以下、図面を参照して、本発明の実施形態について詳細に説明する。
まず、本実施形態における構成について説明する。

図１は、本発明の実施形態の音声処理装置１００の構成を示すブロック図である。音声処理装置１００は、図１に示すように、Ａ／Ｄ変換部１、ＤＣ（Direct Current）除去部２、フレーム化部３、レベル調整部４、周波数変換部５、周波数並べ替え部６、ベクトル量子化部７、エントロピー符号化部８、レートコントローラ９、データ削除部１０により構成される。

Ａ／Ｄ変換部１は、入力された音声アナログ信号をデジタル信号に変換し、ＤＣ除去部２に出力する。サンプリング周波数は、16kHz程度が望ましいが、11.025kHz、22.05kHz等でもかまわない。

ＤＣ除去部２は、Ａ／Ｄ変換部１から入力された音声信号の直流成分を除去し、フレーム化部３に出力する。音声信号の直流成分を除去するのは、直流成分が音質にほとんど無関係であることによる。直流成分の除去は、例えば、高域通過フィルタによって実現することができる。高域通過フィルタには、例えば、式（１）で表されるものがある。

フレーム化部３は、ＤＣ除去部２から入力された信号を、圧縮の処理単位であるフレームに分割し、レベル調整部４に出力する。ここで、１つのフレームには、１つ以上、好ましくは４つ以上のブロックが含まれる長さにする。１ブロックは、１回のＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）を行う単位であり、ＭＤＣＴの次数分の長さを有する。以下、１フレームを構成する各ブロックをＭＤＣＴブロックと呼ぶことにする。図２に、入力信号と各フレームとの関係を示し、図３に、１フレームと各ＭＤＣＴブロックとの関係を示す。図３に示すように、各ＭＤＣＴブロックは直前のＭＤＣＴブロックと、ＭＤＣＴブロックの半分の長さの重複部分を有する。また、図２に示すように、各フレームは、直前のフレームと、ＭＤＣＴブロックの半分の長さの重複部分を有する。

レベル調整部４は、フレーム毎に、入力された音声信号のレベル調整を行い、レベル調整された信号を周波数変換部５に出力する。レベル調整とは、１フレーム中に含まれる信号の振幅の最大値を、指定されたビット（以下、制圧目標ビット）数に収まるようにすることである。レベル調整は、例えば、１フレーム中の信号の最大振幅をｎbit、制圧目標ビット数をＮとすると、フレーム中の信号を全て、式（２）を満たすshift_bit数分ＬＳＢ（Least Significant Bit：最下位ビット）側にシフトすることによって実現できる。

音声再生時には、振幅が制圧目標ビット以下に制圧された信号を元に戻す必要があるため、shift_bitを表す信号を、音声圧縮信号の一部として出力する。

周波数変換部５は、レベル調整部４から入力された信号に対し周波数変換を施し、周波数並べ替え部６に出力する。本実施形態では、周波数変換としてＭＤＣＴ（Modified Discrete Cosine Transform：変形離散コサイン変換）を用いる場合を示す。ＭＤＣＴブロックの長さをＭ、入力信号を｛ｘ_n｜n=0,…,M-1｝とすると、ＭＤＣＴ係数｛Ｘ_k｜n=0,…,M-1｝は式（３）で表される。

ここで、ｈ_nは窓関数であり、式（４）で表される。

なお、ブロック長Ｍは、１６ｋＨｚ程度のサンプリング周波数の音声では、２５６程度の値が考えられる。

周波数並べ替え部６は、周波数変換部５から入力されたＭＤＣＴ係数を周波数毎に並べ替え、同一周波数帯域の係数をまとめてベクトル化し、ベクトル量子化部７に出力する。このように、同一周波数帯域の信号をまとめてベクトル化すると、例えば、定常信号を多く含む場合、後のベクトル量子化の精度が向上する。１フレームにＭＤＣＴブロックがｍ個あり、各ＭＤＣＴでＭＤＣＴ係数がＭ/２個算出された場合、ｉ番目のＭＤＣＴブロックのｊ番目のＭＤＣＴ係数をＸ_ijとすると、ｊ番目の周波数帯域をまとめたベクトルＦ_jは、Ｆ_j＝｛Ｘ_ij｜i=0,…,m-1｝,j=0,…,M/2-1となる。

ベクトル量子化部７は、複数の音声パターンを示す代表ベクトルを格納したＶＱ（Vector Quantization）テーブルを有し、周波数並べ替え部６で作成されたベクトルＦ_jと、ＶＱテーブルに格納された各代表ベクトルを比較し、最も類似した代表ベクトルが示すインデックスを符号としてエントロピー符号化部８に出力する。

例えば、ベクトル長Ｎの符号化対象のベクトルを｛ｓ_j｜j=1,…,N｝、ＶＱテーブルに格納されたｋ個の代表ベクトルを｛Ｖ_i｜i=1,…,k｝、Ｖ_i＝｛ｖ_ij｜j=1,…,N｝とすると、符号化対象のベクトルと、ＶＱテーブルに格納されたｉ番目の代表ベクトルの各要素ｖ_ijの誤差ｅ_iが最小となるようなｉ（インデックス）を、出力する符号とする。誤差ｅ_iの算出式を式（５）に示す。

代表ベクトルの数ｋとベクトル長Ｎは、ベクトル量子化に要する処理時間やＶＱテーブルの容量等を勘案して決定される。例えば、ベクトル長を２にして代表ベクトル数を２５６にしたり、ベクトル長を４にして代表ベクトル数を８１９２（＝２¹³）にしたりするなど、自由な組み合わせが考えられる。

音声は、高域周波数部分と低域周波数部分で異なる特性がある場合が多いため、本実施形態では、高域と低域で異なるＶＱテーブルを用いることにする。高域用の代表ベクトルが格納されたＶＱテーブルを高域用ＶＱテーブル７ａ、低域用の代表ベクトルが格納されたＶＱテーブルを低域用ＶＱテーブル７ｂとする。周波数並べ替え部６で作成されたベクトルＦ_j＝｛Ｘ_ij｜i=0,…,m-1｝,j=0,…,M/2-1において、高域と低域の境界は、周波数帯域を示すｊを単純に半分に分ければよい。即ち、Ｆ₀,Ｆ₁,…,Ｆ_M/4-1を低域、Ｆ_M/4,Ｆ_M/4+1,…,Ｆ_M/2-1を高域とすればよい。従って、低域のベクトルＦ₀,Ｆ₁,…,Ｆ_M/4-1は、低域用ＶＱテーブル７ｂに格納された各代表ベクトルと比較され、最も類似した代表ベクトルが示すインデックスが符号として出力される。同様に、高域のベクトルＦ_M/4,Ｆ_M/4+1,…,Ｆ_M/2-1は、高域用ＶＱテーブル７ａに格納された各代表ベクトルと比較され、最も類似した代表ベクトルが示すインデックスが符号として出力される。

エントロピー符号化部８は、ベクトル量子化部７から入力された符号に対してエントロピー符号化を施し、レートコントローラ９に出力する。エントロピー符号化とは、信号の統計的性質を利用して、符号をより短い符号へと変換する符号化方式であり、ハフマン（Huffman）符号化、算術符号化、レンジコーダ（Range Coder）による符号化等がある。エントロピー符号化の詳細については、後に図４〜図８を参照して説明する。

レートコントローラ９は、エントロピー符号化で得られた符号のデータ量が、予め設定された目標データ量より大きいか否かを判定し、エントロピー符号化で得られた符号のデータ量が目標データ量より大きいと判定した場合、データ削除部１０に対し、符号のデータ量の抑制を要求する。エントロピー符号化で得られた符号のデータ量が目標データ量以下であると判定した場合は、レートコントローラ９は、エントロピー符号化で得られた符号を音声圧縮信号として出力する。レートコントローラ９から出力された音声圧縮信号は、記録媒体に記録されたり、通信ネットワークを介して外部装置に伝送されたりする。

データ削除部１０は、レートコントローラ９により、エントロピー符号化で得られた符号のデータ量が目標データ量より大きいと判定された場合、エネルギー｜Ｆ_j｜²が最小の帯域を削除するとともに、周波数軸上で隣り合う周波数成分との振幅値の差の絶対値が所定値より大きい周波数成分を削除し、また、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除する帯域データ削除処理を実行する（図１０〜図１２参照）。周波数軸上で隣り合う周波数成分との振幅値の差の絶対値が所定値より大きい周波数成分とは、周波数成分の振幅値の絶対値が所定値以上であり、かつ周波数軸上で隣り合う周波数成分の値が０である帯域の周波数成分を示す。そして、データ削除部１０は、帯域データ削除処理後の音声信号をエントロピー符号化部８に出力し、再度、エントロピー符号化を要求する。帯域データ削除処理については、後に図１０〜図１２を参照して詳細に説明する。

〈エントロピー符号化〉
以下では、本実施形態で適用されるエントロピー符号化の例として、ハフマン符号化、レンジコーダによる符号化について説明する。

（ハフマン符号化）
ハフマン符号化とは、出現頻度の高い記号には短い符号を割り当て、出現頻度の低い記号には長い符号を割り当てることで、全体のデータ量を圧縮する方式である。例えば、４つの記号｛ａ、ｂ、ｃ、ｄ｝からなる１００文字のデータがあったとする。全ての記号に同じ長さの２進数の符号（固定長符号）を割り当てる場合、４つの記号を表すには２ビットが必要であるため、１００文字のデータ量は、２[bit]×１００＝２００[bit]となる。

ハフマン符号化では、各記号の出現頻度に応じて２進数の符号が割り当てられる。図４に、１００文字のデータ中の各記号ａ、ｂ、ｃ、ｄの出現頻度が、それぞれ、１０、７０、１、１９である場合に各記号に割り当てられた２進数の符号の例を示す。図４に示すように、記号ａ、ｂ、ｃ、ｄに、それぞれ、符号１００、０、１０１、１１が割り当てられた場合、１００文字のデータ量は、３[bit]×１０＋１[bit]×７０＋３[bit]×１＋２[bit]×１９＝１４１[bit]となり、データ量は、固定長符号のデータ量の７０％に圧縮される。

（レンジコーダによる符号化）
符号化前の元信号に含まれる記号の集合をＳ＝｛s_i|i=1,…,n｝とし、各記号s_iの出現確率をｐ_iとする。また、元信号に含まれる各記号s_iを予め決められた順番に並べ替えた記号列｛s₁、s₂、…、s_n｝において、記号s_k（ｋ≧２）より前に並んでいる各記号の出現確率の合計をＧ_kとする。即ち、Ｇ_kは、式（６）のように表される。

レンジコーダによる符号化では、記号毎に出現確率ｐ_iとＧ_iを対応付けて格納したテーブル（以下、生起確率テーブルという。）に基づいて、入力済みの信号が示す記号列に、数値で示す範囲（下限、幅）を設定する処理を行う。入力済みの信号に設定される範囲（下限、幅）は、直前に入力された信号に設定された範囲と生起確率テーブルに基づいて決定される。

符号化対象の信号s_kが入力されたときに設定される幅をrange'、下限をlow'とし、その信号s_kの１つ前の信号が入力されたときに設定された幅をrange、下限をlowとすると、幅range'、下限low'は、それぞれ、式（７）、式（８）のように表される。
range'＝range×ｐ_k （７）
low'＝low＋range×Ｇ_k （８）
式（７）及び式（８）で算出されたrange'、low'が、次の信号が入力されたときのrange、lowとなる。

式（７）及び式（８）で示す算出処理は、入力信号がなくなるまで行われ、最後の信号が入力されたときに算出されたrange、lowに基づいて決定される範囲low〜low＋rangeの間の値が符号値として出力される。

図５に、レンジコーダ符号化の例を示す。図５（ａ）に、元信号に含まれる記号の集合がＳ＝｛s₁=ａ、s₂=ｂ、s₃=ｃ、s₄=ｄ｝であるときの生起確率テーブルの一例を示す。また、図５（ｂ）に、記号列｛ｂａｃａ｝に対する符号化の一例を示す。図５（ｂ）では、記号列を示す符号を１０進数とし、lowの初期値を０、rangeの初期値を１０⁶とした場合を示している。図５（ｂ）において、「入力信号」項目は、入力された記号を示し、「記号列」項目は、これまでに入力された記号列を示し、「low」項目は、式（８）により算出されるlow'を示し、「range」項目は、式（７）により算出されるrange'を示す。また、「範囲」項目は、low及びrangeから決定される符号値の範囲を示す。図５（ｂ）において、［ｘ、ｙ）という表記は、符号値Ｚがｘ≦Ｚ＜ｙを満たすことを意味する。図５（ｂ）によると、５９３７５０≦Ｚ＜６０３１２５を満たす符号値Ｚのうちの１つ（例えば、６０００００）が、記号列｛ｂａｃａ｝を符号化した結果として出力されることになる。

このように、レンジコーダによる符号化では、予め決められた出現確率を利用して入力される各記号を符号化しているため、元信号に含まれる各記号の出現確率が固定された情報源からの発生であれば非常に有効である。しかしながら、符号化対象となる信号が、出現確率が一定の情報源から発生されていることは極めてまれである。よって、上述のレンジコーダによる符号化では、各記号の出現確率が符号化対象となる信号に適応していない。そこで、本実施形態では、レンジコーダ符号化において、信号が入力される度に出現確率を更新させるようにすることによって、実際の信号に適応可能にした。以下、本実施形態のレンジコーダによる符号化について説明する。

上述と同様に、符号化前の元信号に含まれる記号の集合をＳ＝｛s_i|i=1,…,n｝とする。元信号に含まれる記号s_iの出現頻度をｇ_i、出現頻度ｇ_iの合計をｃｕｍ、各記号s_iの出現確率をｐ_iとすると、ｃｕｍ、ｐ_iは、それぞれ、式（９）、式（１０）のように表される。

エントロピー符号化部８は、入力された信号に幅range及び下限lowを設定するためのテーブルとして、図６に示すような生起確率テーブル８１を有する。生起確率テーブル８１は、図６に示すように、各記号毎に、出現頻度ｇ_i、出現確率ｐ_i、Ｇ_iの各項目を対応付けて格納している。Ｇ_iの定義は、式（６）で示したとおりである。

エントロピー符号化部８に符号化対象の信号s_kが入力されたときに設定される幅をrange'、下限をlow'とし、その信号s_kの１つ前の信号が入力されたときに設定された幅をrange、下限をlowとすると、幅range'、下限low'は、それぞれ、式（１１）、式（１２）のように表される。

式（１１）及び式（１２）で算出されたrange'、low'が、次の信号が入力されたときのrange、lowとなる。

信号s_kの入力によりrange、lowが算出されると、エントロピー符号化部８は、式（１２−１）に示すように、出現確率ｇ_kに１を加算し、算出された出現確率ｇ_k'を新たなｇ_kとする。
ｇ_k'＝ｇ_k＋１（１２−１）
エントロピー符号化部８は、出現確率ｇ_kの加算に伴い、ｃｕｍ、出現確率ｐ_i、Ｇ_iを再計算し、生起確率テーブル８１を更新する。エントロピー符号化部８は、これらの処理を、入力信号がなくなるまで行い、最後の信号が入力されたときに算出されたrange、lowに基づいて決定される範囲low〜low＋rangeの間の値を符号値として出力する。

図７及び図８に、本実施形態のレンジコーダ符号化の例を示す。図７（ａ）に、元信号に含まれる記号の集合がＳ＝｛s₁=ａ、s₂=ｂ、s₃=ｃ、s₄=ｄ｝であるときのデフォルトの生起確率テーブル８１の一例を示す。図７（ａ）に示すデフォルトの生起確率テーブル８１のp_i及びＧ_iは、図５（ａ）に示す生起確率テーブルと同一であるものとする。また、図７（ｂ）には、図５（ｂ）に示した記号列と同一の記号列｛ｂａｃａ｝に対する符号化の一例を示す。図７（ｂ）においても、記号列を示す符号を１０進数とし、lowの初期値を０、rangeの初期値を１０⁶とする。図７（ｂ）において、「入力信号」項目は、入力された記号を示し、「記号列」項目は、これまでに入力された記号列を示し、「low」項目は、式（１２）により算出されるlow'を示し、「range」項目は、式（１１）により算出されるrange'を示す。また、「範囲」項目は、low及びrangeから決定される符号値の範囲を示す。また、「生起確率テーブル」項目は、記号の入力毎に更新された生起確率テーブルを示す。図８に、記号の入力毎に更新された生起確率テーブルを示す。図７（ｂ）によると、記号の入力毎に生起確率テーブルを更新することで、記号列｛ｂａｃａ｝が示す「範囲」は、図５（ｂ）に示した生起確率テーブルが固定された場合と異なり、５９１９９２≦Ｚ＜５９９７５７を満たす符号値Ｚのうちの１つが、記号列｛ｂａｃａ｝を符号化した結果として出力されることになる。

次に、本実施形態における動作について説明する。
まず、図９のフローチャートを参照して、音声処理装置１００において実行される音声圧縮処理について説明する。

まず、音声アナログ信号が入力されると、Ａ／Ｄ変換部１において、入力された音声アナログ信号が音声デジタル信号に変換される（ステップＳ１）。以下、符号化対象の音声デジタル信号を単に音声信号を呼ぶことにする。次いで、ＤＣ除去部２において、音声信号の直流成分が削除され（ステップＳ２）、フレーム化部３において、直流成分削除後の音声信号がフレームに分割される（ステップＳ３）。

次いで、レベル調整部４において、フレーム毎に、入力された音声信号のレベルが調整され（ステップＳ４）、周波数変換部５において、レベル調整後の音声信号に対し、ＭＤＣＴが施される（ステップＳ５）。次いで、周波数並べ替え部６において、ＭＤＣＴ係数が周波数毎に並べ替えられ（ステップＳ６）、同一周波数帯域の係数がまとめてベクトル化される。

次いで、ベクトル量子化部７において、高域のＭＤＣＴ係数のベクトルと高域用ＶＱテーブル７ａに格納された代表ベクトルが比較されるとともに、低域のＭＤＣＴ係数のベクトルと低域用ＶＱテーブル７ｂに格納された代表ベクトルが比較され、最も類似した代表ベクトルが示すインデックスが符号として出力される（ステップＳ７）。

次いで、ベクトル量子化後の音声信号に対し、フレーム毎にエントロピー符号化が施され（ステップＳ８）、エントロピー符号化後の信号が音声圧縮信号としてレートコントローラ９に出力される。次いで、レートコントローラ９において、エントロピー符号化部８から入力された１フレーム分の音声圧縮信号が予め設定された目標データ量以下であるか否かが判定される（ステップＳ９）。

ステップＳ９において、入力された音声圧縮信号が目標データ量より大きいと判定された場合（ステップＳ９；ＮＯ）、データ削除部１０において、帯域データ削除処理が行われ（ステップＳ１１）、再度、該当するフレームに対するエントロピー符号化が行われる（ステップＳ８）。ステップＳ１１の帯域データ削除処理については、後に図１０を参照して詳細に説明する。

ステップＳ９において、入力された音声圧縮信号が目標データ量以下であると判定された場合（ステップＳ９；ＹＥＳ）、エントロピー符号化部８に次のフレームの音声信号が入力されたか否かが判定される（ステップＳ１０）。ステップＳ１０において、エントロピー符号化部８に次のフレームの音声信号が入力されたと判定された場合（ステップＳ１０；ＹＥＳ）、再度、そのフレームに対するエントロピー符号化が行われる（ステップＳ８）。ステップＳ１０において、エントロピー符号化部８に入力された全てのフレームに対するエントロピー符号化が終了したと判定された場合（ステップＳ１０；ＮＯ）、本音声圧縮処理が終了する。

次に、図１０のフローチャートを参照して、図９のステップＳ１１に示した帯域データ削除処理について説明する。

まず、ステップＳ７のベクトル量子化により得られた音声信号の中から、エネルギー｜Ｆ_j｜²が最小の周波数帯域（周波数成分）が削除される（ステップＳ２０）。次いで、ステップＳ６で算出された周波数信号の高周波成分の値と低周波成分の値が比較され、処理対象の音声信号が、高周波成分の多い信号（波形）であるか否かが判定される（ステップＳ２１）。

ステップＳ２１における低周波成分と高周波成分との比較は、以下のように、処理対象の音声信号を低周波成分と高周波成分に分け、各々の合計を比較すればよい。処理対象の音声信号がＮ個の周波数成分[Ｆ_i|i=0,…,N-1]に分離されているとすると、低周波成分の合計Ｆ_L、高周波成分の合計Ｆ_Hは、それぞれ、下記の式（１３）、式（１４）のように定義される。

Ｆ_H＞Ｆ_Lである場合に、高周波成分の多い信号（波形）であると判断される。音の大きさは対数的に感じられるため、式（１３）及び式（１４）に示すように、周波数成分の対数をとって合計することにより、処理対象の音声信号が高周波成分の多い信号であるか否かを確実に判断することができる。

ステップＳ２１において、処理対象の音声信号が高周波成分の多い信号（波形）であると判定された場合（ステップＳ２１；ＹＥＳ）、孤立周波数成分削除処理が行われ（ステップＳ２３）、本帯域データ削除処理が終了する。ステップＳ２３の孤立周波数成分削除処理については、後に図１２を参照して詳細に説明する。

ステップＳ２１において、処理対象の音声信号が高周波成分の少ない信号（波形）であると判定された場合（ステップＳ２１；ＮＯ）、高周波成分の信号のうち、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除する高域雑音削除処理が行われる（ステップＳ２２）。ステップＳ２２の高域雑音削除処理については、後に図１１を参照して詳細に説明する。高域雑音削除処理が終了すると、高周波成分以外でもクリップ音が入るのを防ぐために、高域雑音削除処理後の音声信号に対し、孤立周波数成分削除処理が行われ（ステップＳ２３）、本帯域データ削除処理が終了する。

なお、式（１３）及び式（１４）で示した低周波成分と高周波成分との分離は、ＨＰＦ（High Pass Filter：高域通過フィルタ）及びＬＰＦ（Low Pass Filter：低域通過フィルタ）を用いて行うこともできる。この場合、レベル調整部４においてレベル調整された音声信号がデータ削除部１０に出力され、データ削除部１０において、ＬＰＦ及びＨＰＦを用いて、音声信号が以下のように低周波成分及び高周波成分に分離される。レベル調整部４から出力された音声信号を｛ｘ_n｜n=0,…,M-1｝とすると、低周波成分の合計Ｘ_L、高周波成分の合計Ｘ_Hは、それぞれ、下記の式（１５）、式（１６）のように定義される。

Ｘ_H＞Ｘ_Lである場合に、高周波成分の多い信号（波形）であると判断される。

次に、図１１のフローチャートを参照して、図１０のステップＳ２２に示した高域雑音削除処理について詳細に説明する。以下では、音声信号がＮ個の周波数成分[Ｆ_i|i=0,…,N-1]に分離されているものとし、音声信号のサンプリング周波数をｆ_s(Hz)とし、処理対象となる高周数成分の帯域をＳ(Hz)以上とし、予め設定された周波数間隔をＴとする。

まず、周波数成分を指定するためのカウンタ値ｊがｊ＝Ｓ×２Ｎ／ｆ_sに設定される（ステップＳ３０）。本高域雑音削除処理の対象となる高周波成分は、ｊ番目の周波数成分よりも高域となる。次いで、現在のカウンタ値ｊがＮ未満であるか否かが判定される（ステップＳ３１）。ステップＳ３１において、カウンタ値ｊがＮ以上であると判定された場合（ステップＳ３１；ＮＯ）、本高域雑音削除処理が終了する。

ステップＳ３１において、カウンタ値ｊがＮ未満であると判定された場合（ステップＳ３１；ＹＥＳ）、ｊ番目の周波数成分Ｆ_jが０であるか否かが判定される（ステップＳ３２）。ステップＳ３２において、ｊ番目の周波数成分Ｆ_jが０でないと判定された場合（ステップＳ３２；ＮＯ）、カウンタ値ｊがインクリメントされ（ステップＳ３３）、ステップＳ３１に戻る。

ステップＳ３２において、ｊ番目の周波数成分Ｆ_jが０であると判定された場合（ステップＳ３２；ＹＥＳ）、ｊ＋１が新たなカウンタ値ｉとして設定され（ステップＳ３４）、このカウンタ値ｉがＮ未満であるか否かが判定される（ステップＳ３５）。

ステップＳ３５において、カウンタ値ｉがＮ未満であると判定された場合（ステップＳ３５；ＹＥＳ）、ｉ番目の周波数成分Ｆ_iが０であるか否かが判定される（ステップＳ３６）。ステップＳ３６において、ｉ番目の周波数成分Ｆ_iが０であると判定された場合（ステップＳ３６；ＹＥＳ）、カウンタ値ｉがインクリメントされ（ステップＳ３７）、ステップＳ３５に戻り、現在のカウンタ値ｉがＮ未満であるか否かが判定される（ステップＳ３５）。

ステップＳ３６において、ｉ番目の周波数成分Ｆ_iが０でないと判定された場合（ステップＳ３６；ＮＯ）、ｊ＋Ｔがｉ未満であるか否かが判定される（ステップＳ３８）。ステップＳ３５において、カウンタ値ｉがＮ以上であると判定された場合も（ステップＳ３５；ＮＯ）、ステップＳ３８に移行し、ｊ＋Ｔがｉ未満であるか否かが判定される（ステップＳ３８）。

ステップＳ３８において、ｊ＋Ｔがｉ以上であると判定された場合（ステップＳ３８；ＮＯ）、カウンタ値ｉがカウンタ値ｊとして設定され（ステップＳ３９）、このカウンタ値ｊがインクリメントされ（ステップＳ３３）、ステップＳ３１に戻る。ステップＳ３８において、ｊ＋Ｔがｉ未満であると判定された場合（ステップＳ３８；ＹＥＳ）、ｊ番目からＮ−１番目の周波数成分が削除され（Ｆ_j〜Ｆ_N-1＝０）（ステップＳ４０）、本高域雑音削除処理が終了する。これにより高周波成分の信号のうち、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分が削除されることになる。

次に、図１２のフローチャートを参照して、図１０のステップＳ２３に示した孤立周波数成分削除処理について詳細に説明する。以下の孤立周波数成分削除処理においても、音声信号の周波数成分の数をＮとする。

まず、周波数成分を指定するためのカウンタ値ｉが１に設定される（ステップＳ５０）。次いで、現在のカウンタ値ｉがＮ−１未満であるか否かが判定される（ステップＳ５１）。ステップＳ５１において、カウンタｉがＮ−１以上であると判定された場合（ステップＳ５１；ＮＯ）、本孤立周波数成分削除処理が終了する。

ステップＳ５１において、カウンタ値ｉがＮ−１未満であると判定された場合（ステップＳ５１；ＹＥＳ）、ｉ番目の周波数成分Ｆ_iの前後の周波数成分Ｆ_i-1及びＦ_i+1が０で、且つ、ｉ番目の周波数成分Ｆ_iの絶対値|Ｆ_i|が予め設定された値Ｐより大きいか否かが判定される（ステップＳ５２）。ここで、予め設定された値Ｐは、全周波数成分の振幅値の最大値から算出されることが好ましい。全周波数成分の絶対値の最大値maxは、式（１７）のように表される。
max=MAX(|F_i|) i=0,…,N-1 （１７）
ここで、MAXは最大値をとる関数である。式（１７）に示す最大値maxに、予め設定された倍率ｒを乗算した値をＰ（Ｐ＝ｒ・max）として設定することができる。この倍率ｒは、例えば、０．１の値をとる。

ステップＳ５２において、Ｆ_i-1＝０、Ｆ_i+1＝０、|Ｆ_i|＞Ｐを満たさない場合（ステップＳ５２；ＮＯ）、カウンタ値ｉがインクリメントされ（ステップＳ５４）、ステップＳ５１に戻る。ステップＳ５２において、Ｆ_i-1＝０、Ｆ_i+1＝０、|Ｆ_i|＞Ｐを満たす場合（ステップＳ５２；ＹＥＳ）、ｉ番目の周波数成分Ｆ_iが０に設定され（ステップＳ５３）、カウンタ値ｉがインクリメントされ（ステップＳ５４）、ステップＳ５１に戻る。Ｆ_i-1＝０、Ｆ_i+1＝０、|Ｆ_i|＞Ｐを満たす周波数成分を削除することは、周波数軸上で隣り合う周波数成分との振幅値の差の絶対値が予め設定された値Ｐより大きい周波数成分を削除することに対応する。

以上のように、本実施形態の音声処理装置１００によれば、周波数軸上で隣り合う周波数成分との振幅値の差の絶対値が所定値より大きい周波数成分を削除することで、音声信号に含まれる雑音を軽減させることができる。

また、処理対象の音声信号の高周波成分の値が低周波成分の値より少ない場合、高周波成分のうち、予め設定された周波数間隔以上離れて存在する周波数成分を削除することにより、音声信号に含まれる雑音を軽減させることができる。

なお、本実施形態における記述内容は、本発明の趣旨を逸脱しない範囲で適宜変更可能である。

例えば、上述の実施形態における各計算は、下記のように、複数組のＭＤＣＴ係数をまとめて処理することが可能である。即ち、Ｋ個のＭＤＣＴブロックがあり、ｐ番目のＭＤＣＴブロックのｉ番目のＭＤＣＴ係数をＸ_piとすると、ｉ番目の周波数成分ｂ_iは、式（１８）のように定義される。

式（１８）のｂ_iを、実施形態における周波数成分Ｆ_iの代わりに用いることができる。例えば、ｂ_iが削除対象となった場合は、[Ｘ_pi|p=0,…,K-1]が削除される。

本発明の実施形態に係る音声処理装置の構成を示すブロック図。入力信号のフレーム分割を示す図。１フレームと各ＭＤＣＴブロックの関係を示す図。ハフマン符号の一例を示す図。従来のレンジコーダによる符号化の一例を示す図。本実施形態のレンジコーダ符号化に必要な生起確率テーブル８１のデータ構成を示す図。デフォルトの生起確率テーブル８１の一例（同図（ａ））と、符号化の一例（同図（ｂ））を示す図。生起確率テーブル８１の更新例を示す図。本実施形態の音声処理装置において実行される音声圧縮処理を示すフローチャート。図９に示された帯域データ削除処理の詳細を示すフローチャート。図１０に示された高域雑音削除処理の詳細を示すフローチャート。図１０に示された孤立周波数成分削除処理の詳細を示すフローチャート。

符号の説明

１Ａ／Ｄ変換部
２ＤＣ除去部
３フレーム化部
４レベル調整部
５周波数変化部
６周波数並べ替え部
７ベクトル量子化部
７ａ高域用ＶＱテーブル
７ｂ低域用ＶＱテーブル
８エントロピー符号化部
８１生起確率テーブル
９レートコントローラ（判定部）
１０データ削除部
１００音声処理装置

Claims

入力された音声信号をフレームに分割するフレーム化部と、
前記フレーム化部により得られたフレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整するレベル調整部と、
前記レベル調整部によりレベルが調整された音声信号に対し、周波数変換を施す周波数変換部と、
前記周波数変換により得られた音声信号に対し、ベクトル量子化を施すベクトル量子化部と、
前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すエントロピー符号化部と、
前記エントロピー符号化部により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定する判定部と、
前記判定部により、前記エントロピー符号化部により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除する第１の削除処理と、周波数軸上で隣り合う周波数成分が０で、かつ振幅値の絶対値が所定値より大きい周波数成分を削除する第２の削除処理を行うデータ削除部と、
前記データ削除部でデータ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせるコントロール部と、
を備えることを特徴とする音声処理装置。
前記データ削除部の第２の削除処理において、前記所定値は全周波数成分の振幅値の最大値から算出される値であることを特徴とする請求項１に記載の音声処理装置。
前記データ削除部は、前記周波数変換部により得られた音声信号の高周波成分の値が低周波成分の値より大きいか否かを判定し、当該音声信号の高周波成分の値が低周波成分の値以下であると判定された場合に、周波数軸上で予め設定された周波数間隔以上離れて存在する高周波成分を削除するとともに、前記第２の削除処理を実行することを特徴とする請求項１または２に記載の音声処理装置。
入力された音声信号をフレームに分割するフレーム化部と、
前記フレーム化部により得られたフレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整するレベル調整部と、
前記レベル調整部によりレベルが調整された音声信号に対し、周波数変換を施す周波数変換部と、
前記周波数変換により得られた音声信号に対し、ベクトル量子化を施すベクトル量子化部と、
前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施すエントロピー符号化部と、
前記エントロピー符号化部により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定する判定部と、
前記判定部により、前記エントロピー符号化部により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除する第１の削除処理と、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除する第２の削除処理を行うデータ削除部と、
前記データ削除部でデータ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせるコントロール部と、
を備えることを特徴とする音声処理装置。
前記データ削除部は、前記周波数変換部により得られた音声信号の高周波成分の値が低周波成分の値より大きいか否かを判定し、当該音声信号の高周波成分の値が低周波成分の値以下であると判定された場合に、当該高周波成分の中から、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除することを特徴とする請求項４に記載の音声処理装置。
前記データ削除部は、前記周波数変換部により得られた音声信号における各周波数成分の対数を演算し、高周波成分における対数の和と、低周波成分における対数の和を比較することによって、当該音声信号の高周波成分の値が低周波成分の値より大きいか否かを判定することを特徴とする請求項３又は５に記載の音声処理装置。
前記データ削除部は、前記レベル調整部によりレベルが調整された音声信号を、高域通過フィルタと低域通過フィルタにより高周波成分と低周波成分に分離し、当該高域通過フィルタと低域通過フィルタにより得られた高周波成分の値が低周波成分の値より大きいか否かを判定することを特徴とする請求項３又は５に記載の音声処理装置。
入力された音声信号をフレームに分割し、
フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整し、
レベルが調整された音声信号に対し、周波数変換を施し、
前記周波数変換により得られた音声信号に対し、ベクトル量子化を施し、
前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施し、
前記エントロピー符号化により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定し、
前記エントロピー符号化により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除し、周波数軸上で隣り合う周波数成分が０で、かつ振幅値の絶対値が所定値より大きい周波数成分を削除し、
前記データ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせることを特徴とする音声符号化方法。
入力された音声信号をフレームに分割し、
フレーム毎に、フレームに含まれる音声信号の振幅の最大値に基づいて音声信号のレベルを調整し、
レベルが調整された音声信号に対し、周波数変換を施し、
前記周波数変換により得られた音声信号に対し、ベクトル量子化を施し、
前記ベクトル量子化により得られた音声信号に対し、エントロピー符号化を施し、
前記エントロピー符号化により得られた音声信号のデータ量が、予め設定された目標データ量より大きいか否かを判定し、
前記エントロピー符号化により得られた音声信号のデータ量が前記目標データ量より大きいと判定された場合、前記ベクトル量子化された音声信号の中から、エネルギーが最小の帯域の周波数成分を削除し、周波数軸上で予め設定された周波数間隔以上離れて存在する周波数成分を削除し、
前記データ削除された音声信号について再度エントロピー符号化し、符号化された音声信号のデータ量が前記目標データ量に収まるまで前記削除処理と符号化処理を行わせることを特徴とする音声符号化方法。