JP2006003580A - オーディオ信号符号化装置及びオーディオ信号符号化方法 - Google Patents
オーディオ信号符号化装置及びオーディオ信号符号化方法 Download PDFInfo
- Publication number
- JP2006003580A JP2006003580A JP2004179321A JP2004179321A JP2006003580A JP 2006003580 A JP2006003580 A JP 2006003580A JP 2004179321 A JP2004179321 A JP 2004179321A JP 2004179321 A JP2004179321 A JP 2004179321A JP 2006003580 A JP2006003580 A JP 2006003580A
- Authority
- JP
- Japan
- Prior art keywords
- channels
- frequency
- data
- grouping
- frequency data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】複数チャンネルのオーディオ信号において、周波数データの時間方向又は周波数方向のグループ分けを適切に行い、効率的に符号化してビットレートを低減すること。
【解決手段】分析フィルタバンク101、102は左右チャンネルの入力オーディオ信号を入力して周波数データの時間系列に変換する。強度算出部110、111は周波数データの強度を算出する。類似度判定部130は複数のチャンネルの類似度を判定する。類似度判定部130により類似度が高いと判定された場合に、グループ分け部122は複数のチャンネルにおける周波数データの時間方向又は周波数方向のグループ分けを、周波数データの強度平均に基づいて、複数のチャンネルに対して共通に行う。符号化部150、151は、グループ分けに基づいて周波数データを符号化する。
【選択図】図1
【解決手段】分析フィルタバンク101、102は左右チャンネルの入力オーディオ信号を入力して周波数データの時間系列に変換する。強度算出部110、111は周波数データの強度を算出する。類似度判定部130は複数のチャンネルの類似度を判定する。類似度判定部130により類似度が高いと判定された場合に、グループ分け部122は複数のチャンネルにおける周波数データの時間方向又は周波数方向のグループ分けを、周波数データの強度平均に基づいて、複数のチャンネルに対して共通に行う。符号化部150、151は、グループ分けに基づいて周波数データを符号化する。
【選択図】図1
Description
本発明は、複数のチャンネルの入力オーディオ信号を、周波数データの時間系列に変換して、周波数データの時間方向又は周波数方向のグループ分けを共通に行い、オーディオ信号を効率的に符号化するオーディオ信号符号化装置及びオーディオ信号符号化方法に関するものである。
近年、複数のチャンネルの入力オーディオ信号を周波数データの時間系列に変換し、周波数データ又はそのエンベロープデータの時間方向又は周波数方向のグループ分けを、複数のチャンネルに対して共通に行うことによって、グループ分けに関する情報を削減し、符号化効率を改善する方法が提案されてきている。
このような提案として、例えば非特許文献1と非特許文献2に記載されたMPEG(Moving Picture Experts Group)のAAC(Advanced Audio Coding)が知られている。AACでは、MDCT(Modified Discrete Cosine Transform,変形離散コサイン変換)により、入力信号を周波数データ(MDCT係数)に変換する。MDCTのブロック長には、長時間ブロックと短時間ブロックの2種類があり、入力信号の性質に応じて適切なブロック長を選択する。過渡的な入力信号の場合には、短時間ブロックを選択する。
AACの規格では、1つの短時間ブロックは128本の周波数データからなり、8ブロックを1フレームとして符号化する。短時間ブロックの符号化に際して、時間的に連続する複数の短時間ブロックのグループ分けを行い、グループを単位として量子化と符号化の処理を行う。AACの規格では、1フレーム当り、最小1個から最大8個のグループに分ける。周波数データのバンド単位の量子化ステップサイズをスケールファクタとすると、同一のグループに対してはこのスケールファクタを共通にする。これにより、スケールファクタに必要なビット数を削減し、符号化効率を改善することができる。
また、入力信号がステレオ信号で、共通ウィンドウ(common window)のフラグがオンの場合、左右のチャンネルでグループ分けを共通に行うことにより、グループ分けに関する情報を1チャンネル分に削減し、符号化効率を更に改善することができる。
また、提案の別の例として、特許文献1及び非特許文献3と非特許文献4に記載されたSBR(Spectral Band Replication)がある。SBRの符号化では、入力されたオーディオ信号から高周波数帯域を削除した低周波数帯域の信号を符号化するとともに、削除された高周波数帯域のエンベロープデータを符号化する。SBRの復号化では、低周波数帯域の符号化データを復号化することにより、低周波数帯域の周波数データを再生する。そして、再生された低周波数帯域の周波数データを高周波数帯域に複製し、復号化されたエンベロープデータに基づいて、高周波数帯域のエンベロープのゲインを調整することにより、高周波数帯域の周波数データを復元する。こうして、2つの周波数帯域の周波数データを合成することによって、入力オーディオ信号を再生することができる。
SBRでは、削除された高周波数帯域のエンベロープデータの符号化に、時間方向と周波数方向のグループ分けを行って符号化効率を改善している(例えば、特許文献1及び非特許文献4参照)。また、入力信号がステレオ信号で、カップリングモード(Coupling mode)のフラグがオンの場合、左右のチャンネルでグループ分けを共通に行うことにより、グループ分けに関する情報を削減し、符号化効率を更に改善することができる。
前記した先行技術文献には、複数のチャンネルで周波数データ又はエンベロープデータを共通にグループ分けして効率的に符号化する特定の方法又は装置については記載されていない。
本発明の課題を明確にするために、先行技術として認識されているが、公知文献としては認識されていない2チャンネルのオーディオ信号符号化装置を従来例として説明する。図3は、従来例における2チャンネルのオーディオ信号符号化装置の構成を示すブロック図である。このオーディオ信号符号化装置は、分析フィルタバンク100、101、強度算出部110、111、グループ分け部120、121、符号化部150、151、多重化部160、グループ分け一致判定部190を含んで構成される。このような構成のオーディオ信号符号化装置について、その動作を説明する。
分析フィルタバンク100に入力された左チャンネル(Lch)における時間軸のオーディオ信号は、周波数データの時間系列に変換される。同様に、分析フィルタバンク101に入力された右チャンネル(Rch)における時間軸のオーディオ信号は、周波数データの時間系列に変換される。
強度算出部110、111は、夫々のチャンネルのグループ分けをする前の符号化処理単位における周波数データの強度を算出する。ここで符号化処理単位とは、周波数データの量子化と符号化の処理を行うときの単位であり、同一の符号化処理単位に属する全ての周波数データに対して、共通の量子化ステップサイズを用いる。
図4(a)にグループ分けをする前の1フレームあたりの符号化処理単位を示す。図4では、グループ分けをする前の1フレームは、時間方向に8個、周波数方向に8個、全体で合計64個の符号化処理単位からなる。強度算出部110、111は、夫々のチャンネルにおける符号化処理単位の周波数データの強度を、符号化処理単位に属するすべての周波数データの2乗和により算出して出力する。
グループ分け部120、121は、夫々のチャンネルにおいて、符号化処理単位の周波数データの強度に基づいて、時間方向と周波数方向とのグループ分けを行い、グループ分けに関する情報(以下、グループ分け情報という)を出力する。最初に時間方向についてのグループ分けを行う。時間方向のグループ分けは、時間方向の周波数データにおける強度の変化量に基づいて行う。同一時間に属する符号化処理単位の周波数データの強度を周波数方向に加算して、時間に属する符号化処理単位の合計強度を算出する。
次に時間方向に隣り合う符号化処理単位の合計強度の比を算出して、時間方向の変化量とする。ただし、比の値が1より小さい場合には、1以上となるように比の値の逆数をとったものを変化量とする。変化量が所定の閾値以下の場合には、時間方向に隣り合う符号化処理単位を合併して1つのグループとし、新たな符号化処理単位にする。このような処理を時間方向に繰り返すことによって、時間方向のグループ分けを行う。
次に周波数方向のグループ分けを行う。周波数方向のグループ分けは、高周波数分解能と低周波数分解能の2種類とする。高周波数分解能とは、周波数方向のグループ分けを行う前の符号化処理単位である。低周波数分解能とは、いくつかの符号化処理単位を周波数方向に合併し、新たな符号化処理単位としたものである。周波数方向のグループ分けは、時間方向のグループ分けを行った後の符号化処理単位に対して行い、周波数方向における周波数データの強度の変化量に基づいて行う。そして周波数方向に隣接する符号化処理単位の強度の比を変化量として算出する。ただし比の値が1より小さい場合には、1以上となるように比の値の逆数を用いる。
次に低周波数分解能の符号化処理単位内で、高周波数分解能における符号化処理単位での周波数データの強度の変化量が、所定の閾値より大きい場合には高周波数分解能とし、そうでない場合には低周波数分解能とする。グループ分け部120及び121は、以上のようにして算出した夫々のチャンネルにおける時間方向と周波数方向のグループ分け情報を出力する。
図4(b)は、時間方向と周波数方向でグループ分けをした後、1フレームの符号化処理単位の例を示す図である。図3の符号化部150、151は、夫々グループ分け部120、121からのグループ分け情報に基づいて、グループ分けをした後の符号化処理単位を構成し、夫々のチャンネルの周波数データに対して、符号化処理単位で量子化と符号化を行い、符号化された周波数データを出力する。
グループ分け一致判定部190は、グループ分け部120から出力される左チャンネルのグループ分け情報と、グループ分け部121から出力される右チャンネルのグループ分け情報とが完全に一致しているか否かの判定を行う。一致した場合には、グループ分け一致判定部190は左右のチャンネルで共通のグループ分けを行うことを表す共通グループフラグをオンにして出力する。
多重化部160では、符号化部150、151からの符号化された周波数データと、グループ分け部120、121からのグループ分け情報と、グループ分け一致判定部190からの共通グループフラグとを多重化し、これを符号化データとして出力する。共通グループフラグがオンの場合には、左右のチャンネルのグループ分け情報は同一なので、例えばグループ分け部120からのグループ分け情報のみを符号化データとして多重化する。
特表2003−529787号公報
ボシ(Bosi)、外9名、「イソ/アイイーシー エムペグ2 アドバンスト オーディオ コーディング(ISO/IEC MPEG−2 Advanced Audio Coding)」、J. Audio Eng. Soc.、第45巻、10号、1997年10月、第789頁−814頁
イソ/アイイーシー(ISO/IEC)13818−7、「インフォメーション テクノロジー、動画及び付随する音響信号の汎用符号化、 パート7 アドバンスト オーディオ コーディング(エイエイシー)(Information technology − Generic coding of moving pictures and associated audio information, Part 7 Advanced Audio Coding (AAC))」、1997年
マーチン(Martin)、外3名、「スペクトルバンド複製、オーディオ符号化における新しいアプローチ(Spectral Band Replication, a novel approach in audio coding)」、第112回AES会議(Convention)、2002年5月、論文第5553号
イソ/アイイーシー エムペグ(ISO/IEC MPEG)14496−3:2001/エフディーエイエム1(FDAM1)、「インフォメーション テクノロジー、コーディング オブ オーディオ・ビジュアル オブジェクト、パート3 オーディオ、修正1:帯域拡張(Information technology − Coding of audio−visual objects, Part 3 Audio, Amendment 1:Bandwidth Extension)」、文書第N5570号、2003年3月
しかしながら、従来の2チャンネルのオーディオ信号符号化装置では、両チャンネルのグループ分けが完全に一致しないと、2チャンネルで共通のグループ分けができなかった。このため、共通のグループ分けが可能となる発生頻度が少なく、共通のグループ分けによる符号化効率の改善効果が小さいという課題を有していた。
また、グループ分けが、各チャンネルの周波数データの強度に基づいて、チャンネル毎に独立して行われるので、2つのチャンネルで共通のグループ分けを行うのに適していないという課題を有していた。
本発明はこのような従来の問題点を解決するもので、複数のチャンネルにおける入力オーディオ信号の周波数データの時間方向又は周波数方向のグループ分けを、複数のチャンネルにおける周波数データの強度と類似度に応じて適切に行い、符号化効率を改善して特に低いビットレートでの音質を改善した複数のチャンネルのオーディオ信号を符号化するオーディオ信号符号化装置を実現することを目的とする。
この課題を解決するために、本発明のオーディオ信号符号化装置は、複数のチャンネルのオーディオ信号を入力して、周波数データの時間系列に変換する分析フィルタバンクと、前記複数のチャンネルにおける周波数データの強度を算出する強度算出部と、前記複数のチャンネルにおける周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定部と、前記類似度判定部により類似度が高いと判定された場合に、前記複数のチャンネルにおける周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記複数のチャンネルにおける周波数データの強度平均に基づいて、前記複数のチャンネルに対して共通に行うグループ分け部と、前記グループ分けに基づいて、前記複数のチャンネルの周波数データ又はそのエンベロープデータを符号化する符号化部と、を具備することを特徴とするものである。
この課題を解決するために、本発明のオーディオ信号符号化装置は、複数のチャンネルのオーディオ信号を入力して、前記入力オーディオ信号から所定の周波数帯域を削除した信号に対して符号化データを生成するとともに、前記削除された周波数帯域の信号のエンベロープデータ生成し、前記エンベロープデータを前記符号化データに多重化して伝送又は記憶するオーディオ信号符号化装置であって、前記複数のチャンネルのオーディオ信号を入力して、周波数データの時間系列に変換する分析フィルタバンクと、前記複数のチャンネルにおける前記削除された周波数帯域の周波数データの強度を算出する強度算出部と、前記複数のチャンネルにおける前記削除された周波数帯域の周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定部と、前記類似度判定部により類似度が高いと判定された場合に、前記削除された周波数帯域の周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記削除された周波数帯域の周波数データの強度平均値に基づいて、前記複数のチャンネルに対して共通に行うグループ分け部と、前記グループ分けに基づいて、前記複数のチャンネルの前記削除された周波数帯域の周波数データのエンベロープデータを符号化する符号化部と、を具備することを特徴とするものである。
ここで前記周波数データの強度を、前記周波数データの絶対値のべき乗により算出するようにしてもよい。
この課題を解決するために、本発明のオーディオ信号符号化方法は、複数のチャンネルのオーディオ信号を入力して、周波数データの時間系列に変換する周波数変換ステップと、前記複数のチャンネルにおける周波数データの強度を算出する強度算出ステップと、前記複数のチャンネルにおける周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定ステップと、前記類似度判定ステップにより類似度が高いと判定された場合に、前記複数のチャンネルにおける周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記複数のチャンネルにおける周波数データの強度平均に基づいて、前記複数のチャンネルに対して共通に行うグループ分けステップと、前記グループ分けに基づいて、前記複数のチャンネルの周波数データ又はそのエンベロープデータを符号化する符号化ステップと、を備えることを特徴とするものである。
この課題を解決するために、本発明のオーディオ信号符号化方法は、複数のチャンネルのオーディオ信号を入力して、前記入力オーディオ信号から所定の周波数帯域を削除した信号に対して符号化データを生成するとともに、前記削除された周波数帯域のエンベロープデータを生成し、前記エンベロープデータを前記符号化データに多重化して伝送又は記憶するステレオオーディオ信号符号化方法であって、前記複数のチャンネルのオーディオ信号を入力して周波数データの時間系列に変換する周波数変換ステップと、前記複数のチャンネルの前記削除された周波数帯域の周波数データの強度を算出する強度算出ステップと、前記複数のチャンネルの前記削除された周波数帯域の周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定ステップと、前記類似度判定ステップにより類似度が高いと判定された場合に、前記削除された周波数帯域の周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記削除された周波数帯域の周波数データの強度平均に基づいて、前記複数のチャンネルに対して共通に行うグループ分けステップと、前記グループ分けに基づいて、前記複数のチャンネルの前記削除された周波数帯域の周波数データのエンベロープデータを符号化する符号化ステップと、を備えることを特徴とするものである。
ここで前記周波数データの強度を、前記周波数データの絶対値のべき乗により算出するようにしてもよい。
本発明のオーディオ信号符号化装置及びオーディオ信号符号化方法によれば、複数のチャンネルにおける入力オーディオ信号の類似度が高い場合、オーディオ信号の周波数データの時間方向又は周波数方向のグループ分けを、複数のチャンネルにおける周波数データの強度の平均に基づいて、複数のチャンネルに対して共通に行うことにより、周波数データ又はそのエンベロープデータを効率的に符号化することができる。特に低いビットレートでの音質を改善することができる。
以下本発明を実施するための最良の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は本発明の実施の形態1における2チャンネルのオーディオ信号符号化装置の構成図である。このオーディオ信号符号化装置は、分析フィルタバンク100、101、強度算出部110、111、グループ分け部120、121、122、類似度判定部130、切り替え部140、符号化部150、151、多重化部160を含んで構成される。
(実施の形態1)
図1は本発明の実施の形態1における2チャンネルのオーディオ信号符号化装置の構成図である。このオーディオ信号符号化装置は、分析フィルタバンク100、101、強度算出部110、111、グループ分け部120、121、122、類似度判定部130、切り替え部140、符号化部150、151、多重化部160を含んで構成される。
分析フィルタバンク100は左チャンネルのオーディオ信号を入力して、周波数データの時間系列に変換するものである。分析フィルタバンク101は右チャンネルのオーディオ信号を入力して、周波数データの時間系列に変換するものである。強度算出部110は、左チャンネルにおける周波数データの強度を算出するものである。強度算出部111は、右チャンネルにおける周波数データの強度を算出するものである。グループ分け部120は左チャンネルにおける周波数データの時間方向又は周波数方向のグループ分けを行うものである。グループ分け部121は右チャンネルにおける周波数データの時間方向又は周波数方向のグループ分けを行うものである。類似度判定部130は左及び右チャンネルにおける周波数データの強度に基づいて、両チャンネルの類似度を判定するものである。
グループ分け部122は、類似度判定部130により類似度が高いと判定された場合に、左及び右チャンネルにおける周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、両チャンネルにおける周波数データの強度平均に基づいて、両チャンネルに対して共通に行うものである。切り替え部140は、類似度判定部130からの共通グループフラグに基づいて、グループ分け情報を切り替えるものである。符号化部150は分析フィルタバンク100の信号を入力し、切り替え部140によるグループ分けに基づいて、左チャンネルの周波数データ又はそのエンベロープデータを符号化するものである。符号化部151は分析フィルタバンク101の信号を入力し、切り替え部140によるグループ分けに基づいて、右チャンネルの周波数データ又はそのエンベロープデータを符号化するものである。多重化部160は、符号化部150、151からの符号化された周波数データと、切り替え部140からのグループ分け情報と、類似度判定部130からの共通グループフラグとを多重化し、符号化データとして出力するものである。
以上のように構成された2チャンネルのオーディオ信号符号化装置について、その動作を以下に述べる。入力された左チャンネルの時間軸のオーディオ信号は、分析フィルタバンク100において周波数データの時間系列に変換される。同様に、入力された右チャンネルのオーディオ信号は、分析フィルタバンク101において周波数データの時間系列に変換される。
強度算出部110、111は、夫々のチャンネルにおいて、所定の符号化処理単位における周波数データの強度を算出して出力する。以下の説明では、符号化処理単位とは、周波数データの量子化と符号化の処理を行うときの単位を意味し、同一の符号化処理単位に属する周波数データに対して共通の量子化ステップサイズを用いる。強度算出部110、111は夫々のチャンネルにおける符号化処理単位の周波数データの強度を、符号化処理単位に属する全ての周波数データにおけるべき乗の和、ここでは2乗和により算出する。
グループ分け部120、121は、夫々のチャンネルにおける符号化処理単位の周波数データの強度に基づいて、時間方向と周波数方向のグループ分けを行い、グループ分けに関する情報(以下、グループ分け情報という)を出力する。グループ分け部120、121は、最初に時間方向についてのグループ分けを行う。時間方向のグループ分けは、時間方向における周波数データの強度の変化量に基づいて行う。グループ分け部120、121は、同一の時間に属する符号化処理単位の周波数データの強度を周波数方向に加算して、同一の時間に属する符号化処理単位の合計強度を算出する。次に時間方向に隣り合う符号化処理単位の合計強度の比を算出して、時間方向の変化量とする。ただし、比の値が1より小さい場合には、1以上となるように比の値の逆数をとったものを変化量とする。変化量が所定の閾値以下の場合には、グループ分け部120、121は図4(b)に示すように、時間方向に隣り合う符号化処理単位を合併して1つのグループとし、新たな符号化処理単位にする。このような処理を時間方向に繰り返すことによって、時間方向のグループ分けを行う。
次にグループ分け部120、121は周波数方向のグループ分けを行う。本実施の形態では、周波数方向のグループ分けは、高周波数分解能と低周波数分解能の2種類とする。高周波数分解能とは、周波数方向のグループ分けを行う前の符号化処理単位である。低周波数分解能とは、いくつかの高周波数分解能の符号化処理単位を周波数方向に合併して、新たな符号化処理単位としたものである。周波数方向のグループ分けは、時間方向のグループ分けを行った後の符号化処理単位に対して行い、周波数方向における符号化処理単位における周波数データの強度の変化量に基づいて行う。周波数方向に隣接する符号化処理単位の強度の比を変化量として算出する。但し比の値が1より小さい場合には、1以上となるように比の値の逆数を演算したものを変化量として算出する。
次に低周波数分解能の符号化処理単位内で、高周波数分解能における符号化処理単位での周波数データの強度の変化量が所定の閾値より大きい場合には、高周波数分解能とし、そうでない場合には低周波数分解能とする。
グループ分け部120、121は、以上のようにして算出した夫々のチャンネルの時間方向と周波数方向のグループ分け情報を出力する。グループ分け部122は、最初に左右のチャンネルにおける周波数データの強度平均値を算出する。次にグループ分け部122は、左右のチャンネルにおける周波数データの強度平均値に基づいて、グループ分け部120、121と同様にしてグループ分けを行い、2つのチャンネルで共通のグループ分け情報を出力する。以上のようにグループ分け部122は、左右のチャンネルにおける周波数データの強度平均値に基づいて共通のグループ分けを行うので、左右のチャンネルで周波数データの強度に違いがある場合にも、それを反映して共通のグループ分けをすることができる。
類似度判定部130は、強度算出部110、111からの左右のチャンネルにおける周波数データの強度を入力し、符号化処理フレーム全体にわたって左右のチャンネルにおける周波数データの強度の正規化相関係数を算出する。正規化相関係数の値が所定の閾値より大きい場合には、2つのチャンネルにおける周波数データの類似度が高いと判定する。そして類似度判定部130は、左右のチャンネルでグループ分けが共通に行われていることを示す共通グループフラグをオンにして出力する。この共通グループフラグは、非特許文献2記載のAACの規格では、共通ウィンドウフラグと呼ばれている。
切り替え部140は、類似度判定部130からの共通グループフラグに基づいて、グループ分け情報を切り替える。共通グループフラグがオンの場合には、グループ分け部122からの左右のチャンネルで共通のグループ分け情報を選択し、符号化部150、151と多重化部160に出力する。また、共通グループフラグがオフの場合には、グループ分け部120からの左チャンネルのグループ分け情報を符号化部150と多重化部160に出力し、グループ分け部121からの右チャンネルのグループ分け情報を符号化部151と多重化部160に出力する。
符号化部150と151は、切り替え部140からのグループ分け情報に基づいて、符号化処理単位を構成し、夫々のチャンネルの周波数データに対して符号化処理単位で量子化と符号化を行い、符号化された周波数データを多重化部160に出力する。多重化部160は、符号化部150、151からの符号化された周波数データと、切り替え部140からのグループ分け情報と、類似度判定部130からのグループ共通フラグとを多重化し、符号化データとして出力する。共通グループフラグがオンの場合には、左右のチャンネルのグループ分け情報は同一なので、一方のチャンネルのグループ分け情報のみを符号化データとして多重化する。
以上のように実施の形態1のオーディオ信号符号化装置では、2つのチャンネルにおけるオーディオ信号の類似度を判定する類似度判定部130と、2つのチャンネルで共通のグループ分けを行うグループ分け部122とを設ける。このことにより、2つのチャンネルにおいてオーディオ信号の類似度が高いと判定された場合に、2つのチャンネルにおける周波数データの強度平均値に基づいて、周波数データの時間方向と周波数方向のグループ分けを、2つのチャンネルに対して共通に行う。このため2つのチャンネルのオーディオ信号を効率的に符号化することができ、特に低いビットレートでの音質を改善することができる。また従来例と比較して共通のグループ分けの発生頻度が高くなり、符号化効率を改善することができる。
なお、符号化部150、151で、周波数データがノイズ性の場合には、PNS(Perceptual Noise Substitution)と呼ばれる処理を用いて、周波数データの代わりに、周波数データの平均パワーを表すエンベロープデータを符号化してもよい。PNS処理を用いる場合、復号化時にはランダムなノイズデータを生成し、エンベロープデータに基づいてその平均パワーを調整することにより、周波数データを再生することができる。
なお、オーディオ信号符号化装置としての動作処理量を削減する目的で、グループ分け部122は類似度判定部130からの共通グループフラグがオンのときのみに動作し、グループ分け部120と121は共通グループフラグがオフのときのみに動作するような構成にしてもよい。
(実施の形態2)
次に本発明の実施の形態2におけるオーディオ信号符号化装置について説明する。図2は、実施の形態2における2チャンネルのオーディオ信号符号化装置の構成図である。ここではSBRに適用した場合の構成を示す。
次に本発明の実施の形態2におけるオーディオ信号符号化装置について説明する。図2は、実施の形態2における2チャンネルのオーディオ信号符号化装置の構成図である。ここではSBRに適用した場合の構成を示す。
このオーディオ信号符号化装置は、分析フィルタバンク100、101、強度算出部112、113、グループ分け部123、124、125、類似度判定部131、切り替え部141、符号化部152、153、多重化部161、ダウンサンプラー170、171、低域符号化部180、181を含んで構成される。このように構成された2チャンネルのオーディオ信号符号化装置について、その動作を説明する。
ダウンサンプラー170は、入力された左チャンネルのオーディオ信号から所定の高周波数帯域を削除し、サンプリング周波数を半分にダウンサンプルした低周波数帯域の信号を生成するものである。ダウンサンプラー171は、入力された右チャンネルのオーディオ信号から所定の高周波数帯域を削除し、サンプリング周波数を半分にダウンサンプルした低周波数帯域の信号を生成するものである。低域符号化部180、181は、夫々チャンネルのダウンサンプラー170、171からの低周波数帯域のオーディオ信号を入力として、高能率符号化した符号化データを多重化部161に出力するものである。
図2の分析フィルタバンク100、101、強度算出部112、113、グループ分け部123、124、125、類似度判定部131、切り替え部141、符号化部152、153は、ダウンサンプラー170、171で削除された高周波数帯域のエンベロープを符号化するためのブロックである。これらのブロックは図1のものと同一であり、説明を省略する。また、図2の強度算出部112、113、グループ分け部123、124、125、類似度判定部131、切り替え部141は、対象とする周波数帯域が削除された高周波数帯域である点を除いて、図1の強度算出部110、111、グループ分け部120、121、122、類似度判定部130、切り替え部140と夫々同一であり、説明を省略する。なお、類似度判定部131から出力される共通グループフラグは、非特許文献4に記載されたSBRの規格では、カップリングモードフラグと呼ばれている。
符号化部152と153は、切り替え部141からのグループ分け情報に基づいて符号化処理単位を構成し、夫々のチャンネルにおいて削除された高周波数帯域の符号化処理単位での周波数データの平均パワーを表すエンベロープデータを算出する。次に符号化部152、153は、算出されたエンベロープデータの量子化と符号化を行い、符号化されたエンベロープデータを多重化部161に出力する。
多重化部161は、低域符号化部180、181からの低周波数帯域の符号化データと、符号化部152と153からの高周波数帯域の符号化されたエンベロープデータと、切り替え部141からのエンベロープデータのグループ分け情報と、類似度判定部131からの共通グループフラグとを多重化し、符号化データとして出力する。共通グループフラグがオンの場合には、左右のチャンネルのグループ分け情報は同一なので、一方のチャンネルのグループ分け情報のみを符号化データとして多重化する。
以上のように実施の形態2のオーディオ信号符号化装置では、低域符号化部180、181で符号化されなかったオーディオ信号の高周波数帯域に対して、2つのチャンネルにおけるオーディオ信号の類似度を判定する類似度判定部131と、2つのチャンネルで周波数データの共通のグループ分けを行うグループ分け部125とを設ける。このことにより、2つのチャンネルにおけるオーディオ信号の類似度が高いと判定された場合に、2つのチャンネルにおける周波数データの強度の平均に基づいて、周波数データの時間方向と周波数方向のグループ分けを、2つのチャンネルに対して共通に行う。このため、2つのチャンネルにおけるオーディオ信号の高周波数帯域のエンベロープデータを効率的に符号化することができ、特に低いビットレートでの音質を改善することができる。
なお、上記の各実施の形態では、周波数データの強度を周波数データの2乗和により算出したが、周波数データの強度を周波数データにおける絶対値の任意のべき乗和により算出してもよい。また、上記の各実施の形態では、入力オーディオ信号は2チャンネルとしたが、これを3チャンネル以上にしてもよい。
本発明にかかるオーディオ信号符号化装置及びオーディオ信号符号化方法は、複数のチャンネルにおけるオーディオ信号の周波数データの類似度が高い場合、周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、複数のチャンネルに対して共通に行い、オーディオ信号を効率的に符号化することができる。このため特に低いビットレートでの音質を改善することができるので、放送、通信、蓄積等の分野でオーディオ信号の高能率な伝送又は記憶の用途に適用できる。特に映像信号とオーディオ信号とを含むコンテンツを、制限されたビットレートでサービスする携帯端末には好適に利用することができる。
100,101 分析フィルタバンク
110,111,112,113 強度算出部
120,121,122,123,124,125 グループ分け部
130,131 類似度判定部
140,141 切り替え部
150,151,152,153 符号化部
160,161 多重化部
170,171 ダウンサンプラー
180,181 低域符号化部
110,111,112,113 強度算出部
120,121,122,123,124,125 グループ分け部
130,131 類似度判定部
140,141 切り替え部
150,151,152,153 符号化部
160,161 多重化部
170,171 ダウンサンプラー
180,181 低域符号化部
Claims (6)
- 複数のチャンネルのオーディオ信号を入力して、周波数データの時間系列に変換する分析フィルタバンクと、
前記複数のチャンネルにおける周波数データの強度を算出する強度算出部と、
前記複数のチャンネルにおける周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定部と、
前記類似度判定部により類似度が高いと判定された場合に、前記複数のチャンネルにおける周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記複数のチャンネルにおける周波数データの強度平均に基づいて、前記複数のチャンネルに対して共通に行うグループ分け部と、
前記グループ分けに基づいて、前記複数のチャンネルの周波数データ又はそのエンベロープデータを符号化する符号化部と、を具備することを特徴とするオーディオ信号符号化装置。 - 複数のチャンネルのオーディオ信号を入力して、前記入力オーディオ信号から所定の周波数帯域を削除した信号に対して符号化データを生成するとともに、前記削除された周波数帯域の信号のエンベロープデータ生成し、前記エンベロープデータを前記符号化データに多重化して伝送又は記憶するオーディオ信号符号化装置であって、
前記複数のチャンネルのオーディオ信号を入力して、周波数データの時間系列に変換する分析フィルタバンクと、
前記複数のチャンネルにおける前記削除された周波数帯域の周波数データの強度を算出する強度算出部と、
前記複数のチャンネルにおける前記削除された周波数帯域の周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定部と、
前記類似度判定部により類似度が高いと判定された場合に、前記削除された周波数帯域の周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記削除された周波数帯域の周波数データの強度平均値に基づいて、前記複数のチャンネルに対して共通に行うグループ分け部と、
前記グループ分けに基づいて、前記複数のチャンネルの前記削除された周波数帯域の周波数データのエンベロープデータを符号化する符号化部と、を具備することを特徴とするオーディオ信号符号化装置。 - 前記周波数データの強度を、前記周波数データの絶対値のべき乗により算出することを特徴とする請求項1又は2記載のオーディオ信号符号化装置。
- 複数のチャンネルのオーディオ信号を入力して、周波数データの時間系列に変換する周波数変換ステップと、
前記複数のチャンネルにおける周波数データの強度を算出する強度算出ステップと、
前記複数のチャンネルにおける周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定ステップと、
前記類似度判定ステップにより類似度が高いと判定された場合に、前記複数のチャンネルにおける周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記複数のチャンネルにおける周波数データの強度平均に基づいて、前記複数のチャンネルに対して共通に行うグループ分けステップと、
前記グループ分けに基づいて、前記複数のチャンネルの周波数データ又はそのエンベロープデータを符号化する符号化ステップと、を備えることを特徴とするオーディオ信号符号化方法。 - 複数のチャンネルのオーディオ信号を入力して、前記入力オーディオ信号から所定の周波数帯域を削除した信号に対して符号化データを生成するとともに、前記削除された周波数帯域のエンベロープデータを生成し、前記エンベロープデータを前記符号化データに多重化して伝送又は記憶するステレオオーディオ信号符号化方法であって、
前記複数のチャンネルのオーディオ信号を入力して周波数データの時間系列に変換する周波数変換ステップと、
前記複数のチャンネルの前記削除された周波数帯域の周波数データの強度を算出する強度算出ステップと、
前記複数のチャンネルの前記削除された周波数帯域の周波数データの強度に基づいて、前記複数のチャンネルの類似度を判定する類似度判定ステップと、
前記類似度判定ステップにより類似度が高いと判定された場合に、前記削除された周波数帯域の周波数データの時間方向又は周波数方向の少なくとも1つのグループ分けを、前記削除された周波数帯域の周波数データの強度平均に基づいて、前記複数のチャンネルに対して共通に行うグループ分けステップと、
前記グループ分けに基づいて、前記複数のチャンネルの前記削除された周波数帯域の周波数データのエンベロープデータを符号化する符号化ステップと、を備えることを特徴とするオーディオ信号符号化方法。 - 前記周波数データの強度を、前記周波数データの絶対値のべき乗により算出することを特徴とする請求項4又は5記載のオーディオ信号符号化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004179321A JP2006003580A (ja) | 2004-06-17 | 2004-06-17 | オーディオ信号符号化装置及びオーディオ信号符号化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004179321A JP2006003580A (ja) | 2004-06-17 | 2004-06-17 | オーディオ信号符号化装置及びオーディオ信号符号化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006003580A true JP2006003580A (ja) | 2006-01-05 |
Family
ID=35772022
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004179321A Pending JP2006003580A (ja) | 2004-06-17 | 2004-06-17 | オーディオ信号符号化装置及びオーディオ信号符号化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006003580A (ja) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008004649A1 (en) | 2006-07-07 | 2008-01-10 | Nec Corporation | Audio encoding device, audio encoding method, and program thereof |
JP2010521013A (ja) * | 2007-03-09 | 2010-06-17 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
JP2012083790A (ja) * | 2006-11-09 | 2012-04-26 | Sony Corp | 信号処理装置及び信号処理方法、プログラム及び記録媒体、並びに再生装置 |
US8359113B2 (en) | 2007-03-09 | 2013-01-22 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
JP2013506164A (ja) * | 2009-09-29 | 2013-02-21 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、コンピュータプログラム、及び共通するオブジェクト間相関パラメータ値を用いるビットストリーム |
JP2013050663A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 多チャネル音響符号化装置およびそのプログラム |
US8422688B2 (en) | 2007-09-06 | 2013-04-16 | Lg Electronics Inc. | Method and an apparatus of decoding an audio signal |
US9131290B2 (en) | 2011-03-02 | 2015-09-08 | Fujitsu Limited | Audio coding device, audio coding method, and computer-readable recording medium storing audio coding computer program |
JP2021503627A (ja) * | 2017-11-17 | 2021-02-12 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法 |
JP2022123060A (ja) * | 2013-07-22 | 2022-08-23 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 符号化オーディオ信号を復号する復号装置および復号方法 |
-
2004
- 2004-06-17 JP JP2004179321A patent/JP2006003580A/ja active Pending
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008004649A1 (en) | 2006-07-07 | 2008-01-10 | Nec Corporation | Audio encoding device, audio encoding method, and program thereof |
US8818818B2 (en) | 2006-07-07 | 2014-08-26 | Nec Corporation | Audio encoding device, method, and program which controls the number of time groups in a frame using three successive time group energies |
JP5093514B2 (ja) * | 2006-07-07 | 2012-12-12 | 日本電気株式会社 | オーディオ符号化装置、オーディオ符号化方法およびそのプログラム |
JP2012083790A (ja) * | 2006-11-09 | 2012-04-26 | Sony Corp | 信号処理装置及び信号処理方法、プログラム及び記録媒体、並びに再生装置 |
US8594817B2 (en) | 2007-03-09 | 2013-11-26 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
JP2010521013A (ja) * | 2007-03-09 | 2010-06-17 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号の処理方法及び装置 |
US8463413B2 (en) | 2007-03-09 | 2013-06-11 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
US8359113B2 (en) | 2007-03-09 | 2013-01-22 | Lg Electronics Inc. | Method and an apparatus for processing an audio signal |
US8532306B2 (en) | 2007-09-06 | 2013-09-10 | Lg Electronics Inc. | Method and an apparatus of decoding an audio signal |
US8422688B2 (en) | 2007-09-06 | 2013-04-16 | Lg Electronics Inc. | Method and an apparatus of decoding an audio signal |
JP2013506164A (ja) * | 2009-09-29 | 2013-02-21 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | オーディオ信号デコーダ、オーディオ信号エンコーダ、アップミックス信号表現の生成方法、ダウンミックス信号表現の生成方法、コンピュータプログラム、及び共通するオブジェクト間相関パラメータ値を用いるビットストリーム |
US10504527B2 (en) | 2009-09-29 | 2019-12-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
US9460724B2 (en) | 2009-09-29 | 2016-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
US9805728B2 (en) | 2009-09-29 | 2017-10-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio signal decoder, audio signal encoder, method for providing an upmix signal representation, method for providing a downmix signal representation, computer program and bitstream using a common inter-object-correlation parameter value |
US9131290B2 (en) | 2011-03-02 | 2015-09-08 | Fujitsu Limited | Audio coding device, audio coding method, and computer-readable recording medium storing audio coding computer program |
JP2013050663A (ja) * | 2011-08-31 | 2013-03-14 | Nippon Hoso Kyokai <Nhk> | 多チャネル音響符号化装置およびそのプログラム |
JP2022123060A (ja) * | 2013-07-22 | 2022-08-23 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 符号化オーディオ信号を復号する復号装置および復号方法 |
JP7483792B2 (ja) | 2013-07-22 | 2024-05-15 | フラウンホーファー-ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 符号化オーディオ信号を復号する復号装置および復号方法 |
JP2021503627A (ja) * | 2017-11-17 | 2021-02-12 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法 |
US11367454B2 (en) | 2017-11-17 | 2022-06-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding |
JP2022171686A (ja) * | 2017-11-17 | 2022-11-11 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法 |
JP7175979B2 (ja) | 2017-11-17 | 2022-11-21 | フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. | 様々な時間/周波数分解能を使用して指向性オーディオコーディングパラメータを符号化または復号するための装置および方法 |
US11783843B2 (en) | 2017-11-17 | 2023-10-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
US12106763B2 (en) | 2017-11-17 | 2024-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using quantization and entropy coding |
US12112762B2 (en) | 2017-11-17 | 2024-10-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12112762B2 (en) | Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions | |
KR102230727B1 (ko) | 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법 | |
CN101120615B (zh) | 多声道编码器和解码器以及相应的编码和解码方法 | |
CN101868821B (zh) | 用于处理信号的方法和装置 | |
RU2439718C1 (ru) | Способ и устройство для обработки звукового сигнала | |
CN110459231B (zh) | 产生hoa信号的混合的空间/系数域表示的方法和设备 | |
US8515770B2 (en) | Method and apparatus for encoding and decoding excitation patterns from which the masking levels for an audio signal encoding and decoding are determined | |
EP3762923B1 (en) | Audio coding | |
JP6457625B2 (ja) | 独立したノイズ充填を用いた強化された信号を生成するための装置および方法 | |
JP4800379B2 (ja) | 最大ビットレートを保証する情報の無損失符号化 | |
CN103413553B (zh) | 音频编码方法、音频解码方法、编码端、解码端和系统 | |
CN107610710A (zh) | 一种面向多音频对象的音频编码及解码方法 | |
JP2006003580A (ja) | オーディオ信号符号化装置及びオーディオ信号符号化方法 | |
CN110660401B (zh) | 一种基于高低频域分辨率切换的音频对象编解码方法 | |
JPH09252254A (ja) | オーディオ復号装置 | |
JP2002132295A (ja) | ステレオオーディオ信号高能率符号化装置 | |
CN116508098A (zh) | 量化空间音频参数 | |
JP4195598B2 (ja) | 符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、復号化プログラム | |
JPH0918348A (ja) | 音響信号符号化装置及び音響信号復号装置 | |
JP2005004119A (ja) | 音響信号符号化装置及び音響信号復号化装置 | |
HK40016914B (en) | Method and apparatus for generating a mixed spatial/coefficient domain representation of hoa signals | |
KR20140037118A (ko) | 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기 | |
JP2008268792A (ja) | オーディオ信号符号化装置およびそのビットレート変換装置 | |
Nosirov et al. | The fractal method of compression of broadband audio signals |