[go: up one dir, main page]

JP4862136B2 - 音声信号処理装置 - Google Patents

音声信号処理装置 Download PDF

Info

Publication number
JP4862136B2
JP4862136B2 JP2006332616A JP2006332616A JP4862136B2 JP 4862136 B2 JP4862136 B2 JP 4862136B2 JP 2006332616 A JP2006332616 A JP 2006332616A JP 2006332616 A JP2006332616 A JP 2006332616A JP 4862136 B2 JP4862136 B2 JP 4862136B2
Authority
JP
Japan
Prior art keywords
frame
auxiliary information
audio
data
synchronization signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006332616A
Other languages
English (en)
Other versions
JP2008145716A5 (ja
JP2008145716A (ja
Inventor
定浩 安良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2006332616A priority Critical patent/JP4862136B2/ja
Publication of JP2008145716A publication Critical patent/JP2008145716A/ja
Publication of JP2008145716A5 publication Critical patent/JP2008145716A5/ja
Application granted granted Critical
Publication of JP4862136B2 publication Critical patent/JP4862136B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声符号化ストリームに含まれるパラメータ(補助情報)から、音声符号化ストリームに係る音声信号の特徴量を算出することが可能な音声信号処理装置に関する。
テレビジョン放送は2011年にアナログ放送が終了し、デジタル放送への移行が完了するが、オーディオビデオ機器に関しては、それに先んじてアナログ放送からデジタル放送への対応が行われている。現在、DVD(Digital Versatile Disc)レコーダにおいては、BS(Broadcasting Satellite)デジタル/110度CS(Communication Satellite)デジタル/地上デジタル/地上アナログ放送などの様々な放送(アナログ放送及びデジタル放送の両方)を受信できるようなチューナを備える機種が増加しており、特にデジタル放送については、HDD(Hard Disk Drive:ハードディスクドライブ)に符号化ストリームをそのまま記録できる形になっている。また、BSデジタル/110度CSデジタル/地上デジタルにおける音声信号は、MPEG(Moving Picture Experts Group)−2 AAC(Advanced Audio Coding)符号化方式により符号化され、ビデオ符号化ストリームに多重化されて伝送される。
また、デジタル放送への対応とは別に、チャプターを打つ機能(例えば、場面の切り替わり位置を設定する機能)や、CM(Commercial:コマーシャル)カット機能などで用いられる音声や映像の特徴点を捉える技術が、横並びのDVDレコーダ市場において他社との差別化を図るうえで重要となってきている。その際、上述のデジタル放送への対応に伴い、音声符号化ストリームを音声信号まで復号する処理(高負荷及び遅延が発生する処理)を行わずに、音声符号化ストリームに含まれる補助情報を用いて音声信号の特徴点を捉える機能を実現することが求められている。
一方、下記の特許文献1には、複数の内容が時分割的に存在する入力音声信号が周波数分解されてスケールファクタと共に符号化されている場合に、このスケールファクタを振幅として抽出し、振幅の時間的変化に基づいて、入力音声信号の内容の変化点を検出することが可能な技術が開示されている。
特開2003−29772号公報(段落0015、0016、0064)
しかしながら、MPEG−2 AAC符号化方式においては、スケールファクタと呼ばれる情報は、特許文献1に記載されているような周波数信号を一定値の範囲に収める正規化値という意味合いで使用されておらず、周波数信号を拡大縮小させるためのパラメータにすぎない。したがって、スケールファクタは音声信号の振幅値との関連性は薄く、スケールファクタを抽出したとしても、この情報を音声信号の特徴量として使用することはできないという問題がある。また、MPEG−2 AAC符号化方式では、スケールファクタに関しても可変長符号を用いて音声符号化ストリームに符号化されることから、スケールファクタを抽出するためには、可変長符号の復号に多くの演算量を費やす必要があるという問題がある。
上記の問題を解決するため、本発明は、音声符号化ストリームの可変長符号化されたデータの復号処理量を最低限に抑え(あるいは、可変長符号化されたデータを復号しないようにし)、音声符号化ストリームに含まれる音声信号の特徴量の算出処理の高速化を実現することが可能な音声信号処理装置を提供することを目的とする。
上記の目的を達成するため、本発明によれば、フレームの先頭であることを示す同期信号に続いて前記フレームの長さを表すフレーム長情報及びその他の複数の補助情報が順次配列されていることによって構成されているヘッダ部と、音声信号を含むオーディオストリーム部とを有する前記フレームを単位として、複数の前記フレームの配列によって構成された、少なくともハフマン符号化を用いて符号化された音声符号化ストリームを蓄積する音声符号化ストリーム蓄積手段と、
前記音声符号化ストリーム蓄積手段に蓄積された前記音声符号化ストリーム中の前記フレームの前記同期信号を検出することによって、前記フレームの先頭を特定する同期信号検出手段と、
前記音声符号化ストリーム蓄積手段に蓄積された前記音声符号化ストリームにおいて、前記同期信号検出手段によって特定された前記フレームの先頭から当該フレームの前記ヘッダ部に含まれている前記補助情報を順番に読み取る補助情報読み取り手段と、
所望の補助情報として設定されている補助情報が前記補助情報読み取り手段によって読み取られた直後に、前記フレームの前記同期信号から前記所望の補助情報までのデータ量と、前記フレーム長情報から得られる前記フレーム全体のデータ量とに基づいて、次のフレームの先頭までのデータを読み飛ばして前記同期信号検出手段の同期信号検出動作の開始タイミングを制御するデータスキップ手段と、
前記所望の補助情報に含まれる量子化ステップ情報と、前記フレーム全体のデータ量を示す使用ビット数とに基づいて、前記フレームにおける音量レベルを示す概算ビット数を算出する特徴量算出手段とを有し、
前記フレームにおける音量レベルを示す概算ビット数は、前記量子化ステップ情報と前記使用ビット数とを加算することにより算出される音声信号処理装置が提供される。
さらに、上記の目的を達成するため、本発明によれば、音声信号を少なくともハフマン符号化を用いて符号化して得られるデータの各フレームそれぞれの開始点を特定するフレーム開始点特定集団と、
前記各フレームそれぞれから、補助情報を抽出する補助情報抽出部と、
前記補助情報抽出部が所定のフレームの補助情報の抽出を終えると、その抽出を終えたフレームの次のフレームの先頭位置へと前記補助情報抽出部の読み出し位置を移動するデータスキップ部と、
前記所定のフレームの補助情報に含まれる量子化ステップ情報と、前記所定のフレームにおけるフレーム全体のデータ量を示す使用ビット数とに基づいて、前記所定のフレームにおける音量レベルを示す概算ビット数を算出する特徴量算出部とを有し、
前記所定のフレームにおける音量レベルを示す概算ビット数は、前記量子化ステップ情報と前記使用ビット数とを加算することにより算出される音声信号処理装置が提供される。
本発明は、音声符号化ストリームの可変長符号化されたデータの復号処理量を最低限に抑えながら(あるいは、可変長符号化されたデータを復号しないようにしながら)、音声符号化ストリーム中の補助情報を抽出し、抽出された補助情報に基づいて音声符号化ストリームに含まれる音声信号の特徴量の算出処理を行うため、高速な処理が可能となり、例えば、DVDレコーダによるDVDやHDDへの音声符号化ストリームの記録中に、並行して音声信号の特徴量を算出することが可能となる。
以下、図面を参照しながら、本発明の実施の形態について説明する。なお、以下では、音声符号化ストリームの一例として、MPEG−2 AAC符号化方式を用いて符号化された音声符号化ストリームを想定しながら本発明の実施の形態の説明を行うが、本発明に係る音声符号化方式はMPEG−2 AAC符号化方式に限定されるものではない。なお、MPEG−2 AAC符号化方式は、ISO(国際標準化機構)のワーキンググループであるMPEG(Moving Picture Experts Group)によって制定された音声情報圧縮の国際規格“MPEG-2/Advanced Audio Coding(ISO/IEC標準13818-7)”を表している。以降、MPEG−2 AACを単にAACと呼ぶこともある。
まず、図1を参照しながら、本発明の実施の形態における音声信号処理装置の構成の一例について説明する。図1は、本発明の実施の形態における音声信号処理装置の構成の一例を示すブロック図である。図1に図示されている音声信号処理装置は、バッファメモリ11、同期信号検出部12、補助情報抽出部13、データスキップ部14、特徴量算出部15を有している。
バッファメモリ11は、音声信号が周波数変換されて符号化された音声符号化ストリームを一時的に蓄積する機能を有している。バッファメモリ11に蓄積された音声符号化ストリームは、同期信号検出部12、補助情報抽出部13、データスキップ部14によって適宜読み出される。
また、同期信号検出部12は、音声信号が周波数変換されて符号化された音声符号化ストリームに対して、音声符号化ストリーム中の同期信号を検出して、1AAU(Audio Access unit:オーディオアクセスユニット)の開始点を特定する機能を有している。なお、同期信号検出部12は、データスキップ部14からのスキップ完了フラグを受けて、同期信号の検出処理を開始する。また、同期信号検出部12によって音声符号化ストリーム中の開始点が発見された場合には、同期完了フラグが有効となって補助情報抽出部13に供給される。
また、補助情報抽出部13は、同期信号検出部12で特定された開始点からAAUを特定し、1AAUに含まれる特徴量算出に必要な補助情報を抽出する機能を有している。なお、補助情報抽出部13は、同期信号検出部12からの同期完了フラグを受けて、補助情報の抽出処理を開始する。また、補助情報抽出部13によって補助情報が抽出された場合には、抽出完了フラグが有効となってデータスキップ部14に供給される。
また、データスキップ部14は、まだ読み出していない残りのデータ(1AAの残りのデータ)を読み飛ばして、次の同期信号の位置までデータ読み出し位置を移動させる機能を有している。なお、データスキップ部14は、補助情報抽出部13からの抽出完了フラグを受けて、データ読み出し位置の移動処理を開始する。また、データスキップ部14によってデータ読み出し位置の移動が行われた場合には、スキップ完了フラグが有効となって同期信号検出部12に供給される。
また、特徴量算出部15は、補助情報抽出部13によって抽出された補助情報を用いて音声信号の特徴量を算出し、算出された特徴量を出力する機能を有している。
次に、図2を参照しながら、音声符号化ストリームの1つであるAAC符号化ストリームの構成の一例について説明する。図2は、本発明の実施の形態における音声信号処理装置で用いられるAAC符号化ストリームの構成の一例を示す図である。なお、図2には、ステレオ音声信号を符号化した場合に生成されるAAC符号化ストリームの構成の一例が図示されている。
図2に図示されているAAC符号化ストリームの構成は、デジタル放送で使用されているADTS(Audio Data Transport Stream:オーディオデータトランスポートストリーム)フォーマットを想定している。図2において、1AAUに相当するadts_frameは、adts_fixed_header、adts_variable_header、adts_error_check、raw_data_blockにより構成される。
adts_fixed_headerは、フレーム間で値が変化しない情報に使用され、先頭には同期信号(syncword)が存在する。また、adts_variable_headerは、フレーム間で値が変化する情報に使用され、1AAUのフレーム長を示す情報(frame_length)や、デコーダバッファの遷移を示す情報(adts_buffer_fullness)などが含まれている。また、adts_error_checkは、CRC(Cyclic Redundancy Check:巡回冗長検査)エラーチェックコードのために使用される。
また、raw_data_blockは、エレメントと呼ばれる単位が集まって構成されている。raw_data_blockを構成しているエレメントには、L/Rチャンネル用のCPE(Channel Pair Element)、スタッフィングバイト挿入用のFILL(Fill Element)、1AAUの終わりを示すEND(Term Element)が存在する。なお、FILLは存在しない場合がある。
CPEには、L/Rチャンネルで共通の窓関数を表す情報(common_window)や、チャンネルごとの情報(individual_channel_stream)が存在する。また、individual_channel_streamには、窓関数のシーケンス処理を表す情報(window_sequence)、帯域制限を表す情報(max_sfb)、量子化ステップを表す情報(global_gain)、拡大縮小用パラメータを表す情報(scale_factor_data)、量子化データを示す情報(spectral_data)が存在する。
なお、拡大縮小用パラメータを表す情報(scale_factor_data)及び量子化データを示す情報(spectral_data)は、ハフマン符号により可変長符号化が行われており、固定長の場合とは異なり、データの先頭から順番に情報を抽出する必要がある。すなわち、例えば、Lch用scale_factor_data、Lch用spectral_data、Rch用scale_factor_data、Rch用spectral_dataの順番で可変長符号化されている場合には、各チャンネルのscale_factor_dataを取り出すためには、Lch用scale_factor_dataを復号して取り出した後、Rch用scale_factor_dataの読み出し位置を特定するためにLch用spectral_dataを復号し、そして、Rch用scale_factor_dataの復号を行う必要がある。
なお、補助情報抽出部13において、frame_length、Lch用global_gainを含む補助情報を抽出し、Rch用global_gainは抽出しないようにすることも可能である。また、補助情報抽出部13において、さらにLch用scale_factor_dataを含めた補助情報を抽出し、Rch用scale_factor_dataは抽出しないようにすることも可能である。そして、データスキップ部14では、frame_lengthをビット数に換算した値から、読み出したデータ量(例えば、syncwordからLch用global_gainまでのビット数)を減算したデータ量だけデータの読み飛ばしを行うことにより、次のadts_frameの先頭に読み出し位置を進めることが可能となる。このようにして、可変長符号化されたデータの復号を省略したり、あるいは、最低限のデータ復号の処理量に抑えたりすることが可能となる。
また、上述のフォーマット中のraw_data_blockは、音声信号の形式によって異なるエレメント構成を有することになる。例えばエレメントを<>を用いて記述する場合、本発明の実施の形態における音声信号処理装置によって処理されるステレオ音声に係る音声符号化ストリームに含まれるエレメントは、以下のように記述可能である。
ステレオ音声: <CPE1><FILL><TERM> (ただし、CPE1 = L/R:L/Rチャンネル)
また、例えばモノラル音声やマルチチャンネル音声(例えば5.1ch)は、FILLが存在しないとすると、シングルチャンネル用のSCE(Single Channel Element)、低域強調チャンネル用のLFE(LFE(Low Frequency Enhancement)Channel Element)を用いて、以下のように記述することができる。
モノラル音声: <SCE1><TERM>
(ただし、SCE1 = C:センタチャンネル)
マルチチャンネル音声: <SCE1><CPE1><CPE2><LFE><TERM>
(ただし、SCE1 = C:センタチャンネル、CPE1 = L/R:L/Rチャンネル、CPE2 = Ls/Rs:サラウンドL/Rチャンネル、LFE = 低域強調チャンネル)
なお、本発明は、最初に出現するエレメント<SCE1>に含まれる補助情報を取得する場合には、ステレオ音声だけではなく、モノラル音声やマルチチャンネル音声にも対応可能となる。
また、MPEG−2 AAC符号化方式で用いられる量子化式及び逆量子化式は、それぞれ下記の式(1)及び式(2)のように表される。
Figure 0004862136
Figure 0004862136
なお、量子化式(1)及び逆量子化式(2)において、mdct_line(k)は周波数スペクトルを示している。また、global_gainは上述の量子化ステップを表す情報(量子化ステップ情報)であり、所定ビット数に使用ビット数を収めるために、周波数スペクトル全体の量子化ステップを変更するパラメータとして用いられる。また、scalefactor(sfb)は、scale_factor_dataを復号したものであり、周波数信号を拡大縮小させて、量子化や逆量子化で発生する量子化誤差が、聴覚心理的観点から許容される範囲に収まるようにするパラメータとして用いられる。それゆえ、scalefactor(sfb)情報だけを抽出したとしても、周波数信号の振幅値に略比例関係にあるとは言えない。
なお、特徴量算出部15は、例えば、周波数変換により求められる周波数スペクトルのそれぞれに対して対数を取って合計した概算ビット数を補助情報を用いて算出し、算出された概算ビット数を、復号した音声信号の音量変化を検出するための特徴量として出力することも可能である。以下に、この場合の算出式の一例を示す。
まず、上述の量子化式(1)を変形すると、次の式(3)となる。
Figure 0004862136
ハフマン符号化を用いずに、量子化値が何ビットで表現されるかを求めると、下記の式(4)が得られる。
Figure 0004862136
一方、上記の式(4)のnum_bit(k)は、例えば入力される音声信号が16ビットのPCM(Pulse Code Modulation:パルスコード変調)データの場合には、絶対値を取っているため、符号(1ビット)を取り除いた15ビットの値まで取り得ることになる。また、量子化値を音声符号化ストリームと同様にビット単位で羅列することを考えた場合、量子化値が何ビットで表現されているかを示す補助情報が与えられていないと、元通りの値を取り出すことが困難になる。そのため、元通りの量子化値を取り出すための補助情報として、0〜15の値を表現できるように4ビット分使用される。その結果、上記のnum_bit(k)は修正されて、下記の式(5)のようになる。
Figure 0004862136
そして、上記の式(5)で得られるnum_bit(k)から、周波数スペクトル分(すなわち1024スペクトル分)のnum_bit(k)の総和であるtotal_num_bitを求めると、下記の式(6)のようになる。
Figure 0004862136
さらに、このtotal_num_bitが使用ビット数(used_bit)である場合には、使用ビット数であるused_bitとtotal_num_bitとが等しい下記の式(7)が得られる。
Figure 0004862136
そして、上記の式(7)を変形して、下記の式(8)に示すように、Σ(log2(x))を求めることが可能となる。
Figure 0004862136
なお、上記の式(8)において、lenは周波数バンド番号(sfb)に含まれる周波数スペクトル数を表しており、最後の項は、周波数バンド全体におけるscalefactor量が求められている。また、max_sfb × len = 1024の関係を有している。また、上記の式(8)は符号化されたビットストリームをscale_factor_dataまで復号して抽出した補助情報を用いる場合の算出式を示しているが、scale_factor_dataの復号を省略した場合には、scalefactor(sfb)の値をすべて0(all zero)として、下記の式(9)によって算出することが可能である。
Figure 0004862136
上述の式(8)や式(9)で求められるΣ(log2(x))は概算ビット数であるが、音声信号の音量レベルが大きい場合には、周波数スペクトルの振幅レベルも大きいため、概算ビット数も大きい値を示し、音量レベルが小さい場合には、概算ビット数も小さい値を示すことになる。すなわち、概算ビット数は、音声信号の振幅レベル(音量)に対応した変化を示し、音声信号の音量変化を検出するための特徴量として使用することが可能である。
また、MPEG−2 AACはエンコーダバッファ(デコーダバッファ)を持っているため、固定レート符号化の場合であっても1AAUの長さは一定ではなく、エンコーダバッファが破綻しない範囲での可変長が許されている。音声信号が無音の場合(あるいは、無音に近い場合)にはフレームに含まれる情報量は少なくなり、frame_lengthの値が小さく設定される。すなわち、frame_lengthの値によって短いフレーム長が示された場合には、そのフレームは無音あるいは無音に近い音声を含むフレームとみなすことが可能であり、音声信号の無音部分を検出するための特徴量としてframe_lengthを使用することが可能である。
また、固定レート符号化では、音声信号の無音部分においてビットレート調整用に多くのスタッフィングバイトが費やされる。したがって、演算処理量に余裕があり、符号化ストリームの可変長符号をすべて復号することが可能であれば、音声信号の無音部分を検出するために有用な特徴量として、FILLでスタッフィングバイトとして挿入されているバイト数を使用することが可能となる。
また、その他の補助情報において、max_sfbは、音声信号の周波数帯域幅を表す特徴量として使用可能である。以下、図3に図示されているmax_sfbと周波数帯域幅との関係を参照しながら、max_sfbが、音声信号の周波数帯域幅を表す特徴量として使用可能であることについて説明する。
図3は、本発明の実施の形態における音声信号処理装置において、max_sfbが音声信号の周波数帯域幅を表す特徴量として使用可能であることを説明するためのグラフの一例を示す図である。なお、図3のグラフの縦軸は振幅レベル[dB]を表し、図3のグラフの横軸は周波数[Hz]を表している。
図3に図示されているように、符号化で用いられるエンコーダによっては、設定されたビットレートに応じて周波数帯域幅を可変にする場合があり、低ビットレート(例えば128kbps)では、使用可能なビット数が不足傾向にあるので帯域制限を強くして(max_sfb = 42に相当)、耳障りな量子化ノイズの発生を防ぐようにし、高ビットレート(例えば256kbps)では、使用可能なビット数が必要十分であるので帯域制限を弱くして(max_sfb = 48に相当)、可能な限り忠実に符号化を行うようにしている。max_sfbは帯域制限を示す値であり、したがって、max_sfbから周波数帯域幅を逆に求めることが可能である。また、周波数帯域幅とビットレートとの間に相関があるものと仮定し、max_sfb又は周波数帯域幅から設定ビットレートを推定することも可能であり、adts_buffer_fullness及びframe_lengthから、デコーダバッファの遷移を計算して求めることも可能である。例えば瞬間的なビットレートであれば、frame_lengthの値から以下の式(10)により簡単に算出することが可能である。
Figure 0004862136
また、窓関数のシーケンス処理を表す情報であるwindow_sequenceを、定常音から非定常音に切り替わった箇所を特定するための特徴量として使用することが可能である。図4は、本発明の実施の形態における音声信号処理装置において、定常音から非定常音に切り替わった箇所を特定するための特徴量として使用可能なwindow_sequenceの値と窓関数との関係を説明するための図である。また、図5は、本発明の実施の形態における音声信号処理装置において用いられる窓関数の状態遷移の一例を示す状態遷移図である。
図4中のlong窓(long(value=0))は定常状態の場合に使用される窓関数、図4中のstart窓(start(value=1))は音の立ち上がりの際に使用される窓関数、図4中のshort窓(short(value=2))は音の立ち上がりから収束までの遷移状態時に使用される窓関数、図4中のstop窓(stop(value=3))は音の収束の際に使用される窓関数である。例えば、カスタネットを叩いた時のように無音から急激な音の立ち上がりを経て再び無音に戻る場合には、図5の状態遷移図において、long(0)→start(1)→short(2)→stop(3)→long(0)の順に窓関数の状態は遷移する。したがって、window_sequenceの値を監視することによって、音声信号の傾向を把握することが可能となる。
また、common_windowは、L/Rチャンネルで共通の窓関数を表す情報であり、ニュース番組などのモノラル音声に近いコンテンツを符号化した場合には、このcommon_windowに含まれる情報を用いてビット数の削減が行われる。したがって、このcommon_windowの情報の変化を検出することによって、そのコンテンツがステレオ音声に近い音声信号を含んでいるか、あるいはモノラル音声に近い音声信号を含んでいるかを把握することが可能であり、ステレオ音声又はモノラル音声を識別するための特徴量としてcommon_windowを使用することが可能である。
なお、上述の実施の形態では、MPEG−2 AAC符号化方式を前提として説明を行ったが、MPEG−2 AAC SBR(Spectral Band Replication)や、MPEG−4 AAC、MPEG−4 AAC SBR、MPEG−1 レイヤ3に本発明を適用することも可能である。また、図1に図示されている音声信号処理装置の各機能ブロックは、ハードウェア及び/又はソフトウェアによって実現可能である。また、上述の実施の形態における音声信号処理装置の機能をプログラムによりコンピュータに実現させるようにしてもよい。このプログラムは、記録媒体から読み取られてコンピュータに取り込まれてもよく、あるいは、通信ネットワークを介して伝送されてコンピュータに取り込まれてもよい。
本発明は、音声符号化ストリームの可変長符号化されたデータの復号処理量を最低限に抑えながら(あるいは、可変長符号化されたデータを復号しないようにしながら)、音声符号化ストリーム中の補助情報を抽出し、抽出された補助情報に基づいて音声符号化ストリームに含まれる音声信号の特徴量の算出処理を行うため、高速な処理が可能となるという効果を有しており、音声符号化ストリームに含まれるパラメータ(補助情報)から、音声符号化ストリームに係る音声信号の特徴量を算出する技術に適用可能である。
本発明の実施の形態における音声信号処理装置の構成の一例を示すブロック図である。 本発明の実施の形態における音声信号処理装置で用いられるAAC符号化ストリームの構成の一例を示す図である。 本発明の実施の形態における音声信号処理装置において、max_sfbが音声信号の周波数帯域幅を表す特徴量として使用可能であることを説明するためのグラフの一例を示す図である。 本発明の実施の形態における音声信号処理装置において、定常音から非定常音に切り替わった箇所を特定するための特徴量として使用可能なwindow_sequenceの値と窓関数との関係を説明するための図である。 本発明の実施の形態における音声信号処理装置において用いられる窓関数の状態遷移の一例を示す状態遷移図である。
符号の説明
11 バッファメモリ
12 同期信号検出部
13 補助情報抽出部
14 データスキップ部
15 特徴量算出部

Claims (2)

  1. フレームの先頭であることを示す同期信号に続いて前記フレームの長さを表すフレーム長情報及びその他の複数の補助情報が順次配列されていることによって構成されているヘッダ部と、音声信号を含むオーディオストリーム部とを有する前記フレームを単位として、複数の前記フレームの配列によって構成された、少なくともハフマン符号化を用いて符号化された音声符号化ストリームを蓄積する音声符号化ストリーム蓄積手段と、
    前記音声符号化ストリーム蓄積手段に蓄積された前記音声符号化ストリーム中の前記フレームの前記同期信号を検出することによって、前記フレームの先頭を特定する同期信号検出手段と、
    前記音声符号化ストリーム蓄積手段に蓄積された前記音声符号化ストリームにおいて、前記同期信号検出手段によって特定された前記フレームの先頭から当該フレームの前記ヘッダ部に含まれている前記補助情報を順番に読み取る補助情報読み取り手段と、
    所望の補助情報として設定されている補助情報が前記補助情報読み取り手段によって読み取られた直後に、前記フレームの前記同期信号から前記所望の補助情報までのデータ量と、前記フレーム長情報から得られる前記フレーム全体のデータ量とに基づいて、次のフレームの先頭までのデータを読み飛ばして前記同期信号検出手段の同期信号検出動作の開始タイミングを制御するデータスキップ手段と、
    前記所望の補助情報に含まれる量子化ステップ情報と、前記フレーム全体のデータ量を示す使用ビット数とに基づいて、前記フレームにおける音量レベルを示す概算ビット数を算出する特徴量算出手段とを有し、
    前記フレームにおける音量レベルを示す概算ビット数は、前記量子化ステップ情報と前記使用ビット数とを加算することにより算出される音声信号処理装置。
  2. 音声信号を少なくともハフマン符号化を用いて符号化して得られるデータの各フレームそれぞれの開始点を特定するフレーム開始点特定集団と、
    前記各フレームそれぞれから、補助情報を抽出する補助情報抽出部と、
    前記補助情報抽出部が所定のフレームの補助情報の抽出を終えると、その抽出を終えたフレームの次のフレームの先頭位置へと前記補助情報抽出部の読み出し位置を移動するデータスキップ部と、
    前記所定のフレームの補助情報に含まれる量子化ステップ情報と、前記所定のフレームにおけるフレーム全体のデータ量を示す使用ビット数とに基づいて、前記所定のフレームにおける音量レベルを示す概算ビット数を算出する特徴量算出部とを有し、
    前記所定のフレームにおける音量レベルを示す概算ビット数は、前記量子化ステップ情報と前記使用ビット数とを加算することにより算出される音声信号処理装置。
JP2006332616A 2006-12-08 2006-12-08 音声信号処理装置 Expired - Fee Related JP4862136B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006332616A JP4862136B2 (ja) 2006-12-08 2006-12-08 音声信号処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006332616A JP4862136B2 (ja) 2006-12-08 2006-12-08 音声信号処理装置

Publications (3)

Publication Number Publication Date
JP2008145716A JP2008145716A (ja) 2008-06-26
JP2008145716A5 JP2008145716A5 (ja) 2010-06-03
JP4862136B2 true JP4862136B2 (ja) 2012-01-25

Family

ID=39605966

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006332616A Expired - Fee Related JP4862136B2 (ja) 2006-12-08 2006-12-08 音声信号処理装置

Country Status (1)

Country Link
JP (1) JP4862136B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010074823A (ja) * 2008-08-22 2010-04-02 Panasonic Corp 録画編集装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2558997B2 (ja) * 1991-12-03 1996-11-27 松下電器産業株式会社 ディジタルオーディオ信号の符号化方法
GB9705999D0 (en) * 1997-03-22 1997-05-07 Philips Electronics Nv Video signal analysis and storage
JP2000347697A (ja) * 1999-06-02 2000-12-15 Nippon Columbia Co Ltd 音声記録再生装置および記録媒体
JP3630082B2 (ja) * 2000-07-06 2005-03-16 日本ビクター株式会社 オーディオ信号符号化方法及びその装置
JP3840928B2 (ja) * 2001-07-17 2006-11-01 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
JP2005031569A (ja) * 2003-07-11 2005-02-03 Matsushita Electric Ind Co Ltd 音声再生装置
JP2005259220A (ja) * 2004-03-10 2005-09-22 Matsushita Electric Ind Co Ltd 再生装置及びその制御方法
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術

Also Published As

Publication number Publication date
JP2008145716A (ja) 2008-06-26

Similar Documents

Publication Publication Date Title
EP1987594B1 (en) Method and apparatus for processing an audio signal
CN102934162B (zh) 搜索随后被重放的包括基本层和至少一个增强层分层分级比特流的方法和设备
EP2395503A2 (en) Audio signal encoding and decoding method, and apparatus for same
WO2006137425A1 (ja) オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置
US20030215013A1 (en) Audio encoder with adaptive short window grouping
JP6728154B2 (ja) オーディオ信号のエンコードおよびデコード
EP4398249A2 (en) Decoding sample-accurate representation of an audio signal
US20030167165A1 (en) Method and apparatus for encoding and for decoding a digital information signal
KR100852613B1 (ko) 오디오 신호들의 편집
JP6465020B2 (ja) 復号装置および方法、並びにプログラム
JP4862136B2 (ja) 音声信号処理装置
RU2383941C2 (ru) Способ и устройство для кодирования и декодирования аудиосигналов
US20150104158A1 (en) Digital signal reproduction device
JP4665550B2 (ja) 再生装置および再生方法
JP2000330592A (ja) 圧縮音響ストリーム内データ追加方法およびその装置
KR20070074442A (ko) 다채널 오디오 복원 장치 및 방법과 이 장치에서 수행되는프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체
KR20100054749A (ko) 신호의 처리 방법 및 이의 장치
JP2013134301A (ja) 再生装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110225

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110610

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111007

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20111012

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111012

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141118

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4862136

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees