[go: up one dir, main page]

JP2007519014A - ノイズの加算によるデコードオーディオの品質の向上 - Google Patents

ノイズの加算によるデコードオーディオの品質の向上 Download PDF

Info

Publication number
JP2007519014A
JP2007519014A JP2006518416A JP2006518416A JP2007519014A JP 2007519014 A JP2007519014 A JP 2007519014A JP 2006518416 A JP2006518416 A JP 2006518416A JP 2006518416 A JP2006518416 A JP 2006518416A JP 2007519014 A JP2007519014 A JP 2007519014A
Authority
JP
Japan
Prior art keywords
signal
audio signal
generating
noise
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006518416A
Other languages
English (en)
Other versions
JP4719674B2 (ja
Inventor
ブリンケル,アルベルテュス セー デン
ピー マイバーグ,フランソワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2007519014A publication Critical patent/JP2007519014A/ja
Application granted granted Critical
Publication of JP4719674B2 publication Critical patent/JP4719674B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Stereo-Broadcasting Methods (AREA)

Abstract

本発明は、オーディオ信号をエンコード及びデコードする方法に関する。本発明は、オーディオ信号をエンコード及びデコードする構成に更に関する。本発明は、オーディオ信号を示すデータレコードを有するコンピュータ読取可能媒体と、本発明に従ってエンコードされたオーディオ信号を通信する装置とに更に関する。エンコード方法により、信号の二重の記述が得られ、エンコードは2つのエンコードステップ(第1の標準的なエンコード及び更なる第2のエンコード)を有する。第2のエンコードは、信号の粗い記述を提供することができ、それにより、確率的な実現が可能になり、第1のデコードからのデコード信号に適切な部分が加算され得る。確率信号の可能性の実現を行うための第2のエンコーダの所要の記述は、比較的小さいビットレートを必要とし、他の二重/複数の記述はかなり高いビットレートを必要とする。

Description

本発明は、オーディオ信号をエンコード及びデコードする方法に関する。本発明は、オーディオ信号をエンコード及びデコードする装置に更に関する。本発明は、エンコードオーディオ信号を示すデータレコードを有するコンピュータ読取可能媒体と、エンコードオーディオ信号とに更に関する。
符号化の1つの方法は、良好又は許容範囲の品質を維持する一方で、オーディオ又はスピーチ信号の一部を合成ノイズによりモデル化させることによるものであり、例えば帯域拡張ツールはこの概念に基づいている。スピーチ及びオーディオ用の帯域拡張ツールでは、低ビットレートの場合に、高い周波数帯は一般的にエンコーダで除去され、欠落した帯域の時間及びスペクトル包絡線のパラメータ記述により回復される。又は、欠落した帯域は何らかの方法で受信オーディオ信号から生成される。いずれの場合においても、欠落した帯域の認識(少なくとも位置)が、補完ノイズ信号を生成するために必要である。
この原理は、目的のビットレートを前提として、第1のエンコーダにより第1のビットストリームを生成することで実行される。ビットレートの要件は、第1のエンコーダに何らかの帯域制限をもたらす。この帯域制限は、第2のエンコーダでの認識として使用される。次に、更なる(帯域拡張)ビットストリームが第2のエンコーダにより生成され、その第2のエンコーダは、欠落した帯域のノイズ特性の観点から信号の記述をカバーする。第1のデコーダでは、第1のビットストリームは、帯域制限のオーディオ信号を再構成するために使用され、更なるノイズ信号が第2のデコーダにより生成され、帯域制限のオーディオ信号に加算され、それによって完全なデコード信号が得られる。
前記の課題は、第1のエンコーダ及び第1のデコーダによりカバーされるブランチ(branch)において何の情報が破棄されたかが、常に送信機又は受信機に知られているとは限らない点である。例えば、第1のエンコーダが階層化ビットストリームを作り、階層がネットワークでの伝送中に取り除かれる場合、送信機又は第1のエンコーダと、受信機又は第1のデコーダとは、このイベントを認識していない。取り除かれた情報は、例えばサブバンドコーダの高い帯域からのサブバンド情報でもよい。他の可能性は、正弦波符号化で生じる。スケーラブル正弦波符号化では、階層化ビットストリームが生成され、その知覚関連性に従って正弦波データが階層に分類され得る。何が取り除かれたかを示すために残りの階層を更に編集することなく、伝送中に階層を取り除くことは、一般的にデコード正弦波信号にスペクトルギャップを生成する。
この設定における基本的な問題は、第1のエンコーダ及び第1のデコーダが、第1のエンコーダから第1のデコーダのブランチでどのような適応が行われたかについて情報を有さないことにある。デコーダが許容されたビットストリームを単に受信する一方で、適応が伝送中に(すなわちエンコードの後に)行われ得るため、エンコーダは認識を失う。
ビットレートスケーラビリティ(埋め込み符号化とも呼ばれる)は、オーディオコーダがスケーラブルビットストリームを作る機能である。スケーラブルビットストリームは複数の階層(又はプレーン)を有し、その階層は除去可能であり、その結果、ビットレートと品質とを低減する。第1の(及び最も重要な)階層は、通常は“下位レイヤ”と呼ばれ、残りの階層は“改良レイヤ”と呼ばれ、一般的に予め定められた重要度を有する。デコーダは、スケーラブルビットストリームの予め定められた部分(階層)をデコードすることができなければならない。
ビットレートスケーラブルのパラメトリック・オーディオ符号化では、知覚重要度順にオーディオオブジェクト(正弦波、過渡(transient)及び雑音)をビットストリームに加算することが一般的に行われている。特定のフレームでの個々の正弦波はその知覚関連性に従って順序付けられ、最も関連のある正弦波が下位レイヤに配置される。残りの正弦波はその知覚関連性に従って改良レイヤに分配される。完全なトラックがその知覚関連性に従って分類され、階層に分配され、最も関連のあるトラックが下位レイヤになり得る。個々の正弦波と完全なトラックのこの知覚順序を実現するために、心理音響モデルが使用される。
最も重要なノイズ成分のパラメータを下位レイヤに配置し、残りのノイズパラメータが改良レイヤに分配されることが知られている。これは、H.PurnhagenとB.EdlerとN.MeineとによるError Protection and Concealment for HILN MPEG-4 Parametric Audio Coding、Audio Engineering Society(AES) 100th Convention、 Preprint 5300、 Amsterdam(NL)、2001年5月12-15という題の文献に記載されている。
全体としてのノイズ成分はまた、第2の改良レイヤに加算され得る。過渡(transient)は最も重要でない信号成分と考えられる。従って、一般的に高位の改良レイヤの1つに配置される。これは、T.S.Verma及びT.H.Y.MengによるA 6kbps to 85kbps Scalable Audio Coder、2000 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP2000)、pp.877-880、2000年6月5-9という題の文献に記載されている。
前述のように構成された階層化ビットストリームでの課題は、各階層の結果として生じるオーディオ品質である。ビットストリームから改良レイヤを取り除くことにより正弦波をドロップすることは、デコード信号にスペクトルの“穴”を生じる。通常ではノイズは完全な正弦波成分を前提としてエンコーダで得られるため、これらの穴は雑音成分(又はその他の信号成分)により充填されない。更に、(完全な)ノイズ成分がなければ、更なる加工物が取り入れられない。スケーラブルビットストリームを作るこれらの方法は、オーディオ品質にぎこちない不自然な劣化を生じる。
前述の課題に対する対策を提供することが、本発明の目的である。
これは、オーディオ信号をエンコードする方法により得られ、符号信号は、所定の符号化方法に従ってオーディオ信号から生成され、その方法は、
−オーディオ信号を、そのオーディオ信号のスペクトル時間情報の少なくとも一部を定める変換パラメータのセットに変換し、その変換パラメータは、そのオーディオ信号に実質的に類似するスペクトル時間特性を有するノイズ信号の生成を可能にするステップと、
−その符号信号とその変換パラメータとによりそのオーディオ信号を表すステップとを有する。
それによって、2つのエンコードステップ(第1の標準的なエンコード及び更なる第2のエンコード)を有する信号の二重の記述が得られる。第2のエンコードは、信号の粗い記述を提供することができ、それにより確率的な実現が可能になり、適切な部分が第1のデコードからのデコード信号に加算され得る。確率信号の可能性の実現を行うための第2のエンコーダの所要の記述は、ほとんどビットレートを必要とせず、他の二重/複数の記述は更に多くのビットレートを必要とする。変換パラメータは、例えば、オーディオ信号のスペクトル包絡線を記述するフィルタ係数でもよく、時間エネルギー又は振幅包絡線を記述する係数でもよい。代替として、パラメータは、オーディオ信号のマスキング曲線、励起パターン又は特定の音量のような心理音響データを有する更なる情報でもよい。
一実施例では、変換パラメータは、オーディオ信号で線形予測を実行することにより生成される予測係数を有する。これは、変換パラメータを得る簡単な方法であり、小さいビットレートのみがこれらのパラメータの伝送に必要になる。更に、これらのパラメータにより、簡単なデコード側のフィルタリング機構を構成することが可能になる。
特定の実施例では、符号信号は、そのオーディオ信号の少なくとも1つの正弦波成分を定める振幅及び周波数パラメータを有する。それによって、前述のパラメトリック・コーダの課題が解決され得る。
特定の実施例では、変換パラメータは、そのオーディオ信号の正弦波成分の振幅の推定を表す。それによって、全符号化データのビットレートが低減され、更に、振幅パラメータの時間差エンコードに対する選択肢が得られる。
特定の実施例では、エンコードはオーディオ信号の重複セグメントで実行され、それによって、パラメータの特定のセットがセグメント毎に生成され、そのパラメータはセグメント特有の変換パラメータとセグメント特有の符号信号とを有する。それによって、大量のオーディオデータ(例えばオーディオデータの生のストリーム)をエンコードするために、エンコードが使用され得る。
本発明はまた、変換パラメータと所定の符号化方法に従って生成された符号信号とからオーディオ信号をデコードする方法に関し、その方法は、
−その所定の符号化方法に対応するデコード方法を使用して、その符号信号を第1のオーディオ信号にデコードするステップと、
−その変換パラメータから、そのオーディオ信号に実質的に類似したスペクトル時間特性を有するノイズ信号を生成するステップと、
−ノイズ信号から、既に第1のオーディオ信号に含まれるオーディオ信号のスペクトル時間部分を除去することにより、第2のオーディオ信号を生成するステップと、
−第1のオーディオ信号と第2のオーディオ信号とを加算することにより、オーディオ信号を生成するステップとを有する。
それによって、その方法は、デコード方法によって生成された第1の信号の何のスペクトル時間部分が欠落しているかを選択し、適切な(すなわち入力信号に従った)ノイズでこれらの部分を充填することが可能になる。これは、元のオーディオ信号にスペクトル時間的に近いオーディオ信号を生じる。
デコード方法の実施例において、その第2のオーディオ信号を生成するステップは、
−第1のオーディオ信号のスペクトルとノイズ信号のスペクトルとを比較することにより、周波数応答を導き、
−その周波数応答に従ってノイズ信号をフィルタリングすることを有する。
デコード方法の特定の実施例において、その第2のオーディオ信号を生成するステップは、
−変換パラメータのスペクトルデータに基づいて第1のオーディオ信号をスペクトル的に平坦化することにより、第1の残差信号を生成し、
−変換パラメータの時間データに基づいてノイズシーケンスを時間的に成形することにより、第2の残差信号を生成し、
−第1の残差信号のスペクトルと第2の残差信号のスペクトルとを比較することにより、周波数応答を導き、
−その周波数応答に従ってノイズ信号をフィルタリングすることを有する。
デコード方法のその他の実施例において、その第2のオーディオ信号を生成するステップは、
−変換パラメータのスペクトルデータに基づいて第1のオーディオ信号をスペクトル的に平坦化することにより、第1の残差信号を生成し、
−変換パラメータの時間データに基づいてノイズシーケンスを時間的に成形することにより、第2の残差信号を生成し、
−第1の残差信号と第2の残差信号とを合計信号に加算し、
−合計信号をスペクトル的に平坦化する周波数応答を導き、
−その周波数応答に従って第2の残差信号をフィルタリングすることにより、第2の残差信号を更新し、
−合計信号のスペクトルが実質的に平坦になるまで、その加算し、導き、更新するステップを繰返し、
−全ての導かれた周波数応答に従ってノイズ信号をフィルタリングすることを有する。
本発明は、オーディオ信号をエンコードする装置に更に関し、その装置は、所定の符号化方法に従って符号信号を生成する第1のエンコーダを有し、その装置は、
−オーディオ信号を、そのオーディオ信号のスペクトル時間情報の少なくとも一部を定める変換パラメータのセットに変換し、その変換パラメータは、そのオーディオ信号に実質的に類似するスペクトル時間特性を有するノイズ信号の生成を可能にする第2のエンコーダと、
−その符号信号とその変換パラメータとによりそのオーディオ信号を表す処理手段とを更に有する。
本発明はまた、変換パラメータと所定の符号化方法に従って生成された符号信号とからオーディオ信号をデコードする装置に関し、その装置は、
−その所定の符号化方法に対応するデコード方法を使用して、その符号信号を第1のオーディオ信号にデコードする第1のデコーダと、
−その変換パラメータから、そのオーディオ信号に実質的に類似したスペクトル時間特性を有するノイズ信号を生成する第2のデコーダと、
−ノイズ信号から、既に第1のオーディオ信号に含まれるオーディオ信号のスペクトル時間部分を除去することにより、第2のオーディオ信号を生成する第1の処理手段と、
−第1のオーディオ信号と第2のオーディオ信号とを加算することにより、オーディオ信号を生成する加算手段とを有する。
本発明は、符号信号と変換パラメータのセットとを有するエンコードオーディオ信号に更に関し、その符号信号は、所定の符号化方法に従ってオーディオ信号から生成され、変換パラメータは、そのオーディオ信号でのスペクトル時間情報の少なくとも一部を定め、その変換パラメータは、そのオーディオ信号と実質的に類似したスペクトル時間特性を有するノイズ信号の生成を可能にする。
本発明はまた、前記によるエンコード方法によりエンコードされたエンコードオーディオ信号を示すデータレコードを有するコンピュータ読取可能媒体に関する。
本発明の以下の好ましい実施例において、図面を参照して説明する。
図1は、本発明の実施例に従ってオーディオ信号を通信するシステムの概略図を示している。そのシステムは、符号化オーディオ信号を生成する符号化装置101と、受信符号化信号をオーディオ信号にデコードするデコード装置105とを有する。符号化装置101及びデコード装置105はそれぞれ、如何なる電子装置でもよく、そのような装置の一部でもよい。ここで、電子装置という用語は、固定及び携帯用PCのようなコンピュータと、固定及び携帯用無線通信装置と、移動体電話、ページャ、オーディオプレイヤ、マルチメディアプレイヤ、コミュニケータ(すなわち電子手帳)、スマート電話、携帯情報端末(PDA)、ハンドヘルドコンピュータ等のようなその他のハンドヘルド又は携帯用装置とを有する。符号化装置101及びデコード装置は、電子装置の一部分に結合されてもよく、その電子装置の一部分で、立体音響信号がその後の再生用にコンピュータ読取可能媒体に格納される点に留意すべきである。
符号化装置101は、本発明に従ってオーディオ信号をエンコードするエンコーダ102を有する。エンコーダは、オーディオ信号xを受信し、符号化信号Tを生成する。オーディオ信号は、例えば混合機等のような更なる電子装置を介して、一式のマイクロフォンから生じてもよい。信号は、無線信号として無線で、又はその他の適切な手段により、他のステレオプレイヤからの出力として更に受信されてもよい。本発明によるこのようなエンコーダの好ましい実施例について以下に説明する。一実施例によれば、エンコーダ102は、通信チャネル109を介してデコード装置105に符号化信号Tを送信する送信機103に接続されている。送信機103は、例えば有線又は無線データリンク109を介して、データの通信を可能にするのに適した回路を有してもよい。このような送信機の例には、ネットワークインタフェース、ネットワークカード、無線送信機、他の適切な電磁気信号用の送信機(例えばIrDaポートを介して赤外線を送信するLED、例えばBluetoothトランシーバを介した無線ベースの通信等)が含まれる。適切な送信機の更なる例には、ケーブルモデム、電話モデム、デジタル総合サービス網(ISDN:Integrated Services Digital Network)アダプタ、デジタル加入者線(DSL:Digital Subscriber Line)アダプタ、衛星トランシーバ、Ethernet(登録商標)アダプタ等が含まれる。それに対して、通信チャネル109は如何なる適切な有線又は無線データリンクでもよく、例えばインターネット又はその他のTCP/IPネットワークのようなパケットベースの通信ネットワーク、赤外線リンク、Bluetooth接続又はその他の無線ベースのリンクのような短距離通信リンクでもよい。通信チャネルの更なる例には、セルラデジタルパケットデータ(CDPD:Cellular Digital Packet Data)ネットワーク、Global System for Mobile(GSM)ネットワーク、符号分割多重アクセス(CDMA:Code Division Multiple Access)ネットワーク、時分割多重アクセスネットワーク(TDMA:Time Division Multiple Access Network)、汎用パケット無線サービス(GPRS:General Packet Radio service)ネットワーク、第3世代ネットワーク(UMTSネットワーク等)等のように、無線通信ネットワーク及びコンピュータネットワークが含まれる。代替として、又は更に、符号化装置は、デコード装置105に符号化ステレオ信号Tを通信する1つ以上の他のインタフェース104を有してもよい。
このようなインタフェースの例には、コンピュータ読取可能媒体110にデータを格納するディスクドライブ(例えば、フロッピー(登録商標)ディスクドライブ、読み書きCD-ROMドライブ、DVDドライブ等)が含まれる。その他の例には、メモリカードスロット、磁気カードリーダ/ライタ、スマートカードにアクセスするインタフェース等が含まれる。それに対して、デコード装置105は、送信機により送信される信号を受信する対応の受信機108、及び/又はインタフェース104とコンピュータ読取可能媒体110とを介して通信された符号化ステレオ信号を受信する他のインタフェース106を有する。デコード装置は、受信信号Tを受信し、それをオーディオ信号x’にデコードするデコーダ107を更に有する。本発明によるこのようなデコーダの好ましい実施例について、以下に説明する。その後に、デコードオーディオ信号x’は、スピーカ、ヘッドフォン等のセットを介した再生用に、ステレオプレイヤに供給されてもよい。
はじめに述べた課題に対する対策は、ノイズでデコードオーディオ信号を補完するブラインド法である。これは、帯域拡張ツールと対照的に、第1のコーダの認識が必要ないということを意味する。しかし、2つのエンコーダ及びデコーダがその特有の動作の(部分的な)認識を有するという専用の対策も可能である。
図2は、本発明の原理を示している。その方法は、第1のエンコーダが、第1のデコーダ203によりデコードされるオーディオ信号xをエンコードすることにより、ビットストリームb1を生成することを有する。第1のエンコーダと第1のデコーダとの間に、ビットストリームb1’を生成する適応205が実行され、それは、例えばネットワークでの伝送の前に階層が取り除かれてもよい。第1のエンコーダ及び第2のデコーダは、どのように適応が実行されたかについての認識を有さない。第1のデコーダ203において、適応されたビットストリームb1’がデコードされ、信号x1’を生じる。本発明によれば、第2のエンコーダ207は、全入力信号xを分析し、オーディオ信号xの時間及びスペクトル包絡線の記述を得る。代替として、第2のエンコーダは、心理音響関連データ(例えば入力信号によりもたらされたマスキング曲線)を得る情報を生成してもよい。これは、ビットストリームb2が第2のデコーダ209に入力されることを生じる。この二次データb2から、ノイズ信号が生成可能であり、そのノイズ信号は、時間及びスペクトル包絡線のみで入力信号を模倣し、元の入力と同じマスキング曲線を生じるが、主と信号と完全に一致する波形を失う。第1のデコード信号x1’とノイズ信号(の特性)との比較から、補完される必要のある第1の信号の部分が第2のデコーダ209で決定され、ノイズ信号x2’を生じる。最後に、加算器211を使用してx1’とx2’とを加算することにより、デコード信号x’が生成される。
第2のエンコーダ207は、入力信号x又はマスキング曲線のスペクトル時間包絡線の記述をエンコードする。スペクトル時間包絡線を導く一般的な方法は、線形予測を使用し(線形予測がFIR又はIIRフィルタと関連し得る予測係数を作り)、例えば時間領域ノイズ成形(TNS:temporal noise shaping)により、その(ローカル)エネルギーレベル又は時間包絡線の線形予測で作られた残差を分析することによるものである。その場合、ビットストリームb2は、スペクトル包絡線のフィルタ係数と、時間振幅又はエネルギー包絡線のパラメータとを有する。
図3に、更なるノイズ信号を生成する第2のデコーダの原理が図示されている。第2のデコーダ301は、b2でスペクトル時間情報を受信し、この情報に基づいて、生成器303は、入力信号xと同じスペクトル時間包絡線を有するノイズ信号r2’を生成し得る。しかし、この信号r2’は、元の信号xに一致する波形を失う。信号xの一部は既にビットストリームb1に含まれているため、x1’において、入力b2’及びx1’を有する制御ボックス305は、どのスペクトル時間部分が既にx1’でカバーされているかを決定する。その認識から、時変フィルタ307が設計され得る。その時変フィルタ307は、ノイズ信号r2’に適用されると、x1’に不十分に含まれるスペクトル時間部分をカバーするノイズ信号x2’を生成する。複雑性を減らす理由で、生成器303からの情報は、制御ボックス305にアクセス可能でもよい。
スペクトル時間情報b2がスペクトル及び時間包絡線を別々に記述するフィルタ係数に含まれる場合、生成器303での処理は、一般的に、確率信号の実現を生成し、送信される時間包絡線に従ってその振幅(又はエネルギー)を調整し、合成フィルタによりフィルタリングすることを有する。図4にそれが詳細に図示されている。その要素は、生成器303及び時変フィルタ307に含まれてもよい。信号生成x2’は、ノイズ生成器401を使用した(白色)ノイズシーケンスの生成と、3つの処理ステップ403、405及び407、すなわち、
−b2のデータに従って時間成形器403により時間包絡線の適応を行い、r2を生じるステップ、
−b2のデータに従ってスペクトル成形器405によりスペクトル包絡線の適応を行い、r2’を生じるステップ、
−図3の制御ボックス305からの時変係数c3を使用して、適応フィルタ407によりフィルタリング動作を行うステップ
を有する。
3つの処理ステップの順序は任意である点に留意すべきである。適応フィルタ407は、遅延線フィルタ(タップ付き遅延線)、ARMAフィルタ、周波数ドメインでのフィルタリング、又は心理音響的推測フィルタ(psycho-acoustically inspired filter)(歪曲線形予測(warped linear prediction)又はLaguerre及びKautzベースの線形予測に現れるフィルタ等)により実現可能である。
適応フィルタ407を定義し、制御ボックスによりそのパラメータc2を推定するための多数の方法が存在する。
図5は、直接比較を使用することにより、制御ボックス及び適応フィルタで実行される処理の第1の実施例を示している。x1’及びr2’の(ローカル)スペクトルX1’及びR2’は、それぞれ501及び503で(ウィンドウ)フーリエ変換の絶対値を得ることにより生成され得る。比較器505において、スペクトルx1’及びr2’が比較され、x1’とr2’との特性の差に基づいて目的のフィルタスペクトルを定める。例えば、x1’のスペクトルがr2’のスペクトルを超過する周波数に0の値が割り当てられ、1の値がそうでないものに設定されてもよい。これは、所望の周波数応答を定め、この周波数動作に近似するフィルタを構成するための複数の標準的な手順が使用され得る。フィルタ設計ボックス507で実行されるフィルタの構成は、フィルタ係数c2を作る。フィルタ係数c2に基づくノッチフィルタ509では、ノイズ信号r2’がフィルタリングされ、それによってノイズ信号x2’のみが、x1’に不十分に含まれるこれらのスペクトル時間部分を有する。最後に、x1’とx2’とを加算することにより、デコード信号x’が生成される。前記の代替として、R2’はパラメータストリームb2から直接導かれてもよい。
図6は、残差比較を使用することにより、制御ボックス及び適応フィルタで実行される処理の第2の実施例を示している。この実施例では、ビットストリームb2は、エンコーダEnc2の入力オーディオxに適用された予測フィルタの係数を有することが仮定される。次に、信号1’はこれらの予測係数に関連する分析フィルタによりフィルタリングされ、残差信号r1を生成し得る。このように、最初にx1’はb2のスペクトルデータに基づいて601でスペクトル的に平坦化され、信号r1を生じる。次に、r1からローカルフーリエ変換R1が603で決定される。R1のスペクトルはR2のスペクトル(すなわちr2のスペクトル)と比較される。r2はNGにより作られた白色ノイズ信号の上にデータb2に基づく包絡線を適用することにより作られているため、R2のスペクトルは、b2のパラメータから直接決定され得る。605で実行される比較は、目的のフィルタスペクトルを定め、それがフィルタ設計ボックス607に入力され、フィルタ係数c2を作る。
スペクトルの比較に対する選択肢は、線形予測を使用することである。ビットストリームb2が第2のエンコーダに適用された予測フィルタの係数を有することを仮定する。信号x1’はこれらの予測フィルタに関連する分析フィルタによりフィルタリングされ、残差信号r1を生成し得る。適応フィルタAFは、任意の安定カジュアルフィルタ(stable casual filter)Fl(z)を用いて次のように定められ得る。
Figure 2007519014
制御ボックスの役割は、係数cl,i=0,1,...,Lを推定することである。
F(z)によりフィルタリングされたr1とr2との合計は、平坦なスペクトルを有するべきである。次に、反復的に係数が決定され得る。手順は次のようになる。
−信号skはr1+r2になり、kは最初の反復k=1においてr2,l=r2で始められた場合に構成される。
−線形予測により、信号skのスペクトルが平坦化される。線形予測はフィルタF(k)を定める。このフィルタはr2,kに適用され、r2,k+1を作る。この信号は次の反復で使用される。
−F(k)が十分に平凡なフィルタ(trivial filter)に近づいたときに(すなわち、信号Skがこれ以上平坦化不可能であり、c1,...,cL≒0のときに)、反復が終了する。
実際には、信号の反復は十分であってもよい。適応フィルタは、フィルタF(1)〜F(K-1)のカスケードを有し、Kが最後の反復である。
図2に示していないが、ビットストリームb2はまた、部分的にスケーラブルでもよい。第2のデコーダの適切な機能を保証するのに残りのスペクトル時間情報が十分に損なわれていない限り、このことが許容される。
前記では、多目的の更なるパスとしての機構が提示された。第1及び第2のエンコーダ並びに第1及び第2のデコーダは結合してもよく、それによって、一般性を失うことを犠牲にして(品質、ビットレート及び/又は複雑性の観点で)より良い性能の利点を有する専用コーダを得ることが可能であることが明らかである。このような場合の例が図7に図示されており、第1のエンコーダ701及び第2のエンコーダ703により生成されたビットストリームb1及びb2は、マルチプレクサ705を使用して単一のビットストリームに結合され、第1のエンコーダ701は第2のエンコーダ703からの情報を使用する。従って、デコーダ707は、x1’を構成するために、ストリームb1及びb2の双方の情報を使用する。
更なる結合のときに、第2のエンコーダは第1のエンコーダの情報を使用してもよく、この場合に、ノイズのデコードはbに基づく(すなわち、明瞭な分離はもはや存在しない)。全ての場合において、適切な補完ノイズ信号を構成できる動作に基本的に影響を及ぼさない限り、ビットストリームbのみがスケールされてもよい。
以下に、ビットレートスケーラブルモードで動作するパラメトリック(又は正弦波)・オーディオコーダと結合して本発明が使用される特定の例を提供する。
1フレームに制限されたオーディオ信号はx[n]で示される。この実施例の基礎は、オーディオコーダで線形予測を適用することにより、x[n]のスペクトル形状を近似することである。その予測機構の一般的なブロック図を図8に示す。1フレームに制限されたオーディオ信号x[n]は、LPAモジュール801により予測され、予測残差r[n]と予測係数α1,......,αKを生じる(予測オーダはKである)。
予測残差r[n]は、予測係数α1,......,αKが
Figure 2007519014
を最小化することにより決定されたときのx[n]のスペクトル的に平坦化されたバージョン、又はr[n]の重み付けバージョンである。
線形予測分析モジュールLPAの伝達関数は、FA(z)=FA(α1,......,αK;z)で示すことができ、合成モジュールLPSの伝達関数はFS(z)で示すことができ、
Figure 2007519014
である。
LPA及びLPSモジュールのインパルス応答は、それぞれfA[n]及びfS[n]で示すことができる。残差信号r[n]の時間包絡線Er[n]は、エンコーダでフレーム毎に測定され、そのパラメータpEがビットストリームに配置される。
デコーダは、正弦波周波数パラメータを利用することにより、正弦波成分を補完するノイズ成分を生成する。ビットストリームに含まれるデータpEから再構成され得る時間包絡線Er[n]は、スペクトル的に平坦な確率信号に適用され、rrandom[n]を得る。rrandom[n]は、r[n]と同じ時間包絡線を有する。rrandomはまた、以下でrrと呼ばれる。
このフレームに関連する正弦波周波数は、θ1,...,θNcで示される。通常は、これらの周波数がパラメトリック・オーディオコーダで不変であると仮定されるが、それらはトラックを形成することに関係があるため、例えばフレーム境界でのよりスムーズな周波数推移を確保するために、線形的に変化してもよい。
以下の帯域阻止フィルタのインパルス応答で畳み込むことにより、ランダム信号がこれらの周波数で弱められる。
rn[n]=rr[n]*fn[n]
ここで、fn[n]=fn(θ1,...,θNc;n)であり、*は畳み込みを示す。エンコードされた正弦波の周りの周波数領域を除いて、元のフレームx[n]のスペクトル形状は、LPSモジュール(図8の803)をrn[n]に適用することにより近似され、フレームのノイズ成分を生じる。
xn[n]=rn[n]*fS[n]
従って、ノイズ成分は正弦波成分に従って適応され、所望のスペクトル形状を得る。
フレームx[n]のデコードバージョンx’[n]は、正弦波成分とノイズ成分との合計である。
x’[n]=xs{n}+xn[n]
正弦波成分xs[n]は、普通にビットストリームに含まれる正弦波パラメータからデコードされることに注目すべきである。
Figure 2007519014
ただし、am及びφmは、それぞれ正弦波mの振幅及び位相であり、ビットストリームはNcの正弦波を含む。
予測係数α1,......,αK及び時間包絡線から得られた平均出力Pは、正弦波振幅パラメータの推定を提供する。
Figure 2007519014
予測誤差
Figure 2007519014
は小さいものと予想され、それのエンコードは安価である。その結果、振幅パラメータは、パラメトリック・オーディオコーダで一般的なように、もはやフレーム間で差分エンコードされない。その代わりに、δm[n]’が符号化される。δm[n]’はフレーム削除に敏感でないため、このことは振幅パラメータの現在の符号化に対して有利である。周波数パラメータは、依然としてフレーム間で差分エンコードされる。振幅パラメータが階層化ビットストリームに含まれないため、正弦波成分はデコーダで次により推定される。
Figure 2007519014
以下では、前記の理論を使用した具体例について説明する。エンコーダで実行される分析処理は、予測係数及び正弦波パラメータを得るために、重複の振幅補完ウィンドウを使用する。フレームに適用されるウィンドウはw[n]で示される。適切なウィンドウは、10-60msに対応するNsのサンプルの持続時間を有するHannウィンドウである。
Figure 2007519014
入力信号は分析フィルタに供給され、その係数は測定予測係数に基づいて定期的に更新され、残差信号r[n]を作る。時間包絡線Er[n]が測定され、そのパラメータpEがビットストリームに配置される。更に、予測係数及び正弦波パラメータがビットストリームに配置され、また、デコーダに送信される。
デコーダでは、自由継続のノイズ生成器から、スペクトル的に平坦なランダム信号rstochastic[n]が生成される。フレームのランダム信号の振幅は、その包絡線がビットストリームのデータpEに対応するように調整され、信号rframe[n]を生じる。
信号rframe[n]はウィンドウ化され、このウィンドウ信号のフーリエ変換がRwにより示される。このフーリエ変換から、送信された正弦波成分の周りの領域が帯域阻止フィルタにより取り除かれる。
周波数θ1[n],...,θNc[n]でゼロの帯域阻止フィルタは、以下の伝達関数を有する。
Figure 2007519014
ただし、wn(θ)は、時間ウィンドウw[n]の(スペクトル)メインローブに等しい(有効)帯域θBWを有するHannウィンドウである。
Figure 2007519014
フレームのノイズ成分は、帯域阻止フィルタ及びLPSモジュールを適用することにより得られる。xn=IDFT(Rw・Fn・Fs)であり、Fn及びFsはFs及びFnの近似的にサンプリングされたバージョンであり、IDFTは逆DFTである。連続シーケンスxnは、完全なノイズ信号を作るように重複的に加算され得る。
図9に、本発明によるエンコーダの実施例を示す。まず、線形予測分析器901を使用して、線形予測分析がオーディオ信号で実行され、予測係数
Figure 2007519014
及び残差r[n]を生じる。次に、残差の時間包絡線Er[n]が903で決定され、その出力はパラメータpEを有する。r[n]と元の音声信号x[n]との双方が、pEと共に残差コーダ905に入力される。残差コーダは、変更正弦波コーダである。x[n]を利用する一方で、残差r[n]に含まれる正弦波は符号化され、符号化残差Crを生じる。(スペクトル及び時間マスキング効果と正弦波の知覚関連性との形式の知覚情報はx[n]から得られる。)更に、pEは、前述のものと類似した方法で正弦波振幅パラメータをエンコードするために使用される。オーディオ信号xは、α1,......,αK、pE及びcrにより表される。
パラメータα1,......,αK、pE及びcrをデコードして、デコードオーディオ信号x’を生成するデコーダを、図10に示す。デコーダでは、crは残差デコーダ1005でデコードされ、r[n]に含まれる決定論的成分(又は正弦波)の近似であるrs[n]を生じる。crに含まれる正弦波周波数パラメータθ1,...,θNcもまた、帯域阻止フィルタ1001に供給される。白色ノイズモジュール1003は、時間包絡線Er[n]でスペクトル的に平坦なランダム信号rr[n]を作る。帯域阻止フィルタ1001によるrr[n]のフィルタリングは、1008でrs[n]に加算されるrn[n]を生じ、エンコーダでの残差r[n]の近似であるスペクトル的に平坦なrd[n]を生じる。元のオーディオ信号のスペクトル包絡線は、予測係数α1,......,αKを前提として、線形予測合成フィルタ1007をrd[n]に適用することにより近似される。結果の信号x’[n]はx[n]のデコードバージョンになる。
図11に、本発明によるエンコーダのその他の実施例を示す。オーディオ信号x[n]自体が正弦波コーダ1101により符号化される。これは、図9の実施例と対照的である。線形予測分析1103がオーディオ信号x[n]に適用され、予測係数α1,......,αK及び残差r[n]を生じる。残差の時間包絡線Er[n]は1105で決定され、そのパラメータがpEに含まれる。x[n]に含まれる正弦波は正弦波コーダ1101により符号化され、pE及び予測係数α1,......,αKは前述のように振幅パラメータをエンコードするために使用される。その結果が符号化信号cxになる。オーディオ信号xはα1,......,αK、pE及びcxにより表される。
パラメータα1,......,αK、pE及びcxをデコードして、デコードオーディオ信号x’を生成するデコーダを、図12に示す。デコーダでは、pE及び予測係数α1,......,αKを利用する一方で、スキームcxは残差デコーダ1201でデコードされ、xs[n]を生じる。白色ノイズモジュール1203は、Er[n]の時間包絡線でスペクトル的に平坦なランダム信号rr[n]を作る。cxに含まれる正弦波周波数パラメータθ1,...,θNcもまた、帯域阻止フィルタ1205に供給される。帯域阻止フィルタ1205をrr[n]に適用することにより、rn[n]を生じる。次に、予測係数α1,......,αKを前提として、LPSモジュール1207をrn[n]に適用することにより、ノイズ成分xn[n]を生じる。x[n]とxs[n]とを加算することで、x[n]のデコードバージョンであるx’[n]を生じる。
前述は、汎用又は特殊目的のプログラム可能マイクロプロセッサ、デジタルシグナルプロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuits)、プログラマブルロジックアレイ(PLA:Programmable Logic Array)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)、特殊目的電子回路等、又はそれらの組み合わせとして実装され得ることに留意すべきである。
前述の実施例は本発明を限定するものではなく、特許請求の範囲を逸脱することなく、当業者は多数の代替実施例を設計することができる点に留意すべきである。特許請求の範囲において、括弧の間にある如何なる参照数字も、特許請求の範囲を限定するものとして解釈されるべきではない。‘有する’という用語は、特許請求の範囲に記載のもの以外の他の要素又はステップの存在を除外するものではない。本発明は、複数の別個の要素を有するハードウェアを用いて、適切にプログラムされたコンピュータを用いて実装され得る。複数の手段を列挙した装置の請求項において、複数のこれらの手段は、同一のハードウェアのアイテムに具現され得る。特定の手段が相互に異なる従属項に記載されているという単なる事実は、それらの手段の組み合わせが有利に使用できないことを意味しているのではない。
本発明の実施例に従ってオーディオ信号を通信するシステムの概略図である。 本発明の原理を示す図である。 本発明によるデコーダの原理を示す図である。 本発明によるノイズ信号生成器を示す図である。 ノイズ生成器で使用される制御ボックスの第1の実施例を示す図である。 ノイズ生成器で使用される制御ボックスの第2の実施例を示す図である。 特定のコーダの正方を改善するために本発明が使用され、エンコーダの第2の実施例により生成されたパラメータを第1のデコーダが使用する例である。 線形予測分析及び合成を示す図である。 本発明によるエンコーダの第1の有利な実施例を示す図である。 図9のエンコーダにより符号化された信号をデコードするデコーダの実施例を示す図である。 本発明によるエンコーダの第2の有利な実施例を示す図である。 図11のエンコーダにより符号化された信号をデコードするデコーダの実施例を示す図である。

Claims (13)

  1. オーディオ信号をエンコードする方法であって、
    符号信号は、所定の符号化方法に従って前記オーディオ信号から生成され、
    前記方法は、
    −前記オーディオ信号を、前記オーディオ信号のスペクトル時間情報の少なくとも一部を定める変換パラメータのセットに変換し、前記変換パラメータは、前記オーディオ信号に実質的に類似するスペクトル時間特性を有するノイズ信号の生成を可能にするステップと、
    −前記符号信号と前記変換パラメータとにより前記オーディオ信号を表すステップと
    を更に有する方法。
  2. 請求項1に記載の方法であって、
    前記変換パラメータは、前記オーディオ信号の予測係数及び/又はエネルギーレベル及び/又は振幅レベル及び/又はゲイン及び/又は出力レベルのうち少なくとも1つを有する方法。
  3. 請求項1又は2に記載の方法であって、
    前記変換パラメータは、前記オーディオ信号のマスキング曲線及び/又は励起パターン及び/又は音量のような心理音響データを有する方法。
  4. 請求項1ないし3のうちいずれか1項に記載の方法であって、
    前記符号信号は、前記オーディオ信号の少なくとも1つの正弦波成分を定める振幅及び周波数パラメータを有する方法。
  5. 請求項1ないし4のうちいずれか1項に記載の方法であって、
    前記変換パラメータは、前記オーディオ信号の正弦波成分の振幅の推定を表す方法。
  6. 変換パラメータと所定の符号化方法に従って生成された符号信号とからオーディオ信号をデコードする方法であって、
    −前記所定の符号化方法に対応するデコード方法を使用して、前記符号信号を第1のオーディオ信号にデコードするステップと、
    −前記変換パラメータから、前記オーディオ信号に実質的に類似したスペクトル時間特性を有するノイズ信号を生成するステップと、
    −前記ノイズ信号から、既に前記第1のオーディオ信号に含まれるオーディオ信号のスペクトル時間部分を除去することにより、第2のオーディオ信号を生成するステップと、
    −前記第1のオーディオ信号と前記第2のオーディオ信号とを加算することにより、前記オーディオ信号を生成するステップと
    を有する方法。
  7. 請求項6に記載の方法であって、
    前記第2のオーディオ信号を生成するステップは、
    −前記第1のオーディオ信号のスペクトルと前記ノイズ信号のスペクトルとを比較することにより、周波数応答を導き、
    −前記周波数応答に従って前記ノイズ信号をフィルタリングすることを有する方法。
  8. 請求項6に記載の方法であって、
    前記第2のオーディオ信号を生成するステップは、
    −前記変換パラメータのスペクトルデータに基づいて前記第1のオーディオ信号をスペクトル的に平坦化することにより、第1の残差信号を生成し、
    −前記変換パラメータの時間データに基づいてノイズシーケンスを時間的に成形することにより、第2の残差信号を生成し、
    −前記第1の残差信号のスペクトルと前記第2の残差信号のスペクトルとを比較することにより、周波数応答を導き、
    −前記周波数応答に従って前記ノイズ信号をフィルタリングすることを有する方法。
  9. 請求項6に記載の方法であって、
    前記第2のオーディオ信号を生成するステップは、
    −前記変換パラメータのスペクトルデータに基づいて前記第1のオーディオ信号をスペクトル的に平坦化することにより、第1の残差信号を生成し、
    −前記変換パラメータの時間データに基づいてノイズシーケンスを時間的に成形することにより、第2の残差信号を生成し、
    −前記第1の残差信号と前記第2の残差信号とを合計信号に加算し、
    −前記合計信号をスペクトル的に平坦化する周波数応答を導き、
    −前記周波数応答に従って前記第2の残差信号をフィルタリングすることにより、前記第2の残差信号を更新し、
    −前記合計信号のスペクトルが実質的に平坦になるまで、前記の加算し、導き、更新するステップを繰返し、
    −全ての導かれた周波数応答に従って前記ノイズ信号をフィルタリングすることを有する方法。
  10. オーディオ信号をエンコードする装置であって、
    前記装置は、所定の符号化方法に従って符号信号を生成する第1のエンコーダを有し、
    −前記オーディオ信号を、前記オーディオ信号のスペクトル時間情報の少なくとも一部を定める変換パラメータのセットに変換し、前記変換パラメータは、前記オーディオ信号に実質的に類似するスペクトル時間特性を有するノイズ信号の生成を可能にする第2のエンコーダと、
    −前記符号信号と前記変換パラメータとにより前記オーディオ信号を表す処理手段と
    を更に有する装置。
  11. 変換パラメータと所定の符号化方法に従って生成された符号信号とからオーディオ信号をデコードする装置であって、
    −前記所定の符号化方法に対応するデコード方法を使用して、前記符号信号を第1のオーディオ信号にデコードする第1のデコーダと、
    −前記変換パラメータから、前記オーディオ信号に実質的に類似したスペクトル時間特性を有するノイズ信号を生成する第2のデコーダと、
    −前記ノイズ信号から、既に前記第1のオーディオ信号に含まれるオーディオ信号のスペクトル時間部分を除去することにより、第2のオーディオ信号を生成する第1の処理手段と、
    −前記第1のオーディオ信号と前記第2のオーディオ信号とを加算することにより、前記オーディオ信号を生成する加算手段と
    を有する装置。
  12. 符号信号と変換パラメータのセットとを有するエンコードオーディオ信号であって、
    前記符号信号は、所定の符号化方法に従ってオーディオ信号から生成され、
    前記変換パラメータは、前記オーディオ信号のスペクトル時間情報の少なくとも一部を定め、
    前記変換パラメータは、前記オーディオ信号と実質的に類似したスペクトル時間特性を有するノイズ信号の生成を可能にするエンコードオーディオ信号。
  13. 請求項11に記載のエンコードオーディオ信号を示すデータレコードを有するコンピュータ読取可能媒体。
JP2006518416A 2003-06-30 2004-06-25 ノイズの加算によるデコードオーディオの品質の向上 Expired - Fee Related JP4719674B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03101938 2003-06-30
EP03101938.3 2003-06-30
PCT/IB2004/051010 WO2005001814A1 (en) 2003-06-30 2004-06-25 Improving quality of decoded audio by adding noise

Publications (2)

Publication Number Publication Date
JP2007519014A true JP2007519014A (ja) 2007-07-12
JP4719674B2 JP4719674B2 (ja) 2011-07-06

Family

ID=33547768

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006518416A Expired - Fee Related JP4719674B2 (ja) 2003-06-30 2004-06-25 ノイズの加算によるデコードオーディオの品質の向上

Country Status (9)

Country Link
US (1) US7548852B2 (ja)
EP (1) EP1642265B1 (ja)
JP (1) JP4719674B2 (ja)
KR (1) KR101058062B1 (ja)
CN (1) CN100508030C (ja)
AT (1) ATE486348T1 (ja)
DE (1) DE602004029786D1 (ja)
ES (1) ES2354427T3 (ja)
WO (1) WO2005001814A1 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012255966A (ja) * 2011-06-10 2012-12-27 Nippon Hoso Kyokai <Nhk> 復号化装置及び復号化プログラム
CN110234279A (zh) * 2016-12-28 2019-09-13 皇家飞利浦有限公司 表征睡眠呼吸障碍的方法
KR20200090793A (ko) * 2017-11-10 2020-07-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 노이즈 성형
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
DE102004039345A1 (de) 2004-08-12 2006-02-23 Micronas Gmbh Verfahren und Vorrichtung zur Rauschunterdrückung in einer Datenverarbeitungseinrichtung
CN101006496B (zh) 2004-08-17 2012-03-21 皇家飞利浦电子股份有限公司 可分级音频编码
WO2006085244A1 (en) * 2005-02-10 2006-08-17 Koninklijke Philips Electronics N.V. Sound synthesis
KR101315075B1 (ko) * 2005-02-10 2013-10-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 사운드 합성
US8738382B1 (en) * 2005-12-16 2014-05-27 Nvidia Corporation Audio feedback time shift filter system and method
US8731913B2 (en) * 2006-08-03 2014-05-20 Broadcom Corporation Scaled window overlap add for mixed signals
JPWO2008053970A1 (ja) * 2006-11-02 2010-02-25 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
WO2008084688A1 (ja) * 2006-12-27 2008-07-17 Panasonic Corporation 符号化装置、復号装置及びこれらの方法
FR2911426A1 (fr) * 2007-01-15 2008-07-18 France Telecom Modification d'un signal de parole
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
US8046214B2 (en) * 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
MX2010001394A (es) 2007-08-27 2010-03-10 Ericsson Telefon Ab L M Frecuencia de transicion adaptiva entre llenado de ruido y extension de anchura de banda.
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
KR101441897B1 (ko) * 2008-01-31 2014-09-23 삼성전자주식회사 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치
MY160272A (en) * 2011-02-14 2017-02-28 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Audio Codec Using Noise Synthesis During Inactive Phases
SG192734A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
EP2676270B1 (en) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Coding a portion of an audio signal using a transient detection and a quality result
WO2012110415A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
EP2676267B1 (en) 2011-02-14 2017-07-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
CN102959620B (zh) 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
KR20120115123A (ko) * 2011-04-08 2012-10-17 삼성전자주식회사 오디오 패킷을 포함하는 전송 스트림을 전송하는 디지털 방송 송신기, 이를 수신하는 디지털 방송 수신기 및 그 방법들
EP2709103B1 (en) * 2011-06-09 2015-10-07 Panasonic Intellectual Property Corporation of America Voice coding device, voice decoding device, voice coding method and voice decoding method
CN102983940B (zh) * 2012-11-14 2016-03-30 华为技术有限公司 数据传输方法、装置及系统
SG10202106262SA (en) * 2013-02-05 2021-07-29 Ericsson Telefon Ab L M Method and apparatus for controlling audio frame loss concealment
DK3096314T3 (en) 2013-02-05 2018-04-03 Ericsson Telefon Ab L M Masking audio frame loss
US9478221B2 (en) 2013-02-05 2016-10-25 Telefonaktiebolaget Lm Ericsson (Publ) Enhanced audio frame loss concealment
EP2830055A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
TW201615643A (zh) * 2014-06-02 2016-05-01 伊史帝夫博士實驗室股份有限公司 具有多重模式抗疼痛活性之1-氧雜-4,9-二氮雜螺十一烷化合物之烷基與芳基衍生物
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
KR20220009563A (ko) * 2020-07-16 2022-01-25 한국전자통신연구원 오디오 신호의 부호화 및 복호화 방법과 이를 수행하는 부호화기 및 복호화기

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052187A1 (en) * 1997-05-15 1998-11-19 Hewlett-Packard Company Audio coding systems and methods
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
WO2000045379A2 (en) * 1999-01-27 2000-08-03 Coding Technologies Sweden Ab Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
JP2001100773A (ja) * 1999-09-29 2001-04-13 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2003140692A (ja) * 2001-11-02 2003-05-16 Matsushita Electric Ind Co Ltd 符号化装置及び復号化装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2821501B1 (fr) * 2001-02-23 2004-07-16 France Telecom Procede et dispositif de reconstruction spectrale d'un signal a spectre incomplet et systeme de codage/decodage associe
BR0204835A (pt) * 2001-04-18 2003-06-10 Koninkl Philips Electronics Nv Métodos para codificar um sinal de áudio, e para decodificar um fluxo de áudio, codificador de áudio, reprodutor de áudio, sistema de áudio, fluxo de áudio, e, meio de armazenamento
EP1382035A1 (en) * 2001-04-18 2004-01-21 Koninklijke Philips Electronics N.V. Audio coding
MXPA03010237A (es) * 2001-05-10 2004-03-16 Dolby Lab Licensing Corp Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido.
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
US7321559B2 (en) * 2002-06-28 2008-01-22 Lucent Technologies Inc System and method of noise reduction in receiving wireless transmission of packetized audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998052187A1 (en) * 1997-05-15 1998-11-19 Hewlett-Packard Company Audio coding systems and methods
WO1998057436A2 (en) * 1997-06-10 1998-12-17 Lars Gustaf Liljeryd Source coding enhancement using spectral-band replication
WO2000045379A2 (en) * 1999-01-27 2000-08-03 Coding Technologies Sweden Ab Enhancing perceptual performance of sbr and related hfr coding methods by adaptive noise-floor addition and noise substitution limiting
JP2001100773A (ja) * 1999-09-29 2001-04-13 Sony Corp 情報処理装置および方法、並びに記録媒体
JP2003140692A (ja) * 2001-11-02 2003-05-16 Matsushita Electric Ind Co Ltd 符号化装置及び復号化装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012255966A (ja) * 2011-06-10 2012-12-27 Nippon Hoso Kyokai <Nhk> 復号化装置及び復号化プログラム
JP7075405B2 (ja) 2016-12-28 2022-05-25 コーニンクレッカ フィリップス エヌ ヴェ 睡眠呼吸障害の特徴付け方法
CN110234279A (zh) * 2016-12-28 2019-09-13 皇家飞利浦有限公司 表征睡眠呼吸障碍的方法
JP2020513914A (ja) * 2016-12-28 2020-05-21 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 睡眠呼吸障害の特徴付け方法
US11380341B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
US11380339B2 (en) 2017-11-10 2022-07-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
KR20200090793A (ko) * 2017-11-10 2020-07-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 노이즈 성형
US11386909B2 (en) 2017-11-10 2022-07-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
KR102428419B1 (ko) 2017-11-10 2022-08-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 노이즈 성형
US11462226B2 (en) 2017-11-10 2022-10-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US11545167B2 (en) 2017-11-10 2023-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
US11562754B2 (en) 2017-11-10 2023-01-24 Fraunhofer-Gesellschaft Zur F Rderung Der Angewandten Forschung E.V. Analysis/synthesis windowing function for modulated lapped transformation
US12033646B2 (en) 2017-11-10 2024-07-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Also Published As

Publication number Publication date
WO2005001814A1 (en) 2005-01-06
CN100508030C (zh) 2009-07-01
ATE486348T1 (de) 2010-11-15
US7548852B2 (en) 2009-06-16
EP1642265A1 (en) 2006-04-05
KR101058062B1 (ko) 2011-08-19
ES2354427T3 (es) 2011-03-14
US20070124136A1 (en) 2007-05-31
DE602004029786D1 (de) 2010-12-09
KR20060025203A (ko) 2006-03-20
JP4719674B2 (ja) 2011-07-06
CN1816848A (zh) 2006-08-09
EP1642265B1 (en) 2010-10-27

Similar Documents

Publication Publication Date Title
JP4719674B2 (ja) ノイズの加算によるデコードオーディオの品質の向上
US8515767B2 (en) Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
KR101363793B1 (ko) 부호화 장치, 복호 장치 및 그 방법
JP5072835B2 (ja) 堅牢なデコーダ
EP2255358B1 (en) Scalable speech and audio encoding using combinatorial encoding of mdct spectrum
EP1990800B1 (en) Scalable encoding device and scalable encoding method
EP1785984A1 (en) Audio encoding apparatus, audio decoding apparatus, communication apparatus and audio encoding method
US20100250244A1 (en) Encoder and decoder
JP2009545780A (ja) オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法
JP5036317B2 (ja) スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法
US7363216B2 (en) Method and system for parametric characterization of transient audio signals
EP1442453B1 (en) Frequency-differential encoding of sinusoidal model parameters
JP2005114814A (ja) 音声符号化・復号化方法、音声符号化・復号化装置、音声符号化・復号化プログラム、及びこれを記録した記録媒体
TW202427458A (zh) 用於音訊編碼/解碼的錯誤恢復工具
Florêncio Error-Resilient Coding and Error Concealment Strategies for Audio Communication
Florêncio Error-Resilient Coding and
Seto Scalable Speech Coding for IP Networks

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100907

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101207

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110404

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees