[go: up one dir, main page]

JP5243661B2 - オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム - Google Patents

オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム Download PDF

Info

Publication number
JP5243661B2
JP5243661B2 JP2012534674A JP2012534674A JP5243661B2 JP 5243661 B2 JP5243661 B2 JP 5243661B2 JP 2012534674 A JP2012534674 A JP 2012534674A JP 2012534674 A JP2012534674 A JP 2012534674A JP 5243661 B2 JP5243661 B2 JP 5243661B2
Authority
JP
Japan
Prior art keywords
audio content
encoded
mode
window
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012534674A
Other languages
English (en)
Other versions
JP2013508766A (ja
Inventor
ラルフ ガイガー
マルクス シェネル
ジェレミー ルコント
コンスタンティン シュミット
ギヨーム フックス
ニコラウス レッテルバッハ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2013508766A publication Critical patent/JP2013508766A/ja
Application granted granted Critical
Publication of JP5243661B2 publication Critical patent/JP5243661B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明による実施形態は、オーディオコンテンツの入力表現に基づいて、オーディオコンテンツの符号化表現を供給するためのオーディオ信号符号器に関する。
本発明による実施形態は、オーディオコンテンツの符号化表現に基づいて、オーディオコンテンツの復号化表現を供給するためのオーディオ信号復号器に関する。
本発明による実施形態は、オーディオコンテンツの入力表現に基づいて、オーディオコンテンツの符号化表現を供給するための方法に関する。
本発明による実施形態は、オーディオコンテンツの符号化表現に基づいて、オーディオコンテンツの復号化表現を供給するための方法に関する。
本発明による実施形態は、前記方法を実行するためのコンピュータ・プログラムに関する。
本発明による実施形態は、低遅延に関する統合音声音響符号化のための新しい符号化方式に関する。
以下では、本発明の背景が、本発明およびその効果の理解を容易にするために簡潔に説明される。
過去10年の間、より良いビットレート効率でオーディオコンテンツをデジタル的に格納し、分配する可能性を生み出すことに、多大な労力がかけられてきた。この点に関する1つの重要な業績が、国際規格ISO/IEC 14496―3の定義である。その規格の第3部は、オーディオコンテンツの符号化および復号化に関連し、第3部のサブパート4は、汎用オーディオ符号化に関連する。ISO/IEC 14496の第3部サブパート4は、汎用のオーディオコンテンツの符号化および復号化のための構想を定める。加えて、更なる改良は、品質を改善するために、および/または、必要なビットレートを減少させるために提案された。
さらに、音声信号を符号化および復号化するために特別に適用されるオーディオ符号器およびオーディオ復号器が開発された。このように音声を最適化したオーディオ符号器は、例えば、3GPP(Third Generation Partnership Project)の技術仕様書「3GPP TS 26.090」、「3GPP TS 26.190」および「3GPP TS 26.290」において説明される。
符号化および復号化の低遅延が望まれる多くのアプリケーションがあることが分かっている。例えば、リアルタイム・マルチメディア・アプリケーションでは、低遅延が望まれる。というのも、顕著な遅延は、この種のアプリケーションにおいては、結果として不快なユーザ印象をもたらすからである。
しかしながら、品質とビットレートとの間のより良いトレードオフには、時には、オーディオコンテンツに依存して、異なる符号化モード間の切り替えが必要であることも分かっている。オーディオコンテンツのバリエーションは、符号化モード間、例えば、変換符号化励振線形予測領域(transform−coded−excitation−linear−prediction−domain)モードと(例えば、代数符号励振線形予測領域モードのような)符号励振線形予測領域(code−excitation−linear−prediction−domain)モード間、または、周波数モードと符号励振線形予測領域モード間で変更する要求をもたらすことが分かっている。これは、あるオーディオコンテンツ(または連続したオーディオコンテンツのある部分)が、そのモードのうちの1つで、より高い符号化効率をもって符号化できて、その一方で、他のあるオーディオコンテンツ(または同じ連続したオーディオコンテンツの他の部分)が、そのモードの別のもので、より良い符号化効率をもって符号化できるという事実に起因する。
この状況からみて、切り替えのための大きいビットレートオーバーヘッドを必要とせずに、更に、(例えば、切り替え「クリック」の形で、)オーディオ品質を大幅に妥協することなしで、異なるモード間で切り換えることが望ましいことが分かっている。加えて、異なるモード間での切り換えが、低い符号化および復号化遅延を有するという目的と両立されなければならないことが分かっている。
この状況を考慮して、異なる符号化モード間で切り替わるときに、ビットレート効率、オーディオ品質、遅延間のより良いトレードオフをもたらすマルチモードオーディオ符号化のための構想を生み出すことが、本発明の目的である。
3GPP TS 26.090 3GPP TS 26.190 3GPP TS 26.290
本発明による実施形態は、オーディオコンテンツの入力表現に基づいて、オーディオコンテンツの符号化表現を供給するためのオーディオ信号符号器を生み出す。オーディオ信号符号器は、変換領域モードで符号化されるオーディオコンテンツの部分の時間領域表現に基づいて、スペクトル係数のセットおよびノイズシェーピング情報(例えば、スケールファクター情報または線形予測領域パラメータ情報)を得るように構成された変換領域パスを含み、その結果、スペクトル係数は、オーディオコンテンツのノイズシェーピングされた(例えばノイズスケールファクターで処理されたまたは線形予測領域ノイズシェーピングされた)バージョンを示す。変換領域パスは、オーディオコンテンツの窓を掛けた(windowed)時間領域表現からスペクトル係数のセットを得るために、オーディオコンテンツ、またはその処理されたバージョンの時間領域表現に窓を掛けて(window)、オーディオコンテンツの窓を掛けた時間領域表現を得て、時間領域−周波数領域変換を適用するように構成された時間領域−周波数領域変換器を含む。オーディオ信号符号器はまた、(更に手短に言えば、CELPモードとして示された)符号励振線形予測領域モード(例えば、代数符号励振線形予測領域モードなど)で符号化されるオーディオコンテンツの部分に基づいて、符号励振情報(例えば、代数符号励振情報など)および(手短に言えば、ACELPパスとして示された)線形予測領域情報を得るように構成された符号励振線形予測領域パスを含む。時間領域−周波数領域変換器は、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されるオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されるオーディオコンテンツの次の部分が続く場合の両方の場合に、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための既定の非対称の分析窓を適用するように構成される。オーディオ信号符号器は、(変換領域モードで符号化される)オーディオコンテンツの現在の部分の後に、CELPモードで符号化されるオーディオコンテンツの次の部分が続く場合、選択的にエイリアシング除去情報を供給するように構成される。
本発明によるこの実施形態は、(例えば、平均ビットレートに関する)符号化効率、オーディオ品質および符号化遅延の間のより良いトレードオフが、変換領域モードとCELPモードとの間の切り替えによって得られうるという発見に基づく。ここで、変換領域モードで符号化されるオーディオコンテンツの部分の窓掛けは、オーディオコンテンツの次の部分が符号化されるモードから独立しており、そして、CELPモードで符号化されたオーディオコンテンツの部分への遷移に特に適合されない窓掛けの使用の結果として生じるエイリアシングアーチファクトの減少または除去は、エイリアシング除去情報の選択的な供給によって可能となる。このように、エイリアシング除去情報の選択的な供給によって、窓がオーディオコンテンツの引き続く部分との時間的オーバーラップを含む変換領域モードで符号化されたオーディオコンテンツの部分(例えばフレームまたはサブフレーム)の窓掛けのための窓を使用することは可能である。このことは、オーディオコンテンツの引き続く部分間の時間的オーバーラップをもたらすこの種の窓の使用が、復号器側で、特に効率的なオーバーラップ加算(overlap―and―add)を有する可能性を生み出すので、変換領域モードで符号化されたオーディオコンテンツの引き続く部分のシーケンスのためにより良い符号化を可能にする。さらに、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されるオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されるオーディオコンテンツの次の部分が続く場合の両方の場合に、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの部分の後に続くオーディオコンテンツの部分の窓掛けのための同じ窓を使用することによって、遅延は、低く保たれる。換言すれば、オーディオコンテンツの次の部分が符号化されるモードについての情報は、オーディオコンテンツの現在の部分の窓掛けのための窓の選択に必要でない。このように、オーディオコンテンツの次の部分の符号化のための符号化モードを知る前に、オーディオコンテンツの現在の部分の窓掛けを実行できるので、符号化遅延は小さく保たれる。それでいて、変換領域で符号化されたオーディオコンテンツの部分から、CELPモードで符号化されたオーディオコンテンツの部分への遷移に完全に適していない窓の使用によって生ぜしめられるだろうアーチファクトは、エイリアシング除去情報を使用して、復号器側で除去されうる。
このように、いくつかの付加的なエイリアシング除去情報が、変換領域モードで符号化されたオーディオコンテンツの部分から、CELPモードで符号化されたオーディオコンテンツの部分への遷移で要求される場合であっても、より良い平均符号化効率が得られる。オーディオ品質は、エイリアシング除去情報の供給によって高い水準に保たれ、そして、遅延は、オーディオコンテンツの次の部分が符号化されるモードから独立して、窓の選択をすることによって小さく保たれる。
要約すると、上述したようなオーディオ符号器は、より良いビットレート効率を低い符号化遅延と組合せて、それにもかかわらず、更に、より良いオーディオ品質を可能にする。
好ましい実施形態において、時間領域−周波数領域変換器は、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されるオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されるオーディオコンテンツの次の部分が続く場合の両方の場合に、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための同じ窓を適用するように構成される。
好ましい実施形態において、既定の非対称の窓は、左窓半分および右窓半分を含む。ここで、左窓半分は、窓値はゼロから窓中心値(窓の中央の値)に単調に増加する左側の遷移スロープ、および窓値が窓中心値より大きく、窓が最大値を含むオーバーシュート部分を含む。右窓半分は、窓値が窓中心値からゼロに単調に減少する右側の遷移スロープ、および右側ゼロ部分を含む。この種の非対称の窓を使用することにより、符号化遅延は、特に小さく保たれうる。また、オーバーシュート部分を用いて左窓半分を強調することによって、CELPモードで符号化されたオーディオコンテンツの部分への遷移でのエイリアシングアーチファクトは、比較的小さく保たれる。したがって、エイリアシング除去情報は、ビットレート効率の良い方法で符号化できる。
好ましい実施形態において、左窓半分は、ゼロ窓値の1%だけしか含まず、右側ゼロ部分は、右窓半分の窓値の少なくとも20%の長さを含む。この種の窓が、特に変換領域モードとCELPモードとの間のオーディオ符号器の切り替えのアプリケーションに非常に適切であることが分かっている。
好ましい実施形態において、既定の非対称の分析窓の右側の窓半分の窓値は、窓中心値より小さく、その結果、オーバーシュート部分が既定の非対称の分析窓の右窓半分にはない。この種の窓形状が、CELPモードで符号化されたオーディオコンテンツの部分への遷移で、比較的小さいエイリアシングアーチファクトをもたらすことが分かっている。
好ましい実施形態において、既定の非対称の分析窓のゼロ以外の部分は、少なくとも10%、フレーム長より短い。したがって、遅延は、特に小さく保たれる。
好ましい実施形態において、変換領域モードで符号化されるオーディオコンテンツの引き続く部分が、少なくとも40%の時間的オーバーラップを含むように、オーディオ信号符号器は構成される。この場合、信号符号器はまた、好ましくは、変換領域モードで符号化されるオーディオコンテンツの現在の部分および符号励振線形予測領域モードで符号化されるオーディオコンテンツの次の部分が時間的オーバーラップを含むように構成される。オーディオ信号符号器は、エイリアシング除去情報を選択的に供給するように構成される。その結果、エイリアシング除去情報は、オーディオ信号復号器において、変換領域モードで符号化されたオーディオコンテンツの部分からCELPモードで符号化されたオーディオコンテンツの部分への遷移でのエイリアシングアーチファクトを除去するためのエイリアシング除去信号の供給を可能にする。変換領域モードで符号化されるオーディオコンテンツの引き続く部分(例えばフレームまたはサブフレーム)間の有意なオーバーラップを供給することによって、時間領域−周波数領域変換のための、例えば、変形離散コサイン変換のようなラップド変換(lapped transform)を使用することは可能である。ここで、この種のラップド変換の時間領域エイリアシングは、変換領域モードで符号化された続くフレーム間のオーバーラップによって、削減される、または完全に除去されさえする。しかし、変換領域モードで符号化されたオーディオコンテンツの部分からCELPモードで符号化されたオーディオコンテンツの部分への遷移において、結果として完全なエイリアシング除去とならない(または結果として、少しのエイリアシング除去にさえならない)特定の時間的オーバーラップもある。時間的オーバーラップは、異なるモードで符号化されたオーディオコンテンツの部分間での遷移で、フレーミングの過剰な修正を回避するために使用される。しかし、異なるモードで符号化されたオーディオコンテンツの部分間の遷移でのオーバーラップから生じるエイリアシングアーチファクトを減少させる、または除去するために、エイリアシング除去情報は、供給される。さらに、エイリアシングは、既定の非対称の分析窓の非対称性のため、比較的小さく保たれ、その結果、エイリアシング除去情報は、ビットレート効率の良い方法で符号化できる。
好ましい実施形態において、オーディオ信号符号器は、時間的にオーディオコンテンツの現在の部分とオーバーラップするオーディオコンテンツの次の部分の符号化のために使用されるモードから独立して、(変換領域モードで好ましくは符号化される)オーディオコンテンツの現在の部分の窓掛けのための窓を選択し、その結果、(変換領域モードで好ましくは符号化される)オーディオコンテンツの現在の部分の窓を掛けた表現は、オーディオコンテンツの次の部分がCELPモードで符号化される場合であっても、オーディオコンテンツの次の部分とオーバーラップするように構成される。オーディオ信号符号器は、オーディオコンテンツの次の部分がCELPモードで符号化されることの検出に応答して、エイリアシング除去情報を供給するように構成される。ここで、エイリアシング除去情報は、オーディオコンテンツの次の部分の変換領域モード表現によって示される(または含まれる)だろうエイリアシング除去信号成分を示す。したがって、(代わりに、すなわち、変換領域モードで符号化されたオーディオコンテンツの引き続く部分が存在する場合に、)変換領域モードで符号化されたオーディオコンテンツの2つの部分の時間領域表現にオーバーラップ加算することによって達成されるエイリアシング除去は、変換領域モードで符号化されたオーディオコンテンツの部分からCELPモードで符号化されたオーディオコンテンツの部分への遷移でのエイリアシング除去情報に基づいて達成される。このように、専用のエイリアシング除去情報を使用することにより、モード切り替えの前のオーディオコンテンツの部分の窓掛けは、影響を受けないままにされることができ、そのことは、遅延を減少させるのに役立つ。
好ましい実施形態において、時間領域−周波数領域変換器は、変換領域モードで符号化され、CELPモードで符号化されるオーディオコンテンツの部分に続くオーディオコンテンツの現在の部分の窓掛けのための既定の非対称の窓を適用し、その結果、変換領域モードで符号化されるオーディオコンテンツの部分は、オーディオコンテンツの前の部分が符号化されるモードから独立して、そして、オーディオコンテンツの次の部分が符号化されるモードから独立して、同じ既定の非対称の分析窓を使用して、窓を掛けられるように構成される。窓掛けはまた、変換領域モードで符号化されるオーディオコンテンツの現在の部分の窓を掛けた表現が、CELPモードで符号化されたオーディオコンテンツの前の部分と時間的にオーバーラップするように適用される。したがって、変換領域モードで符号化されたオーディオコンテンツの部分が、同じ既定の非対称の分析窓を使用して(例えば、1つのオーディオコンテンツの全体にわたって)常に符号化されることを特徴とする特に単純な窓掛け方式を得ることができる。このように、どの種類の分析窓が使用されるかの信号を送ることを必要とせず、そのことは、ビットレート効率を増加させる。また、符号器煩雑性(および復号器煩雑性)を非常に小さく保つことができる。非対称の分析窓が、上記のように、変換領域モードからCELPモードへの遷移、および、CELPモードから変換領域モードへ戻る遷移の両方によく適していることが分かっている。
好ましい実施形態において、オーディオ信号符号器は、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されたオーディオコンテンツの前の部分の後に続く場合、エイリアシング除去情報を選択的に供給するように構成される。エイリアシング除去情報の供給が、この種の遷移においても役立ち、より良いオーディオ品質を確保することを可能にすることが分かっている。
好ましい実施形態において、時間領域−周波数領域変換器は、変換領域で符号化され、CELPモードで符号化されたオーディオコンテンツの部分に続くオーディオコンテンツの現在の部分の窓掛けのための、既定の非対称の分析窓とは異なる専用の非対称の遷移分析窓を適用するように構成される。遷移後の専用の窓の使用が、遷移でビットレートオーバーヘッドを減少させるのに役立ちうることが分かっている。また、専用の非対称の遷移分析窓が使用されるべきという決定が、その決定が必要となる時にすでに利用可能である情報に基づいてなされるので、遷移後の専用の非対称の遷移分析窓の使用が、有意な追加の遅延をもたらさないことが分かっている。したがって、エイリアシング除去情報の量は、減少できる。あるいは、いくらかのエイリアシング除去情報の必要性も、場合によっては除くことさえできる。
好ましい実施形態において、符号励振線形予測領域パス(CELPパス)は、(符号励振線形予測領域モードとして使用される)代数符号励振線形予測領域モード(ACELPモード)で符号化されるオーディオコンテンツの部分に基づいて、代数符号励振情報および線形予測領域パラメータ情報を得るように構成された代数符号励振線形予測領域パス(ACELPパス)である。符号励振線形予測領域パスとして代数符号励振線形予測領域パスを使用することにより、特に高い符号化効率は、多くの場合達成できる。
本発明による実施形態は、オーディオコンテンツの符号化表現に基づいて、オーディオコンテンツの復号化表現を供給するためのオーディオ信号復号器を生み出す。オーディオ信号復号器は、スペクトル係数のセットおよびノイズシェーピング情報に基づいて、変換領域モードで符号化されたオーディオコンテンツの部分の時間領域表現を得るように構成された変換領域パスを含む。変換領域パスは、スペクトル係数のセットから、またはその前処理されたバージョンからオーディオコンテンツの窓を掛けた時間領域表現を得るために、周波数領域−時間領域変換および窓掛けを適用するように構成された周波数領域−時間領域変換器を含む。オーディオ信号復号器はまた、符号励振情報および線形予測領域パラメータ情報に基づいて、符号励振線形予測領域モードで符号化されたオーディオコンテンツの部分の時間領域表現を得るように構成された符号励振線形予測領域パスを含む。周波数領域−時間領域変換器は、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されたオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後にCELPモードで符号化されたオーディオコンテンツの次の部分が続く場合の両方の場合に、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの前の部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための既定の非対称の合成窓を適用するように構成される。オーディオ信号復号器は、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されたオーディオコンテンツの次の部分が続く場合、エイリアシング除去情報に基づいて、選択的にエイリアシング除去信号を供給するように構成される。
このオーディオ信号復号器は、符号化効率、オーディオ品質および符号化遅延間のより良いトレードオフが、オーディオコンテンツの次の部分が変換領域モードで符号化されるか、CELPモードで符号化されるかにかかわりなく、変換領域モードで符号化されたオーディオコンテンツの部分の窓掛けのための同じ既定の非対称の合成窓を使用することにより得ることができるという発見に基づく。非対称の合成窓を使用することにより、オーディオ信号復号器の低遅延特性は、改善されうる。符号化効率は、変換領域モードで符号化されたオーディオコンテンツの引き続く部分に適用された窓間でオーバーラップを有することによって、高く保たれることができる。それでもなお、異なるモードで符号化されたオーディオコンテンツの部分間の遷移の場合におけるオーバーラップから結果として生じるエイリアシングアーチファクトは、変換領域モードで符号化されたオーディオコンテンツの部分(例えばフレームまたはサブフレーム)からCELPモードで符号化されたオーディオコンテンツの部分への遷移で選択的に供給されるエイリアシング除去信号によって除去される。さらに、ここで説明されたオーディオ信号復号器が、上記のオーディオ信号符号器と同じ効果を含み、ここで説明されたオーディオ信号復号器が、上記のオーディオ信号符号器との連携に適することは、指摘されなければならない。
好ましい実施形態において、周波数領域−時間領域変換器は、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されたオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されたオーディオコンテンツの次の部分が続く場合、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの前の部分に続くオーディオコンテンツの現在の部分の窓掛けのための同じ窓を適用するように構成される。
好ましい実施形態において、既定の非対称の窓は、左窓半分および右窓半分を含む。左窓半分は、左側ゼロ部分と、窓値がゼロから窓中心値まで単調に増加する左側遷移スロープとを含む。右窓半分は、窓値が窓中心値より大きく、窓が最大値を含むオーバーシュート部分を含む。右窓半分はまた、窓値が窓中心値からゼロまで単調に減少する右側遷移スロープを含む。既定の非対称の合成窓のこの種の選択は、左側ゼロ部分の存在が、オーディオコンテンツの現在の部分の時間領域オーディオ信号から独立して、前記ゼロ部分の(右側)端まで(オーディオコンテンツの前の部分の)オーディオ信号の再構成を可能にするので、結果として特に低い遅延をもたらすことが分かっている。このように、オーディオコンテンツは、比較的小さい遅延によって与えられる。
好ましい実施形態において、左側ゼロ部分は、左窓半分の窓値の少なくとも20%の長さを含み、右窓半分は、ゼロ窓値の1%だけを含む。この種の非対称の窓が、低遅延アプリケーションに非常に適し、この種の既定の非対称の合成窓が、上述の有利な既定の非対称の分析窓との連携にも適することが分かっている。
好ましい実施形態において、既定の非対称の左窓半分の窓値は、既定の非対称の合成窓の左窓半分にはオーバーシュートがないように、窓中心値より小さい。したがって、オーディオコンテンツのより良い低遅延再構成は、上述した非対称の分析窓と組合せて達成できる。また、その窓は、より良い周波数応答を含む。
好ましい実施形態において、既定の非対称の窓のゼロ以外の部分は、少なくとも10%、フレーム長より短い。
好ましい実施形態において、オーディオ信号復号器は、変換領域モードで符号化されたオーディオコンテンツの引き続く部分が少なくとも40%の時間的オーバーラップを含むように構成される。オーディオ信号復号器はまた、変換領域モードで符号化されたオーディオコンテンツの現在の部分とCELPモードで符号化されたオーディオコンテンツの次の部分が、時間的オーバーラップを含むように構成される。オーディオ信号復号器は、エイリアシング除去情報に基づいて選択的にエイリアシング除去信号を供給し、その結果、エイリアシング除去信号が、(変換領域モードで符号化された)オーディオコンテンツの現在の部分からCELPモードで符号化されたオーディオコンテンツの次の部分への遷移でのエイリアシングアーチファクトを減少させる、または除去するように構成される。変換領域モードで符号化されたオーディオコンテンツの引き続く部分間の有意なオーバーラップを有することによって、滑らかな遷移を得ることができ、(例えば、逆変形離散コサイン変換のような)ラップド変換の使用から結果として生じうるエイリアシングアーチファクトは除去される。このように、有意なオーバーラップを使用することにより、符号化効率、および変換領域モードで符号化されたオーディオコンテンツの部分のシーケンスのための引き続く部分(例えばフレームまたはサブフレーム)間の遷移の平滑化を高めることが可能である。フレーミングにおける不定を回避するために、そして、オーディオコンテンツの次の部分の符号化モードから独立した既定の非対称の合成窓の使用を可能にするために、変換領域モードで符号化されたオーディオコンテンツの現在の部分とCELPモードで符号化されたオーディオコンテンツの次の部分との間の時間的オーバーラップの存在は認められる。それでもなお、この種の遷移で起こっているアーチファクトは、エイリアシング除去信号によって除去される。このように、低い符号化遅延を維持して、高い平均符号化効率を有すると共に、遷移におけるより良いオーディオ品質を得ることができる。
好ましい実施形態において、オーディオ信号復号器は、オーディオコンテンツの現在の部分と時間的にオーバーラップするオーディオコンテンツの次の部分の符号化のために使用されるモードから独立して、オーディオコンテンツの現在の部分の窓掛けのための窓を選択し、その結果、オーディオコンテンツの現在の部分の窓を掛けた表現が、オーディオコンテンツの次の部分がCELPモードで符号化される場合であっても、オーディオコンテンツの次の部分(の表現)とオーバーラップするように構成される。オーディオ信号復号器はまた、オーディオコンテンツの次の部分がCELPモードで符号化されることの検出に応答して、変換領域モードで符号化されたオーディオコンテンツの現在の部分からCELPモードで符号化されたオーディオコンテンツの次の(その後の)部分への遷移でのエイリアシングアーチファクトを減少させる、または除去するために、エイリアシング除去信号を供給するように構成される。したがって、オーディオコンテンツの現在の部分の後に変換領域モードで符号化されたオーディオコンテンツの部分が続いた場合に、変換領域モードで符号化された次のオーディオフレームの時間領域表現によって除去されうるこの種のエイリアシングアーチファクトは、オーディオコンテンツの現在の部分の後に、CELPモードで符号化されたオーディオコンテンツの部分が実際に続く場合、エイリアシング除去信号を使用して除去される。この機構のため、オーディオコンテンツの次の部分がCELPモードで符号化される場合であっても、遷移の品質の低下は回避される。
好ましい実施形態において、周波数領域−時間領域変換器は、変換モードで符号化され、CELPモードで符号化されたオーディオコンテンツの部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための既定の非対称の合成窓を適用し、その結果、変換領域モードで符号化されたオーディオコンテンツの部分が、オーディオコンテンツの前の部分が符号化されるモードから独立して、そして、更にオーディオコンテンツの次の部分が符号化されるモードから独立して、同じ既定の非対称の合成窓を使用して、窓を掛けられるように構成される。既定の非対称の合成窓は、変換領域モードで符号化されたオーディオコンテンツの現在の部分の窓を掛けた時間領域表現が、CELPモードで符号化されたオーディオコンテンツの前の部分の時間領域表現と時間的にオーバーラップするように適用される。このように、同じ既定の非対称の合成窓は、オーディオコンテンツの隣接する前の部分および次の部分が符号化されるモードから独立して、変換領域モードで符号化されたオーディオコンテンツの部分のために使用される。したがって、特に単純なオーディオ信号復号器実施態様が可能である。また、合成窓の種類についてのいかなる信号送信も使用する必要はなく、そのことは、ビットレート要求を低減する。
好ましい実施形態において、オーディオ信号復号器は、オーディオコンテンツの現在の部分がCELPモードで符号化されたオーディオコンテンツの前の部分の後に続く場合、エイリアシング除去情報に基づいて選択的にエイリアシング除去信号を供給するように構成される。エイリアシング除去情報を使用して、CELPモードで符号化されたオーディオコンテンツの部分から変換領域モードで符号化されたオーディオコンテンツの部分への遷移でのエイリアシングを処理することも、場合によっては望ましいことが分かっている。この構想がビットレート効率および遅延特性間のより良いトレードオフをもたらすことが分かっている。
他の好ましい実施形態において、周波数領域−時間領域変換器は、変換領域モードで符号化され、CELPモードで符号化されるオーディオコンテンツの部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための、既定の非対称の合成窓とは異なる、専用の非対称の遷移合成窓を適用するように構成される。エイリアシングアーチファクトの存在が、この種の構想によって回避されうることが分かっている。また、遷移の後の専用の窓の使用は、この種の専用の窓の選択のために必要な情報が、この種の専用の合成窓が適用されるときにすでに利用可能であるので、低遅延特性をひどく損なわないことが分かっている。
好ましい実施形態において、符号励振線形予測領域パス(CELPパス)は、代数符号励振情報および線形予測領域パラメータ情報に基づいて、(符号励振線形予測領域モードとして使用される)代数符号励振線形予測領域モード(ACELPモード)で符号化されたオーディオコンテンツの時間領域表現を得るように構成された代数符号励振線形予測領域パス(ACELPパス)である。符号励振線形予測領域パスとして代数符号励振線形予測領域パスを使用することにより、特に高い符号化効率が、多くの場合達成できる。
本発明による更なる実施形態は、オーディオコンテンツの入力表現に基づいてオーディオコンテンツの符号化表現を供給する方法、およびオーディオコンテンツの符号化表現に基づいてオーディオコンテンツの復号化表現を供給する方法を生み出す。本発明による更なる実施形態は、少なくとも一つの前記方法を実行するためのコンピュータ・プログラムを生み出す。
前記方法および前記コンピュータ・プログラムは、前述のオーディオ信号符号器および前述のオーディオ信号復号器と同じ発見に基づき、そして、オーディオ信号符号器およびオーディオ信号復号器に関して述べた特徴および機能のいずれかによって補充できる。
本発明による実施形態は、同封した図を参照にして、以下に説明される。
図1は、本発明の一実施形態によるオーディオ信号符号器のブロック略図を示す。 図2aは、図1に記載のオーディオ信号符号器に用いられる変換領域パスのブロック略図を示す。 図2bは、図1に記載のオーディオ信号符号器に用いられる変換領域パスのブロック略図を示す。 図2cは、図1に記載のオーディオ信号符号器に用いられる変換領域パスのブロック略図を示す。 本発明の一実施形態によるオーディオ信号復号器のブロック略図を示す。 図4aは、図3に記載のオーディオ信号復号器に用いられる変換領域パスのブロック略図を示す。 図4bは、図3に記載のオーディオ信号復号器に用いられる変換領域パスのブロック略図を示す。 図4cは、図3に記載のオーディオ信号復号器に用いられる変換領域パスのブロック略図を示す。 図5は、サイン窓(点線)と本発明によるいくつかの実施形態において使用されるG.718分析窓(実線)の比較を示す。 図6は、サイン窓(点線)と本発明によるいくつかの実施形態において使用されるG.718合成窓(実線)の比較を示す。 図7は、サイン窓のシーケンスのグラフ表現を示す。 図8は、G.718分析窓のシーケンスのグラフ表現を示す。 図9は、G.718合成窓のシーケンスのグラフ表現を示す。 図10は、サイン窓(実線)およびACELP(正方形を付けた線)のシーケンスのグラフ表現を示す。 図11は、G.718分析窓(実線)、ACELP(正方形を付けた線)および前方向エイリアシング除去(「FAC」)(点線)のシーケンスを含んでいる低遅延の統合音声音響符号化(unified−speech−and−audio−coding:USAC)のための第1のオプションのグラフ表現を示す。 図12は、図11による低遅延の統合音声音響符号化(unified−speech−and−audio−coding)のための第1のオプションに対応している合成のためのシーケンスのグラフ表現を示す。 図13は、G.718分析窓(実線)、ACELP(正方形を付けた線)およびFAC(点線)のシーケンスを使用している低遅延統合音声音響符号化のための第2のオプションのグラフ表現を示す。 図14は、図13による低遅延統合音声音響符号化のための第2のオプションに対応している合成のためのシーケンスのグラフ表現を示す。 図15は、AAC(advanced−audio−coding)からAMR−WB+(adaptive−multi−rate−wideband−plus coding)への遷移のグラフ表現を示す。 図16は、AMR−WB+(adaptive−multi−rate−wideband−plus coding)からAAC(advanced−audio−coding)への遷移のグラフ表現を示す。 図17は、AAC−ELD(advanced−audio−coding−enhanced−low−delay)における低遅延変形離散コサイン変換(low−delay modified−discrete−cosine−transform(LD−MDCT))の分析窓のグラフ表現を示す。 図18は、AAC−ELD(advanced−audio−coding−enhanced−low−delay)における低遅延変形離散コサイン変換(LD―MDCT)の合成窓のグラフ表現を示す。 図19は、拡張低遅延の高度なオーディオ符号化(AAC―ELD)および時間領域符復号化間の切り替えのための一例である窓シーケンスのグラフ表現を示す。 図20は、拡張低遅延の高度なオーディオ符号化(AAC―ELD)および時間領域符復号化間の切り替えのための一例である分析窓シーケンスのグラフ表現を示す。 図21aは、時間領域符復号化からAAC−ELD(advanced−audio−coding−enhanced−low−delay)への遷移のための分析窓のグラフ表現を示す。 図21bは、通常のAAC−ELD(advanced−audio−coding−enhanced−low−delay)の分析窓と比較した時間領域符復号化からAAC−ELD(advanced−audio−coding−enhanced−low−delay)への遷移のための分析窓のグラフ表現を示す。 図22は、AAC−ELD(advanced−audio−coding−enhanced−low−delay)および時間領域符復号化間の切り替えのための一例である合成窓シーケンスのグラフ表現を示す。 図23aは、AAC−ELD(advanced−audio−coding−enhanced−low−delay)から時間領域符復号化への遷移のための合成窓のグラフ表現を示す。 図23bは、通常のAAC−ELD(advanced−audio−coding−enhanced−low−delay)合成窓と比較したAAC−ELD(advanced−audio−coding−enhanced−low−delay)から時間領域符復号化への遷移のための合成窓のグラフ表現を示す。 図24は、AAC−ELD(advanced−audio−coding−enhanced−low−delay)および時間領域符復号化間の窓シーケンス切り替えのための遷移窓の他の選択のグラフ表現を示す。 図25は、時間領域信号の他の窓掛けおよび他のフレーミングのグラフ表現を示す。 図26は、TDA信号を時間領域符復号化に与え、このことにより臨界サンプリング(critical sampling)を達成することに関する代わりの方法のグラフ表現を示す。
以下に、本発明によるいくつかの実施形態について説明する。
以下において説明される実施形態において、代数符号励振線形予測領域パス(ACELPパス)は、符号励振線形予測領域パス(CELPパス)の一例として説明され、代数符号励振線形予測領域モード(ACELPモード)は、符号励振線形予測領域モード(CELPモード)の一例として説明される点に、ここで留意されなければならない。また、代数符号励振情報は、符号励振情報の一例として説明される。
それにもかかわらず、様々な種類の符号励振線形予測領域パスは、本願明細書において説明されるACELPパスの代わりに使用されうる。例えば、ACELPパスの代わりに、例えば、RCELPパス、LD―CELPパス、またはVSELPパスのように、符号励振線形予測領域パスの他のいかなる変化形も使用されうる。
要約すると、線形予測による音声生成のソースフィルタモデルが、オーディオ符号器側およびオーディオ復号器側の両方で使用されることと、符号励振情報が、周波数領域への変換を実行することなしで、CELPモードで符号化されるオーディオコンテンツの再構成のための線形予測モデル(例えば、線形予測合成フィルタ)を励振する(または刺激する)ように適合された励振信号(また、刺激信号としても示される)を、直接符号化することによって符号器側で得られることと、励振信号が、CELPモードで符号化されるオーディオコンテンツの再構成のための線形予測モデル(例えば、線形予測合成フィルタ)を励振する(または刺激する)ように適合された励振信号(また、刺激信号として示される)を再構成するために、オーディオ復号器の側での符号励振情報から、周波数領域−時間領域変換を実行することなしで、直接得られることを共通点に持つ様々な構想は、符号励振線形予測領域パスを実施するのに使用されうる。
換言すれば、オーディオ信号符号器およびオーディオ信号復号器のCELPパスは、一般的に、(そのモデルまたはフィルタが、好ましくは声道をモデル化するように構成されうる)線形予測領域モデル(またはフィルタ)の使用を、励振信号(または刺激信号、または残留信号)の「時間領域」符号化または復号化と組み合わせる。前記「時間領域」符号化または復号化において、励振信号(または刺激信号、または残留信号)は、適当な符号語を使用して、(励振信号の時間領域−周波数領域変換を実行せずに、または、励振信号の周波数領域−時間領域変換を実行せずに、)直接、符号化または復号されうる。励振信号の符号化および復号化のために、様々な種類の符号語が使用されうる。例えば、ハフマン符号語(またはハフマン符号化方式、またはハフマン復号化方式)は、(ハフマン符号語が符号励振情報を形成しうるように、)励振信号のサンプルを符号化または復号するために使用されうる。しかし、別法として、様々な適応および/または固定コードブックは、励振信号の符号化および復号化のために、任意選択で(これらの符号語が符号励振情報を形成するように)ベクトル量子化またはベクトル符号化/復号化と組合せて、使用されうる。いくつかの実施形態において、代数コードブックは、励振信号(ACELP)の符号化および復号化のために使用されうるが、様々なコードブック種類も適用できる。
要約すると、励振信号を「直接」符号化するための多くの様々な構想が存在し、全て、CELPパスにおいて使用されうる。従って、以下に説明するACELP構想を使用している符号化および復号化は、単に、CELPパスの実施態様に関する多種多様な可能性からの一例としてみなされるだけでなければならない。
1.図1に記載のオーディオ信号符号器
以下に、本発明の一実施形態によるオーディオ信号符号器100は、この種のオーディオ信号符号器100のブロック略図を示す図1を参照して説明される。オーディオ信号符号器100は、オーディオコンテンツの入力表現110を受けて、それに基づいて、オーディオコンテンツの符号化表現112を供給するように構成される。オーディオ信号符号器100は、変換領域モードで符号化されるオーディオコンテンツの部分(例えば、フレームまたはサブフレーム)の時間領域表現122を受けて、変換領域モードで符号化されるオーディオコンテンツの部分の時間領域表現122に基づいて、(符号化された形で供給されうる)スペクトル係数のセット124とノイズシェーピング情報126を得るように構成された変換領域パス120を含む。変換パス120は、スペクトル係数がオーディオコンテンツのノイズシェーピングされたバージョンのスペクトルを示すように、スペクトル係数124を供給するように構成される。
オーディオ信号符号器100はまた、ACELPモードで符号化されるオーディオコンテンツの部分の時間領域表現142を受けて、(短く言えば、ACELPモードと表される)代数符号励振線形予測領域モードで符号化されるオーディオコンテンツの部分に基づいて、代数符号励振情報144および線形予測領域パラメータ情報146を得るように構成される(同様に、短く言えば、ACELPパスと表される)代数符号励振線形予測領域パス140を含む。オーディオ信号符号器100はまた、エイリアシング除去情報164を供給するように構成されるエイリアシング除去情報供給160を含む。
変換領域パスは、オーディオコンテンツの時間領域表現122(またはより正確に言うと、変換領域モードで符号化されるオーディオコンテンツの部分の時間領域表現)、またはその前処理されたバージョンに窓を掛けて、オーディオコンテンツの窓を掛けた表現(またはより正確に言うと、変換領域モードで符号化されるオーディオコンテンツの部分の窓を掛けたバージョン)を得て、オーディオコンテンツの窓を掛けた(時間領域)表現からスペクトル係数のセット124を得るように時間領域−周波数領域変換を適用するように構成される時間領域−周波数領域変換器130を含む。時間領域−周波数領域変換器130は、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されるオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後にACELPモードで符号化されるオーディオコンテンツの次の部分が続く場合の両方の場合に、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの前の部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための既定の非対称の分析窓を適用するように構成される。
オーディオ信号符号器、または、より正確に言うと、エイリアシング除去情報供給160は、(変換領域モードで符号化されると考えられる)オーディオコンテンツの現在の部分の後に、ACELPモードで符号化されるオーディオコンテンツの次の部分が続く場合、選択的にエイリアシング除去情報を供給するように構成される。対照的に、エイリアシング除去情報は、(変換領域モードで符号化される)オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されるオーディオコンテンツの別の部分が続く場合には、供給されなくてもよい。
したがって、同じ既定の非対称の分析窓は、オーディオコンテンツの次の部分が変換領域モードで符号化されるか、ACELPモードで符号化されるかにかかわりなく、変換領域モードで符号化されるオーディオコンテンツの部分の窓掛けに使用される。既定の非対称の分析窓は、一般的に、オーディオコンテンツの引き続く部分(例えばフレームまたはサブフレーム)間でオーバーラップを供給する。そして、そのことは、一般的に、結果として、より良い符号化効率と、それによりブロッキングアーチファクトを回避するためにオーディオ信号復号器の効率的なオーバーラップ加算操作を実行する可能性をもたらす。しかし、オーディオコンテンツの2つの引き続く(部分的にオーバーラップしている)部分が変換領域モードで符号化される場合、オーバーラップ加算操作によって符号器側でエイリアシングアーチファクトを除去することも一般的に可能である。対照的に、変換領域モードで符号化されたオーディオコンテンツの部分とACELPモードで符号化されるオーディオコンテンツの引き続く部分との間の遷移での既定の非対称の分析窓の使用は、一般的に、オーバーラップなしで(特に、フェードイン窓掛けまたはフェードアウト窓掛けなしで)時間的に明確に限定されたサンプルのブロックがACELPモードで符号化されるので、(変換領域モードで符号化されたオーディオコンテンツの引き続く部分間の遷移のためにうまく機能する)オーバーラップ加算エイリアシング除去がもはや効果的でないという課題をもたらす。
しかしながら、エイリアシング除去情報がこの種の遷移で選択的に供給される場合、変換領域モードで符号化されたオーディオコンテンツの引き続く部分間の遷移において使用される同じ非対称の分析窓を、変換モードで符号化されたオーディオコンテンツの部分とACELPモードで符号化されたオーディオコンテンツの次の部分間の遷移においてさえ使用することが可能であることが分かっている。
したがって、時間領域−周波数領域変換器130は、オーディオコンテンツの次の部分が、どの分析窓がオーディオコンテンツの現在の部分の分析のために使用されるべきかについて決めるために、符号化されるモードについてのいかなる情報も必要としない。従って、復号器の側で効率的なオーバーラップ加算操作を可能にするために充分なオーバーラップを供給する非対称の分析窓を今までどおり使用すると共に、遅延は非常に小さく保たれることができる。加えて、エイリアシング除去情報164が、既定の非対称の分析窓がこの種の遷移に完全には適用されないという事実を考慮するように、この種の遷移で供給されるので、著しくオーディオ品質を損なうことなく変換領域モードからACELPモードへ切り替えることが可能である。
以下に、オーディオ信号符号器100が、もう少し詳細に、説明される。
1.1.変換領域パスに関する詳細
1.1.1.図2aに記載の変換領域パス
図2aは、変換領域パス120に代わることができ、周波数領域パスとみなすことができる変換領域パス200のブロック略図を示す。
変換領域パス200は、周波数領域モードで符号化されるオーディオフレームの時間領域表現210を受ける。ここで、周波数領域モードは、変換領域モードのための一例である。変換領域パス200は、時間領域表現210に基づいて、スペクトル係数の符号化されたセット214および符号化されたスケールファクター情報216を供給するように構成される。変換領域パス200は、時間領域表現210の前処理されたバージョン220aを得るために、時間領域表現210の任意の前処理220を含む。変換領域パス200はまた、周波数領域モードで符号化されるオーディオコンテンツの部分の窓を掛けた時間領域表現221aを得るために、(上記の)既定の非対称の分析窓が時間領域表現210に、または、その前処理されたバージョン220aに適用される窓掛け221を含む。変換領域パス200はまた、周波数領域表現222aが周波数領域モードで符号化されるオーディオコンテンツの部分の窓を掛けた時間領域表現221から得られる時間領域−周波数領域変換222を含む。変換領域パス200はまた、スペクトルシェーピングが、周波数領域表現222aを形成する周波数領域係数、またはスペクトル係数に適用されるスペクトル処理223を含む。したがって、スペクトルでスケールされた周波数領域表現223aは、例えば、周波数領域係数またはスペクトル係数のセットの形で得られる。量子化および符号化224は、スペクトル係数の符号化されたセット240を得るために、スペクトルでスケールされた(すなわちスペクトルシェーピングされた)周波数領域表現223aに適用される。
変換領域パス200はまた、オーディオコンテンツのどの成分(例えば、どのスペクトル係数)が高分解能で符号化されなければならないか、そして、どの成分(例えば、どのスペクトル係数)が比較的低い分解能での符号化が十分であるかに関して決定するために、例えば、周波数マスキング効果および時間的マスキング効果に関して、オーディオコンテンツを分析するように構成される音響心理学的な分析225を含む。したがって、音響心理学的な分析225は、例えば、複数のスケールファクターバンドの音響心理学的な関連を示すスケールファクター225aを供給しうる。例えば、(比較的に)大きいスケールファクターは、(比較的に)高い音響心理学的な関連性のスケールファクターバンドと関連しうる。その一方で、(比較的に)小さいスケールファクターは、(比較的に)より低い音響心理学的な関連性のスケールファクターバンドと関連しうる。
スペクトル処理223において、スペクトル係数222aは、スケールファクター225aによって重み付けされる。例えば、異なるスケールファクターバンドのスペクトル係数222aは、前記各スケールファクターバンドに関連したスケールファクター225aによって重み付けされる。したがって、高い音響心理学的な関連性を有するスケールファクターバンドのスペクトル係数は、スペクトルシェーピングされた周波数領域表現223aにおいて、より低い音響心理学的な関連性を有するスケールファクターバンドのスペクトル係数より高く重み付けされる。したがって、より高い音響心理学的な関連性を有するスケールファクターバンドのスペクトル係数は、スペクトル処理223のより高い重み付けのため、量子化/符号化224によって、より高い量子化精度で効率よく量子化される。より低い音響心理学的な関連性を有するスケールファクターバンドのスペクトル係数222aは、スペクトル処理223におけるそれらのより低い重み付けのため、量子化/符号化224によって、低い分解能で効率よく量子化される。
従って、周波数領域ブランチ200は、スペクトル係数の符号化されたセット214、およびスケールファクター225aの符号化表現である符号化されたスケールファクター情報216を供給する。符号化されたスケールファクター情報216が、異なるスケールファクターバンドにわたって量子化雑音の分布を効率よく測定するスペクトル処理223におけるスペクトル係数222aのスケーリングを示すので、符号化されたスケールファクター情報216は、効率よく、ノイズシェーピング情報を構成する。
詳しくは、周波数領域モードでオーディオフレームの時間領域表現の符号化が示される、いわゆる「先進的音響符号化(advanced audio coding)」に関する文献を参照されたい。
さらに、変換領域パス200が、一般的に、時間的にオーバーラップしているオーディオフレームを処理する点に留意する必要がある。好ましくは、時間領域−周波数領域変換222は、例えば、変形離散コサイン変換(MDCT)のようなラップド変換の実行を含む。したがって、およそN/2個のスペクトル係数222aしか、N個の時間領域サンプルを有するオーディオフレームに供給されない。したがって、N/2個のスペクトル係数の符号化されたセット214は、例えば、N個の時間領域サンプルのフレームの完全な(またはほぼ完全な)再構成に充分でない。むしろ、2つの引き続くフレームのオーバーラップは、一般的に、オーディオコンテンツの時間領域表現を完全に(または少なくともほぼ完全に)再構成するために必要とされる。換言すれば、2つの引き続くオーディオフレームのスペクトル係数の符号化されたセット214は、周波数領域モードで符号化された2つの引き続くフレームの時間的オーバーラップ領域におけるエイリアシングを除去するために、復号器側で、一般的に必要である。
しかし、エイリアシングが周波数領域モードで符号化されたフレームからACELPモードで符号化されたフレームへの遷移においてどのように除去されるかに関する詳細について後述する。
1.1.2.図2bに記載の変換領域パス
図2bは、変換領域パス120に代わることができる変換領域パス230のブロック略図を示す。
変換符号励振線形予測領域(transform―coded―excitation―linear―prediction―domain)パスとみなされうる変換領域パス230は、変換符号励振線形予測領域(Transform−coded−excitation−linear−prediction−domain)モード(また、短く言えば、TCX―LPDモードとも示される)で符号化されるオーディオフレームの時間領域表現240を受ける。ここでTCX―LPDモードは、変換領域モードの一例である。変換領域パス230は、情報シェーピングノイズとみなされうるスペクトル係数の符号化されたセット244および符号化された線形予測領域パラメータ246を供給するように構成される。変換領域パス230は、任意選択で、時間領域表現240の前処理されたバージョン250aを供給するように構成される前処理250を含む。変換領域パスはまた、時間領域表現240に基づいて線形予測領域フィルタパラメータ251aを計算するように構成される線形予測領域パラメータ計算251を含む。線形予測領域パラメータ計算251は、例えば、線形予測領域フィルタパラメータを得るために、時間領域表現240の相関分析を実行するように構成されうる。例えば、線形予測領域パラメータ計算251は、3GPP(Third Generation Partnership Project)の文書「3GPP TS 26.090」「3GPP TS 26.190」および「3GPP TS 26.290」にて記載されるように、実行されうる。
変換領域パス230はまた、LPCベースのフィルタリング262を含む。そこにおいて、時間領域表現240またはその前処理されたバージョン250aは、線形予測領域フィルタパラメータ251aに従って構成されるフィルタを使用してフィルタ処理される。したがって、フィルタ処理された時間領域信号262aは、線形予測領域パラメータ251aに基づいて、フィルタリング262によって得られる。フィルタ処理された時間領域信号262aは、窓を掛けた時間領域信号263aを得るために、窓掛け263において窓を掛けられる。窓を掛けた時間領域信号263aは、時間領域−周波数領域変換264の結果として、スペクトル係数のセット264aを得るために、時間領域−周波数領域変換264によって周波数領域表現に変換される。その後、スペクトル係数のセット264aは、スペクトル係数の符号化されたセット244を得るために、量子化/符号化265において、量子化および符号化される。
変換領域パス230はまた、符号化された線形予測領域パラメータ246を供給するために、線形予測領域パラメータ251aの量子化および符号化266を含む。
変換領域パス230の機能に関して、フィルタリング262において適用される線形予測領域パラメータ計算251は、線形予測領域フィルタ情報251aを供給すると言える。フィルタ処理された時間領域信号262aは、時間領域表現240の、または、その前処理されたバージョン250aのスペクトルシェーピングされたバージョンである。一般的に言って、フィルタリング262は、時間領域表現240によって表されるオーディオ信号の明瞭度に関してより重要である時間領域表現240の成分が、時間領域表現240によって表されるオーディオコンテンツの明瞭度に関してそれほど重要でない時間領域表現240のスペクトル成分よりも高く、重み付けされるようにノイズシェーピングを実行すると言える。したがって、オーディオコンテンツの明瞭度に関してより重要である時間領域表現240のスペクトル成分のスペクトル係数264aは、オーディオコンテンツの明瞭度に関してそれほど重要でないスペクトル成分のスペクトル係数264aを上回って強調される。
従って、時間領域表現240のより重要なスペクトル成分と関連したスペクトル係数は、より低い重要度のスペクトル成分のスペクトル係数より高い量子化精度によって、効率よく量子化される。このように、量子化/符号化250によって生じる量子化雑音は、(オーディオコンテンツの明瞭度に関して)より重要なスペクトル成分が、(オーディオコンテンツの明瞭度に関して)それほど重要でないスペクトル成分よりも、量子化雑音によって、それほどひどくは影響を受けないように、シェーピングされる。
したがって、符号化された線形予測領域パラメータ246は、符号化された形で、量子化雑音をシェーピングするために適用されたフィルタリング262を表すノイズシェーピング情報としてみなすことができる。
加えて、好ましくは、ラップド変換が時間領域−周波数領域変換264のために使用される点に留意する必要がある。例えば、変形離散コサイン変換(MDCT)は、時間領域−周波数領域変換264のために使用される。したがって、変換領域パスによって供給された符号化されたスペクトル係数244の数は、オーディオフレームの時間領域サンプルの数より小さい。例えば、N/2個のスペクトル係数の符号化されたセット244は、N個の時間領域サンプルを含んでいるオーディオフレームのために供給されうる。したがって、オーディオフレームのN個の時間領域サンプルの完全な(またはおよそ完全な)再構成は、前記フレームと関連したN/2個のスペクトル係数の符号化されたセット244に基づいては、可能でない。むしろ、2つの引き続くオーディオフレームの再構成された時間領域表現間のオーバーラップ加算は、例えばN/2個のスペクトル係数のより少ない数が、N個の時間領域サンプルのオーディオフレームと関連することによって生じる時間領域エイリアシングを除去することを必要とする。このように、一般的に、前記2つの引き続くフレーム間の時間的オーバーラップ領域においてエイリアシングアーチファクトを除去するために、復号器側でTCX―LPDモードで符号化された2つの引き続くオーディオフレームの時間領域表現をオーバーラップすることを必要とする。
しかし、TCX―LPDモードで符号化されたオーディオフレームとACELPモードで符号化された次のオーディオフレーム間の遷移でのエイリアシングの除去のための機構について、以下に説明する。
1.1.3.図2cに記載の変換領域パス
図2cは、いくつかの実施形態において変換領域パス120に代わることができ、変換符号励振線形予測領域パスとみなされるうる変換領域パス260のブロック略図を示す。
変換領域パス260は、TCX―LPDモードで符号化されるオーディオフレームの時間領域表現を受けるように構成され、それに基づいて、ノイズシェーピング情報とみなされうるスペクトル係数の符号化されたセット274および符号化された線形予測領域パラメータ276を供給する。変換領域パス260は、前処理250と同一でありえ、時間領域表現270の前処理されたバージョンを供給しうる任意の前処理280を含む。変換領域パス260はまた、線形予測領域パラメータ計算251と同一でありえ、線形予測領域フィルタパラメータ281aを供給する線形予測領域パラメータ計算281を含む。変換領域パス260はまた、線形予測領域フィルタパラメータ281aを受けて、それに基づいて、線形予測領域フィルタパラメータのスペクトル領域表現282bを供給するように構成される線形予測領域−スペクトル領域(linear―prediction―domain―to―spectral―domain)変換282を含む。変換領域パス260はまた、時間領域表現270またはその前処理されたバージョン280aを受けて、時間領域−周波数領域変換284のための窓を掛けた時間領域信号283aを供給するように構成される窓掛け283を含む。時間領域−周波数領域変換284は、スペクトル係数のセット284aを供給する。スペクトル係数284のセットは、スペクトル処理285でスペクトルで処理される。例えば、スペクトル係数284aの各々は、線形予測領域フィルタパラメータのスペクトル領域表現282aの関連値によってスケールされる。したがって、スケールされた(すなわちスペクトルシェーピングされた)スペクトル係数のセット285aが得られる。量子化および符号化286は、スペクトル係数の符号化されたセット274を得るために、スケールされたスペクトル係数のセット285aに適用される。このように、スペクトル領域表現282aの関連値が比較的大きな値を含むスペクトル係数284aは、スペクトル処理285の比較的高い重み付けを与えられ、その一方で、スペクトル領域表現282aの関連値が比較的小さい値を含むスペクトル係数284aは、スペクトル処理285の比較的より小さい重み付けを与えられる。このように、異なる重み付けは、スペクトル係数285aを得るときに、スペクトル係数284aに適用される。ここで、その重み付けは、スペクトル領域表現の値282aによって決定される。
選択的に、スペクトルシェーピングが、フィルタバンク262によってというよりむしろスペクトル処理285によって実行される場合であっても、変換領域パス260は、変換領域パス230として同様のスペクトルシェーピングを実行する。
さらにまた、線形予測領域フィルタパラメータ281aは、符号化された線形予測領域パラメータ276を得るために、量子化/符号化288において、量子化および符号化される。符号化された線形予測領域パラメータ276は、符号化された形で、スペクトル処理285によって実行されるノイズシェーピングを説明する。
さらにまた、好ましくは、時間領域−周波数領域変換284は、オーディオフレームのいくつかの例えばN個の時間領域サンプルの数と比較したとき、スペクトル係数の符号化されたセット274が、より少ないいくつかの例えばN/2個のスペクトル係数を一般的に含むように、ラップド変換を使用して実行される点に留意する必要がある。このように、TCX―LPDフレームで符号化されたオーディオフレームの完全な(またはほぼ完全な)再構成は、スペクトル係数274の単一の符号化されたセットに基づいては、可能でない。むしろ、TCX―LPDモードで符号化された2つの引き続くオーディオフレームの時間領域表現は、エイリアシングアーチファクトを除去するために、一般的に、オーディオ信号復号器においてオーバーラップ加算される。
しかし、TCX―LPDモードで符号化されたオーディオフレームからACELPモードで符号化されたオーディオフレームへの遷移でのエイリアシングアーチファクトの除去のための構想について、以下に説明する。
1.2.代数符号励振線形予測領域パスに関する詳細
以下に、代数符号励振線形予測領域パス140に関するいくつかの詳細が、説明される。
ACELPパス140は、線形予測領域パラメータ計算251と、そして、場合によっては線形予測領域パラメータ計算281と同一でありえる線形予測領域パラメータ計算150を含む。ACELPパス140はまた、ACELPモードで符号化されるオーディオの部分の時間領域表現142に依存して、そして、更に、線形予測領域パラメータ計算150によって供給された(線形予測領域フィルタパラメータでありえる)線形予測領域パラメータ150aaに依存して、ACELP励振情報152を供給するように構成されるACELP励振計算152を含む。ACELPパス140はまた、代数符号励振情報144を得るために、ACELP励振情報152の符号化154を含む。加えて、ACELPパス140は、符号化された線形予測領域パラメータ情報146を得るために、線形予測領域パラメータ情報150aの量子化および符号化156を含む。ACELPパスは、例えば、3GPP(Third Generation Partnership Project)の文書「3GPP TS 26.090」、「3GPP TS 26.190」および「3GPP TS 26.290」において説明されるACELP符号化の機能と類似している、または同一でさえある機能を含むことができる点に留意する必要がある。しかし、時間領域表現142に基づいた代数符号励振情報144および線形予測領域パラメータ情報146の供給のための様々な構想は、いくつかの実施形態においても適用されうる。
1.3.エイリアシング除去情報供給に関する詳細
以下に、エイリアシング除去情報164を供給するために使用されるエイリアシング除去情報供給160に関するいくつかの詳細について説明する。
好ましくは、エイリアシング除去情報が変換領域モードで(例えば周波数領域モードで、または、TCX―LPDモードで)符号化されたオーディオコンテンツの部分からACELPモードで符号化されたオーディオコンテンツの次の部分への遷移で選択的に供給され、その一方で、エイリアシング除去情報の供給は、変換領域モードで符号化されたオーディオコンテンツの部分から、変換領域モードで符号化されたオーディオコンテンツの次の部分への遷移では省略される点に留意する必要がある。エイリアシング除去情報164は、例えば、スペクトル係数のセット124およびノイズシェーピング情報126に基づいて、オーディオコンテンツの部分の(変換領域モードで符号化されたオーディオコンテンツの次の部分の時間領域表現とのオーバーラップ加算なしでの)個々の復号化によって得られたオーディオコンテンツの部分の時間領域表現に含まれるエイリアシングアーチファクトを除去するのに適用される信号を符号化することができる。
上述の通り、スペクトル係数のセット124に基づいた、そして、ノイズシェーピング情報126に基づいた単一のオーディオフレームの復号化によって得られた時間領域表現は、時間領域−周波数領域変換における、更にはオーディオ復号器の周波数領域−時間領域変換器における、ラップド変換の使用によって生じる時間領域エイリアシングを含む。
エイリアシング除去情報供給160は、例えば、合成結果信号170aが、スペクトル係数のセット124およびノイズシェーピング情報126に基づいて、オーディオコンテンツの現在の部分の個々の復号化によってオーディオ信号復号器においても得られる合成結果を示すように、合成結果信号170aを計算するように構成される合成結果計算170を含みうる。合成結果信号170aは、オーディオコンテンツの入力表現110を受けうる誤差計算172に送られうる。誤差計算172は、合成結果信号170aを、オーディオコンテンツの入力表現110と比較することができ、誤差信号172aを供給することができる。誤差信号172aは、オーディオ信号復号器により得ることができる合成結果とオーディオコンテンツの入力表現110との差を示す。誤差信号172の主な寄与が一般的に時間領域エイリアシングによって決定されるので、誤差信号172は、復号器側のエイリアシング除去に適する。エイリアシング除去情報供給160はまた、誤差信号172aがエイリアシング除去情報164を得るために符号化される誤差符号化174を含む。このように、誤差信号172aは、エイリアシング除去情報がビットレート効率の良い方法で誤差信号172aを示すように、エイリアシング除去情報164を得るために、任意選択で、誤差信号172aの予想される信号特性に適合されうる方法で符号化される。このように、エイリアシング除去情報164は、変換領域モードで符号化されたオーディオコンテンツの部分からACELPモードで符号化されたオーディオコンテンツの次の部分への遷移でのエイリアシングアーチファクトを減少させる、または除去さえするのに適合されるエイリアシング除去信号の復号器側の再構成を可能にする。
様々な符号化構想は、誤差符号化174のために使用されうる。例えば、誤差信号172aは、(スペクトル値を得るための時間領域−周波数領域変換、および前記スペクトル値の量子化および符号化を含む)周波数領域符号化によって符号化されうる。量子化雑音の様々な種類のノイズシェーピングが適用されうる。しかしながら、別の方法として、様々なオーディオ符号化構想が、誤差信号172aを符号化するために使用できる。
さらに、オーディオ復号器で得られうる追加の誤差除去信号は、誤差計算172において考慮されうる。
2.図3に記載のオーディオ信号復号器
以下に、オーディオ信号符号器100によって供給された符号化されたオーディオ表現112を受けて、オーディオコンテンツの前記符号化表現を復号するように構成されるオーディオ信号復号器について説明する。図3は、本発明の一実施形態によるこの種のオーディオ信号復号器300のブロック略図を示す。
オーディオ信号復号器300は、オーディオコンテンツの符号化表現310を受けて、それに基づいて、オーディオコンテンツの復号化表現312を供給するように構成される。
オーディオ信号復号器300は、スペクトル係数のセット322およびノイズシェーピング情報324を受けるように構成される変換領域パス320を含む。変換領域パス320は、スペクトル係数のセット322およびノイズシェーピング情報324に基づいて、変換領域モード(例えば周波数領域モードまたは変換符号励振線形予測領域モード(transform―coded―excitation―linear―prediction―domain―mode))で符号化されたオーディオコンテンツの部分の時間領域表現326を得るように構成される。オーディオ信号復号器300はまた、代数符号励振線形予測領域パス340を含む。代数符号励振線形予測領域パス340は、代数符号励振情報342および線形予測領域パラメータ情報344を受けるように構成される。代数符号励振線形予測領域パス340は、代数符号励振情報342および線形予測領域パラメータ情報344に基づいて、代数符号励振線形予測領域モードで符号化されたオーディオコンテンツの部分の時間領域表現346を得るように構成される。
オーディオ信号復号器300は、エイリアシング除去情報362を受けて、それに基づいて、エイリアシング除去信号364を供給するように構成されるエイリアシング除去信号供給器360を更に含む。
オーディオ信号復号器300は、オーディオコンテンツの復号化表現312を得るために、例えば結合380を使用して、変換領域モードで符号化されたオーディオコンテンツの部分の時間領域表現326とACELPモードで符号化されたオーディオコンテンツの部分の時間領域表現346とを結合するように更に構成される。
変換領域パス320は、スペクトル係数のセット322またはその前処理されたバージョンからオーディオコンテンツの窓を掛けた時間領域表現を得るために、周波数領域−時間領域変換332および窓掛け334を適用するように構成される周波数領域−時間領域変換器330を含む。周波数領域−時間領域変換器330は、オーディオコンテンツの現在の部分の後に、変換領域モードで符号化されたオーディオコンテンツの次の部分が続く場合、および、オーディオコンテンツの現在の部分の後に、ACELPモードで符号化されたオーディオコンテンツの次の部分が続く場合の両方の場合に、変換領域モードで符号化され、変換領域モードで符号化されたオーディオコンテンツの前の部分の後に続くオーディオコンテンツの現在の部分の窓掛けのための既定の非対称の合成窓を適用するように構成される。
オーディオ信号復号器(またはより正確に言うと、エイリアシング除去信号供給器360)は、(変換領域モードで符号化される)オーディオコンテンツの現在の部分の後に、ACELPモードで符号化されたオーディオコンテンツの次の部分が続く場合、エイリアシング除去情報362に基づいて、選択的にエイリアシング除去信号364を供給するように構成される。
オーディオ信号復号器300の機能に関して、オーディオ信号復号器300は、部分が様々なモードで符号化される、すなわち変換領域モードおよびACELPモードで符号化されるオーディオコンテンツの復号化表現312を供給することができると言える。変換領域モードで符号化されたオーディオコンテンツの部分(例えばフレームまたはサブフレーム)のために、変換領域パス320は、時間領域表現326を供給する。しかし、変換領域モードで符号化されたオーディオコンテンツのフレームの時間領域表現326は、周波数領域−時間領域変換器330が、一般的に、時間領域表現326を供給するために逆ラップド変換を使用するので、時間領域エイリアシングを含みうる。例えば、逆変形離散コサイン変換(IMDCT)でありえる逆ラップド変換において、スペクトル係数のセット322は、フレームの時間領域サンプルにマップされうる。ここで、フレームの時間領域サンプルの数は、前記フレームと関連したスペクトル係数322の数より大きくてもよい。例えば、オーディオフレームと関連したN/2個のスペクトル係数がありえ、N個の時間領域サンプルは、前記フレームのための変換領域パス320によって供給されうる。したがって、実質的にエイリアシングのない時間領域表現は、変換領域モードで符号化された2つの引き続くフレームのために得られた、(時間シフトされた)時間領域表現を(例えば結合380において)オーバーラップ加算することによって得られる。
しかしながら、エイリアシング除去は、変換領域モードで符号化されたオーディオコンテンツの部分(例えばフレームまたはサブフレーム)からACELPモードで符号化されたオーディオコンテンツの次の部分への遷移においては、より困難である。好ましくは、変換領域モードで符号化されたフレームまたはサブフレームのための時間領域表現は、(ゼロ以外の)時間領域サンプルがACELPブランチによって供給される(一般的にはブロックの形の)時間部分に時間的に及ぶ。更に、変換領域モードで符号化され、ACELPモードで符号化されたオーディオコンテンツの次の部分の前にあるオーディオコンテンツの部分は、一般的に、(オーディオコンテンツの次の部分が変換領域モードで符号化された場合には、時間領域エイリアシングが変換領域ブランチによって供給された時間領域表現によって実質的に除去される一方で、)ACELPモードで符号化されたオーディオコンテンツの部分のためのACELPブランチによって供給された時間領域サンプルによって除去できない、ある程度の時間領域エイリアシングを含む。
しかしながら、変換領域モードで符号化されたオーディオコンテンツの部分からACELPモードで符号化されたオーディオコンテンツの次の部分への遷移でのエイリアシングは、エイリアシング除去信号供給器360によって供給されたエイリアシング除去信号364によって、減少される、または除去されさえする。この目的のために、エイリアシング除去信号供給器360は、エイリアシング除去情報を評価して、それに基づいて、時間領域エイリアシング除去信号を供給する。例えば、エイリアシング除去信号364は、例えば、時間領域エイリアシングを減少させる、または除去さえするために変換領域パスによって変換領域モードで符号化されたオーディオコンテンツの部分のために供給されたN個の時間領域サンプルの時間領域表現の右側半分(またはより短い右側部分)に付け加えられる。エイリアシング除去信号364は、ACELPモードで符号化されたオーディオコンテンツの部分の(ゼロ以外の)時間領域表現346が変換領域モードで符号化されたオーディオコンテンツの時間領域表現にオーバーラップしない時間部分、および、ACELPモードで符号化されたオーディオコンテンツの部分の(ゼロ以外の)時間領域表現が変換領域モードで符号化されたオーディオコンテンツの前の部分の時間領域表現にオーバーラップする時間部分に付け加えられることができる。したがって、(「クリック」アーチファクトのない)滑らかな遷移を、変換領域モードで符号化された時間領域表現の部分およびACELPモードで符号化されたオーディオコンテンツの次の部分との間に得ることができる。エイリアシングアーチファクトは、エイリアシング除去信号を使用しているこの種の遷移で、減少できる、または除去されさえできる。
従って、オーディオ信号復号器300は、変換領域モードで符号化されたオーディオコンテンツの部分のシーケンス(例えばフレーム)を効率よく処理することができる。このような場合、時間領域エイリアシングは、変換領域モードで符号化された引き続く(時間的にオーバーラップする)フレームの(例えばN個の時間領域サンプルの)時間領域表現のオーバーラップ加算によって除去される。したがって、滑らかな遷移が、いかなる追加のオーバーラップなしでも得られる。例えば、オーディオフレームごとにN/2個のスペクトル係数を評価することによって、そして、50%の時間的フレームオーバーラップを使用することによって、臨界サンプリングが使用できる。ブロッキングアーチファクトを回避すると共に、非常により良い符号化効率が変換領域モードで符号化されたこの種のオーディオフレームのシーケンスのために得られる。
また、変換領域モードで符号化されるオーディオコンテンツの現在の部分の後に、変換領域モードで符号化されたオーディオコンテンツの次の部分が続くか、あるいはACELPモードで符号化されたオーディオコンテンツの次の部分が続くかにかかわりなく、同じ既定の非対称の合成窓を使用することにより、遅延は、相当に小さく保たれることができる。
さらに、変換領域モードで符号化されたオーディオコンテンツの部分とACELPモードで符号化されたオーディオコンテンツの次の部分との間の遷移でのオーディオ品質は、エイリアシング除去情報に基づいて供給されるエイリアシング除去信号を使用することによって、特別に適用された合成窓を使用することなしでさえ、高く保たれることができる。
このように、オーディオ信号復号器300は、符号化効率、符号化遅延およびオーディオ品質間のより良い妥協点を供給する。
2.1.変換領域パスに関する詳細
以下に、変換領域パス320に関する詳細が与えられる。この目的のために、変換パス320の実施態様の例について説明する。
2.1.1.図4aに記載の変換領域パス
図4aは、本発明によるいくつかの実施形態の変換領域パス320に代わることができ、周波数領域パスとしてみなされうる変換領域パス400のブロック略図に示す。
変換領域パス400は、スペクトル係数の符号化されたセット412および符号化されたスケールファクター情報414を受けるように構成される。変換領域パス400は、周波数領域モードで符号化されたオーディオコンテンツの部分の時間領域表現416を供給するように構成される。
変換領域パス400は、スペクトル係数の符号化されたセット412を受けて、それに基づいて、スペクトル係数の復号化および逆量子化されたセット420aを供給する、復号化および逆量子化420を含む。変換領域パス400はまた、符号化されたスケールファクター情報414を受けて、それに基づいて、復号化および逆量子化されたスケールファクター情報421aを供給する、復号化および逆量子化421を含む。
変換領域パス400はまた、スペクトル処理422が、例えば、復号化および逆量子化されたスペクトル係数420aのスケールファクターバンドごとのスケーリングを含みうるスペクトル処理422を含む。したがって、スケールされた(すなわちスペクトルシェーピングされた)スペクトル係数のセット422aが得られる。スペクトル処理422において、(比較的に)小さいスケーリングファクターは、比較的高い音響心理学的な関連があるこの種のスケールファクターバンドに適用されることができ、その一方で、(比較的に)大きいスケーリングは、比較的より小さい音響心理学的な関連性を有するスケールファクターバンドのスペクトル係数に適用される。したがって、比較的小さい音響心理学的な関連性を有するスケールファクターバンドのスペクトル係数のための有効な量子化雑音と比較するときに、有効な量子化雑音が、比較的より高い音響心理学的な関連を有するスケールファクターバンドのスペクトル係数のために、より小さいことが達せられる。スペクトル処理において、スペクトル係数420aは、スケールされたスペクトル係数422aを得るために、それぞれ関連したスケールファクターを乗算されうる。
変換領域パス400はまた、スケールされたスペクトル係数422aを受けて、それに基づいて、時間領域信号423aを供給するように構成される周波数領域−時間領域変換423を含みうる。例えば、周波数領域−時間領域変換は、例えば逆変形離散コサイン変換のような逆ラップド変換でありえる。したがって、周波数領域−時間領域変換423は、例えば、N/2個のスケールされた(スペクトルシェーピングされた)スペクトル係数422aに基づいて、N個の時間領域サンプルの時間領域表現423aを供給しうる。変換領域パス400はまた、時間領域信号423aに適用される窓掛け424を含みうる。例えば、既定の非対称の合成窓は、上述のように、そして、以下で詳述するように、窓を掛けた時間領域信号424aを得るために、時間領域信号423aに適用されうる。任意選択で、後処理425は、周波数領域モードで符号化されたオーディオコンテンツの部分の時間領域表現426を得るために、窓を掛けた時間領域信号424aに適用されうる。
このように、周波数領域パスとみなされうる変換領域パス420は、スペクトル処理422において適用されるスケールファクターベースの量子化ノイズシェーピングを使用して、周波数領域モードで符号化されたオーディオコンテンツの部分の時間領域表現416を供給するように構成される。好ましくは、N個の時間領域サンプルの時間領域表現は、N/2個のスペクトル係数のセットのために供給される。そこにおいて、時間領域表現416は、(所定のフレームのための)時間領域表現416の時間領域サンプルの数が、(その所定のフレームのための)スペクトル係数の符号化されたセット412のスペクトル係数の数より(例えば、2倍、または、異なる倍数分)大きいという事実に起因して、いくつかのエイリアシングを含む。
しかし、上記のように、時間領域エイリアシングは、周波数領域モードで符号化されたオーディオコンテンツの部分とACELPモードで符号化されたオーディオコンテンツの部分との間の遷移の場合に、周波数領域において符号化されたオーディオコンテンツの引き続く部分間のオーバーラップ加算操作によって、または、エイリアシング除去信号364の追加によって、減少される、または除去される。
2.1.2.図4bに記載の変換領域パス
図4bは、変換領域パスであって、変換領域パス320と代わることができる、変換符号励振線形予測領域パス430のブロック略図を示す。
TCX―LPDパス430は、スペクトル係数の符号化されたセット442と、ノイズシェーピング情報とみなされうる符号化された線形予測領域パラメータ444を受けるように構成される。TCX―LPDパス430は、スペクトル係数の符号化されたセット442および符号化された線形予測領域パラメータ444に基づいて、TCX―LPDモードで符号化されたオーディオコンテンツの部分の時間領域表現446を供給するように構成される。
TCX―LPDパス430は、復号化および逆量子化の結果として、復号化および逆量子化されたスペクトル係数のセット450aを供給するスペクトル係数の符号化されたセット442の復号化および逆量子化450を含む。復号化および逆量子化されたスペクトル係数450aは、復号化および逆量子化されたスペクトル係数に基づいて、時間領域信号451aを供給する周波数領域−時間領域変換451に入力される。周波数領域−時間領域変換451は、例えば、前記逆ラップド変換の結果として、時間領域信号451aを供給するために、復号化および逆量子化されたスペクトル係数450aに基づいた逆ラップド変換の実行を含むことができる。例えば、逆変形離散コサイン変換は、復号化および逆量子化されたスペクトル係数450aから時間領域信号451aを得るために実行されることができる。時間領域表現451aの時間領域サンプルの数(例えばN)は、ラップド変換の場合に、周波数領域−時間領域変換に入力されたスペクトル係数450aの数(例えばN/2)より大きくてもよく、その結果、例えば、時間領域信号451aのN個の時間領域サンプルは、N/2個のスペクトル係数450aに応答して供給されうる。
TCX―LPDパス430はまた、窓を掛けた時間領域信号452aを得るために、合成窓関数が時間領域信号451aの窓掛けのための適用される窓掛け452を含む。例えば、既定の非対称の合成窓は、時間領域の窓を掛けたバージョン451aとして窓を掛けた時間領域信号452aを得るために、窓掛け452において適用されうる。TCX―LPDパス430はまた、復号化および逆量子化453を含む。そこにおいて、復号化線形予測領域パラメータ情報453aが符号化された線形予測領域パラメータ444から得られる。復号化線形予測領域パラメータ情報は、例えば、線形予測フィルタのためのフィルタ係数を含む(または示す)ことができる。フィルタ係数は、例えば、3GPP(Third Generation Partnership Project)の技術仕様書「3GPP TS 26.090」、「3GPP TS 26.190」および「3GPP TS 26.290」に示されたように、復号されうる。したがって、フィルタ係数453aは、窓を掛けた時間領域信号452aをフィルタ処理するために、線形予測符号化ベースのフィルタリング454において使用されうる。換言すれば、窓を掛けた時間領域信号452aからフィルタ処理された時間領域信号454aを得るために使用されるフィルタ(例えば有限インパルス応答フィルタ)の係数は、前記フィルタ係数を示しうる復号化線形予測領域パラメータ情報453aによって調整されうる。このように、窓を掛けた時間領域信号452aは、フィルタ係数453aによって調整される線形予測符号化ベースの信号合成454の刺激信号として用いられうる。
任意選択で、後処理455は、フィルタ処理時間領域信号454aからTCX―LPDモードで符号化されたオーディオコンテンツの部分の時間領域表現446を得るために適用されることができる。
要約すると、符号化された線形予測領域パラメータ444によって示されるフィルタリング454は、スペクトル係数の符号化されたセット442によって示されるフィルタ刺激信号452aからTCX―LPDモードで符号化されたオーディオコンテンツの部分の時間領域表現446を得るために適用される。したがって、より良い符号化効率は、適切に予測可能である、すなわち、線形予測フィルタによく適合されるこの種の信号のために得られる。この種の信号のために、その刺激は、スペクトル係数の符号化されたセット442によって効率的に符号化でき、その一方で、信号の他の相関特性は、線形予測フィルタ係数453aに依存して決定されるフィルタリング454によって考慮されることができる。
しかし、時間領域エイリアシングが、周波数領域−時間領域変換451におけるラップド変換を適用することによって時間領域表現446に生じる点に留意する必要がある。時間領域エイリアシングは、TCX―LPDモードで符号化されたオーディオコンテンツの引き続く部分の(時間的にシフトされた)時間領域表現446のオーバーラップ加算によって除去できる。あるいは、時間領域エイリアシングは、様々なモードで符号化されたオーディオコンテンツの部分間での遷移において、エイリアシング除去信号364を使用して減少できる、または除去できる。
2.1.3.図4cに記載の変換領域パス
図4cは、本発明によるいくつかの実施形態の変換領域パス320に代わることができる、変換領域パス460のブロック略図を示す。
変換領域パス460は、周波数領域ノイズシェーピングを使用している変換符号励振線形予測領域パス(TCX―LPDパス)である。TCX―LPDパス460は、ノイズシェーピング情報とみなされうるスペクトル係数の符号化されたセット472および符号化された線形予測領域パラメータ474を受けるように構成される。TCX―LPDパス460は、スペクトル係数の符号化されたセット472に基づいて、そして、符号化された線形予測領域パラメータ472に基づいて、TCX―LPDモードで符号化されたオーディオコンテンツの部分の時間領域表現476を供給するように構成される。
TCX―LPDパス460は、スペクトル係数の符号化されたセット472を受けて、それに基づいて、復号化および逆量子化されたスペクトル係数480aを供給するように構成される復号化/逆量子化480を含む。TCX―LPDパス460はまた、符号化された線形予測領域パラメータ472を受けて、それに基づいて、例えば、線形予測符号化(LPC)フィルタのフィルタ係数のような復号化および逆量子化された線形予測領域パラメータ481aを供給するように構成された復号化および逆量子化481を含む。TCX―LPDパス460はまた、復号化および逆量子化された線形予測領域パラメータ481を受けて、線形予測領域パラメータ481aのスペクトル領域表現482aを供給するように構成された線形予測領域−スペクトル領域変換482を含む。例えば、スペクトル領域表現482aは、線形予測領域パラメータ481aによって示されたフィルタ応答のスペクトル領域表現でありえる。TCX―LPDパス460は、スケールされたスペクトル係数のセット483aを得るために、線形予測領域パラメータ481のスペクトル領域表現482aに依存して、スペクトル係数480aをスケールするように構成されるスペクトル処理483を更に含む。例えば、スペクトル係数480aの各々は、スペクトル領域表現482aの1つまたはそれ以上のスペクトル係数に従って(または依存して)決定されるスケーリングファクターで乗算されうる。このように、スペクトル係数480aの重み付けは、符号化された線形予測領域パラメータ472によって表された線形予測符号化フィルタのスペクトル応答によって、効率よく決定される。例えば、線形予測フィルタが比較的大きい周波数応答を含む周波数のためのスペクトル係数480aは、スペクトル処理483において、小さいスケーリングファクターによってスケールされうる。その結果、前記スペクトル係数480aと関連した量子化雑音は減少される。対照的に、符号化された線形予測領域パラメータ472によって示された線形予測フィルタが比較的小さい周波数応答を含む周波数のためのスペクトル係数480aは、スペクトル処理483の比較的より高いスケールファクターによってスケールされうる。その結果、有効な量子化雑音は、この種のスペクトル係数480aに関して比較的大きい。このように、スペクトル処理483は、効果的に符号化された線形予測領域パラメータ472による量子化雑音のシェーピングをもたらす。
スケールされたスペクトル係数483aは、時間領域信号484aを得るために、周波数領域−時間領域変換484に入力される。例えば、周波数領域−時間領域変換484は、例えば逆変形離散コサイン変換のようなラップド変換を含みうる。したがって、時間領域表現484aは、スケールされた(すなわちスペクトルシェーピングされた)スペクトル係数483aに基づいて、この種の周波数領域−時間領域変換の実行の結果でありえる。時間領域表現484aは、周波数領域−時間領域変換に入力されるスケールされたスペクトル係数483aの数より大きい時間領域サンプルの数を含むことができる点に留意する必要がある。したがって、時間領域信号484aは、様々なモードで符号化されたオーディオコンテンツの部分間の遷移の場合に、TCX―LPDモードで符号化されたオーディオコンテンツの引き続く部分(例えばフレームまたはサブフレーム)の時間領域表現476のオーバーラップ加算によって、または、エイリアシング除去信号364の追加によって除去される、時間領域エイリアシング成分を含む。
TCX―LPDパス460はまた、そこから窓を掛けた時間領域信号485aを得るために、時間領域信号484aに窓をかけるように適用される窓掛け485を含む。窓掛け485において、後述するように、既定の非対称の合成窓は、本発明によるいくつかの実施形態において使用されうる。
任意選択で、後処理486は、窓を掛けた時間領域信号485aから時間領域表現476を得るために適用されうる。
TCX―LPDパス460の機能を要約するために、TCX―LPDパス460の中心部分であるスペクトル処理483において、ノイズシェーピングが、復号化および逆量子化されたスペクトル係数480aに適用され、ここで、ノイズシェーピングは、線形予測領域パラメータに依存して調整されることが言える。その後、窓を掛けた時間領域信号485aは、周波数領域−時間領域変換484および窓掛け485を使用して、スケールされ、ノイズシェーピングされたスペクトル係数483aに基づいて供給される。そこにおいて、好ましくは、ある程度エイリアシングを生じさせるラップド変換が使用される。
2.2.ACELPパスに関する詳細
以下に、ACELPパス340に関するいくつかの詳細は、説明される。
ACELPパス140と比較するとき、ACELPパス340が逆機能を実行しうる点に留意する必要がある。ACELPパス340は、代数符号励振情報342の復号化350を含む。復号化350は、次にACELP励振信号351aを供給する励振信号計算および後処理351に復号化された代数符号励振情報350aを供給する。ACELPパスはまた、線形予測領域パラメータの復号化352を含む。復号化352は、線形予測領域パラメータ情報344を受けて、それに基づいて、例えば、線形予測フィルタ(また、LPCフィルタとも表される)のフィルタ係数のような線形予測領域パラメータ352aを供給する。ACELPパスはまた、線形予測領域パラメータ352aに依存して励振信号351aにフィルタをかけるように構成される合成フィルタリング353を含む。したがって、合成された時間領域信号353aは、ACELPモードで符号化されたオーディオコンテンツの部分の時間領域表現346を得るために後処理354において任意選択で後処理される合成フィルタリング353の結果として得られる。
ACELPパスは、ACELPモードで符号化されたオーディオコンテンツの時間的に限定された部分の時間領域表現を供給するように構成される。例えば、時間領域表現346は、オーディオコンテンツの部分の時間領域信号を自己無撞着に示しうる。換言すれば、時間領域表現346は、時間領域エイリアシングがなく、ブロック形の窓によって限定されうる。したがって、時間領域表現346は、ブロッキングアーチファクトがこの種のブロックの境界にないことに注意を払わなければならない場合であっても、(ブロック形窓形状を有する)範囲を定められた時間的ブロックのオーディオ信号を再構成するのに十分でありえる。
更なる詳細について、以下に説明する。
2.3.エイリアシング除去信号供給器に関する詳細
以下に、エイリアシング除去信号供給器360に関するいくつかの詳細について説明される。エイリアシング除去信号供給器360は、復号化エイリアシング除去情報370aを得るために、エイリアシング除去情報362を受けて、エイリアシング除去情報362の復号化370を実行するように構成される。エイリアシング除去信号供給器360はまた、復号化エイリアシング除去情報370aに基づいて、エイリアシング除去信号364の再構成372を実行するようにも構成される。
上記のように、エイリアシング除去情報360は、様々な形で符号化されうる。例えば、エイリアシング除去情報362は、周波数領域表現で、または、線形予測領域表現で符号化されうる。このように、様々な量子化ノイズシェーピング構想は、エイリアシング除去信号の再構成372において適用されうる。場合によっては、周波数領域モードで符号化されたオーディオコンテンツの部分からのスケールファクターは、エイリアシング除去信号364の再構成において適用されうる。いくつかの他の場合において、線形予測領域パラメータ(例えば線形予測フィルタ係数)は、エイリアシング除去信号364の再構成372において適用されうる。代わりに、または、加えて、ノイズシェーピング情報は、例えば、周波数領域表現に加えて、符号化されたエイリアシング除去情報362に含まれうる。さらに、変換領域パス320からの、または、ACELPブランチ340からの付加情報は、エイリアシング除去信号364の再構成372において、任意選択で使用されうる。さらに、以下に詳述するように、窓掛けは、エイリアシング除去信号の再構成372においても使用されうる。
要約すると、様々な信号復号化構想は、エイリアシング除去情報362のフォーマットに依存して、エイリアシング除去情報362に基づいて、エイリアシング除去信号364を供給するために使用されうる。
3.窓掛けおよびエイリアシング除去構想
以下に、オーディオ信号符号器100およびオーディオ信号復号器300において適用されうる窓掛けおよびエイリアシング除去の構想に関する詳細について、詳しく説明する。
以下に、低遅延の統合音声音響符号化(USAC)における窓シーケンスの状態の記載が与えられる。
低遅延の統合音声音響符号化(USAC)開発の現在の実施形態において、過去まで拡張したオーバーラップを有する超低遅延AAC(advanced−audio−coding−enhanced−low−delay(AAC―ELD))からの低遅延窓は使用されない。その代わりに、ITU―T G.718規格において使用されるものと同一または類似するサイン窓または低遅延窓が、(例えば、時間領域−周波数領域変換器130および/または周波数領域―時間に対する変換器330において)使用される。このG.718窓は、遅延を低減するために、超低遅延AAC窓(AAC―ELD窓)と同様の非対称な形状を有するが、それは、2倍のオーバーラップ(2×オーバーラップ)、すなわち通常のサイン窓と同じオーバーラップを有するだけである。以下の図(特に、図5〜図9)は、サイン窓およびG.718窓の違いを示す。
以下の図において、400サンプルのフレーム長が、図のグリッドを窓にうまく適合させるために仮定される点に留意する必要がある。しかし、実システムでは、512のフレーム長が好ましい。
3.1.サイン窓とG.718分析窓間の比較(図5〜図9)
図5は、サイン窓(点線で示される)およびG.718分析窓(実線で示される)の比較を示す。サイン窓およびG.718分析窓の窓値のグラフ表現を示す図5を参照すると、横座標510が、0と400との間にサンプルインデックスを有する時間領域サンプルに関する時間を示し、縦座標512が、例えば、正規化窓値でありうる窓値を示す点に留意する必要がある。
図5で示すように、G.718分析窓(実線520で示される)は、非対称である。図に示すように、左窓半分(時間領域サンプル0〜199)は、窓値が0から1である窓中心値まで単調に増加する遷移スロープ522と、窓値が1である窓中心値より大きいオーバーシュート部分524とを含む。オーバーシュート部分524において、窓は、最大値524aを含む。G.718分析窓520はまた、中心526に、1である中心値を含む。G.718分析窓520はまた、右窓半分(時間領域サンプル201〜400)を含む。右窓半分は、窓値が1である窓中心値から0まで単調に減少する右側の遷移スロープ520aを含む。右窓半分はまた、右側のゼロ部分530を含む。G.718分析窓520が、400サンプルのフレーム長を有する部分(例えばフレームまたはサブフレーム)に窓を掛けるために、時間領域−周波数領域変換器130において使用され、前記フレームの最後の50サンプルは、G.718分析窓の右側のゼロ部分530のために考慮されないままにされうる点にここでは留意されなければならない。したがって、フレームの全400のサンプルが利用できる前に、時間領域−周波数領域変換は開始できる。むしろ、時間領域−周波数領域変換を開始するために、現在分析されたフレームの350サンプルが利用できることは充分である。
また、左窓半分において(のみ)オーバーシュート部分524を含む窓520の非対称の形状は、オーディオ信号符号器/オーディオ信号復号器処理チェーンにおいて低遅延信号再構成にうまく適合される。
上記を要約すると、図5は、サイン窓(点線)と、G.718窓520の右側の50サンプルが(サイン窓を用いた符号器と比較して、)結果として符号器における50サンプルの遅延低減を生じさせることを特徴とするG.718分析窓(実線)との比較を示す。
図6は、サイン窓(点線)およびG.718合成窓(実線)の比較を示す。横座標610は、時間領域サンプルが0と400との間にサンプルインデックスを有することを特徴とする時間領域サンプルに関する時間を示す。縦座標612は、(正規化)窓値を示す。
図に示すように、周波数領域−時間領域変換器330における窓掛けのための使用されうるG.718合成窓620は、左窓半分および右窓半分を含む。左窓半分(サンプル0〜199)は、左側ゼロ部分622と、0(サンプル50)から例えば1である窓中心値まで窓値が単調に増加する左側遷移スロープ624とを含む。G.718合成窓620はまた、1である中心窓値(サンプル200)を含む。右側窓部分(サンプル201〜400)は、最大値628aを含むオーバーシュート部分628を含む。右窓半分(サンプル201〜400)はまた、窓中心値(1)から0まで窓値が単調に減少する右側遷移スロープ630を含む。
G.718合成窓620は、変換領域モードで符号化されたオーディオフレームの400サンプルに窓を掛けるために、変換領域パス320において、適用されうる。G.718窓の左側(左側ゼロ部分622)の50サンプルは、(例えば、400サンプルのゼロでない時間的拡張を含んでいる窓と比較して、)結果として、復号器においてさらに50サンプルの遅延低減をもたらす。遅延低減は、前のオーディオフレームのオーディオコンテンツが、オーディオコンテンツの現在の部分の時間領域表現が得られる前に、オーディオコンテンツの現在の部分の50番目のサンプルの位置まで出力されうるということから生じる。このように、前のオーディオフレーム(またはオーディオサブフレーム)と現在のオーディオフレーム(またはオーディオサブフレーム)間の(ゼロでない)オーバーラップ領域は、左側ゼロ部分622の長さだけ減少し、それは、復号化オーディオ表現を供給するときに、結果として遅延減少となる。しかし、引き続くフレームは、50%(例えば、200サンプル)だけシフトされうる。更なる詳細について、以下に述べる。
上記を要約すると、図6は、サイン窓(点線)およびG.718合成窓(実線)の比較を示す。G.718窓の左側の50サンプルは、結果として復号器におけるさらなる50サンプルの遅延減少になる。G.718合成窓620は、例えば、周波数領域−時間領域変換器330、窓掛け424、窓掛け452、または窓掛け485において使用されうる。
図7は、サイン窓のシーケンスのグラフ表現を示す。横座標710は、オーディオサンプル値に関する時間を示し、縦座標712は、正規化窓値を示す。図に示すように、例えば、第1のサイン窓720は、例えば、400サンプル(0および399間のサンプルインデックス)のフレーム長を有する第1のオーディオフレーム722と関連する。第2のサイン窓730は、400のオーディオサンプル(200および599間のサンプルインデックス)の長さを有する第2のオーディオフレーム732と関連する。図に示すように、第2のオーディオフレーム732は、200のサンプルによって第1のオーディオフレーム722に関してオフセットされる。また、第1のオーディオフレーム722および第2のオーディオフレーム732は、例えば、200個のオーディオサンプル(200および399間のサンプルインデックス)の時間的オーバーラップを含む。換言すれば、第1のオーディオフレーム722および第2のオーディオフレーム732は、およそ(例えば+/−1サンプルの公差を有する)50%の時間的オーバーラップを含む。
図8は、G.718分析窓のシーケンスのグラフ表現を示す。横座標810は、時間領域オーディオサンプルに関する時間を示し、縦座標812は、正規化窓値を示す。第1のG.718分析窓820は、サンプル0からサンプル399まで及ぶ第1のオーディオフレーム822と関連する。第2のG.718分析窓830は、サンプル200からサンプル599まで及ぶ第2のオーディオフレーム832と関連する。図に示すように、第1のG.718分析窓820および第2のG.718分析窓830は、(ゼロ以外の窓値しか考慮しないときに)例えば150サンプル(+/−1サンプル)の時間的オーバーラップを含む。この点に関して、第1のG.718分析窓820がサンプル0および399との間に及ぶ第1のフレーム822と関連する点に留意する必要がある。しかしながら、第1のG.718分析窓820は、例えば50のサンプル(右側ゼロ部分530)の右側ゼロ部分を含む。その結果、(ゼロ以外の窓値に関して正確に測定された)分析窓820、830のオーバーラップは、150サンプル値(+/−1サンプル値)に減少する。図8から分かるように、時間的オーバーラップが、(合計200サンプル値+/−1サンプル値の)2つの隣接するオーディオフレーム822、832の間にあり、(合計150サンプル+/−1サンプルの)時間的オーバーラップが、2つ(2つだけ)の窓820、830のゼロ以外の部分の間にもある。
図8に示されるG.718分析窓のシーケンスが周波数領域−時間領域変換器130によって、そして、変換領域パス200、230、260によって適用されることができる点に留意する必要がある。
図9は、G.718合成窓のシーケンスのグラフ表現を示す。横座標910は、時間領域オーディオサンプルに関する時間を示し、縦座標912は、合成窓の正規化値を示す。
図9に記載のG.718合成窓のシーケンスは、第1のG.718合成窓920と第2のG.718合成窓930を含む。第1のG.718合成窓920は、第1のフレーム922(オーディオサンプル0〜399)に関連し、(左側のゼロ部分622に対応する)G.718合成窓920の左側のゼロ部分は、第1のフレーム922の始めで、複数の、例えば、およそ50個のサンプルをカバーする。したがって、第1のG.718合成窓のゼロ以外の部分は、およそ、サンプル50からサンプル399まで及ぶ。第2のG.718合成窓930は、第2のオーディオフレーム932と関連し、オーディオサンプル200からオーディオサンプル599まで及ぶ。図に示すように、第2のG.718合成窓930の左側ゼロ部分は、サンプル200〜249に及び、従って、第2のオーディオフレーム932の始めで、複数の、例えば、およそ50サンプルをカバーする。第2のG.718合成窓930のゼロ以外の領域は、サンプル250からサンプル599まで及ぶ。図に示すように、第1のG.718合成窓および第2のG.718合成窓930のゼロ以外の領域の間に、サンプル250からサンプル399までのオーバーラップ領域がある。追加のG.718合成窓は、図9で示すように、均一に間隔を置かれる。
3.2.サイン窓およびACELPのシーケンス
図10は、サイン窓(実線)およびACELP(正方形という特徴がある線)のシーケンスのグラフ表現を示す。図に示すように、第1の変換領域フレーム1012は、サンプル0〜399に及び、第2の変換領域オーディオフレーム1022は、サンプル200〜599に及び、サンプル500と700の間のゼロ以外の値を有する、第1のACELPオーディオフレーム1032は、サンプル400〜799に及び、ンプル700と900間のゼロ以外の値を有する、第2のACELPオーディオフレーム1042は、サンプル600からサンプル999まで及び、第3の変換領域オーディオフレーム1052は、サンプル800からサンプル1199まで及び、第4の変換領域オーディオフレーム1062は、サンプル1000からサンプル1399まで及ぶ。図に示すように、第2の変換領域オーディオフレーム1022および第1のACELPオーディオフレーム1032のゼロ以外の部分の間(サンプル500および600との間)に時間的オーバーラップがある。同様に、第2のACELPオーディオフレーム1042のゼロ以外の部分および第3の変換領域オーディオフレーム1052の間(サンプル800および900との間)にオーバーラップがある。
前方向エイリアシング除去信号1070(点線で示され、短く言えばFACで表される)は、第2の変換領域オーディオフレーム1022から第1のACELPオーディオフレーム1032への遷移で、更には、第2のACELPオーディオフレーム1042から第3の変換領域オーディオフレーム1052への遷移で供給される。
図10から分かるように、それら遷移は、点線で示される前方向エイリアシング除去1070、1072(FAC)を用いて、完全な再構成(または、少なくともおよそ完全な再構成)を可能にする。前方向エイリアシング除去窓1070、1072の形状が、ただの説明図であって、正しい値を反映しない点に留意する必要がある。対称な窓(例えばサイン窓)に関して、このテクニックは、MPEG統合音声音響符号化(USAC)においても使用されるテクニックと類似している、または同一でさえある。
3.3.モード遷移の窓掛け−第1のオプション
以下に、変換領域モードで符号化されたオーディオフレームおよびACELPモードで符号化されたオーディオフレーム間の遷移のための第1のオプションは、図11および図12を参照して説明される。
図11は、低遅延統合音声音響符号化(USAC)のための第1のオプションによる窓掛けの略図を示す。図11は、G.718分析窓(実線)、ACELP(正方形という特徴がある線)および前方向エイリアシング除去(点線)のシーケンスのグラフ表現を示す。
図11において、横座標1110は、(時間領域)オーディオサンプルに関する時間を示し、縦座標1112は、正規化窓値を示す。変換領域モードで符号化される第1のオーディオフレームは、サンプル0〜399に及び、参照番号1122で示される。変換領域モードで符号化され、サンプル200〜599に及ぶ第2のオーディオフレームは、1132で示される。ACELPモードで符号化される第3のオーディオフレームは、オーディオサンプル400〜799に及び、1142で示される。ACELPモードでも符号化され、サンプル600〜999に及ぶ第4のオーディオフレームは、1152で示される。オーディオサンプル800〜1199に及ぶ第5のオーディオフレームは、変換領域モードで符号化されて、1162で示される。変換領域モードで符号化され、オーディオサンプル1000〜1399に及ぶ第6のオーディオフレームは、1172で示される。
図に示すように、第1のオーディオフレーム1122のオーディオサンプルは、例えば、図5に示されたG.718分析窓520と同一でありうるG.718分析窓1120を使用して、窓を掛けられる。同様に、第2のオーディオフレーム1132のオーディオサンプル(時間領域サンプル)は、図11に示すように、サンプル200と350との間にG.718分析窓1120を有するゼロ以外のオーバーラップ領域を含むG.718分析窓1130を使用して窓を掛けられる。オーディオフレーム1142のために、500および700間のサンプルインデックスを有するオーディオサンプルのブロックは、ACELPモードで符号化される。しかし、400および500間に、更には700および800間にサンプルインデックスを有するオーディオサンプルは、第3のオーディオフレーム1142に関連したACELPパラメータ(代数符号励振情報および線形予測領域パラメータ情報)において考慮されない。このように、第3のオーディオフレーム1142に関連したACELP情報(代数符号励振情報144および線形予測領域パラメータ情報146)は、500および700間にサンプルインデックスを有するオーディオサンプルの再構成を単に可能にするだけである。同様に、700および900間のサンプルインデックスを有するオーディオサンプルのブロックは、第4のオーディオフレーム1152に関連したACELP情報で符号化される。換言すれば、ACELPモードで符号化されるオーディオフレーム1142、1152のために、各オーディオフレーム1142、1152の中央に、オーディオサンプルの時間的に限定されたブロックだけが、ACELP符号化において考慮される。対照的に、拡張した左側ゼロ部分(例えば約100サンプル)および拡張した右側ゼロ部分(例えば約100のサンプル)は、ACELPモードで符号化されたオーディオフレームのためのACELP符号化において考慮されないままにされる。このように、オーディオフレームのACELP符号化が、約200のゼロ以外の時間領域サンプル(例えば、第3のフレーム1142のためのサンプル500〜700および第4のフレーム1152のためのサンプル700〜900)を符号化する点に留意する必要がある。対照的に、多数のゼロ以外のオーディオサンプルは、変換領域モードにおいて、オーディオフレームごとに符号化される。例えば、約350個のオーディオサンプルは、変換領域モードで符号化されたオーディオフレームのために符号化される(例えば第1のオーディオフレーム1122のためのオーディオサンプル0〜349および第2のオーディオフレーム1132のためのオーディオサンプル200〜549)。さらに、G.718分析窓1160は、第5のオーディオフレーム1162の変換領域符号化のために時間領域サンプルに窓を掛けるように適用される。G.718分析窓1170は、第6のオーディオフレーム1172の変換領域符号化のために時間領域サンプルに窓を掛けるように適用される。
図に示すように、G.718分析窓1130の右側遷移スロープ(ゼロ以外の部分)は、第3のオーディオフレーム1142のために符号化された(ゼロ以外の)オーディオサンプルのブロック1140と時間的にオーバーラップする。しかし、G.718窓1130の右側遷移スロープが、次のG.718分析窓の左側遷移スロープとオーバーラップしないことは、結果として時間領域エイリアシング成分の発生に結びつく。しかし、この種の時間領域エイリアシング成分は、前方向エイリアシング除去窓掛け(FAC窓1136)を使用して測定されて、エイリアシング除去情報164の形で符号化される。換言すれば、変換領域モードで符号化されたオーディオフレームおよびACELPモードで符号化された次のオーディオフレームからの遷移で現れる時間領域エイリアシングは、FAC窓1136を使用して測定され、エイリアシング除去情報164を得るために符号化される。FAC窓1136は、誤差計算172において、または、オーディオ信号符号器100の誤差符号化174において適用されうる。このように、エイリアシング除去情報164は、符号化された形で、第2のオーディオフレーム1132から第3のオーディオフレーム1142への遷移で現れるエイリアシングを示すことができる。ここで、前方向エイリアシング除去窓1136は、エイリアシング(例えばオーディオ信号符号器において得られたエイリアシングの推定値)に重み付けするために使用されることができる。
同様に、エイリアシングは、ACELPモードで符号化された第4のオーディオフレーム1152から変換領域モードで符号化された第5のオーディオフレーム1162への遷移で現れうる。しかし、G.718分析窓1162の左側遷移部分が、前のG.718分析窓の右側遷移スロープとオーバーラップしないが、むしろACELPモードで符号化された時間領域オーディオサンプルのブロックとオーバーラップすることによって生じるこの遷移のエイリアシングは、エイリアシング除去情報164を得るために、(例えば、合成結果計算170および誤差計算172を使用して)測定され、例えば、誤差符号化174を使用して、符号化される。エイリアシング信号の符号化174において、前方向エイリアシング除去窓1156は、適用されうる。
要約すると、エイリアシング除去情報は、第2のフレーム1132から第3のフレーム1142への遷移で、更に、第4のフレーム1152から第5のフレーム1162への遷移で選択的に供給される。
更に要約すると、図11は、低遅延統合音声音響符号化のための第1のオプションを示す。図11は、G.718分析窓(実線)、ACELP(正方形という特徴がある線)およびFAC(点線)のシーケンスを示す。G.718窓のような非対称の窓に関して、FACとの組み合わせが従来の構想に関して重要な改良をもたらすことを分かった。特に、符号化遅延、オーディオ品質および符号化効率の間のより良いトレードオフが達成される。
図12は、図11に記載の構想に対応する合成のためのシーケンスのグラフ表現を示す。換言すれば、図12は、図3に記載のオーディオ信号復号器300において使用されることができるフレーミングおよび窓掛けのグラフ表現を示す。
横座標1210は、(時間領域)オーディオサンプルに関する時間を示し、縦座標1212は、正規化窓値を示す。変換領域モードで符号化される第1のオーディオフレーム1222は、オーディオサンプル0〜399に及び、変換領域モードで符号化される第2のオーディオフレーム1232は、オーディオサンプル200〜599に及び、ACELPモードで符号化される第3のオーディオフレーム1242は、オーディオサンプル400〜799に及び、ACELPモードで符号化される第4のオーディオフレーム1252は、オーディオサンプル600〜999に及び、変換領域モードで符号化される第5のオーディオフレーム1262は、オーディオサンプル800〜1199に及び、そして、変換領域モードで符号化される第6のオーディオフレーム1272は、オーディオサンプル1000〜1399に及ぶ。周波数領域−時間領域変換423、451、484によって第1のオーディオフレーム1222のために供給されたオーディオサンプルは、図6に記載のG.718合成窓620と同一でありえる第1のG.718合成窓1220を使用して、窓を掛けられる。同様に、第2のオーディオフレーム1232のために供給されたオーディオサンプルは、G.718合成窓1230を使用して窓を掛けられる。したがって、0および399間のオーディオサンプルインデックスを有するオーディオサンプル、または、より正確に言うと、50および399との間にオーディオサンプルインデックスを有するゼロ以外のオーディオサンプルは、第1のオーディオフレーム1222に関して(すなわち、第1のオーディオフレーム1222に関連したスペクトル係数322のセットおよび第1のオーディオフレーム1222に関連したノイズシェーピング情報324に基づいて)供給される。同様に、200および599間のオーディオサンプルインデックスを有するオーディオサンプルは、第2のオーディオフレーム1232(250および599間のサンプルインデックスを有するゼロ以外のオーディオサンプルによって)のために供給される。このように、第1のオーディオフレーム1222のために供給された(ゼロ以外の)オーディオサンプル間、および、第2のオーディオフレーム1232を供給された(ゼロ以外の)オーディオサンプル間に時間的オーバーラップがある。第1のオーディオフレーム1222のために供給されたオーディオサンプルは、第2のオーディオフレーム1232のために供給されたオーディオサンプルによってオーバーラップ加算され、このことによりエイリアシングを除去する。しかし、(第2のオーディオフレーム1232のために供給される)200および599間のオーディオサンプルインデックスを有するオーディオサンプルは、第2のG.718合成窓1230を使用して、窓を掛けられる。一般的にはACELP符号化のためであるが、ACELPモードで符号化される第3のオーディオフレーム1242のために、(ゼロでない)時間領域オーディオサンプルは、限られたブロック1240の範囲にだけ供給される。しかし、第2のオーディオフレーム1232を供給され、G.718合成窓1230の右側遷移スロープを使用して窓を掛けた時間領域サンプルは、(ゼロでない)時間領域サンプルがACELPパス340によって供給されるブロック1240によって定められた時間領域に及ぶ。しかし、ACELPパス340によって供給された時間領域サンプルは、G.718合成窓1230の右窓半分の範囲内でエイリアシングを除去するのに十分でない。しかし、エイリアシング除去信号は、変換領域モードで符号化された第2のフレーム1232からACELPモードで符号化された第3のオーディオフレーム1242への遷移で(すなわち、サンプル400からサンプル599まで及ぶ第2のオーディオフレーム1232および第3のオーディオフレーム1242間のオーバーラップ領域の範囲内で、または、少なくとも前記オーバーラップ領域の部分の範囲内で)エイリアシングを除去して供給される。エイリアシング除去信号は、符号化されたオーディオコンテンツを示しているビットストリームから抽出されうるエイリアシング除去情報362に基づいて供給される。エイリアシング除去情報は、復号され(ステップ370)、エイリアシング除去信号は、復号化エイリアシング除去情報362に基づいて再構成される(ステップ372)。前方向エイリアシング除去窓1236は、エイリアシング除去信号364の再構成において適用される。したがって、エイリアシング除去は、変換領域モードで符号化された第2のオーディオフレーム1232およびACELPモードで符号化された第3のオーディオフレーム1242間の遷移でのエイリアシングを低減する、または取り除きさえする。エイリアシングが変換領域で符号化された次のオーディオフレームの(窓を掛けた)時間領域サンプルによって(遷移の非存在下で)通常除去される。
第4のオーディオフレーム1252は、ACELPモードで符号化される。したがって、時間領域サンプルのブロック1250は、第4のオーディオフレーム1252のために供給される。しかし、ゼロ以外のオーディオサンプルがACELPブランチ340によって第4のオーディオフレーム1252の中心部のために供給されるだけである点に留意する必要がある。加えて、拡張した左側ゼロ部分(オーディオサンプル600〜700)および拡張した右側ゼロ部分(オーディオサンプル900〜1000)は、第4のオーディオフレーム1152のためのACELPパスによって供給される。
第5のオーディオフレーム1262のために供給された時間領域表現は、G.718合成窓1260を使用して窓を掛けられる。G.718合成窓1260の左側ゼロ以外の部分(遷移スロープ)は、ゼロ以外のオーディオサンプルが第4のオーディオフレーム1252のためのACELPパス340によって供給される時間部分と時間的にオーバーラップする。このように、第4のオーディオフレーム1252のためのACELPパス340によって供給されたオーディオサンプルは、第5のオーディオフレーム1262のための変換領域パスによって供給されたオーディオサンプルによってオーバーラップ加算される。
加えて、エイリアシング除去信号364は、エイリアシング除去情報362に基づいて、エイリアシング除去信号供給器360によって、第4のオーディオフレーム1252から第5のオーディオフレーム1262(例えば、第4のオーディオフレーム1252および第5のオーディオフレーム1262間の時間的オーバーラップの間)への遷移で供給される。エイリアシング除去信号の再構成において、エイリアシング除去窓1256は、適用されうる。したがって、エイリアシング除去信号364は、第4のオーディオフレーム1252の、そして、第5のオーディオフレーム1262の時間領域サンプルをオーバーラップ加算する可能性を維持すると共に、エイリアシングを除去するようにうまく適合される。
3.4.モード遷移の窓掛け−第2のオプション
以下に、様々なモードで符号化されたオーディオフレーム間の遷移の修正された窓掛けについて説明する。
図13および図14に記載の窓掛け方式が変換領域モードからACELPモードへの遷移における図11および図12に記載の窓掛け方式と同一である点に留意する必要がある。しかし、図13および図14に記載の窓掛け方式は、ACELPモードから変換領域モードへの遷移では、図11および図12に記載の窓掛け方式とは異なる。
図13は、低遅延統合音声音響符号化のための第2のオプションのグラフ表現を示す。図13は、G.718分析窓(実線)、ACELP(正方形という特徴がある線)および前方向エイリアシング除去(点線)のシーケンスのグラフ表現を示す。
前方向エイリアシング除去は、変換コーダからACELPへの遷移にのみ使用される。ACELPから変換符号器への遷移のために、長方形の窓形状は、変換符号化モードへの遷移窓の左側に使用される。
ここで図13を参照して、横座標1310は、時間領域オーディオサンプルに関する時間を示し、縦座標1312は、正規化窓値を示す。第1のオーディオフレーム1322は、変換領域モードで符号化され、第2のオーディオフレーム1332は、変換領域モードで符号化され、第3のオーディオフレーム1342は、ACELPモードで符号化され、第4のオーディオフレーム1352は、ACELPモードで符号化され、第5のオーディオフレーム1362は、変換領域モードで符号化され、そして、第6のオーディオフレーム1372は、同様に変換領域モードで符号化される。
第1のフレーム1322の、第2のフレーム1332の、そして、第3のフレーム1342の符号化が、図11に関して説明された第1のフレーム1122の、第2のフレーム1132の、そして、第3のフレーム1142の符号化と同一である点に留意する必要がある。しかし、図13に示すように、第4のオーディオフレーム1352の中心部1350のオーディオサンプルが、ACELPブランチ140だけを使用して符号化される点に留意する必要がある。換言すれば、700および900間のサンプルインデックスを有する時間領域サンプルは、第4のオーディオフレーム1352のACELP情報144、146の供給のために考慮される。第5のオーディオフレーム1362と関連した変換領域情報124、126の供給のために、専用の遷移分析窓1360は、(例えば、窓掛け221、263、283のための)時間領域−周波数領域変換器130において適用される。したがって、ACELP符号化モードから変換領域符号化モードへの遷移の前の第4のオーディオフレーム1352を符号化するときに、ACELPパス140によって符号化される時間領域サンプルは、変換領域パス120を使用して第5のオーディオフレーム1362を符号化するときに、考慮に入れないままにされる。
専用の遷移分析窓1360は、(いくつかの実施形態では、ステップ増加でありえ、そして、いくつかの他の実施形態では、非常に急な増加でありえる)左側遷移スロープと、一定の(ゼロでない)窓部分と、右側遷移スロープとを含む。しかし、専用の遷移分析窓1360は、オーバーシュート部分を含まない。むしろ、専用の遷移分析窓1360の窓値は、G.718分析窓の1の窓中心値に制限される。また、専用の遷移分析窓1360の右窓半分または右側遷移スロープが、他のG.718分析窓の右窓半分または右側遷移スロープと同一でありえることも留意すべきである。
第5のオーディオフレーム1362に続く第6のオーディオフレーム1372は、第1のオーディオフレーム1322および第2のオーディオフレーム1332の窓掛けのための使用されるG.718分析窓1320、1330と同一であるG.718分析窓1370を使用して窓を掛けられる。特に、G.718分析窓1370の左側遷移スロープは、専用の遷移分析窓1360の右側遷移スロープと時間的にオーバーラップする。
上記を要約すると、専用の変移窓1360は、ACELP領域に符号化された前のオーディオフレームに続く変換領域で符号化されたオーディオフレームの窓掛けのために適用される。この場合、ACELP領域で符号化された前のフレーム1352のオーディオサンプル(例えば700および900間のサンプルインデックスを有するオーディオサンプル)は、専用の遷移分析窓1360の形状のため、変換領域に符号化された次のフレーム1362の符号化を考慮に入れないままにされる。この目的のために、専用の遷移分析窓1360は、ACELPモードで符号化されたオーディオサンプルのための(例えば、ACELPブロック1350のオーディオサンプルのための)ゼロ部分を含む。
したがって、ACELPモードから変換領域モードへの遷移でのエイリアシングはない。しかし、専用の窓種類、すなわち、専用の遷移分析窓1360は、適用されなければならない。
ここで、図14を参照して、図13に関して述べられた符号化構想に適合される復号化構想は説明される。
図14は、図13による分析に対応する合成のためのシーケンスのグラフ表現を示す。換言すれば、図14は、図3によるオーディオ信号復号器300において使用されうる合成窓のシーケンスのグラフ表現を示す。横座標1410は、オーディオサンプルに関する時間を示し、縦座標1412は、正規化窓値を示す。第1のオーディオフレーム1422は、変換領域モードで符号化され、G.718合成窓1420を使用して復号され、第2のオーディオフレーム1432は、変換領域モードで符号化され、G.718合成窓1430を使用して復号され、第3のオーディオフレーム1442は、ACELPモードで符号化され、ACELPブロック1440を得るために復号され、第4のオーディオフレーム1452は、ACELPモードで符号化され、ACELPブロック1450を得るために復号され、第5のオーディオフレーム1462は、変換領域モードで符号化され、専用の遷移合成窓1460を使用して復号され、そして、第6のオーディオフレーム1472は、変換領域モードで符号化され、G.718合成窓1470を使用して復号される。
第1のオーディオフレーム1422の、第2のオーディオフレーム1432の、そして、第3のオーディオフレーム1442の復号化が、図12に関して説明されたオーディオフレーム1222、1232、1242の復号化と同一である点に留意する必要がある。しかし、ACELPモードで符号化された第4のオーディオフレーム1452から変換領域モードで符号化された第5のオーディオフレーム1462への遷移の復号化は、異なる。
専用の遷移合成窓1460は、専用の遷移合成窓1460が、ACELPパス340によって与えられる(ゼロでない)オーディオサンプルのためにゼロ値をとるように、専用の遷移合成窓1460の左窓半分が構成されるという点で、G.718合成窓1260と異なる。換言すれば、専用の遷移合成窓1460は、ゼロ値を含み、その結果、変換領域パス320は、ACELPパスがゼロ時間領域サンプルを(すなわちブロック1450に)供給するサンプル時間インスタンスに、ゼロ時間領域サンプルを供給するだけである。したがって、オーディオフレーム1452のためのACELPパスによって供給された(ゼロでない)時間領域サンプル(ゼロ以外の時間領域サンプル1450のブロック)およびオーディオフレーム1462のための変換領域パス320によって供給された時間領域サンプル間のオーバーラップは、回避される。
さらに、左側ゼロ部分(サンプル800〜899)に加えて、専用の遷移合成窓1460は、窓値が(例えば、1の)中心窓値をとる左側の一定の部分(サンプル900〜999)を含む点に留意する必要がある。したがって、エイリアシングアーチファクトは、専用の遷移合成窓260の左側部分で、回避される、または少なくとも低減される。好ましくは、専用の遷移合成窓1460の右側の窓半分は、G.718合成窓の右側の窓半分と同一である。
上記を要約すると、専用の遷移合成窓260は、変換領域モードで符号化され、ACELPモードで符号化された前のオーディオフレームに続くオーディオフレームのための変換領域パス320を使用して、変換領域モードで符号化されたオーディオコンテンツの部分の時間領域表現326を供給するときに、窓掛け424、452、485に使用される。専用の遷移合成窓1460は、例えば、窓の左半分(サンプル800〜899)の50%を形成しうる左側ゼロ部分、および専用の遷移合成窓1460(サンプル900〜999)の左半分の残りの50%(+/−1のサンプル)を形成しうる左側の一定の部分を含む。専用の遷移合成窓1460の右半分は、G.718合成窓の右半分と同一でありえ、オーバーシュート部分および右側遷移スロープを含みうる。したがって、ACELPモードで符号化されたフレーム1452および変換領域モードで符号化されたフレーム1462間のエイリアシングのない遷移が得られうる。
更にまとめると、図13は、低遅延統合音声音響符号化のための第2のオプションを示す。図13は、G.718分析窓(実線)、ACELP(正方形という特徴がある線)および前方向エイリアシング除去(点線)のシーケンスのグラフ表現を示す。前方向エイリアシング除去は、変換コーダ(変換領域パス)からACELP(ACELPパス)への遷移にだけ使用される。ACELPから変換コーダへの遷移のために、方形の(またはステップ状の)窓形状(例えばサンプル800〜999)は、変換符号化モードへの遷移窓1360の左側に使用される。
図14は、図13の分析に対応する合成のためのシーケンスのグラフ表現を示す。
3.5.オプションに関する議論
両方のオプション(すなわち図11および図12によるオプションと、図13および図14によるオプション)が、低遅延統合音声音響符号化の開発において、現在考えられる。(図11および図12による)第1のオプションは、より良い周波数応答を有する同じ窓が変換符号化の全てのブロックに使用されるという利点がある。しかし、不利な点は、追加データ(例えば前方向エイリアシング除去情報)がFAC部分のために符号化されなければならないということである。
第2のオプションは、追加データがACELPから変換コーダへの遷移の前方向エイリアシング除去(FAC)に必要とならないという利点がある。これは、特に一定のビットレートが必要である場合に利点がある。しかし、不利な点は、遷移窓(1360または1460)の周波数応答が通常の窓(1320,1330,1370;1420,1430,1470)のそれより悪いということである。
3.6.モード遷移の窓掛け−第3のオプション
以下に、他のオプションについて述べる。第3のオプションは、ACELPへの変換コーダの遷移にも長方形窓を使用することである。しかし、変換コーダおよびACELP間の決定が、1フレーム前に知られていなければならないので、この第3のオプションによって付加的な遅延が生じる。このように、このオプションは、低遅延統合音声音響符号化には最適でない。にもかかわらず、第3のオプションは、遅延がそれほど関連がないいくつかの実施形態において使用されることができる。
4.他の実施形態
4.1.概要
以下に、低遅延を有する統合音声音響符号化(USAC)のための他の新しい符号化方式について説明する。具体的には、それは、周波数領域符復号化AAC―ELDと時間領域符復号化AMR−WBまたはAMR−WB+との間の切り替えに基づきうる。システム(または、本発明による実施形態)は、オーディオ符復号器およびオーディオ符復号化との間の内容に依存した切り替えの効果を維持し、その一方で、遅延を通信応用のために十分に低く保つ。AAC―ELDにおいて使用された低遅延フィルタバンク(LD―MDCT)は、遷移窓によって利用されて、訂正される。そして、それは、AAC―ELDと比較していかなる付加的な遅延も生じさせずに、時間領域符復号化へ/からクロスフェードを可能にする。
以下において説明された構想が図1によるオーディオ信号符号器100において、および/または、図3によるオーディオ信号復号器300において使用されることができる点に留意する必要がある。
4.2.参照実施例1:統合音声音響符号化(USAC)
いわゆるUSAC符復号化は、音楽モードおよび音声モードとの間に切り替えを可能にする。音楽モードにおいて、先進的音響符号化(AAC)と同様のMDCTベースのコーデックが利用される。音声モードにおいて、アダプティブ・マルチ・レート・ワイドバンド+(AMR−WB+)と同様の符復号化が利用され、それは、USAC符復号化の「LPD−モード」と呼ばれている。以下で説明するように、2つのモード間で滑らかで効率的な遷移を可能にするためには特別な注意が払われる。
以下に、AACからAMR−WB+への遷移のための構想について説明される。この構想を使用して、右側の時間領域エイリアシングなしであるが、AMR−WB+に切り替える前の最後のフレームは、先進的音響符号化(AAC)の「開始」窓と同様の窓によって窓を掛けられる。64サンプルの遷移領域は利用できる。ここで、AAC符号化されたサンプルがAMR−WB+符号化されたサンプルにクロスフェードされる。これを図15に示す。図15は、統合音声音響符号化におけるAACからAMR−WB+への遷移で使用された窓のグラフ表現を示す。横座標1510は、時間を示し、縦座標1512は、窓値を示す。詳細は、図15を参照されたい。
以下に、AMR−WB+からAACへの遷移のための構想について、簡潔に説明する。先進的音響符号化(AAC)へ切り替わるときに、第1のAACフレームは、AACの「停止」窓と同じ窓によって窓を掛けられる。このようにして、時間領域エイリアシングは、クロスフェード範囲に生じて、それは、時間領域符号化AMR−WB+信号において、対応するネガティブ時間領域エイリアシングを意図的に付け加えることによって除去される。これは、AMR−WB+からAACへの遷移のための構想のグラフ表現を示す図16に示される。横座標1610は、オーディオサンプルに関する時間を示し、縦座標1612は、窓値を示す。詳しくは、図16を参照されたい。
4.3.参照実施形態2:MPEG―4
超低遅延AAC(AAC―ELD)いわゆる「超低遅延AAC」(更に短く言えば「AAC―ELD」、または「超低遅延先進的音響符号化」と表される)符復号化は、「LD―MDCT」とも呼ばれている、変形離散コサイン変換(MDCT)の特別な低遅延特色に基づく。LD―MDCTにおいて、MDCTのための2のファクターの代わりに、オーバーラップは、4のファクターまで拡張される。これは、オーバーラップが非対称方法で付け加えられ、それが過去からサンプルを利用するだけであるので、付加的な遅延なしで達成される。一方では、将来に対する先読み(look−ahead)は、分析窓の右側のいくつかのゼロ値によって低減される。分析および合成窓は、図17および図18において示される。図17は、AAC―ELDのLD―MDCTの分析窓のグラフ表現を示し、図18は、AAC―ELDのLD―MDCTの合成窓のグラフ表現を示す。図17において、横座標1710は、オーディオサンプルに関する時間を示し、縦座標1712は、窓値を示す。線1720は、分析窓の窓値を示す。図18において、横座標1810は、オーディオサンプルに関する時間を示し、縦座標1812は、窓値を示し、線1820は、合成窓を示す。
AAC―ELD符号化は、この窓だけを利用して、遅延を生じさせるであろう窓形状またはブロック長の切り替えを利用しない。この1つの窓(例えばオーディオ信号符号器の場合の図17による分析窓1720、およびオーディオ信号復号器の場合の図18による合成窓1820)は、定常および瞬間的信号の両方に関して、いかなる種類のオーディオ信号にもうまく機能する。
4.4.参照実施例に関する議論
以下に、セクション4.2および4.3において説明された参考例に関する短い議論が提供される。
USAC符復号化は、オーディオ符復号器およびスピーチ符復号化との間に切り替えを可能にするが、この切り替えは遅延を生じさせる。音声モードへの遷移を実行するのに必要な遷移窓があるので、先読みは、続くフレームが音声のようなものであるかを測定するために必要である。もしそうなら、現在のフレームは、遷移窓によって窓を掛けられなければならない。このように、この構想は、低遅延を有する符号化システムに適切ではなく、それは通信アプリケーションのために必要である。
AAC―ELD符復号化は、通信アプリケーションのために低遅延を可能にするが、低ビットレートで符号化された音声信号に関しては、この符復号化の性能は、同様に低遅延を有する専用の音声符復号化(例えばAMR−WB)のそれより遅れる。
従って、この状況からみて、音声および音楽信号が利用できる最も効率的な符号化モードがあるために、AAC―ELDと音声符復号化との間で切り替わることが望ましいことが分かっている。
この切り替えがシステムにいかなる付加的な遅延も理想的に付加しないべきであることも分かった。AAC―ELDにおいて用いられているように、LD―MDCTのために、音声符復号化へのこの種の切り替えが直接の方法で可能でないことが分かった。音声セグメントのLD―MDCT窓によってカバーされた全ての時間領域部を符号化する解決法が、LD―MDCTの4倍の(4×)オーバーラップによって、結果として巨大なオーバーヘッドになることをも分かった。周波数領域符号化されたサンプル(例えば512の周波数値)の1つのフレームを交換するために、4×512の時間領域サンプルは、時間領域符号器において符号化されなければならない。
この状況を考慮して、符号化効率、遅延およびオーディオ品質の間のより良いトレードオフを供給する構想を生み出したいという要望がある。
4.5.図19〜図23bに記載の窓掛け構想
以下に、AAC―ELDおよび時間領域符復号化との間に効率的なおよび遅延のない切り替えを可能にする本発明の実施形態によるアプローチについて説明する。
このセクションで示される提案されたアプローチにおいて、AAC―ELDのLD―MDCTは、例えば、時間領域−周波数領域変換器130、または、周波数領域−時間領域変換器330において、利用されて、いかなる付加的な遅延も生じさせずに、時間領域符復号化に効率的な切り替えを可能にする遷移窓によって変更される。
窓シーケンス例が図19に示される。図19は、AAC―ELDおよび時間領域符復号化との間の切り替えのための窓シーケンス例を示す。図19において、横座標1910は、オーディオサンプルに関して時間を示し、縦座標1912は、窓値を示す。曲線の意味についての詳細に関しては、図19のキャプションを参照されたい。
例えば、図19は、LD―MDCT分析窓1920a〜1920e、LD―MDCT合成窓1930a〜1930e、時間領域符号化された信号のための重み付け1940および時間領域信号の時間領域エイリアシングのための重み付け1950a、1950bを示す。
以下に、分析窓掛けに関する詳細について、説明する。分析窓のシーケンスを更に説明するために、図20は、合成窓のない同じシーケンス(または窓シーケンス)(例えば、同じ窓シーケンスが図19に示される)を示す。横座標2010は、オーディオサンプルに関する時間を示し、縦座標2012は、窓値を示す。換言すれば、図20は、AAC―ELDおよび時間領域符復号化との間の切り替えのための分析窓シーケンス例を示す。線の意味についての詳細に関しては、図20のキャプションを参照されたい。
図20は、LD―MDCT分析窓2020a〜2020e、時間領域符号化された信号のための重み付け2040、および時間領域信号の時間領域エイリアシングのための重み付け2050a、2050bを示す。
図20において、そのシーケンスが、時間領域符復号化が占有する点まで(図17に示すような)通常のLD―MDCT窓2020a、2020bからなることが分かる。AAC―ELDから時間領域符復号化への遷移のために必要な特別な遷移窓がない。このように、先読みは、時間領域符復号化へ切り替える決定に必要でなく、したがって、付加的な遅延は、必要でない。
時間領域符復号化からAAC―ELDへの遷移において、必要とされた特別な遷移窓2020cがあるが、(時間領域符号化された信号のための重み付け2040によって示された)時間領域符号化された信号とオーバーラップするこの窓の左部分だけが、通常のAAC―ELD窓2020a、2020b、2020d、2020eと異なる。この遷移窓2020cは、図21aに示され、図21bの通常のAAC―ELD分析窓と比較される。
図21aは、時間領域符復号化からAAC―ELDへの遷移のための分析窓2020cのグラフ表現を示す。横座標2110は、オーディオサンプルに関して時間を示し、縦座標2112は、窓値を示す。
線2120は、窓の中の位置の関数として、分析窓2020cの窓値を示す。
図21bは、通常のAAC―ELD分析窓2020a、2020b、2020d、2020e、2170(破線)と比較して、時間領域符復号化からAAC―ELD(実線)への遷移のための分析窓2020c、2120のグラフ表現を示す。横座標2160は、オーディオサンプルに関して時間を示し、縦座標2162は、(正規化)窓値を示す。
図20の分析窓のシーケンスのために、遷移窓2020cに続くすべての分析窓が、遷移窓2020cのゼロ以外の部分の残った入力サンプルを使用するというわけではない点に更に留意される必要がある。これらの窓係数(または窓値)が、図20においてプロットされるが、実際の処理において、それらは入力信号に適用されない。遷移窓2020cのゼロ以外の部分の残った分析窓掛け入力バッファをゼロにすることによって達成する。
以下に、合成窓掛けに関する詳細について、説明する。合成窓掛けは、上記のオーディオ復号器に使用されることができる。合成窓掛けのための、図22は、対応するシーケンスを示す。そのシーケンスは、分析窓掛けの時間で反転されたバージョンに似ているように見えるが、遅延考慮のため、それは、ここで、いくつかの個々の記載に相当する。
換言すれば、図22は、AAC―ELDおよび時間領域符復号化との間に切り替えのための合成窓シーケンス例のグラフ表現を示す。線の意味についての詳細に関して、図22のキャプションを参照されたい。
図22において、横座標2210は、オーディオサンプルに関して時間を示し、縦座標2212は、窓値を示す。図22は、LD―MDCT合成窓2220a〜2220e、時間領域符号化された信号のための重み付け2240、および時間領域信号の時間領域エイリアシングのための重み付け2250a、2250bを示す。
AAC―ELDから時間領域符復号化へ切り替える前に、図23aにおいて詳細にプロットされる1つの遷移窓2220cがある。しかし、この遷移窓2220cは、復号器のいかなる付加的な遅延も生じさせない。完成されるオーバーラップ加算のための、逆LD―MDCTの時間領域出力の完全な再構成のための部分であるこの窓の左部分は、図23bから分かるように、(例えば、合成窓(2220a、2220b、2220d、2220e)の)通常のAAC―ELD合成窓の左部分と同一である。分析窓シーケンスと同様に、遷移窓2220cのゼロ以外の部分の見える右である遷移窓2220cに先行する合成窓2220a、2220bの部分が、実際、出力信号に関与しない点にもここで留意されなければならない。実際の実施態様において、これは、遷移窓2220cのゼロ以外の部分までちょうど、これらの窓の出力をゼロにすることによって達成される。
時間領域符復号化からAAC―ELDまで逆に切り替わるときに、特別な窓は必要でない。通常のAAC―ELD合成窓2220eは、AAC―ELD符号記号部のちょうど始まりから、使用されることができる。
図23aは、AAC―ELDから時間領域符復号化への遷移のための合成窓2220c、2320のグラフ表現を示す。図23aにおいて、横座標2310は、オーディオサンプルに関して時間を示し、縦座標2312は、窓値を示す。線2320は、理想的なサンプル位置の関数として、合成窓2220cの値を示す。
図23bは、通常のAAC―ELD合成窓2020a、2020b、2020d、2020e、2370(破線)と比較して、AAC―ELDから時間領域符復号化(実線)への遷移のための合成窓2220cのグラフ表現を示す。横座標2360は、オーディオサンプルに関して時間を示し、縦座標2362は、(正規化)窓値を示す。
以下に、時間領域符号記号の重み付けについて説明する。
図20(分析窓シーケンス)および図22(合成窓シーケンス)の両方に示されるが、時間領域符号化された信号の重み付けは、一回、そして、好ましくは時間領域符号化および復号化の後、すなわち復号器300において、適用されるだけである。しかしながら、代わりに、符号器において、すなわち時間領域符号化の前に、または、符号器および復号器の両方において、適用もされうる。その結果、結果として生じる全体の重み付けは、図19、図20および図22において使用された重み付け関数に対応する。
これらの図から、重み付け関数(ドットの付いた実線、線1940、2040、2240)によってカバーされた時間領域サンプルの全体の範囲が、入力サンプルの2つのフレームよりわずかに長いということが更に分かる。より正確に言うと、この例では、時間領域において符号化された2×N+0.5×Nサンプルは、LD―MDCTベースのコーデックによって符号化されていない(フレームごとにN個の新しい入力サンプルを有する)2つのフレームによって生じたギャップを埋めるために必要である。例えば、N=512である場合、2×512+256の時間領域サンプルは、2×512のスペクトル値の代わりに時間領域において符号化されなければならない。このように、半フレームだけのオーバーヘッドは、時間領域符復号化への切り替えおよび逆の切り替えによってもたらされる。
以下に、時間領域エイリアシングに関するいくつかの詳細について説明する。時間領域符復号化への遷移、および変換符復号化へ戻る遷移において、時間領域エイリアシングは、隣接したLD―MDCT符号化されたフレームによって生じさせられた時間領域エイリアシングを除去するために、意図的に生じさせられる。例えば、時間領域エイリアシングは、エイリアシング除去信号供給器360によって生じさせられうる。ドットの付いた、1950a、1950b、2050a、2050b、2250a、2250bで表される破線は、この演算のための重み付け関数を示す。時間領域符号化された信号は、この重み付け関数で乗算されて、それから、時間反転された方法で、窓を掛けた時間領域信号に加算される/信号から減算される。
4.6.図24に記載の窓掛け構想
以下に、遷移の長さの他の設計について、説明する。
図20の分析シーケンスおよび図22の合成シーケンスをより詳細に見てみて、遷移窓が必ずしも各々の時間反転されたバージョンでないことが分かる。合成遷移窓は、必ずしも各々の時間反転されたバージョンでない。合成遷移窓(図23a)は、分析遷移窓(図21a)より短いゼロ以外の部分を有する。分析および合成の両方のために、より短いバージョンだけでなく、より長いバージョンが可能で、それぞれに選択できる。しかし、それらは、いくつかの理由のため、(図20および図22に示すような)この方法で選択される。これに関して更に詳しく述べると、図24においてプロットされるように、両方のバージョンに関する選択が異なってなされる。
図24は、AAC―ELDおよび時間領域符復号化との間に窓シーケンス切り替えのための遷移窓の他の選択のグラフ表現を示す。図24において、横座標2410は、オーディオサンプルに関して時間を示し、縦座標2412は、窓値を示す。図24は、LD―MDCT分析窓2420a〜2420e、LD―MDCT合成窓2430a〜2430e、時間領域符号記号のための重み付け2440、および時間領域信号の時間領域エイリアシングのための重み付け2450a〜2450bを示す。線種についての詳細に関して、図24のキャプションを参照されたい。
図24に示されるこの変形例において、AAC―ELDから時間領域符復号化への遷移における時間領域エイリアシングのための重み付け関数が左まで及ぶことが分かる。これは、時間領域信号の付加的な部分が、ちょうど意図的な時間領域エイリアシング(または時間領域エイリアシング除去)のために必要であり、実際のクロスフェードのためには必要とされないことを意味する。これは、非効率的であり、不必要であると考えられる。従って、(図19に示すように)より短い合成遷移窓、および対応してより短い時間領域エイリアシング領域の代わりの方法は、AAC―ELDから時間領域符復号化への遷移に好ましい。
一方で、時間領域符復号化からAAC―ELDへの遷移に関して、(図19と比較して)図24におけるより短い分析遷移窓は、結果として、この窓のためのより悪い周波数応答になる。また、図19におけるより長い時間領域エイリアシング領域は、この遷移においては、時間領域符復号化によって符号化されるいかなる付加的なサンプルも、これらのサンプルがいずれにしろ時間領域符復号化から利用可能であるので、必要としない。従って、(図19のような)より長い遷移窓および対応してより長い時間領域エイリアシング領域の代わりの方法は、時間領域符復号化からAAC―ELDへの遷移に好ましい。
しかし、オーディオ符号器100またはオーディオ復号器300の図19の窓掛け方式のアプリケーションが、いくつかの効果をもたらすようである場合であっても、符号器100および復号器300のいくつかの実施形態で、図24に記載の窓掛け方式が適用されることができる点に留意する必要がある。
4.7.図25に記載の窓掛け構想
以下に、時間領域信号の別の窓掛け、および別のフレーミングについて説明する。
これまで記載においては、時間領域信号は、時間領域符号化および復号化を適用した後に、一度だけ窓を掛けられるように考慮される。この窓掛け処理はまた、2つの段階に分けられ、1つは時間領域符号化の前であり、1つは時間領域復号化の後である。これは、AAC―ELDから時間領域符復号化への遷移において、図25に示される。
図25は、時間領域信号の別の窓掛けおよび別のフレーミングのグラフ表現を示す。横座標2510は、オーディオサンプルに関して時間を示し、縦座標2512は、(正規化)窓値を示す。図25は、LD―MDCT分析窓値2520a〜2520e、LD―MDCT合成窓2530a〜2530d、時間領域符復号化の前の窓掛けのための分析窓2542、時間領域符復号化の後のTDAフォールディング/アンフォールディングおよび窓掛けのための合成窓2552、時間領域符復号化の後の第1のMDCTのための分析窓2562、および時間領域符復号化の後の第1のMDCTのための合成窓2572を示す。
図25はまた、時間領域符復号化のフレーミングのための代わりの方法を示す。時間領域符復号化において、すべてのフレームは、遷移における臨界サンプリングでないために、サンプルを抜かすことを補償する必要なしで、同じ長さを有することができる。しかし、MDCT―符復号化は、他のMDCTフレーム(線2562および2572)より多くのスペクトル値を有する時間領域符復号化の後の第1のMDCTを有することによって、それを補償することを必要とするかもしれない。
全体として、図25に示されるこの変形例は、統合音声音響符号化コーデック(USACコーデック)に非常に類似しているが、はるかに小さい遅延を有する。
この変形例の更に小さい修正は、ACELPからTCXへ移るときにAMR−WB+においてなされるように、長方形の遷移によって時間領域コーデックからAAC―ELD(線2542、2552、2562、2572)への窓を掛けた遷移を交換することである。「時間領域符復号化」としてAMR−WB+を使用しているコーデックにおいて、これは、ACELPフレームの後に、ACELPからAAC―ELDへの直接の遷移はないが、TCXフレームが常に間にあることも意味する。このようにして、この特定の遷移による潜在的付加的な遅延は除去され、全体のシステムは、AAC―ELDの遅延と同程度に小さい遅延を有する。さらにまた、これは、ACELPおよびTCXが、同じLPCフィルタリングを共有するので、音声状の信号の場合にはAAC―ELDへ戻る効率的な切り替えが、AAC―ELDからACELPへの切り替えよりも効率的であるので、切り替えを柔軟にする。
4.8.図26に記載の窓掛け構想
以下に、時間領域コーデックにTDA信号を進めて、臨界サンプリングを達成する変形例について説明する。
図26は、他の変化形を示す。より正確には、図26は、時間領域コーデックにTDA信号を進めて、このことにより臨界サンプリングを達成するための変形例を示す。図26において、横座標2610は、オーディオサンプルに関して時間を示し、縦座標2612は、(正規化)窓値を示す。図12は、LD―MDCT分析窓2620a〜2620e、LD―MDCT合成窓2630a〜2630e、時間領域符復号化の前の窓掛けおよびTDAのための分析窓2642a、および時間領域コーデックの後のTDAアンフォールディングおよび窓掛けのための合成窓2652aを示す。線についての詳細に関しては、図26のキャプションを参照されたい。
この変化形において、時間領域コーデックのための入力信号は、LD―MDCTとして同じ窓掛けおよびTDA機構によって処理され、時間領域エイリアシング信号は、時間領域コーデックに供給される。TDAを復号した後に、アンフォールディングおよび窓掛けは、時間領域コーデックの出力信号に適用される。
この変形例の利点は、臨界サンプリングが遷移において達成されるということである。不利な点は、時間領域コーデックが時間領域信号の代わりにTDA信号を符号化するということである。復号化されたTDA信号をアンフォールディングした後に、コーディング誤差はミラー化され、このようにプレエコーアーチファクトを引き起こしうる。
4.9.他の変形例
以下に、符号化および復号化の改良のために使用できるいくつかの更なる変形例について説明する。
MPEGにおいて現在開発中のUSACコーデックのために、AACおよびTCX部分の一体化に関する努力が、継続している。この一体化は、前方向エイリアシング除去(FAC)および周波数領域ノイズシェーピング(FDNS)の技術に基づく。これらの技術はまた、AAC―ELDの低遅延を保つと共に、コーデックのようなAAC―ELDおよびAMR−WB+との間の切り替えに関連して適用されることもできる。
この構想に関するいくつかの詳細は、図1〜図14に関して述べられる。
以下に、いくつかの実施形態において適用されうる、いわゆる「リフティング実装」について簡潔に述べられる。AAC―ELDのLD―MDCTは、効率的なリフティング構造に関して実施できる。ここで説明された遷移窓に関して、このリフティング実装はまた、利用でき、遷移窓は、単にリフティング係数のいくつかを省略することによって得られる。
5.可能な修正
上記の実施形態に関して、多くの修正が適用されることができる点に留意する必要がある。特に、異なる窓長は、要求事項に依存して選択されうる。また、窓のスケーリングは、修正されうる。当然、窓間のスケーリングは変換領域ブランチにあてはまった、そして、ACELPブランチにおいて適用される窓掛けは変わることができる。また、いくつかの前処理ステップおよび/または後処理ステップは、本発明の一般の構想を修正せずに、上記の処理ブロックの入力で、更に、上記の処理ブロックとの間に、生じさせられうる。当然、他の修正もまた、なされうる。
6.インプリメンテーション代替策
いくつかの態様が、装置に関連して説明されたが、これらの態様はまた、対応する方法の記載を示すことが明らかである。ここで、ブロックまたはデバイスは、方法ステップまたは方法ステップの機能に対応する。類似して、方法ステップに関連して説明された態様もまた、対応するブロックまたは項目の記載または対応する装置の機能を示す。方法ステップの部分または全ては、(例えば、マイクロプロセッサ、プログラミング可能なコンピュータまたは電子回路のような)ハードウェア装置によって(または使用して)実行されうる。いくつかの実施形態では、最も重要な方法ステップの1つまたはそれ以上は、この種の装置によって実行されうる。
発明の符号化されたオーディオ信号は、デジタル記憶媒体に格納されることができるかまたは伝送媒体(例えば無線伝送媒体または有線伝送媒体(例えばインターネット))で送信されることができる。
特定の実現要求に応じて、本発明の実施形態は、ハードウェアにおいて、または、ソフトウェアにおいて実施されることができる。その実施態様は、各方法が実行されるように、プログラミング可能な計算機システムと協動する(または協動することができる)、その上に格納される電子的に読み込み可能な制御信号を有するデジタル記憶媒体、例えばフロッピー(登録商標)ディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを使用して実行できる。従って、デジタル記憶媒体は、計算機可読でありえる。
本発明によるいくつかの実施形態は、本願明細書において説明された方法のうちの1つが実行されるように、プログラミング可能な計算機システムと協動できる、電子的に読み込み可能な制御信号を有するデータキャリアを含む。
通常、本発明の実施形態は、プログラムコードを有するコンピュータ・プログラム製品として実行でき、コンピュータ・プログラム製品が、コンピュータ上で動作するときに、プログラムコードは、その方法のうちの1つを実行するために働く。プログラムコードは、例えば、機械読み取り可読キャリアに格納されうる。
他の実施形態は、本願明細書において説明されて、機械読み取り可読キャリアに格納される方法のうちの1つを実行するためのコンピュータ・プログラムを含む。
従って、換言すれば、発明の方法の実施形態は、コンピュータ・プログラムがコンピュータ上で動作するときに、本願明細書において説明される方法のうちの1つを実行するためのプログラムコードを有するコンピュータ・プログラムである。
従って、発明の方法の更なる実施形態は、その上に記録されて、本願明細書において説明される方法のうちの1つを実行するためのコンピュータ・プログラムを含んでいるデータキャリア(またはデジタル記憶媒体またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、一般的に、有形であり、および/または、非過渡的(non−transitionary)である。
従って、発明の方法の更なる実施形態は、本願明細書において説明される方法のうちの1つを実行するためのコンピュータ・プログラムを示しているデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成されうる。
更なる実施形態は、本願明細書において説明された方法のうちの1つを実行するように構成される、または適合される、処理手段、例えばコンピュータまたはプログラム可能な論理回路を含む。
更なる実施形態は、その上に、本願明細書において説明される方法のうちの1つを実行するためのコンピュータ・プログラムをインストールしたコンピュータを含む。
本発明による更なる実施形態は、受信器に本願明細書において説明される方法のうちの1つを実行するためのコンピュータ・プログラムを(例えば、電子的に、または、光学的に)転送するように構成された装置またはシステムを含む。受信器は、例えば、コンピュータ、モバイル機器、記憶装置等でありえる。装置またはシステムは、例えば、コンピュータ・プログラムを受信器へ転送するためのファイルサーバを含みうる。
いくつかの実施形態では、プログラム可能な論理回路(例えば論理プログラミング可能デバイス)は、本願明細書において説明される方法の機能の部分または全てを実行するために使用されうる。いくつかの実施形態では、論理プログラミング可能デバイスは、本願明細書において説明される方法のうちの1つを実行するために、マイクロプロセッサと協動しうる。通常、その方法は、好ましくは、いかなるハードウェア装置によっても実行される。
上記した実施形態は、本発明の原理のために、単に示しているだけである。本装置および本願明細書において説明された詳細の修正変更が他の当業者にとって明らかであるものと理解される。従って、間近に迫った特許クレームの範囲だけによってのみ制限され、本願明細書において実施形態の記載および説明として示された具体的な詳細のみによっては制限されないという意図である。

Claims (27)

  1. オーディオコンテンツの入力表現(110)に基づいて、前記オーディオコンテンツの符号化表現(112)を供給するためのオーディオ信号符号器(100)であって、前記オーディオ信号符号器は、
    変換領域モードで符号化される前記オーディオコンテンツの部分の時間領域表現(122)に基づいて、スペクトル係数のセット(124)及びノイズシェーピング情報(126)を得るように構成され、
    その結果、前記スペクトル係数(124)が、前記オーディオコンテンツのノイズシェーピングされたバージョン(223a;262a;285a)のスペクトルを示す変換領域パス(120)であって、
    前記変換領域パス(120;200;230;260)は、前記オーディオコンテンツの時間領域表現(220a;280a)、またはその前処理されたバージョン(262a)に窓を掛けて、前記オーディオコンテンツの窓を掛けた表現(221a;263a;283a)を得て、前記オーディオコンテンツの前記窓を掛けた時間領域表現からスペクトル係数のセット(222a;264a;284a)を得るために、時間領域−周波数領域変換を適用するように構成された時間領域−周波数領域変換器(130;222;264;284)を含むことを特徴とする前記変換領域パス(120)と、
    符号励振線形予測領域モード(CELPモード)で符号化される前記オーディオコンテンツの部分に基づいて、符号励振情報(144)および線形予測領域パラメータ情報(146)を得るように構成された符号励振線形予測領域パス(CELPパス)(140)とを含み、
    前記時間領域−周波数領域変換器(130;221,222;263,264;283,284)は、前記オーディオコンテンツの現在の部分(1132;1332)の後に、前記変換領域モードで符号化される前記オーディオコンテンツの次の部分(1142;1342)が続く場合、および、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化される前記オーディオコンテンツの次の部分が続く場合の両方の場合に、前記変換領域モードで符号化され、前記変換領域モードで符号化された前記オーディオコンテンツの部分(1122;1322)の後に続く前記オーディオコンテンツの前記現在の部分の窓掛けのための既定の非対称の分析窓(520;1130;1330)を適用するように構成されること、および、
    前記オーディオ信号符号器は、前記オーディオコンテンツの前記現在の部分(1132;1332)の後に、前記CELPモードで符号化される前記オーディオコンテンツの次の部分(1142;1342)が続く場合、前記オーディオコンテンツの前記次の部分(1142;1342)の変換領域モード表現によって示されるエイリアシング除去信号成分を示すエイリアシング除去情報(164)を選択的に供給するように構成されることを特徴とするオーディオ信号符号器。
  2. 前記時間領域−周波数領域変換器(130;222;264;284)は、前記オーディオコンテンツの現在の部分(1132;1332)の後に、前記変換領域モードで符号化される前記オーディオコンテンツの次の部分(1142;1342)が続く場合、および、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化される前記オーディオコンテンツの次の部分が続く場合の両方の場合に、前記変換領域モードで符号化され、前記変換領域モードで符号化された前記オーディオコンテンツの前の部分(1122;1322)の後に続く前記オーディオコンテンツの前記現在の部分の窓掛けのための同じ窓(520,1130,1330)を適用するように構成されることを特徴とする請求項1に記載のオーディオ信号符号器(100)。
  3. 前記既定の非対称の分析窓(520,1130,1330)は、左窓半分と右窓半分を含み、
    前記左窓半分は、窓値が単調にゼロから窓中心値まで増加する左側の遷移スロープ(522)と、窓値が前記窓中心値より大きく、前記窓が最大値(524a)を含むオーバーシュート部分(524)とを含み、
    前記右窓半分は、窓値が単調に前記窓中心値からゼロまで減少する右側の遷移スロープ(528)と、右側のゼロ部分(530)を含むことを特徴とする請求項1または請求項2に記載のオーディオ信号符号器(100)。
  4. 前記左窓半分は、ゼロ窓値のわずか1パーセントしか含まず、
    前記右側のゼロ部分(530)は、前記右窓半分の窓値の少なくとも20%の範囲を含むことを特徴とする請求項3に記載のオーディオ信号符号器(100)。
  5. 前記既定の非対称の分析窓(520)の前記右窓半分の窓値は、前記窓中心値より小さく、その結果、オーバーシュート部分が、前記既定の非対称の分析窓の前記右窓半分にないことを特徴とする請求項3または請求項4に記載のオーディオ信号符号器(100)。
  6. 前記既定の非対称の分析窓(520)のゼロ以外の部分がフレーム長より少なくとも10%短いことを特徴とする請求項1〜請求項5のいずれか一項に記載のオーディオ信号符号器(100)。
  7. 前記オーディオ信号符号器は、前記変換領域モードで符号化される前記オーディオコンテンツの引き続く部分(1122,1132,1162,1172;1322,1332,1362,1372)が、少なくとも40%の時間的オーバーラップを含むように構成されること、および、
    前記オーディオ信号符号器は、前記変換領域モードで符号化される前記オーディオコンテンツの現在の部分(1132;1332)および前記符号励振線形予測領域モードで符号化される前記オーディオコンテンツの次の部分(1142;1342)が、時間的オーバーラップを含むように構成されること、および、
    前記オーディオ信号符号器は、前記エイリアシング除去情報が、オーディオ信号復号器(300)において、前記変換領域モードで符号化された前記オーディオコンテンツの部分(1232)から前記CELPモードで符号化された前記オーディオコンテンツの部分(1242)への遷移でのエイリアシングアーチファクトを除去するためのエイリアシング除去信号(364)の供給を可能にするように、選択的に前記エイリアシング除去情報(164)を供給するように構成されることを特徴とする請求項1〜請求項6のいずれか一項に記載のオーディオ信号符号器(100)。
  8. 前記オーディオ信号符号器は、前記オーディオコンテンツの現在の部分と時間的にオーバーラップする前記オーディオコンテンツの次の部分(1142;1342)の符号化に使用されるモードから独立して、前記オーディオコンテンツの前記現在の部分(1132;1332)の窓掛けのための窓(1130;1330)を選択し、その結果、前記オーディオコンテンツの次の部分が前記CELPモードで符号化される場合であっても、前記オーディオコンテンツの前記現在の部分の前記窓を掛けた表現(221a;263a;283a)が前記オーディオコンテンツの前記次の部分(1142;1342)とオーバーラップするように構成されること、および、
    前記オーディオ信号符号器は、前記オーディオコンテンツの前記次の部分(1142;1342)がCELPモードで符号化されることの検出に応答して、前記オーディオコンテンツの前記次の部分(1142;1342)の変換領域モード表現によって示されるエイリアシング除去信号成分を示すエイリアシング除去情報(164)を供給するように構成されることを特徴とする請求項1〜請求項7のいずれか一項に記載のオーディオ信号符号器(100)。
  9. 前記時間領域−周波数領域変換器(130;221,222;263,264;283,284)は、前記変換領域モードで符号化され、前記CELPモードで符号化された前記オーディオコンテンツの部分(1152)の後に続く前記オーディオコンテンツの現在の部分(1162)の窓掛けのための前記既定の非対称の分析窓(520;1160)を適用し、その結果、前記変換領域モードで符号化される前記オーディオコンテンツの前記現在の部分(1162)の窓を掛けた表現(221a;263a;283a)が、前記CELPモードで符号化された前記オーディオコンテンツの前記前の部分(1152)と時間的にオーバーラップするように、そして、
    前記変換領域モードで符号化される前記オーディオコンテンツの部分(1122,1132,1162,1172)が、前記オーディオコンテンツの前の部分が符号化されるモードから独立して、そして、前記オーディオコンテンツの次の部分が符号化されるモードから独立して、同じ既定の非対称の分析窓(520,1120,1130,1160,1170)を使用して、窓を掛けられるように構成されることを特徴とする請求項1〜請求項8のいずれか一項に記載の前記オーディオ信号符号器(100)。
  10. 前記オーディオ信号符号器は、前記オーディオコンテンツの前記現在の部分(1162)が、前記CELPモードで符号化された前記オーディオコンテンツの前の部分(1152)の後に続く場合、エイリアシング除去情報(164)を選択的に供給するように構成されることを特徴とする請求項9に記載のオーディオ信号符号器(100)。
  11. 前記時間領域−周波数領域変換器(130;221,222;263,264;283,284)は、前記変換領域モードで符号化され、前記CELPモードで符号化された前記オーディオコンテンツの部分(1352)の後に続く前記オーディオコンテンツの現在の部分(1362)の窓掛けのための、前記既定の非対称の分析窓(520;1320,1330,1370)とは異なる専用の非対称の遷移分析窓(1360)を適用するように構成されることを特徴とする請求項1〜請求項8のいずれか一項に記載のオーディオ信号符号器(100)。
  12. 前記符号励振線形予測領域パス(CELPパス)(140)は、代数符号励振線形予測領域モード(CELPモード)で符号化される前記オーディオコンテンツの部分に基づいて、代数符号励振情報(144)および線形予測領域パラメータ情報(146)を得るように構成された代数符号励振線形予測領域パスであることを特徴とする請求項1〜請求項11のいずれか一項に記載のオーディオ信号符号器。
  13. オーディオコンテンツの符号化表現(310)に基づいて、前記オーディオコンテンツの復号化表現(312)を供給するためのオーディオ信号復号器(300)であって、前記オーディオ信号復号器は、
    スペクトル係数のセット(322;412,442,472)およびノイズシェーピング情報(324;414;444;474)に基づいて、前記変換領域モードで符号化された前記オーディオコンテンツの部分(1222,1232,1262,1272;1422,1432,1462,1472)の時間領域表現(326;416;446;476)を得るように構成された変換領域パス(320;400;430;460)であって、
    前記変換領域パスは、スペクトル係数の前記セットから、または、その前処理されたバージョンから、前記オーディオコンテンツの窓を掛けた時間領域表現(424a;452a;485a)を得るために、周波数領域−時間領域変換(423;451;484)および窓掛け(424;452;485)を適用するように構成された周波数領域−時間領域変換器(330;423,424;451,452;484,485)を含むことを特徴とする前記変換領域パスと、
    符号励振情報(342)および線形予測領域パラメータ情報(344)に基づいて、符号励振線形予測領域モード(CELPモード)で符号化された前記オーディオコンテンツの時間領域表現(346)を得るように構成された符号励振線形予測領域パス(340)とを含み、
    前記周波数領域−時間領域変換器は、前記オーディオコンテンツの現在の部分(1232;1432)の後に、前記変換領域モードで符号化された前記オーディオコンテンツの次の部分(1242;1442)が続く場合、および、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化された前記オーディオコンテンツの次の部分が続く場合の両方の場合に、前記変換領域モードで符号化され、前記変換領域モードで符号化された前記オーディオコンテンツの前の部分(1222;1422)の後に続く前記オーディオコンテンツの前記現在の部分の窓掛けのための既定の非対称の合成窓(620;1230;1430)を適用するように構成されること、および、
    前記オーディオ信号復号器(300)は、前記変換領域モードで符号化された前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化された前記オーディオコンテンツの次の部分が続く場合、前記オーディオコンテンツの符号化表現(310)に含まれ、前記オーディオコンテンツの前記次の部分(1142;1342)の変換領域モード表現によって示されるエイリアシング除去信号成分を示すエイリアシング除去情報(362)に基づいて、エイリアシング除去信号(364)を選択的に供給するように構成されることを特徴とする前記オーディオ信号復号器。
  14. 前記周波数領域−時間領域変換器(330;423,424;451,452;484,485)は、前記オーディオコンテンツの現在の部分(1242;1442)の後に、前記変換領域モードで符号化された前記オーディオコンテンツの次の部分(1242;1442)が続く場合、および、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化された前記オーディオコンテンツの次の部分が続く場合の両方の場合に、前記変換領域モードで符号化され、前記変換領域モードで符号化された前記オーディオコンテンツの前の部分(1222;1422)の後に続く前記オーディオコンテンツの前記現在の部分の窓掛けのための同じ窓(620;1230;1430)を適用するように構成されることを特徴とする請求項13に記載のオーディオ信号復号器(300)。
  15. 前記既定の非対称の合成窓(620;1230;1430)は、左窓半分および右窓半分を含み、
    前記左窓半分は、左側のゼロ部分(622)と、窓値がゼロから窓中心値まで単調に増加する左側の遷移スロープ(624)とを含み、
    前記右窓半分は、窓値が前記窓中心値より大きく、前記窓が最大値(628a)を含むオーバーシュート部分(628)と、窓値が前記窓中心値からゼロに単調に減少する右側の遷移スロープ(630)を含むことを特徴とする請求項13または請求項14に記載のオーディオ信号復号器(300)。
  16. 前記左側のゼロ部分(622)は、前記左窓半分の窓値の少なくとも20%の範囲を含み、
    前記右窓半分は、ゼロ窓値のわずか1パーセントしか含まないことを特徴とする請求項15に記載のオーディオ信号復号器(300)。
  17. 前記既定の非対称の合成窓(620;1220,1230,1260;1420,1430,1470)の前記左窓半分の窓値は、前記既定の非対称の合成窓の前記左窓半分にオーバーシュート部分がないように、前記窓中心値より小さいことを特徴とする請求項15または請求項16に記載のオーディオ信号復号器(300)。
  18. 前記既定の非対称の合成窓(620;1220,1230,1260;1420,1430,1470)のゼロ以外の部分は、フレーム長より少なくとも10%短いことを特徴とする請求項13〜請求項17のいずれか一項に記載のオーディオ信号復号器。
  19. 前記オーディオ信号復号器は、前記変換領域モードで符号化された前記オーディオコンテンツの引き続く部分(1222、1232、1262、1272;1422、1432、1462、1472)が、少なくとも40%の時間的オーバーラップを含むように構成されること、および、
    前記オーディオ信号復号器は、前記変換領域モードで符号化された前記オーディオコンテンツの現在の部分(1232;1432)および前記符号励振線形予測領域モードで符号化された前記オーディオコンテンツの次の部分(1242;1442)が、時間的オーバーラップを含むように構成されること、および、
    前記オーディオ信号復号器は、前記エイリアシング除去情報(362)に基づいて、エイリアシング除去信号(364)を選択的に供給し、その結果、前記エイリアシング除去信号が、前記変換領域モードで符号化された前記オーディオコンテンツの前記現在の部分から、前記CELPモードで符号化された前記オーディオコンテンツの次の部分への遷移でのエイリアシングアーチファクトを減少させるまたは除去するように構成されることを特徴とする請求項13〜請求項18のいずれか一項に記載のオーディオ信号復号器(300)。
  20. 前記オーディオ信号復号器は、前記オーディオコンテンツの現在の部分(1232;1432)と時間的にオーバーラップする、前記オーディオコンテンツの次の部分(1242;1442)の符号化のために使用されるモードから独立して、前記オーディオコンテンツの前記現在の部分(1232;1432)の窓掛けのための窓(1230;1430)を選択し、その結果、前記オーディオコンテンツの前記次の部分が前記CELPモードで符号化される場合であっても、前記オーディオコンテンツの前記現在の部分の前記窓を掛けた表現(424a;452a;485a)が、前記オーディオコンテンツの前記次の部分と時間的にオーバーラップするように構成されること、および、
    前記オーディオ信号復号器(300)は、前記オーディオコンテンツの前記次の部分が前記CELPモードで符号化されることの検出に応答して、前記変換領域モードで符号化された前記オーディオコンテンツの前記現在の部分(1232;1432)から前記CELPモードで符号化された前記オーディオコンテンツの前記次の部分(1242;1442)への遷移でのエイリアシングアーチファクトを減少させるまたは除去するために、エイリアシング除去信号(364)を供給するように構成されることを特徴とする請求項13〜請求項19のいずれか一項に記載のオーディオ信号復号器(300)。
  21. 前記周波数領域−時間領域変換器(330;423,424;451,452;484,485)は、前記変換領域モードで符号化され、前記CELPモードで符号化された前記オーディオコンテンツの前の部分(1252;1452)の後に続く前記オーディオコンテンツの現在の部分(1262;1462)の窓掛けのための前記既定の非対称の合成窓(620;1230;1430)を適用し、その結果、前記変換領域モードで符号化された前記オーディオコンテンツの部分(1222;1232;1262;1272)が、前記オーディオコンテンツの前の部分が符号化されるモードから独立し、前記オーディオコンテンツの次の部分が符号化されるモードから独立して、同じ既定の非対称の合成窓(620;1220,1230,1260,1270)を使用して窓を掛けられるように、そして、
    前記変換領域モードで符号化された前記オーディオコンテンツの前記現在の部分の窓を掛けた時間領域表現(424a;452a;485a)は、前記CELPモードで符号化された前記オーディオコンテンツの前記前の部分(1252;1452)と時間的にオーバーラップするように、構成されることを特徴とする請求項13〜請求項20のいずれか一項に記載のオーディオ信号復号器(300)。
  22. 前記オーディオ信号復号器は、前記オーディオコンテンツの前記現在の部分(1262)が、前記CELPモードで符号化された前記オーディオコンテンツの前の部分(1252)に続く場合、エイリアシング除去情報(362)に基づいて、エイリアシング除去信号(364)を選択的に供給するように構成されることを特徴とする請求項21に記載のオーディオ信号復号器(300)。
  23. 前記周波数領域−時間領域変換器(330;423,424;451,452;484,485)は、前記変換領域モードで符号化され、前記CELPモードで符号化された前記オーディオコンテンツの部分(1452)の後に続く前記オーディオコンテンツの現在の部分(1462)の窓掛けのための、前記既定の非対称の合成窓(620;1230;1430)とは異なる専用の非対称の遷移合成窓(1460)を適用するように構成されることを特徴とする請求項13〜請求項20のいずれか一項に記載のオーディオ信号復号器(300)。
  24. 前記符号励振線形予測領域パス(340)は、代数符号励振情報(342)および線形予測領域パラメータ情報(344)に基づいて、代数符号励振線形予測領域モード(CELPモード)で符号化された前記オーディオコンテンツの時間領域表現(346)を得るように構成された代数符号励振線形予測領域パスであることを特徴とする請求項13〜請求項23のいずれか一項に記載のオーディオ信号復号器。
  25. オーディオコンテンツの入力表現に基づいて前記オーディオコンテンツの符号化表現を供給するための方法であって、前記方法は、
    前記スペクトル係数が、前記オーディオコンテンツの範囲のノイズシェーピングされたバージョンのスペクトルを示すように、前記変換領域モードで符号化される前記オーディオコンテンツの部分の時間領域表現に基づいて、前記スペクトル係数のセットおよびノイズシェーピング情報を得るステップであって、
    前記変換領域モードで符号化される前記オーディオコンテンツの時間領域表現、またはその前処理されたバージョンは、窓を掛けられ、時間領域−周波数領域変換は、前記オーディオコンテンツの前記窓を掛けた時間領域表現からスペクトル係数のセットを得るために適用されることを特徴とする前記ステップと、
    符号励振線形予測領域モード(CELPモード)で符号化される前記オーディオコンテンツの部分に基づいて、符号励振情報および線形予測領域情報を得るステップとを含み、
    既定の非対称の分析窓は、前記オーディオコンテンツの前記現在の部分の後に、前記変換領域モードで符号化される前記オーディオコンテンツの次の部分が続く場合、および、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化される前記オーディオコンテンツの次の部分が続く場合の両方の場合に、前記変換領域モードで符号化され、前記変換領域モードで符号化された前記オーディオコンテンツの部分の後に続く前記オーディオコンテンツの現在の部分の前記窓掛けのための適用されること、および、
    前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化される前記オーディオコンテンツの次の部分が続く場合、前記オーディオコンテンツの前記次の部分(1142;1342)の変換領域モード表現によって示されるエイリアシング除去信号成分を示すエイリアシング除去情報は、選択的に供給されることを特徴とする前記方法。
  26. オーディオコンテンツの符号化表現に基づいて前記オーディオコンテンツの復号化表現を供給するための方法であって、前記方法は、
    スペクトル係数のセットおよびノイズシェーピング情報に基づいて、変換領域モードで符号化された前記オーディオコンテンツの部分の時間領域表現を得るステップであって、
    周波数領域−時間領域変換および窓掛けが、スペクトル係数の前記セットから、または、その前処理されたバージョンから、前記オーディオコンテンツの窓を掛けた時間領域表現を得るために適用されることを特徴とする前記ステップと、
    符号励振情報および線形予測領域パラメータ情報に基づいて、符号励振線形予測領域モードで符号化された前記オーディオコンテンツの時間領域表現を得るステップとを含み、
    既定の非対称の合成窓は、前記オーディオコンテンツの現在の部分の後に、前記変換領域モードで符号化された前記オーディオコンテンツの次の部分が続く場合、および、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化された前記オーディオコンテンツの次の部分が続く場合の両方の場合に、前記変換領域モードで符号化され、前記変換領域モードで符号化された前記オーディオコンテンツの前の部分の後に続く前記オーディオコンテンツの前記現在の部分の窓掛けのために適用されること、および、
    エイリアシング除去信号は、前記オーディオコンテンツの前記現在の部分の後に、前記CELPモードで符号化された前記オーディオコンテンツの次の部分が続く場合、前記オーディオコンテンツの符号化表現(310)に含まれ、前記オーディオコンテンツの前記次の部分(1142;1342)の変換領域モード表現によって示されるエイリアシング除去信号成分を示すエイリアシング除去情報に基づいて、選択的に供給されることを特徴とする前記方法。
  27. コンピュータ・プログラムがコンピュータ上で動作するときに、請求項25または請求項26に記載の方法を実行するためのコンピュータ・プログラム。
JP2012534674A 2009-10-20 2010-10-19 オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム Active JP5243661B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25345009P 2009-10-20 2009-10-20
US61/253,450 2009-10-20
PCT/EP2010/065753 WO2011048118A1 (en) 2009-10-20 2010-10-19 Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications

Publications (2)

Publication Number Publication Date
JP2013508766A JP2013508766A (ja) 2013-03-07
JP5243661B2 true JP5243661B2 (ja) 2013-07-24

Family

ID=43447915

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012534674A Active JP5243661B2 (ja) 2009-10-20 2010-10-19 オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム

Country Status (17)

Country Link
US (1) US8630862B2 (ja)
EP (1) EP2473995B9 (ja)
JP (1) JP5243661B2 (ja)
KR (1) KR101414305B1 (ja)
CN (1) CN102859588B (ja)
AR (1) AR078702A1 (ja)
BR (3) BR112012009032B1 (ja)
CA (1) CA2778373C (ja)
ES (1) ES2533098T3 (ja)
HK (1) HK1172992A1 (ja)
MX (1) MX2012004518A (ja)
MY (1) MY162251A (ja)
PL (1) PL2473995T3 (ja)
RU (1) RU2596594C2 (ja)
TW (1) TWI435317B (ja)
WO (1) WO2011048118A1 (ja)
ZA (1) ZA201203611B (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
MY181247A (en) * 2008-07-11 2020-12-21 Frauenhofer Ges Zur Forderung Der Angenwandten Forschung E V Audio encoder and decoder for encoding and decoding audio samples
ES2558229T3 (es) * 2008-07-11 2016-02-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas
US20130311174A1 (en) * 2010-12-20 2013-11-21 Nikon Corporation Audio control device and imaging device
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
PL2676267T3 (pl) 2011-02-14 2017-12-29 Fraunhofergesellschaft Zur Förderung Der Angewandten Forschung E V Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
JP5712288B2 (ja) 2011-02-14 2015-05-07 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 重複変換を使用した情報信号表記
AU2012217269B2 (en) 2011-02-14 2015-10-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
JP5849106B2 (ja) 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
TWI480857B (zh) 2011-02-14 2015-04-11 Fraunhofer Ges Forschung 在不活動階段期間利用雜訊合成之音訊編解碼器
MX2013009306A (es) * 2011-02-14 2013-09-26 Fraunhofer Ges Forschung Aparato y metodo para codificar y decodificar una señal de audio utilizando una porcion alineada anticipada.
TWI591621B (zh) * 2011-04-21 2017-07-11 三星電子股份有限公司 線性預測編碼係數的量子化方法、聲音編碼方法、線性預測編碼係數的去量子化方法、聲音解碼方法以及記錄媒體
CA2833868C (en) * 2011-04-21 2019-08-20 Samsung Electronics Co., Ltd. Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for de-quantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefor
EP2772914A4 (en) * 2011-10-28 2015-07-15 Panasonic Corp DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES
CN103548080B (zh) * 2012-05-11 2017-03-08 松下电器产业株式会社 声音信号混合编码器、声音信号混合解码器、声音信号编码方法以及声音信号解码方法
WO2014001182A1 (en) * 2012-06-28 2014-01-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Linear prediction based audio coding using improved probability distribution estimation
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN105229736B (zh) 2013-01-29 2019-07-19 弗劳恩霍夫应用研究促进协会 用于选择第一编码算法与第二编码算法中的一个的装置及方法
MY175355A (en) * 2013-08-23 2020-06-22 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal an aliasing erro signal
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
CN105336336B (zh) * 2014-06-12 2016-12-28 华为技术有限公司 一种音频信号的时域包络处理方法及装置、编码器
EP2980797A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP3067887A1 (en) * 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
US10008214B2 (en) * 2015-09-11 2018-06-26 Electronics And Telecommunications Research Institute USAC audio signal encoding/decoding apparatus and method for digital radio services
US10146500B2 (en) * 2016-08-31 2018-12-04 Dts, Inc. Transform-based audio codec and method with subband energy smoothing
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3719799A1 (en) * 2019-04-04 2020-10-07 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. A multi-channel audio encoder, decoder, methods and computer program for switching between a parametric multi-channel operation and an individual channel operation

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
RU2256293C2 (ru) * 1997-06-10 2005-07-10 Коудинг Технолоджиз Аб Усовершенствование исходного кодирования с использованием дублирования спектральной полосы
US7315815B1 (en) * 1999-09-22 2008-01-01 Microsoft Corporation LPC-harmonic vocoder with superframe structure
US7020605B2 (en) * 2000-09-15 2006-03-28 Mindspeed Technologies, Inc. Speech coding system with time-domain noise attenuation
CN1157076C (zh) * 2001-04-19 2004-07-07 北京邮电大学 移动通信系统性能的仿真方法
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6785645B2 (en) * 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
CN1485849A (zh) * 2002-09-23 2004-03-31 上海乐金广电电子有限公司 数字音频编码器及解码方法
US7876966B2 (en) * 2003-03-11 2011-01-25 Spyder Navigations L.L.C. Switching between coding schemes
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) * 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
EP1747555B1 (en) * 2004-05-17 2007-08-29 Nokia Corporation Audio encoding with different coding models
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
US7386445B2 (en) * 2005-01-18 2008-06-10 Nokia Corporation Compensation of transient effects in transform coding
PL1869671T3 (pl) * 2005-04-28 2009-12-31 Siemens Ag Sposób i urządzenie do tłumienia szumów
US7490036B2 (en) * 2005-10-20 2009-02-10 Motorola, Inc. Adaptive equalizer for a coded speech signal
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
ATE547898T1 (de) * 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
EP2269188B1 (en) * 2008-03-14 2014-06-11 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
RU2481650C2 (ru) * 2008-09-17 2013-05-10 Франс Телеком Ослабление опережающих эхо-сигналов в цифровом звуковом сигнале
EP2446539B1 (en) * 2009-06-23 2018-04-11 Voiceage Corporation Forward time-domain aliasing cancellation with application in weighted or original signal domain

Also Published As

Publication number Publication date
AR078702A1 (es) 2011-11-30
ES2533098T3 (es) 2015-04-07
PL2473995T3 (pl) 2015-06-30
TW201137861A (en) 2011-11-01
ZA201203611B (en) 2013-02-27
RU2012118782A (ru) 2013-11-10
BR112012009032B1 (pt) 2021-09-21
WO2011048118A1 (en) 2011-04-28
BR122020024236B1 (pt) 2021-09-14
JP2013508766A (ja) 2013-03-07
EP2473995B1 (en) 2014-12-17
EP2473995B9 (en) 2016-12-21
US8630862B2 (en) 2014-01-14
EP2473995A1 (en) 2012-07-11
KR20120063527A (ko) 2012-06-15
HK1172992A1 (en) 2013-05-03
CA2778373C (en) 2015-12-01
MX2012004518A (es) 2012-05-29
MY162251A (en) 2017-05-31
CN102859588A (zh) 2013-01-02
CN102859588B (zh) 2014-09-10
RU2596594C2 (ru) 2016-09-10
BR112012009032A2 (pt) 2020-08-18
US20120265541A1 (en) 2012-10-18
BR122020024243B1 (pt) 2022-02-01
KR101414305B1 (ko) 2014-07-02
TWI435317B (zh) 2014-04-21
AU2010309839A1 (en) 2012-05-17
CA2778373A1 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
JP5243661B2 (ja) オーディオ信号符号器、オーディオ信号復号器、オーディオコンテンツの符号化表現を供給するための方法、オーディオコンテンツの復号化表現を供給するための方法、および低遅延アプリケーションにおける使用のためのコンピュータ・プログラム
JP5555707B2 (ja) マルチ分解能切替型のオーディオ符号化及び復号化スキーム
CA2871372C (en) Audio encoder and decoder for encoding and decoding audio samples
CN102884574B (zh) 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法
CN103503062B (zh) 用于使用对齐的前瞻部分将音频信号编码及解码的装置与方法
EP3175453B1 (en) Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
AU2013200679B2 (en) Audio encoder and decoder for encoding and decoding audio samples
AU2010309839B2 (en) Audio signal encoder, audio signal decoder, method for providing an encoded representation of an audio content, method for providing a decoded representation of an audio content and computer program for use in low delay applications

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130404

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160412

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5243661

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250