[go: up one dir, main page]

JP2021099497A - 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器 - Google Patents

周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器 Download PDF

Info

Publication number
JP2021099497A
JP2021099497A JP2021019424A JP2021019424A JP2021099497A JP 2021099497 A JP2021099497 A JP 2021099497A JP 2021019424 A JP2021019424 A JP 2021019424A JP 2021019424 A JP2021019424 A JP 2021019424A JP 2021099497 A JP2021099497 A JP 2021099497A
Authority
JP
Japan
Prior art keywords
audio signal
signal portion
frequency
spectral
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021019424A
Other languages
English (en)
Other versions
JP7135132B2 (ja
Inventor
デッシュ,サッシャ
Disch Sascha
ディーツ,マルチン
Martin Dietz
ムルトルス,マルクス
Multrus Markus
フッハス,ギローム
Fuchs Guillaume
ラベリ,エマニュエル
Ravelli Emmanuel
ノイジンガー,マティアス
Neusinger Matthias
シュネル,マルクス
Schnell Markus
シューベルト,ベンヤミン
schubert Benjamin
グリル,ベルンハルト
Grill Bernhard
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Publication of JP2021099497A publication Critical patent/JP2021099497A/ja
Priority to JP2022137531A priority Critical patent/JP7507207B2/ja
Application granted granted Critical
Publication of JP7135132B2 publication Critical patent/JP7135132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/083Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

【課題】オーディオ符号化の改善された概念を提供する。【解決手段】オーディオ符号器は、第1オーディオ信号部分を周波数ドメイン表現へと変換する時間−周波数変換部602及び周波数ドメイン表現を符号化するスペクトル符号器606を含む第1符号化プロセッサ600と、第2オーディオ信号部分を時間ドメインで符号化する第2符号化プロセッサ610と、第1オーディオ信号部分の符号化済みスペクトル表現から第2符号化プロセッサの初期化データを計算するクロスプロセッサと、オーディオ信号のどの部分が第1オーディオ信号部分でどの部分が第2オーディオ信号部分であるかを決定するコントローラ620と、第1オーディオ信号部分についての第1符号化済み信号部分と第2オーディオ信号部分についての第2符号化済み信号部分とを含む符号化済みオーディオ信号を形成する符号化済み信号形成部630と、を含む。【選択図】図6

Description

本発明はオーディオ信号符号化及び復号化に関し、特に、並列的な周波数ドメイン及び時間ドメインの符号器/復号器プロセッサを使用する、オーディオ信号処理に関する。
オーディオ信号を効率的に蓄積又は伝送するようデータ削減する目的で知覚的に符号化することは、広く使用されている作業である。特に、最低ビットレートを達成すべき場合には、使用される符号化がオーディオ品質の低下もたらし、それは主に、符号化側での伝送されるべきオーディオ信号帯域幅の制限によって引き起こされる。この場合、オーディオ信号は典型的には、所定の予め決定されたカットオフ周波数よりも高域側にスペクトル波形コンテンツが何も残らないように、低域通過フィルタ処理されている。
現代のコーデックにおいては、オーディオ信号帯域幅拡張(BWE)を介する復号器側の信号復元について公知の方法が存在する。例えば、周波数ドメインで作動するスペクトル帯域複製(SBR)があり、又は、時間ドメインで作動するスピーチ符号器内の後処理器であるいわゆる時間ドメイン帯域幅拡張(TD−BWE)がある。
加えて、AMR−WB+又はUSACなどの用語で知られる、複数の結合型の時間ドメイン/周波数ドメイン符号化概念が存在する。
これら結合型の時間ドメイン/周波数ドメイン符号化概念の共通点は、周波数ドメイン符号器が帯域幅拡張技術に依拠しており、その拡張技術が入力オーディオ信号に帯域制限をもたらし、クロスオーバー周波数又は境界周波数より高い部分は低い分解能の符号化概念で符号化されて、復号器側で合成される。従って、そのような概念は、符号器側の前処理器の技術と、復号器側の対応する後処理機能とに主に依拠する。
典型的には、時間ドメイン符号器は、スピーチ信号などのように時間ドメインで符号化されるべき有用な信号のために選択され、周波数ドメイン符号器は、非スピーチ信号や楽音などのために選択される。しかし、特に高周波数帯域において顕著なハーモニクスを有する非スピーチ信号については、従来技術の周波数ドメイン符号器では正確さが低下し、従ってオーディオ品質が劣化する。なぜなら、そのような顕著なハーモニクスは、別個にパラメトリックに符号化され得るだけか、又は符号化/復号化処理の中で全く除外されるからである。
更に、上側周波数領域がパラメトリックに符号化される一方で、低周波数領域は、例えばスピーチ符号器などACELP又は他の任意のCELP関連符号器を使用して典型的に符号化されるような帯域幅拡張に、時間ドメイン符号化/復号化分枝が更に依拠するような概念も存在する。このような帯域幅拡張機能は、ビットレート効率を増大させるが、他方では更なる非柔軟性をもたらしてしまう。その理由は、入力オーディオ信号内に含まれる最大周波数よりも実質的に低い所定のクロスオーバー周波数よりも高域側で作動する、帯域幅拡張処理又はスペクトル帯域複製処理に起因して、両方の符号化分枝、即ち周波数ドメイン符号化分枝及び時間ドメイン符号化分枝が帯域制限されるからである。
現状技術における関連する項目には以下が含まれる。
−波形復号化に対する後処理部としてのSBR(非特許文献1〜3)
−MPEG−D USAC コア切換え(非特許文献4)
−MPEG−H 3D IGF(特許文献1)
以下の文献及び特許文献は、本願の先行技術を構成すると想定される方法を開示している。
MPEG−D USACでは、切換え可能なコア符号器が説明されている。しかし、USACにおいては、帯域制限されたコアは常に低域通過フィルタリング済みの信号を伝送するよう制限されている。従って、顕著な高周波数コンテンツを含む所定の音楽信号、例えば全帯域スイープ(full-band sweeps)やトライアングル音などは忠実に再現されることができない。
[5]PCT/EP2014/065109
[1] M. Dietz, L. Liljeryd, K. Kjoerling and O. Kunz, "Spectral Band Replication, a novel approach in audio coding," in 112th AES Convention, Munich, Germany, 2002. [2] S. Meltzer, R. Boehm and F. Henn, "SBR enhanced audio codecs for digital broadcasting such as "Digital Radio Mondiale"(DRM)," in 112th AES Convention, Munich, Germany, 2002. [3] T. Ziegler, A. Ehret, P. Ekstrand and M. Lutzky, "Enhancing mp3 with SBR: Features and Capabilities of the new mp3PRO Algorithm," in 112th AES Convention, Munich, Germany, 2002. [4] MPEG-D USAC Standard
本発明の目的は、オーディオ符号化の改善された概念を提供することである。
この目的は、請求項1のオーディオ符号器と、請求項9のオーディオ復号器と、請求項14のオーディオ符号化方法と、請求項15のオーディオ復号化方法又は請求項16のコンピュータプログラムによって達成される。
本発明は次のような知見に基づく。即ち、時間ドメインの符号化/復号化プロセッサは、ギャップ充填機能を有する周波数ドメインの符号化/復号化プロセッサと結合できるが、スペクトルの穴を充填するためのこのギャップ充填機能は、オーディオ信号の全帯域に亘って作動するか、又は少なくとも所定のギャップ充填周波数より高周波側で作動する。重要なことは、周波数ドメインの符号化/復号化プロセッサが、特に、正確な又は波形もしくはスペクトル値の符号化/復号化を最大周波数まで実行する立場にあり、クロスオーバー周波数までだけではないということである。更に、周波数ドメイン符号器が全帯域を高い分解能で符号化する能力により、ギャップ充填機能を周波数ドメイン符号器内に統合することが可能となる。
一態様において、全帯域ギャップ充填が時間ドメイン符号化/復号化プロセッサと結合される。実施形態においては、両分枝におけるサンプリングレートは同一であるか、又は時間ドメイン符号化分枝におけるサンプリングレートが周波数ドメイン分枝よりも低い。
他の態様において、ギャップ充填なしに作動し全帯域コア符号化/復号化を実行する周波数ドメイン符号器/復号器が時間ドメイン符号化プロセッサと結合され、その時間ドメイン符号化/復号化プロセッサの連続的な初期化のためにクロスプロセッサが提供される。この態様において、サンプリングレートは他の態様におけるレートと同じであり得るか、又は周波数ドメイン分枝におけるサンプリングレートが時間ドメイン分枝よりも低くなることさえあり得る。
このように、本発明によれば、全帯域スペクトル符号器/復号器プロセッサを使用することで、帯域幅拡張を一方としコア符号化を他方とする分離に関連する課題が、コア復号器が作動する同じスペクトルドメインで帯域幅拡張を実行することにより、対処され克服され得る。そのため、全オーディオ信号領域を符号化及び復号化する全レートコア復号器が設けられる。これは、符号器側のダウンサンプラ及び復号器側のアップサンプラを必要としない。その代わり、全体の処理が全サンプリングレート又は全帯域幅ドメインで実行される。高い符号化ゲインを得るために、オーディオ信号は分析されて、高い分解能で符号化されるべき第1スペクトル部分の第1セットを発見し、この第1スペクトル部分の第1セットは、一実施形態においてオーディオ信号の調性部分を含んでもよい。他方、第2スペクトル部分の第2セットを構成しているオーディオ信号の非調性又はノイズの多い成分は、低いスペクトル分解能でパラメトリックに符号化される。次に、符号化済みのオーディオ信号は、高いスペクトル分解能で波形保存的な方法で符号化された第1スペクトル部分の第1セットと、追加的に第1セットを起源とする周波数「タイル」を使用して低い分解能でパラメトリックに符号化された第2スペクトル部分の第2セットと、を必要とするだけである。復号器側では、全帯域復号器であるコア復号器が第1スペクトル部分の第1セットを、波形保存的な方法で、即ち追加的な周波数再生成があるかどうかの知識がない状態で、復元する。しかし、そのように生成されたスペクトルは多くのスペクトルギャップを有する。これらのギャップは、後にインテリジェント・ギャップ充填(IGF)技術を用いて充填され、そのIGFは、一方ではパラメトリックデータを適用する周波数再生成を使用し、他方ではソーススペクトル領域、即ち全レートオーディオ復号器により復元された第1スペクトル部分を使用する。
更なる実施形態において、帯域幅複製又は周波数タイル充填ではなくノイズ充填だけによって復元されたスペクトル部分が、第3スペクトル部分の第3セットを構成する。符号化概念は、コア符号化/復号化を一方とし周波数再生成を他方として単一ドメインで作動するという事実に起因して、IGFは高い周波数領域を充填することに制限されずに低い周波数領域をも充填することができ、これは、周波数再生成なしのノイズ充填、又は異なる周波数領域に1つの周波数タイルを使用した周波数再生成の何れかによって達成される。
更に、ここで強調すべきは、スペクトルエネルギーに関する情報、個別のエネルギーに関する情報若しくは個別エネルギー情報、持久エネルギーに関する情報若しくは持久エネルギー情報、タイルエネルギーに関する情報若しくはタイルエネルギー情報、又は、損失エネルギーに関する情報若しくは損失エネルギー情報が、エネルギー値だけでなく、その値から最終的なエネルギー値が導出され得る(例えば絶対値の)振幅値、レベル値、又は他の任意の値をも含み得ることである。従って、エネルギーに関する情報は、例えばエネルギー値そのもの、及び/又は、レベルの値、及び/又は、振幅の値、及び/又は、絶対振幅の値などを含み得る。
更なる態様は、相関状態が、ソース領域にとって重要であるだけでなく、目標領域にとっても重要であるという知見に基づいている。更に、本発明は、ソース領域と目標領域との中で異なる相関状態が発生し得ることも認識している。例えば、高周波ノイズを有するスピーチ信号を考慮する場合、その状態は、スピーカが中央に配置されているとき、少数の倍音(overtones)を持つスピーチ信号を含む低周波数帯域が左チャネル及び右チャネルに高度に相関しているという可能性がある。しかし、右側に別の高周波数ノイズがあるか又は高周波数ノイズがなく、これと比較して左側に異なる高周波数ノイズが存在する可能性もあるという事実に起因して、高周波部分は強度に非相関化される可能性もあり得る。従って、この状態を無視するような単純なギャップ充填操作が実行された場合、高周波部分も相関化される可能性があり、またそれにより、復元された信号内で深刻な空間的隔離アーチファクトを生じる可能性がある。この問題に対処するため、復元帯域についてのパラメトリックデータ、又は一般的には、第1スペクトル部分の第1セットを使用して復元されるべき第2スペクトル部分の第2セットについてのパラメトリックデータが、第2スペクトル部分について、又は換言すれば復元帯域について、第1又は第2の何れかの異なる2チャネル表現を識別するために計算される。符号器側においては、2チャネル識別が第2スペクトル部分について計算され、即ちその部分についてさらに復元帯域のエネルギー情報が計算される。復号器側の周波数再生成部は、次に第2スペクトル部分を再生成し、その再生成は、第1スペクトル部分の第1セットの第1部分すなわちソース領域と、スペクトル包絡エネルギー情報又は任意の他のスペクトル包絡データなど第2部分についてのパラメトリックデータとに依存し、更には第2部分すなわち考慮対象のこの復元帯域についての2チャネル識別にも依存している。
2チャネル識別は、好ましくは各復元帯域について1つのフラグとして伝送され、このデータは符号器から復号器へと伝送され、次に復号器が、コア帯域について好適に計算されたフラグによって指示される通りにコア信号を復号化する。次に、一実施形態において、コア信号は両方の(例えば左/右の及び中央/サイドの)ステレオ表現内へと格納され、IGF周波数タイル充填のために、インテリジェント・ギャップ充填又は復元帯域、即ち目標領域について、2チャネル識別フラグにより指示された通りの目標タイル表現に適合するようなソースタイル表現が選択される。
ここで強調すべきは、この処理がステレオ信号、即ち左チャネル及び右チャネルのためだけに役立つのではなく、多チャネル信号のためにも作動することである。多チャネル信号の場合、異なるチャネルの複数のペアが次のように処理され得る。例えば、左と右のチャネルを第1ペアとし、左サラウンドチャネルと右サラウンドチャネルを第2ペアとし、中央チャネルとLFEチャネルを第3ペアとして処理され得る。例えば7.1や11.1などのより高度な出力チャネルフォーマットについては、他のペアリングも決定され得る。
更なる態様は、復元された信号のオーディオ品質はIGFを通じて改善できるという知見に基づく。なぜなら、全スペクトルがコア符号器にアクセス可能であり、その結果、例えば高スペクトル領域内の知覚的に重要な調性部分も、パラメトリック置換ではなくコア符号器によって符号化され得るからである。加えて、ギャップ充填操作が第1スペクトル部分の第1セットからの周波数タイルを使用して実行される。その第1セットとは、例えば典型的には低周波領域からの調性部分のセットであり、もし可能であれば高周波領域からの調性部分のセットでもあり得る。しかし、復号器側のスペクトル包絡調節については、復元帯域内に位置するスペクトル部分の第1セットからのスペクトル部分は、例えばスペクトル包絡調節によって更に後処理される訳ではない。コア復号器を起源としない復元帯域内の残りのスペクトル値だけが、包絡情報を用いて包絡調節されることになる。好ましくは、包絡情報は、復元帯域内の第1スペクトル部分の第1セットと同じ復元帯域内の第2スペクトル部分の第2セットとのエネルギーを示す、全帯域包絡情報であり、第2スペクトル部分の第2セットにおける後者のスペクトル値はゼロと指示され、従ってコア符号器によって符号化されることがなく、低い分解能のエネルギー情報を用いてパラメトリックに符号化される。
絶対エネルギー値は、対応する帯域の帯域幅に対して正規化されているか否かに関わらず、復号器側のアプリケーションにおいて有用かつ非常に効率的であることが分かってきた。このことは、ゲインファクタが、復元帯域における残差エネルギー、復元帯域における損失エネルギー、及び復元帯域における周波数タイル情報に基づいて計算されなければならない場合に、特に重要である。
更に、符号化済みビットストリームが、復元帯域についてのエネルギー情報をカバーするだけでなく、追加的に、最大周波数まで延びるスケールファクタ帯域のためのスケールファクタをもカバーしていることが望ましい。これにより、所定の調性部分すなわち第1スペクトル部分が利用可能である各復元帯域について、この第1スペクトル部分の第1セットが正しい振幅を用いて実際に復号化され得ることが確保される。更に、各復元帯域についてのスケールファクタに加え、この復元帯域についてのエネルギーが符号器内で生成され、復号器へと伝送される。更に、復元帯域がスケールファクタ帯域と一致することが望ましく、又は、エネルギーグループ化の場合には、復元帯域の少なくとも境界がスケールファクタ帯域の境界と一致することが望ましい。
本発明の更なる実施形態は、タイルホワイトニング操作を適用する。スペクトルのホワイトニングは、粗いスペクトル包絡情報を除去し、タイル類似性を評価するために最も重要なスペクトルの微細構造を強調する。従って、クロス相関尺度を計算する前に、一方では周波数タイルが、及び/又は他方ではソース信号がホワイトニングされる。予め定義された処理を用いてタイルだけがホワイトニングされたとき、復号器に対し予め定義された同じホワイトニング処理が周波数タイルに対してIGF内で適用されるべきであることを指示する、ホワイトニングフラグが伝送される。
タイル選択に関し、相関関係のラグを使用して、再生成されたスペクトルを整数個の変換ビン分だけスペクトル的にシフトさせることが望ましい。根底にある変換に依存するが、スペクトルシフトは追加的な修正を必要とする可能性がある。奇数ラグの場合、タイルは、MDCT内における1つおきの帯域の周波数反転された表現を補償するために、−1/1の交互の時間的シーケンスによる乗算を通じて追加的に変調される。更に、周波数タイルを生成するとき、相関結果の正負符号が適用される。
更に、同一の復元領域又は目標領域に対してソース領域が急速変化することにより生じるアーチファクトが確実に回避されるようにする目的で、タイルプルーニング(tile pruning)及び安定化処理(stabilization)を用いることが望ましい。この目的で、異なって識別されたソース領域同士の類似性分析が実行され、あるソースタイルが他のソースタイルとある閾値以上の類似性を持って類似している場合、このソースタイルは、他のソースタイルと高い相関性を持つことから、潜在的なソースタイルのセットから削除され得る。更に、タイル選択安定化処理の一種として、現フレーム内のいずれのソースタイルも現フレーム内の目標タイルと(所与の閾値以上に)相関していない場合、前フレームからのタイルオーダーを維持することが望ましい。
更なる態様は、特にオーディオ信号内で頻繁に発生するような過渡部分を含む信号に関し、時間的ノイズ整形(TNS)又は時間的タイル整形(TTS)の技術と高周波復元とを組み合わせることで、品質改善及びビットレート削減を達成できる、という知見に基づく。周波数にわたる予測によって行われる符号器側のTNS/TTS処理は、オーディオ信号の時間包絡を復元する。構成に依存して、即ち時間的ノイズ整形フィルタが、ソース周波数領域だけでなく周波数再生成復号器内で復元されるべき目標周波数領域をもカバーする周波数領域内で決定された場合、時間的包絡は、ギャップ充填開始周波数までのコアオーディオ信号に対して適用されるだけでなく、時間的包絡はまた、復元された第2スペクトル部分のスペクトル領域に対しても適用される。このように、時間的タイル整形なしでは発生し得るプリエコー又はポストエコーが低減又は除去される。これは、所定のギャップ充填開始周波数までのコア周波数領域内だけでなく、コア周波数領域より高い周波数領域内においても、逆予測を周波数にわたって適用することで達成される。この目的で、周波数にわたる予測を適用する前に、周波数再生成又は周波数タイル生成が復号器側で実行される。しかし、エネルギー情報計算がフィルタリング後のスペクトル残差値について実行されたか、又は包絡整形前の(全)スペクトル値に対して実行されたかに依存して、周波数にわたる予測はスペクトル包絡整形の前又は後に適用されることができる。
1つ以上の周波数タイルにわたるTTS処理は、ソース領域と復元領域との間の相関、2つの隣接する復元領域における相関、又は周波数タイル間の相関の連続性をさらに達成する。
一実施形態において、複素TNS/TTSフィルタリングを使用することが望ましい。それにより、MDCTのように臨界サンプリングされた実表現の(時間的)エイリアシングアーチファクトが防止される。複素TNSフィルタは、符号器側において、複素修正変換を得るために修正離散コサイン変換だけでなく修正離散サイン変換をも追加的に適用することで、計算され得る。それにも拘わらず、修正離散コサイン変換値だけ、即ち複素変換の実数部分だけが伝送される。しかし、復号器側においては、先行又は後続のフレームのMDCTスペクトルを使用して、変換の虚数部分を推定することが可能であり、その結果、復号器側では、複素フィルタが周波数にわたる逆予測に再度適用されることができ、具体的には、ソース領域と復元領域との間の境界、及び、復元領域内の周波数的に隣接する周波数タイル間の境界にわたる予測に適用され得る。
本発明のオーディオ符号化システムは、任意のオーディオ信号をビットレートのワイドレンジで効率的に符号化する。本発明のシステムは、高ビットレートについては透明性へと収束する一方で、低ビットレートについては知覚的混乱を最小化する。従って、符号器においては、利用可能なビットレートの大部分は、信号の知覚的に最も重要な構造だけを波形符号化することに使用され、結果として生じるスペクトルギャップは、復号器において、オリジナルスペクトルを粗く近似する信号コンテンツを用いて充填される。パラメータ主導の所謂スペクトルのインテリジェント・ギャップ充填(IGF)を、符号器から復号器へと伝送された専用のサイド情報によって制御するために、非常に限定的なビット予算が消費される。
更なる実施形態において、時間ドメイン符号化/復号化プロセッサは、低いサンプリングレートと対応する帯域幅拡張機能とに依拠している。
更なる実施形態においては、現時点で処理されつつある周波数ドメインの符号器/復号器信号から導出される初期化データを用いて時間ドメインの符号器/復号器を初期化するために、クロスプロセッサが提供される。これにより、現時点で処理されつつあるオーディオ信号部分が周波数ドメイン符号器により処理されている場合、並行する時間ドメイン符号器が初期化されて、周波数ドメイン符号器から時間ドメイン符号器への切換えが行われたときに、この時間ドメイン符号器が処理を即刻開始できるようになる。なぜなら、以前の信号に関係する全ての初期化データが、クロスプロセッサによって既に存在するからである。このクロスプロセッサは、好ましくは符号器側で適用され、追加的に復号器側でも適用され、また好ましくは周波数−時間変換を使用する。その変換は、ドメイン信号の所定の低帯域部分を所定の低減された変換サイズと共に選択するだけで、高い出力又は入力サンプリングレートから、低い時間ドメインコア符号器サンプリングレートへの、非常に効率的なダウンサンプリングを追加的に実行するものである。このように、高サンプリングレートから低サンプリングレートへのサンプリングレート変換が非常に効率的に実行され、低減された変換サイズでの変換によって得られたこの信号は、次に時間ドメイン符号器/復号器を初期化するために使用可能となり、その結果、時間ドメイン符号化がコントローラによって信号伝達され、かつ直前のオーディオ信号部分が周波数ドメインで符号化されていた場合に、時間ドメイン符号器/復号器が時間ドメイン符号化を即座に実行できるよう準備が整った状態になる。
上述したように、クロスプロセッサの実施形態は、周波数ドメインにおけるギャップ充填に依拠しても、しなくてもよい。よって、時間ドメイン及び周波数ドメインの符号器/復号器がクロスプロセッサを介して結合され、周波数ドメインの符号器/復号器はギャップ充填に依拠しても、しなくてもよい。具体的には、後述するような実施形態が好ましい。
これらの実施形態は、周波数ドメインでギャップ充填を使用し、以下のようなサンプリングレート数値を有し、クロスプロセッサ技術に依拠しても、しなくてもよい:
入力SR=8kHz,ACELP(時間ドメイン) SR=12.8kHz.
入力SR=16kHz,ACELP SR=12.8kHz.
入力SR=16kHz,ACELP SR=16.0kHz
入力SR=32.0kHz,ACELP SR=16.0kHz
入力SR=48kHz,ACELP SR=16kHz
これらの実施形態は、周波数ドメインでのギャップ充填を使用しても、しなくてもよく、以下のようなサンプリングレート数値を有し、クロスプロセッサ技術に依拠しても、しなくてもよい:
TCX SRは、ACELP SRよりも低い(8kHz対12.8kHz)、又は、TCXとACELPが両方とも16.0kHzで作動し、如何なるギャップ充填も使用されない。
このように、本発明の好ましい実施形態は、スペクトルギャップ充填を含む知覚的オーディオ符号器と、帯域幅拡張を持つ又は持たない時間ドメイン符号器との、切れ目ない切換えを可能にする。
このように、本発明は、周波数ドメイン符号器内でオーディオ信号からカットオフ周波数より高い高周波コンテンツを取り除くことに限定されず、寧ろ、符号器内ではスペクトルギャップを残してスペクトル帯域通過領域を信号適応的に取り除き、その後でこれらのスペクトルギャップを復号器において復元する、方法に依拠している。好ましくは、全帯域幅オーディオ符号化とスペクトルギャップ充填とを特にMDCT変換ドメインで効率的に結合させるインテリジェント・ギャップ充填のような統合型の解決策が使用される。
このように、本発明は、スピーチ符号化及びその後続の時間ドメイン帯域幅拡張と、スペクトルギャップ充填を含む全帯域波形復号化とを、切換え可能な知覚的符号器/復号器へと結合させるための、改善された概念を提供する。
このように、既存の方法とは対照的に、新たな概念は、変換ドメイン符号器における全帯域オーディオ信号波形符号化を利用し、同時に、好ましくは時間ドメイン帯域幅拡張へと続くスピーチ符号器への切れ目ない切換えを可能にする。
本発明の更なる実施形態は、固定の帯域制限に起因して発生する上述した問題を回避する。この概念は、スペクトルギャップ充填を備えた周波数ドメインの全帯域波形符/復号器と、低いサンプリングレートのスピーチ符/復号器及び時間ドメイン帯域幅拡張との切換え可能な組合せを可能にする。そのような符/復号器は、オーディオ入力信号のナイキスト周波数までの全オーディオ帯域幅を提供する、上述した問題のある信号を波形符号化することができる。しかしながら、両方の符号化方式の間の切れ目ない瞬時の切換えは、特にクロスプロセッサを有する実施形態により保証される。この切れ目ない切換えのために、クロスプロセッサは、符号器と復号器との両方において、全帯域可能な全レート(入力サンプリングレート)周波数ドメイン符号器と、低いサンプリングレートを有する低レートACELP符号器と、の間のクロス接続を表現するものであり、TCXのような周波数ドメイン符号器からACELPのような時間ドメイン符号器へと切り換える場合に、特に適応型符号帳、LPCフィルタ又はリサンプリングステージ内のACELPパラメータ及びバッファを適切に初期化する。
本発明の実施形態について、添付の図面を参照しながら以下に説明する。
オーディオ信号を符号化する装置を示す。 図1aの符号器に適合する、符号化済みオーディオ信号を復号化する復号器を示す。 復号器の好ましい構成を示す。 符号器の好ましい構成を示す。 図1bのスペクトルドメイン復号器により生成されたスペクトルの概略的表現を示す。 スケールファクタ帯域に関するスケールファクタと、復元帯域に関するエネルギーと、ノイズ充填帯域に関するノイズ充填情報との関係を示す表である。 スペクトル部分の選択をスペクトル部分の第1及び第2のセットへと適用するスペクトルドメイン符号器の機能を示す 図4aの機能の構成を示す。 MDCT符号器の機能を示す。 MDCT技術を有する復号器の機能を示す。 周波数再生成部の構成を示す。 オーディオ符号器の構成を示す。 オーディオ符号器内のクロスプロセッサを示す。 クロスプロセッサ内でサンプリングレート低減を追加的に提供する逆又は周波数−時間変換の構成を示す。 図6のコントローラの好ましい実施形態を示す。 帯域幅拡張機能を有する時間ドメイン符号器の更なる実施形態を示す。 前処理部の好ましい使用方法を示す。 オーディオ復号器の概略的構成を示す。 時間ドメイン復号器のための初期化データを提供する復号器内のクロスプロセッサを示す。 図11aの時間ドメイン復号化プロセッサの好ましい構成を示す。 時間ドメイン帯域幅拡張の更なる構成を示す。 オーディオ符号器の好ましい構成の一部を示す。 オーディオ符号器の好ましい構成の残部を示す。 オーディオ復号器の好ましい構成を示す。 サンプルレート変換と帯域幅拡張とを有する時間ドメイン復号器の本発明の構成を示す。
図6は、第1オーディオ信号部分を周波数ドメインで符号化するための第1符号化プロセッサ600を含む、オーディオ信号を符号化するオーディオ符号器を示す。第1符号化プロセッサ600は、第1入力オーディオ信号部分を入力信号の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換する時間−周波数変換部602を含む。更に、第1符号化プロセッサ600は、その周波数ドメイン表現を最大周波数まで分析する分析部604を含み、その分析部は、第1スペクトル分解能で符号化されるべき第1スペクトル領域を決定し、かつ第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき第2スペクトル領域を決定する。特に、この全帯域分析部604は、時間−周波数変換部スペクトルにおけるどの周波数ライン又はどのスペクトル値がスペクトルライン毎に符号化されるべきか、及び他のどのスペクトル部分がパラメトリック方式で符号化されるべきかを決定し、次いでこれら後者のスペクトル部分は復号器側においてギャップ充填処理を用いて復元される。実際の符号化操作はスペクトル符号器606によって実行され、この符号器は、第1スペクトル領域又はスペクトル部分を第1分解能で符号化し、第2スペクトル領域又は部分を第2スペクトル分解能でパラメトリックに符号化する。
図6のオーディオ符号器は、オーディオ信号部分を時間ドメインで符号化する第2符号化プロセッサ610を更に含む。更に、オーディオ符号器はコントローラ620を含み、このコントローラは、オーディオ信号入力601においてオーディオ信号を分析し、オーディオ信号のどの部分が周波数ドメインで符号化される第1オーディオ信号部分であり、オーディオ信号のどの部分が時間ドメインで符号化される第2オーディオ信号部分であるかを決定するよう構成されている。更に、例えばビットストリーム・マルチプレクサとして構成され得る符号化済み信号形成部630が設けられ、この信号形成部は、第1オーディオ信号部分についての第1符号化済み信号部分と、第2オーディオ信号部分についての第2符号化済み信号部分と、を含む1つの符号化済みオーディオ信号を形成するよう構成されている。重要な点は、その符号化済み信号は、1つの同じオーディオ信号部分からの周波数ドメイン表現又は時間ドメイン表現のいずれか一方だけを持つことである。
そのため、コントローラ620は、単一のオーディオ部分についてただ1つの時間ドメイン表現又は周波数ドメイン表現が符号化済み信号の中に存在することを保証する。このことをコントローラ620によって達成するには、幾つかの方法がある。1つの方法は、1つの同じオーディオ信号部分について、両方の表現がブロック630へと到達し、コントローラ620は、符号化済み信号形成部630がそれら両方の表現のうち一方だけを符号化済み信号内へと導入するように制御する。しかし代替的に、コントローラ620は、対応する信号部分の分析に基づいて、両方のブロック600と610のうちの一方だけが全符号化操作を実際に実行するよう活性化され、他方のブロックが非活性化されるような方法で、第1符号化プロセッサへの入力及び第2符号化プロセッサへの入力を制御することもできる。
このような非活性化は、非活性であり得るか、又は、例えば図7aに関して示すように、ある種の「初期化」モードであることもできる。その初期化モードでは、前記他方の符号化プロセッサは、内部メモリを初期化するために初期化データを受信しかつ処理するためにだけ活性化し、如何なる特別な符号化操作も全く実行しない。このような活性化は、図6には図示しない入力における所定のスイッチによって実行でき、又は好ましくは制御ライン621及び622によって実行され得る。よって、この実施形態では、現在のオーディオ信号部分が第1符号化プロセッサにより符号化されるべきであるとコントローラ620が決定したときには、第2符号化プロセッサ610は何も出力せず、その代わり、第2符号化プロセッサは、将来、瞬時に切り換えて活性化されるように初期化データを提供されている。他方、第1符号化プロセッサは、どの内部メモリを更新するためにも如何なる過去からのデータをも必要としないよう構成されており、従って、現在のオーディオ信号部分が第2符号化プロセッサ610によって符号化されるべき時には、コントローラ620は、制御ライン621を介して、第1符号化プロセッサ600が完全に不活性であるよう制御できる。これは、第1符号化プロセッサ600が、初期化状態又は待機状態である必要がなく、完全な非活性状態でいられることを意味する。このことは、電力消費つまりバッテリ寿命が問題となるモバイル装置にとって特に好適である。
時間ドメインで作動する第2符号化プロセッサの更なる特定の構成において、第2符号化プロセッサは、オーディオ信号部分を低いサンプリングレートを有する表現へと変換するダウンサンプラ900又はサンプリングレート変換部を含み、その低いサンプリングレートは、第1符号化プロセッサへの入力におけるサンプリングレートよりも低い。このことは図9に示されている。特に、入力オーディオ信号が低帯域と高帯域とを含む場合、ブロック900の出力における低サンプリングレート表現は、入力オーディオ信号部分の低帯域だけを有することが好ましく、この低帯域は次に時間ドメインの低帯域符号器910によって符号化される。この符号器910は、ブロック900によって提供された低サンプリングレート表現を時間ドメイン符号化するよう構成されている。更に、時間ドメインの帯域幅拡張符号器920が高帯域をパラメトリックに符号化するために設けられている。この目的で、時間ドメイン帯域幅拡張符号器920は、入力オーディオ信号の少なくとも高帯域、又は入力オーディオ信号の低帯域及び高帯域を受信する。
本発明の更なる実施形態において、オーディオ符号器は、図6には図示しないが図10に図示するように、第1オーディオ信号部分と第2オーディオ信号部分とを前処理するよう構成された前処理部1000をさらに含む。好ましくは、その前処理部1000は2つの分枝を含み、第1分枝は12.8kHzで作動して信号分析を実行し、その結果は後でノイズ推定部やVADなどで使用される。第2分枝はACELPサンプリングレート、即ち構成に依存して12.8又は16.0kHzで作動する。ACELPサンプリングレートが12.8kHzの場合には、この分枝における処理の殆どは実際には省略され、代わりに第1分枝が使用される。
特に、前処理部は過渡検出部1020を含み、第1分枝はリサンプラ1021によって例えば12.8kHzへと「開放され」、その後にプリエンファシス・ステージ1005a、LPC分析部1002a、重み付き分析フィルタリングステージ1022a、及びFFT/ノイズ推定部/ボイス活性検出器(VAD)又はピッチ探索ステージ1007が続く。
第2分枝はリサンプラ1004によって例えば12.8kHz又は16kHz、即ちACELPサンプリングレートへと「開放され」、その後にプリエンファシス・ステージ1005b、LPC分析部1002b、重み付き分析フィルタリングステージ1022b、及びTCX LTP(長期予測)パラメータ抽出ステージ1006が続く。ブロック1006はその出力をビットストリーム・マルチプレクサへと提供する。ブロック1002は、ACELP/TCX決定部によって制御されたLPC量子化部1010に接続されており、ブロック1010もまたビットストリーム・マルチプレクサへと接続されている。
他の実施形態は、代替的に、単一の分枝だけを含むか又はより多数の分枝を含むことができる。一実施形態において、この前処理部は予測係数を決定するための予測分析部を含む。この予測分析部は、LPC(線形予測符号化)係数を決定するためのLPC分析部として構成されてもよい。しかし、他の分析部もまた構成され得る。更に、代替的な実施形態における前処理部は予測係数量子化部を含んでもよく、この予測係数量子化部は予測分析部から予測係数データを受信する。
しかし、好ましくは、LPC量子化部は前処理部の一部である必要がなく、その量子化部は主たる符号化手順の一部として、即ち前処理部の一部ではなく構成される。
更に、前処理部は追加的に、量子化済み予測係数の符号化済みバージョンを生成するためのエントロピー符号器を含み得る。重要な点は、符号化済み信号形成部630又は特定の構成、即ちビットストリーム・マルチプレクサ630により、量子化済み予測係数の符号化済みバージョンが、符号化済みオーディオ信号632の中に確実に含まれるようになることである。好ましくは、LPC係数は直接的に量子化される訳ではなく、例えばISF表現へと変換されるか、又は量子化にとってより適切な他の任意の表現へと変換される。この変換は、好ましくはLPC係数決定ブロックにより実行されるか、又はLPC係数を量子化するブロックの中で実行される。
更に、前処理部は、入力サンプリングレートにおけるオーディオ入力信号を時間ドメイン符号器のための低いサンプリングレートへとリサンプリングする、リサンプラを含んでもよい。時間ドメイン符号器があるACELPサンプリングレートを有するACELP符号器である場合、好ましくは12.8kHz又は16kHzへとダウンサンプリングが実行される。入力サンプリングレートは、32kHz又はそれよりも高いサンプリングレートなど、任意の特定数のサンプリングレートであり得る。他方、時間ドメイン符号器のサンプリングレートは、所定の制限によって予め決定されるであろうし、リサンプラ1004はこのリサンプリングを実行して、入力信号のより低いサンプリングレート表現を出力する。よって、リサンプラは、図9の文脈の中で説明したダウンサンプラ900と類似の機能を実行することができ、更にはダウンサンプラ900と同一の構成要素にさえなり得る。
更に、プリエンファシス・ブロックにおいてプリエンファシスを適用することが望ましい。プリエンファシス処理は時間ドメイン符号化の技術において公知であり、AMR−WB+処理に言及する文献の中で示されている。また、プリエンファシスは特にスペクトル傾斜を補償するよう構成されており、これにより、所与のLPC次数におけるLPCパラメータの好適な計算が可能となる。
更に、前処理部は、図14bにおいて符号1420で示すLTPポストフィルタを制御するための、TCX−LTPパラメータ抽出部を追加的に含んでもよい。加えて、前処理部は符号1007で示す他の機能を追加的に含むこともでき、これら他の機能は、時間ドメインやスピーチ符号化の技術において公知であるピッチ探索機能、ボイス活性検出(VAD)機能、又は他の任意の機能を含んでもよい。
上述したように、ブロック1006の結果は符号化済み信号の中に入力され、即ち図14aの実施形態のように、ビットストリーム・マルチプレクサ630へと入力される。更に、必要な場合には、ブロック1007からのデータもまた、ビットストリーム・マルチプレクサへと入力されることができ、又は代替的に、時間ドメイン符号器における時間ドメイン符号化のために使用され得る。
以上を要約すると、両方の経路に共通して前処理操作1000が存在し、その中で、共通に使用される信号処理操作が実行される。これらの操作は1つの平行経路のためのACELPサンプリングレート(12.8又は16kHz)へのリサンプリングを含み、このリサンプリングは常に実行される。さらにブロック1006で示されるTCX LTPパラメータ抽出が実行され、加えてプリエンファシスとLPC係数の決定とが実行される。上述したようにプリエンファシスはスペクトル傾斜を補償し、よって所与のLPC次数におけるLPCパラメータの計算がより効率的になる。
次に、コントローラ620の好ましい実施形態を示す図8を参照されたい。コントローラは、その入力において考慮対象のオーディオ信号部分を受信する。好ましくは、図14aに示すように、コントローラは前処理部1000において使用可能な任意の信号を受信し、その信号は、入力サンプリングレートにおけるオリジナル入力信号、低い時間ドメイン符号器サンプリングレートにおけるリサンプル済みバージョン、又はブロック1005におけるプリエンファシス処理の後で取得される信号のいずれでもよい。
このオーディオ信号部分に基づいて、コントローラ620は、周波数ドメイン符号器シミュレータ621と時間ドメイン符号器シミュレータ622とに対し、各符号器について、推定された信号対ノイズ比を計算するよう指令する。次いで、選択部623は、所定のビットレートを考慮して、より良好な信号対ノイズ比を提供した符号器を選択する。選択部は次に、制御出力を介して対応する符号器を識別する。考慮対象のオーディオ信号部分が周波数ドメイン符号器を使用して符号化されるべきと決定された場合、時間ドメイン符号器は初期化状態へとセットされるか、又は他の実施形態においては、完全な非活性化状態への瞬時の切換えを必要としない。しかしながら、考慮対象のオーディオ信号部分が時間ドメイン符号器によって符号化されるべきと決定された場合、周波数ドメイン符号器は非活性化される。
次に、図8に示すコントローラの好ましい実施形態について説明する。ACELP経路又はTCX経路のいずれを選ぶべきかの決定は、ACELP及びTCX符号器をシミュレートし、より良好に実行できる分枝に切り換えることで、切換え決定部において実行される。このため、ACELP及びTCX分枝のSNRが、ACELP及びTCXの符号器/復号器シミュレーションに基づいて推定される。TCXの符号器/復号器シミュレーションは、TNS/TTS分析、IGF符号器、量子化ループ/算術符号器、又はいずれのTCX復号器をも使用せずに実行される。代わりに、TCX SNRは、整形されたMDCTドメインにおける量子化部歪みの推定を使用して推定される。ACELP符号器/復号器のシミュレーションは、適応型符号帳及び革新的符号帳のシミュレーションだけを使用して実行される。ACELP SNRは、LTPフィルタにより重み付き信号ドメイン(適応型符号帳)内に導入された歪みを計算し、この歪みを定数ファクタ(革新的符号帳)によりスケーリングすることで、単純に推定される。このようにして、TCX及びACELP符号化が並列に実行される手法と比べ、複雑性が大幅に低減される。より高いSNRを有する分枝が、後続の完全な符号化作動のために選択される。
TCX分枝が選択された場合、各フレームでTCX復号器が作動し、ACELPサンプリングレートにおける信号を出力する。この信号は、ACELP符号化経路(LPC残差、Mem we、メモリ・デエンファシス)のために使用されるメモリを更新するために使用され、TCXからACELPへの瞬時の切換えを可能にする。メモリの更新は各TCX経路内で実行される。
代替的に、完全な合成による分析処理が実行され得る。即ち、両方の符号器シミュレータ621、622が実際の符号化操作を行い、それらの結果が選択部623により比較される。代替的にまた、完全なフィードフォワード計算が信号分析を実行することにより行われ得る。例えば、信号分類部により信号がスピーチ信号であると決定された場合には、時間ドメイン符号器が選択され、信号が楽音信号であると決定された場合には、周波数ドメイン符号器が選択される。考慮対象のオーディオ信号部分の信号分析に基づく両方の符号器間の識別のための他の手法も、また適用可能である。
好ましくは、オーディオ符号器は、図7aに示すクロスプロセッサ700を追加的に含み得る。周波数ドメイン符号器600が活性化しているとき、クロスプロセッサ700は時間ドメイン符号器610に対して初期化データを提供し、時間ドメイン符号器が将来の信号部分において切れ目のない切換えに対応できるようにする。換言すれば、現在の信号部分は周波数ドメイン符号器を使用して符号化されるべきと決定され、かつ直後のオーディオ信号部分は時間ドメイン符号器610によって符号化されるべき、とコントローラが決定した場合、上述のクロスプロセッサがなくては、そのような即時の切れ目のない切換えは不可能であろう。しかし、クロスプロセッサは、時間ドメイン符号器内のメモリを初期化する目的で、周波数ドメイン符号器600から導出された信号を時間ドメイン符号器610へと提供する。なぜなら、時間ドメイン符号器610は、時間的に直前のフレームの入力信号又は符号化済み信号からの、現フレームの依存性を有するからである。
このように、時間ドメイン符号器610は、周波数ドメイン符号器600により符号化された以前のオーディオ信号部分に後続するオーディオ信号部分を効率的な方法で符号化できるように、初期化データによって初期化されるよう構成されている。
特に、クロスプロセッサは、周波数ドメイン表現を時間ドメイン表現へと変換する周波数−時間変換部を含み、その時間ドメイン表現は、時間ドメイン符号器へと直接的に又は幾つかの更なる処理の後に送られ得る。この変換部は、図14aの中でIMDCT(逆修正離散コサイン変換)ブロックとして示されている。しかし、このブロック702は、時間−周波数変換ブロック602とは異なる変換サイズを有し、そのブロック602は、図14aでは修正離散コサイン変換ブロックとして示されている。ブロック602に示すように、幾つかの実施形態において、時間−周波数変換部602は入力サンプリングレートで作動し、逆修正離散コサイン変換部702はより低いACELPサンプリングレートで作動する。
8kHzの入力サンプリングレートを有する狭帯域作動モードのような他の実施形態において、TCX分枝が8kHzで作動し、他方、ACELPが依然として12.8kHzで作動することもある。即ち、ACELP SRはTCXサンプリングレートよりも常に低いとは限らない。16kHzの(広帯域)入力サンプリングレートの場合には、ACELPがTCXと同じサンプリングレート、即ち両方が16kHzで作動するというシナリオも存在する。超広帯域モード(SWB)においては、入力サンプリングレートは32又は48kHzである。
時間ドメイン符号器サンプリングレート又はACELPサンプリングレートと、周波数ドメイン符号器サンプリングレート又は入力サンプリングレートとの比が計算されることができ、この比が図7bに示すダウンサンプリング係数DSとなる。ダウンサンプリング操作の出力サンプリングレートが入力サンプリングレートよりも低い場合、ダウンサンプリング係数は1よりも大きい。しかし、実際にはアップサンプリングも存在し、その場合、ダウンサンプリングレートは1よりも低く、実際のアップサンプリングが実行される。
ダウンサンプリング係数が1よりも大きい場合、即ち現実のダウンサンプリングの場合、ブロック602は大きな変換サイズを有し、IMDCTブロック702は小さな変換サイズを有する。従って、図7bに示すように、IMDCTブロック702は、IMDCTブロック702への入力のより低いスペクトル部分を選択する選択部726を含む。全帯域スペクトルのその部分はダウンサンプリング係数DSによって定義される。例えば、低いサンプリングレートが16kHzで、入力サンプリングレートが32kHzである場合、ダウンサンプリング係数は2.0となり、よって、選択部726は全帯域スペクトルの下半分を選択する。例えば、スペクトルが1024個のMDCTラインを持つときは、選択部は下側の512個のMDCTラインを選択する。
全帯域スペクトルのこの低い周波数部分は、図7bに示すように、小サイズ変換及び折り込み(foldout)ブロック720へと入力される。その変換サイズはまた、ダウンサンプリング係数に従って選択され、ブロック602の変換サイズの50%である。次に、少数の係数を有する窓を用いた合成窓掛けが実行される。合成窓の係数の個数は、ブロック602によって使用された分析窓の係数の個数により乗算されたダウンサンプリング係数の逆数と等しい。最後に、オーバーラップ加算操作がブロック毎に少数の操作によって実行され、そのブロック毎の操作の数はまた、ダウンサンプリング係数の逆数により乗算された全レート構成のMDCTにおけるブロック毎の操作の数である。
このように、ダウンサンプリングがIMDCT構成の中に含まれているため、非常に効率的なダウンサンプリング操作が適用され得る。この文脈において強調すべき点は、ブロック702はIMDCTによって構成され得るが、実際の変換カーネル及び他の変換関連の操作において適切にサイズ化され得る、他の如何なる変換又はフィルタバンク構成よってもまた構成され得ることである。
ダウンサンプリング係数が1よりも小さい場合、即ち現実のアップサンプリングの場合には、図7のブロック720,722,724,726の記述内容が逆となるべきである。ブロック726は全帯域スペクトルを選択し、全帯域スペクトルに含まれない上側のスペクトルラインについては追加的にゼロを選択する。ブロック720はブロック710よりも大きな変換サイズを有し、ブロック722はブロック712の係数よりも多数の係数を持つ窓を有し、ブロック724もまたブロック714よりも多数の操作数を有する。
ブロック602は小さな変換サイズを持ち、IMDCTブロック702は大きな変換サイズを持つ。従って、図7bに示すように、IMDCTブロック702はIMDCTブロック702への入力の全スペクトル部分を選択する選択部726を含み、出力のために必要な追加的な高帯域についてはゼロ又はノイズが選択されて、必要な上側帯域内へと配置される。全帯域スペクトルのその部分はダウンサンプリング係数DSにより定義される。例えば、高いサンプリングレートが16kHzであって、入力サンプリングレートが8kHzである場合、ダウンサンプリング係数は0.5となり、従って、選択部726は全帯域スペクトルを選択し、全帯域周波数ドメインスペクトル内に含まれない上側部分については、好ましくはゼロ又は小エネルギーのランダムノイズを追加的に選択する。スペクトルが例えば1024個のMDCTラインを持つ場合、選択部はそれら1024個のMDCTラインを選択し、追加的な1024個のMDCTラインについては好ましくはゼロが選択される。
全帯域スペクトルのこの周波数部分は、図7bに示すように、この場合は大きなサイズの変換及び折り込みブロック720へと入力される。変換サイズはまた、ダウンサンプリング係数に従って選択され、ブロック602における変換サイズの200%となる。その場合、多数の係数を持つ窓を用いた合成窓掛けが実行される。合成窓の係数の個数は、ブロック602により使用される分析窓の係数の個数により除算された逆ダウンサンプリング係数と等しい。最後に、オーバーラップ加算操作がブロック毎に多数の操作を用いて実行され、ブロック毎の操作の数はまた、ダウンサンプリング係数の逆数により乗算された全レート構成のMDCTにおけるブロック毎の操作の数である。
このように、アップサンプリングがIMDCT構成に含まれることから、非常に効率的なアップサンプリング操作が適用され得る。この文脈において強調すべき点は、ブロック702はIMDCTによって構成され得るが、実際の変換カーネル及び他の変換関連の操作において適切にサイズ化され得る、他の如何なる変換又はフィルタバンク構成よってもまた構成され得ることである。
一般的に、周波数ドメインにおけるサンプルレートの定義には多少の説明を必要とする。スペクトル帯域はダウンサンプリングされる場合が多い。よって、有効サンプリングレート、「関連する」サンプル又はサンプリングレートの表記が使用される。フィルタバンク/変換の場合、有効サンプルレートは以下のように定義され得るであろう。
Fs_eff=subbandsamplerate*num_subbands
図14aに示すさらなる実施形態において、時間−周波数変換部は、分析部に加えて追加的な機能を含む。図6の分析部604は、図14aの実施形態では時間的ノイズ整形/時間的タイル整形分析ブロック604aを含んでもよく、このブロック604aは、TNS/TTS分析ブロック604aとして図2bのブロック222の文脈において説明するように作動し、図14a内のIGF符号器604bは、それと対応する図2bの調性マスク226に関して説明するように作動する。
更に、周波数ドメイン符号器は、好ましくはノイズ整形ブロック606aを含む。ノイズ整形ブロック606aは、ブロック1010により生成された量子化済みLPC係数により制御される。ノイズ整形606aのために使用された量子化済みLPC係数は、高分解能スペクトル値又は(パラメトリックに符号化されたのではなく)直接的に符号化されたスペクトルラインのスペクトル整形を実行し、ブロック606aの結果は、後段で説明するLPC分析フィルタリングブロック706のように時間ドメインで作動するLPCフィルタリングステージの後の信号のスペクトルと類似している。更に、ノイズ整形ブロック606aの結果は、次にブロック606bで示すように、量子化されエントロピー符号化される。ブロック606bの結果は、(他のサイド情報と一緒に)符号化された第1オーディオ信号部分又は周波数ドメイン符号化されたオーディオ信号部分に対応する。
クロスプロセッサ700は、第1符号化済み信号部分の復号化済みバージョンを計算するスペクトル復号器を含む。図14aの実施形態において、スペクトル復号器701は、逆ノイズ整形ブロック703と、任意選択的なギャップ充填復号器704と、TNS/TTS合成ブロック705と、前述のIMDCTブロック702とを含む。これらのブロックは、ブロック602〜606bにより実行された特定の操作を逆戻しする。特に、ノイズ整形ブロック703は、量子化されたLPC係数1010に基づいてブロック606aにより実行されたノイズ整形を逆戻しする。IGF復号器704は図2Aに関してブロック202と206として説明したように作動し、TNS/TTS合成ブロック705は図2Aのブロック210の文脈で説明したように作動し、スペクトル復号器はIMDCTブロック702を追加的に含む。更に、図14aのクロスプロセッサ700は、追加的又は代替的に遅延ステージ707を含み、その遅延ステージは、スペクトル復号器701によって取得された復号化済みバージョンの遅延バージョンを、第2符号化プロセッサのデエンファシス・ステージ617に、そのデエンファシス・ステージ617を初期化するために供給するものである。
更に、クロスプロセッサ700は、追加的又は代替的に重み付き予測係数分析フィルタリングステージ708を含み、そのステージは、復号化済みバージョンをフィルタリングし、そのフィルタリングされた復号化済みバージョンを、図14aでは第2符号化プロセッサの「MMSE」として示されている符号帳決定部613に対して、このブロックを初期化するために供給するものである。代替的又は追加的に、クロスプロセッサはLPC分析フィルタリングステージを含み、このステージは、スペクトル復号器701によって出力された第1符号化済み信号部分の復号化済みバージョンをフィルタリングし、それを適応型符号帳ステージ612に対して、このブロック612の初期化のために供給するものである。代替的又は追加的に、クロスプロセッサは、スペクトル復号器701により出力された復号化済みバージョンに対してLPCフィルタリングの前にプリエンファシス処理を実行する、プリエンファシス・ステージ709を含む。プリエンファシス・ステージの出力は、時間ドメイン符号器610内のLPC合成フィルタリングブロック616の初期化のために、追加の遅延ステージ710にも供給され得る。
時間ドメイン符号化プロセッサ610は、図14aに示すように、低いACELPサンプルレートで作動するプリエンファシスを含む。図示するように、このプリエンファシスは、前処理ステージ1000の中で実行されるプリエンファシスであり、参照符号1005を有する。プリエンファシスデータは、時間ドメインで作動しているLPC分析フィルタリングステージ611へと入力され、かつこのフィルタは、前処理ステージ1000によって取得された量子化済みLPC係数1010によって制御される。AMR−WB+、USAC又は他のCELP符号器から公知のように、ブロック611により生成された残差信号は適応型符号帳612に供給され、さらにその適応型符号帳612は革新的符号帳ステージ614に接続され、適応型符号帳612及び革新的符号帳からの符号帳データは前述のビットストリーム・マルチプレクサへと入力される。
更に、ACELPゲイン/符号化ステージ615が革新的符号帳ステージ614と直列に設けられ、このブロックの結果は、図14aではMMSEとして示される符号帳決定ブロック613へと入力される。このブロックは革新的符号帳ブロック614と協働する。更に、時間ドメイン符号器は、LPC合成フィルタリングブロック616と、デエンファシスブロック617と、適応型低音ポストフィルタのためのパラメータを計算する適応型低音ポストフィルタステージ618と、を有する復号器部分を追加的に含むが、この適応型低音ポストフィルタは復号器側で適用される。復号器側に適応型低音ポストフィルタリングがない場合には、ブロック616,617,618は時間ドメイン符号器610には不要となるであろう。
図示するように、時間ドメイン符号器の複数のブロックは先行する信号に依存し、これらのブロックとは、適応型符号帳ブロック612と、符号帳決定部613と、LPC合成フィルタリングブロック616と、デエンファシスブロック617である。これらブロックには、周波数ドメイン符号化プロセッサのデータから導出された、クロスプロセッサからのデータが供給され、周波数ドメイン符号器から時間ドメイン符号器への瞬時の切換えの準備をするために、これらブロックを初期化する。図14aから更に分かるように、周波数ドメイン符号器にとっては以前のデータに対する如何なる依存性も必要でない。従って、クロスプロセッサ700は、時間ドメイン符号器から周波数ドメイン符号器に対して如何なるメモリ初期化データも提供しない。しかし、過去からの依存性が存在しかつメモリ初期化データが必要とされる、周波数ドメイン符号器の他の実施形態に関しては、クロスプロセッサ700は両方向に作動するよう構成される。
図14bの好ましいオーディオ復号器について、以下に説明する。波形復号器部分は全帯域TCX復号器経路とIGFとから構成され、両方がコーデックの入力サンプリングレートで作動している。これと並行して、低いサンプリングレートにおける代替的なACELP復号器経路が存在し、この経路は更にTD−BWEによって下流で補強されている。
TCXからACELPへの切換え時のACELP初期化のために、(共有されたTCX復号器の前置部であって低いサンプリングレートで追加的に出力を提供する部分と幾分かの後処理部とにより構成される)クロス経路が存在し、それが本発明のACELP初期化を実行する。LPCにおいて、TCXとACELPとの間で同じサンプリングレートとフィルタ次数を共有することで、より容易でかつ効率的なACELP初期化が可能となる。
切換えを可視化するために、2つのスイッチを図14bに示す。第2スイッチ1160は、下流側でTCX/IGF又はACELP/TD−BWEの出力の間で選択を行う一方で、第1スイッチ1480は、ACELP経路の下流のリサンプリングQMFステージにおけるバッファをクロス経路の出力によって事前更新するか、又はACELP出力を単に通過させる。
次に、本発明の態様に係るオーディオ復号器の構成を、図11a〜図14cに関して説明する。
符号化済みオーディオ信号1101を復号化するオーディオ復号器は、第1符号化済みオーディオ信号部分を周波数ドメインで復号化する第1復号化プロセッサ1120を含む。第1復号化プロセッサ1120はスペクトル復号器1122を含み、このスペクトル復号器は、第1スペクトル領域を高スペクトル分解能で復号化し、かつ第2スペクトル領域のパラメトリック表現及び少なくとも1つの復号化済み第1スペクトル領域を使用して第2スペクトル領域を合成して、復号化済みスペクトル表現を取得する。この復号化済みスペクトル表現は、図6に関連して説明し、かつ図1aにも関連して説明したように、全帯域の復号化済みスペクトル表現である。従って、一般的に、第1復号化プロセッサは、周波数ドメインにおけるギャップ充填処理を有する全帯域の構成を含む。第1復号化プロセッサ1120は、復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得する、周波数−時間変換部1124をさらに含む。
更に、オーディオ復号器は、第2符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2信号部分を取得する、第2復号化プロセッサ1140を含む。更に、オーディオ復号器は、復号化済み第1信号部分と復号化済み第2信号部分とを結合して復号化済みオーディオ信号を取得する、結合部1160を含む。復号化済み信号部分は順次結合されていき、この様子は、図11aの結合部1160の一実施形態を表す図14bのスイッチ構成1160によっても示されている。
好ましくは、第2復号化プロセッサ1140は、時間ドメイン帯域幅拡張プロセッサ1220を含み、また図12に示すように、低帯域時間ドメイン信号を復号化するための時間ドメイン低帯域復号器1200を含む。この構成は、低帯域時間ドメイン信号をアップサンプリングするためのアップサンプラ1210を更に含む。加えて、出力オーディオ信号の高帯域を合成するために、時間ドメイン帯域幅拡張復号器1220が設けられている。更にミキサ1230が設けられ、このミキサは、時間ドメイン出力信号の合成された高帯域と、アップサンプリングされた低帯域時間ドメイン信号とをミキシングして、時間ドメイン復号器出力を取得する。よって、図11aのブロック1140は、好ましい実施形態における図12の機能によって構成され得る。
図13は、図12の時間ドメイン帯域幅拡張復号器1220の好ましい一実施形態を示す。好ましくは、時間ドメインのアップサンプラ1221が設けられ、このアップサンプラは、入力としてLPC残差信号を時間ドメイン低帯域復号器から受信し、この時間ドメイン低帯域復号器は、ブロック1140内に含まれ、図12において符号1200で示され、図14bの文脈において更に示されている。時間ドメインのアップサンプラ1221は、LPC残差信号のアップサンプリング済みバージョンを生成する。このバージョンは次に非線形歪みブロック1222へと入力され、そのブロックは、その入力信号に基づいて、より高い周波数値を有する出力信号を生成する。非線形歪みは、コピーアップ、ミラーリング、周波数シフト、又は、非線形領域で作動されるダイオード若しくはトランジスタなどの非線形の計算操作若しくはデバイスであってもよい。ブロック1222の出力信号はLPC合成フィルタリングブロック1223へと入力され、このブロック1223は、低帯域復号器のためにも使用されるLPCデータにより、又は例えば図14aの符号器側にある時間ドメイン帯域幅拡張ブロック920により生成される特定の包絡データにより、制御される。LPC合成ブロックの出力は、次に帯域通過又は高域通過フィルタ1224へと入力されて最終的に高帯域を取得し、この高帯域は、次に図12に示されるミキサ1230へと入力される。
次に、図12のアップサンプラ1210の好ましい一実施形態を、図14bに関連して説明する。このアップサンプラは、好ましくは、第1時間ドメイン低帯域復号器サンプリングレートで作動する分析フィルタバンクを含む。そのような分析フィルタバンクのある具体的な構成は、図14bに示すQMF分析フィルタバンク1471である。更に、このアップサンプラは、第1時間ドメイン低帯域サンプリングレートよりも高い第2出力サンプリングレートで作動する、合成フィルタバンク1473を含む。よって、一般的なフィルタバンクの好ましい構成であるQMF合成フィルタバンク1473は、出力サンプリングレートで作動する。図7bに関連して説明したダウンサンプリング係数DSが0.5である場合、QMF分析フィルタバンク1471は例えば32個だけのフィルタバンクチャネルを持ち、QMF合成フィルタバンク1473は例えば64個のQMFチャネルを持つが、それらフィルタバンクチャネルの高い方の半分、即ち上側32個のフィルタバンクチャネルにはゼロ又はノイズが供給され、他方、下側32個のフィルタバンクチャネルにはQMF分析フィルタバンク1471により提供された対応する信号が供給される。しかしながら、帯域通過フィルタリング1472がQMFフィルタバンクドメイン内で実行されるのが好ましく、これにより、QMF合成出力1473がACELP復号器出力のアップサンプリング済みバージョンとなる一方で、ACELP復号器の最大周波数より高い如何なるアーチファクトも生じないことが確保される。
帯域通過フィルタリング1472に追加して又は代替的に、更なる処理操作がQMFドメイン内で実行されてもよい。如何なる処理も実行されない場合、QMF分析及びQMF合成は効率的なアップサンプラ1210を構成する。
次に、図14bの個別の要素の構成についてより詳細に説明する。
全帯域周波数ドメイン復号器1120は、高分解能スペクトル係数を復号化し、加えて例えばUSAC技術から知られる低帯域部分におけるノイズ充填を実施する、第1復号化ブロック1122aを含む。更に、全帯域復号器は、符号器側においてパラメトリックにのみ符号化され、従って低い分解能で符号化されていた、合成されたスペクトル値を使用して、スペクトルの穴を充填するためのIGF処理部1122bを含む。次に、ブロック1122cにおいて逆ノイズ整形が実行され、その結果がTNS/TTS合成ブロック705へと入力され、そのブロック705は、最終的な出力として周波数/時間変換部1124への入力を提供し、その変換部1124は、好ましくは、出力サンプリングレート、即ち高いサンプリングレートで作動する逆修正離散コサイン変換として構成される。
更に、ハーモニック又はLTPポストフィルタが使用され、このフィルタは図14aのTCX LTPパラメータ抽出ブロック1006により取得されたデータによって制御されている。その結果は、出力サンプリングレートにおける復号化済み第1オーディオ信号部分であり、図14bから分かるように、このデータは高いサンプリングレートを持ち、よって、如何なる追加の周波数補強も全く必要でない。なぜなら、この復号化プロセッサは、好ましくは図1a〜図5cの文脈で説明したインテリジェント・ギャップ充填技術を使用して作動する、周波数ドメインの全帯域復号器だからである。
図14bの複数の構成要素は図14aのクロスプロセッサ700における対応するブロックと非常に似ており、特にIGF復号器704に関してはIGF処理1122bと対応し、量子化済みLPC係数1145により制御される逆ノイズ整形操作は図14aの逆ノイズ整形703と対応し、図14bのTNS/TTS合成ブロック705は図14aのブロックTNS/TTS合成705と対応する。しかし重要なことは、図14bのIMDCTブロック1124は高サンプリングレートで作動し、他方、図14aのIMDCTブロック702は低サンプリングレートで作動することである。従って、図14bのブロック1124は、大きなサイズの変換及び折り込みブロック710と、ブロック712の合成窓と、オーバーラップ加算ステージ714とを含み、それらはブロック702内で操作される図7bの対応する特徴720,722,724と比較して、多数の操作と多数の窓係数と大きな変換サイズとを有する。この点については、後段で図14bにおけるクロスプロセッサ1170のブロック1171に関しても説明する。
時間ドメイン復号化プロセッサ1140は、好ましくはACELP又は時間ドメイン低帯域復号器1200を含み、その復号器は、復号化済みゲイン及び革新的符号帳情報を取得するACELP復号器ステージ1149を含む。さらにACELP適応型符号帳ステージ1141が設けられ、次いでACELP後処理ステージ1142及びLPC合成フィルタ1143のような最終合成フィルタが設けられ、この最終合成フィルタは、ビットストリーム・デマルチプレクサ1100から得られた量子化済みLPC係数1145によって制御され、そのデマルチプレクサは図11aの符号化済み信号解析部1100と対応する。LPC合成フィルタ1143の出力はデエンファシス・ステージ1144へと入力され、そのステージ1144は図14aの前処理部1000のプリエンファシス・ステージ1005により導入された処理をキャンセル又は逆戻しする。その結果は低サンプリングレート及び低帯域における時間ドメイン出力信号であり、時間ドメイン出力が必要な場合には、スイッチ1480が図示する位置にあり、デエンファシス・ステージ1144の出力はアップサンプラ1210へと入力されて、次に時間ドメイン帯域幅拡張復号器1220からの高帯域とミキシングされる。
本発明の実施形態によれば、オーディオ復号器は図11b及び図14bに示すクロスプロセッサ1170を更に含み、このクロスプロセッサは、第1符号化済みオーディオ信号部分の復号化済みスペクトル表現から、第2復号化プロセッサの初期化データを計算する。これにより、符号化済みオーディオ信号内の第1オーディオ信号部分に時間的に後続する符号化済み第2オーディオ信号部分を復号化するために、第2復号化プロセッサが初期化される。即ち、時間ドメイン復号化プロセッサ1140が、あるオーディオ信号部分から次の部分へと品質又は効率において損失なく瞬時に切換えられるように、準備された状態となる。
好ましくは、クロスプロセッサ1170は、第1復号化プロセッサの周波数−時間変換部よりも低いサンプリングレートで作動する追加的な周波数−時間変換部1171を含み、追加の復号化済み第1信号部分を時間ドメインで取得する。その追加の復号化済み第1信号部分は、初期化信号として使用されることができ、又は、それから任意の初期化データが導出されることもできる。このIMDCT又は低いサンプリングレートの周波数−時間変換部は、好ましくは、図7bに示す項目726(選択部)、項目720(小さなサイズの変換及び折り込み)、符号722で示すような少数の窓係数を用いた合成窓掛け、符号724で示すような少数の操作を用いたオーバーラップ加算ステージとして構成される。このように、周波数ドメイン全帯域復号器におけるIMDCTブロック1124は、ブロック710、712、714で示すように構成され、IMDCTブロック1171は、図7bのブロック726、720、722、724で示すように構成される。ここでも、ダウンサンプリング係数は、時間ドメイン符号器サンプリングレート又は低いサンプリングレートと、高い周波数ドメイン符号器サンプリングレート又は出力サンプリングレートとの比であり、このダウンサンプリング係数は、0より大きく、1より小さい如何なる数値であり得る。
図14bに示すように、クロスプロセッサ1170は、単独で又は他の構成要素に加えて遅延ステージ1172を更に含み、その遅延ステージは、前述の追加の復号化済み第1信号部分を遅延させ、その遅延された復号化済み第1信号部分を初期化のために第2復号化プロセッサのデエンファシス・ステージ1144へと供給するものである。更に、クロスプロセッサは、追加的又は代替的に、追加の復号化済み第1信号部分をフィルタリング及び遅延させるためのプリエンファシスフィルタ1173及び遅延ステージ1175を含み、ブロック1175の遅延された出力は、初期化のためにACELP復号器のLPC合成フィルタリングステージ1143へと提供される。
更に、クロスプロセッサは、代替的に又は上述した他の構成要素に追加して、LPC分析フィルタ1174を含んでもよく、この分析フィルタは、追加の復号化済み第1信号部分又はプリエンファシス済みの追加の復号化済み第1信号部分から予測残差信号を生成し、そのデータを第2復号化プロセッサの符号帳合成部及び好ましくは適応型符号帳ステージ1141に対して供給する。更に、低サンプリングレートを有する周波数−時間変換部1171の出力は、初期化の目的で、即ち現在復号化されつつあるオーディオ信号部分が周波数ドメイン全帯域復号器1120により供給されるとき、アップサンプラ1210のQMF分析ステージ1471にも入力される。
好ましいオーディオ復号器を以下に説明する。波形復号器部分は、全帯域TCX復号器経路とIGFとから構成され、両方がコーデックの入力サンプリングレートで作動している。これと並行して、低いサンプリングレートにおける代替的なACELP復号器経路が存在し、この経路は更にTD−BWEによって下流で補強されている。
TCXからACELPへの切換え時のACELP初期化のために、(共有されたTCX復号器の前置部であって低いサンプリングレートで追加的に出力を提供する部分と幾分かの後処理部とにより構成される)クロス経路が存在し、それが本発明のACELP初期化を実行する。LPCにおいて、TCXとACELPとの間で同じサンプリングレートとフィルタ次数を共有することで、より容易でかつ効率的なACELP初期化が可能となる。
切換えを可視化するために、2つのスイッチを図14bに示す。第2スイッチ1160は、下流側でTCX/IGF又はACELP/TD−BWEの出力の間で選択を行う一方で、第1スイッチ1480は、ACELP経路の下流のリサンプリングQMFステージにおけるバッファをクロス経路の出力によって事前更新するか、又はACELP出力を単に通過させる。
要約すると、単体で又は組合せで使用可能な本発明の好ましい態様は、ACELP及びTD−BWE符号器と全帯域可能なTCX/IGF技術との結合に関連し、好ましくはクロス信号を使用することにも関連する。
更なる具体的な特徴は、切れ目のない切換えを可能にする、ACELP初期化のためのクロス信号経路である。
更なる態様は、クロス経路におけるサンプルレート変換を効率的に実行するために、短いIMDTには高レートの長いMDCT係数のより低い部分が供給されることである。
更なる特徴は、復号器において全帯域TCX/IGFと部分的に共有されたクロス経路を効率的に実現することである。
更なる特徴は、TCXからACELPへの切れ目ない切換えを可能にする、QMF初期化のためのクロス信号経路である。
追加的な特徴は、ACELPからTCXへの切り換え時に、ACELPリサンプリング済み出力とフィルタバンク−TCX/IGF出力との間の遅延ギャップを補償できるようにする、QMFへのクロス信号経路である。
更なる態様は、TCX/IGF符号器/復号器が全帯域可能であるにもかかわらず、LPCが同一のサンプリングレート及びフィルタ次数でTCXとACELP符号器との両方に対して提供されることである。
次に、独立型の復号器として、又は全帯域可能な周波数ドメイン復号器との組合せにおいて作動する、時間ドメイン復号器の好ましい構成例として、図14cを説明する。
一般的に、時間ドメイン復号器は、ACELP復号器と、その後に接続されたリサンプラ又はアップサンプラと、時間ドメイン帯域幅拡張機能とを含む。特に、ACELP復号器は、ゲイン及び革新的符号帳を回復するACELP復号化ステージ1149と、ACELP適応型符号帳ステージ1141と、ACELP後処理部1142と、ビットストリーム・デマルチプレクサ又は符号化済み信号解析部からの量子化済みLPC係数により制御されたLPC合成フィルタ1143と、その後に接続されたデエンファシス・ステージ1144とを含む。好ましくは、ACELPサンプリングレートにおける復号化済み時間ドメイン信号は、ビットストリームからの制御データとともに時間ドメイン帯域幅拡張復号器1220へと入力され、復号器1220はその出力において高帯域を提供する。
デエンファシス1144の出力をアップサンプリングするために、QMF分析ブロック1471を含むアップサンプラと、QMF合成ブロック1473とが設けられる。ブロック1471と1473とにより定義されるフィルタバンクドメインの中に、好ましくは帯域通過フィルタが適用される。特に、前述したように、同じ参照符号を使って前段で説明したブロックと同じ機能が使用され得る。更に、時間ドメイン帯域幅拡張復号器1220が図13で示したように構成されることができ、一般的には、ACELP残差信号又はACELPサンプリングレートにおける時間ドメイン残差信号を、最終的に帯域幅拡張信号の出力サンプリングレートへとアップサンプリングすることが含まれる。
次に、全帯域可能な周波数ドメインの符号器及び復号器に関する詳細について、図1a〜図5cを参照しながら説明する。
図1aはオーディオ信号99を符号化する装置を示す。オーディオ信号99は時間スペクトル変換部100へと入力され、この時間スペクトル変換部により、あるサンプリングレートを有するオーディオ信号がスペクトル表現101へと変換されて出力される。スペクトル101は、このスペクトル表現101を分析するスペクトル分析部102へと入力される。スペクトル分析部102は、第1スペクトル分解能で符号化されるべき第1スペクトル部分の第1セット103と、これと異なる第2スペクトル分解能で符号化されるべき第2スペクトル部分の第2セット105と、を決定するよう構成されている。第2スペクトル分解能は第1スペクトル分解能よりも小さい。第2スペクトル部分の第2セット105は、第2スペクトル分解能を有するスペクトル包絡情報を計算するためのパラメータ計算部又はパラメトリック符号器104へと入力される。更に、スペクトルドメインオーディオ符号器106が、第1スペクトル分解能を有する第1スペクトル部分の第1セットの第1符号化済み表現107を生成するために設けられている。更に、パラメータ計算部/パラメトリック符号器104は、第2スペクトル部分の第2セットの第2符号化済み表現109を生成するよう構成されている。第1符号化済み表現107と第2符号化済み表現109とは、ビットストリーム・マルチプレクサ又はビットストリーム形成部108へと入力され、このブロック108が最終的に、伝送のため又はストレージデバイスにおける記憶のために符号化済みオーディオ信号を出力する。
典型的には、図3aの306のような第1スペクトル部分は、307a,307bのような2つの第2スペクトル部分により囲まれるであろう。しかしこれは、コア符号器周波数範囲が帯域制限されているような、例えばHE−AACの場合には当てはまらない。
図1bは、図1aの符号器と適合する復号器を示す。第1符号化済み表現107は、第1スペクトル部分の第1セットの第1復号化済み表現を生成するスペクトルドメインのオーディオ復号器112へと入力され、その第1復号化済み表現は第1スペクトル分解能を持つ。更に、第2符号化済み表現109は、第2スペクトル部分の第2セットの第2復号化済み表現を生成するパラメトリック復号器114へと入力され、その第2復号化済み表現は第1スペクトル分解能よりも低い第2スペクトル分解能を持つ。
この復号器は、第1スペクトル部分を使用して第1スペクトル分解能を有する復元された第2スペクトル部分を再生成する、周波数再生成部116を含む。周波数再生成部116はタイル充填操作を実行する。即ち、第1スペクトル部分の第1セットのタイル又は部分を使用し、この第1スペクトル部分の第1セットを第2スペクトル部分を有する復元領域又は復元帯域へとコピーし、パラメトリック復号器114により出力された復号化済みの第2表現により指示される、即ち第2スペクトル部分の第2セットに係る情報を使用して、典型的にはスペクトル包絡整形又は他の操作を実行する。復号化された第1スペクトル部分の第1セットと、周波数再生成部116の出力においてライン117で示された復元されたスペクトル部分の第2セットとは、スペクトル−時間変換部118へと入力され、ここで、第1の復号化された表現と復元された第2スペクトル部分とが時間表現119、即ち、ある高いサンプリングレートを有する時間表現へと変換される。
図2bは図1aの符号器の一実施形態を示す。オーディオ入力信号99は、図1aの時間−周波数変換部100に対応する分析フィルタバンク220へと入力される。次に、TNSブロック222において、時間的ノイズ整形操作が実行される。従って、図2bの調性マスクブロック226に対応する図1aのスペクトル分析部102への入力は、時間的ノイズ整形/時間的タイル整形操作が適用されない場合には全スペクトル値であることができ、図2bのブロック222で示すようなTNS操作が適用される場合にはスペクトル残差値であることができる。2チャネル信号又は多チャネルの信号については、ジョイントチャネル符号化228が追加的に実行されることができ、図1aのスペクトルドメイン符号器106は、そのジョイントチャネル符号化ブロック228を含み得る。更に、損失のないデータ圧縮を実行するためのエントロピー符号器232が設けられ、これも図1aのスペクトルドメイン符号器106の一部である。
スペクトル分析部/調性マスク226は、TNSブロック222の出力を、図1aにおける第1スペクトル部分の第1セット103に対応するコア帯域及び調性成分と、図1aにおける第2スペクトル部分の第2セット105に対応する残差成分とに分離する。IGFパラメータ抽出符号化として示されたブロック224は、図1aのパラメトリック符号器104に対応し、ビットストリーム・マルチプレクサ230は、図1aのビットストリーム・マルチプレクサ108に対応する。
好ましくは、分析フィルタバンク222はMDCT(修正離散コサイン変換フィルタバンク)として構成され、そのMDCTは信号99を、周波数分析ツールとして作動する修正離散コサイン変換を用いて、時間−周波数ドメインへと変換するために使用される。
スペクトル分析部226は、好ましくは調性マスクを適用する。この調性マスク推定ステージは、信号内のノイズ状成分から調性成分を分離するために使用される。これにより、コア符号器228は、全ての調性成分を聴覚心理モジュールを用いて符号化できるようになる。
この方法は、非特許文献1の古典的なSBRと比べ、マルチトーン信号のハーモニックグリッドがコア符号器によって維持される一方で、正弦曲線同士の間のギャップだけがソース領域からの最良一致する「整形されたノイズ」によって充填される、という利点がある。
ステレオチャネルペアの場合には、追加のジョイントステレオ処理が適用される。この処理は、ある目標領域(destination range)については、信号が高度に相関されたパンニング済みの音源であり得るため、必要である。この特別な領域のために選択されたソース領域が良好に相関されていない場合、たとえエネルギーが目標領域に適合していても、空間イメージは非相関のソース領域に起因して悪影響を受ける可能性がある。符号器は、典型的にはスペクトル値のクロス相関を実行して各目標領域のエネルギー帯域を分析し、ある閾値を超える場合には、このエネルギー帯域に対してジョイントフラグを設定する。復号器においては、このジョイントステレオフラグが設定されていない場合、左右のチャネルエネルギー帯域は個別に処理される。このジョイントステレオフラグが設定されている場合には、エネルギー及びパッチングの両方がジョイントステレオドメインにおいて実行される。IGF領域のためのジョイントステレオ情報は、コア符号化のためのジョイントステレオ情報と同様に信号化され、予測については予測の方向がダウンミックスから残差へ、又はその逆かを指示するフラグを含む。
エネルギーは、L/Rドメインで伝送されたエネルギーから計算され得る。
Figure 2021099497
ここで、kは変換ドメインにおける周波数インデックスである。
他の解決策は、ジョイントステレオが活性化している帯域について、エネルギーをジョイントステレオドメインで直接的に計算及び伝送することであり、そのため復号器側では追加的なエネルギー変換が不要となる。
ソースタイルは常にMid/Side行列に従って作成される。
Figure 2021099497
エネルギー調整は以下の通りである。
Figure 2021099497
ジョイントステレオ→LRの変換は以下の通りである。
追加的予測パラメータが何も符号化されない場合:
Figure 2021099497
追加的予測パラメータが符号化され、その信号化された方向がmidからsideである場合:
Figure 2021099497
信号化された方向がsideからmidである場合:
Figure 2021099497
このような処理により、高度に相関された目標領域及びパンニング済み目標領域を再生成するために使用されたタイルから、たとえソース領域が相関していない場合であっても、結果として得られる左右のチャネルは相関され且つパンニングされたサウンドソースを表現し、そのような領域についてステレオイメージを保持する、ということが保証される。
換言すれば、ビットストリームの中で、一般的なジョイントステレオ符号化について例えばL/R又はM/Sが使用されるべきか否かを指示するジョイントステレオフラグが伝送される。復号器においては、まずコア信号が、ジョイントステレオフラグによりコア帯域について指示されるように復号化される。次に、コア信号はL/R及びM/S表現の両方で格納される。IGFタイル充填については、ジョイントステレオ情報がIGF帯域について指示するように、ソースタイル表現が目標タイル表現に適合するよう選択される。
時間的ノイズ整形(TNS)は標準的な技術であり、AACの一部である。TNSは知覚的符号器の基本スキームの拡張として捉えることもでき、フィルタバンクと量子化ステージとの間に任意選択的な処理ステップを挿入するものである。TNSモジュールの主要な役割は、時間的マスキング領域において生成された過渡状信号の量子化ノイズを隠すことであり、それにより更に効率的な符号化スキームをもたらす。まず、TNSは変換ドメイン、例えばMDCTにおいて、「前方予測」を使用して予測係数のセットを計算する。これら係数は、次に信号の時間的包絡を平坦化するために使用される。量子化がTNSフィルタ済みスペクトルに対して影響を与えるので、量子化ノイズも時間的に平坦となる。復号器側で逆TNSフィルタリングを適用することで、量子化ノイズはTNSフィルタの時間的包絡に従って整形され、よって量子化ノイズは過渡によりマスキングされる。
IGFはMDCT表現に基づいている。効率的な符号化のために、好ましくは約20msのロングブロックが使用されるべきである。そのようなロングブロック内の信号が過渡を含む場合、タイル充填に起因して、IGFスペクトル帯域内に可聴のプリエコー及びポストエコーが発生する。
このプリエコー効果は、IGFの文脈においてTNSを使用することで低減される。この場合、復号器側におけるスペクトル再生成がTNS残差信号に対して実行されるように、TNSが時間的タイル整形(TTS)ツールとして使用される。必要となるTTS予測係数は、通常通り符号器側の全スペクトルを使用して計算されかつ適用される。TNS/TTSの開始及び停止周波数は、IGFツールのIGF開始周波数fIGFstartによる影響を受けない。レガシーTNSと比較して、TTSの停止周波数はIGFツールの停止周波数へと増大され、これはfIGFstartよりも高い。復号器側では、TNS/TTS係数は、全スペクトル、つまりコアスペクトルと再生成されたスペクトルと調性マスク(図2a参照)からの調性成分とに対して再度適用される。TTSの適用は、再生成されたスペクトルの時間的包絡をオリジナル信号の包絡と適合するよう形成するため、再度必要である。
レガシー復号器においては、オーディオ信号に対するスペクトルパッチングは、パッチ境界におけるスペクトル相関を崩し、結果的に、分散を導入することによりオーディオ信号の時間的包絡を損なうことになる。従って、残差信号に対してIGFタイル充填を実行することの他の利点は、整形フィルタの適用後、タイル境界が切れ目なく相関され、信号のより忠実な時間的再生がもたらされるということである。
IGF符号器において、TNS/TTSフィルタリング、調性マスク処理、及びIGFパラメータ推定を施されたスペクトルは、調性成分を除き、IGF開始周波数より高い如何なる信号も持たないことになる。このような疎らなスペクトルは、次に算術符号化と予測符号化の原理を使用するコア符号器により符号化される。これらの符号化済み成分は、その信号化ビットと共に、オーディオのビットストリームを形成する。
図2aは、対応する復号器の構成を示す。符号化済みオーディオ信号に対応する図2aのビットストリームは、図1bではブロック112及び114に接続され得るデマルチプレクサ/復号器へと入力される。ビットストリーム・デマルチプレクサは、入力オーディオ信号を図1bの第1符号化済み表現107と図1bの第2符号化済み表現109とに分離する。第1スペクトル部分の第1セットを有する第1符号化済み表現は、図1bのスペクトルドメイン復号器112に対応するジョイントチャネル復号化ブロック204へと入力される。第2符号化済み表現は、図2aには図示されていないパラメトリック復号器114へと入力され、次に図1bの周波数再生成部116に対応するIGFブロック202へと入力される。周波数再生成に必要な第1スペクトル部分の第1セットは、ライン203を介してIGFブロック202へと入力される。更に、ジョイントチャネル復号化204に続いて、特定のコア復号化が調性マスクブロック206内で適用され、その調性マスク206の出力はスペクトルドメイン復号器112の出力に対応する。次に、結合部208による結合、即ちフレーム構築が実行され、ここで結合部208の出力は全領域スペクトルを有することになるが、依然としてTNS/TTSフィルタリング済みドメイン内にある。次に、ブロック210において、ライン109を介して提供されたTNS/TTSフィルタ情報を使用して、逆TNS/TTS操作が実行される。即ち、TTSサイド情報は、好ましくは、例えば単純なAAC又はUSACコア符号器であり得るスペクトルドメイン符号器106により生成された第1符号化済み表現内に含まれているか、又は第2符号化済み表現内に含まれ得る。ブロック210の出力において、最大周波数までの完全なスペクトルが提供され、この最大周波数はオリジナル入力信号のサンプリングレートにより定義された全領域周波数である。次に、合成フィルタバンク212でスペクトル/時間変換が実行され、最終的にオーディオ出力信号を取得する。
図3aはスペクトルの概略的表現を示す。スペクトルは複数のスケールファクタ帯域SCBへと分割され、図3aに示す実例においては7個のSCB1〜SCB7が存在する。スケールファクタ帯域は、AAC標準において定義されたAACスケールファクタ帯域であってもよく、図3aに概略的に示すように、上側の周波数がより大きな帯域幅を有し得る。インテリジェント・ギャップ充填は、スペクトルの最初から、即ち低周波数において実行するのではなく、符号309で示すIGF開始周波数からIGF操作を開始するのが望ましい。従って、コア周波数帯域は最低周波数からIGF開始周波数まで伸びる。IGF開始周波数より高域側では、第2スペクトル部分の第2セットにより代表される低分解能成分から、高分解能スペクトル成分304,305,306,307(第1スペクトル部分の第1セット)を分離するべく、スペクトル分析が適用される。図3aは、例えばスペクトルドメイン符号器106又はジョイントチャネル符号器228へ入力されるスペクトルを示す。即ち、コア符号器は全領域で作動するが、相当量のゼロスペクトル値を符号化し、これらゼロスペクトル値は、量子化の前か量子化の後にゼロへと量子化されるか又はゼロに設定される。いずれにしても、コア符号器は全領域で、即ちスペクトルが図示された通りであるかのように作動する。一方で、コア復号器は、インテリジェント・ギャップ充填について、又は低スペクトル分解能を有する第2スペクトル部分の第2セットの符号化について、必ずしも認識している必要がない。
好ましくは、高分解能は、MDCTラインのようなスペクトルラインのライン毎の符号化により定義され、他方、第2分解能又は低分解能は、例えばスケールファクタ帯域ごとに単一のスペクトル値だけを計算することで定義され、その場合、各スケールファクタ帯域は複数の周波数ラインをカバーしている。このように、第2の低分解能は、そのスペクトル分解能に関し、典型的にはAACやUSACコア符号器などのコア符号器により適用されるライン毎の符号化により定義される第1又は高分解能に比べて、かなり低い。
図3bはスケールファクタ又はエネルギー計算に関する状態を示す。符号器がコア符号器であるという事実と、必ずしも必要ではないが各帯域内にスペクトル部分の第1セットの成分が存在し得るという事実に起因して、コア符号器は、スケールファクタを、IGF開始周波数309より低いコア領域内の各帯域について計算するだけでなく、IGF開始周波数より高い帯域についても、サンプリング周波数の半分、即ちfS/2よりも小さいか等しい最大周波数FIGFstopまで計算する。このように、図3aの符号化済み調性部分302,304,305,306,307と、この実施形態ではスケールファクタ帯域SCB1〜SCB7とは、共に高分解能スペクトルデータに対応している。低分解能スペクトルデータは、IGF開始周波数から計算が開始され、スケールファクタSF4〜SF7と共に伝送されるエネルギー情報値E1,E2,E3,E4に対応している。
特に、コア符号器が低いビットレート状態であるとき、コア帯域内、即ちIGF開始周波数より低い周波数、つまりスケールファクタ帯域SCB1〜SCB3、における追加的なノイズ充填操作が追加的に適用され得る。ノイズ充填においては、ゼロへと量子化された複数の隣接するスペクトルラインが存在する。復号器側では、これらゼロへと量子化されたスペクトル値が再合成され、その再合成されたスペクトル値は、図3bの符号308で示すNF2のようなノイズ充填エネルギーを使用して、それらの大きさが調整される。ノイズ充填エネルギーは、絶対項又は特にUSACにおけるようにスケールファクタに対する相対項により与えられることができ、ゼロへと量子化されたスペクトル値のセットのエネルギーに対応する。これらノイズ充填スペクトルラインはまた、第3スペクトル部分の第3セットとも考えられ得る。それらスペクトル部分は、ソース領域からのスペクトル値及びエネルギー情報E1,E2,E3,E4を使用して周波数タイルを復元するために他の周波数からの周波数タイルを使用する周波数再生成に依存する、如何なるIGF操作も行わない単純なノイズ充填合成により再生成される。
好ましくは、エネルギー情報が計算される帯域は、スケールファクタ帯域と一致する。他の実施形態においては、エネルギー情報値のグループ化が適用され、例えばスケールファクタ帯域4及び5について単一のエネルギー情報値だけが伝送される。しかし、この実施形態においても、グループ化された復元帯域の境界はスケールファクタ帯域の境界と一致する。異なる帯域分離が適用された場合には、ある再計算又は同期化計算が適用されてもよく、これは所定の構成に依存して合理的と言える。
好ましくは、図1aのスペクトルドメイン符号器106は、図4に示すように聴覚心理的に駆動された符号器である。典型的には、例えばMPEG2/4 AAC標準又はMPEG1/2レイヤ3標準に示されるように、スペクトル領域へと変換された後の符号化されるべきオーディオ信号(図4aの401)は、スケールファクタ計算部400へと送られる。スケールファクタ計算部は聴覚心理モデルにより制御され、量子化されるべきオーディオ信号を追加的に受信するか、又はMPEG1/2レイヤ3若しくはMPEG AAC標準にあるように、オーディオ信号の複素スペクトル表現を受信する。聴覚心理モデルは、各スケールファクタ帯域について、聴覚心理閾値を表現するスケールファクタを計算する。加えて、スケールファクタは、次に、公知の内部及び外部の反復ループの協働により、又は任意の他の適切な符号化処理により、所定のビットレート条件が満足するように調整される。次に、量子化されるべきスペクトル値を一方とし、計算されたスケールファクタを他方として、両方が量子化処理部404へと入力される。単純なオーディオ符号器操作において、量子化されるべきスペクトル値はスケールファクタにより重み付けされ、その重み付きスペクトル値は、次に、典型的には上側振幅領域に対して圧縮機能を有する固定された量子化部へと入力される。次に、量子化処理部の出力において、量子化インデックスが存在し、これら量子化インデックスは次にエントロピー符号器へと入力され、そのエントロピー符号器は、典型的には、隣接する周波数値又は業界の呼称ではゼロ値の「ラン」に関する、ゼロ量子化インデックスのセットについて特異でかつ非常に効率的な符号化を有する。
しかし、図1aのオーディオ符号器において、量子化処理部は、典型的には第2スペクトル部分についての情報をスペクトル分析部から受信する。このように、量子化処理部404は、その出力の中で、スペクトル分析部102により識別された第2スペクトル部分がゼロであるか又は符号器もしくは復号器によってゼロ表現として認識された表現を有することを保証し、それらのゼロ(表現)は、特にそのスペクトル内にゼロ値の「ラン」が存在する場合に非常に効率的に符号化され得る。
図4bは量子化処理部の構成を示す。MDCTスペクトル値がゼロ設定ブロック410へと入力され得る。よって、ブロック412においてスケールファクタによる重み付けが実行される前に、第2スペクトル部分は既にゼロへと設定されている。追加的な構成においては、ブロック410は設けられず、重み付けブロック412の後に続くブロック418においてゼロ設定操作が実行される。更に別の構成においては、ゼロ設定操作はまた、量子化ブロック420における量子化の後に続くゼロ設定ブロック422においても実行され得る。この構成においては、ブロック410及び418は存在しないであろう。一般的に、ブロック410,418,422の少なくとも1つが特定の構成に依存して設けられる。
次に、ブロック422の出力において量子化済みスペクトルが取得され、これは図3aに示されたものに対応する。この量子化済みスペクトルは、次に図2bの符号232のようなエントロピー符号器へと入力され、このエントロピー符号器は、ハフマン符号器又は例えばUSAC標準において定義された算術符号器であり得る。
互いに代替的に又は並列的に設けられているゼロ設定ブロック410、418、422は、スペクトル分析部424により制御される。このスペクトル分析部は、好ましくは、公知の調性検出部の任意の構成を含むか、又は、スペクトルを高分解能で符号化されるべき成分と低分解能で符号化されるべき成分とに分離するよう作動可能な任意の異なる種類の検出部を含む。スペクトル分析部に実装される他のそのようなアルゴリズムは、ボイス活性検出部、ノイズ検出部、スピーチ検出部、又はスペクトル情報もしくは関連するメタデータに依存して異なるスペクトル部分に関する分解能要件について決定する任意の他の検出部であり得る。
図5aは、例えばAAC又はUSACにおいて構成される、図1aの時間スペクトル変換部100の好ましい構成を示す。時間スペクトル変換部100は、過渡検出部504により制御される窓掛け部502を含む。過渡検出部504が過渡を検出したとき、ロング窓からショート窓への切換えが窓掛け部へと信号伝達される。窓掛け部502は、オーバーラップしているブロックについて窓掛けされたフレームを計算し、各窓掛けされたフレームは、典型的には2048個の値のような2N個の値を有する。次に、ブロック変換部506内での変換が実行され、このブロック変換部は、典型的には切り詰めを追加的に提供する。よって、切り詰め/変換の組合せが実行されて、MDCTスペクトル値のようなN個の値を有するスペクトルフレームが取得される。このように、ロング窓掛け操作については、ブロック506の入力におけるフレームは2048個のような2N個の値を含み、スペクトルフレームは次に1024個の値を持つ。しかし、次にショートブロックへの切換えが行われ、8個のショートブロックが実行された場合、各ショートブロックはロング窓と比較して1/8個の窓掛けされた時間ドメイン値を持ち、各スペクトルブロックはロングブロックと比較して1/8個のスペクトル値を持つ。このように、切り詰めが窓掛け部の50%のオーバーラップ操作と結合された場合、スペクトルは時間ドメインオーディオ信号99の臨界サンプリングされたバージョンとなる。
次に、図5bを参照する。ここでは、図1bの周波数再生成部116及びスペクトル−時間変換部118の具体的な構成、又は図2aのブロック208、212の結合された操作の具体的な構成が示される。図5bにおいては、図3aのスケールファクタ帯域6のような特定の復元帯域について考察する。この復元帯域内の第1スペクトル部分、即ち図3aの第1スペクトル部分306がフレーム構築部/調節部ブロック510へと入力される。更に、スケールファクタ帯域6に関する復元された第2スペクトル部分もフレーム構築部/調節部510へと入力される。更に、スケールファクタ帯域6に関する図3bのE3のようなエネルギー情報もまたブロック510へと入力される。復元帯域内の復元された第2スペクトル部分は、ソース領域を使用する周波数タイル充填によって既に生成されており、よって復元帯域は目標領域に対応する。ここで、フレームのエネルギー調節が実行されて、例えば図2aの結合部208の出力において得られるような、N個の値を有する完全に復元されたフレームが最終的に取得される。次に、ブロック512において逆のブロック変換/補間が実行され、例えばブロック512の入力における124個のスペクトル値について248個の時間ドメイン値が取得される。次に、ブロック514において合成窓掛け操作が実行され、この操作も、符号化済みオーディオ信号内でサイド情報として伝送されたロング窓/ショート窓の指示により制御されている。次に、ブロック516において、先行時間フレームとのオーバーラップ/加算操作が実行される。好ましくは、2N個の値の各新たな時間フレームについてN個の時間ドメイン値が最終的に出力されるように、MDCTが50%のオーバーラップを適用する。50%のオーバーラップが非常に好ましい理由は、ブロック516におけるオーバーラップ/加算操作により、それが臨界サンプリングとあるフレームから次のフレームへの連続的なクロスオーバーとを提供するという事実による。
図3aに符号301で示すように、ノイズ充填操作は、IGF開始周波数より低域側で適用されるだけでなく、図3aのスケールファクタ帯域6に一致する考慮対象の復元帯域などのような、IGF開始周波数より高域側でも適用され得る。ノイズ充填スペクトル値もフレーム構築部/調節部510へと入力されることができ、そのノイズ充填スペクトル値の調節もまたこのブロック内で適用可能であり、又は、ノイズ充填スペクトル値は、フレーム構築部/調節部510へと入力される前に、ノイズ充填エネルギーを使用して既に調節されていることも可能である。
好ましくは、IGF操作、即ち他の部分からのスペクトル値を使用した周波数タイル充填操作は、全てのスペクトルにおいて適用され得る。よって、スペクトルタイル充填操作は、IGF開始周波数より高い高帯域において適用され得るだけでなく、低帯域においても適用され得る。更に、周波数タイル充填なしのノイズ充填もまた、IGF開始周波数より低域側において適用され得るだけでなく、IGF開始周波数より高域側においても適用され得る。しかし、図3aに示すように、ノイズ充填操作がIGF開始周波数より低い周波数領域に制限され、かつ周波数タイル充填操作がIGF開始周波数より高い周波数帯域に制限された場合に、高品質及び高効率のオーディオ符号化が達成できることがわかってきた。
好ましくは、(IGF開始周波数より大きい周波数を有する)目標タイル(TT)は、全レート符号器のスケールファクタ帯域境界に対して境界を接している。(情報源となる、即ちIGF開始周波数より低い周波数の)ソースタイル(ST)は、スケールファクタ帯域によって境界を接していない。STのサイズは、関連するTTのサイズに対応すべきである。
次に、図5cを参照して、図1bの周波数再生成部116又は図2aのIGFブロック202の更なる好ましい実施形態を説明する。ブロック522は、目標帯域IDだけでなくソース帯域IDをも受信する周波数タイル生成部である。例えば、符号器側において、図3aのスケールファクタ帯域3がスケールファクタ帯域7を復元するために非常に良好に適合している、と決定されていたとする。その場合、ソース帯域IDは3となり、目標帯域IDは7となるであろう。この情報に基づき、周波数タイル生成部522は、コピーアップ、ハーモニックタイル充填操作又は他の任意のタイル充填操作を適用して、スペクトル成分の生の第2部分523を生成する。このスペクトル成分の生の第2部分は、第1スペクトル部分の第1セット内に含まれた周波数分解能と等しい周波数分解能を有する。
次に、図3aの307のような復元帯域の第1スペクトル部分がフレーム構築部524に入力され、生の第2部分523もフレーム構築部524へ入力される。次に、復元されたフレームは、ゲインファクタ計算部528により計算された復元帯域用のゲインファクタを使用して、調節部526により調節される。しかし重要なことは、フレーム内の第1スペクトル部分は調節部526による影響を受けず、復元フレーム用の生の第2部分だけが調節部526による影響を受ける。この目的で、ゲインファクタ計算部528は、ソース帯域又は生の第2部分523を分析し、更に復元帯域内の第1スペクトル部分を分析して、最終的に正確なゲインファクタ527を発見し、それにより、スケールファクタ帯域7が考慮対象である場合には、調節部526により出力された調節済みフレームのエネルギーがエネルギーE4を有するようになる。
更に、図3aに示すように、スペクトル分析部は最大分析周波数までスペクトル表現を分析するよう構成され、その最大分析周波数は、サンプリング周波数の半分よりも少しだけ低く、かつ好ましくはサンプリング周波数の少なくとも1/4であるか、又は典型的にはそれより大きい。
上述したように、符号器はダウンサンプリングなしで作動し、復号器はアップサンプリングなしで作動する。換言すれば、スペクトルドメインオーディオ符/復号器は、オリジナル入力オーディオ信号のサンプリングレートにより定義されるナイキスト周波数を有するスペクトル表現を生成するよう構成されている。
図3aに示すように、スペクトル分析部は、ギャップ充填開始周波数から開始し且つスペクトル表現内に含まれた最大周波数により表わされる最大周波数で停止する、スペクトル表現を分析するよう構成されており、最小周波数からギャップ充填開始周波数まで伸びるスペクトル部分はスペクトル部分の第1セットに帰属し、ギャップ充填周波数より高い周波数を有する304、305、306、307のような更なるスペクトル部分もまた、第1スペクトル部分の第1セットに含まれる。
上述したように、スペクトルドメインオーディオ復号器112は、第1復号化済み表現内のあるスペクトル値により表現された最大周波数があるサンプリングレートを有する時間表現内に含まれた最大周波数に等しく、第1スペクトル部分の第1セット内の最大周波数についてのスペクトル値がゼロ又はゼロとは異なるように、構成されている。いずれにしても、スペクトル成分の第1セット内のこの最大周波数について、スケールファクタ帯域のためのあるスケールファクタが存在し、そのスケールファクタは、図3a及び図3bの文脈で上述したように、このスケールファクタ帯域内の全てのスペクトル値がゼロに設定されているか否かにかかわらず、生成され伝送される。
従って、IGFには次のような利点がある。即ち、圧縮効率を高めるための、例えばノイズ置換及びノイズ充填などの他のパラメトリック技術(これらの技術はノイズ状信号コンテンツを効率的に表現するために排他的に使用される)に対し、IGFは調性成分の正確な周波数再生成を可能にする。これまで、如何なる現状技術にも、低帯域(LF)及び高帯域(HF)への固定された先験的分割の制限なく、スペクトルギャップ充填によって任意の信号コンテンツを効率的にパラメトリック表現する方法は開示されていない。
次に、個別に又は一体に構成され得るギャップ充填操作を組み込んだ、全帯域周波数ドメインの第1符号化プロセッサと全帯域周波数ドメインの復号化プロセッサとについて、説明及び定義する。
特に、ブロック1122aに対応するスペクトルドメイン復号器112は、スペクトル値の復号化済みフレームのシーケンスを出力するよう構成されており、復号化済みフレームは第1復号化済み表現であり、前記フレームは、スペクトル部分の第1セットについてのスペクトル値と第2スペクトル部分についてのゼロ指示とを含む。復号化装置は結合部208を更に含む。スペクトル値は、第2スペクトル部分の第2セットについて周波数再生成部により生成され、両方、即ち結合部及び周波数再生成部は、ブロック1122bの中に含まれている。このように、第2スペクトル部分と第1スペクトル部分とを結合することで、第1スペクトル部分の第1セット及びスペクトル部分の第2セットについてのスペクトル値を含む復元されたスペクトルフレームが取得され、次に、図14bのIMDCTブロック1124に対応するスペクトル−時間変換部118が復元されたスペクトルフレームを時間表現へと変換する。
上述したように、スペクトル−時間変換部118又は1124は、逆修正離散コサイン変換512、514を実行するよう構成されており、後続の時間ドメインフレームをオーバーラップ及び加算するためのオーバーラップ加算ステージ516を更に含む。
特に、スペクトルドメインオーディオ復号器1122aは、第1復号化済み表現を生成するよう構成されており、その第1復号化済み表現が、スペクトル−時間変換部1124により生成された時間表現のサンプリングレートと等しいサンプリングレートを定義する、ナイキスト周波数を有するよう構成されている。
更に、復号器1112又は1122aは、第1スペクトル部分306が、周波数に関して2個の第2スペクトル部分307aと307bとの間に配置されるように、第1復号化済み表現を生成するよう構成されている。
更なる実施形態において、第1復号化済み表現内の最大周波数に関するスペクトル値によって表現される最大周波数は、スペクトル−時間変換部により生成された時間表現に含まれる最大周波数と等しく、その第1表現内の最大周波数に関するスペクトル値はゼロ又はゼロとは異なる。
更に、図3に示すように、符号化済み第1オーディオ信号部分は、ノイズ充填により復元されるべき第3スペクトル部分の第3セットの符号化済み表現を更に含み、第1復号化プロセッサ1120は、ブロック1122b内に含まれるノイズ充填部を更に含み、そのノイズ充填部は、第3スペクトル部分の第3セットの符号化済み表現からノイズ充填情報308を抽出し、異なる周波数領域内の第1スペクトル部分を使用せずに、第3スペクトル部分の第3セットにおいてノイズ充填操作を適用する。
更に、スペクトルドメインオーディオ復号器112は第1復号化済み表現を生成するよう構成され、その第1復号化済み表現は、スペクトル−時間変換部118又は1124によって出力された時間表現によりカバーされる周波数領域の中央に位置する周波数と等しい周波数よりも大きい周波数値を持つ第1スペクトル部分を有する。
更に、スペクトル分析部又は全帯域分析部604は、時間−周波数変換部602により生成された表現を分析して、第1の高スペクトル分解能で符号化されるべき第1スペクトル部分の第1セットと、第1スペクトル分解能よりも低い第2スペクトル分解能で符号化されるべき異なる第2スペクトル部分の第2セットと、を決定するよう構成されており、このスペクトル分析部によって、第1スペクトル部分306は、周波数に関して、図3の307a及び307bで示すように2つの第2スペクトル部分の間になるよう決定される。
特に、スペクトル分析部は、オーディオ信号のサンプリング周波数の少なくとも1/4である最大分析周波数まで、スペクトル表現を分析するよう構成されている。
特に、スペクトルドメインオーディオ符号器は、量子化及びエントロピー符号化のためにスペクトル値のフレームのシーケンスを処理するよう構成されており、その場合、あるフレーム内では、第2部分の第2セットのスペクトル値がゼロに設定され、又は、あるフレーム内では、第1スペクトル部分の第1セット及び第2スペクトル部分の第2セットのスペクトル値が存在し、かつ後続の処理の期間中に、スペクトル部分の第2セットにおけるスペクトル値が410,418,422で例示的に示すようにゼロに設定される。
スペクトルドメインオーディオ符号器は、オーディオ入力信号、又は周波数ドメインで作動する第1符号化プロセッサにより処理されたオーディオ信号の第1部分、のサンプリングレートにより定義されるナイキスト周波数を有するスペクトル表現を生成するよう構成されている。
スペクトルドメインオーディオ符号器606は、第1符号化済み表現を提供するよう更に構成されており、その場合、サンプリングされたオーディオ信号のあるフレームについて、その符号化済み表現が第1スペクトル部分の第1セットと第2スペクトル部分の第2セットとを含み、スペクトル部分の第2セットにおけるスペクトル値はゼロ又はノイズ値として符号化される。
全帯域分析部604又は102は、ギャップ充填開始周波数309から開始しかつスペクトル表現内に含まれる最大周波数により表現された最大周波数fmaxで終了するスペクトル表現と、最小周波数から第1スペクトル部分の第1セットに帰属するギャップ充填開始周波数309まで延びるスペクトル部分と、を分析するよう構成されている。
特に、この分析部は、調性成分と非調性成分とが互いに分離されるように、スペクトル表現の少なくとも一部分に調性マスク処理を適用し、その場合、第1スペクトル部分の第1セットは調性成分を含み、第2スペクトル部分の第2セットは非調性成分を含む。
本発明はこれまでブロック図の文脈で説明し、各ブロックは実際又は論理的なハードウエア要素を表してきたが、本発明はまた、コンピュータ構成された方法によっても実装され得る。後者の方法の場合、各ブロックは対応する方法ステップを表し、これらのステップは対応する論理的又は物理的なハードウエアブロックによって実行される機能を表す。
これまで幾つかの態様を装置の文脈で示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。方法ステップの幾つか又は全ては、例えばマイクロプロセッサ、プログラム可能なコンピュータ又は電子回路など、ハードウエア装置により(ハードウエア装置を使用して)実行されてもよい。幾つかの実施形態において、最も重要な方法ステップの1つ以上が、そのような装置によって実行されてもよい。
本発明の伝送又は符号化された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,ブルーレイ,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。従って、デジタル記憶媒体はコンピュータ読み取り可能であり得る。
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体などの非一時的記憶媒体)である。そのデータキャリア、デジタル記憶媒体又は記録された媒体は、典型的には有形及び/又は非一時的である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明に係るさらなる実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを受信器へ(例えば電子的又は光学的に)伝送するよう構成された装置又はシステムを含む。受信器は、例えばコンピュータ、モバイル装置、メモリ装置等であってもよい。この装置又はシステムは、例えばコンピュータプログラムを受信器へと送信するためのファイルサーバを含み得る。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
−備考−
[請求項1]
オーディオ信号を符号化するオーディオ符号器において、
第1オーディオ信号部分を周波数ドメインで符号化する第1符号化プロセッサ(600)であって、前記第1オーディオ信号部分をこの第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換する時間−周波数変換部(602)と、前記周波数ドメイン表現を符号化するスペクトル符号器(606)と、を有する第1符号化プロセッサ(600)と、
第2の異なるオーディオ信号部分を時間ドメインで符号化する第2符号化プロセッサ(610)と、
前記オーディオ信号内で前記第1オーディオ信号部分に時間的に直後に後続する前記第2オーディオ信号部分の符号化のために前記第2符号化処理(610)が初期化されるように、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2符号化プロセッサ(610)の初期化データを計算するクロスプロセッサ(700)と、
前記オーディオ信号を分析し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定する、コントローラ(620)と、
前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成する符号化済み信号形成部(630)と、
を含むオーディオ符号器。
[請求項2]
請求項1に記載のオーディオ符号器において、
入力信号は高帯域と低帯域とを含み、
前記第2符号化プロセッサ(610)は、
前記第2オーディオ信号部分を低サンプリングレートの表現へと変換するサンプリングレート変換部(900)であって、前記低サンプリングレートは前記オーディオ信号のサンプリングレートよりも低く、前記低サンプリングレートの表現は前記入力信号の前記高帯域を含まない、サンプリングレート変換部(900)と、
前記低サンプリングレートの表現を時間ドメイン符号化する時間ドメイン低帯域符号器(910)と、
前記高帯域をパラメトリックに符号化する時間ドメイン帯域幅拡張符号器(920)と、
を含むオーディオ符号器。
[請求項3]
請求項1又は2に記載のオーディオ符号器において、
前記第1オーディオ信号部分及び前記第2オーディオ信号部分を前処理するよう構成された前処理部(1000)を更に含み、
前記前処理部は予測係数を決定する予測分析部(1002)を含み、
前記符号化済み信号形成部(630)は前記予測係数の符号化済みバージョンを前記符号化済みオーディオ信号の中に導入するよう構成されている、オーディオ符号器。
[請求項4]
請求項1乃至3のいずれか一項に記載のオーディオ符号器において、
前処理部(1000)は、前記オーディオ信号を前記第2符号化プロセッサのサンプリングレートへとリサンプリングするリサンプラ(1004)を含み、かつ
予測分析部は、リサンプリングされたオーディオ信号を使用して予測係数を決定するよう構成されており、又は、
前記前処理部(1000)は、前記第1オーディオ信号部分について1つ以上の長期予測パラメータを決定する長期予測分析ステージ(1006)を更に含む、オーディオ符号器。
[請求項5]
請求項1乃至4のいずれか一項に記載のオーディオ符号器において、前記クロスプロセッサ(700)は、
前記第1符号化済み信号部分の復号化済みバージョンを計算する、スペクトル復号器(701)、
初期化のために、前記復号化済みバージョンの遅延済みバージョンを前記第2符号化プロセッサのデエンファシスステージ(617)へと供給する、遅延ステージ(707)、
初期化のために、フィルタ出力を前記第2符号化プロセッサ(610)の符号帳決定部(613)へと供給する、重み付き予測係数分析フィルタリングブロック(708)、
前記復号化済みバージョン又はプリエンファシス(709)済みバージョンをフィルタリングし、初期化のためにフィルタ残差を前記第2符号化プロセッサの適応型符号帳決定部(612)へと供給する、分析フィルタリングステージ(706)、又は
前記復号化済みバージョンをフィルタリングし、初期化のために遅延済み又はプリエンファシス済みバージョンを前記第2符号化プロセッサ(610)の合成フィルタリングステージ(616)へと供給する、プリエンファシスフィルタ(709)、を含む、オーディオ符号器。
[請求項6]
請求項1乃至5のいずれか一項に記載のオーディオ符号器において、
前記第1符号化プロセッサ(600)は、前記第1オーディオ信号部分から導出された予測係数(1002,1010)を使用して前記周波数ドメイン表現のスペクトル値の整形(606a)を実行し、更に、第1スペクトル領域の整形済みスペクトル値の量子化及びエントロピー符号化操作(606b)を実行するよう構成されている、オーディオ符号器。
[請求項7]
請求項1乃至6のいずれか一項に記載のオーディオ符号器において、前記クロスプロセッサ(700)は、
前記第1オーディオ信号部分から導出されたLPC係数(1010)を使用して前記周波数ドメイン表現の量子化済みスペクトル値を整形する、ノイズ整形部(703)と、
前記周波数ドメイン表現のスペクトル的に整形されたスペクトル部分を高スペクトル分解能で復号化して復号化済みスペクトル表現を取得する、スペクトル復号器(704,705)と、
前記スペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得する周波数−時間変換部(702)であって、前記復号化済み第1オーディオ信号部分に関連するサンプリングレートは前記オーディオ信号のサンプリングレートとは異なり、前記周波数−時間変換部(702)の出力信号に関連するサンプリングレートは前記周波数−時間変換部(602)に入力されたオーディオ信号に関連するサンプリングレートとは異なる、周波数−時間変換部(702)と、
を含む、オーディオ符号器。
[請求項8]
請求項1乃至7のいずれか一項に記載のオーディオ符号器において、
前記第2符号化プロセッサが以下のブロック群の少なくとも1つのブロックを含む、オーディオ符号器:
予測分析フィルタ(611);
適応型符号帳ステージ(612);
革新的符号帳ステージ(614);
革新的符号帳エントリを推定する推定部(613);
ACELP/ゲイン符号化ステージ(615);
予測合成フィルタリングステージ(616);
デエンファシス・ステージ(617);
低音ポストフィルタ分析ステージ(618)。
[請求項9]
請求項1乃至8のいずれか一項に記載のオーディオ符号器において、
前記時間ドメイン符号化プロセッサは、関連する第2サンプリングレートを有し、
前記周波数ドメイン符号化プロセッサは、前記第2サンプリングレートとは異なる関連する第1サンプリングレートを有し、
前記クロスプロセッサは、時間ドメイン信号を前記第2サンプリングレートで生成する周波数−時間変換部(702)を有し、
前記周波数−時間変換部(702)が、
前記第1サンプリングレートと前記第2サンプリングレートとの比に従って、前記周波数−時間変換部に入力されたスペクトルの一部分を選択する選択部(726)と、
前記時間−周波数変換部(602)の変換長とは異なる変換長を有する変換プロセッサ(720)と、
前記時間−周波数変換部(602)により使用された窓とは異なる個数の窓係数を有する窓を使用して窓掛けする合成窓掛け部(712)と、を含む、
オーディオ符号器。
[請求項10]
符号化済みオーディオ信号を復号化するオーディオ復号器において、
第1の符号化済みオーディオ信号部分を周波数ドメインで復号化する第1復号化プロセッサ(1120)であって、復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得する周波数−時間変換部(1120)を有する、第1復号化プロセッサ(1120)と、
第2の符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2オーディオ信号部分を取得する第2復号化プロセッサ(1140)と、
前記符号化済みオーディオ信号内で前記第1オーディオ信号部分に時間的に後続する前記符号化済み第2オーディオ信号部分の復号化のために前記第2復号化プロセッサ(1140)が初期化されるように、前記第1の符号化済みオーディオ信号部分の前記復号化済みスペクトル表現から前記第2復号化プロセッサ(1140)の初期化データを計算するクロスプロセッサ(1170)と、
前記復号化済み第1スペクトル部分と前記復号化済み第2スペクトル部分とを結合して復号化済みオーディオ信号を取得する結合部(1160)と、
を含み、
前記クロスプロセッサは、
前記第1復号化プロセッサ(1120)の前記周波数−時間変換部(1124)と関連する第2の有効サンプリングレートとは異なる第1の有効サンプリングレートで作動して、時間ドメインで追加的な復号化済み第1信号部分を得る、追加的周波数−時間変換部(1171)であって、前記追加的周波数−時間変換部(1171)により出力される信号が、前記第1復号化プロセッサの前記周波数−時間変換部(1124)の出力と関連する第1サンプリングレートとは異なる第2サンプリングレートを有し、前記追加的周波数−時間変換部(1171)に入力されたスペクトルの一部分を前記第1サンプリングレートと前記第2サンプリングレートとの比に従って選択する選択部(726)を含む、前記追加的周波数−時間変換部(1171)と、
前記第1復号化プロセッサ(1120)の前記時間−周波数変換部(1124)の変換長(710)とは異なる変換長を有する変換プロセッサ(720)と、
前記第1復号化プロセッサ(1120)の前記周波数−時間変換部(1124)により使用された窓とは異なる個数の係数を有する窓を使用する合成窓掛け部(722)と、を更に含む、
オーディオ復号器。
[請求項11]
請求項10に記載のオーディオ復号器において、前記第2復号化プロセッサが、
低帯域時間ドメイン信号を復号化する時間ドメイン低帯域復号器(1200)と、
前記低帯域時間ドメイン信号をリサンプリングするリサンプラ(1210)と、
時間ドメイン出力信号の高帯域を合成する時間ドメイン帯域幅拡張復号器(1220)と、
前記時間ドメイン信号の合成された高帯域とリサンプリングされた低帯域時間ドメイン信号とをミキシングするミキサ(1230)と、
を含む、オーディオ復号器。
[請求項12]
請求項10又は11に記載のオーディオ復号器において、
前記第1復号化プロセッサ(1120)は、前記第1復号化済み第1信号部分をポストフィルタリングする適応型長期予測ポストフィルタ(1420)を含み、前記フィルタ(1420)が前記符号化済みオーディオ信号の中に含まれた1つ以上の長期予測パラメータにより制御される、オーディオ復号器。
[請求項13]
請求項10乃至12のいずれか一項に記載のオーディオ復号器において、
前記クロスプロセッサ(1170)が、
初期化のために、前記追加的な復号化済み第1信号部分を遅延しかつ前記復号化済み第1信号部分の遅延されたバージョンを前記第2復号化プロセッサのデエンファシスステージ(1144)へと供給する、遅延ステージ(1172)、
初期化のために、前記追加的な復号化済み第1信号部分をフィルタリング及び遅延し、かつ遅延ステージ出力を前記第2復号化プロセッサの予測合成フィルタ(1143)へと供給する、プリエンファシスフィルタ(1173)及び遅延ステージ(1175)、
前記追加的な復号化済み第1信号部分又はプリエンファシス(1173)された追加的な復号化済み第1信号部分から、予測残差信号を生成し、かつ予測残差信号を前記第2復号化プロセッサ(1200)の符号帳合成部(1141)へと供給する、予測分析フィルタ(1174)、又は、
初期化のために、前記追加的な復号化済み第1信号部分を前記第2復号化プロセッサのリサンプラ(1210)の分析ステージ(1471)へと供給する、スイッチ(1480)、を含む、
オーディオ復号器。
[請求項14]
請求項10乃至13のいずれか一項に記載のオーディオ復号器において、
前記第2復号化プロセッサ(1200)が以下のブロック群の少なくとも1つのブロックを含む、オーディオ復号器:
ACELPゲイン及び革新的符号帳を復号化するステージ;
適応型符号帳合成ステージ(1141);
ACELP後処理部(1142);
予測合成フィルタ(1143);
デエンファシス・ステージ(1144)。
[請求項15]
オーディオ信号を符号化する方法において、
第1オーディオ信号部分を周波数ドメインで符号化(600)するステップであって、前記第1オーディオ信号部分をこの第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換(602)するサブステップと、前記周波数ドメイン表現を符号化(606)するサブステップとを含む、ステップと、
第2の異なるオーディオ信号部分を時間ドメインで符号化(610)するステップと、
前記オーディオ信号内で前記第1オーディオ信号部分に時間的に直後に後続する前記第2オーディオ信号部分の符号化のために前記第2オーディオ信号部分を符号化するステップが初期化されるように、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2の異なるオーディオ信号部分を符号化するステップのための初期化データを計算するステップ(700)と、
前記オーディオ信号を分析(620)し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定するステップと、
前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成(630)するステップと、
を含む方法。
[請求項16]
符号化済みオーディオ信号を復号化する方法において、
第1の符号化済みオーディオ信号部分を周波数ドメインで第1復号化プロセッサにより復号化(1120)するステップであって、周波数−時間変換部(1124)により復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得するサブステップを有する、ステップと、
第2の符号化済みオーディオ信号部分を時間ドメインで復号化(1140)して復号化済み第2オーディオ信号部分を取得するステップと、
前記符号化済みオーディオ信号内で前記第1オーディオ信号部分に時間的に後続する前記第2の符号化済みオーディオ信号部分の復号化のために前記第2の符号化済みオーディオ信号部分の復号化ステップが初期化されるように、前記第1の符号化済みオーディオ信号部分の前記復号化済みスペクトル表現から前記第2の符号化済みオーディオ信号部分を復号化(1140)するステップの初期化データを計算(1170)するステップと、
前記復号化済み第1スペクトル部分と前記復号化済み第2スペクトル部分とを結合(1160)して復号化済みオーディオ信号を取得するステップと、
を含み、
前記計算(1170)するステップが、時間ドメインの追加的な復号化済み第1信号部分を得るために、前記第1復号化プロセッサ(1120)の前記周波数−時間変換部(1124)と関連する第2の有効サンプリングレートとは異なる第1の有効サンプリングレートで作動する、追加的周波数−時間変換部(1171)を使用するサブステップであって、前記追加的周波数−時間変換部(1171)により出力される信号が、前記第1復号化プロセッサの前記周波数−時間変換部(1124)の出力と関連する第1サンプリングレートとは異なる第2サンプリングレートを有する、サブステップを含み、
前記追加的周波数−時間変換部(1171)を使用するサブステップが、
前記追加的周波数−時間変換部(1171)に入力されたスペクトルの一部分を、前記第1サンプリングレートと前記第2サンプリングレートとの比に従って選択(726)すること、
前記第1復号化プロセッサ(1120)の前記時間−周波数変換部(1124)の変換長(710)とは異なる変換長を有する変換プロセッサ(720)を使用すること、及び
前記第1復号化プロセッサ(1120)の前記周波数−時間変換部(1124)により使用される窓とは異なる個数の係数を有する窓を用いる合成窓掛け部(722)を使用すること、を含む、
方法。
[請求項17]
コンピュータ又はプロセッサ上で作動するときに、請求項15又は請求項16に記載の方法を実行するコンピュータプログラム。

Claims (18)

  1. 高帯域と低帯域とを含むオーディオ信号を符号化するオーディオ符号器において、
    第1オーディオ信号部分を周波数ドメインで符号化する第1符号化プロセッサ(600)であって、前記第1オーディオ信号部分はそれと関連する第1サンプリングレートを有し、
    前記第1オーディオ信号部分をこの第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換する時間−周波数変換部(602)、及び
    前記周波数ドメイン表現を符号化して、第1符号化済み信号部分である前記第1オーディオ信号部分の符号化済みスペクトル表現を取得するスペクトル符号器(606)、
    を有する第1符号化プロセッサ(600)と、
    第2オーディオ信号部分を時間ドメインで符号化して、第2符号化済み信号部分を取得する第2符号化プロセッサ(610)であって、前記第2オーディオ信号部分は前記第1オーディオ信号部分とは異なる、第2符号化プロセッサ(610)と、
    前記オーディオ信号内で前記第1オーディオ信号部分に時間的に直後に後続する前記第2オーディオ信号部分の符号化のために前記第2符号化プロセッサ(610)が初期化されるように、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2符号化プロセッサ(610)の初期化データを計算するクロスプロセッサ(700)であって、前記第2符号化プロセッサ(610)の初期化データを取得するために、前記周波数ドメイン表現の低帯域部分および低減された変換サイズを選択することを使用して、前記第1サンプリングレートから前記第2サンプリングレートへのダウンサンプリングを追加的に実行する周波数−時間変換を使用するように構成された、前記クロスプロセッサ(700)と、
    前記オーディオ信号を分析し、前記オーディオ信号のどの部分が前記第1符号化プロセッサ(600)によって符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が前記第2符号化プロセッサ(610)によって符号化される前記第2オーディオ信号部分であるかを決定する、コントローラ(620)と、
    前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成する符号化済み信号形成部(630)と、
    を含むオーディオ符号器。
  2. 請求項1に記載のオーディオ符号器において、
    前記スペクトル符号器(606)は、高いスペクトル分解能で符号化されるべき第1スペクトル部分の第1セット、及び低いスペクトル分解能でパラメトリックに符号化されるべき第2スペクトル部分の第2セットを発見するために前記オーディオ信号を分析し、前記第1スペクトル部分の第1セットを前記高いスペクトル分解能で波形保存方式で符号化し、前記第2スペクトル部分の第2セットを前記低いスペクトル分解能でパラメトリックに符号化するよう構成される、
    オーディオ符号器。
  3. 請求項1又は2に記載のオーディオ符号器において、
    前記第1オーディオ信号部分及び前記第2オーディオ信号部分を前処理するよう構成された前処理部(1000)を更に含み、
    前記前処理部(1000)は予測係数を決定する予測分析部(1002)を含み、
    前記符号化済み信号形成部(630)は前記予測係数の符号化済みバージョンを前記符号化済みオーディオ信号の中に導入するよう構成されている、オーディオ符号器。
  4. 請求項1又は2に記載のオーディオ符号器において、
    前記オーディオ信号を前処理する前処理部(1000)をさらに含み、
    前記前処理部(1000)は、前記オーディオ信号を前記第2符号化プロセッサ(610)の第2サンプリングレートへとリサンプリングして、リサンプリングされたオーディオ信号を取得するリサンプラ(1004)を含み、
    前記前処理部(1000)は、前記リサンプリングされたオーディオ信号を使用して予測係数を決定するよう構成されている予測分析部(1002b)を含むか、又は、
    前記前処理部(1000)は、前記第1オーディオ信号部分について1つ以上の長期予測パラメータを決定する長期予測分析ステージ(1006)を含む、オーディオ符号器。
  5. 請求項1乃至4のいずれか一項に記載のオーディオ符号器において、前記クロスプロセッサ(700)は、
    前記第1符号化済み信号部分の復号化済みバージョンを計算する、スペクトル復号器(701)と、
    前記第1符号化済み信号部分の復号化済みバージョンを遅延させてその遅延されたバージョンを取得し、初期化のために、前記遅延されたバージョンを前記第2符号化プロセッサ(610)のデエンファシスステージ(617)へと供給する、遅延ステージ(707)、
    前記第1符号化済み信号部分の復号化済みバージョンをフィルタリングしてフィルタ出力を取得し、初期化のために、前記フィルタ出力を前記第2符号化プロセッサ(610)の革新的符号帳決定部(613)へと供給する、重み付き予測係数分析フィルタリングブロック(708)、
    前記第1符号化済み信号部分の復号化済みバージョン又は前記第1符号化済み信号部分の復号化済みバージョンからプリエンファシスステージ(709)によって導出されたプリエンファシス済みバージョンをフィルタリングしてフィルタ残差信号を取得し、初期化のために前記フィルタ残差信号を前記第2符号化プロセッサ(610)の適応型符号帳決定部(612)へと供給する、分析フィルタリングステージ(706)、又は
    前記第1符号化済み信号部分の復号化済みバージョンをフィルタリングしてプリエンファシス済みバージョンを取得し、初期化のために前記プリエンファシス済みバージョン又は遅延されたプリエンファシス済みバージョンを前記第2符号化プロセッサ(610)の合成フィルタリングステージ(616)へと供給する、プリエンファシスフィルタ(709)、を含む、
    オーディオ符号器。
  6. 請求項1乃至5のいずれか一項に記載のオーディオ符号器において、
    前記第1符号化プロセッサ(600)は、前記第1オーディオ信号部分から導出された予測係数(1002,1010)を使用して前記周波数ドメイン表現のスペクトル値の整形(606a)を実行して、整形済みスペクトル値を取得し、更に、前記第1符号化プロセッサ(600)は、前記周波数ドメイン表現の前記整形済みスペクトル値の量子化及びエントロピー符号化操作(606b)を実行するよう構成されている、オーディオ符号器。
  7. 請求項1乃至6のいずれか一項に記載のオーディオ符号器において、前記クロスプロセッサ(700)は、
    前記第1オーディオ信号部分から導出されたLPC係数(1010)を使用して前記周波数ドメイン表現の量子化済みスペクトル値を整形する、ノイズ整形部(703)と、
    前記周波数ドメイン表現のスペクトル的に整形されたスペクトル部分を高スペクトル分解能で復号化して復号化済みスペクトル表現を取得する、スペクトル復号器(704,705)と、
    前記復号化済みスペクトル表現に対し周波数−時間変換を実行して復号化済み第1オーディオ信号部分を取得する周波数−時間変換部(702)であって、前記第2サンプリングレートは前記復号化済み第1オーディオ信号部分と関連している、周波数−時間変換部(702)と、
    を含む、オーディオ符号器。
  8. 請求項1乃至7のいずれか一項に記載のオーディオ符号器において、
    前記第2符号化プロセッサ(610)が以下のブロック群の少なくとも1つのブロックを含む、オーディオ符号器:
    予測分析フィルタ(611);
    適応型符号帳ステージ(612);
    革新的符号帳ステージ(614);
    革新的符号帳エントリを推定する推定部(613);
    ACELP/ゲイン符号化ステージ(615);
    予測合成フィルタリングステージ(616);
    デエンファシス・ステージ(617);
    低音ポストフィルタ分析ステージ(618)。
  9. 請求項1乃至8のいずれか一項に記載のオーディオ符号器において、
    前記クロスプロセッサ(700)は、前記復号化済みスペクトル表現に対し周波数−時間変換を実行して、時間ドメイン信号を前記第2サンプリングレートで生成する周波数−時間変換部(702)を有し、
    前記周波数−時間変換部(702)が、
    前記第1サンプリングレートと前記第2サンプリングレートとの比に従って、前記低帯域部分を選択する選択部(726)と、
    前記低減された変換サイズを有する変換プロセッサ(720)と、
    前記時間−周波数変換部(602)により使用された窓とは異なる個数の窓係数を有する窓を使用して窓掛けする合成窓掛け部(712)と、を含む、
    オーディオ符号器。
  10. 符号化済みオーディオ信号を復号化するオーディオ復号器において、
    第1の符号化済みオーディオ信号部分を周波数ドメインで復号化して復号化済みスペクトル表現を取得する第1復号化プロセッサ(1120)であって、前記復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得する周波数−時間変換部(1124)を有し、前記復号化済みスペクトル表現はそれと関連する第1サンプリングレートを有する、第1復号化プロセッサ(1120)と、
    第2の符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2オーディオ信号部分を取得する第2復号化プロセッサ(1140)であって、前記復号化済み第2オーディオ信号部分はそれと関連する第2サンプリングレートを有する前記第2復号化プロセッサ(1140)と、
    前記符号化済みオーディオ信号内で前記第1の符号化済みオーディオ信号部分に時間的に後続する前記第2の符号化済みオーディオ信号部分の復号化のために前記第2復号化プロセッサ(1140)が初期化されるよう、前記復号化済みスペクトル表現から前記第2復号化プロセッサ(1140)の初期化データを計算するクロスプロセッサ(1170)であって、前記第2復号化プロセッサ(1140)の初期化データを取得するために、前記復号化済みスペクトル表現の低帯域部分および低減された変換サイズを選択することを使用して、前記第1サンプリングレートから前記第2サンプリングレートへのダウンサンプリングを追加的に実行する周波数−時間変換を使用するように構成された、クロスプロセッサ(1170)と、
    前記復号化済み第1オーディオ信号部分と前記復号化済み第2オーディオ信号部分とを結合して復号化済みオーディオ信号を取得する結合部(1160)と、
    を含むオーディオ復号器。
  11. 請求項10に記載のオーディオ復号器において、
    前記第1復号化プロセッサ(1120)は、第1スペクトル部分の第1セットを波形保存方式で再構成してギャップを有するスペクトルを生成するよう構成され、前記スペクトルにおけるギャップは、パラメトリックデータを適用する周波数再生成を使用する一方で、第1スペクトル部分の第1セットの再構成された第1スペクトル部分を使用することを含む、インテリジェント・ギャップ充填(IGF)技術を用いて充填される、
    オーディオ復号器。
  12. 請求項10又は11に記載のオーディオ復号器において、
    前記第1復号化プロセッサ(1120)は、前記復号化済み第1オーディオ信号部分をポストフィルタリングする適応型長期予測ポストフィルタ(1420)を含み、前記適応型長期予測ポストフィルタ(1420)が前記符号化済みオーディオ信号の中に含まれた1つ以上の長期予測パラメータにより制御される、オーディオ復号器。
  13. 請求項10乃至12のいずれか一項に記載のオーディオ復号器において、
    前記クロスプロセッサ(1170)は、
    前記復号化済みスペクトル表現に対し前記周波数−時間変換を実行する追加的周波数−時間変換部(1171)であって、前記第1復号化プロセッサ(1120)の前記周波数−時間変換部(1124)と関連する前記第1サンプリングレートとは異なる第2サンプリングレートで作動し、時間ドメインで追加的な復号化済み第1オーディオ信号部分を得る、追加的周波数−時間変換部(1171)をさらに備え、
    前記追加的な復号化済み第1オーディオ信号部分は、前記復号化済み第1オーディオ信号部分と関連する第1サンプリングレートとは異なる第2サンプリングレートを有し、
    前記追加的周波数−時間変換部(1171)は、
    前記第1サンプリングレートと前記第2サンプリングレートとの比に従って、前記復号化済みスペクトル表現の低帯域部分を選択する選択部(726)と、
    前記周波数−時間変換部(1124)の変換サイズ(710)とは異なる前記低減された変換サイズを有する変換プロセッサ(720)と、
    前記周波数−時間変換部(1124)により使用された窓と比較して異なる個数の係数を有する窓を使用する合成窓掛け部(722)と、を含む、
    オーディオ復号器
  14. 請求項10乃至13のいずれか一項に記載のオーディオ復号器において、
    前記クロスプロセッサ(1170)は、
    初期化のために、前記追加的な復号化済み第1オーディオ信号部分を遅延しかつ前記追加的な復号化済み第1オーディオ信号部分の遅延されたバージョンを前記第2復号化プロセッサ(1140)のデエンファシスステージ(1144)へと供給する、遅延ステージ(1172)、
    初期化のために、前記追加的な復号化済み第1オーディオ信号部分をフィルタリング及び遅延し、かつ遅延ステージ出力を前記第2復号化プロセッサ(1140)の予測合成フィルタ(1143)へと供給する、プリエンファシスフィルタ(1173)及び遅延ステージ(1175)、
    前記追加的な復号化済み第1オーディオ信号部分又はプリエンファシス(1173)された追加的な復号化済み第1オーディオ信号部分から、予測残差信号を生成し、かつ前記予測残差信号を前記第2復号化プロセッサ(1140)の符号帳合成部(1141)へと供給する、予測分析フィルタ(1174)、又は、
    初期化のために、前記追加的な復号化済み第1オーディオ信号部分を前記第2復号化プロセッサ(1140)のリサンプラ(1210)の分析ステージ(1471)へと供給する、スイッチ(1480)、を含む、
    オーディオ復号器。
  15. 請求項10乃至14のいずれか一項に記載のオーディオ復号器において、
    前記第2復号化プロセッサ(1140)が以下のブロック群の少なくとも1つのブロックを含む、オーディオ復号器:
    ACELPゲイン及び革新的符号帳を復号化するステージ(1149);
    適応型符号帳合成ステージ(1141);
    ACELP後処理部(1142);
    予測合成フィルタ(1143);
    デエンファシス・ステージ(1144)。
  16. 高帯域と低帯域とを含むオーディオ信号を符号化する方法において、
    第1オーディオ信号部分を周波数ドメインで符号化(600)するステップであって、前記第1オーディオ信号部分はそれと関連する第1サンプリングレートを有し、
    前記第1オーディオ信号部分をこの第1オーディオ信号部分の最大周波数までスペクトルラインを有する周波数ドメイン表現へと変換(602)するサブステップ、及び
    前記周波数ドメイン表現を符号化(606)して、第1符号化済み信号部分である前記第1オーディオ信号部分の符号化済みスペクトル表現を取得するサブステップ、
    を含む、ステップ(600)と、
    第2オーディオ信号部分を時間ドメインで符号化して、第2符号化済み信号部分を取得するステップ(610)であって、前記第2オーディオ信号部分は前記第1オーディオ信号部分とは異なる、ステップ(610)と、
    前記オーディオ信号内で前記第1オーディオ信号部分に時間的に直後に後続する前記第2オーディオ信号部分の符号化のために前記第2オーディオ信号部分を符号化するステップ(610)が初期化されるように、前記第1オーディオ信号部分の符号化済みスペクトル表現から前記第2オーディオ信号部分を符号化するステップ(610)のための初期化データを計算するステップ(700)であって、前記第2オーディオ信号部分を符号化するステップ(610)の初期化データを取得するために、前記周波数ドメイン表現の低帯域部分および低減された変換サイズを選択することを使用して、前記第1サンプリングレートから前記第2サンプリングレートへのダウンサンプリングを追加的に実行する周波数−時間変換を使用することを含む、ステップ(700)と、
    前記オーディオ信号を分析し、前記オーディオ信号のどの部分が周波数ドメインで符号化される前記第1オーディオ信号部分であるか、及び前記オーディオ信号のどの部分が時間ドメインで符号化される前記第2オーディオ信号部分であるかを決定するステップ(620)と、
    前記第1オーディオ信号部分についての第1符号化済み信号部分と前記第2オーディオ信号部分についての第2符号化済み信号部分とを有する、符号化済みオーディオ信号を形成するステップ(630)と、
    を含む方法。
  17. 符号化済みオーディオ信号を復号化する方法において、
    第1の符号化済みオーディオ信号部分を周波数ドメインで復号化して復号化済みスペクトル表現を取得するステップ(1120)であって、前記第1の符号化済みオーディオ信号部分を復号化するステップ(1120)は、前記復号化済みスペクトル表現を時間ドメインへと変換して復号化済み第1オーディオ信号部分を取得するサブステップを有し、前記復号化済みスペクトル表現はそれと関連する第1サンプリングレートを有する、ステップ(1120)と、
    第2の符号化済みオーディオ信号部分を時間ドメインで復号化して復号化済み第2オーディオ信号部分を取得するステップ(1140)であって、前記復号化済み第2オーディオ信号部分はそれと関連する第2サンプリングレートを有するステップ(1140)と、
    前記符号化済みオーディオ信号内で前記第1の符号化済みオーディオ信号部分に時間的に後続する前記第2の符号化済みオーディオ信号部分の復号化のために前記第2の符号化済みオーディオ信号部分の復号化ステップ(1140)が初期化されるように、前記第1の符号化済みオーディオ信号部分の前記復号化済みスペクトル表現から前記第2の符号化済みオーディオ信号部分を復号化するステップ(1140)の初期化データを計算するステップ(1170)であって、前記第2の符号化済みオーディオ信号部分を復号化するステップ(1140)の初期化データを取得するために、前記復号化済みスペクトル表現の低帯域部分および低減された変換サイズを選択することを使用して、前記第1サンプリングレートから前記第2サンプリングレートへのダウンサンプリングを追加的に実行する周波数−時間変換を使用することを含む、ステップ(1170)と、
    前記復号化済み第1オーディオ信号部分と前記復号化済み第2オーディオ信号部分とを結合して復号化済みオーディオ信号を取得するステップ(1160)と、
    を含む方法。
  18. コンピュータ又はプロセッサ上で作動するときに、請求項16又は請求項17に記載の方法を実行するコンピュータプログラム。
JP2021019424A 2014-07-28 2021-02-10 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器 Active JP7135132B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022137531A JP7507207B2 (ja) 2014-07-28 2022-08-31 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178819.0 2014-07-28
EP14178819.0A EP2980795A1 (en) 2014-07-28 2014-07-28 Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
JP2019024181A JP6838091B2 (ja) 2014-07-28 2019-02-14 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019024181A Division JP6838091B2 (ja) 2014-07-28 2019-02-14 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022137531A Division JP7507207B2 (ja) 2014-07-28 2022-08-31 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Publications (2)

Publication Number Publication Date
JP2021099497A true JP2021099497A (ja) 2021-07-01
JP7135132B2 JP7135132B2 (ja) 2022-09-12

Family

ID=51224877

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2017504786A Active JP6483805B2 (ja) 2014-07-28 2015-07-24 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
JP2019024181A Active JP6838091B2 (ja) 2014-07-28 2019-02-14 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
JP2021019424A Active JP7135132B2 (ja) 2014-07-28 2021-02-10 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
JP2022137531A Active JP7507207B2 (ja) 2014-07-28 2022-08-31 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2017504786A Active JP6483805B2 (ja) 2014-07-28 2015-07-24 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
JP2019024181A Active JP6838091B2 (ja) 2014-07-28 2019-02-14 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022137531A Active JP7507207B2 (ja) 2014-07-28 2022-08-31 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器

Country Status (18)

Country Link
US (5) US10236007B2 (ja)
EP (4) EP2980795A1 (ja)
JP (4) JP6483805B2 (ja)
KR (1) KR102010260B1 (ja)
CN (2) CN112786063B (ja)
AR (1) AR101343A1 (ja)
AU (1) AU2015295606B2 (ja)
CA (1) CA2952150C (ja)
ES (3) ES2994302T3 (ja)
MX (1) MX360558B (ja)
MY (1) MY192540A (ja)
PL (3) PL3175451T3 (ja)
PT (2) PT3175451T (ja)
RU (1) RU2668397C2 (ja)
SG (1) SG11201700645VA (ja)
TR (1) TR201909548T4 (ja)
TW (1) TWI581251B (ja)
WO (1) WO2016016124A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
WO2016142002A1 (en) 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
EP3107096A1 (en) 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
EP3182411A1 (en) 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
WO2017125563A1 (en) 2016-01-22 2017-07-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for estimating an inter-channel time difference
EP3288031A1 (en) 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置
US10354669B2 (en) 2017-03-22 2019-07-16 Immersion Networks, Inc. System and method for processing audio data
EP3382703A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for processing an audio signal
JP7257975B2 (ja) 2017-07-03 2023-04-14 ドルビー・インターナショナル・アーベー 密集性の過渡事象の検出及び符号化の複雑さの低減
EP4243453B1 (en) * 2017-07-28 2025-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for decoding an encoded multichannel signal using a filling signal generated by a broad band filter
JP7214726B2 (ja) * 2017-10-27 2023-01-30 フラウンホッファー-ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ニューラルネットワークプロセッサを用いた帯域幅が拡張されたオーディオ信号を生成するための装置、方法またはコンピュータプログラム
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
CN109360585A (zh) * 2018-12-19 2019-02-19 晶晨半导体(上海)股份有限公司 一种语音激活检测方法
CN111383646B (zh) 2018-12-28 2020-12-08 广州市百果园信息技术有限公司 一种语音信号变换方法、装置、设备和存储介质
US11647241B2 (en) * 2019-02-19 2023-05-09 Sony Interactive Entertainment LLC Error de-emphasis in live streaming
US11380343B2 (en) * 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CA3163373A1 (en) * 2020-02-03 2021-08-12 Vaclav Eksler Switching between stereo coding modes in a multichannel sound codec
CN111554312A (zh) * 2020-05-15 2020-08-18 西安万像电子科技有限公司 控制音频编码类型的方法、装置和系统
CN114299967A (zh) * 2020-09-22 2022-04-08 华为技术有限公司 音频编解码方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP2012242785A (ja) * 2011-05-24 2012-12-10 Sony Corp 信号処理装置、信号処理方法、およびプログラム
US20130030798A1 (en) * 2011-07-26 2013-01-31 Motorola Mobility, Inc. Method and apparatus for audio coding and decoding

Family Cites Families (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3336617B2 (ja) 1993-05-31 2002-10-21 ソニー株式会社 信号符号化又は復号化装置,及び信号符号化又は復号化方法,並びに記録媒体
JP3465697B2 (ja) 1993-05-31 2003-11-10 ソニー株式会社 信号記録媒体
IT1268195B1 (it) * 1994-12-23 1997-02-21 Sip Decodificatore per segnali audio appartenenti a sequenze audiovisive compresse e codificate.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
JP3364825B2 (ja) * 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
US6446041B1 (en) * 1999-10-27 2002-09-03 Microsoft Corporation Method and system for providing audio playback of a multi-source document
US6968564B1 (en) * 2000-04-06 2005-11-22 Nielsen Media Research, Inc. Multi-band spectral audio encoding
US6996198B2 (en) 2000-10-27 2006-02-07 At&T Corp. Nonuniform oversampled filter banks for audio signal processing
US6384773B1 (en) * 2000-12-15 2002-05-07 Harris Corporation Adaptive fragmentation and frequency translation of continuous spectrum waveform to make use of discontinuous unoccupied segments of communication bandwidth
DE10102155C2 (de) * 2001-01-18 2003-01-09 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms
FI110729B (fi) * 2001-04-11 2003-03-14 Nokia Corp Menetelmä pakatun audiosignaalin purkamiseksi
US6988066B2 (en) 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
JP3876781B2 (ja) 2002-07-16 2007-02-07 ソニー株式会社 受信装置および受信方法、記録媒体、並びにプログラム
EP1595243A2 (en) * 2003-02-12 2005-11-16 Koninklijke Philips Electronics N.V. Audio reproduction apparatus, method, computer program
KR100547113B1 (ko) 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법
US20050004793A1 (en) 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
WO2005022756A1 (ja) 2003-08-28 2005-03-10 Sony Corporation 復号装置および方法、プログラム記録媒体、並びにプログラム
JP4679049B2 (ja) * 2003-09-30 2011-04-27 パナソニック株式会社 スケーラブル復号化装置
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR100561869B1 (ko) 2004-03-10 2006-03-17 삼성전자주식회사 무손실 오디오 부호화/복호화 방법 및 장치
US7739120B2 (en) * 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
MXPA06012617A (es) * 2004-05-17 2006-12-15 Nokia Corp Codificacion de audio con diferentes longitudes de cuadro de codificacion.
US7596486B2 (en) * 2004-05-19 2009-09-29 Nokia Corporation Encoding an audio signal using different audio coder modes
EP1750397A4 (en) * 2004-05-26 2007-10-31 Nippon Telegraph & Telephone SOUND PACKET PLAY PROCESS, SOUND PACKET PLAYER, SOUNDPACK PLAYBACK PROGRAM AND RECORDING MEDIUM
KR100707186B1 (ko) 2005-03-24 2007-04-13 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법 및 기록 매체
EP1866915B1 (en) * 2005-04-01 2010-12-15 Qualcomm Incorporated Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US8050334B2 (en) 2005-07-07 2011-11-01 Nippon Telegraph And Telephone Corporation Signal encoder, signal decoder, signal encoding method, signal decoding method, program, recording medium and signal codec method
US8271274B2 (en) * 2006-02-22 2012-09-18 France Telecom Coding/decoding of a digital audio signal, in CELP technique
FR2897977A1 (fr) * 2006-02-28 2007-08-31 France Telecom Procede de limitation de gain d'excitation adaptative dans un decodeur audio
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
JP2008033269A (ja) 2006-06-26 2008-02-14 Sony Corp デジタル信号処理装置、デジタル信号処理方法およびデジタル信号の再生装置
DE602006002739D1 (de) * 2006-06-30 2008-10-23 Fraunhofer Ges Forschung Audiokodierer, Audiodekodierer und Audioprozessor mit einer dynamisch variablen Warp-Charakteristik
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
JP5205373B2 (ja) 2006-06-30 2013-06-05 フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ
US8655652B2 (en) 2006-10-20 2014-02-18 Dolby International Ab Apparatus and method for encoding an information signal
US8688437B2 (en) * 2006-12-26 2014-04-01 Huawei Technologies Co., Ltd. Packet loss concealment for speech coding
CN101025918B (zh) * 2007-01-19 2011-06-29 清华大学 一种语音/音乐双模编解码无缝切换方法
KR101261524B1 (ko) 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
KR101411900B1 (ko) 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
MX2009013519A (es) * 2007-06-11 2010-01-18 Fraunhofer Ges Forschung Codificador de audio para codificar una señal de audio que tiene una porcion similar a un impulso y una porcion estacionaria, metodos de codificacion, decodificador, metodo de decodificacion, y señal de audio codificada.
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US20090048828A1 (en) * 2007-08-15 2009-02-19 University Of Washington Gap interpolation in acoustic signals using coherent demodulation
BRPI0815972B1 (pt) 2007-08-27 2020-02-04 Ericsson Telefon Ab L M método para recuperação de espectro em decodificação espectral de um sinal de áudio, método para uso em codificação espectral de um sinal de áudio, decodificador, e, codificador
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
WO2009114656A1 (en) * 2008-03-14 2009-09-17 Dolby Laboratories Licensing Corporation Multimode coding of speech-like and non-speech-like signals
EP2144171B1 (en) * 2008-07-11 2018-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding frames of a sampled audio signal
PL2346030T3 (pl) * 2008-07-11 2015-03-31 Fraunhofer Ges Forschung Koder audio, sposób kodowania sygnału audio oraz program komputerowy
AU2013200680B2 (en) * 2008-07-11 2015-01-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
BRPI0910512B1 (pt) * 2008-07-11 2020-10-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. codificador e decodificador de áudio para codificar e decodificar amostras de áudio
US8880410B2 (en) * 2008-07-11 2014-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating a bandwidth extended signal
CA2836862C (en) 2008-07-11 2016-09-13 Stefan Bayer Time warp activation signal provider, audio signal encoder, method for providing a time warp activation signal, method for encoding an audio signal and computer programs
RU2512090C2 (ru) * 2008-07-11 2014-04-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ генерирования сигнала с расширенной полосой пропускания
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000369A (es) * 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
EP2146344B1 (en) 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
TWI520128B (zh) * 2008-10-08 2016-02-01 弗勞恩霍夫爾協會 多解析度切換音訊編碼/解碼方案(一)
US8364471B2 (en) 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
EP4145446B1 (en) 2009-01-16 2023-11-22 Dolby International AB Cross product enhanced harmonic transposition
ES2639716T3 (es) * 2009-01-28 2017-10-30 Dolby International Ab Transposición armónica mejorada
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
PL3751570T3 (pl) * 2009-01-28 2022-03-07 Dolby International Ab Ulepszona transpozycja harmonicznych
KR101622950B1 (ko) 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
TWI662788B (zh) 2009-02-18 2019-06-11 瑞典商杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
PL2234103T3 (pl) * 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
RU2452044C1 (ru) * 2009-04-02 2012-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство, способ и носитель с программным кодом для генерирования представления сигнала с расширенным диапазоном частот на основе представления входного сигнала с использованием сочетания гармонического расширения диапазона частот и негармонического расширения диапазона частот
EP2237266A1 (en) * 2009-04-03 2010-10-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a plurality of local center of gravity frequencies of a spectrum of an audio signal
US8391212B2 (en) * 2009-05-05 2013-03-05 Huawei Technologies Co., Ltd. System and method for frequency domain audio post-processing based on perceptual masking
US8228046B2 (en) * 2009-06-16 2012-07-24 American Power Conversion Corporation Apparatus and method for operating an uninterruptible power supply
KR20100136890A (ko) 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
EP2273493B1 (en) 2009-06-29 2012-12-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Bandwidth extension encoding and decoding
WO2011013983A2 (en) 2009-07-27 2011-02-03 Lg Electronics Inc. A method and an apparatus for processing an audio signal
GB2473266A (en) 2009-09-07 2011-03-09 Nokia Corp An improved filter bank
GB2473267A (en) 2009-09-07 2011-03-09 Nokia Corp Processing audio signals to reduce noise
MY163358A (en) * 2009-10-08 2017-09-15 Fraunhofer-Gesellschaft Zur Förderung Der Angenwandten Forschung E V Multi-mode audio signal decoder,multi-mode audio signal encoder,methods and computer program using a linear-prediction-coding based noise shaping
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
ES2797525T3 (es) * 2009-10-15 2020-12-02 Voiceage Corp Conformación simultánea de ruido en el dominio del tiempo y el dominio de la frecuencia para transformaciones TDAC
ES2453098T3 (es) * 2009-10-20 2014-04-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Códec multimodo de audio
KR101411759B1 (ko) * 2009-10-20 2014-06-25 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호 인코더, 오디오 신호 디코더, 앨리어싱-소거를 이용하여 오디오 신호를 인코딩 또는 디코딩하는 방법
US8484020B2 (en) 2009-10-23 2013-07-09 Qualcomm Incorporated Determining an upperband signal from a narrowband signal
WO2011059254A2 (en) * 2009-11-12 2011-05-19 Lg Electronics Inc. An apparatus for processing a signal and method thereof
US9048865B2 (en) * 2009-12-16 2015-06-02 Syntropy Systems, Llc Conversion of a discrete time quantized signal into a continuous time, continuously variable signal
US8428959B2 (en) * 2010-01-29 2013-04-23 Polycom, Inc. Audio packet loss concealment by transform interpolation
CN101800050B (zh) * 2010-02-03 2012-10-10 武汉大学 基于感知自适应比特分配的音频精细分级编码方法及系统
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
KR101414736B1 (ko) 2010-03-09 2014-08-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 캐스케이드 필터뱅크들을 이용한 입력 오디오 신호를 처리하는 장치 및 방법
EP2375409A1 (en) 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
SG184537A1 (en) 2010-04-13 2012-11-29 Fraunhofer Ges Forschung Audio or video encoder, audio or video decoder and related methods for processing multi-channel audio or video signals using a variable prediction direction
US8886523B2 (en) 2010-04-14 2014-11-11 Huawei Technologies Co., Ltd. Audio decoding based on audio class with control code for post-processing modes
US8600737B2 (en) * 2010-06-01 2013-12-03 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for wideband speech coding
WO2011156905A2 (en) 2010-06-17 2011-12-22 Voiceage Corporation Multi-rate algebraic vector quantization with supplemental coding of missing spectrum sub-bands
EP4398248A3 (en) 2010-07-08 2024-07-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder using forward aliasing cancellation
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US8560330B2 (en) 2010-07-19 2013-10-15 Futurewei Technologies, Inc. Energy envelope perceptual correction for high band coding
BR112012024360B1 (pt) 2010-07-19 2020-11-03 Dolby International Ab sistema configurado para gerar uma pluralidade de sinais de áudio de sub-banda de alta frequência, decodificador de áudio, codificador, método para gerar uma pluralidade de sinais de sub-banda de alta frequência, método para decodificar um fluxo de bits, método para gerar dados de controle a partir de um sinal de áudio e meio de armazenamento
BE1019445A3 (fr) * 2010-08-11 2012-07-03 Reza Yves Procede d'extraction d'information audio.
JP5749462B2 (ja) * 2010-08-13 2015-07-15 株式会社Nttドコモ オーディオ復号装置、オーディオ復号方法、オーディオ復号プログラム、オーディオ符号化装置、オーディオ符号化方法、及び、オーディオ符号化プログラム
KR101826331B1 (ko) 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
PL2625688T3 (pl) * 2010-10-06 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób do przetwarzania sygnału audio i do dostarczania wyższej granulacji czasowej dla połączonego kodeka mowy i audio (USAC)
EP2619758B1 (en) 2010-10-15 2015-08-19 Huawei Technologies Co., Ltd. Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis
US20130173275A1 (en) * 2010-10-18 2013-07-04 Panasonic Corporation Audio encoding device and audio decoding device
US20130253917A1 (en) * 2010-12-09 2013-09-26 Dolby International Ab Psychoacoustic filter design for rational resamplers
FR2969805A1 (fr) 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
CA2981539C (en) * 2010-12-29 2020-08-25 Samsung Electronics Co., Ltd. Apparatus and method for encoding/decoding for high-frequency bandwidth extension
RU2571388C2 (ru) * 2011-03-18 2015-12-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Передача длины элемента кадра при кодировании аудио
EP2707873B1 (en) * 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
JP2013015598A (ja) * 2011-06-30 2013-01-24 Zte Corp オーディオ符号化/復号化方法、システム及びノイズレベルの推定方法
EP3279895B1 (en) * 2011-11-02 2019-07-10 Telefonaktiebolaget LM Ericsson (publ) Audio encoding based on an efficient representation of auto-regressive coefficients
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN103428819A (zh) * 2012-05-24 2013-12-04 富士通株式会社 一种载波频点搜索方法和装置
GB201210373D0 (en) * 2012-06-12 2012-07-25 Meridian Audio Ltd Doubly compatible lossless audio sandwidth extension
EP2862168B1 (en) 2012-06-14 2017-08-09 Dolby International AB Smooth configuration switching for multichannel audio
US9236053B2 (en) * 2012-07-05 2016-01-12 Panasonic Intellectual Property Management Co., Ltd. Encoding and decoding system, decoding apparatus, encoding apparatus, encoding and decoding method
US9053699B2 (en) * 2012-07-10 2015-06-09 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
US9830920B2 (en) * 2012-08-19 2017-11-28 The Regents Of The University Of California Method and apparatus for polyphonic audio signal prediction in coding and networking systems
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
CN105190749B (zh) * 2013-01-29 2019-06-11 弗劳恩霍夫应用研究促进协会 噪声填充技术
MX348506B (es) * 2013-02-20 2017-06-14 Fraunhofer Ges Forschung Aparato y metodo para codificar o decodificar una señal de audio utilizando una superposicion dependiente de la ubicacion de un transitorio.
US9489959B2 (en) 2013-06-11 2016-11-08 Panasonic Intellectual Property Corporation Of America Device and method for bandwidth extension for audio signals
EP2830059A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling energy adjustment
CN104517610B (zh) 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置
FR3011408A1 (fr) 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
BR122022008602B1 (pt) 2013-10-31 2023-01-10 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Decodificador de áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação no domínio de tempo
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
GB2515593B (en) * 2013-12-23 2015-12-23 Imagination Tech Ltd Acoustic echo suppression
CN103905834B (zh) * 2014-03-13 2017-08-15 深圳创维-Rgb电子有限公司 音频数据编码格式转换的方法及装置
PL3117432T3 (pl) 2014-03-14 2019-10-31 Ericsson Telefon Ab L M Sposób i aparatura do kodowania audio
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
US9626983B2 (en) 2014-06-26 2017-04-18 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
US9794703B2 (en) * 2014-06-27 2017-10-17 Cochlear Limited Low-power active bone conduction devices
FR3023036A1 (fr) 2014-06-27 2016-01-01 Orange Re-echantillonnage par interpolation d'un signal audio pour un codage / decodage a bas retard
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CA3187035A1 (en) * 2020-07-10 2022-01-13 Nima TALEBZADEH Radiant energy spectrum converter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010210680A (ja) * 2009-03-06 2010-09-24 Ntt Docomo Inc 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP2012242785A (ja) * 2011-05-24 2012-12-10 Sony Corp 信号処理装置、信号処理方法、およびプログラム
US20130030798A1 (en) * 2011-07-26 2013-01-31 Motorola Mobility, Inc. Method and apparatus for audio coding and decoding

Also Published As

Publication number Publication date
EP3944236C0 (en) 2024-10-02
BR122023025764A2 (pt) 2024-03-05
MX360558B (es) 2018-11-07
RU2017106099A (ru) 2018-08-30
US20190267016A1 (en) 2019-08-29
EP3522154A1 (en) 2019-08-07
JP7507207B2 (ja) 2024-06-27
ES2901758T3 (es) 2022-03-23
PL3522154T3 (pl) 2022-02-21
EP3522154B1 (en) 2021-10-20
US20250124935A1 (en) 2025-04-17
BR122023025709A2 (pt) 2024-03-05
BR122023025780A2 (pt) 2024-03-05
EP2980795A1 (en) 2016-02-03
US20170133023A1 (en) 2017-05-11
TWI581251B (zh) 2017-05-01
EP3175451B1 (en) 2019-05-01
EP3944236A1 (en) 2022-01-26
WO2016016124A1 (en) 2016-02-04
JP2022172245A (ja) 2022-11-15
EP3175451A1 (en) 2017-06-07
ES2733846T3 (es) 2019-12-03
PT3175451T (pt) 2019-07-30
US20230386485A1 (en) 2023-11-30
KR20170039699A (ko) 2017-04-11
CA2952150A1 (en) 2016-02-04
US11915712B2 (en) 2024-02-27
CN106796800A (zh) 2017-05-31
PL3175451T3 (pl) 2019-10-31
MX2017001243A (es) 2017-07-07
PT3522154T (pt) 2021-12-24
JP2017528754A (ja) 2017-09-28
MY192540A (en) 2022-08-26
JP2019109531A (ja) 2019-07-04
TR201909548T4 (tr) 2019-07-22
JP7135132B2 (ja) 2022-09-12
ES2994302T3 (en) 2025-01-21
US10236007B2 (en) 2019-03-19
US20220051681A1 (en) 2022-02-17
BR112017001294A2 (pt) 2017-11-14
BR122023025649A2 (pt) 2024-03-05
BR122023025751A2 (pt) 2024-03-05
KR102010260B1 (ko) 2019-08-13
JP6483805B2 (ja) 2019-03-13
US11410668B2 (en) 2022-08-09
RU2017106099A3 (ja) 2018-08-30
JP6838091B2 (ja) 2021-03-03
CN106796800B (zh) 2021-01-26
AU2015295606B2 (en) 2017-10-12
PL3944236T3 (pl) 2025-03-31
CA2952150C (en) 2020-09-01
CN112786063B (zh) 2024-05-24
RU2668397C2 (ru) 2018-09-28
EP3944236B1 (en) 2024-10-02
SG11201700645VA (en) 2017-02-27
TW201608560A (zh) 2016-03-01
CN112786063A (zh) 2021-05-11
AU2015295606A1 (en) 2017-02-02
AR101343A1 (es) 2016-12-14

Similar Documents

Publication Publication Date Title
JP6838091B2 (ja) 周波数ドメインプロセッサ、時間ドメインプロセッサ及び連続的な初期化のためのクロスプロセッサを使用するオーディオ符号器及び復号器
JP6941643B2 (ja) 全帯域ギャップ充填を備えた周波数ドメインプロセッサと時間ドメインプロセッサとを使用するオーディオ符号器及び復号器
HK40067463A (en) Audio encoding and decoding using a frequency domain processor, a time domain processor, and a cross processor for continuous initialization
HK40011441A (en) Audio coding using a frequency domain processor and a time domain processor
HK1233756B (en) Audio encoding and decoding in the frequency and time domains
HK1233756A1 (en) Audio encoding and decoding in the frequency and time domains

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220322

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220407

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20220601

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20220601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220602

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220628

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20220628

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220831

R150 Certificate of patent or registration of utility model

Ref document number: 7135132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150