TWI752166B - 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 - Google Patents
用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 Download PDFInfo
- Publication number
- TWI752166B TWI752166B TW107104234A TW107104234A TWI752166B TW I752166 B TWI752166 B TW I752166B TW 107104234 A TW107104234 A TW 107104234A TW 107104234 A TW107104234 A TW 107104234A TW I752166 B TWI752166 B TW I752166B
- Authority
- TW
- Taiwan
- Prior art keywords
- audio
- data
- bitstream
- audio signal
- esbr
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 230000010354 integration Effects 0.000 title 1
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000017105 transposition Effects 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 10
- 230000001172 regenerating effect Effects 0.000 claims abstract description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 5
- 230000001131 transforming effect Effects 0.000 claims description 2
- 230000003595 spectral effect Effects 0.000 abstract description 81
- 238000012545 processing Methods 0.000 description 88
- 230000010076 replication Effects 0.000 description 53
- 238000012805 post-processing Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 10
- 238000007781 pre-processing Methods 0.000 description 9
- 230000014509 gene expression Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 239000000945 filler Substances 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000010363 phase shift Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001627 detrimental effect Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Stereophonic System (AREA)
- Peptides Or Proteins (AREA)
- Materials For Photolithography (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Detergent Compositions (AREA)
- Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
- Lubricants (AREA)
Abstract
本發明揭示一種用於解碼一經編碼音訊位元串流之方法。該方法包含接收該經編碼音訊位元串流及解碼該音訊資料以產生一解碼低頻帶音訊信號。該方法進一步包含提取高頻重建後設資料及使用一分析濾波器組對該解碼低頻帶音訊信號進行濾波以產生一濾波低頻帶音訊信號。該方法亦包含提取一旗標,其指示對該音訊資料執行頻譜變換或諧波轉置,以及根據該旗標使用該濾波低頻帶音訊信號及該高頻重建後設資料再生該音訊信號之一高頻帶部分。
Description
實施例係關於音訊信號處理,且更具體而言,實施例係關於音訊位元串流之編碼、解碼或轉碼,其中控制資料指定將對音訊資料執行高頻重建(「HFR」)之一基礎形式或HFR之一增強形式。
一典型音訊位元串流包含指示音訊內容之一或多者之音訊資料(例如,經編碼音訊資料)及指示音訊資料或音訊內容之至少一特性之後設資料兩者。用於產生一經編碼音訊位元串流之一熟知格式係MPEG標準ISO/IEC 14496-3:2009中所描述之MPEG-4進階音訊編碼(AAC)格式。在MPEG-4標準中,AAC表示「進階音訊編碼」且HE-AAC表示「高效能進階音訊編碼」。
MPEG-4 AAC標準定義若干音訊規範,其等判定哪些物件及編碼工具存在於一合規編碼器或解碼器中。此等音訊規範之三者係(1)AAC規範、(2)HE-AAC規範及(3)HE-AAC v2規範。AAC規範包含AAC低複雜性(或「AAC-LC」)物件類型。AAC-LC物件係MPEG-2 AAC低複雜性規範之對應物(含一些調整),且不包含頻譜帶複製(「SBR」)物件類型,亦
不包含參數立體聲(「PS」)物件類型。HE-AAC規範係AAC規範之一超集合且額外地包含SBR物件類型。HE-AAC v2規範係HE-AAC規範之一超集合且額外地包含PS物件類型。
SBR物件類型含有頻譜帶複製工具,其係顯著改良感知音訊編解碼器之壓縮效率之一重要高頻重建(「HFR」)編碼工具。SBR重建(例如,解碼器中之)接收器側上之一音訊信號之高頻分量。因此,編碼器僅需要編碼及傳輸低頻分量,以允許低資料速率下之一高很多之音訊品質。SBR係基於先前自可用頻寬受限信號截斷以減小資料速率及控制自編碼器獲得之資料之諧波序列之複製。音調分量與類雜訊分量之間的比率由自適應逆濾波以及視情況添加雜訊及正弦波來維持。在MPEG-4 AAC標準中,SBR工具執行頻譜修補(亦稱為線性變換或頻譜變換),其中若干連續正交鏡相濾波器(QMF)副頻帶自一音訊信號之所傳輸之一低頻帶部分複製(或「修補」)至解碼器中所產生之該音訊信號之一高頻帶部分。
就諸如具有相對低交越頻率之音樂內容之某些音訊類型而言,頻譜修補或線性變換可能並不理想。因此,需要用於改良頻譜帶複製之技術。
一第一種實施例係關於一種用於解碼一經編碼音訊位元串流之方法。該方法包含接收該經編碼音訊位元串流及解碼該音訊資料以產生一解碼低頻帶音訊信號。該方法進一步包含提取高頻重建後設資料及使用一分析濾波器組對該解碼低頻帶音訊信號進行濾波以產生一濾波低頻帶音訊信號。該方法進一步包含提取一旗標,該旗標指示對該音訊資料執行頻譜變換或諧波轉置,及根據該旗標使用該濾波低頻帶音訊信號及該高頻重建後設資料再生該音訊信號之一高頻帶部分。最後,該方法包含組合該濾波低
頻帶音訊信號及該再生高頻帶部分以形成一寬頻帶音訊信號。
一第二種實施例係關於一種用於解碼一經編碼音訊位元串流之音訊解碼器。該解碼器包含:一輸入介面,其用於接收該經編碼音訊位元串流,其中該經編碼音訊位元串流包含表示一音訊信號之一低頻帶部分之音訊資料;及一核心解碼器,其用於解碼該音訊資料以產生一解碼低頻帶音訊信號。該解碼器亦包含:一解格式化器,其用於自該經編碼音訊位元串流提取高頻重建後設資料,其中該高頻重建後設資料包含用於將連續數目個副頻帶自該音訊信號之一低頻帶部分線性變換至該音訊信號之一高頻帶部分之一高頻重建程序之操作參數;及一分析濾波器組,其用於對該解碼低頻帶音訊信號進行濾波以產生一濾波低頻帶音訊信號。該解碼器進一步包含:一解格式化器,其用於自該經編碼音訊位元串流提取一旗標,該旗標指示對該音訊資料執行線性變換或諧波轉置;及一高頻再生器,其用於根據該旗標使用該濾波低頻帶音訊信號及該高頻重建後設資料再生該音訊信號之一高頻帶部分。最後,該解碼器包含用於組合該濾波低頻帶音訊信號及該再生高頻帶部分以形成一寬頻帶音訊信號之一合成濾波器組。
其他種類之實施例係關於編碼及轉碼含有識別是否將執行增強頻譜帶複製(eSBR)處理之後設資料之音訊位元串流。
1:編碼器
2:輸送子系統
3:解碼器
4:後處理單元
100:編碼器
105:編碼器
106:後設資料產生階段
107:填充器/格式器階段
109:緩衝記憶體
200:解碼器
201:緩衝記憶體/緩衝器
202:音訊解碼子系統
203:增強頻譜帶複製(eSBR)處理階段
204:控制位元產生階段/控制位元產生器
205:位元串流酬載解格式化器/剖析器
210:音訊處理單元(APU)
213:頻譜帶複製(SBR)處理階段
215:位元串流酬載解格式化器/剖析器
300:後處理器
301:緩衝記憶體/緩衝器
400:增強頻譜帶複製(eSBR)解碼器
401:增強頻譜帶複製(eSBR)控制資料產生子系統
500:音訊處理單元(APU)
ID1:識別符
ID2:識別符
圖1係可經組態以執行本發明方法之一實施例之一系統之一實施例的一方塊圖。
圖2係作為本發明音訊處理單元之一實施例之一編碼器之一方塊圖。
圖3係包含係本發明音訊處理單元之一實施例之一解碼器及(視情況)亦包含耦合至其之一後處理器之一系統之一方塊圖。
圖4係作為本發明音訊處理單元之一實施例之一解碼器之一方塊圖。
圖5係作為本發明音訊處理單元之另一實施例之一解碼器之一方塊圖。
圖6係本發明音訊處理單元之另一實施例之一方塊圖。
圖7係包含其劃分之片段之一MPEG-4 AAC位元串流之一區塊之一圖。
注釋及命名
在本發明中(包含申請專利範圍中),「對」一信號或資料執行一操作之表達(例如,濾波、縮放、變換或應用增益至該信號或資料)在廣義上用於表示直接對該信號或資料或對該信號或資料之一處理版本(例如,對在對該信號執行操作之前已經歷初期濾波或預處理之該信號之一版本)執行操作。
在本發明中(包含申請專利範圍中),表達「音訊處理單元」或「音訊處理器」在廣義上用於表示一種經組態以處理音訊資料之系統、器件或裝置。音訊處理單元之實例包含(但不限於)編碼器、轉碼器、解碼器、編解碼器、預處理系統、後處理系統及位元串流處理系統(有時指稱位元串流處理工具)。實際上,所有消費者電子器件(諸如行動電話、電視、膝上型電腦及平板電腦)含有一音訊處理單元或音訊處理器。
在本發明中(包含申請專利範圍中),術語「耦合」在廣義上用於意謂一直接或間接連接。因此,若一第一器件耦合至一第二器件,則該連接可為透過一直接連接廣或透過經由其他器件及連接件之一間接連接。再者,整合至其他組件或與其他組件整合之組件亦彼此耦合。
MPEG-4 AAC標準設想一編碼MPEG-4 AAC位元串流包含指示各類型之高頻重建(「HFR」)處理之後設資料,HFR處理待由一解碼器應用(若待應用任何處理)以解碼該位元串流之音訊內容及/或控制此HFR處理及/或指示待採用以解碼該位元串流之音訊內容之至少一HFR工具之至少一特性或參數。本文中,吾人使用表達「SBR後設資料」來表示在MPEG-4 AAC標準中描述或提及之與頻譜帶複製(「SBR)」一起使用之此類型之後設資料。如熟習技術者所瞭解,SBR係HFR之一形式。
SBR較佳地用作為一雙重速率系統,其中基礎編解碼器依原始取樣率之一半操作,而SBR依原始取樣率操作。SBR編碼器與基礎核心編解碼器並行工作,即使依一較高取樣率。儘管SBR主要係解碼器中之一後程序,但在編碼器中提取重要參數以確保解碼器中之最準確高頻重建。編碼器估計適合於當前輸入信號片段特性之一時間及頻率範圍/解析度之SBR範圍之頻譜包絡。頻譜包絡由一複雜QMF分析及後續能量計算估計。頻譜包絡之時間及頻率解析度可在一高自由度下選擇以確保給定輸入片段之最適合時間頻率解析度。包絡估計需要考量在包絡調整之前,主要位於高頻區域(例如,一高峰)中之原始來源中之一暫態將在較小程度上存在於SBR所產生之高頻帶中,此係由於解碼器中之高頻帶係基於其中之該暫態相較於高頻帶而係不太顯著之低頻帶。相較於如用於其他音訊編碼演算法中之一般頻譜包絡估計,此態樣針對頻譜包絡資料之時間頻率解析度提出不同要求。
除頻譜包絡之外,針對不同時間及頻率區域提取表示輸入信號之頻譜特性之若干額外參數。由於鑑於控制參數之特定集合,編碼器自然存取原始信號以及關於解碼器中之SBR單元將如何產生高頻帶之資訊,因此系
統可能處置其中低頻帶構成一強諧波系列且待重現之高頻帶主要構成隨機信號分量之情況以及其中強音調分量存在於原始高頻帶中,而無需高頻帶區域基於其之低頻帶中之對應物之情況。另外,SBR編碼器之工作與基礎核心編解碼器密切相關以評估哪個頻率範圍應由SBR在一給定時間處覆蓋。就立體聲信號而言,SBR資料在藉由利用熵編碼以及控制資料之頻道依賴而傳輸之前有效編碼。
控制參數提取演算法通常需要依一給定位元率及一給定取樣率仔細調諧至基礎編解碼器。此係歸因於以下事實:一較低位元率通常隱含相較於一高位元率之一較大SBR範圍,且不同取樣率對應於SBR訊框之不同時間解析度。
一SBR解碼器通常包含若干不同部分。其包括一位元串流解碼模組、一高頻重建(HFR)模組、一額外高頻分量模組及一包絡調整器模組。系統係基於一複數值QMF濾波器組。在位元串流提取模組中,控制資料自位元串流讀取及解碼。在自位元串流讀取包絡資料之前,獲得當前訊框之時間頻率格網。基礎核心解碼器解碼當前訊框之音訊信號(即使依較低取樣率)以產生時域音訊樣本。音訊資料之所得訊框用於藉由HFR模組之高頻重建。接著,使用一QMF濾波器組來分析解碼低頻帶信號。隨後,對QMF濾波器組之副頻帶樣本執行高頻重建及包絡調整。高頻基於給定控制參數而依一靈活方式自低頻帶重建。此外,經重建之高頻帶根據控制資料在一副頻帶頻道基礎上適應地濾波以確保給定時間/頻率區域之適當頻譜特性。
一MPEG-4 AAC位元串流之頂層係資料區塊之一序列(「raw_data_block」元素),資料區塊之各者係含有音訊資料(通常用於
1024個或960個樣本之一時段)及相關資訊及/或其他資料之資料之一片段(本文中指稱一「區塊」)。本文中,吾人使用術語「區塊」來表示包括判定或指示一(但不超過一個)「raw_data_block」元素之音訊資料(及對應後設資料及(視情況,亦)其他相關資料)之一MPEG-4 AAC位元串流之一片段。
一MPEG-4 AAC位元串流之各區塊可包含若干語法元素(語法元素之各者亦在位元串流中具體化為資料之一片段)。MPEG-4 AAC標準中定義七種類型之此等語法元素。各語法元素由資料元素「id_syn_ele」之一不同值識別。語法元素之實例包含一「single_channel_element()」、一「channel_pair_element()」及一「fill_element()」。一單頻道元素係包含一單音訊頻道之音訊資料(一單音音訊信號)之一容器。一頻道對元素包含兩個音訊頻道之音訊資料(即,一立體聲音訊信號)。
一填充元素係包含一識別符(例如,上述元素「id_syn_ele」之值)、其後接著一資料(其指稱「填充資料」)之資訊之一容器。填充元素歷史上已用於調整待經由一恆定速率頻道傳輸之位元串流之瞬時位元率。藉由將適當數量之填充資料加至各區塊,可達成一恆定資料速率。
根據本發明之實施例,填充資料可包含擴展能夠在一位元串流中傳輸之資料(例如,後設資料)之類型之一或多個擴展酬載。視情況,接收具有含一新型資料之填充資料之位元串流之一解碼器可由接收位元串流之一器件(例如,一解碼器)使用以擴展該器件之功能性。因此,如熟習技術者可瞭解,填充元素係一特殊類型之資料結構且不同於通常用於傳輸音訊資料(例如,含有頻道資料之音訊酬載)之資料結構。
在本發明之一些實施例中,用於識別一填充元素之識別符可由具有
一0×6值之首先傳輸最高有效位元(「uimsbf」)之一三位元不帶正負號整數組成。在一區塊中,會出現相同類型之語法元素之若干例項(例如,若干填充元素)。
用於編碼音訊位元串流之另一標準係MPEG統一語音及音訊編碼(USAC)標準(ISO/IEC 23003-3:2012)。MPEG USAC標準描述使用頻譜帶複製處理(包含如MPEG-4 AAC標準中所描述之SBR處理,且亦包含頻譜帶複製處理之其他增強形式)之音訊內容之編碼及解碼。此處理應用MPEG-4 AAC標準中所描述之SBR工具集之一擴展及增強版本之頻譜帶複製工具(在本文中有時指稱「增強SBR工具」或「eSBR工具」)。因此,eSBR(如USAC標準中所定義)係對SBR(如MPEG-4 AAC標準中所定義)之一改良。
本文中,吾人使用表達「增強SBR處理」(或「eSBR處理」)來表示使用MPEG-4 AAC標準中未描述或提及之至少一eSBR工具(例如,MPEG USAC標準中描述或提及之至少一eSBR工具)之頻譜帶複製處理。此eSBR工具之實例係諧波轉置及QMF修補額外預處理或「預平坦化」。
整數階T之一諧波轉置將具有頻率ω之一正弦波映射為具有頻率Tω之一正弦波,同時保持信號持續時間。三個階級(T=2、3、4)通常用於序列中以使用最小可能轉置階級產生所要輸出頻率範圍之各部分。若需要第四階以轉置範圍以上之輸出,則其可由頻移產生。當可能時,產生用於處理之近臨界取樣基頻帶時域以最小化計算複雜性。
根據MPEG USAC標準產生之一位元串流(在本文中有時指稱一「USAC位元串流」)包含經編碼音訊內容且通常包含指示待由一解碼器應用以解碼USAC位元串流之音訊內容之各類型之頻譜帶複製處理之後設
資料及/或控制此頻譜帶複製處理及/或指示待採用以解碼USAC位元串流之音訊內容之至少一SBR工具及/或eSBR工具之至少一特性或參數之後設資料。
本文中,吾人使用表達「增強SBR後設資料」(或「eSBR後設資料」)來表示指示各類型之頻譜帶複製處理之後設資料,頻譜帶複製處理待由一解碼器應用以解碼一經編碼音訊位元串流(例如,一USAC位元串流)之音訊內容、及/或控制此頻譜帶複製處理、及/或指示待採用以解碼此音訊內容但未在MPEG-4 AAC標準中描述或提及之至少一SBR工具及/或eSBR工具之至少一特性或參數。eSBR後設資料之一實例係在MPEG USAC標準中描述或提及但未在MPEG-4 AAC標準中描述或提及之(指示或用於控制頻譜帶複製處理之)後設資料。因此,本文中之eSBR後設資料表示並非SBR後設資料之後設資料,而本文中之SBR後設資料表示並非eSBR後設資料之後設資料。
一USAC位元串流可包含SBR後設資料及eSBR後設資料兩者。更具體而言,一SAC位元串流可包含控制由一解碼器執行eSBR處理之eSBR後設資料及控制該解碼器執行SBR處理之SBR後設資料。根據本發明之典型實施例,eSBR後設資料(例如,eSBR特定組態資料)包含(根據本發明)於一MPEG-4 AAC位元串流中(例如,一SBR酬載之末端處之sbr_extension()容器中)。
在使用一eSBR工具集(包括至少一eSBR工具)解碼一經編碼位元串流期間,藉由一解碼器執行之eSBR處理基於在編碼期間截斷之諧波序列之複製而再生音訊信號之高頻帶。此eSBR處理通常調整所產生之高頻帶之頻譜包絡且應用逆濾波,且添加雜訊及正弦波分量以重現原始音訊信號之
頻譜特性。
根據本發明之典型實施例,eSBR後設資料包含(例如,係eSBR後設資料之較小數目個控制位元包含)於亦包含其他片段(音訊資料片段)中之經編碼音訊資料之一經編碼音訊位元串流(例如,一MPEG-4 AAC位元串流)之後設資料片段之一或多者中。通常,位元串流之各區塊之至少一此後設資料片段係(或包含)一填充元素(包含指示該填充元素之起始之一識別符),且eSBR後設資料包含於該識別符之後之該填充元素中。
圖1係一例示性音訊處理鏈(一音訊資料處理系統)之一方塊圖,其中該系統之元件之一或多者可根據本發明之一實施例組態。該系統包含如圖中所展示耦合在一起之以下元件:編碼器1、輸送子系統2、解碼器3及後處理單元4。在圖中所展示之系統上之變動中,忽略元件之一或多者或包含額外音訊資料處理單元。
在一些實施方案中,編碼器1(視情況,其包含一預處理單元)經組態以接受包括音訊內容作為輸入之PCM(時域)樣本及輸出指示音訊內容之一經編碼音訊位元串流(具有遵循MPEG-4 AAC標準之格式)。指示音訊內容之位元串流之資料在本文中有時指稱「音訊資料」或「經編碼音訊資料」。若編碼器根據本發明之一典型實施例組態,則自編碼器輸出之音訊位元串流包含eSBR後設資料(且通常亦包含其他後設資料)以及音訊資料。
自編碼器1輸出之一或多個經編碼音訊位元串流可確證為經編碼音訊輸送子系統2。子系統2經組態以儲存及/或輸送自編碼器1輸出之各經編碼位元串流。自編碼器1輸出之一經編碼音訊位元串流可由子系統2予以儲存(例如,以一DVD或藍光光碟之形式)或由子系統2予以傳輸(其可實施一傳
輸鏈路或網路),或可由子系統2予以儲存及傳輸。
解碼器3經組態以解碼其經由子系統2接收之一編碼MPEG-4 AAC音訊位元串流(由編碼器1產生)。在一些實施例中,解碼器3經組態以自位元串流之各區塊提取eSBR後設資料,及解碼位元串流(包含藉由使用所提取之eSBR後設資料執行eSBR處理)以產生經解碼音訊資料(例如,經解碼PCM音訊樣本之串流)。在一些實施例中,解碼器3經組態以自位元串流提取SBR後設資料(但忽略包含於位元串流中之eSBR後設資料),及解碼位元串流(包含藉由使用所提取之SBR後設資料執行SBR處理)以產生經解碼音訊資料(例如,經解碼PCM音訊樣本之串流)。通常,解碼器3包含(例如,依一非暫時方式)儲存自子系統2接收之經編碼音訊位元串流之片段之一緩衝器。
圖1之後處理單元4經組態以自解碼器3接受經解碼音訊資料之一串流(例如,經解碼PCM音訊樣本),及對經解碼音訊資料執行後處理。後處理單元亦可經組態以顯現經後處理之音訊內容(或自解碼器3接收之經解碼音訊)以由一或多個揚聲器播放。
圖2係作為本發明音訊處理單元之一實施例之一編碼器(100)之一方塊圖。編碼器100之組件或元件之任何者可在硬體、軟體或硬體及軟體之一組合中實施為一或多個程序及/或一或多個電路(例如,ASIC、FPGA或其他積體電路)。編碼器100包含如所展示連接之編碼器105、填充器(stuffer)/格式器階段107、後設資料產生階段106及緩衝記憶體109。通常,編碼器100亦包含其他處理元件(圖中未展示)。編碼器100經組態以將一輸入音訊位元串流轉換為一編碼輸出MPEG-4位元串流。
後設資料產生器106經耦合及組態以產生(及/或傳遞至階段107)待由
待自編碼器100輸出之經編碼位元串流中之階段107包含之後設資料(包含eSBR後設資料及SBR後設資料)。
編碼器105經耦合及組態以編碼輸入音訊資料(例如,藉由對輸入音訊資料執行壓縮),及將所得經編碼音訊確證至階段107以包含於待自階段107輸出之經編碼位元串流中。
階段107經組態以多工來自編碼器105之經編碼音訊及來自產生器106之後設資料(包含eSBR後設資料及SBR後設資料)以產生待自階段107輸出之經編碼位元串流,較佳地使得經編碼位元串流具有如本發明之實施例之一者所指定之格式。
緩衝記憶體109經組態以(例如,依一非暫時方式)儲存自階段107輸出之經編碼音訊位元串流之至少一區塊,且接著,經編碼音訊位元串流之區塊之一序列自緩衝記憶體109確證為自編碼器100至一輸送系統之輸出。
圖3係包含係本發明音訊處理單元之一實施例之一解碼器(200)及(視情況)亦包含耦合至其之一後處理器(300)之一系統之一方塊圖。解碼器200之組件或元件之任何者可在硬體、軟體或硬體及軟體之一組合中實施為一或多個程序及/或一或多個電路(例如,ASIC、FPGA或其他積體電路)。解碼器200包括如圖中所展示連接之緩衝記憶體201、位元串流酬載解格式化器(剖析器)205、音訊解碼子系統202(有時指稱一「核心」解碼階段或「核心」解碼子系統)、eSBR處理階段203及控制位元產生階段204。通常,解碼器200亦包含其他處理元件(圖中未展示)。
緩衝記憶體(緩衝器)201(例如,依一非暫時方式)儲存由解碼器200接收之一編碼MPEG-4 AAC音訊位元串流。在解碼器200之操作中,位元
串流之區塊之一序列自緩衝器201確證至解格式化器205。
在對圖3實施例(或待描述之圖4實施例)之變動中,不是一解碼器之一APU(例如,圖6之APU 500)包含(例如,依一非暫時方式)儲存由圖3或圖4之緩衝器201接收之相同類型之一經編碼音訊位元串流(例如,一MPEG-4 AAC音訊位元串流)之至少一區塊(即,包含eSBR後設資料之一經編碼音訊位元串流)之一緩衝記憶體(例如,相同於緩衝器201之一緩衝記憶體)。
再次參考圖3,解格式化器205經耦合及組態以解多工位元串流之各區塊以自各區塊提取SBR後設資料(包含經量化包絡資料)及eSBR後設資料(及通常亦提取其他後設資料)以確證至少eSBR後設資料及SBR後設資料至eSBR處理階段203,且通常亦確證其他提取後設資料至解碼子系統202(及視情況,亦可在控制位元產生器204)。解格式化器205亦經耦合及組態以自位元串流之各區塊提取音訊資料,及確證所提取之音訊資料至解碼子系統(解碼階段)202。
視情況,圖3之系統亦包含後處理器300。後處理器300包含緩衝記憶體(緩衝器)301及包含耦合至緩衝器301之至少一處理元件之其他處理元件(圖中未展示)。緩衝器301(例如,依一非暫時方式)儲存由後處理器300自解碼器200接收之經解碼音訊資料之至少一區塊(訊框)。後處理器300之處理元件經耦合及組態以使用自解碼子系統202(及/或解格式化器205)輸出之後設資料及/或自解碼器200之階段204輸出之控制位元接收及適應地處理自緩衝器301輸出之經編碼音訊之區塊(或訊框)之一序列。
解碼器200之音訊解碼子系統202經組態以解碼由剖析器205提取之音訊資料(此解碼可指稱一「核心」解碼操作)以產生經解碼音訊資料,及將
經解碼音訊資料確證至eSBR處理階段203。解碼在頻域中執行且通常包含逆量化、其後接著頻譜處理。通常,子系統202中之處理之一最終階段將一頻域至時域變換應用於經解碼頻域音訊資料,使得子系統之輸出係經時域解碼音訊資料。階段203經組態以將由eSBR後設資料及eSBR(由剖析器205提取)指示之SBR工具及eSBR工具應用於經解碼音訊資料(即,使用SBR及eSBR後設資料對解碼子系統202之輸出執行SBR及eSBR處理),以產生自解碼器200輸出(例如,輸出至後處理器300)之全解碼音訊資料。通常,解碼器200包含儲存自解格式化器205輸出之經解格式化之音訊資料及後設資料之一記憶體(可由子系統202及階段203存取),且階段203經組態以在SBR及eSBR處理期間視需要存取音訊資料及後設資料(包含SBR後設資料及eSBR後設資料)。階段203中之SBR處理及eSBR處理可被視為對核心解碼子系統202之輸出之後處理。視情況,解碼器200亦包含經耦合及組態以對階段203之輸出執行升混以產生自解碼器200輸出之全解碼升混音訊之一最終升混子系統(其可使用由解格式化器205提取之PS後設資料及/或子系統202中所產生之控制位元來應用MPEG-4 AAC標準中定義之參數立體聲(「PS」)工具)。替代地,後處理器300經組態以對解碼器200之輸出執行升混(例如,使用由解格式化器205提取之PS後設資料及/或子系統202中所產生之控制位元)。
回應於由解格式化器205提取之後設資料,控制位元產生器204可產生控制資料,且控制資料可在解碼器200(例如,一最終升混子系統中)內使用及/或確證為解碼器200之輸出(例如,輸出至後處理器300以在後處理中使用)。回應於自輸入位元串流提取之後設資料(及視情況,亦回應於控制資料),階段204可產生(及確證至後處理器300)指示自eSBR處理階段
203輸出之經解碼音訊資料應經歷一特定類型之後處理之控制位元。在一些實施方案中,解碼器200經組態以將由解格式化器205自輸入位元串流提取之後設資料確證至後處理器300,且後處理器300經組態使用後設資料對自解碼器200輸出之經解碼音訊資料執行後處理。
圖4係作為本發明音訊處理單元之另一實施例之一音訊處理單元(「APU」)(210)之一方塊圖。APU 210係未經組態以執行eSBR處理之一舊型解碼器。APU 210之組件或元件之任何者可在硬體、軟體或硬體及軟體之一組合中實施為一或多個程序及/或一或多個電路(例如,ASIC、FPGA或其他積體電路)。APU 210包括如圖中所展示連接之緩衝記憶體201、位元串流酬載解格式化器(剖析器)215、音訊解碼子系統202(有時指稱一「核心」解碼階段或「核心」解碼子系統)及SBR處理階段213。通常,APU 210亦包含其他處理元件(圖中未展示)。APU 210可表示(例如)一音訊編碼器、解碼器或轉碼器。
APU 210之元件201及202相同於(圖3之)解碼器200之相同編號元件且將不重複該等元件之上文描述。在APU 210之操作中,由APU 210接收之一經編碼音訊位元串流(一MPEG-4 AAC位元串流)之區塊之一序列自緩衝器201確證至解格式化器215。
解格式化器215經耦合及組態以解多工位元串流之各區塊以自區塊提取SBR後設資料(包含經量化包絡資料)且通常亦自區塊提取其他後設資料,但忽略可包含於根據本發明之任何實施例之位元串流中之eSBR後設資料。解格式化器215經組態以至少將SBR後設資料確證至SBR處理階段213。解格式化器215亦經耦合及組態以自位元串流之各區塊提取音訊資料,且將所提取之音訊資料確證至解碼子系統(解碼階段)202。
解碼器200之音訊解碼子系統202經組態以解碼由解格式化器215提取之音訊資料(此解碼可指稱一「核心」解碼操作)以產生經解碼音訊資料,及將經解碼音訊資料確證至SBR處理階段213。在頻域中執行解碼。通常,子系統202中之處理之一最終階段將一頻域至時域變換應用於經解碼頻域音訊資料,使得子系統之輸出係經時域解碼音訊資料。階段213經組態以將由SBR後設資料(由解格式化器215提取)指示之SBR工具(但非eSBR工具)應用於經解碼音訊資料(即,使用SBR後設資料對解碼子系統202之輸出執行SBR處理)以產生自APU 210輸出(例如,輸出至後處理器300)之全解碼音訊資料。通常,APU 210包含儲存自解格式化器215輸出之經解格式化之音訊資料及後設資料之一記憶體(可由子系統202及階段213存取),且階段213經組態以在SBR處理期間視需要存取音訊資料及後設資料(包含SBR後設資料)。階段213中之SBR處理可被視為對核心解碼子系統202之輸出之後處理。視情況,APU 210亦包含經耦合及組態以對階段213之輸出執行升混以產生自APU 210輸出之全解碼升混音訊之一最終升混子系統(其可使用由解格式化器215提取之PS後設資料來應用MPEG-4 AAC標準中定義之參數立體聲(「PS」)工具)。替代地,一後處理器經組態以對APU 210之輸出執行升混(例如,使用由解格式化器215提取之PS後設資料及/或APU 210中所產生之控制位元)。
編碼器100、解碼器200及APU 210之各種實施方案經組態以執行本發明方法之不同實施例。
根據一些實施例,eSBR後設資料包含(例如,係eSBR後設資料之較小數目個控制位元包含)於一經編碼音訊位元串流(例如,一MPEG-4 AAC位元串流)中,使得舊型解碼器(其等未經組態以剖析eSBR後設資料,或
使用eSBR後設資料係關於其之任何eSBR工具)可忽略eSBR後設資料,但仍在不使用eSBR後設資料係關於其之eSBR後設資料或任何eSBR工具之情況下(經解碼音訊品質中通常無任何顯著損失)在可能程度上解碼位元串流。然而,經組態以剖析位元串流以識別eSBR後設資料及回應於eSBR後設資料而使用至少一eSBR工具之eSBR解碼器將享受使用至少一此eSBR工具之益處。因此,本發明之實施例提供一種依一回溯相容方式有效地傳輸增強頻譜帶複製(eSBR)控制資料或後設資料之方法。
通常,位元串流中之eSBR後設資料指示以下eSBR工具(其中在MPEG USAC標準中描述,且其等在位元串流之產生期間可或可尚未由一編碼器應用)之一或多者(例如,指示以下eSBR工具之一或多者之至少一特性或參數):●諧波轉置;及●QMF修補額外後處理(預平坦化)。
例如,包含於位元串流中之eSBR後設資料可指示參數之值(描述於MPEG USAC標準及本發明中):sbrPatchingMode[ch]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]及bs_sbr_preprocessing。
本文中,記號X[ch](其中X係某個參數)表示參數係關於待解碼之一經編碼位元串流之音訊內容之頻道(「ch」)。為簡單起見,吾人有時忽略表達「ch」,且假定相關參數係關於音訊內容之一頻道。
本文中,記號X[ch][env](其中X係某個參數)表示參數係關於待解碼之一經編碼位元串流之音訊內容之頻道(「ch」)之SBR包絡(「env」)。為簡單起見,吾人有時忽略表達「env」及「ch」,且假定相關參數係關於
音訊內容之一頻道之一SBR包絡。
在一經編碼位元串流之解碼期間,由以下eSBR後設資料參數來控制解碼之一eSBR處理階段期間執行之諧波轉置(就由該位元串流指示之音訊內容之各頻道「ch」而言):sbrPatchingMode[ch]、sbrOversamplingFlag[ch];sbrPitchInBinsFlag[ch]及sbrPitchInBins[ch]。
值「sbrPatchingMode[ch]」指示用於eSBR中之轉置器類型:sbrPatchingMode[ch]=1指示如MPEG-4 AAC標準之節4.6.18.6.3中所描述之非諧波修補;sbrPatchingMode[ch]=0指示如MPEG USAC標準之節7.5.3或7.5.4中所描述之諧波SBR修補。
值「sbrOversamplingFlag[ch]」指示組合使用eSBR中之信號自適應頻域超取樣及如MPEG USAC標準之節7.5.3中所描述之基於DFT之諧波SBR修補。此旗標控制用於轉置器中之DFT之大小:1指示如MPEG USAC標準之節7.5.3.1中所描述而啟用之信號自適應頻域超取樣;0指示如MPEG USAC標準之節7.5.3.1中所描述而停用之信號自適應頻域超取樣。
值「sbrPitchInBinsFlag[ch]」控制sbrPitchInBins[ch]參數之解譯:1指示sbrPitchInBins[ch]中之值係有效的且大於零;0指示將sbrPitchInBins[ch]之值設定為零。
值「sbrPitchInBins[ch]」控制SBr諧波轉置器中之交叉乘積項之加。值sbrPitchinBins[ch]係範圍[0,127]中之一整數值且表示在核心編碼器之取樣頻率上作用之一1536行DFT之頻率頻格中之所量測之距離。
在一MPEG-4 AAC位元串流指示其頻道未耦合之一SBR頻道對(而非
一單SBR頻道)之情況下,位元串流指示上述語法之兩個例項(用於諧波轉置或非諧波轉置),每個例項用於sbr_channel_pair_element()之各頻道。
eSBR工具之諧波轉置通常改良相對低交越頻率下之經解碼音樂信號之品質。非諧波轉置(即,舊型頻譜修補)通常改良語音信號。因此,決定哪種類型之轉置對於編碼特定音訊內容係較佳的之一起始點係取決於語音/音樂偵測而選擇轉置方法,其中在對音樂內容採用諧波轉置且對語音內容採用頻譜修補。
在eSBR處理期間,就取決於稱為「bs_sbr_preprocessing」之一一位元eSBR後設資料參數之值而執行或不執行預平坦化而言,藉由此單一位元之值來控制預平坦化之執行。當使用如MPEG-4 AAC標準之節4.6.18.6.3中所描述之SBR QMF修補演算法時,可在企圖避免輸入至一後續包絡調整器(該包絡調整器執行eSBR處理之另一階段)中之一高頻信號之頻譜包絡之形狀之不連續性時執行預平坦化之步驟(當由「bs_sbr_preprocessing」參數指示時)。預平坦化通常改良後續包絡調整階段之操作以導致感知為更穩定之一高頻帶信號。
包含於指示上述eSBR工具(諧波轉置及預平坦化)之一MPEG-4 AAC位元串流eSBR後設資料中之總位元率要求預期為約每秒數百位元,此係因為僅根據本發明之一些實施例傳輸需要執行eSBR處理之差動控制資料。舊型解碼器可忽略此資訊,此係因為其依一回溯相容方式包含此資訊(如稍後將闡釋)。因此,對與包含eSBR後設資料相關聯之位元率之有害效應因若干原因而係可忽略的,原因包含以下:●位元率損失(歸因於包含eSBR後設資料)係總位元率之一非常小分率,此係因為僅傳輸需要執行eSBR處理之差動控制資料(而非SBR控制資
料之一聯播);及●SBR相關之控制資訊之調諧通常不取決於轉置之細節。
因此,本發明之實施例提供一種依一回溯相容方式有效地傳輸增強頻譜帶複製(eSBR)控制資料或後設資料之方法。eSBR控制資料之此有效傳輸降低採用本發明之態樣之解碼器、編碼器及轉碼器中之記憶體要求,同時對位元率不具有有形不利效應。再者,亦降低與執行根據本發明之實施例之eSBR相關聯之複雜性及處理要求,此係因為SBR資料僅需要處理一次而非聯播,若eSBR被視為MPEG-4 AAC中之一完全分離之物件類型,而非依一回溯相容方式整合至MPEG-4 AAC編解碼器,則SBR資料僅需要處理一次而非聯播。
接著,參考圖7,吾人描述根據本發明之一些實施例之eSBR後設資料包含於其中之一MPEG-4 AAC位元串流之一區塊(「raw_data_block」)之元素。圖7係展示MPEG-4 AAC位元串流之一些片段的MPEG-4 AAC位元串流之一區塊(一「raw_data_block」)之一圖。
一MPEG-4 AAC位元串流之一區塊可包含至少一「single_channel_element()」(例如,圖7中所展示之單頻道元素)及/或至少一「channel_pair_element()」(未在圖7中具體展示,然而其可存在),其包含一音訊節目之音訊資料。該區塊亦可包含具有與該節目相關之資料(例如,後設資料)之若干「fill_elements」(例如,圖7之填充元素1及/或填充元素2)。各「single_channel_element()」包含指示一單頻道元素之起始之一識別符(例如,圖7之「ID1」),且可包含指示一多頻道音訊節目之一不同頻道之音訊資料。各「channel_pair_element()」包含指示一頻道對元素之起始之一識別符(未在圖7中展示),且可包含至少該節目之兩
個頻道之音訊資料。
一MPEG-4 AAC位元串流之一fill_element(本文中指稱一填充元素)包含指示一填充元素之起始之一識別符(圖7之「ID2」)及該識別符之後之填充資料。識別符ID2可由具有一0×6值之首先傳輸最高有效位元(「uimsbf」)之一三位元不帶正負號整數組成。填充資料可包含其語法在MPEG-4 AAC標準之表4.57中展示之一extension_payload()元素(在本文中有時指稱一擴展酬載)。若干類型之擴展酬載存在且透過「extension_type」參數識別,「extension_type」參數係首先傳輸最高有效位元(「uimsbf」)之一四位元不帶正負號整數。
填充資料(例如,填充資料之一擴展酬載)可包含指示填充資料之一片段之一標頭或識別符(例如,圖7之「標頭1」),填充資料指示一SBR物件(即,標頭初始化指稱在MPEG-4 AAC標準中之sbr_extension_data()之一「SBR物件」類型)。例如,使用標頭中之extension_type欄位之「1101」或「1110」之值來識別一頻譜帶複製(SBR)擴展酬載,其中識別符「1101」識別具有SBR資料之一擴展酬載而「1110」使用一循環冗餘檢查(CRC)來識別具有SBR資料之一擴展酬載以驗證SBR資料之正確性。
當標頭(例如,extension_type欄位)初始化一SBR物件類型時,SBR後設資料(在本文中有時指稱「頻譜帶複製資料」而在MPEG-4 AAC標準中指稱sbr_data())依循標頭,且至少一頻譜帶複製擴展元素(例如,圖7之填充元素1之「SBR擴展元素」可依循SBR後設資料。此一頻譜帶複製擴展元素(位元串流之一片段)指稱MPEG-4 AAC標準中之一「sbr_extension()」容器。視情況,一頻譜帶複製擴展元素包含一標頭(例如,圖7之填充元素1之「SBR擴展標頭」)。
MPEG-4 AAC標準設想一頻譜帶複製擴展元素可包含一節目之音訊資料之PS(參數立體聲)資料。MPEG-4 AAC標準設想當一填充元素之(該填充元素之一擴展酬載之)標頭初始化一SBR物件類型(圖7之「標頭1」亦初始化一SBR物件類型)且填充元素之一頻譜帶複製擴展元素包含PS資料時,該填充元素(例如,該填充元素之擴展酬載)包含頻譜帶複製資料,且其值(即,bs_extension_id=2)指示PS資料之一頻譜帶複製擴展元素中之一「bs_extension_id」參數包含於填充元素之一頻譜帶複製擴展元素中。
根據本發明之一些實施例,eSBR後設資料(例如,指示是否將對區塊之音訊內容執行增強頻譜帶複製(eSBR)處理之一旗標)包含於一填充元素之一頻譜帶複製擴展元素中。例如,圖7之填充元素1中指示此一旗標,其中該旗標出現在填充元素1之「SBR擴展元素」之標頭(填充元素1之「SBR擴展標頭」)之後。此一旗標及額外eSBR後設資料在一頻譜帶複製擴展元素之標頭後包含於該頻譜帶複製擴展元素中(例如,在圖7之填充元素1之SBR擴展元素中,在SBR擴展標頭之後)。根據本發明之一些實施例,包含eSBR後設資料之一填充元素亦包含其值(例如,bs_extension_id=3)指示eSBR後設資料包含於該填充元素中且將對相關區塊之音訊內容執行eSBR處理之一「bs_extension_id」參數。
根據本發明之一些實施例,除包含於一填充元素之一頻譜帶複製擴展元素(SBR擴展元素)中之外,eSBR後設資料包含於一MPEG-4 AAC位元串流之該填充元素(例如,圖7之填充元素2)中。此係因為含有具有SBR資料或含一CRC之SBR資料之一extension_payload()填充元素不含有任何其他擴展類型之任何其他擴展酬載。因此,在其中eSBR後設資料儲存於其自身之擴展酬載之實施例中,一分離之填充元素用於儲存eSBR後設資
料。此一填充元素包含指示一填充元素之起始之一識別符(例如,圖7之「ID2」)及該識別符之後之填充資料。填充資料可包含其語法在MPEG-4 AAC標準之表4.57中展示之一extension_payload()元素(在本文中有時指稱一擴展酬載)。填充資料(例如,填充資料之一擴展酬載)包含指示一eSBR物件之一標頭(例如,圖7之填充元素2之「標頭2」)(即,該標頭初始化一增強頻譜帶複製(eSBR)物件類型),且填充資料(例如,填充資料之一擴展酬載)包含標頭之後之eSBR後設資料。例如,圖7之填充元素2包含此一標頭(「標頭2」)且在該標頭之後亦包含eSBR後設資料(即,填充元素2中之「旗標」,其指示是否將對區塊之音訊內容執行增強頻譜帶複製(eSBR)處理)。視情況,在標頭2之後,額外eSBR後設資料亦包含於圖7之填充元素2之填充資料中。在本段落中所描述之實施例中,標頭(例如,圖7之標頭2)具有並非MPEG-4 AAC標準之表4.57中所指定之習知值之一者之一識別值,且替代地指示一eSBR擴展酬載(使得標頭之extension_type欄位指示填充資料包含eSBR後設資料)。
在一第一種實施例中,本發明係一種音訊處理單元(例如,一解碼器),其包括:一記憶體(例如,圖3或圖4之緩衝器201),其經組態以儲存一經編碼音訊位元串流之至少一區塊(例如,一MPEG-4 AAC位元串流之至少一區塊);一位元率酬載解格式化器(例如,圖3之元件205或圖4之元件215),其耦合至該記憶體且經組態以解多工該位元串流之該區塊之至少一部分;及一解碼子系統(例如,圖3之元件202及203,或圖4之元件202及
213),其經耦合及組態以解碼該位元串流之該區塊之至少一部分,其中該區塊包含:一填充元素,其包含指示該填充元素之一起始之一識別符(例如,MPEG-4 AAC標準之表4.85之具有值0×6之「id_syn_ele」識別符)及該識別符之後之填充資料,其中該填充資料包含:至少一旗標,其指示是否將對該區塊之音訊內容執行增強頻譜帶複製(eSBR)處理(例如,使用包含於該區塊中之頻譜帶複製資料及eSBR後設資料)。
該旗標係eSBR後設資料,且該旗標之一實例係sbrPatchingMode旗標。該旗標之另一實例係harmonicSBR旗標。此等旗標之兩者指示將對該區塊之音訊資料執行頻譜帶複製之一基礎形式或頻譜帶複製之一增強形式。頻譜帶複製之該基礎形式係頻譜修補,而頻譜帶複製之該增強形式係諧波轉置。
在一些實施例中,該填充資料亦包含額外eSBR後設資料(即,除該旗標之外之eSBR後設資料)。
該記憶體可為(例如,依一非暫時方式)儲存該經編碼音訊位元串流之該至少一區塊之一緩衝記憶體(例如,圖4之緩衝器201之一實施方案)。
吾人估計在包含eSBR後設資料(指示此等eSBR工具)之一MPEG-4 AAC位元串流之解碼期間,藉由一eSBR解碼器執行eSBR處理(使用eSBR諧波轉置及預平坦化)之複雜性將如下(就具有所指示之參數之典型解碼而言):
●諧波轉置(16kbps、14400/28800Hz)
。基於DFT:3.68 WMOPS(每秒百萬次加權運算);
。基於QMF:0.98 WMOPS;
●QMF修補預處理(預平坦化):0.1 WMOPS。
吾人已知瞬時而言,具有DFT之轉置通常執行而優於基於QMF之轉置。
根據本發明之一些實施例,包含eSBR後設資料之(一經編碼音訊位元串流之)一填充元素亦包含其值(例如,bs_extension_id=3)傳訊eSBR後設資料包含於該填充元素中且將對相關區塊之音訊內容執行eSBR處理之一參數(例如,一「bs_extension_id」參數及/或其值(例如,bs_extension_id=2)傳訊該填充元素之一sbr_extension()容器包含PS資料之一參數(例如,相同「bs_extension_id」參數)。例如,如下文之表1中所指示,具有值bs_extension_id=2之此一參數可傳訊該填充元素之一sbr_extension()容器包含PS資料,且具有值bs_extension_id=3之此一參數可傳訊該填充元素之一sbr_extension()容器包含eSBR後設資料:
根據本發明之一些實施例,包含eSBR後設資料及/或PS資料之各頻譜帶複製擴展元素之語法如下文之表2中所指示(其中「sbr_extension()」表示係頻譜帶促織擴展元素中之一容器,「bs_extension_id」係如上文之表1中所描述,「ps_data」表示PS資料,及「esbr_data」表示eSBR後設資料):
在一例示性實施例中,參考上文之表2之esbr_data()指示以下後設資料參數之值:1.一位元後設資料參數「bs_sbr_preprocessing」;及2.就待解碼之經編碼位元串流之音訊內容之各頻道(「ch」)而言,上述參數之各者:「sbrPatchingMode[ch]」、「sbrOversamplingFlag[ch]」、「sbrPitchInBinsFlag[ch]」及「sbrPitchInBins[ch]」。
上述語法實現頻譜帶複製之一增強形式之一有效實施方案(諸如諧波轉置)作為一舊型解碼器之一擴展。具體而言,表3之eSBR資料僅包含執行位元串流中已支援或可自位元串流中已支援之參數直接導出之頻譜帶複製之該增強形式所需之參數。執行頻譜帶複製之該增強形式所需之所有其他參數及處理資料自位元串流中之已定義位置中之既有參數提取。
例如,一MPEG-4 HE-AAC或HE-AAC v2合規編碼器可擴展以包含
頻譜帶複製之一增強形式(諸如諧波轉置)。頻譜帶複製之此增強形式係除已由解碼器支援之頻譜帶複製之基礎形式之外。在一MPEG-4 HE-AAC或HE-AAC v2合規編碼器之情境中,頻譜帶複製之此基礎形式係如MPEG-4 AAC標準之節4.6.18中所定義之QMF頻譜修補SBR工具。
當執行頻譜帶複製之增強形式時,一擴展HE-AAC解碼器可重新使用已包含於位元串流之SBR擴展酬載中之許多位元串流參數。可重新使用之特定參數包含(例如)判定主頻帶表之各種參數。此等參數包含bs_start_freq(判定主頻率表參數之起始之參數)、bs_stop_freq(判定主頻率表之停止之參數)、bs_freq_scale(判定每倍頻程之頻帶數目之參數)及bs_alter_scale(改變頻帶之比例之參數)。可重新使用之參數亦包含判定雜訊頻帶表之參數(bs_noise_bands)及限制器頻帶表參數(bs_limiter_bands)。因此,在各種實施例中,USAC標準中所指定之至少一些等效參數自位元串流忽略,藉此減少位元串流中之控制附加項。通常,在AAC標準中所指定之一參數具有USAC標準中所指定之一等效參數之情況中,USAC標準中所指定之該等效參數具有相同於AAC標準中所指定之該參數之名稱(例如,包絡比例因數EOrigMapped)。然而,USAC標準中所指定之該等效參數通常具有一不同值,其「經調諧」用於USAC標準中所定義之增強SBR處理而非用於AAC標準中所定義之SBR處理。
當執行根據本發明之實施例之頻譜帶複製之一增強形式時,除諸多參數之外,其他資料元素亦可由一擴展HE-AAC解碼器重新使用。例如,包絡資料及雜訊底部資料亦可自bs_data_env(包絡比例因數)及bs_noise_env(雜訊底部比例因數)資料提取且在頻譜帶複製之該增強形式期間使用。
本質上,此等實施例利用已由SBR擴展酬載中之一舊型HE-AAC或HE-AAC v2解碼器支援之組態參數及包絡資料以實現需要儘可能少之額外傳輸資料之頻譜帶複製之一增強形式。後設資料最初針對HFR之一基礎形式(例如,SBR之頻譜修補)予以調諧,但根據實施例,用於HFR之一增強形式(例如,eSBR之諧波轉置)。如先前所討論,後設資料一般表示經調諧及意欲與HFR之基礎形式(例如,線性變換)一起使用之操作參數(例如,包絡比例因數、雜訊底部比例因數、時間/頻率格網參數、正弦波加成資訊、可變交越頻率/頻帶、逆濾波模式、包絡解析度、平滑模式、頻率內插模式)。然而,與特定於HFR之增強形式(例如,諧波轉置)之額外後設資料參數組合之此後設資料可用於使用HFR之增強形式來高效率且有效地處理音訊資料。
相應地,支援頻譜帶複製之一增強形式之擴展解碼器可藉由依靠已定義之位元串流元素(例如,SBR擴展酬載中之位元串流元素)及僅新增支援(一填充元素擴展酬載中之)頻譜帶複製之該增強形式所需之參數而依一非常有效方式產生。與一保留資料欄位(諸如一擴展容器)中之新增參數之放置組合之此資料減少特徵實質上減少產生一解碼器之障礙,該解碼器藉由確保位元串流可與不支援頻譜帶複製之一增強形式之舊型解碼器回溯相容來支援頻譜帶複製之該增強形式。
在表3中,右行中之數字指示左行中之對應參數之位元數目。
在一些實施例中,MPEG-4 AAC中所定義之SBR物件類型經更新以獲得如SBR擴展元素(bs_extension_id==EXTENSION_ID_ESBR)中所傳訊之SBR工具或增強SBR(eSBR)工具之態樣。
在一些實施例中,本發明係一種方法,其包含編碼音訊資料以產生
一經編碼位元串流(例如,一MPEG-4 AAC位元串流)之一步驟,該步驟包含藉由使eSBR後設資料包含於該經編碼位元串流之至少一區塊之至少一片段中及使音訊資料包含於該區塊之該至少另一片段中。在典型實施例中,該方法包含使用該經編碼位元串流之各區塊中之eSBR後設資料多工該音訊資料之一步驟。在一eSBR解碼器中之該經編碼位元串流之典型解碼中,該解碼器自該位元串流提取eSBR後設資料(包含藉由剖析及解多工eSBR後設資料及音訊資料)且使用eSBR後設資料來處理音訊資料以產生經解碼音訊資料之一串流。
本發明之另一態樣係一種eSBR解碼器,其經組態以在不包含eSBR後設資料之一經編碼音訊位元串流(例如,一MPEG-4 AAC位元串流)之解碼期間執行eSBR處理(例如,使用稱為諧波轉置或預平坦化之eSBR工具之至少一者)。將參考圖5描述此一解碼器之一實例。
圖5之eSBR解碼器(400)包含如圖中所展示連接之緩衝記憶體201(其相同於圖3及圖4之記憶體201)、位元串流酬載解格式化器215(其相同於圖4之解格式化器215)、音訊解碼子系統202(有時指稱一「核心」解碼階段或「核心」解碼子系統,且其相同於圖3之核心解碼子系統202)、eSBR控制資料產生子系統401及eSBR處理階段203(其相同於圖3之階段203。通常,解碼400亦包含其他處理元件(圖中未展示)。
在解碼器400之操作中,由解碼器400接收之一增強音訊位元串流(一MPEG-4 AAC位元串流)之區塊之一序列自緩衝器201確證至解格式化器215。
解格式化器215經耦合及組態以解多工位元串流之各區塊以自區塊提取SBR後設資料(包含經量化包絡資料)且通常亦自區塊提取其他後設資
料。解格式化器215經組態以至少將SBR後設資料確證至eSBR處理階段203。解格式化器215亦耦合及經組態以自位元串流之各區塊提取音訊資料,且將所提取之音訊資料確證至解碼子系統(解碼階段)202。
解碼器400之音訊解碼子系統202經組態以解碼由解格式化器215提取之音訊資料(此解碼可指稱一「核心」解碼操作)以產生經解碼音訊資料,及將經解碼音訊資料確證至eSBR處理階段203。在頻域中執行解碼。通常,子系統202中之處理之一最終階段將一頻域至時域變換應用於經解碼頻域音訊資料,使得子系統之輸出係經時域解碼音訊資料。階段203經組態以將由SBR後設資料(由解格式化器215提取)及子系統401中所產生之eSBR後設資料指示之SBR工具(及eSBR工具)應用於經解碼音訊資料(即,使用SBR及eSBR後設資料對解碼子系統202之輸出執行SBR及eSBR處理),以產生自解碼器400輸出之全解碼音訊資料。通常,解碼器400包含儲存自解格式化器215(且視情況,亦子系統401)輸出之經解格式化之音訊資料及後設資料之一記憶體(可由子系統202及階段203存取),且階段203經組態以在SBR及eSBR處理期間視需要存取音訊資料及後設資料。階段203中之SBR處理可被視為對核心解碼子系統202之輸出之後處理。視情況,解碼器400亦包含經耦合及組態以對階段203之輸出執行升混以產生自APU 210輸出之全解碼升混音訊之一最終升混子系統(其可使用由解格式化器215提取之PS後設資料來應用MPEG-4 AAC標準中定義之參數立體聲(「PS」)工具)。
圖5之控制資料產生子系統401經耦合及組態以回應於偵測步驟之至少一結果而偵測待編碼之經編碼音訊位元串流之至少一性質及產生eSBR控制資料(其可為或包含在根據本發明之其他實施例之經編碼音訊位元串
流中所包含之類型之任何者之eSBR後設資料)。eSBR控制資料確證至階段203以在偵測位元串流之一特定性質(或性質之組合)之後觸發個別eSBR工具或eSBR工具之組合之應用及/或控制此等eSBR工具之應用。例如,為控制使用諧波轉置來執行eSBR處理,控制資料產生子系統401之一些實施例將包含:一音樂偵測器(例如,一習知音樂偵測器之一簡化版本),其用於回應於偵測位元串流指示或不指示音樂而設定sbrPatchingMode[ch]參數(及將設定參數確證至階段203);一瞬時偵測器,其用於回應於偵測由位元串流指示之音訊內容中之瞬時之存在或不存在而設定sbrOversamplingFlag[ch]參數(及將設定參數確證至階段203);及/或一音高偵測器,其用於回應於偵測由位元串流指示之音訊內容之音高而設定sbrPitchInBinsFlag[ch]及sbrPitchInBins[ch]參數(及將設定參數確證至階段203)。本發明之其他態樣係由此段落及先前段落中所描述之本發明解碼器之任何實施例執行之音訊位元串流解碼方法。
本發明之態樣包含一種本發明APU、系統或器件之任何實施例經組態(例如,經程式化)以執行之類型之編碼或解碼方法。本發明之其他態樣包含一種經組態(例如,經程式化)以執行本發明方法之任何實施例之系統或器件及一種儲存碼(例如,依一非暫時方式)以實施本發明方法或本發明方法之步驟之任何實施例之電腦可讀媒體(例如,一磁碟)。例如,本發明系統可為或包含使用軟體或韌體及/或以其他方式組態以對資料執行多種操作之任何者(包含本發明方法或本發明方法之步驟之一實施例)之一可程式化通用處理器、數位信號處理器或微處理器。此一通用處理器可為或包含一電腦系統,其包含一輸入器件、一記憶體及經程式化(及/或以其他方式組態)以回應於確證至其之資料而執行本發明方法(或本發明方法之步
驟)之一實施例之處理電路。
本發明之實施例可在硬體、韌體或軟體或兩者之一組合中實施(例如,實施為一可程式化邏輯陣列)。除非另有說明,否則包含為本發明之部分之演算法或程序原本不與任何特定電腦或其他裝置相關。特定言之,各種通用機器可搭配根據本文之教示撰寫之程式使用,或其可更便於建構更專業裝置(例如,積體電路)以執行所需方法步驟。因此,可在對各包括至少一處理器、至少一資料儲存系統(包含揮發性及非揮發性記憶體及/或儲存元件)、至少一輸入器件或埠及至少一輸出器件或埠之一或多個可程式化電腦系統(例如,圖1之元件或圖2之編碼器100(或編碼器100之一元件)或圖3之解碼器200(或解碼器200之一元件)或圖4之APU210(或APU210之一元件)或圖5之解碼器400(或解碼器400之一元件)之任何者之一實施方案)執行之一或多個電腦程式中實施本發明。程式碼應用於輸入資料以執行本文所描述之功能及產生輸出資訊。輸出資訊應依已知方式應用於一或多個輸出器件。
各此程式可依任何所要電腦語言(包含機器語言、組合語言或高階程序語言、邏輯語言或物件導向程式設計語言)實施以與一電腦系統通信。在任何情況中,語言可為一編譯或解譯語言。
例如,當由電腦軟體指令序列實施時,本發明之實施例之各種功能及步驟可由在適合數位信號處理硬體中運行之多執行緒軟體指令序列實施,在該情況中,實施例之各種器件、步驟及功能可對應於軟體指令之部分。
各此電腦程序較佳地儲存於一儲存媒體或器件上或下載至可由一通用或專用可程式化電腦讀取之一儲存媒體或器件(例如,固態記憶體或媒
體、或磁性或光學媒體),以當儲存媒體或器件由電腦系統讀取時組態及操作電腦以執行本文所描述之程序。本發明系統亦可實施為與一電腦程式一起組態(即,儲存一電腦程式)之一電腦可讀儲存媒體,其中如此組態之該儲存媒體引起一電腦系統依一特定及預定義方式操作以執行本文所描述之功能。
已描述本發明之若干實施例。然而,應理解可在不背離本發明之精神及範疇之情況下進行各種修改。依據上述教示,本發明之多種修改及變動係可行的。例如,為促進有效實施方案,可組合使用相移與複雜QMF分析及合成濾波器組。分析濾波器組負責將由核心解碼器產生之時域低頻帶信號濾波為複數個副頻帶(例如,QMF副頻帶)。合成濾波器組負責組合由選定HFR技術(由所接收之sbrPatchingMode參數所指示)再生高頻帶及解碼低頻帶以產生一寬頻帶輸出音訊信號。然而,依一特定取樣率模式操作(例如,正常雙重速率操作或降低取樣SBR模式)之一給定濾波器組實施方案不應具有位元串流相依之相移。用於SBR中之QMF組係餘弦調變濾波器組之理論之一複指數擴展。可展示別名消除約束在使用複指數調變擴展餘弦調變濾波器組時變得過時。因此,就SBR QMF組而言,分析濾波器hk(n)及合成濾波器fk(n)兩者可由以下定義:
其中p0(n)係一實數值對稱或非對稱原型濾波器(通常,一低通原型濾波器),M表示頻道之數目,且N係該原型濾波器順序。用於分析濾波器組中之頻道之數目可不同於用於合成濾波器組中之頻道之數目。例如,分析濾波器組可具有32個頻道,而合成濾波器組可具有64個頻道。當依一降低取樣模式操作合成濾波器組時,合成濾波器組可僅具有32個頻道。由於
來自濾波器組之副頻帶樣本具有複數值,因此一加成可能頻道相依相移步驟可附加至合成濾波器組。儘管原理上相移項可具有任意值而不會破壞QMF分析/合成鏈之操作,但相移項亦可約束於一致性驗證之特定值。SBR信號將受相位因數之選擇影響而來自核心解碼器之低通信號將不受相位因數之選擇影響。輸出信號之音訊品質不受影響。
原型濾波器p0(n)之係數可使用640之一長度L來定義,如下文之表4中所展示。
亦可由諸如捨入、子取樣、內插及整數倍降低取樣之一或多個數學運算自表4導出原型濾波器p0(n)。
應理解在隨附申請專利範圍之範疇內,可依如本文所具體描述之外
之方式來實踐本發明。含於以下申請專利範圍中之任何元件符號僅為了繪示且不應用用於依任何方式解釋或限制申請專利範圍。
1‧‧‧編碼器
2‧‧‧輸送子系統
3‧‧‧解碼器
4‧‧‧後處理單元
Claims (9)
- 一種用於解碼一經編碼音訊位元串流之方法,該方法包括:接收該經編碼音訊位元串流,該經編碼音訊位元串流包含表示一音訊信號之一低頻帶部分之音訊資料;解碼該音訊資料以產生一解碼低頻帶音訊信號;自該經編碼音訊位元串流提取(extracting)高頻重建後設資料,該高頻重建後設資料包含用於將連續(consecutive)數目個副頻帶(subbands)自該音訊信號之一低頻帶部分線性變換至該音訊信號之一高頻帶部分之一高頻重建程序之操作參數;使用一分析濾波器組(filterbank)對該解碼低頻帶音訊信號進行濾波以產生一濾波低頻帶音訊信號;自該經編碼音訊位元串流提取一旗標(flag),該旗標指示對該音訊資料執行線性變換或諧波轉置(harmonic transposition);根據該旗標使用該濾波低頻帶音訊信號及該高頻重建後設資料再生該音訊信號之一高頻帶部分;及組合該濾波低頻帶音訊信號及該再生高頻帶部分以形成一寬頻帶音訊信號,其中該分析濾波器組包含係根據以下之一原型(prototype)濾波器p0(n)之調變版本之分析濾波器hk(n): 0 n N;0 k<M其中p0(n)係一實數值(real-valued)對稱或非對稱原型濾波器,M係該分析濾波器組中之頻道之一數目,且N係該原型濾波器順序。
- 如請求項1之方法,其中該高頻重建後設資料包含選自由包絡比例因數(envelope scalefactors)、雜訊底部(floor)比例因數、正弦波加成資訊、時間/頻率格網資訊、交越(crossover)頻率及逆濾波模式組成之群組之一操作參數。
- 如請求項3之方法,其中該原型濾波器p0(n)由選自由捨入、子取樣、內插或整數倍降低取樣組成之群組之一或多個數學運算自表4之係數而導出。
- 一種非暫時電腦可讀媒體,其含有當由一處理器執行時執行如請求項1之方法之指令。
- 一種用於解碼一經編碼音訊位元串流之解碼器,該解碼器包括:一輸入介面,其用於接收該經編碼音訊位元串流,該經編碼音訊位元串流包含表示一音訊信號之一低頻帶部分之音訊資料;一核心解碼器,其用於解碼該音訊資料以產生一解碼低頻帶音訊信號;一解格式化器,其用於自該經編碼音訊位元串流提取高頻重建後設資料,該高頻重建後設資料包含用於將連續數目個副頻帶自該音訊信號之一低頻帶部分線性變換至該音訊信號之一高頻帶部分之一高頻重建程序之操作參數;一分析濾波器組,其用於對該解碼低頻帶音訊信號進行濾波以產生一濾波低頻帶音訊信號;一解格式化器,其用於自該經編碼音訊位元串流提取一旗標,該旗標指示對該音訊資料執行線性變換或諧波轉置;一高頻再生器,其用於根據該旗標使用該濾波低頻帶音訊信號及該高頻重建後設資料再生該音訊信號之一高頻帶部分;及一合成濾波器組,其用於組合該濾波低頻帶音訊信號及該再生高頻 帶部分以形成一寬頻帶音訊信號,其中該分析濾波器組包含係根據以下之一原型濾波器p0(n)之調變版本之分析濾波器hk(n):0 n N;0 k<M其中p0(n)係一實數值對稱或非對稱原型濾波器,M係該分析濾波器組中之頻道之一數目,且N係該原型濾波器順序。
- 如請求項6之解碼器,其中該高頻重建後設資料包含選自由包絡比例因數、雜訊底部比例因數、正弦波加成資訊、時間/頻率格網資訊、交越頻率及逆濾波模式組成之群組之一操作參數。
- 如請求項8之解碼器,其中該原型濾波器p0(n)由選自由捨入、子取樣、內插或整數倍降低取樣組成之群組之一或多個數學運算自表4之係數而導出。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762475619P | 2017-03-23 | 2017-03-23 | |
US62/475,619 | 2017-03-23 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201835897A TW201835897A (zh) | 2018-10-01 |
TWI752166B true TWI752166B (zh) | 2022-01-11 |
Family
ID=63585721
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110149287A TWI807562B (zh) | 2017-03-23 | 2018-02-07 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
TW107104234A TWI752166B (zh) | 2017-03-23 | 2018-02-07 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW110149287A TWI807562B (zh) | 2017-03-23 | 2018-02-07 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
Country Status (26)
Country | Link |
---|---|
US (8) | US10818306B2 (zh) |
EP (1) | EP3559821A4 (zh) |
JP (4) | JP6665354B2 (zh) |
KR (8) | KR102749858B1 (zh) |
CN (8) | CN110178180B (zh) |
AR (6) | AR111047A1 (zh) |
AU (6) | AU2018237070B2 (zh) |
BR (2) | BR112019014125B1 (zh) |
CA (5) | CA3171727A1 (zh) |
CL (1) | CL2019001981A1 (zh) |
CO (1) | CO2019008431A2 (zh) |
EA (3) | EA202191156A1 (zh) |
EC (1) | ECSP19054232A (zh) |
GE (1) | GEP20217226B (zh) |
IL (7) | IL317234A (zh) |
MA (1) | MA47232A (zh) |
MX (7) | MX2022009313A (zh) |
NZ (3) | NZ794700A (zh) |
PE (2) | PE20241802A1 (zh) |
PH (1) | PH12019501658A1 (zh) |
SA (1) | SA519402434B1 (zh) |
SG (1) | SG11201906370TA (zh) |
TW (2) | TWI807562B (zh) |
UA (3) | UA126401C2 (zh) |
WO (1) | WO2018175347A1 (zh) |
ZA (6) | ZA201904559B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
TWI807562B (zh) | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
TWI702594B (zh) | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
CN113113032B (zh) * | 2020-01-10 | 2024-08-09 | 华为技术有限公司 | 一种音频编解码方法和音频编解码设备 |
EP4243014A4 (en) | 2021-01-25 | 2024-07-17 | Samsung Electronics Co., Ltd. | DEVICE AND METHOD FOR PROCESSING A MULTI-CHANNEL AUDIO SIGNAL |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110054911A1 (en) * | 2009-08-31 | 2011-03-03 | Apple Inc. | Enhanced Audio Decoder |
TW201434034A (zh) * | 2013-01-29 | 2014-09-01 | Fraunhofer Ges Forschung | 雜訊塡充技術 |
US20150332702A1 (en) * | 2013-01-29 | 2015-11-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5527024A (en) | 1978-08-15 | 1980-02-26 | Mitsui Toatsu Chem Inc | Molded tableted catalysts showing high selectivity |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
SE0101175D0 (sv) * | 2001-04-02 | 2001-04-02 | Coding Technologies Sweden Ab | Aliasing reduction using complex-exponential-modulated filterbanks |
US6895375B2 (en) * | 2001-10-04 | 2005-05-17 | At&T Corp. | System for bandwidth extension of Narrow-band speech |
WO2003046891A1 (en) * | 2001-11-29 | 2003-06-05 | Coding Technologies Ab | Methods for improving high frequency reconstruction |
EP1683133B1 (en) * | 2003-10-30 | 2007-02-14 | Koninklijke Philips Electronics N.V. | Audio signal encoding or decoding |
KR100571824B1 (ko) | 2003-11-26 | 2006-04-17 | 삼성전자주식회사 | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 |
KR100587953B1 (ko) * | 2003-12-26 | 2006-06-08 | 한국전자통신연구원 | 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템 |
CN101241701B (zh) * | 2004-09-17 | 2012-06-27 | 广州广晟数码技术有限公司 | 用于对音频信号进行解码的方法和设备 |
EP1638083B1 (en) * | 2004-09-17 | 2009-04-22 | Harman Becker Automotive Systems GmbH | Bandwidth extension of bandlimited audio signals |
SG163555A1 (en) * | 2005-04-01 | 2010-08-30 | Qualcomm Inc | Systems, methods, and apparatus for highband burst suppression |
KR100818268B1 (ko) | 2005-04-14 | 2008-04-02 | 삼성전자주식회사 | 오디오 데이터 부호화 및 복호화 장치와 방법 |
CA2620627C (en) | 2005-08-30 | 2011-03-15 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
KR101565919B1 (ko) | 2006-11-17 | 2015-11-05 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 방법 및 장치 |
US20080208575A1 (en) * | 2007-02-27 | 2008-08-28 | Nokia Corporation | Split-band encoding and decoding of an audio signal |
US7885819B2 (en) * | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
CN101471072B (zh) | 2007-12-27 | 2012-01-25 | 华为技术有限公司 | 高频重建方法、编码装置和解码装置 |
KR101413968B1 (ko) * | 2008-01-29 | 2014-07-01 | 삼성전자주식회사 | 오디오 신호의 부호화, 복호화 방법 및 장치 |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MX2011000365A (es) | 2008-07-11 | 2011-02-25 | Ten Forschung Ev Fraunhofer | Aparato y metodo para generar una señal de ancho de banda ampliado. |
PL2359366T3 (pl) * | 2008-12-15 | 2017-04-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder audio i dekoder powiększania szerokości pasma |
PL3598447T3 (pl) * | 2009-01-16 | 2022-02-14 | Dolby International Ab | Transpozycja harmonicznych rozszerzona o iloczyn wektorowy |
TWI613887B (zh) | 2009-02-18 | 2018-02-01 | 杜比國際公司 | 用於高頻重建或參數立體聲之複指數調變濾波器組 |
TWI556227B (zh) * | 2009-05-27 | 2016-11-01 | 杜比國際公司 | 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體 |
CN104318930B (zh) * | 2010-01-19 | 2017-09-01 | 杜比国际公司 | 子带处理单元以及生成合成子带信号的方法 |
KR101483157B1 (ko) * | 2010-03-09 | 2015-01-15 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호들의 대역폭 연장에 기반한 위상 보코더의 개선된 크기 응답과 시간적 정렬을 위한 방법과 장치 |
US8886523B2 (en) * | 2010-04-14 | 2014-11-11 | Huawei Technologies Co., Ltd. | Audio decoding based on audio class with control code for post-processing modes |
ES2683647T3 (es) | 2010-07-02 | 2018-09-27 | Dolby International Ab | Descodificación de audio con pos-filtración selectiva |
EP3544009B1 (en) * | 2010-07-19 | 2020-05-27 | Dolby International AB | Processing of audio signals during high frequency reconstruction |
TWI476761B (zh) | 2011-04-08 | 2015-03-11 | Dolby Lab Licensing Corp | 用以產生可由實施不同解碼協定之解碼器所解碼的統一位元流之音頻編碼方法及系統 |
JP6531103B2 (ja) * | 2013-09-12 | 2019-06-12 | ドルビー・インターナショナル・アーベー | Qmfベースの処理データの時間整列 |
CN105761723B (zh) * | 2013-09-26 | 2019-01-15 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
EP2881943A1 (en) * | 2013-12-09 | 2015-06-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding an encoded audio signal with low computational resources |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
TWI758146B (zh) | 2015-03-13 | 2022-03-11 | 瑞典商杜比國際公司 | 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流 |
TWI807562B (zh) * | 2017-03-23 | 2023-07-01 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 |
TWI702594B (zh) * | 2018-01-26 | 2020-08-21 | 瑞典商都比國際公司 | 用於音訊信號之高頻重建技術之回溯相容整合 |
KR20240042120A (ko) * | 2018-04-25 | 2024-04-01 | 돌비 인터네셔널 에이비 | 후처리 지연을 저감시킨 고주파 재구성 기술의 통합 |
-
2018
- 2018-02-07 TW TW110149287A patent/TWI807562B/zh active
- 2018-02-07 TW TW107104234A patent/TWI752166B/zh active
- 2018-02-15 AR ARP180100361A patent/AR111047A1/es active IP Right Grant
- 2018-03-19 KR KR1020247029289A patent/KR102749858B1/ko active IP Right Grant
- 2018-03-19 EA EA202191156A patent/EA202191156A1/ru unknown
- 2018-03-19 IL IL317234A patent/IL317234A/en unknown
- 2018-03-19 BR BR112019014125-1A patent/BR112019014125B1/pt active IP Right Grant
- 2018-03-19 CN CN201880006745.5A patent/CN110178180B/zh active Active
- 2018-03-19 CN CN202410639126.7A patent/CN118380004A/zh active Pending
- 2018-03-19 IL IL313477A patent/IL313477A/en unknown
- 2018-03-19 KR KR1020247043384A patent/KR20250004187A/ko active Application Filing
- 2018-03-19 CA CA3171727A patent/CA3171727A1/en active Pending
- 2018-03-19 IL IL305626A patent/IL305626B2/en unknown
- 2018-03-19 CN CN202110086185.2A patent/CN112863527B/zh active Active
- 2018-03-19 UA UAA201912129A patent/UA126401C2/uk unknown
- 2018-03-19 GE GEAP201815136A patent/GEP20217226B/en unknown
- 2018-03-19 NZ NZ794700A patent/NZ794700A/en unknown
- 2018-03-19 IL IL272690A patent/IL272690B2/en unknown
- 2018-03-19 KR KR1020237039405A patent/KR102702697B1/ko active IP Right Grant
- 2018-03-19 CA CA3133921A patent/CA3133921A1/en active Pending
- 2018-03-19 CA CA3133923A patent/CA3133923A1/en active Pending
- 2018-03-19 KR KR1020197019117A patent/KR102083768B1/ko active IP Right Grant
- 2018-03-19 MA MA047232A patent/MA47232A/fr unknown
- 2018-03-19 CA CA3171733A patent/CA3171733A1/en active Pending
- 2018-03-19 NZ NZ755366A patent/NZ755366A/en unknown
- 2018-03-19 MX MX2022009313A patent/MX2022009313A/es unknown
- 2018-03-19 AU AU2018237070A patent/AU2018237070B2/en active Active
- 2018-03-19 KR KR1020207005362A patent/KR102275129B1/ko active IP Right Grant
- 2018-03-19 CN CN202410639044.2A patent/CN118380002A/zh active Pending
- 2018-03-19 MX MX2019008349A patent/MX2019008349A/es active IP Right Grant
- 2018-03-19 EA EA202091313A patent/EA038268B1/ru unknown
- 2018-03-19 KR KR1020217020861A patent/KR102390360B1/ko active IP Right Grant
- 2018-03-19 UA UAA201907982A patent/UA126393C2/uk unknown
- 2018-03-19 NZ NZ759800A patent/NZ759800A/en unknown
- 2018-03-19 IL IL310208A patent/IL310208B2/en unknown
- 2018-03-19 PE PE2024000133A patent/PE20241802A1/es unknown
- 2018-03-19 PE PE2019001486A patent/PE20191288A1/es unknown
- 2018-03-19 CA CA3049600A patent/CA3049600C/en active Active
- 2018-03-19 IL IL296961A patent/IL296961B2/en unknown
- 2018-03-19 EP EP18770254.3A patent/EP3559821A4/en active Pending
- 2018-03-19 JP JP2019536556A patent/JP6665354B2/ja active Active
- 2018-03-19 BR BR122019027754-0A patent/BR122019027754B1/pt active IP Right Grant
- 2018-03-19 SG SG11201906370TA patent/SG11201906370TA/en unknown
- 2018-03-19 KR KR1020247000374A patent/KR20240008408A/ko not_active Application Discontinuation
- 2018-03-19 EA EA201991453A patent/EA036090B1/ru unknown
- 2018-03-19 CN CN202110086189.0A patent/CN112863528B/zh active Active
- 2018-03-19 CN CN202410639086.6A patent/CN118380003A/zh active Pending
- 2018-03-19 WO PCT/US2018/023183 patent/WO2018175347A1/en active Application Filing
- 2018-03-19 US US16/484,077 patent/US10818306B2/en active Active
- 2018-03-19 UA UAA202100914A patent/UA126719C2/uk unknown
- 2018-03-19 KR KR1020227013276A patent/KR102622804B1/ko active IP Right Grant
- 2018-03-19 CN CN202411227461.2A patent/CN118898997A/zh active Pending
- 2018-03-19 CN CN202410639310.1A patent/CN118380005A/zh active Pending
-
2019
- 2019-06-26 IL IL267666A patent/IL267666B/en active IP Right Grant
- 2019-07-11 MX MX2022015198A patent/MX2022015198A/es unknown
- 2019-07-11 MX MX2020005844A patent/MX2020005844A/es unknown
- 2019-07-11 MX MX2022015199A patent/MX2022015199A/es unknown
- 2019-07-11 MX MX2022015200A patent/MX2022015200A/es unknown
- 2019-07-11 ZA ZA2019/04559A patent/ZA201904559B/en unknown
- 2019-07-11 MX MX2022009312A patent/MX2022009312A/es unknown
- 2019-07-12 CL CL2019001981A patent/CL2019001981A1/es unknown
- 2019-07-17 PH PH12019501658A patent/PH12019501658A1/en unknown
- 2019-07-30 EC ECSENADI201954232A patent/ECSP19054232A/es unknown
- 2019-07-31 CO CONC2019/0008431A patent/CO2019008431A2/es unknown
- 2019-08-12 AR ARP190102291A patent/AR115947A2/es active IP Right Grant
- 2019-08-15 SA SA519402434A patent/SA519402434B1/ar unknown
- 2019-08-29 AU AU2019222906A patent/AU2019222906B2/en active Active
-
2020
- 2020-02-19 JP JP2020026248A patent/JP2020074052A/ja active Pending
- 2020-10-23 US US17/078,113 patent/US11626123B2/en active Active
- 2020-11-13 AR ARP200103156A patent/AR120465A2/es active IP Right Grant
- 2020-11-13 AR ARP200103157A patent/AR120466A2/es active IP Right Grant
- 2020-11-13 AR ARP200103158A patent/AR120467A2/es active IP Right Grant
- 2020-11-13 AR ARP200103155A patent/AR120464A2/es active IP Right Grant
- 2020-12-02 ZA ZA2020/07510A patent/ZA202007510B/en unknown
-
2021
- 2021-08-13 AU AU2021215249A patent/AU2021215249B2/en active Active
- 2021-10-21 JP JP2021172442A patent/JP7413334B2/ja active Active
- 2021-11-15 ZA ZA2021/09045A patent/ZA202109045B/en unknown
- 2021-11-15 ZA ZA2021/09046A patent/ZA202109046B/en unknown
- 2021-11-15 ZA ZA2021/09047A patent/ZA202109047B/en unknown
-
2022
- 2022-10-11 US US17/963,743 patent/US11676616B2/en active Active
- 2022-10-11 US US17/963,627 patent/US11621013B2/en active Active
- 2022-10-11 US US17/963,582 patent/US11763830B2/en active Active
- 2022-10-11 US US17/963,767 patent/US11605391B2/en active Active
- 2022-10-27 ZA ZA2022/11731A patent/ZA202211731B/en unknown
-
2023
- 2023-02-07 AU AU2023200619A patent/AU2023200619B2/en active Active
- 2023-07-31 US US18/228,109 patent/US12094480B2/en active Active
- 2023-10-05 JP JP2023173392A patent/JP2023181209A/ja active Pending
- 2023-11-16 AU AU2023266360A patent/AU2023266360B2/en active Active
-
2024
- 2024-05-29 US US18/677,047 patent/US12175993B2/en active Active
- 2024-10-17 AU AU2024227419A patent/AU2024227419A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110054911A1 (en) * | 2009-08-31 | 2011-03-03 | Apple Inc. | Enhanced Audio Decoder |
TW201434034A (zh) * | 2013-01-29 | 2014-09-01 | Fraunhofer Ges Forschung | 雜訊塡充技術 |
US20150332702A1 (en) * | 2013-01-29 | 2015-11-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, method for providing an encoded audio information, method for providing a decoded audio information, computer program and encoded representation using a signal-adaptive bandwidth extension |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI809289B (zh) | 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體 | |
TWI752166B (zh) | 用於音訊信號之高頻重建的諧波轉置器的回溯相容整合 | |
TWI820123B (zh) | 具有減少後處理延遲之高頻重建技術之整合 | |
CN112189231B (zh) | 高频音频重建技术的集成 |