TWI732403B

TWI732403B - 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流

Info

Publication number: TWI732403B
Application number: TW108147912A
Authority: TW
Inventors: 拉斯維爾默斯; 海克普恩哈根; 皮爾伊斯坦德
Original assignee: 瑞典商杜比國際公司
Priority date: 2015-03-13
Filing date: 2016-02-22
Publication date: 2021-07-01
Also published as: IL285643A; IL285643B; JP6922017B2; JP7210658B2; JP2021167981A; ZA201901691B; ZA201805869B; HUE047987T2; HK1259302A1; ES2770029T3; IL256786B; DK3268956T3; ZA201801941B; HK1259548A1; HUE053954T2; HK1259131A1; SG10202005260VA; HK1259544A1; ZA201705971B; JP2020079963A

Abstract

實施例係關於音訊處理單元，其包括緩衝器、位元流負載去格式化器、以及解碼子系統。該緩衝器儲存經編碼的音訊位元流的至少一個區塊。該區塊包括填充元素，其起始於一識別符，其後接著填充資料。該填充資料包括第一旗標，識別是否對該經編碼的音訊位元流的該至少一個區塊的音訊內容執行頻譜帶複製處理的基本形式或頻譜帶複製處理的增強形式，以及若該第一旗標識別該頻譜帶複製處理的增強形式，則第二旗標識別是否致能或失能訊號自適應頻域超取樣。亦提出用於解碼一經編碼的音訊位元流的對應方法。

Description

解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流

本發明係關於音頻訊號處理。一些實施例係關於編碼及解碼音訊位元流(例如，具有MPEG-4 AAC格式之位元流)，其包括用於控制增強頻譜帶複製(eSBR)之元資料。其他實施例係關於藉由未被配置成執行eSBR處理以及忽略此種元資料的傳統解碼器解碼此種位元流，或者關於藉由回應於位元流產生eSBR控制資料來解碼不包括此種元資料的音訊位元流。

典型音訊位元流包括指示音訊內容之一或多個通道的音訊資料(例如，經編碼的音訊資料)，以及指示音訊資料或音訊內容之至少一特徵的元資料二者。用於產生已編碼音訊位元流的一種公知格式是MPEG-4進階音訊編碼(AAC)格式，其被描述於MPEG標準ISO/IEC 14496-3：2009中。在MPEG-4標準中，AAC表示「進階音訊編碼(advanced audio coding)」以及HE-AAC表示「高效進階音訊編碼(high-efficiency advanced audio coding)」。

MPEG-4 AAC標準定義了幾種音訊規格(profile)，其決定兼容的編碼器及解碼器中存在哪些元件以及編碼工具。這些音訊規格的其中三種是(1)AAC規格、(2)HE-AAC規格及(3)HE-AAC v2規格。AAC規格包括AAC低複雜度(或“AAC-LC”)物件型式。AAC-LC物件係，藉由些許調整，對應於MPEG-2 AAC低複雜度規格，並且不包括頻譜帶複製(“SBR”)物件型式也不包括參數化立體聲(parametric stereo，“PS”)物件型式。HE-AAC規格是AAC規格的超集合，並且還包括SBR物件型式。HE-AAC v2規格是HE-AAC規格的超集合，並且還包括PS物件型式。

SBR物件型式包含頻譜帶複製工具，其係顯著提升感知音訊編解碼器之壓縮效率的重要編碼工具。SBR在接收方(例如，在解碼器中)重構音頻訊號的高頻分量。因此，編碼器僅需要編碼並傳輸低頻分量，允許低資料速率的較高音訊品質。SBR係依據由可用的有限頻寬訊號以及自編碼器獲得之控制資料複製諧波之序列，該諧波之序列事先被截斷以減少資料速率。音調分量及類噪聲分量的比率係由適應性逆濾波以及噪聲和正弦訊號之可選附加來維持。在MPEG-4 AAC標準中，SBR工具執行頻譜修補(patching)，其中將若干鄰接的正交鏡像濾波器(Quadrature Mirror Filter,QMF)子帶從音頻訊號的傳輸的低頻帶部分複製到音頻訊號的高頻帶部分，該音頻訊號係產生於解碼器中。

頻譜修補對於某些音訊型式並不是理想的，例如具有相對低交越頻率的音樂內容。因此，需要用於改善頻譜帶複製的技術。

第一類的實施例係關於音訊處理單元，其包括記憶體、位元流負載去格式化器(payload deformatter)、及解碼子系統。該記憶體被配置以儲存已編碼之音訊位元流(例如，MPEG-4 AAC位元流)的至少一個區塊。該位元流負載去格式化器被配置以解多工該經編碼的音訊區塊。該解碼子系統被配置以解碼該已編碼之音訊區塊的音訊內容。該經編碼的音訊區塊包括填充元素，其具有指示該填充元素之起始的標識符，以及包括在該標識符之後的填充資料。該填充資料包括第一旗標，識別是否對該經編碼的音訊位元流的該至少一個區塊的音訊內容執行頻譜帶複製處理的基本形式或頻譜帶複製處理的增強形式，以及若該第一旗標識別該頻譜帶複製處理的增強形式，則第二旗標識別是否致能或失能訊號自適應頻域超取樣。

第二類的實施例係關於用於解碼已編碼之音訊位元流的方法。該方法包括接收已編碼之音訊位元流的至少一個區塊、解多工該已編碼之音訊位元流的該至少一個區塊的至少某些部分、以及解碼該已編碼之音訊位元流的該至少一個區塊的至少某些部分。該已編碼之音訊位元流的該至少一個區塊包括填充元素，其具有指示該填充元素之起始的標識符，以及包括在該標識符之後的填充資料。該填充資料包括第一旗標，識別是否對該經編碼的音訊位元流的該至少一個區塊的音訊內容執行頻譜帶複製處理的基本形式或頻譜帶複製處理的增強形式，以及若該第一旗標識別該頻譜帶複製處理的增強形式，則第二旗標識別是否致能或失能訊號自適應頻域超取樣。

其他類的實施例係關於編碼及轉碼音訊位元流，該音訊位元流包含識別是否將執行增強頻譜帶複製(eSBR)處理的元資料。

1:編碼器

2:傳遞子系統

3:解碼器

4:後處理單元

100:編碼器

105:編碼器

106:元資料產生器級

107:填充器/格式化器級

109:緩衝器記憶體

200:解碼器

201:緩衝器記憶體

202:解碼子系統

203:eSBR處理級

204:控制位元產生器級

205:位元流負載去格式化器(剖析器)

210:音訊處理單元(APU)

213:SBR處理級

215:位元流負載去格式化器(剖析器)

300:後處理器

301:緩衝器記憶體(緩衝器)

400:eSBR解碼器

401:eSBR控制資料產生子系統

500:音訊處理單元(APU)

圖1是系統之實施例的方塊圖，該系統被配置以執行本發明方法之實施例。

圖2是編碼器的方塊圖，該編碼器是本發明音訊處理單元的實施例。

圖3是包括解碼器之系統的方塊圖，該解碼器是本發明音訊處理單元的實施例，並且可選地有與其耦合的後處理器。

圖4是解碼器的方塊圖，該解碼器是本發明音訊處理單元的實施例。

圖5是解碼器的方塊圖，該解碼器是本發明音訊處理單元的另一實施例。

圖6是本發明音訊處理單元之另一實施例的方塊圖。

圖7是MPEG-4 AAC位元流之區塊的圖，包括該位元流被分割而成的區段。

符號和術語

在整個本揭示內容中，包括在申請專利範圍中，對(“on”)訊號或資料執行操作(例如，濾波、縮放、轉換、或施加增益至訊號或資料)的描述在廣義上用於表示直接對該訊號或資料執行操作，或對信號或資料之經處理後的版本(例如，對在操作執行之前已經過初步過濾或預處理的信號的版本)執行操作。

在整個本揭示內容中，包括在申請專利範圍中，「音訊處理單元」的表述在廣義上用於表示配置來處理音訊資料的系統、裝置或設備。音訊處理單元的範例包括但不限於編碼器(例如，轉碼器)、解碼器、編解碼器(codecs)、預處理系統、後處理系統、及位元流處理系統(有時被稱為位元流處理工具)。幾乎所有的消費性電子，例如行動電話、電視、膝上型電腦、及平板電腦，包含一音訊處理單元。

在整個本揭示內容中，包括在申請專利範圍中，「耦合」或「被耦合」的術語在廣義上用於指直接或間接連接之其中一者。因此，若第一裝置耦合於第二裝置，該連接可能經由直接連接、或經由透過其他裝置或連接的間接連接。此外，整合進入其他元件或與其他元件整合的元件亦為彼此耦合。

本發明之實施例的詳細說明

MPEG-4 AAC標準考量經編碼的MPEG-4 AAC位元流包括元資料，其指示解碼器將施用(若有將施用)來解碼位元流的音訊內容的SBR處理的各種類型，及/或其控制此SBR處理，及/或其指示將被採用來解碼位元流之音訊內容的至少一個SBR工具的至少一特徵或參數。本文中，使用“SBR元資料”表述來表示在MPEG-4 AAC標準中描述或提及的此種類型的元資料。

MPEG-4 AAC位元流的頂層是資料區塊的序列(“raw_data_block”元素)，各個資料區塊為包含音訊資料(典型用於1024或960個採樣的時間週期)及相關資訊及/或其他資料的資料的區段(本文中稱為“區塊(block)”)。本文中，使用“區塊”術語來表示MPEG-4 AAC位元流的區段，其包含決定或指示一個(但不超過一個)“raw_data_block”元素的音訊資料(及相應的元資料和可選地其他相關資料)。

MPEG-4 AAC位元流的各個區塊可包括一些語法元素(各個語法元素亦在位元流中被具體化為資料的區段)。在MPEG-4 AAC標準中定義了此語法元素的七種類型。每個語法元素是由資料元素“id_syn_ele”的不同值來識別。語法元素的範例包括“single_channel_element()”、“channel_pair_element()”、及“fill_element()”。單聲道元素為一容器，包括單音訊通道的音訊資料(單聲道音頻訊號)。雙聲道元素包括兩個音訊通道的音訊資料(即，立體聲音頻訊號)。

填充元素為一資訊的容器，該資訊包括識別符(例如，上述元素“id_syn_ele”之值)緊接著資料(其被稱為“填充資料”)。填充元素歷來被用以調整將在固定速率通道上被傳輸的位元流的瞬時位元率。藉由將適當數量的填充資料加進各個區塊，可以達到固定資料速率。

依據本發明之實施例，填充資料可包括一或多個擴充負載(extension payload)，其擴充能在位元流中傳輸的資料的類型(例如，元資料)。接收具有包含新資料類型的填充資料的位元流的解碼器，可任選地被接收位元流的裝置(例如，解碼器)用來擴充該裝置的功能性。因此，如本領域之技術人員可理解的，填充元素為資料結構的特殊類型，且不同於典型用以傳輸音訊資料(例如，包含通道資料的音訊負載)的資料結構。

在本發明的某些實施例中，用以識別填充元素的識別符可由一三位元最高有效位元傳輸在先之無正負號整數(“uimsbf”)組成，其具有0×6的值。在一區塊中，可能出現相同類型之語法元素的多個實例(例如，多個填充元素)。

用於編碼音訊位元流之另一標準為MPEG聯合語音及音訊編碼(Unified Speech and Audio Coding,USAC)標準(ISO/IEC 23003-3：2012)。MPEG USAC標準描述使用頻譜帶複製處理(包括MPEG-4 AAC標準中所述之SBR處理，且亦包括頻譜帶複製處理的其他增強形式)之音訊內容的編碼及解碼。此處理應用了MPEG-4 AAC標準中所描述之SBR工具之集合的擴充及增強版的頻譜帶複製工具(在本文中有時被稱為“增強的SBR工具”或“eSBR工具”)。因此，eSBR(如USAC標準中所定義)為SBR(如MPEG-4 AAC標準中所定義)之改良。

本文中，使用“增強的SBR處理”(或“eSBR處理”)之表述來表示使用在MPEG-4 AAC標準中未描述或提及的至少一個eSBR工具(例如，在MPEG USAC標準中描述或提及的至少一個eSBR工具)的頻譜帶複製處理。此種eSBR工具的範例為諧波移調(harmonic transposition)、QMF-修補(QMF-patching)額外預處理或“預平坦化(pre-flattening)”、及子帶間樣本時間包絡成型(Temporal Envelope Shaping)或“inter-TES”。

依據MPEG USAC標準所產生的位元流(在本文中有時被稱為“USAC位元流”)包括經編碼的音訊內容，且典型地包括將由解碼器施用來解碼USAC位元流之音訊內容的頻譜帶複製處理的各個類型的元資料、及/或控制此頻譜帶複製處理及/或表示將被採用來解碼USAC位元流之音訊內容的至少一個SBR工具及/或eSBR工具之至少一個特徵或參數的元資料。

本文中，使用“增強的SBR元資料”(或“eSBR元資料”)之表述來表示指示將由解碼器施用來解碼已編碼之音訊位元流(例如，USAC位元流)之音訊內容的頻譜帶複製處理的各個類型的元資料、及/或控制此頻譜帶複製處理的元資料、及/或指示將被採用來解碼此音訊內容、但未在MPEG-4 AAC標準中被描述或提及的至少一個SBR工具及/或eSBR工具之至少一個特徵或參數的元資料。eSBR元資料之一範例為在MPEG USAC標準中被描述或提及但未在MPEG-4 AAC標準中被描述或提及的元資料(指示頻譜帶複製處理、或用於控制頻譜帶複製處理)。因此，eSBR元資料在本文中表示非SBR元資料的元資料，而SBR元資料在本文中表示非eSBR元資料的元資料。

USAC位元流可包括SBR元資料及eSBR元資料二者。更具體地，USAC位元流可包括控制解碼器之eSBR處理效能的eSBR元資料、及控制解碼器之SBR處理效能的SBR元資料。依據本發明的典型實施例，eSBR元資料(例如，eSBR特定配置資料)係包含在(依據本發明)MPEG-4 AAC位元流中(例如，在SBR負載之末端的sbr_extension()容器中)。

在使用eSBR工具集(包含至少一個eSBR工具)解碼一經編碼的位元流的期間，由解碼器執行eSBR處理，依據在編碼過程中被截斷之諧波序列的複製來重新產生音頻訊號的高頻帶。此種eSBR處理，典型地調整所產生的高頻帶的頻譜包絡，並施用反向濾波、及增加噪聲和正弦分量以重新建立原始音頻訊號的頻譜特性。

依據本發明的典型實施例，在經編碼的音訊位元流(例如，MPEG-4 AAC位元流)之一或多個元資料區段中包含eSBR元資料(例如，包含係eSBR元資料的少數控制位元)，該經編碼的音訊位元流亦包含經編碼的音訊資料於其他區段(音訊資料區段)中。典型地，位元流之每個區段的至少一個此種元資料區段係(或包括)一填充元素(包含一識別符，指示該填充元素的起始)，且eSBR元資料係包含在填充元素中、在識別符之後。

圖1是示例性的音訊處理鏈(音訊資料處理系統)之方塊圖，其中該系統之一或多個元件可依據本發明之實施例而被配置。該系統包括以下元件，耦合在一起如圖所示：編碼器1、傳遞子系統2、解碼器3、及後處理單元4。在所示系統的變型中，省略該等元件的其中一或多個，或者包含額外的音訊資料處理單元。

在一些實施方式中，編碼器1(其可選地包括預處理單元)被配置成接受包含音訊內容的PCM(時域)樣本作為輸入，並輸出表示音訊內容的經編碼的音訊位元流(具有符合MPEG-4 AAC標準的格式)。表示音訊內容的位元流資料在本文中有時被稱為“音訊資料”或“經編碼的音訊資料”。若依據本發明之典型實施例來配置編碼器，則自該編碼器輸出的音訊位元流包括eSBR元資料(並且典型地亦包括其他元資料)以及音訊資料。

自編碼器1輸出的一或多個經編碼的音訊位元流可被判斷提示(assert)至經編碼的音訊傳遞子系統2。子系統2被配置成儲存及/或傳遞自編碼器1輸出的各個經編碼的位元流。自編碼器1輸出的經編碼的位元流可由子系統2儲存(例如，以DVD或藍光光碟的形式)，或由子系統2傳輸(其可實現傳輸鏈結或網路)、或由子系統2儲存並且傳輸。

解碼器3被配置成解碼經編碼的MPEG-4 AAC音訊位元流(由編碼器1所產生)，其經由子系統2接收。在某些實施例中，解碼器3被配置成從位元流的各區塊抽取eSBR元資料，並解碼該位元流(包括藉由使用被抽取的eSBR元資料來執行eSBR處理)以產生經解碼的音訊資料(例如，經解碼的PCM音訊樣本的串流)。在某些實施例中，解碼器3被配置成從位元流抽取SBR元資料(但忽略位元流中所包含的eSBR元資料)，並解碼該位元流(包括藉由使用被抽取的SBR元資料來執行SBR處理)以產生經解碼的音訊資料(例如，經解碼的PCM音訊樣本的串流)。典型地，解碼器3包括緩衝器，該緩衝器儲存(例如，以非暫態的方式)從子系統2接收的經編碼的音訊位元流的區段。

圖1的後處理單元4被配置成接受來自解碼器3的經解碼的音訊資料的串流(例如，經解碼的PCM音訊樣本)，並對其執行後處理。後處理單元4亦可被配置成呈現經後處理的音訊內容(或從解碼器3接收的經解碼的音訊)用於由一或多個揚聲器播放。

圖2是編碼器(100)的方塊圖，該編碼器為本發明之音訊處理單元的實施例。編碼器100的任何組件或元件可被實現為硬體、軟體、或硬體與軟體之組合中的一或多個處理過程及/或一或多個電路(例如，ASICs、FPGAs、或其他積體電路)。編碼器100包括編碼器105、填充器/格式化器級107、元資料產生器級106、及緩衝器記憶體109，如圖所示連接。典型地，編碼器100亦包括其他處理元件(未示出)。編碼器100被配置成將輸入音訊位元流轉換成經編碼的輸出MPEG-4 AAC位元流。

元資料產生器級106被耦合且被配置成產生(及/或通過填充器/格式化器級107)元資料(包括eSBR元資料及SBR元資料)，該元資料將被填充器/格式化器級107包含在待被輸出自編碼器100的經編碼的位元流中。

編碼器105被耦合且被配置成編碼輸入音訊資料(例如，藉由對其執行壓縮)，並且將該產生的經編碼的音訊判斷提示至填充器/格式化器級107，用於包含在待被輸出自級107的經編碼的位元流中。

填充器/格式化器級107被配置成將來自編碼器105的經編碼的音訊以及來自元資料產生器級106的元資料(包括eSBR元資料及SBR元資料)多工以產生待被輸出自填充器/格式化器級107的經編碼的位元流，較佳地使得該經編碼的位元流具有如本發明之其中一個實施例所指定的格式。

緩衝器記憶體109被配置成儲存(例如，以非暫態的方式)輸出自填充器/格式化器級107的經編碼的音訊位元流的至少一個區塊，且該經編碼的音訊位元流的一序列的區塊將接著被判斷提示自緩衝器記憶體109作為自編碼器100至傳遞系統的輸出。

圖3是包括解碼器(200)之系統的方塊圖，該解碼器為本發明之音訊處理單元的實施例，並且可選地亦有耦合至其的後處理器(300)。解碼器200及後處理器300的任何組件或元件可被實現為硬體、軟體、或硬體與軟體之組合中的一或多個處理過程及/或一或多個電路(例如，ASICs、FPGAs、或其他積體電路)。解碼器200包含緩衝器記憶體201、位元流負載去格式化器(剖析器)205、音訊解碼子系統202(有時被稱為“核心”解碼級或“核心”解碼子系統)、eSBR處理級203、及控制位元產生器級204，連接如圖示。典型地，解碼器200亦包括其他處理元件(未示出)。

緩衝器記憶體(緩衝器)201儲存(例如，以非暫態的方式)由解碼器200所接收的經編碼的MPEG-4 AAC音訊位元流的至少一個區塊。在解碼器200的操作中，位元流的一序列的區塊由緩衝器201被判斷提示至去格式化器205。

在圖3實施例(或者將被描述的圖4實施例)的變型中，不是解碼器的APU(例如，圖6的APU 500)包括緩衝器記憶體(例如，等同於緩衝器201的緩衝器記憶體)，其儲存(例如，以非暫態的方式)由圖3或圖4的緩衝器201所接收之相同形式的經編碼的音訊位元流(例如，MPEG-4 AAC音訊位元流)的至少一個區塊(即，包括eSBR元資料的經編碼的音訊位元流)。

再次參照圖3，去格式化器205被耦合且被配置成將位元流的各個區塊解多工以從其抽取SBR元資料(包括經量化的包絡資料)及eSBR元資料(以及通常還包括其他元資料)，用以至少將該eSBR元資料及該SBR元資料判斷提示至eSBR處理級203，並且典型地亦將其他抽取出的元資料判斷提示至解碼子系統202(以及可選地亦判斷提示至控制位元產生器204)。去格式化器205亦被耦合且被配置成從位元流的各個區塊抽取音訊資料，並將該被抽取出的音訊資料判斷提示至解碼子系統(解碼級)202。

圖3的系統可選地亦包括後處理器300。後處理器300包括緩衝器記憶體(緩衝器)301以及其他處理元件(未示出)，其包括耦合至緩衝器301的至少一個處理元件。緩衝器301儲存(例如，以非暫態的方式)由後處理器300接收自解碼器200的經解碼的音訊資料地至少一個區塊(或框(frame))。後處理器300的處理元件被耦合且被配置成接收且適應性地處理輸出自緩衝器301的經解碼的音訊的一序列區塊(或框)，其使用自解碼子系統202(及/或去格式化器205)輸出的元資料及/或自解碼器200的級204輸出的控制位元。

解碼器200的音訊解碼子系統202被配置成解碼由剖析器205所抽取的音訊資料(此種解碼可被稱為“核心”解碼操作)以產生經解碼的音訊資料，並且判斷提示該經解碼的音訊資料至eSBR處理級203。解碼係在頻域中執行，並且通常包括反量化其後接著頻譜處理。典型地，子系統202中的處理的最終級對經解碼的頻域音訊資料施用頻域至時域轉換，使得子系統的輸出為時域經解碼的資料。級203被配置成對經解碼的音訊資料施用由SBR元資料及eSBR元資料(由剖析器205抽取)所指示的SBR工具及eSBR工具(即，使用SBR及eSBR元資料對解碼子系統202之輸出執行SBR及eSBR處理)，以產生經完全解碼的音訊資料，其自解碼器200輸出(例如，至後處理器300)。典型地，解碼器200包括一記憶體(可由子系統202以及級203存取)，該記憶體儲存輸出自去格式化器205的經去格式化的音訊資料及元資料，並且級203被配置成存取在SBR及eSBR處理期間所需要的音訊資料及元資料(包括SBR元資料及eSBR元資料)。級203中的SBR處理及eSBR處理可被視為對核心解碼子系統202之輸出的後處理。可選地，解碼器200亦包括一最終升混(upmixing)子系統(其可施用MPEG-4 AAC標準中所定義的參數化立體聲(“PS”)工具，使用由去格式化器205所抽取的PS元資料及/或在子系統204中所產生的控制位元)，其被耦合且被配置成對級203之輸出執行升混，以產生經完全解碼、升混的音訊，其自解碼器200輸出。替代地，後處理器300被配置成對解碼器200之輸出執行升混(例如，使用由去格式化器205所抽取的PS元資料及/或在子系統204中所產生的控制位元)。

回應於由去格式化器205所抽取的元資料，控制位元產生器204可產生控制資料，且該控制資料可在解碼器200內(例如，在最終升混子系統中)被使用及/或被判斷提示作為解碼器200之輸出(例如，至後處理器300，用於在後處理中使用)。回應於從輸出位元流所抽取的元資料(以及可選地亦回應於控制資料)，級204可產生(及判斷提示至後處理器300)控制位元，其指示從eSBR處理級203輸出的經解碼的音訊資料應進行特定類型的後處理。在一些實施方式中，解碼器200被配置成從輸入位元流將由去格式化器205所抽取的元資料判斷提示至後處理器300，且後處理器300被配置成使用該元資料，對輸出自解碼器200的經解碼的音訊資料執行後處理。

圖4是音訊處理單元(“APU”)(210)的方塊圖，該音訊處理單元是本發明之音訊處理單元的另一實施例。APU 210是傳統的解碼器，其並未被配置來執行eSBR處理。APU 210的任何組件或元件可被實現為硬體、軟體、或硬體與軟體之組合中的一或多個處理過程及/或一或多個電路(例如，ASICs、FPGAs、或其他積體電路)。APU 210包含緩衝器記憶體201、位元流負載去格式化器(剖析器)215、音訊解碼子系統202(有時被稱為“核心”解碼級或“核心”解碼子系統)、及SBR處理級213，如圖所示連接。典型地，APU 210亦包括其他處理元件(未示出)。

APU 210的元件201及202與解碼器200(圖3的)的相同編號的元件相同，並且它們的上述說明將不再重複。在APU 210的操作中，由APU 210所接收之經編碼的音訊位元流(MPEG-4 AAC位元流)的一序列區塊係從緩衝器201被判斷提示至去格式化器215。

去格式化器215被耦合且被配置成將位元流的各個區塊解多工以抽取SBR元資料(包括經量化的包絡資料)，以及典型地亦從其抽取其他的元資料，但忽略根據本發明之其他實施例之可能包含在位元流中的eSBR元資料。去格式化器215被配置成將至少SBR元資料判斷提示至SBR處理級213。去格式化器215亦被耦合且被配置成從位元流的各個區塊抽取音訊資料，並將該抽取的音訊資料判斷提示至解碼子系統(解碼級)202。

解碼器200的音訊解碼子系統202被配置成解碼由去格式化器215所抽取的音訊資料(此種解碼可被稱為“核心”解碼操作)，以產生經解碼的音訊資料，並且將該經解碼的音訊資料判斷提示至SBR處理級213。該解碼係在頻域中執行。典型地，子系統202中的處理的最終級對經解碼的頻域音訊資料施用頻域至時域轉換，使得子系統的輸出為時域經解碼的資料。級213被配置成對經解碼的音訊資料施用由SBR元資料(由去格式化器215所抽取)所指示的SBR工具(但不施用eSBR工具)(即，使用SBR元資料對解碼子系統202之輸出執行SBR處理)，以產生經完全解碼的音訊資料，其自APU 210輸出(例如，至後處理器300)。典型地，APU 210包括一記憶體(可由子系統202以及級213存取)，該記憶體儲存輸出自去格式化器215的經去格式化的音訊資料及元資料，且級213被配置成存取在SBR處理期間所需要的音訊資料及元資料(包括SBR元資料)。級213中的SBR處理可被視為對核心解碼子系統202之輸出的後處理。可選地，APU 210亦包括一最終升混子系統(其可施用在MPEG-4 AAC標準中所定義的參數化立體聲(“PS”)工具，使用由去格式化器215所抽取的PS元資料)，其被耦合且被配置成對級213之輸出執行升混，以產生經完全解碼、升混的音訊，其自APU 210輸出。替代地，一後處理器被配置成對APU 210之輸出執行升混(例如，使用由去格式化器215所抽取的PS元資料及/或在APU 210中所產生的控制位元)。

編碼器100、解碼器200、及APU 210的各種實施方式係被配置成執行本發明方法的不同實施例。

依據某些實施例，經編碼的音訊位元流(例如，MPEG-4 AAC位元流)中包含eSBR元資料(例如，包含係eSBR元資料的少量控制位元)，使得傳統的解碼器(其不被配置成剖析eSBR元資料，或不被配置成使用該eSBR元資料所屬的任何eSBR工具)可以忽略eSBR元資料，但仍然盡可能的不使用eSBR元資料或該eSBR元資料所屬的任何eSBR工具來解碼該位元流，通常在解碼音訊品質上無任何重大損失。然而，被配置成剖析位元流以識別eSBR元資料以及回應該eSBR元資料而使用至少一個eSBR工具的eSBR解碼器，將享受到使用至少一個這種eSBR工具的好處。因此，本發明之實施例提供一種用於以向後兼容的方式有效傳輸增強頻譜帶複製(eSBR)控制資料或元資料的機制。

典型地，位元流中的eSBR元資料表示下列eSBR工具(其描述於MPEG USAC標準中，且其在產生位元流的期間可能或可能不被編碼器所施用)之其中一或多者(例如，表示其中一或多者之至少一個特徵或參數)：

●諧波移調；

●QMF-修補)額外預處理(預平坦化)；及

●子帶間樣本時間包絡成型或“inter-TES”。

例如，位元流中所包括的eSBR元資料可表示參數的值(描述於MPEG USAC標準中及本揭示內容中)：harmonicSBR[ch]、sbrPatchingMode[eh]、sbrOversamplingFlag[ch]、sbrPitchInBins[ch]、sbrPitchInBins[ch]、bs_interTes、bs_temp_shape[ch][env]、bs_inter_temp_shape_mode[ch][env]、及bs_sbr_preprocessing。

本文中，符號X[ch]，其中X為某一參數，表示該參數屬於待解碼之經編碼的位元流的音訊內容的聲道(“ch”)。為了簡化，有時候省略[ch]的表述，並假定相關參數屬於音訊內容的聲道。

本文中，符號X[ch][env]，其中X為某一參數，表示該參數屬於待解碼之經編碼的位元流的音訊內容的聲道(“ch”)的SBR包絡(“env”)。為了簡化，有時候省略[env]及[ch]的表述，並假定相關參數屬於音訊內容的聲道SBR包絡。

如所述，MPEG USAC標準考慮到，USAC位元流包括eSBR元資料，其控制由解碼器所執行之eSBR處理的效能。該eSBR元資料包括下列一位元的元資料參數： harmonicSBR；bs_intcrTES；及bs_pvc。

參數“harmonicSBR”表示針對SBR使用諧波修補(諧波移調)。具體地，harmonicSBR=0表示非諧波、頻譜修補，如MPEG-4 AAC標準第4.6.18.6.3節中所述；以及harmonicSBR=1表示諧波SBR修補(具有eSBR中使用的形式，如MPEG USAC標準第7.5.3或7.5.4節中所述)。依據非eSBR頻譜帶複製(即，並非是eSBR的SBR)，不使用諧波SBR修補。經由此揭示內容，頻譜修補被稱為頻譜帶複製的基本形式，而諧波移調被稱為頻譜帶複製的增強形式。

參數“bs_interTES”的值表示使用eSBR的inter-TES工具。

參數“bs_pvc”的值表示使用eSBR的PVC工具。

在將經編碼的位元流解碼的期間，在(針對該位元流所指示的音訊內容的各個聲道“ch”)解碼的eSBR處理級期間的諧波移調的效能係由下列eSBR元資料參數所控制：sbrPatchingMode[ch]；sbrOversamplingFlag[ch]；sbrPitchInBinsFlag[ch]；及sbrPitchInBins[ch]。

值“sbrPatchingMode[ch]”表示eSBR中所使用的移調器(transposer)類型：sbrPatchingMode[ch]=1表示非諧波修補，如MPEG-4 AAC標準第4.6.18.6.3節中所述；sbrPatchingMode[ch]=0表示諧波SBR修補，如MPEG USAC標準第7.5.3或7.5.4節中所述。

值“sbrOversamplingFlag[ch]”表示在eSBR中使用訊號自適應頻域超取樣，結合基於DFT的諧波SBR修補，如MPEG USAC標準第7.5.3節中所述。此旗標控制在移調器中所使用的DFT的大小：1表示允許訊號自適應頻域超取樣，如MPEG USAC標準第7.5.3.1節中所述；0表示禁止訊號自適應頻域超取樣，如MPEG USAC標準第7.5.3.1節中所述。

值“sbrPitchInBinsFlag[ch]”控制sbrPitchInBins[ch]參數的解譯：1表示sbrPitchInBins[ch]中的值係有效的(valid)且大於零；0表示sbrPitchInBins[ch]的值被設定為零。

值“sbrPitchInBins[ch]”控制在SBR諧波移調器中，交叉乘積(cross product)項的增加。值sbrPitchinBins[ch]為在範圍[0,127]中的整數值，並且表示作用於核心編碼器之採樣頻率的1536線DFT的頻槽(frequency bins)中所測量的距離。

在MPEG-4 AAC位元流指示其聲道未耦合的SBR雙聲道(而不是單一SBR聲道)的情形中，該位元流指示上述語法的兩個實例(用於諧波或非諧波移調)，一個實例用於sbr_channel_pair_element()的一個聲道。

eSBR工具的諧波移調通常改善了在相對低交越頻率的經解碼的音樂訊號的品質。諧波移調應在解碼器中經由基於DFT或基於QMF的諧波移調而被實施。非諧波移調(即，傳統的頻譜修補或複製)通常改善了語音訊號。因此，決定哪種類型的移調較佳用於編碼特定音訊內容的起始點，係依據語音/音樂偵測來選擇移調方法，諧波移調用於音樂內容，而頻譜修補用於語音內容。

eSBR處理期間的預平坦化的效能係由被稱為“bs_sbr_preprocessing”的一位元的eSBR元資料參數的值所控制，這個意思是依據此單一位元值來執行或不執行預平坦化。當使用SBR QMF修補演算法(如MPEG-4 AAC標準第4.6.18.6.3節中所述)時，可執行預平坦化的步驟(當由“bs_sbr_preprocessing”參數指示時)，努力避免被輸入至後續包絡調整器(該包絡調整器執行該eSBR處理的其他級)的高頻訊號的頻譜包絡的形狀中的不連續。預平坦化通常改善了後續包絡調整器級的操作，產生被視為是更穩定的高頻帶訊號。

在解碼器中的eSBR處理期間，子帶間樣本時間包絡成型(“inter-TES”工具)的效能係由下列針對將被解碼的USAC位元流的音訊內容的各個聲道(“ch”)的SBR包絡(“env”)的eSBR元資料參數所控制：bs_temp_shape[ch][env]；及bs_inter_temp_shape_mode[ch][env]。

inter-TES工具處理在包絡調整器之後的QMF子帶樣本。此處理步驟利用比包絡調整器更精細的時間粒度來將較高頻帶的時間包絡整型。藉由將一增益因子施加至SBR包絡中的各個QMF子帶樣本，inter-TES將QMF子帶樣本之間的時間包絡整型。

參數“bs_temp_shape[ch][env]”為一旗標，其發出使用 inter-TES的訊號。參數“bs_inter_temp_shape_mode[ch][env]”表示(如MPEG USAC標準中所定義)inter-TES中參數γ的值。

依據本發明的某些實施例，針對包括在MPEG-4 AAC位元流中的整體位元率要求，表示上述eSBR工具(諧波移調、預平坦化、及inter_TES)的eSBR元資料被預期是每秒幾百個位元的量級，因為只有執行eSBR處理所需的差分控制資料被傳輸。傳統的解碼器可忽略此資訊，因為它以向後兼容的方式被包括(將於稍後說明)。因此，由於某些原因，對與包含eSBR元資料相關的位元率的不利影響是可以忽略的，該些原因包括下列：

●位元率損失(bitrate penalty)(由於包含該eSBR元資料所造成)是總位元率的一非常小的部分，因為只有執行eSBR處理所需要的差分控制資料被傳輸(而不是SBR控制資料的聯播)；

●SBR相關控制資訊的調整(tuning)通常不依賴移調(transposition)的細節；以及

●inter-TES工具(在eSBR處理期間採用)執行經移調的訊號的單端(single ended)後處理。

因此，本發明的實施例提供了以向後兼容的方式高效傳輸增強頻譜帶複製(eSBR)控制資料或元資料的機制。此種eSBR控制資料的高效傳輸降低了採用本發明之態樣的解碼器、編碼器、及轉碼器中的記憶體需求，同時對於位元率沒有明顯的不利影響。此外，亦降低了與依據本發明之實施例執行eSBR相關連的複雜度和處理要求，因為SBR資料只需要被處理一次，而不是聯播，這可以是若eSBR被當成是MPEG-4 AAC中一完全獨立的物件，而不是以向後兼容的方式被集成到MPEG-4 AAC編碼解器中的情形。

接著，參考圖7，將說明依據本發明之某些實施例的MPEG-4 AAC位元流之區塊(“raw_data_block”)的元素，該MPEG-4 AAC位元流中包括eSBR元資料。圖7為MPEG-4 AAC位元流之一區塊(“raw_data_block”)的示圖，顯示其之一些區段。

MPEG-4 AAC位元流之一區塊可包括至少一個“single_channel_element()”(例如，圖7中所示之單聲道元素)，及/或至少一個“channel_pair_element()”(儘管其可能存在，但在圖7中未明確示出)，其包括用於音訊節目之音訊資料。該區塊亦可包括一些“fill_elements”(例如，圖7的填充元素1及/或填充元素2)，其包括關於該節目的資料(例如，元資料)。各個“single_channel_element()”包括一識別符(例如，圖7的“ID1”)，其指示單聲道元素的起始，並可包括指示多聲道音訊節目之一不同聲道的音訊資料。各個“channel_pair_element”包括一識別符(圖7中未示出)，其指示雙聲道元素的起始，並可包括指示該節目之兩個聲道的音訊資料。

MPEG-4 AAC位元流之一fill_element(在本文中稱為填充元素)包括一識別符(圖7的“ID2”)，其指示填充元素的起始，且填充資料在該識別符之後。識別符ID2可由一三位元最高有效位元傳輸在先之無正負號整數(“uimsbf”)組成，其具有0×6的值。填充資料可包括一extension_payload()元素(在本文中有時被稱為擴充負載)，其語法示於MPEG-4 AAC標準之表4.57中。存在數種擴充負載的類型，且透過“extension_type”參數而被識別，該參數為一四位元最高有效位元傳輸在先之無正負號整數(“uimsbf”)。

填充資料(例如，其之擴充負載)可包括標頭或識別符(例如，圖7的“標頭1”)，其指示表示SBR物件之填充資料的區段(即，該標頭初始化一“SBR物件”類型，在MPEG-4 AAC標準中稱為sbr_extension_data())。例如，頻譜帶複製(SBR)擴充負載被標示為值‘1101’或‘1110’，用於在標頭中的extension_type欄位，其中識別符‘1101’識別具有SBR資料的擴充負載，而‘1110’識別具有SBR資料的擴充負載使用循環冗餘檢測(CRC)以驗證該SBR資料之正確性。

當標頭(例如，extension_type欄位)初始化一SBR物件類型時，SBR元資料(在本文中有時被稱為“頻譜帶複製資料”，且在MPEG-4 AAC標準中被稱為sbr_data())跟在該標頭之後，且至少一個頻譜帶複製擴充元素(例如，圖7之填充元素1的“SBR擴充元素”)可跟在該SBR元資料之後。此一頻譜帶複製擴充元素(該位元流之一區段)在MPEG-4 AAC標準中被稱為“sbr_extension()”容器。頻譜帶複製擴充元素可選地包括一標頭(例如，圖7之填充元素1的“SBR擴充標頭”)。

MPEG-4 AAC標準考慮到，一頻譜帶複製擴充元素可包括用於一節目的音訊資料的PS(參數化立體聲)資料。MPEG-4 AAC標準考慮到，當填充元素的標頭(例如，其之擴充負載)初始化一SBR物件類型(如圖7之“標頭1”一樣)且該填充元素的頻譜帶複製擴充元素包括PS資料時，該填充元素(例如，其之擴充負載)包括頻譜帶複製資料，以及“bs_extension_id”參數，該參數值(即，bs_extension_id=2)指示PS資料係包含在該填充元素的頻譜帶複製擴充元素中。

依據本發明之一些實施例，eSBR元資料(例如，指示是否對該區塊的音訊內容執行增強頻譜帶複製(eSBR)處理的旗標)係包含在填充元素的頻譜帶複製擴充元素中。例如，圖7的填充元素1中指示此一旗標，其中該旗標出現在填充元素1的“SBR擴充元素”的標頭(填充元素1的“SBR擴充標頭”)之後。可選地，此一旗標及額外的eSBR元資料亦包括在頻譜帶複製擴充元素中，其在頻譜帶複製擴充元素的標頭之後(例如，在圖7中的填充元素的SBR擴充元素中，在該SBR擴充標頭之後)。依據本發明之一些實施例，包括eSBR元資料的填充元素亦包括“bs_extension_id”參數，該參數值(例如，bs_extension_id=3)指示eSBR元資料係包含在該填充元素中，並指示將對該相關區塊的音訊內容執行eSBR處理。

依據本發明之一些實施例，eSBR元資料係包含在MPEG-4 AAC位元流的填充元素(例如，圖7的填充元素2)中，而不是在該填充元素的頻譜帶複製擴充元素(SBR擴充元素)中。這是因為包含具有SBR資料或具有CRC之SBR資料的extension_payload()的填充元素並不包含任何其他擴充類型的任何其他擴充負載。因此，在eSBR元資料係保存其自己的擴充負載的實施例中，使用一單獨的填充元素來儲存該eSBR元資料。此一填充元素包括一識別符(例如，圖7的“ID2”)，其指示填充元素的起始，且填充資料在該識別符之後。該填充資料包括一extension_payload()元素(在本文中有時被稱為擴充負載)，其語法顯示在MPEG-4 AAC標準的表4.57中。該填充資料(例如，其之擴充負載)包括一標頭(例如，圖7之填充元素2的“標頭2”)，其表示一eSBR物件(即，該標頭初始化一增強頻譜帶複製(eSBR)物件類型)，且該填充資料(例如，其之擴充負載)包括eSBR元資料在該標頭之後。例如，圖7的填充元素2包括此一標頭(“標頭2”)且亦包括在該標頭之後的eSBR元資料(即，在填充元素2中的“旗標”，其表示是否對該區塊的音訊內容執行增強頻譜帶複製(eSBR)處理。可選地，在標頭2之後，額外的eSBR元資料亦包含在圖7之填充元素2的填充資料中。在本段中所描述的實施例中，該標頭(例如，圖7的標頭2)具有一識別值，該識別值不是MPEG-4 AAC標準之表4.57中所定義的常規值之其中一者，反而是表示一eSBR擴充負載(使得該標頭的extension_type欄位指示該填充資料包括eSBR元資料)。

在第一類的實施例中，本發明為一音訊處理單元(例如，解碼器)，包含：

記憶體(例如，圖3或4的緩衝器201)，被配置成儲存經編碼的音訊位元流的至少一個區塊(例如，MPEG-4 AAC位元流的至少一個區塊)；

位元流負載去格式化器(例如，圖3的元件205或圖4的元件215)，被耦合至該記憶體，且被配置成將該位元流的該區塊的至少一部分解多工；以及

解碼子系統(例如，圖3的元件202及203、或圖4的元件202及213)，被耦合且被配置成將該位元流之該區塊的音訊內容的至少一部分解碼，其中該區塊包括：

填充元素，其包括指示該填充元素之起始的識別符(例如，“id_syn_ele”識別符具有MPEG-4 AAC標準之表4.85的值0×6)，且填充資料在該識別符之後，其中該填充資料包括：

第一旗標，識別是否對該經編碼的音訊位元流的該至少一個區塊的音訊內容執行頻譜帶複製處理的基本形式或頻譜帶複製處理的增強形式(例如，使用該區塊中所包含的頻譜帶複製資料及eSBR元資料)，以及若該第一旗標識別該頻譜帶複製處理的增強形式，則第二旗標識別是否致能或失能訊號自適應頻域超取樣。

該第一旗標為eSBR元資料，且該旗標的一範例為sbrPatchingMode旗標。該旗標的另一範例為harmonicSBR旗標。這兩個旗標皆指示是否對該區塊的音訊資料執行頻譜帶複製的基本形式或是頻譜複製的增強形式。頻譜複製的基本形式是頻譜修補，而頻譜複製的增強形式為諧波移調。

在某些實施例中，該填充資料亦包括額外的eSBR元資料(即，除了該旗標之外的eSBR元資料)。

該記憶體可以是緩衝器記憶體(例如，圖4之緩衝器201的實施方式)，其儲存(例如，以非暫態的方式)該經編碼的音訊位元流的至少一個區塊。

據估計，在包括eSBR元資料(表示這些eSBR工具)的MPEG-4 AAC位元流的解碼期間，由eSBR解碼器所執行的eSBR處理(使用eSBR諧波移調、預平坦化、及inter_TES工具)的效能的複雜度可係如下(用於利用指示的參數的典型解碼)：

●諧波移調(16kbps,14400/28800Hz)

○基於DFT：3.68 WMOPS(每秒加權百萬次操作數)；

○基於QMF：0.98 WMOPS；

●QMF修補預處理(預平坦化)：0.1WMOPS；及

●子帶間樣本時間包絡成型(inter-TES)：最多0.16 WMOPS。

已知的是，針對瞬變(transients)，基於DFT的置換通常比基於QMF的置換執行得更好。

依據本發明之一些實施例，包含eSBR元資料的(經編碼的音訊位元流的)填充元素亦包含一參數(例如，“bs_extension_id”參數)，該參數值(例如，bs_extension_id=3)發出eSBR元資料係包含在填充元素中的信號以及發出將對相關區塊的音訊內容執行eSBR處理的訊號，及/或一參數(例如，相同的“bs_extension_id”參數)，該參數值(例如，bs_extension_id=2)發出該填充元素之sbr_extension()容器包括PS資料的訊號。例如，如下面表1中所示，此種具有值bs_extension_id=2的參數可發出該填充元素之sbr_extension()容器包括PS資料的訊號，且此種具有值bs_extension_id=3的參數可發出該填充元素之sbr_extension()容器包括eSBR元資料的訊號：

依據本發明之一些實施例，包括eSBR元資料及/或PS資料之各個頻譜帶複製擴充元素的語法係如下面表2中所示(其中“sbr_extension()”表示一容器，該容器為頻譜帶複製擴充元素，“bs_extension_id”係如上面表1中所述，“ps_data”表示PS資料，以及“esbr_data”表示eSBR元資料)：

在一示例性實施例中，在上面表2所提及的esbr_data()指示以下元資料參數的值：

1.上述一位元的元資料參數“harmonicSBR”；“bs_interTES”；及“bs_sbr_preprocessing”之各者；

2.針對待解碼之經編碼的位元流的音訊內容的各個聲道(“ch”)，上述參數之各者：“sbrPatchingMode[ch]”；“sbrOversamplingFlag[ch]”；“sbrPitchInBinsFlag[ch]”；及“sbrPitchInBins[ch]”；以及

3.針對待解碼之經編碼的位元流的音訊內容的各個聲道(“eh”)的各個SBR包絡(“env”)，上述參數之各者：“bs_temp_shape[ch][env]”；及“bs_inter_temp_shape_mode[ch][env]”。

例如，在某些實施例中，esbr_data()可具有表3中所示的語法，以指示這些元資料參數：

在表3中，在中間行的數字表示在左邊行中之對應參數的位元數。

在某些實施例中，本發明為一種方法，包括將音訊資料編碼以產生經編碼的位元流(例如，MPEG-4 AAC位元流)的步驟，該步驟包括藉由將eSBR元資料包括在該經編碼的位元流的至少一個區塊的至少一個區段中，以及將音訊資料包括在該區塊的至少一個其他區段中。在典型的實施例中，該方法包括在該經編碼的位元流的各個區塊中將該音訊資料與該eSBR元資料多工的步驟。在eSBR解碼器中的經編碼的位元流的典型的解碼中，解碼器從該位元流抽取eSBR元資料(包括藉由剖析及解多工eSBR元資料及音訊資料)，並使用該eSBR元資料來處理該音訊資料，以產生經解碼的音訊資料的串流。

本發明的另一態樣為eSBR解碼器，其被配置成，在不包括eSBR元資料之經編碼的音訊位元流(例如，MPEG-4 AAC位元流)的解碼期間，執行eSBR處理(例如，使用被稱為諧波移調、預平坦化、或inter_TES之eSBR工具的其中至少一者)。將參照圖5來描述此種解碼器的一範例。

圖5之eSBR解碼器(400)包括緩衝器記憶體201(其等同於圖3及4的記憶體201)、位元流負載去格式化器215(其等同於圖4的去格式化器215)、音訊解碼子系統202(有時被稱為“核心”解碼級或“核心”解碼子系統，且其等同於圖3的核心解碼子系統202)、eSBR控制資料產生子系統401、及eSBR處理級203(其等同於圖3的級203)，連接如圖示。典型地，解碼器400亦包括其他處理元件(未示出)。

在解碼器400的操作中，由解碼器400所接收之經編碼的音訊位元流(MPEG-4 AAC位元流)的一序列區塊係從緩衝器201被判斷提示至去格式化器215。

去格式化器215被耦合且被配置成將位元流的各個區塊解多工以抽取SBR元資料(包括經量化的包絡資料)，以及通常亦從其抽取其他的元資料。去格式化器215被配置成將至少該SBR元資料判斷提示至eSBR處理級203。去格式化器215亦被耦合且被配置成從該位元流的各個區塊抽取音訊資料，並將該抽取的音訊資料判斷提示至解碼子系統(解碼級)202。

解碼器400的音訊解碼子系統202被配置成解碼由去格式化器215所抽取的音訊資料(此種解碼可被稱為“核心”解碼操作)以產生經解碼的音訊資料，並且將該經解碼的音訊資料判斷提示至eSBR處理級203。該解碼係在頻域中執行。典型地，子系統202中的處理的最終級對經解碼的頻域音訊資料施用頻域至時域轉換，使得子系統之輸出為時域經解碼的音訊資料。級203被配置成對經解碼的音訊資料施用由SBR元資料(由去格式化器215所抽取)以及子系統401中產生的eSBR元資料所指示的SBR工具(及eSBR工具)(即，使用SBR及eSBR元資料對解碼子系統202之輸出執行SBR及eSBR處理)，以產生經完全解碼的音訊資料，其自解碼器400輸出。典型地，解碼器400包括一記憶體(可由子系統202以及級203存取)，該記憶體儲存自去格式化器215(及可選地亦自子系統401)輸出的經去格式化的音訊資料及元資料，並且級203被配置成存取在SBR及eSBR處理期間所需要的音訊資料及元資料。級203中的SBR處理可被視為對解碼子系統202之輸出的後處理。可選地，解碼器400亦包括一最終升混子系統(其可施用在MPEG-4 AAC標準中所定義的參數化立體聲(“PS”)工具，使用由去格式化器215所抽取的PS元資料)，其被耦合且被配置成對級203之輸出執行升混，以產生經完全解碼、升混的音訊，其自APU 210輸出。

圖5的控制資料產生子系統401被耦合且被配置成偵測待解碼之經編碼的音訊位元流的至少一個屬性，並回應該偵測步驟的至少一個結果來產生eSBR控制資料(依據本發明之其他實施例，其可以是或可包括經編碼的音訊位元流中所包含的任何類型的eSBR元資料)。該eSBR控制資料被判斷提示至級203，用以當偵測到該位元流之一特定屬性(或屬性的組合)時觸發個別eSBR工具或eSBR工具的組合的應用，及/或用以控制此eSBR工具的應用。例如，為了控制使用諧波移調之eSBR處理的效能，控制資料產生子系統401的某些實施例可包括：音樂偵測器(例如，傳統音樂偵測器的簡易版本)，用於回應偵測到該位元流表示或非表示音樂而設定sbrPatchingMode[ch]參數(以及判斷提示該設定的參數至級203)；瞬變偵測器，用於回應偵測到該位元流所指示的音訊內容中存在或不存在瞬變而設定sbrOversamplingFlag[ch]參數(以及判斷提示該設定的參數至級203)；及/或音高(pitch)偵測器，用於回應偵測到該位元流所指示的音訊內容的音高而設定sbrPitchInBinsFlag[ch]及sbrPitchInBins[ch]參數(以及判斷提示該設定的參數至級203)。本發明的其他態樣為由本段落以及前一段落中所述之本發明解碼器的任何實施例所執行的音訊位元流解碼方法。

本發明的態樣包括編碼或解碼方法，具有本發明APU、系統或裝置之任何實施例被配置(例如，被編程)以執行的類型。本發明的其他態樣包括系統或裝置，其被配置(例如，被編程)以執行本發明方法的任何實施例，以及電腦可讀取媒體(例如，光碟)，其儲存程式碼(例如，以非暫態的方式)用於執行本發明方法或其步驟的任何實施例。例如，本發明系統可以是或可包括可編程通用處理器、數位訊號處理器、或微處理器，其以軟體或韌體編程及/或另外被配置以對資料執行任何的多種操作，其包括本發明方法或其步驟的實施例。此種通用處理器可以是或可包括電腦系統，其包括輸入裝置、記憶體、及處理電路，被編程(及/或另外被配置)以回應被判斷提示至其的資料而執行本發明方法(或其步驟)的實施例。

本發明之實施例可在硬體、韌體、或軟體、或兩者之組合(例如，可編程邏輯陣列)中實現。除非另有規定，否則被包括作為本發明之一部分的演算法或處理並非固有地與任何特定電腦或其他裝置相關。尤其是，各種通用機器可以與依據本文之教示所編寫的程式碼一起使用，或者可以更方便的建構更專用的設備(例如，積體電路)來執行所需的方法步驟。因此，可在一或多個電腦程式中實施本發明，該一或多個電腦程式執行在一或多個可編程的電腦系統上(例如，圖1的任何元件、或圖2的編碼器100(或其元件)、或圖3的解碼器200(或其元件)、或圖4的解碼器210(或其元件)、或圖5的解碼器400(或其元件)的實施方式)，該一或多個可編程的電腦系統各包含至少一個處理器、至少一個資料儲存系統(包括揮發性或非揮發性記憶體及/或儲存元件)、至少一個輸入裝置或埠、及至少一個輸出裝置或埠。程式碼被應用到輸入資料，用以執行本文所述之功能，並產生輸出資訊。該輸出資訊以已知的方式被應用至一或多個輸出裝置。

每個此種程式可以以任何期望的電腦語言(包括機器語言、組合語言、或高階程序語言、邏輯語言、或物件導向程式語言)來實施，用以與電腦系統通訊。在任何情況下，該語言可以是編譯語言或是解釋語言。

例如，當由電腦軟體指令序列來實施時，本發明之實施例的各種功能及步驟可以由在適當的數位訊號處理硬體中運行的多緒軟體指令序列來實施，在此情況下，實施例的各種裝置、步驟、及功能可對應於軟體指令的部分。

每個此種電腦程式較佳地被儲存在或下載至通用或專用可編程的電腦可讀的儲存媒體或裝置(例如，固態記憶體或媒體、或磁或光學媒體)，用於當該儲存媒體或裝置由該電腦系統讀取以執行本文所述的程序時，配置及操作該電腦。本發明系統亦可實施作為電腦可讀取儲存媒體，其配置有(即，儲存)電腦程式，其中如此配置的儲存媒體使得電腦系統以特定且預定的方式操作以執行本文所述的功能。

已描述了本發明之多個實施例。然而，將被理解的是，可在不悖離本發明之精神和範圍的前提下作出各種修改。按照上述教示，本發明的許多修改和變型是可能的。應當理解的是，在所附申請專利範圍的範圍內，可以有別於本文所具體描述之方式實施本發明。包含在以下申請專利範圍中的任何標號僅用於說明的目的，不應當用於以任何方式解釋或限制申請專利範圍。

200:解碼器

201:緩衝器記憶體

202:音訊解碼子系統

203:eSBR處理級

204:控制位元產生級

205:位元流負載去格式化器(剖析器)

300:後處理器

301:緩衝器記憶體(緩衝器)

Claims

一種音訊處理單元，包含：位元流負載去格式化器，被配置成將經編碼的音訊位元流的區塊解多工；解碼子系統，耦合至該位元流負載去格式化器，且被配置成將該經編碼的音訊位元流的該區塊的至少一部分解碼，其中該經編碼的音訊位元流的該區塊包括：填充元素，具有指示該填充元素之起始的識別符，以及在該識別符之後的填充資料，其中該填充資料包括：至少一旗標，識別是否對該經編碼的音訊位元流的至少一個區塊的音訊內容執行頻譜帶複製處理的增強形式，以及增強頻譜帶複製元資料，其不包括用於諧波移調與頻譜修補兩者之一或多參數，其中該增強頻譜帶複製元資料是被配置以致能至少一eSBR工具之元資料，該eSBR工具被描述或提及於MPEG USAC標準中且不被描述或提及於MPEG-4 AAC標準中，其中該增強頻譜帶複製元資料包括指示是否執行預平坦化之參數，以及若該參數指示將要執行預平坦化，則該解碼子系統進一步配置以執行額外預處理，以避免被輸入至包絡調整器的高頻訊號的頻譜包絡的形狀中的不連續。
如申請專利範圍第1項之音訊處理單元，其中該經編碼的音訊位元流是MPEG-4 AAC位元流。
如申請專利範圍第1項之音訊處理單元，其中該識別符為三位元無正負號整數，最高有效位元傳輸在先且具有0×6的值。
如申請專利範圍第1項之音訊處理單元，其中該填充資料包括擴充負載，該擴充負載包括頻譜帶複製擴充資料，且使用最高有效位元傳輸在先且具有‘1101’或‘1110’的值的四位元無正負號整數來識別該擴充負載，並且，其中該頻譜帶複製擴充資料包括：頻譜帶複製標頭，在該標頭之後的頻譜帶複製資料，以及在該頻譜帶複製資料之後的頻譜帶複製擴充元素，且其中該旗標係包含在該頻譜帶複製擴充元素中。
一種用於將經編碼的音訊位元流解碼之方法，該方法包含：將該經編碼的音訊位元流之區塊解多工；以及將該經編碼的音訊位元流的該區塊的至少一部分解碼，其中該經編碼的音訊位元流的該區塊包括：填充元素，具有指示該填充元素之起始的識別符，以及在該識別符之後的填充資料，其中該填充資料包括：旗標，識別是否對該經編碼的音訊位元流的至少一個區塊的音訊內容執行頻譜帶複製處理的增強形式，以及增強頻譜帶複製元資料，其不包括用於諧波移調與頻譜修補兩者之一或多參數，其中該增強頻譜帶複製元資料是被配置以致能至少一eSBR工具之元資料，該eSBR工具被描述或提及於MPEG USAC標準中且不被描述或提及於MPEG-4 AAC標準中，以及其中該增強頻譜帶複製元資料包括指示是否執行預平坦化之參數，以及若該參數指示將要執行預平坦化，則執行額外預處理，以避免被輸入至包絡調整器的高頻訊號的頻譜包絡的形狀中的不連續。
如申請專利範圍第5項之方法，其中該識別符為三位元無正負號整數，最高有效位元傳輸在先且具有0×6的值。
如申請專利範圍第5項之方法，其中該填充資料包括擴充負載，該擴充負載包括頻譜帶複製擴充資料，且使用最高有效位元傳輸在先且具有‘1101’或‘1110’的值的四位元無正負號整數來識別該擴充負載，並且，其中該頻譜帶複製擴充資料包括：頻譜帶複製標頭，在該標頭之後的頻譜帶複製資料，以及在該頻譜帶複製資料之後的頻譜帶複製擴充元素，且其中該旗標係包含在該頻譜帶複製擴充元素中。
如申請專利範圍第5項之方法，其中該經編碼的音訊位元流是MPEG-4 AAC位元流。