TWI405187B

TWI405187B - 可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體

Info

Publication number: TWI405187B
Application number: TW097142529A
Authority: TW
Inventors: Yuriy Reznik; Pengjun Huang; Naveen B Srinivasamurthy; Ravi Kiran Chivukula
Original assignee: Qualcomm Inc
Priority date: 2007-11-04
Filing date: 2008-11-04
Publication date: 2013-08-11
Also published as: IL205375A0; CA2703700A1; KR101139172B1; US8515767B2; CN101849258B; TW200935403A; EP2220645A1; AU2008318328A1; KR20100086031A; JP5722040B2; US20090240491A1; CN101849258A; WO2009059333A1; RU2437172C1; JP2011503653A; MX2010004823A

Description

可縮放語音及音訊編碼解碼器、包括可縮放語音及音訊編碼解碼器之處理器、及用於可縮放語音及音訊編碼解碼器之方法及機器可讀媒體

以下描述大體而言係關於編碼器及解碼器，且詳言之係關於寫碼修改式離散餘弦變換(MDCT)頻譜作為可縮放語音及音訊編碼解碼器之部分的有效方式。

根據35 U.S.C. §119規定主張優先權

本專利申請案主張2007年11月4申請之名為"在可縮放語音及音訊編碼解碼器中以經量化之修改式離散餘弦變換(MDCT)頻譜編碼/解碼的低複雜性技術(Low-Complexity Technique for Encoding/Decoding of Quantized MDCT Spectrum in Scalable Speech+Audio Codecs)"的美國臨時申請案第60/985,263號之優先權，該案已讓與給其受讓人且特此以引用的方式明確地併入本文中。

音訊寫碼之一目標為將音訊信號壓縮為所要的有限資訊數量，同時儘可能多地保持原始聲音品質。在編碼過程中，將時域中之音訊信號變換為頻域。

諸如MPEG層3(MP3)、MPEG-2及MPEG-4之感知音訊寫碼技術利用人耳之信號遮蔽性質以減少資料量。藉由如此執行，以量化雜訊由主要總信號遮蔽(亦即，其保持無聲)之方式將量化雜訊分派至頻帶。相當多的儲存大小減少係可能的，同時具有少量或不具有音訊品質之可感知損耗。感知音訊寫碼技術常常係可縮放的且產生具有基礎層或核心層及至少一增強層之分層位元流。此允許位元速率可縮放性，亦即，在解碼器側以不同音訊品質等級解碼或藉由訊務塑形或調節在網路中減小位元速率。

碼激勵線性預測(CELP)為一類演算法，包括代數CELP(ACELP)、鬆弛CELP(RCELP)、低延遲(LD-CELP)及向量和激勵線性預測(VSELP)，其廣泛用於語音寫碼。支持CELP之一原理稱作合成分析(AbS)且意謂藉由在封閉迴路中感知地最佳化解碼(合成)信號來執行編碼(分析)。理論上，將藉由嘗試所有可能位元組合及選擇產生最佳發聲解碼信號之位元組合來產生最佳CELP流。此實務上因為兩個原因明顯係不可能的：實施起來將非常複雜及"最佳發聲"選擇準則暗示人類收聽器。為了使用有限的計算資源達成即時編碼，將CELP搜尋分解為使用感知加權函數之較小、更易管理的順序搜尋。通常，編碼包括(a)計算及/或量化(通常成線頻譜對)輸入音訊信號之線性預測寫碼係數，(b)使用碼簿來搜尋最佳匹配以產生寫碼信號，(c)產生係寫碼信號與實際輸入信號之間的差之誤差信號，及(d)在一或多個層中進一步編碼此誤差信號(通常以MDCT頻譜)以改良重新建構或合成信號之品質。

許多不同技術可用於實施基於CELP演算法之語音及音訊編碼解碼器。在此等技術中之一些中，產生誤差信號，該誤差信號隨後被變換(通常使用DCT、MDCT或類似變換)及編碼以進一步改良編碼信號之品質。然而，歸因於許多行動器件及網路之處理及頻寬限制，此MDCT頻譜寫碼之有效實施需要減小被儲存或傳輸之資訊的大小。

下文呈現一或多個實施例之簡化概述以提供對一些實施例之基本理解。此概述並非所有預期實施例之廣泛綜述，且既不意欲識別所有實施例之關鍵或重要要素，亦不意欲描繪任何或所有實施例之範疇。其唯一目的在於以簡化形式呈現一或多個實施例之一些概念，以作為稍後呈現之更詳細描述的序言。

在一實例中，提供一種可縮放語音及音訊編碼器。可獲得來自基於碼激勵線性預測(CELP)之編碼層的剩餘信號，其中剩餘信號為原始音訊信號與原始音訊信號之重新建構版本之間的差。可在離散餘弦變換(DCT)型變換層處變換剩餘信號以獲得相應變換頻譜。DCT型變換層可為修改式離散餘弦變換(MDCT)層且變換頻譜為MDCT頻譜。變換頻譜可接著被分為複數個頻譜帶，每一頻譜帶具有複數個頻譜線。在一些實施中，可在編碼之前丟棄一組頻譜帶以減少頻譜帶之數目。接著選擇複數個不同碼簿以用於編碼頻譜帶，其中碼簿具有相關聯碼簿索引。使用選定碼簿對每一頻譜帶中之頻譜線執行向量量化以獲得向量量化索引。

編碼碼簿索引且亦編碼向量量化索引。在一實例中，編碼碼簿索引可包括將至少兩個鄰近頻譜帶編碼為基於鄰近頻譜帶之量化特性之機率分布的成對描述符代碼。編碼該至少兩個鄰近頻譜帶可包括：(a)掃描鄰近對頻譜帶以確定其特性，(b)識別頻譜帶中之每一者的碼簿索引，及/或(c)獲得每一碼簿索引之描述符分量及擴展碼分量。成對地編碼第一描述符分量及第二描述符分量以獲得成對描述符代碼。可將該成對描述符代碼映射至不同碼簿之複數個可能可變長度碼(VLC)中的一者。可基於音訊訊框內之每一相應頻譜帶的相對位置及編碼器層數而將VLC碼簿指派給每一對描述符分量。成對描述符代碼可基於每一對描述符中描述符值之典型機率分布的量化集合。單一描述符分量可用於大於值k之碼簿索引，且擴展碼分量用於大於值k之碼簿索引。在一實例中，每一碼簿索引與一描述符分量相關聯，該描述符分量係基於可能碼簿索引之分布的統計分析，其中碼簿索引具有經選擇以被指派個別描述符分量之較大機率且碼簿索引具有經選擇以被分群及指派給單一描述符之較小機率。

接著形成經編碼之碼簿索引及經編碼之向量量化索引的位元流以表示經量化之變換頻譜。

亦提供一種可縮放語音及音訊解碼器。獲得具有複數個經編碼之碼簿索引及複數個經編碼之向量量化索引的位元流，該等索引表示剩餘信號之經量化之變換頻譜，其中剩餘信號為來自基於碼激勵線性預測(CELP)之編碼層的原始音訊信號與原始音訊信號之重新建構版本之間的差。接著解碼複數個經編碼之碼簿索引以獲得複數個頻譜帶之經解碼的碼簿索引。類似地，亦解碼複數個經編碼之向量量化索引以獲得複數個頻譜帶之經解碼的向量量化索引。可接著使用經解碼之碼簿索引及經解碼之向量量化索引來合成複數個頻譜帶以在逆離散餘弦變換(IDCT)型逆變換層處獲得剩餘信號之重新建構版本。IDCT型變換層可為逆修改式離散餘弦變換(IMDCT)層且變換頻譜為IMDCT頻譜。

複數個經編碼之碼簿索引可由成對描述符代碼表示，該成對描述符代碼表示音訊訊框之複數個鄰近變換頻譜頻譜帶。成對描述符代碼可基於鄰近頻譜帶之量化特性的機率分布。將該成對描述符代碼映射至不同碼簿之複數個可能可變長度碼(VLC)中的一者。可基於音訊訊框內之每一相應頻譜帶的相對位置及編碼器層數而將VLC碼簿指派給每一對描述符分量。

在一實例中，解碼複數個經編碼之碼簿索引可包括：(a)獲得對應於複數個頻譜帶中之每一者的描述符分量，(b)獲得對應於複數個頻譜帶中之每一者的擴展碼分量，(c)基於描述符分量及擴展碼分量獲得對應於複數個頻譜帶中之每一者的碼簿索引分量，及/或(d)利用碼簿索引以合成對應於複數個頻譜帶中之每一者之每一分量的頻譜帶。描述符分量可與碼簿索引相關聯，該描述符分量係基於可能碼簿索引之分布的統計分析，其中碼簿索引具有經選擇以被指派個別描述符分量之較大機率且碼簿索引具有經選擇以被分群及指派給單一描述符之較小機率。單一描述符分量可用於大於值k之碼簿索引，且擴展碼分量用於大於值k之碼簿索引。成對描述符代碼可基於每一對描述符中描述符值之典型機率分布的量化集合。

各種特徵、本質及優點可自下文在結合圖式考慮時所闡述之實施方式變得顯而易見，其中通篇中相似參考字元相應地識別。

現參看圖式描述各種實施例，其中通篇中相似參考數字用以指代相似元件。在以下描述中，為達成解釋之目的，闡述眾多特定細節以提供對一或多個實施例之透徹理解。然而，可顯而易見，可在無此等特定細節之情況下實踐此(等)實施例。在其他情況下，以方塊圖形式展示熟知結構及器件以有助於描述一或多個實施例。

概述

在寫碼之多個層用以迭代地編碼音訊信號之用於編碼/解碼音訊信號的可縮放編碼解碼器中，修改式離散餘弦變換可用於一或多個寫碼層中，其中音訊信號剩餘物被變換(例如，成MDCT域)以用於編碼。在MDCT域中，可將頻譜線之訊框分為複數個頻帶。每一頻譜帶可由碼簿索引有效地編碼。可將碼簿索引進一步編碼為具有擴展碼之描述符的小集合，且可將鄰近頻譜帶之描述符進一步編碼為成對描述符代碼，其認識到一些碼簿索引及描述符具有比其他碼簿索引及描述符高之機率分布。另外，亦基於變換頻譜內之相應頻譜帶的相對位置以及編碼器層數來編碼碼簿索引。

在一實例中，一組嵌入式代數向量量化器(EAVQ)用於MDCT頻譜之n點頻帶的寫碼。可將向量量化器無損耗地壓縮為界定速率及碼簿數目之用以編碼每一n點頻帶的索引。可使用一組表示鄰近頻譜帶之成對碼簿索引的內容可選擇霍夫曼碼來進一步編碼碼簿索引。對於索引之較大值，進一步的一元編碼擴展可進一步用以表示描述符值，該等描述符值表示碼簿索引。

通信系統

圖1為說明可實施一或多個寫碼特徵之通信系統的方塊圖。寫碼器102接收傳入之輸入音訊信號104且產生經編碼之音訊信號106。可經由傳輸頻道(例如，無線或有線的)將經編碼之音訊信號106傳輸至解碼器108。解碼器108試圖基於經編碼之音訊信號106而重新建構輸入音訊信號104以產生經重新建構之輸出音訊信號110。為達成說明之目的，寫碼器102可在傳輸器器件上操作，而解碼器器件可在接收器件上操作。然而，應瞭解，任何此等器件可包括編碼器與解碼器兩者。

圖2為說明根據一實例之可經組態以執行有效音訊寫碼之傳輸器件202的方塊圖。輸入音訊信號204由麥克風206俘獲、由放大器208放大，並由A/D變換器210變換為數位信號，該數位信號被發送至語音編碼模組212。語音編碼模組212經組態以執行輸入信號之多層(經縮放的)寫碼，其中至少一此層涉及編碼MDCT頻譜中之剩餘物(誤差信號)。語音編碼模組212可如結合圖4、圖5、圖6、圖7、圖8、圖9及圖10所解釋而執行編碼。可將來自語音編碼模組212之輸出信號發送至執行頻道解碼所在之傳輸路徑編碼模組214且將所得輸出信號發送至調變電路216並加以調變以經由D/A變換器218及RF放大器220將其發送至天線222以用於經編碼之音訊信號224的傳輸。

圖3為說明根據一實例之可經組態以執行有效音訊解碼之接收器件302的方塊圖。經編碼之音訊信號304由天線306接收且由RF放大器308放大且經由A/D變換器310發送至解調變電路312以使得經解調變之信號經供應至傳輸路徑解碼模組314。將來自傳輸路徑解碼模組314之輸出信號發送至語音解碼模組316，語音解碼模組316經組態以執行輸入信號之多層(經縮放的)解碼，其中至少一此層涉及解碼IMDCT頻譜中之剩餘物(誤差信號)。語音解碼模組316可如結合圖11、圖12及圖13所解釋而執行信號解碼。將來自語音解碼模組316之輸出信號發送至D/A變換器318。經由放大器320將來自D/A變換器318之類比語音信號發送至揚聲器322以提供經重新建構之輸出音訊信號324。

可縮放音訊編碼解碼器架構

可將寫碼器102(圖1)、解碼器108(圖1)、語音/音訊編碼模組212(圖2)及/或語音/音訊解碼模組316(圖3)實施為可縮放音訊編碼解碼器。可實施此可縮放音訊編碼解碼器以提供用於易產生誤差的電信頻道之高效能寬頻語音寫碼，與高品質的經遞送之經編碼窄頻語音信號或寬頻音訊/音樂信號。可縮放音訊編碼解碼器之一方法為提供迭代的編碼層，其中在隨後層中編碼來自一層之誤差信號(剩餘物)以進一步改良在先前層中編碼之音訊信號。舉例而言，碼簿激勵線性預測(CELP)係基於線性預測寫碼之概念，其中將不同激勵信號之碼簿維持在編碼器及解碼器上。編碼器發現最適合的激勵信號且將其相應索引(來自固定、代數及/或自適應碼簿)發送至解碼器，解碼器接著使用其以再生信號(基於碼簿)。編碼器藉由編碼且接著解碼音訊信號以產生經重新建構或合成之音訊信號來執行合成分析。編碼器接著發現最小化誤差信號(亦即，原始音訊信號與經重新建構或合成之音訊信號之間的差)之能量的參數。可藉由使用更多或更少寫碼層來調整輸出位元速率以滿足頻道需求及所要的音訊品質。此可縮放音訊編碼解碼器可包括若干層，其中可廢除較高層位元流而不影響較低層之解碼。

使用此多層架構之現有可縮放編碼解碼器的實例包括ITU-T推薦G.729.1及新興ITU-T標準，以代碼命名之G.EV-VBR。舉例而言，可將嵌入式可變位元速率(EV-VBR)編碼解碼器實施為多層L1(核心層)至LX(其中X為最高擴展層之數目)。此編碼解碼器可接受以16kHz取樣之寬頻(WB)信號與以8kHz取樣之窄頻(NB)信號兩者。類似地，編碼解碼器輸出可為寬頻或窄頻的。

在表1中展示編碼解碼器(例如，EV-VBR編碼解碼器)之層結構的實例，其包含五層；稱作L1(核心層)至L5(最高擴展層)。較低兩個層(L1及L2)可基於碼激勵線性預測(CELP)演算法。核心層L1可自可變多速率寬頻(VMR-WB)語音寫碼演算法導出且可包含為不同輸入信號最佳化之若干寫碼模式。亦即，核心層L1可分類輸入信號以更好地模型化音訊信號。來自核心層L1之寫碼誤差(剩餘物)由增強或擴展層L2基於自適應碼簿及固定代數碼簿而編碼。來自層L2之誤差信號(剩餘物)可進一步由較高層(L3-L5)在變換域中使用修改式離散餘弦變換(MDCT)來寫碼。可在層L3中發送旁側資訊(side information)以增強訊框擦除隱藏(FEC)。

核心層L1編碼解碼器本質上為基於CELP之編碼解碼器，且可與諸如自適應多速率(AMR)、AMR寬頻(AMR-WB)、可變多速率寬頻(VMR-WB)、增強型可變速率編碼解碼器(EVRC)或EVR寬頻(EVRC-WB)編碼解碼器之多個熟知窄頻或寬頻聲碼器中的一者相容。

可縮放編碼解碼器中之層2可使用碼簿以進一步最小化來自核心層L1之感知加權寫碼誤差(剩餘物)。為了增強編碼解碼器訊框擦除隱藏(FEC)，旁側資訊可經計算並傳輸於隨後層L3中。獨立於核心層寫碼模式，旁側資訊可包括信號分類。

假定對於寬頻輸出，基於修改式離散餘弦變換(MDCT)或類似類型之變換，使用重疊相加變換寫碼來寫碼在層L2編碼之後的加權誤差信號。亦即，對於寫碼層L3、L4及/或L5，可在MDCT頻譜中編碼信號。因此，提供在MDCT頻譜中寫碼信號之有效方式。

編碼器實例

圖4為根據一實例之可縮放編碼器402的方塊圖。在編碼之前的預處理階段中，輸入信號404經高通濾波406以抑制不良低頻率分量以產生經濾波之輸入信號S_HP (n)。舉例而言，高通濾波器406可對於寬頻輸入信號具有25Hz截止且對於窄頻輸入信號具有100Hz截止。經濾波之輸入信號S_HP (n)接著由重取樣模組408重取樣以產生經重取樣之輸入信號S_12.8 (n)。舉例而言，原始輸入信號404可在16kHz下被取樣且重取樣至12.8kHz，12.8kHz可為用於層L1及/或L2編碼之內部頻率。預強調模組410接著應用第一級高通濾波器以強調經重取樣之輸入信號S_12.8 (n)的較高頻率(及衰減低頻率)。所得信號接著傳遞至可基於一基於碼激勵線性預測(CELP)之演算法執行層L1及/或L2編碼的編碼器/解碼器模組412，其中語音信號由穿過線性預測(LP)合成濾波器的表示頻譜包絡之激勵信號來模型化。可為每一感知臨界頻帶計算信號能量且將其用作層L1及L2編碼之部分。另外，經編碼之編碼器/解碼器模組412亦可合成(重新建構)輸入信號之版本。亦即，在編碼器/解碼器模組412編碼輸入信號後，其解碼輸入信號且解強調模組416及重取樣模組418重新建構輸入信號404之版本。藉由取得原始信號S_HP (n)與經重新建構之信號之間的差420(亦即，)而產生剩餘信號x ² (n )。剩餘信號x ₂ (n )接著由加權模組424感知地加權且由MDCT變換模組428變換為MDCT頻譜或域以產生剩餘信號X ₂ (k 。在執行此變換之過程中，可在樣本之區塊(稱作訊框)中分割信號，且每一訊框可由線性正交變換(例如，離散傅立葉變換或離散餘弦變換)處理以產生變換係數，接著可量化變換係數。

接著將剩餘信號X ₂ (k )提供至頻譜編碼器432，頻譜編碼器432編碼剩餘信號X ₂ (k )以產生層L3、L4及/或L5之編碼參數。在一實例中，頻譜編碼器432產生表示剩餘信號X ₂ (k )中之非零頻譜線(脈衝)的索引。

可將來自層L1至L5之參數發送至傳輸器及/或儲存器件436以充當輸出位元流，該輸出位元流可隨後用以在解碼器處重新建構或合成原始輸入信號404之版本。

層1-分類編碼： 核心層L1可實施於編碼器/解碼器模組412處且可使用信號分類及四個相異寫碼模式以改良編碼效能。在一實例中，可經考慮用於每一訊框之不同編碼的此等四個相異信號種類可包括：(1)用於無聲語音訊框之無聲寫碼(UC)，(2)藉由平滑音高進化而為準週期區段最佳化之有聲寫碼(VC)，(3)在經設計以在訊框擦除之狀況下最小化誤差傳播之聲音起始之後用於訊框的轉變模式(TC)，及(4)用於其他訊框之一般寫碼(GC)。在無聲寫碼(UC)中，不使用自適應碼簿且自高斯(Gaussian)碼簿選擇激勵。藉由有聲寫碼(VC)模式編碼準週期區段。有聲寫碼選擇由平滑音高進化來調節。有聲寫碼模式可使用ACELP技術。在轉變寫碼(TC)訊框中，含有第一音高週期之聲門脈衝之子訊框中的自適應碼簿可用固定碼簿來替代。

在核心層L1中，可藉由穿過線性預測(LP)合成濾波器的表示頻譜包絡之激勵信號使用基於CELP之範例來模型化信號。可使用一般及有聲寫碼模式之安全網方法及多級向量量化(MSVQ)在導抗頻譜頻率(ISF)域中量化LP濾波器。藉由音高追蹤演算法執行開放迴路(OL)音高分析以確保平滑音高輪廓。然而，為了增強音高估計之穩固性，可比較兩個併發音高進化輪廓且選擇產生較平滑輪廓之軌跡。

使用20ms分析窗在多數模式中估計及編碼每一訊框之兩組LPC參數，一組用於訊框末端且一組用於中間訊框。藉由內插分裂VQ編碼中間訊框ISF，其中為每一ISF子群發現線性內插係數，以使得最小化經估計之ISF與經內插量化之ISF之間的差。在一實例中，為了量化LP係數之ISF表示，可並行地搜尋兩個碼簿集合(對應於弱的及強的預測)以發現最小化經估計之頻譜包絡之失真的預測子及碼簿項。此安全網方法之主要原因在於在訊框擦除與頻譜包絡正迅速進化所在之區段相符時減少誤差傳播。為了提供額外誤差穩固性，有時將弱的預測子設定為零，此導致在不預測之情況下量化。可在不具有預測之路徑的量化失真充分接近於具有預測之路徑時，或在其量化失真足夠小以提供透明寫碼時，始終選擇不具有預測之路徑。另外，在強預測性碼簿搜尋中，若次最佳的碼向量不影響乾淨頻道效能但被預期在存在訊框擦除之情況下減少誤差傳播，則選擇此次最佳的碼向量。在不預測之情況下進一步系統地量化UC及TC訊框之ISF。對於UC訊框，充足位元可用於甚至在不預測之情況下允許極好的頻譜量化。儘管乾淨頻道效能潛在地減少，但TC訊框被認為對用於待使用之預測的訊框擦除過於敏感。

對於窄頻(NB)信號，使用藉由未經量化之最佳增益產生的L2激勵來執行音高估計。此方法移除增益量化之效應且改良跨越層之音高滯後估計。對於寬頻(WB)信號，使用標準音高估計(具有經量化之增益的L1激勵)。

層2-增強編碼： 在層L2中，編碼器/解碼器模組412可再次使用代數碼簿來編碼來自核心層L1之量化誤差。在L2層中，編碼器進一步修改自適應碼簿以不僅包括過去的L1基值(contribution)，而且包括過去的L2基值。自適應音高滯後在L1與L2中相同以維持該等層之間的時間同步。接著再最佳化對應於L1及L2之自適應及代數碼簿增益以最小化感知加權寫碼誤差。相對於在L1中已量化之增益而預測性地向量量化經更新的L1增益及L2增益。CELP層(L1及L2)可在內部(例如，12.8kHz)取樣速率下操作。來自層L2之輸出由此包括在0-6.4kHz頻帶中編碼的合成信號。對於寬頻輸出，AMR-WB頻寬擴展可用以產生遺漏的6.4-7kHz頻寬。

層3-訊框擦除隠藏： 為了增強訊框擦除條件(FEC)之效能，訊框誤差隱藏模組414可自編碼器/解碼器模組412獲得旁側資訊且使用其以產生層L3參數。旁側資訊可包括所有寫碼模式之類別資訊。亦可傳輸先前訊框頻譜包絡資訊以用於核心層轉變寫碼。對於其他核心層寫碼模式，亦可發送合成信號之相位資訊及音高同步能量。

層3、4、5-變換寫碼： 可使用MDCT或具有重疊相加結構之類似變換在層L3、L4及L5中量化由層L2中之第二級CELP寫碼產生的剩餘信號X ₂ (k )。亦即，來自先前層之剩餘或"誤差"信號由隨後層使用以產生其參數(其設法有效地表示用於傳輸至解碼器之此誤差)。

可藉由使用若干技術來量化MDCT係數。在一些情況下，使用可縮放代數向量量化來量化MDCT係數。可每隔20毫秒(ms)計算MDCT，且在8維區塊中量化其頻譜係數。應用自原始信號之頻譜導出的音訊清潔器(MDCT域雜訊塑形濾波器)。在層L3中傳輸全域增益。此外，少數位元用於高頻補償。剩餘層L3位元用於MDCT係數之量化。使用層L4及L5位元，以使得在層L4及L5級處獨立地最大化效能。

在一些實施中，可對於語音及音樂佔優勢的音訊內容不同地量化MDCT係數。語音內容與音樂內容之間的區別係基於藉由比較L2加權合成MDCT分量與相應輸入信號分量而對CELP模型效率的估定。對於語音佔優勢的內容，將可縮放代數向量量化(AVQ)用於L3及L4中，其中在8維區塊中量化頻譜係數。將全域增益傳輸於L3中且少數位元用於高頻補償。剩餘L3及L4位元用於MDCT係數之量化。該量化方法為多速率晶格VQ(MRLVQ)。基於多級排列之新穎演算法已用以減少索引化程序之複雜性及記憶體成本。在若干步驟中執行秩計算：首先，將輸入向量分解成正負號向量及絕對值向量。其次，將絕對值向量進一步分解成若干級。最高級向量為原始絕對值向量。藉由自上級向量移除最頻繁元素而獲得每一下級向量。基於排列與組合函數而索引化與上級向量相關之每一下級向量的位置參數。最後，所有下級之索引及正負號構成輸出索引。

對於音樂佔優勢的內容，可在層L3中使用頻帶選擇性形狀-增益向量量化(形狀-增益VQ)，且可將額外脈衝位置向量量化器應用於層L4。在層L3中，可首先藉由計算MDCT係數之能量來執行頻帶選擇。接著，使用多脈衝碼簿來量化選定頻帶中之MDCT係數。向量量化器用以量化頻帶之MDCT係數(頻譜線)的頻帶增益。對於層L4，使用脈衝定位技術來寫碼整個頻寬。在語音模型歸因於音訊源模型失配而產生不符合需要之雜訊的情況下，可衰減L2層輸出之特定頻率以允許更進取地寫碼MDCT係數。藉由最小化輸入信號之MDCT與穿過層L4之經寫碼音訊信號之MDCT之間的均方誤差而以封閉迴路方式來執行此。所應用之衰減量可達至6dB，可藉由使用2個或更少位元來傳達其。層L5可使用額外脈衝位置寫碼技術。

MDCT頻譜之寫碼

因為層L3、L4及L5在MDCT頻譜中執行寫碼(例如，MDCT係數表示先前層之剩餘物)，所以需要此MDCT頻譜寫碼為有效的。因此，提供MDCT頻譜寫碼之有效方法。

圖5為說明可在編碼器之較高層處實施之實例MDCT頻譜編碼過程的方塊圖。編碼器502獲得來自先前層之剩餘信號504的輸入MDCT頻譜。此剩餘信號504可為原始信號與原始信號之重新建構版本(例如，自原始信號之經編碼版本重新建構)之間的差。可量化剩餘信號之MDCT係數以產生給定音訊訊框之頻譜線。

在一實例中，MDCT頻譜504可為在應用CELP核心(層1及2)後誤差信號之完整MDCT頻譜，或在此程序之先前應用後剩餘的MDCT頻譜。亦即，在層3處，來自層1及2之剩餘信號的完整MDCT頻譜經接收且部分地編碼。接著在層4處，來自層3之信號的MDCT頻譜剩餘物經編碼，等等。

編碼器502可包括頻帶選擇器508，頻帶選擇器508將MDCT頻譜504分割或分裂成複數個頻帶，其中每一頻帶包括複數個頻譜線或變換係數。頻帶能量估計器510可接著在頻帶中之一或多者中提供能量估計。感知頻帶分級模組512可感知地分級每一頻帶。感知頻帶選擇器514可接著決定編碼一些頻帶，同時迫使其他頻帶為全零值。舉例而言，可編碼展現高於臨限值之信號能量的頻帶，同時可將具有低於此臨限值之信號能量的頻帶迫使為全零。舉例而言，可根據感知遮蔽及其他人類音訊敏感性現象來設定此臨限值。在無此概念之情況下，吾人將要執行此的原因並非顯而易見。碼簿索引及速率分配器516可接著確定選定頻帶之碼簿索引及速率分配。亦即，對於每一頻帶，最佳地表示頻帶之碼簿被確定且由索引識別。碼簿之"速率"規定由碼簿達成之壓縮的量。向量量化器518接著將每一頻帶之複數個頻譜線(變換係數)量化為表徵經量化之頻譜線(變換係數)的向量量化(VQ)值(量值或增益)。

在向量量化中，若干樣本(頻譜線或變換係數)一起成塊為向量，且用碼簿之一項近似(量化)每一向量。經選擇以量化輸入向量(表示頻帶中之頻譜線或變換係數)之碼簿項通常為根據距離準則之碼簿空間中的最近鄰域。舉例而言，一或多個質心可用以表示碼簿之複數個向量。接著比較表示頻帶之輸入向量與碼簿質心以確定哪個碼簿(及/或碼簿向量)提供最小距離量測(例如，歐幾里德(Euclidean)距離)。具有最靠近距離之碼簿用以表示頻帶。在碼簿中添加更多項增加位元速率及複雜性但減少平均失真。碼簿項常常被稱作碼向量。

因此，編碼器502可將MDCT頻譜504編碼成一或多個碼簿索引(nQ)526、向量量化值(VQ)528，及/或可用以重新建構剩餘信號504之MDCT頻譜之版本的其他音訊訊框及/或頻帶資訊。在解碼器處，所接收之量化索引或多個索引及向量量化值可用以重新建構訊框中之每一頻帶的經量化之頻譜線(變換係數)。接著將逆變換應用於此等經量化之頻譜線(變換係數)以重新建構合成訊框。

注意，可(藉由自原始輸入剩餘信號504減去520剩餘信號Sx_t )獲得可用作編碼之下一層之輸入的輸出剩餘信號522。可藉由(例如)自碼簿索引526及向量量化值528重新建構MDCT頻譜及自輸入MDCT頻譜504減去經重新建構之MDCT頻譜以獲得輸出MDCT頻譜剩餘信號522來獲得此輸出MDCT頻譜剩餘信號522。

根據一特徵，實施向量量化機制，其為由關於聲學、語音及信號處理之IEEE國際會議(ICASSP)(亞特蘭大，GA，美國，第1卷，第240至243頁，1996(Xie,19,96))中的M. Xie及J. -P. Adoul之"Embedded Algebraic Vector Quantization (EAVQ)With Application To Wideband Audio Coding"描述之嵌入式代數向量量化機制的變體。詳言之，可藉由組合兩個或兩個以上順序頻譜帶之索引及利用機率分布以更密實地表示碼索引來有效地表示碼簿索引526。

圖6為說明如何可將MDCT頻譜音訊訊框602分為複數個n點頻帶(或子向量)以有助於MDCT頻譜之編碼的圖式。舉例而言，320頻譜線(變換係數)MDCT頻譜音訊訊框602可分為40個頻帶(子向量)604，每一頻帶604a具有8個點(或頻譜線)。在一些實際情況(例如，根據先驗知識，輸入信號具有較窄的頻譜)中，將最後4至5個頻帶迫使為零可為進一步可能的，此僅留下待編碼之35至36個頻帶。在一些額外情況(例如，在較高層之編碼中)中，跳過某10個下級(低頻率)頻帶可為可能的，由此將待編碼之頻帶的數目進一步減少至僅25至26個。在更通用狀況下，每一層可規定待編碼之頻帶的特定子集，且此等頻帶可與先前編碼之子集重疊。舉例而言，層3頻帶B1至B40可與層4頻帶C1至C40重疊。每一頻帶604可由碼簿索引nQx及向量量化值VQx表示。

向量量化編碼機制

在一實例中，編碼器可利用碼簿之陣列Q_n (n=0,2,3,4,...最大值)，其中相應指派速率為n*4 個位元。假定Q₀ 含有全零向量，且因此無位元被需要傳輸其。此外，不使用索引n =1 ，執行此以減少碼簿之數目。因此可指派給具有非零向量之碼簿的最小速率為2*4=8個位元。為了規定哪個碼簿用於編碼每一頻帶，使用碼簿索引nQ(值n)連同每一頻帶之向量量化(VQ)值或索引。

大體上，每一碼簿索引可由基於可能碼簿索引之分布之統計分析的描述符分量來表示，其中碼簿索引具有經選擇以被指派個別描述符分量之較大機率且碼簿索引具有經選擇以被分群及指派給單一描述符之較小機率。

如較早所指示，該系列可能碼簿索引{n}具有碼簿索引0與索引2之間的不連續性，且繼續至數目最大值，該最大值實際上可大達36。此外，可能值n 之分布的統計分析指示超過90%之所有狀況集中在碼簿索引之小集合n={0,2,3}中。因此，為了編碼值{n }，如表1中所呈現，將其映射在描述符之更緊密集合中可能為有利的。

注意，因為n >=4 之所有值經映射至單一描述符值3，所以此映射並非為雙射的。此描述符值3用作"逸出碼"：其指示將需要使用在描述符後傳輸的擴展碼來解碼碼簿索引n之真值。可能擴展碼之實例為表2中所示之古典一元碼，其可用於>=4之碼簿索引的傳輸。

另外，可成對地編碼描述符，其中每一成對描述符代碼可具有可如表3中所說明而指派之三(3)個可能可變長度碼(VLC)中的一者。

此等成對描述符代碼可基於每一對描述符中之描述符值之典型機率分布的量化集合，且可藉由使用(例如)霍夫曼(Huffman)演算法或碼來建構。

可部分地基於每一頻帶之位置及編碼器/解碼器層數而進行用於每一對描述符之VLC碼簿的選擇。在表4中展示此可能指派之實例，其中基於音訊訊框內之頻譜帶位置(例如，0/1、2/3、4/5、6/7、...)及編碼器/解碼器層數而將VLC碼簿(例如，碼簿0、1或2)指派給頻譜帶。

表4中所說明之實例認識到，在一些情況下，碼簿索引及/或碼簿索引之描述符對的分布可視哪些頻譜帶在音訊訊框內被處理且亦視哪個編碼層(例如，層3、4或5)正執行編碼而變化。因此，所使用之VLC碼簿可視音訊訊框內該對描述符(對應於鄰近頻帶)的相對位置及相應頻帶所屬之編碼層而定。

圖7為說明執行MDCT嵌入式代數向量量化(EAVQ)碼簿索引之編碼的編碼演算法之一實例的流程圖。獲得表示MDCT頻譜音訊訊框之複數個頻譜帶(702)。每一頻譜帶可包括複數個頻譜線或變換係數。掃描順序或鄰近對頻譜帶以確定其特性(704)。基於每一頻譜帶之特性而識別頻譜帶中之每一者的相應碼簿索引(706)。碼簿索引可識別最佳地表示此頻譜帶之特性的碼簿。亦即，對於每一頻帶，擷取表示頻帶中之頻譜線的碼簿索引。另外，獲得每一頻譜帶之向量量化值或索引(708)。此向量量化值可至少部分地將索引提供至碼簿中之選定項(例如，碼簿內之重新建構點)中。在一實例中，接著將碼簿索引中之每一者分割或分裂成描述符分量及擴展碼分量(710)。舉例而言，對於第一碼簿索引，自表1選擇第一描述符。類似地，對於第二碼簿索引，亦自表1選擇第二描述符。大體上，碼簿索引與描述符之間的映射可基於可能碼簿索引之分布的統計分析，其中信號中之大部分頻帶傾向於具有集中在碼簿之小數目(子集)中的索引。接著(例如)基於表3上成對描述符代碼而將鄰近(例如，順序)碼簿索引之描述符分量編碼成對(712)。此等成對描述符代碼可基於每一對中描述符值之典型機率分布的量化集合。如圖4中所說明，可部分地基於每一頻帶之位置及層數而進行用於每一對描述符之VLC碼簿的選擇。另外，(例如)基於表2而獲得每一碼簿索引之擴展碼分量(714)。可接著傳輸或儲存成對描述符代碼、每一碼簿索引之擴展碼分量，及每一頻譜帶之向量量化值(716)。

藉由應用本文中所描述之碼簿索引的編碼機制，與(例如)在G.729音訊壓縮演算法嵌入式變數(EV)-可變位元速率(VBR)編碼解碼器中所使用之先前技術方法相比，可達成大約25至30%位元速率的節省。

實例編碼器

圖8為說明可縮放語音及音訊編碼解碼器之編碼器的方塊圖。編碼器802可包括接收MDCT頻譜音訊訊框801且將其分成複數個頻帶之頻帶產生器，其中每一頻帶可具有複數個頻譜線或變換係數。碼簿選擇器808可接著自複數個碼簿804中之一者選擇碼簿以表示每一頻帶。

視情況，碼簿(CB)索引識別器809可獲得表示特定頻帶之選定碼簿的碼簿索引。描述符選擇器812可接著使用預先建立之碼簿-描述符映射表813以將每一碼簿索引表示為描述符。碼簿索引至描述符之映射可基於可能碼簿索引之分布的統計分析，其中音訊訊框中之大部分頻帶傾向於具有集中在碼簿之小數目(子集)中的索引。

碼簿索引編碼器814可接著編碼選定碼簿之碼簿索引以產生經編碼之碼簿索引818。應瞭解，在語音/音訊編碼模組(例如，圖2之模組212)之變換層處且並非在傳輸路徑編碼模組(例如，圖2之模組214)處編碼此等經編碼之碼簿索引。舉例而言，一對描述符(對於一對鄰近頻帶)可由成對描述符編碼器(例如，碼簿索引編碼器814)編碼成一對，該成對描述符編碼器(例如，碼簿索引編碼器814)可使用描述符對與可變長度碼之間的預先建立之關聯性以獲得成對描述符代碼(例如，經編碼之碼簿索引818)。描述符對與可變長度碼之間的預先建立之關聯性可利用較高機率描述符對之較短長度碼及較低機率描述符對之較長碼。在一些情況下，將複數個碼簿(VLC)映射至單一描述符對可能為有利的。舉例而言，可能發現描述符對之機率分布視編碼器/解碼器層及/或訊框內之相應頻譜帶的位置而變化。因此，可將此等預先建立之關聯性表示為複數個VLC碼簿816，其中基於(在音訊訊框內)被編碼/解碼之該對頻譜帶的位置及編碼/解碼層來選擇特定碼簿。成對描述符代碼可表示在比頻帶之組合碼簿索引或個別描述符少之位元中用於兩個(或兩個以上)連續頻帶的碼簿索引。另外，擴展碼選擇器810可產生擴展碼820以表示可能已在描述符代碼下分群在一起之索引。向量量化器811可產生每一頻譜帶之向量量化值或索引。向量量化索引編碼器815可接著編碼向量量化值或索引中之一或多者以產生經編碼之向量量化值/索引822。可以關於減少用以表示向量量化索引之位元的數目之方式執行向量量化索引的編碼。

可將經編碼之碼簿索引818(例如，成對描述符代碼)、擴展碼820，及/或經編碼之向量量化值/索引822傳輸及/或儲存為MDCT頻譜音訊訊框810之編碼表示。

圖9為說明用於獲得編碼複數個頻譜帶之成對描述符代碼之方法的方塊圖。在一實例中，此方法可在可縮放語音及音訊編碼解碼器中操作。自基於碼激勵線性預測(CELP)之編碼層獲得剩餘信號，其中該剩餘信號為原始音訊信號與原始音訊信號之重新建構版本之間的差(902)。在離散餘弦變換(DCT)型變換層處變換剩餘信號以獲得相應變換頻譜(904)。舉例而言，DCT型變換層可為修改式離散餘弦變換(MDCT)層且變換頻譜為MDCT頻譜。接著將變換頻譜分成複數個頻譜帶，每一頻譜帶具有複數個頻譜線(906)。在一些情況下，可在編碼之前移除頻譜帶中之一些以減少頻譜帶之數目。選擇複數個不同碼簿以用於編碼頻譜帶，其中碼簿具有相關聯碼簿索引(908)。舉例而言，可掃描鄰近或順序對頻譜帶以確定其特性(例如，頻譜帶中之頻譜係數及/或線的一或多個特性)，選擇最佳地表示頻譜帶中之每一者的碼簿，且碼簿索引可經識別及/或與鄰近對頻譜帶中之每一者相關聯。在一些實施中，描述符分量及/或擴展碼分量可經獲得且用以表示每一碼簿索引。接著使用選定碼簿對每一頻譜帶中之頻譜線執行向量量化以獲得向量量化索引(910)。接著編碼選定碼簿索引(912)。在一實例中，可將鄰近頻譜帶之碼簿索引或相關聯描述符編碼為成對描述符代碼，該成對描述符代碼係基於鄰近頻譜帶之量化特性的機率分布。另外，亦編碼向量量化索引(914)。可使用減少用以表示向量量化索引之位元之數目的任何演算法來執行向量量化索引的編碼。可使用經編碼之碼簿索引及經編碼之向量量化索引來形成位元流以表示變換頻譜(916)。

成對描述符代碼可映射至不同碼簿之複數個可能可變長度碼(VLC)中的一者。可基於音訊訊框內之每一相應頻譜帶的位置及編碼器層數而將VLC碼簿指派給每一對描述符分量。成對描述符代碼可基於每一對描述符中描述符值之典型機率分布的量化集合。

在一實例中，每一碼簿索引具有基於可能碼簿索引之分布之統計分析的描述符分量，其中碼簿索引具有經選擇以被指派個別描述符分量之較大機率且碼簿索引具有經選擇以被分群及指派給單一描述符之較小機率。單一描述符值用於大於值k之碼簿索引，且擴展碼分量用於大於值k之碼簿索引。

描述符產生之實例

圖10為說明用於基於機率分布而產生碼簿與描述符之間的映射之方法之一實例的方塊圖。取樣複數個頻譜帶以確定每一頻譜帶之特性(1000)。在歸因於聲音及碼簿定義之本質而認識到更可能利用碼簿之小子集後，可對所關注信號執行統計分析以更有效地指派描述符。因此，使每一經取樣之頻譜帶與複數個碼簿中之一者相關聯，其中相關聯碼簿表示頻譜帶特性中的至少一者(1002)。基於與複數個碼簿中之每一者相關聯的複數個經取樣之頻譜帶而指派每一碼簿之統計機率(1004)。亦指派具有大於臨限機率之統計機率的複數個碼簿中之每一者的相異個別描述符(1006)。接著將單一描述符指派給其他剩餘碼簿(1008)。使擴展碼與指派給單一描述符之碼簿中的每一者相關聯(1010)。因此，此方法可用以獲得頻譜帶之足夠大的樣本(用其來建置表(例如，表1))，該樣本將碼簿索引映射至描述符之較小集合。另外，擴展碼可為如表2中所說明之一元碼。

圖11為說明可如何產生描述符值之實例的方塊圖。對於樣本順序之頻譜帶B0...Bn 1102，碼簿1104經選擇以表示每一頻譜帶。亦即，基於頻譜帶之特性，選擇最精密地表示頻譜帶之碼簿。在一些實施中，每一碼簿可由其碼簿索引1106參考。此過程可用以產生對碼簿之頻譜帶的統計分布。在此實例中，碼簿A(例如，全零碼簿)經選擇用於兩(2)個頻譜帶，碼簿B由一(1)個頻譜帶選擇，碼簿C經選擇用於三(3)個頻譜帶，等等。因此，可識別最頻繁選定碼簿且將相異/個別描述符值"0"、"1"及"2"指派給此等頻繁選定碼簿。剩餘碼簿被指派單一描述符值"3"。對於由此單一描述符"3"表示之頻帶，擴展碼1110可用以更特定地識別由單一描述符(例如，如表2中)所識別之特定碼簿。在此實例中，忽略碼簿B(索引1)以將描述符值之數目減少至四個。四個描述符"0"、"2"、"3"及"4"可經映射且表示至兩個位元(例如，表1)。因為大百分比之碼簿現在由單一兩位元描述符值"3"來表示，所以統計分布之此聚集幫助減少另外將用以表示(假定)36個碼簿(亦即，六個位元)的位元之數目。

注意，圖10及圖11說明可如何將碼簿索引編碼為較少位元之實例。在各種其他實施中，可避免及/或修改"描述符"之概念，同時達成同一結果。

成對描述符代碼產生之實例

圖12為說明用於基於頻譜帶之複數個描述符的機率分布而產生描述符對至成對描述符代碼之映射的方法之一實例的方塊圖。在將複數個頻譜帶映射至描述符值(如在先前所描述)後，確定描述符值對(例如，對於音訊訊框之順序或鄰近頻譜帶)之機率分布。獲得與鄰近頻譜帶(例如，兩個連續頻帶)相關聯之複數個描述符值(例如，兩個)(1200)。獲得不同對描述符值之預期機率分布(1202)。亦即，基於每一對描述符值(例如，0/0、0/1、0/2、0/3、1/0、1/1、1/2、1/3、2/0、2/1...3/3)出現之可能性，可確定最可能描述符對至最不可能描述符對(例如，對於兩個鄰近或順序頻譜帶)的分布。另外，可基於音訊訊框內之特定頻帶的相對位置及特定編碼層(例如，L3、L4、L5等)而收集預期機率分布。接著基於每一對描述符值之預期機率分布及其在音訊訊框中之相對位置及編碼器層而將相異可變長度碼(VLC)指派給每一對描述符值(1204)。舉例而言，較高機率描述符對(對於特定編碼器層及訊框內之相對位置)可比較低機率描述符對被指派更短的碼。在一實例中，霍夫曼寫碼可用以產生可變長度碼，其中較高機率描述符對被指派較短碼且較低機率描述符對被指派較長碼(例如，如在表3中)。

可重複此過程以獲得不同層之描述符機率分布(1206)。因此，不同可變長度碼可用於不同編碼器/解碼器層中之同一描述符對。可利用複數個碼簿以識別可變長度碼，其中哪個碼簿用以加密/解密可變長度碼視被編碼/解碼之每一頻譜帶的相對位置及編碼器層數而定(1208)。在表4中所說明之實例中，可視層及被編碼/解碼之頻帶對的位置而使用不同VLC碼簿。

此方法允許跨越不同編碼器/解碼器層建置描述符對之機率分布，藉此允許將描述符對映射至每一層之可變長度碼。因為最通用(較高機率)描述符對被指派較短碼，所以此減少在編碼頻譜帶時所使用之位元的數目。

MDCT頻譜之解碼

圖13為說明解碼器之一實例的方塊圖。對於每一音訊訊框(例如，20毫秒訊框)，解碼器1302可自接收器或儲存器件1304接收輸入位元流，該輸入位元流含有經編碼之MDCT頻譜之一或多個層的資訊。所接收之層可在層1達至層5之範圍內，其可對應於8千位元/秒至32千位元/秒之位元速率。此意謂解碼器操作由接收於每一訊框中之位元(層)的數目來調節。在此實例中，假定輸出信號1332為WB且所有層已正確地接收於解碼器1302處。核心層(層1)及ACELP增強層(層2)首先由解碼器模組1306解碼且信號合成經執行。合成信號接著由解強調模組1308解強調且由重取樣模組1310重取樣至16kHz以產生信號。後處理模組進一步處理信號以產生層1或層2之合成信號。

接著，由頻譜解碼器模組1316解碼較高層(層3、4、5)以獲得MDCT頻譜信號。MDCT頻譜信號係藉由逆MDCT模組1320予以逆變換且所得信號經添加至層1及層2之感知加權合成信號。接著藉由塑形模組1322應用暫時雜訊塑形。接著將與當前訊框重疊之先前訊框的加權合成信號添加至合成。接著應用逆感知加權1324以恢復經合成之WB信號。最後，音高後置濾波器1326應用於經恢復之信號上，接著高通濾波器1328應用於經恢復之信號上。後置濾波器1326採用藉由MDCT(層3、4、5)之重疊相加合成而引入的額外解碼器延遲。其以最佳方式組合兩個音高後置濾波器信號。一信號為藉由採用額外解碼器延遲而產生之層1或層2解碼器輸出的高品質音高後置濾波器信號。另一信號為較高層(層3、4、5)合成信號之低延遲音高後置濾波器信號。經濾波之合成信號接著由雜訊閘1330輸出。

圖14為說明可有效地解碼成對描述符代碼之解碼器的方塊圖。解碼器1402可接收經編碼之碼簿索引1418。舉例而言，經編碼之碼簿索引1418可為成對描述符代碼及擴展碼1420。成對描述符代碼可表示在比頻帶之組合碼簿索引或個別描述符少之位元中用於兩個(或兩個以上)連續頻帶的碼簿索引。碼簿索引解碼器1414可接著解碼經編碼之碼簿索引1418。舉例而言，碼簿索引解碼器1414可藉由使用由複數個VLC碼簿1416所表示之預先建立的關聯性而解碼成對描述符代碼，其中可基於(在音訊訊框內)被解碼之該對頻譜帶的位置及解碼層而選擇VLC碼簿1416。描述符對與可變長度碼之間的預先建立之關聯性可利用較高機率描述符對之較短長度碼及較低機率描述符對之較長碼。在一實例中，碼簿索引解碼器1414可產生表示兩個鄰近頻譜帶之一對描述符。描述符(對於一對鄰近頻帶)接著由描述符識別器1412解碼，該描述符識別器1412使用基於可能碼簿索引之分布之統計分析而產生的描述符-碼簿索引映射表1413，其中音訊訊框中之大部分頻帶傾向於具有集中在碼簿之小數目(子集)中的索引。因此，描述識別器1412可提供表示相應頻譜帶之碼簿索引。碼簿索引識別器1409接著識別每一頻帶之碼簿索引。另外，擴展碼識別器1410可使用所接收之擴展碼1420以進一步識別已被分群為單一描述符之碼簿索引。向量量化解碼器1411可解碼每一頻譜帶之所接收之經編碼的向量量化值/索引1422。碼簿選擇器1408可接著基於所識別之碼簿索引及擴展碼1420而選擇碼簿以使用向量量化值1422來重新建構每一頻譜帶。頻帶合成器1406接著基於經重新建構之頻譜帶而重新建構MDCT頻譜音訊訊框1401，其中每一頻帶可具有複數個頻譜線或變換係數。

實例解碼方法

圖15為說明用於在可縮放語音及音訊編碼解碼器中解碼變換頻譜之方法的方塊圖。可接收或獲得具有表示剩餘信號之經量化變換頻譜的複數個經編碼之碼簿索引及複數個經編碼之向量量化索引的位元流，其中該剩餘信號為來自基於碼激勵線性預測(CELP)之編碼層的原始音訊信號與原始音訊信號之重新建構版本之間的差(1502)。IDCT型變換層可為逆修改式離散餘弦變換(IMDCT)層且變換頻譜為IMDCT頻譜。接著可解碼複數個經編碼之碼簿索引以獲得複數個頻譜帶之經解碼的碼簿索引(1504)。類似地，可解碼複數個經編碼之向量量化索引以獲得複數個頻譜帶之經解碼的向量量化索引(1506)。

在一實例中，解碼複數個經編碼之碼簿索引可包括：(a)獲得對應於複數個頻譜帶中之每一者的描述符分量；(b)獲得對應於複數個頻譜帶中之每一者的擴展碼分量；(c)基於描述符分量及擴展碼分量獲得對應於複數個頻譜帶中之每一者的碼簿索引分量；(d)利用碼簿索引以合成對應於複數個頻譜帶中之每一者之每一分量的頻譜帶。描述符分量可與碼簿索引相關聯，該描述符分量係基於可能碼簿索引之分布的統計分析，其中碼簿索引具有經選擇以被指派個別描述符分量之較大機率且碼簿索引具有經選擇以被分群及指派給單一描述符之較小機率。單一描述符分量用於大於值k之碼簿索引，且擴展碼分量用於大於值k之碼簿索引。複數個經編碼之碼簿索引可由成對描述符代碼表示，該成對描述符代碼表示音訊訊框之複數個鄰近變換頻譜頻譜帶。成對描述符代碼可基於鄰近頻譜帶之量化特性的機率分布。在一實例中，成對描述符代碼可映射至不同碼簿之複數個可能可變長度碼(VLC)中的一者。可基於音訊訊框內之每一相應頻譜帶的位置及編碼器層數而將VLC碼簿指派給每一對描述符分量。成對描述符代碼可基於每一對描述符中描述符值之典型機率分布的量化集合。

接著可使用經解碼之碼簿索引及經解碼之向量量化索引來合成複數個頻譜帶以在逆離散餘弦變換(IDCT)型逆變換層處獲得剩餘信號之重新建構版本(1508)。

本文中所描述之各種說明性邏輯區塊、模組及電路及演算法步驟可實施或執行為電子硬體、軟體或兩者之組合。為清楚地說明硬體與軟體之此互換性，上文已大體在功能性方面描述了各種說明性組件、區塊、模組、電路及步驟。將此功能性實施為硬體還是軟體視特定應用及強加於整個系統之設計約束而定。注意，可將組態描述為一過程，該過程經描繪為流程圖、流程框圖、結構圖或方塊圖。儘管流程圖可將操作描述為順序過程，但操作中之許多可並行或同時執行。另外，可重排該等操作之次序。當一過程之操作完成時，終止該過程。過程可對應於方法、函數、程序、次常式、次程式等。當過程對應於函數時，其終止對應於該函數至調用函數或主函數的返回。

當以硬體實施時，各種實例可使用通用處理器、數位信號處理器(DSP)、特殊應用積體電路(ASIC)、場可程式化閘陣列信號(FPGA)或其他可程式化邏輯器件、離散閘或電晶體邏輯、離散硬體組件，或其經設計以執行本文中所描述之功能的任何組合。通用處理器可為微處理器，但在替代例中，該處理器可為任何習知處理器、控制器、微控制器或狀態機。處理器亦可實施為計算器件之組合，例如，一DSP與一微處理器之組合、複數個微處理器、一或多個微處理器結合DSP核心，或任何其他此組態。

當以軟體實施時，各種實例可使用韌體、中間軟體或微碼。可將用以執行必要任務之程式碼或碼段儲存於諸如儲存媒體或其他儲存器之電腦可讀媒體中。處理器可執行必要任務。碼段可表示程序、函數、次程式、程式、常式、次常式、模組、套裝軟體、類別，或指令、資料結構或程式語句之任何組合。可藉由傳遞及/或接收資訊、資料、引數、參數或記憶體內容而將一碼段耦接至另一碼段或一硬體電路。資訊、引數、參數、資料等可經由包括記憶體共用、訊息傳遞、符記傳遞、網路傳輸等之任何適合手段來傳遞、轉發或傳輸。

如本申請案中所使用，術語"組件"、"模組"、"系統"及其類似者意欲指代電腦相關實體，其為硬體、韌體、硬體與軟體之組合、軟體或執行中之軟體。舉例而言，組件可為(但不限於)執行於處理器上之處理、處理器、物件、可執行件、執行線緒、程式及/或電腦。借助於說明，執行於計算器件上之應用程式與該計算器件兩者可為一組件。一或多個組件可駐留於處理及/或執行線緒內，且一組件可定位於一電腦上及/或分布於兩個或兩個以上電腦之間。另外，此等組件可自上面儲存有各種資料結構的各種電腦可讀媒體執行。組件可(諸如)根據具有一或多個資料封包之信號(例如，來自一與區域系統、分布式系統中之另一組件相互作用，及/或借助於該信號跨越諸如網際網路之網路而與其他系統相互作用之組件的資料)借助於區域及/或遠端處理而通信。

在本文中之一或多個實例中，所描述之功能可以硬體、軟體、韌體或其任何組合來實施。若以軟體實施，則該等功能可作為一或多個指令或程式碼而儲存於電腦可讀媒體上或經由電腦可讀媒體傳輸。電腦可讀媒體包括電腦儲存媒體與通信媒體(包括有助於將電腦程式自一處傳送至另一處之任何媒體)兩者。儲存媒體可為可由電腦存取之任何可用媒體。借助於實例且非限制，此等電腦可讀媒體可包含RAM、ROM、EEPROM、CD-ROM或其他光碟儲存器件、磁碟儲存器件或其他磁性儲存器件，或可用以載運或儲存呈指令或資料結構之形式的所要程式碼且可由電腦存取的任何其他媒體。又，可將任何連接適當地稱作電腦可讀媒體。舉例而言，若使用同軸電纜、光纖電纜、雙絞線、數位用戶線(DSL)，或諸如紅外、無線電及微波之無線技術而自網站、伺服器或其他遠端源傳輸軟體，則同軸電纜、光纖電纜、雙絞線、DSL，或諸如紅外、無線電及微波之無線技術包括在媒體之定義中。如本文中所使用之磁碟及光碟包括緊密光碟(CD)、雷射光碟、光碟、數位化通用光碟(DVD)、軟性磁碟及藍光光碟，其中磁碟通常以磁性方式再生資料，而光碟用雷射以光學方式再生資料。以上之組合亦應包括在電腦可讀媒體之範疇內。軟體可包含單一指令或許多指令，且可在若干不同碼段上、在不同程式當中及跨越多個儲存媒體分布。可將例示性儲存媒體耦接至處理器，以使得該處理器可自該儲存媒體讀取資訊及將資訊寫入至該儲存媒體。在替代例中，儲存媒體可與處理器成一體式。

本文中所揭示之方法包含一或多個步驟或動作以用於達成所述之方法。方法步驟及/或動作可在不脫離申請專利範圍之範疇的情況下彼此互換。換言之，除非所描述之實施例之恰當操作需要特定次序之步驟或動作，否則可修改特定步驟及/或動作之次序及/或使用而不脫離申請專利範圍之範疇。

圖1、圖2、圖3、圖4、圖5、圖6、圖7、圖8、圖9、圖10、圖11、圖12、圖13、圖14及/或圖15中所說明之組件、步驟及/或功能中的一或多者可被重排及/或組合成單一組件、步驟或功能，或具體化於若干組件、步驟或功能中。亦可添加額外元件、組件、步驟及/或功能。圖1、圖2、圖3、圖4、圖5、圖8、圖13及圖14中所說明之裝置、器件及/或組件可經組態或調適以執行圖6至圖7、圖9至圖12及圖15中所描述之方法、特徵或步驟中的一或多者。本文中所描述之演算法可以軟體及/或嵌入式硬體來有效地實施。

應注意，前述組態僅為實例且不解釋為限制申請專利範圍。該等組態之描述意欲為說明性的，且不限制申請專利範圍之範疇。因而，本發明之教示可易於應用於其他類型之裝置，且許多替代、修改及變化對於熟習此項技術者而言將為顯而易見的。

102．．．寫碼器

104．．．輸入音訊信號

106．．．經編碼之音訊信號

108．．．解碼器

110．．．經重新建構之輸出音訊信號

202．．．傳輸器件

204．．．輸入音訊信號

206．．．麥克風

208．．．放大器

210．．．A/D變換器

212．．．語音編碼模組//語音/音訊編碼模組

214．．．傳輸路徑編碼模組

216．．．調變電路

218．．．D/A變換器

220．．．RF放大器

222．．．天線

224．．．經編碼之音訊信號

302．．．接收器件

304．．．經編碼之音訊信號

306．．．天線

308．．．RF放大器

310．．．A/D變換器

312．．．解調變電路

314．．．傳輸路徑解碼模組

316．．．語音解碼模組//語音/音訊解碼模組

318．．．D/A變換器

320．．．放大器

322．．．揚聲器

324．．．經重新建構之輸出音訊信號

402．．．可縮放編碼器

404．．．原始輸入信號

406．．．高通濾波器

408．．．重取樣模組

410．．．預強調模組

412．．．編碼器/解碼器模組

414．．．訊框誤差隱藏模組

416．．．解強調模組

418．．．重取樣模組

420．．．差

424．．．加權模組

428．．．MDCT變換模組

432．．．頻譜編碼器

436．．．傳輸器/儲存器件

502．．．編碼器

504．．．剩餘信號/輸入MDCT頻譜

508．．．頻帶選擇器

510．．．頻帶能量估計器

512．．．感知頻帶分級模組

514．．．感知頻帶選擇器

516．．．碼簿索引及速率分配器

518．．．向量量化器

522．．．輸出剩餘信號/輸出MDCT頻譜剩餘信號

526．．．碼簿索引(nQ)

528．．．向量量化值(VQ)

602．．．MDCT頻譜音訊訊框

604a．．．頻帶

604b．．．頻帶

604c．．．頻帶

604n．．．頻帶

801．．．MDCT頻譜音訊訊框

802．．．編碼器

804．．．碼簿

806．．．頻帶選擇器

808．．．碼簿選擇器

809．．．碼簿(CB)索引識別器

810．．．擴展碼選擇器/MDCT頻譜音訊訊框

811．．．向量量化器

812．．．描述符選擇器

813．．．碼簿-描述符映射表

814．．．碼簿索引編碼器

815．．．向量量化索引編碼器

816．．．VLC碼簿

818．．．經編碼之碼簿索引

820．．．擴展碼

822．．．經編碼之向量量化值/索引

1102．．．頻譜帶B0...Bn

1104．．．碼簿

1106．．．碼簿索引

1108．．．碼簿索引

1110．．．擴展碼

1302．．．解碼器

1304．．．接收器/儲存器件

1306．．．解碼器模組

1308．．．解強調模組

1310．．．重取樣模組

1312．．．後處理模組

1316．．．頻譜解碼器模組

1320．．．逆MDCT模組

1322．．．塑形模組

1324．．．逆感知加權

1326．．．音高後置濾波器

1328．．．高通濾波器

1330．．．雜訊閘

1332．．．輸出信號

1401．．．MDCT頻譜音訊訊框

1402．．．解碼器

1404．．．碼簿0...N

1406．．．頻帶合成器

1408．．．碼簿選擇器

1409．．．碼簿索引識別器

1410．．．擴展碼識別器

1411．．．向量量化解碼器

1412．．．描述符識別器/描述識別器

1413．．．描述符-碼簿索引映射表

1414．．．碼簿索引解碼器

1416．．．VLC碼簿

1418．．．編碼之碼簿索引

1420．．．擴展碼

1422．．．經編碼的向量量化值/索引

B1-B40．．．層3頻帶

C1-C40．．．層4頻帶

nQ1-nQ40．．．碼簿索引

S_12.8 (n)．．．經重取樣之輸入信號

S_HP (n)．．．經濾波之輸入信號/原始信號

S_Xt ．．．剩餘信號

VQ1-VQ40．．．向量量化值

X₂ (k)．．．剩餘信號

x₂ (n)．．．剩餘信號

(n)．．．低延遲音高後置濾波器信號

₂ (n)．．．版本/經重新建構之信號/高品質音高後置濾波器信號/合成信號

₁₆ (n)．．．信號

_HP (n)．．．經濾波之合成信號

_w.2 (n)．．．加權合成信號

₂₃₄ (k)．．．MDCT頻譜信號

_w，234 (n)．．．信號

圖1為說明可實施一或多個寫碼特徵之通信系統的方塊圖。

圖2為說明根據一實例之可經組態以執行有效音訊寫碼之傳輸器件的方塊圖。

圖3為說明根據一實例之可經組態以執行有效音訊解碼之接收器件的方塊圖。

圖4為根據一實例之可縮放編碼器的方塊圖。

圖5為說明可在編碼器之較高層處實施之實例MDCT頻譜編碼過程的方塊圖。

圖6為說明如何可將MDCT頻譜音訊訊框分為複數個n點頻帶(或子向量)以有助於MDCT頻譜之編碼的圖式。

圖7為說明執行MDCT嵌入式代數向量量化(EAVQ)碼簿索引之編碼的編碼演算法之一實例的流程圖。

圖8為說明可縮放語音及音訊編碼解碼器之編碼器的方塊圖。

圖9為說明用於獲得編碼複數個頻譜帶之成對描述符代碼之方法之一實例的方塊圖。

圖10為說明用於基於機率分布而產生碼簿與描述符之間的映射之方法之一實例的方塊圖。

圖11為說明可如何產生描述符值之一實例的方塊圖。

圖12為說明用於基於頻譜帶之複數個描述符的機率分布而獲得產生描述符對至成對描述符代碼之映射之方法之一實例的方塊圖。

圖13為說明解碼器之一實例的方塊圖。

圖14為說明可有效地解碼成對描述符代碼之解碼器的方塊圖。

圖15為說明用於在可縮放語音及音訊編碼解碼器中解碼變換頻譜之方法的方塊圖。