TW202445562A

TW202445562A - 使用時長調整的音頻處理器、音頻處理系統、音頻解碼器、用於提供處理後音頻訊號表示的方法以及電腦程式

Info

Publication number: TW202445562A
Application number: TW113112706A
Authority: TW
Inventors: 史丹芬拜耶; 史丹芬多伊拉; 卡茨佩爾薩格諾夫斯基; 馬庫斯木翠斯; 貝恩德艾德勒; 阿尼卡崔芬恩; 卡林普雷貝克; 多米尼克豪斯勒; 安德烈亞艾肯賽爾; 法蘭茲胡德胡博
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2023-04-05
Filing date: 2024-04-03
Publication date: 2024-11-16
Also published as: WO2024209008A1; WO2024208420A1

Abstract

本發明揭露一種音頻處理器，其執行複數個處理步驟，以便基於輸入音頻訊號表示提供處理後音頻訊號表示，音頻處理器對由第一處理提供的一個或多個中間音頻訊號執行時長調整，以獲得一個或多個時長調整後中間音頻訊號，且在第一處理之後，音頻處理器基於一個或多個時長調整中間音頻訊號執行第二處理。本發明亦揭露音頻處理系統、方法和電腦程式。

Description

使用時長調整的音頻處理器、音頻處理系統、音頻解碼器、用於提供處理後音頻訊號表示的方法以及電腦程式

根據本發明的實施例關於一種音頻處理器，用於基於輸入音頻訊號表示提供處理後音頻訊號表示。

根據本發明的其他實施例關於一種音頻處理系統，用於基於輸入音頻訊號表示提供處理後音頻訊號表示。

根據本發明的其他實施例關於一種音頻解碼器，用於基於編碼的音頻表示提供解碼的音頻表示。

根據本發明的其他實施例關於一種方法，用於基於輸入音頻訊號表示來提供處理後音頻訊號表示。

根據本發明的其他實施例關於一種電腦程式。

根據本發明的實施例關於一種具有多階段的音頻處理器，且關於(一個或多個)即時音頻訊號以及對中間音頻訊號的時長調整。

以下將描述一些習知的裝置、系統和方法，然而，應注意的是，這些習知的裝置、系統和方法的特徵、功能和細節可以可選地單獨或組合地引入到本發明的任何實施例中。特別地，在所引用/參考的文獻中所公開的特徵、功能和細節可以可選地引入根據本發明的實施例中。

在通訊系統中，目前已經發現解碼音頻訊號的不間斷播放對於良好的通訊(或聽覺印象)來說是重要的，較佳是可以具有盡可能低的延遲。一般而言，通訊編解碼器會為以20毫秒的連續幀建立資訊。如果(音頻)資訊透過基於資料封包的網路傳送，則包含一幀或多幀的音頻資訊的個別資料封包無法保證以恆定的時間間隔到達接收器，但可以在與預期時間不同的時間到達編解碼器本身的幀網格，這種偏差就是所謂的網路抖動。

儘管如此，為了確保流暢播放，可以引入一種機制來管理可能的抖動，即所謂的抖動緩衝區管理(JBM)。在最簡單的情況下，使用足夠大的緩衝區來補償抖動，同時保持播放延遲固定。由於這種方法過於簡單(例如，對於許多應用程式而言)並且需要大緩衝區(並因此產生大延遲)，因此可以使用所謂的自適應JBM，其可以適應不同的網路條件，同時保持低播放延遲以僅補償網路抖動的變化，例如，透過丟棄靜默幀或添加人工靜默幀[1]，或以更複雜的方式，除了丟棄幀或添加靜默幀或標記為損壞的幀之外，還應用時長調整(TSM)於解碼的音頻訊號，以對播放延遲進行更細粒度的調整[2][3]。例如，圖5a顯示了[2]中描述的JBM的模組。

需注意者，EVS抖動緩衝器管理解決方案的模組可以選擇性地用在根據本發明的實施例中。此外，本發明的實施例可選擇性地與EVS幀結合使用。

此外，完整的解碼流程包括運行解碼過程的聲學前端的裝置，如圖5b所示，聲學前端同步要求接收器為已解碼PCM樣本的恆定幀(或恆定流)輸出緩衝器，即拉出PCM緩衝器。通常，拉取的幀大小等於音頻資料的一個解碼幀的幀大小，例如在EVS中為20毫秒。

EVS標準中的時間縮放過程是採用波形相似性重疊相加(WSOLA)。圖5c和圖5d顯示如何縮短和延長輸入幀。

在通訊編解碼器的範圍內，例如即將推出的3GPP沉浸式語音和音頻服務(IVAS)[4]，現在可以發送包含多個音頻通道的複雜音頻場景。為了實現此類複雜場景的低位元率，通常可以基於多通道配置、基於物件的音頻或例如作為環繞立體聲場景，被編碼為傳輸通道(TC)的音頻通道通常少於輸入至編碼器的音頻通道，此傳輸通道可以結合參數資訊，以在解碼器處重建完整的音頻場景，即在解碼器處重建的通道的數量通常大於在編碼幀中傳輸的音頻通道的數量[5][6]。圖6顯示此類操作模式的一般方塊圖，所請求的輸出格式可能與編碼格式不同，並且可能需要進一步渲染才能從編碼格式轉換為輸出格式。

渲染器可以直接對解碼的傳輸通道的時域樣本進行處理，或者可以在處理之前採用時頻變換，亦即，將時域樣本變換到頻域，或者在更一般的意義上變換到用於處理的濾波器組域(FD)，通常將一幀時域樣本劃分為較少數量的時隙。此外，與解碼的傳輸通道相關聯的後設資料還可以被分割為子幀，其中一個幀的多組後設資料之一與一個特定子幀相關聯，每個子幀包含解碼的傳輸通道的多個樣本，或在渲染器中進行頻域處理的情況下，可以包括一個或多個時隙。

圖5e顯示一種處理，其中透過時頻變換來處理幀解碼的傳輸通道幀(TC幀)，從而產生頻域樣本的多個時隙(TS)。渲染器使用與TC幀相關聯的參數來重建和渲染輸出格式，在本範例中，使用多個參數集，每個參數集與一個子幀(SF)相關聯，每個子幀包括多個時隙。渲染器在頻域中產生期望的輸出通道，並且期望的輸出通道的時間樣本透過所渲染的頻域時隙的逆時頻域變換來產生。

此外，渲染可能包括帶有附加聽眾位置資訊的雙耳渲染(圖6中渲染參數的一部分)，這裡所謂的運動到聲音延遲(motion-to-sound delay)對於收聽印象非常重要，並且應該盡可能低，特別是如果想要實現像[2][3]中那樣的細粒度JBM，則應該對所有輸出通道以相同的方式完成TSM。

為此類解碼器提供JBM的直接方法是在輸出通道上應用TSM(如[2][3]所示)，並在所有輸出通道之間同步。圖8顯示此類解決方案的方塊圖。與EVS JBM解決方案的唯一區別是TSM模組現在是在所有輸出通道之間同步的多通道(MC)的TSM。人們發現這種簡單的方法有幾個缺點。由於TSM必須應用於所有輸出通道，因此增加了複雜度。由於音頻訊號的差異以及所有通道上同步TSM的必要性，在所有幀上實現良好的品質更加困難。在具有收聽者位置資訊的雙耳渲染器的情況下，運動到聲音延遲會增加。此外，TSM與接收器輸出緩衝器一起導致延遲，因此運動到聲音延遲不是恆定的。

通常，此類解碼器可以視為屬於同一類的音頻處理器，其中處理器具有多個帶有中間音頻訊號的階段，並且每個處理階段可以選擇獲取參數來指導處理(圖7)。

人們已經認識到，從圖6中我們可以看到IVAS參數重建為2階段音頻處理器，其中輸入音頻訊號表示是編碼幀，第1階段是傳輸通道和後設資料解碼器(不需要處理參數)，其中解碼後的傳輸通道是第一中間音頻訊號，第2階段是重建和渲染，其中第二處理參數是解碼後的後設資料，附加渲染參數和經處理的音頻訊號是最終輸出通道。

應注意的是，上述一般概念可以可選地應用在本發明的實施例中。

鑑於這種情況，希望有一種概念，其允許進行時長調整，其可以在複雜性、處理等待時間和可實現的聽覺印象之間取得更好的權衡。

根據本發明的實施例創造出一種音頻處理器(例如音頻解碼器)，用於基於輸入音頻訊號表示(如多通道音頻內容的編碼表示)來提供處理的(如解碼和渲染的)音頻訊號表示(如以多個渲染的時域音頻訊號的形式)。音頻處理器被配置為執行多個處理步驟(如個別的處理功能；例如第一處理和第二處理)，以便基於輸入音頻訊號表示提供經處理的音頻訊號表示。音頻處理器被配置為對第一處理(如第一處理步驟)提供的一個或多個中間音頻訊號執行時長調整(例如，對第一處理提供的音頻訊號部分(如音頻幀)的長度的調整)，以獲得一個或多個時長調整後中間音頻訊號。音頻處理器被配置為基於一個或多個時長調整後中間音頻訊號來執行第二處理[如第二處理步驟；如升混及/或渲染]，其跟隨在第一處理[如第一處理步驟]之後。

本實施例基於以下發現：在許多應用中，對音頻訊號處理器中的一個或多個中間訊號執行時長調整是有利的，其中第一處理提供一個或多個中間訊號，其中時長調整被應用到這些一個或多個中間訊號，並且其中在第一處理之後，接著對一個或多個時長調整後中間音頻訊號執行(即應用)第二處理。

已經認識到，一個或多個中間訊號通常更適合於具有高時間解析度(例如，具有精細時間粒度)的時長調整，而第一處理的一個或多個輸入音頻訊號通常不適合具有高時間解析度(例如，具有精細時間粒度)的時長調整。此外，已經認識到，使處理參數充分適應時長調整是相對容易的，處理參數可以例如調整第二處理。已經認識到，如果將時長調整應用於第一處理和第二處理之間的一個或多個中間音頻訊號，則處理參數可以更容易且更準確地適應時長調整。例如，已經認識到，在第一處理之前應用時長調整將使得第二處理的處理參數適應所述時長調整變得更加困難。此外，已經認識到，在第二處理之後應用時長調整，在某些情況下將導致不足夠長的等待時間，直到第二處理的處理參數的調整對處理的(輸出的)音頻訊號表示表現出影響。此外，在第二處理之後應用時長調整將導致可變的運動到聲音延遲，這會降低聽覺印象。

相反地，透過在第二處理之前應用時長調整，可以例如使用一個或多個運動參數來獲得經處理的音頻訊號表示並使經處理的音頻訊號表示適配於由一個或多個運動參數中定義的運動，運動到聲音的延遲可以保持恆定，因為在第二處理之後不需要任何時長調整。因此，可以獲得特別好的聽覺印象。

換句話說，已經認識到，時長調整(TSM)之後的處理允許實現處理參數和經處理的音頻訊號之間的恆定延遲。

此外，人們也意識到不再需要額外的接收器輸出緩衝區，因為我們現在始終可以準確地渲染所要求的音頻訊號量，例如透過聲學前端，因此，可以減少實施工作量。

此外，人們也意識到，在許多應用中，中間音頻訊號的數量小於經處理的音頻訊號表示的音頻訊號的數量，使得對一個或多個中間音頻訊號應用時長調整還可以降低複雜性。

總而言之，人們已經認識到，對一個或多個中間音頻訊號(即，在第一處理和第二處理之間)應用時長調整構成了特別好的解決方案，其帶來了可實現的音頻品質之間的良好平衡。

在一實施例中，音頻處理器被配置為根據一個或多個參數(例如，根據解碼的後設資料或渲染參數)執行第二處理，其中，例如，在第二處理中使用的一個或多個參數可以在時間上與一個或多個中間音頻訊號的幀或子幀相關聯(例如，在進行時長調整之前)。

人們已經認識到，可以透過根據一個或多個參數執行第二處理來進行有效的音頻處理。因此，可以根據輸入到音頻處理器中的處理參數來調整第二處理，其中處理參數可以例如源自輸入音頻表示(其可以例如包括作為輔助資訊的處理參數)，及/或處理參數可以基於使用者互動。因此，第二處理可以用於使中間音頻訊號表示適配於具有在輸入音頻訊號表示中定義的特性和/或具有由使用者互動定義的特性。然而，已經發現，在第二處理(即，在時長調整之後)中應用處理參數常常帶來經處理的音頻訊號表示提供良好聽覺印象的效果。此外，透過在第二處理中(即，在時長調整之後)應用取決於使用者互動的處理參數，通常會導致經處理的音頻訊號表示對使用者互動的快速回應，這通常很好地滿足使用者的期望。

在一實施例中，音頻處理器被配置為使第二處理適配於時長調整(例如，透過使第二處理中使用的後設資料適配於時長調整，該後設資料可以例如從編碼的音頻表示導出，和/或透過使第二處理的一個或多個(內部)處理參數(例如內插步驟)適配於時長調整)。

已經認識到，第二處理對時長調整的這種適配操作通常會產生特別好的聽覺印象。例如，在第二處理中可以考慮一個或多個時長調整後中間音頻訊號的縮短或延長(與一個或多個(原始的)音頻訊號相比時)。舉例而言，第二處理的參數改變的速度可以適配於時長調整，使得，例如，如果時長調整包括延長，則在第二處理中應用的參數(相對)緩慢地改變，而如果時長調整包括縮短，則在第二處理中應用的參數改變相對較快。因此，透過能夠使第二處理的內部處理功能的特性適配於時長調整和/或使第二處理中使用的一個或多個參數適配於時長調整，可以實現第二處理非常適合時長調整後中間音頻訊號的特性。因此，可以獲得良好的聽覺印象。

已經發現，在第二處理中考慮的一個或多個處理參數的適配(即，其適配於第二處理的特性)導致提供良好聽覺印象的良好音頻處理。例如，已經發現，導致時長調整後中間音頻訊號的延長或縮短的時長調整可能具有這樣的效果，可以在供第二處理使用的原始處理參數可能不再適合用於第二處理中的一個或多個時長調整後中間音頻訊號。因此，透過使處理參數適配於時長調整(例如，使用內插、外插或重複)，或透過產生附加參數或參數集(例如，在延長的時長調整後中間音頻訊號的情況下)或透過取消參數或參數集(例如，在縮短的時長調整後中間音頻訊號的情況下)，通常可以減少甚至消除經處理的音頻訊號表示中的可聽偽影，否則這些偽影可能會源自於時間尺度的修改。因此，通常與一個或多個中間音頻訊號具有時間關係的處理參數可以適配於時長調整後中間音頻訊號的新的、調整後的時間尺度，使得第二處理可以使用較適當的相關參數來處理該時長調整後中間音頻訊號的部分。因此，可以透過適度的努力來實現良好的音頻品質。

在一實施例中，音頻處理器(例如，作為音頻處理器的一部分的參數適配器)被配置為使一個或多個處理參數適配於時長調整，以獲得適配的處理參數，其中一個或多個處理參數可以是，例如解碼的後設資料和/或渲染參數；例如，定義第二處理應如何執行渲染和/或升混的後設資料；例如，定義第二處理應如何執行渲染和/或升混的空間後設資料；例如，定義透過第二處理獲得的兩個或多個升混和/或渲染的音頻訊號之間的關係的後設資料，其例如為電位差、和/或相位差、和/或相關性、和/或共變異數；例如，與一個或多個傳輸通道訊號(其可以是中間音頻訊號)相關聯的後設資料，時長調整可以是，例如，時間縮放的結果，其中，例如，時間縮放的目標值由抖動緩衝器控制或由使用者設定來決定，並且其中，例如，時間縮放的實際值可以取決於一個或多個中間訊號的特性而定。音頻處理器可以被設定為根據一個或多個適配參數來執行第二處理。

一個或多個處理參數對時長調整的適配操作可以使得第二處理與時長調整後中間音頻訊號同步地執行，並且因此帶來良好的聽覺印象。

在音頻處理器的一實施例中，一個或多個處理參數在時間上與一個或多個中間音頻訊號相關聯，例如，在時間上與一個或多個中間音頻系統的相應幀或子幀相關聯，其中，例如，一個處理參數或一組處理參數可以與一個或多個中間音頻訊號的每個子幀相關聯，其中，例如，一個或多個處理參數是具有與時域中間音頻訊號相關聯的子幀的空間後設資料。音頻處理器可以被配置為獲得適配的處理參數，使得適配的處理參數適配於時長調整後中間音頻訊號的時序。

已經認識到，獲得適配的參數使得適配的處理參數可以適配於時長調整後中間音頻訊號的時序，可以確保一個或多個時長調整後中間音頻訊號與處理參數之間的適當關聯。例如，由時長調整引起的一個或多個中間音頻訊號的縮短或延長可以使一個或多個中間音頻訊號的部分(子幀)與處理參數之間的原始時間關聯無效。然而，處理參數的適配可以在適配的處理參數和一個或多個時長調整後中間音頻訊號的相關部分(如子幀)之間重新建立適當的時間對準。然而，處理參數的適配不僅可以包括建立適當的時間關聯，還可以包括處理參數的定量調整，例如，透過內插或外插或其他處理功能進行定量調整。因此，可以實現將與原始處理參數相比可以被調整的適當處理參數與一個或多個時長調整後中間音頻訊號的部分(例如，子幀)相關聯。因此，可以防止由時長調整引起的聽覺印象的惡化或至少將其降低到可接受的等級。

在一實施例中，音頻處理器被配置為使用時間內插(例如，在兩個或更多個(原始)處理參數之間)來獲得適配的處理參數，其中，例如，時間內插由與適配的處理參數相關聯的時間和與原始處理參數相關聯的時間決定(例如，使得適配的處理參數根據時長調整而進行適配)。然而，在其他實施例中，可以使用時間外插進行適配操作。

透過使用時間內插來獲得適配的處理參數，可以解決原始處理參數沒有適當地適合一個或多個時長調整後中間音頻訊號的時間尺度的影響，例如，作為時長調整的影響，最初與(原始)中間音頻訊號的部分(例如子幀)相關聯的原始處理參數可能不再適合一個或多個時長調整後中間音頻訊號的處理參數時間網格。舉例而言，一個原始處理參數(或一組原始處理參數)可以與(原始的)一個或多個中間音頻訊號的特定長度的子幀相關聯。然而，該特定長度的子幀可以被映射到一個或多個時長調整後中間音頻訊號的具有不同長度的一部分。如果第二處理要求對於每個給定長度的一個或多個時長調整後中間音頻訊號有一個處理參數或一組處理參數，則原始參數或原始參數組顯然不適合於一個或多個時長調整後中間音頻訊號的完整時間部分，(原始的)中間音頻訊號的對應部分透過時間縮放被映射到一個或多個時長調整後中間音頻訊號。換句話說，由於一個或多個時長調整後中間音頻訊號的持續時間不同於該時長調整後中間音頻訊號所基於的一個或多個(原始的)中間音頻訊號的持續時間，因此原始中間音頻訊號的參數時間部分(與原始處理參數相關聯)和時長調整後中間音頻訊號的參數時間部分之間不存在一對一的對應關係。

然而，已經認識到，與一個或多個時長調整後中間音頻訊號的參數時間部分相關聯的處理參數的適配操作可以通過內插法來實現，其中，例如，一個或多個處理參數或一組處理參數可以與(原始的)一個或多個中間音頻訊號的相應時間實例相關聯，並且更與一個或多個時長調整後中間音頻訊號的相應時間實例相關聯，因此可以將其視為基於內插法決定與時長調整後中間音頻訊號的所需參數時間實例相關聯的一個或多個處理參數的支援點。換言之，使用時長調整的知識，處理參數時間實例可以從一個或多個(原始的)中間音頻訊號的時間尺度映射到(一個或多個)時長調整後中間音頻訊號的時間尺度，其中，需要處理參數的時長調整後中間音頻訊號的時間尺度上的時間實例可以不同於與基於原始處理參數的參數時間實例之映射所獲得的參數時間實例。因此，適配於所需參數時間實例的處理參數可以透過內插來獲得，例如使用映射的參數時間實例的內插。因此，可以獲得內插的處理參數，其非常適用於一個或多個時長調整後中間音頻訊號的進一步處理。

特別是，已經發現內插技術非常適合於透過第二處理獲得未失真的處理後的輸出音頻訊號表示。

在一實施例中，音頻處理器被配置為對一個或多個解碼傳輸通道應用時長調整(其中一個或多個解碼傳輸通道是一個或多個中間音頻訊號)，例如為了抵消包括一個或多個傳輸通道的編碼表示的傳輸封包的抖動(例如，為了縮短或延長解碼的傳輸通道的幀，例如其子幀解析度可例如利用抖動緩衝控制來進行控制)。

已經發現，對一個或多個解碼的傳輸訊號應用時長調整常常導致計算複雜性和可實現的品質之間的特別好的權衡。例如，已經認識到，與編碼表示(例如傳輸通道的編碼表示)的時間縮放相比，通常可以以更精細的時間粒度(解析度)對一個或多個解碼的傳輸通道應用時長調整。此外，也認識到，對解碼的傳輸通道應用時長調整通常是有利的，因為與將時長調整應用於例如由解碼的傳輸通道的後續處理提供的輸出音頻訊號(例如，單獨通道訊號)相比，將時長調整應用於解碼傳輸通道通常需要較少的處理工作。例如，已經認識到，與傳輸通道相比，透過進一步處理解碼的傳輸通道所獲得的輸出音頻訊號通常包括更大量的音頻資訊(例如，更多通道和/或更高頻寬)。此外，已經認識到，對解碼的傳輸通道應用時長調整也是特別有利的，因為這通常不會影響從解碼的傳輸通道導出的輸出音頻訊號的”即時”特性，因為”即時”相關參數通常應用於時長調整後的進一步處理。換句話說，已經認識到，在解碼的傳輸通道上應用時長調整允許有效的時間縮放，這將提供將即時特性引入到輸出音頻訊號表示中的機會。此外，應注意者，一個或多個解碼的傳輸通道的這種時長調整允許部分地補償傳輸封包的抖動，傳輸封包的內容可以利用編碼形式表示一個或多個傳輸通道。

在一個實施例中，音頻處理器被配置為基於一個或多個解碼的傳輸通道(其可以是一個或多個中間音頻訊號)和後設資料來獲得(例如使用渲染)或重建多個輸出音頻通道(其可以形成輸出音頻表示)，其中使用渲染時，例如輸出通道的數量可以不同於輸入到音頻編碼器中的通道的數量，使用重建時，例如輸出通道的數量可以等於輸入到音頻編碼器中的通道的數量，後設資料可以例如基於編碼表示來獲得，例如使用渲染和/或使用升混，其中渲染例如可以包括將傳輸通道升混到與多個揚聲器相關聯的揚聲器訊號，和/或其中渲染可以包括雙耳化，其使用關於收聽者位置的資訊來產生兩個耳機訊號，其中，關於收聽者位置的資訊可以例如用於確定頭部相關傳輸功能，該頭部相關傳輸功能被應用於基於一個或多個解碼傳輸通道導出兩個耳機訊號。

已經認識到，在時長調整之後(例如，在將時長調整應用於一個或多個解碼傳輸通道之後)，基於一個或多個解碼傳輸通道獲得或重建多個輸出音頻通道，並使用後設資料在可實現的聽覺印象和複雜性之間提供了特別良好的折衷。如前所述，例如即時處理可以應用於”第二處理”，亦即在時間縮放之後基於一個或多個解碼的傳輸通道獲得或重建多個輸出音頻通道。因此，可以利用使得輸出音頻表示能夠即時或準即時地適配於使用者的要求的方式獲得輸出音頻表示，而不具有時長調整的延遲影響。因此，劃分為在時長調整之前執行的解碼和在時長調整之後執行的渲染或升混可顯示具有低複雜度並帶來非常好的結果。

在一實施例中，音頻處理器被配置為將相同的時長調整應用於多個解碼的傳輸通道，或甚至應用於所有解碼的傳輸通道，例如，以同步的方式進行。例如，確保例如輸入到渲染和/或升混的多個所得到的時長調整的解碼傳輸通道的長度相等；例如，從而獲得多個時長調整的解碼傳輸通道。

已經發現，以同步方式對多個解碼傳輸通道(或甚至對所有解碼傳輸通道)應用時長調整可以產生時長調整後中間音頻訊號，即時長調整的解碼傳輸通道，其適於應用在後續的升混或渲染，或任何其他多通道音頻通道生成中。此外，差分解碼傳輸通道的時長調整的同步可以允許避免所有傳輸通道中的可聽失真或至少顯著的可聽失真，因為例如可以考慮所有已解碼傳輸通道的特定特性。

在一實施例中，音頻處理器被配置為根據時長調整來調整後設資料以用於獲得或重建輸出音頻通道，其中被適配的後設資料可以例如與傳輸通道相關聯，並且其中被適配的後設資料可以例如被包括在編碼的音頻表示中；時長調整例如根據一個或多個解碼傳輸通道被縮短或延長的時間，例如使得適配的後設資料適配於時長調整的解碼傳輸通道的改變的持續時間。

藉由使用後設資料的這種適配來獲得輸出音頻訊號的重建，即使時長調整是在第一處理(例如，傳輸通道的解碼)和第二處理之間，也可以獲得良好的聽覺印象。因此，即使第一處理的一個或多個輸出訊號與第二處理的一個或多個輸入訊號之間的時序關係根據時長調整變化(例如，以隨時間變化的方式)，也可以提供適當的後設資料。

在一實施例中，音頻處理器被配置為針對第一長度針對(例如音頻內容的)第一長度的(例如每個)時間片段執行第一處理(例如編碼傳輸通道的解碼)，例如逐幀方式(例如具有第一時間粒度，其中例如第一時間粒度是一個幀，其包括多個子幀)。此外，音頻處理器被配置為對(例如音頻內容的)第二長度的(例如每個)時間片段執行第二處理(第二長度短於第一長度)，例如逐子幀方式(例如具有比第一時間粒度更精細的第二時間粒度，其中例如第二時間粒度是一個子幀，其包括多個時隙)，或音頻處理器被配置為利用第二長度的(例如逐步)時間增量來執行第二處理，第二長度小於第一長度，其中例如每次執行第二處理時，將第二長度的一個或多個中間輸出訊號的部分輸入到第二處理中，使得例如第二處理的每次執行將時長調整後中間音頻訊號的處理推進第二長度的步長(在一個或多個時長調整後中間音頻訊號的時間尺度上測量)。

已經發現，對第一處理和第二處理使用不同的時間粒度(例如，不同長度的時間片段)可以達到高處理效率，並且還帶來良好的解碼的即時特性(例如通過在第二處理中使用相對較短的時間粒度)，例如透過在第一處理中對編碼傳輸通道進行逐幀解碼，可以在位元率要求和可實現的音頻品質之間達到良好的折衷。另一方面，”後處理”(例如，由第二處理執行的升混或渲染)被發現在(時長調整後中間音頻訊號的)較短的時間部分上操作時，具有比第一處理更有效並且提供更好的音頻品質。例如，透過在第二處理中使用相對小的部分，或透過在第二處理中進行相對小的(逐步的)時間增量，可以利用有效的方式處理包含多個來源的訊號，同時提供良好的印象。因此，已經認識到，就效率和可實現的音頻品質而言，在不同的處理步驟中使用不同的時間粒度是一個不錯的選擇，其中，已經發現使用不同時間粒度在這些處理步驟之間應用時間縮放是有利的概念，其不會顯著損害處理結果。

在一實施例中，時長調整的粒度(例如一個樣本)比第二長度(例如一個子幀，包括多個時隙)更精細。

已經認識到，在許多應用中，期望具有比第二長度更精細的時長調整的粒度，特別地，已經認識到，時長調整的相對細粒度有助於減少由時長調整引起的偽影，即使時長調整的這種細粒度可能導致時長調整後中間音頻訊號的幀長度偏離第二長度的整數倍。然而，已經認識到可以處理時長調整後中間資訊的區塊或幀的這種長度而不引入顯著的偽影。

在音頻處理器的一實施例中，第一處理(例如一個或多個傳輸通道的解碼)被配置為逐塊地提供時域樣本，例如使用逐塊頻域到時域變換(例如使用修改的離散餘弦變換)，其中由第一處理提供的時域樣本區塊包括第一數量的時域樣本。此外，第二處理(例如將一個或多個傳輸通道升混和/或渲染為構成經處理的音頻訊號表示的輸出音頻訊號)被配置為對基於時長調整的時域樣本區塊進行操作，其自使用時長調整的第一處理提供的時域樣本中導出，例如透過以區塊方式將時長調整的時域樣本區塊轉換為譜域，其中由第二處理所處理的時域樣本區塊包括比由第一處理提供的時域樣本區塊更短的長度。或者，第二處理(例如將一個或多個傳輸通道升混和/或渲染為構成經處理的音頻訊號表示的輸出音頻訊號)被配置為在每個處理步驟中輸入多個時域樣本的區塊，其是基於時長調整的時域樣本，其自使用時長調整的第一處理提供的時域樣本中導出，例如透過推進多個時長調整的時域樣本的區塊的處理。其中，每個處理步驟輸入到第二處理的多個時域樣本區塊包括比第一處理提供的時域樣本區塊更短的長度。

已經發現，在第二處理中處理相對短的時域樣本區塊，或在第二處理中輸入相對短的時域樣本區塊作為新的時域樣本，可以達成第二處理的相對精細的時間解析度，其允許處理的(輸出)音頻表示帶來良好的音頻品質，並允許第二處理的即時或準即時調整。另一方面，仍然可以利用在第一處理中處理相對大的區塊的高效率，例如高位元率效率。而且，已經認識到，即使時長調整是在第一處理和第二處理之間，仍然可以以有利的方式在第一處理和第二處理中使用不同的時間粒度。因此，可以實現效率和可實現的音頻品質之間的良好折衷，其中處理器還包括良好的即時或準即時能力。

在音頻處理器的一實施例中，由第二處理所處理的時域樣本區塊包含多個時域樣本，其中，例如，第二處理的時間解析度(例如由第二處理執行的時頻變換的時間解析度)小於時域訊號的時間解析度，這使得其成為中間訊號(例如，解碼的傳輸通道時間訊號的時間解析度)。

然而，已經發現，在第二處理中，對包括多個時域樣本的時域樣本區塊進行處理帶來了良好的效率，並且在時間縮放之後沒有必要使用時間上非常精細的第二處理(即使時長調整可以單樣本粒度調整)。因此，利用這樣的概念可以實現良好的計算效率，因為分區處理通常比單樣本粒度二次處理更有效。

在音頻處理器的一實施例中，在第二處理中使用的後設資料(例如後設資料集)與輸入音頻訊號表示的子幀相關聯，和/或與一個或多個中間音頻訊號的子幀相關聯，其中一個子幀包括一個或多個時隙(例如4個時隙)。音頻處理器被配置為提供一個或多個時長調整後中間音頻訊號，使得當與輸入音頻訊號表示的對應幀比較時和/或與一個或多個中間音頻訊號的對應幀比較時，一個或多個時長調整後中間音頻訊號的相應幀包括不同的長度(例如，不同數量的音頻樣本)。

已經認識到，在一些情況下，與輸入音頻訊號表示的子幀相關聯和/或與一個或多個中間音頻訊號的子幀相關聯的後設資料仍然可以以良好的結果使用，即使與輸入音頻訊號表示的對應幀相比時和/或與一個或多個中間訊號的對應幀相比時，一個或多個時長調整後中間音頻訊號的幀包括不同的長度。已經發現，如果後設資料的時間粒度比由時長調整引起的時間變化或由時長調整引起的時間錯位更小或甚至顯著更小，則尤其如此。舉例而言，在某些情況下，時長調整導致在第二處理中處理的子幀和與在第二處理中處理的所述子幀相關聯的後設資料之間的時間未對準，其小於或顯著小於後設資料的時間粒度，通常不會因此而產生明顯的聽覺偽影。因此，透過利用處理步驟和後設資料的不同時間粒度以及透過利用聽眾對第二處理的輕微時間變化的容忍度，可以有效地獲得良好的印象。

在一實施例中，音頻訊號處理器被配置為提供一個或多個時長調整後中間音頻訊號，使得一個或多個時長調整後中間音頻訊號的相應幀的長度不同於用於第二處理(至少在應用時長調整的情況下)的多個區塊大小，其中一個或多個時長調整後中間音頻訊號的相應幀的長度例如為10毫秒到30毫秒之間，例如其粒度小於1ms，且其例如具有單一樣本時間粒度，區塊大小例如為1.25毫秒或5毫秒。可選地或附加地，音頻處理器被配置為以(例如逐步的)時間增量(例如以1.25毫秒的逐步增量，其可以對應於48kHz的採樣率下的60個樣本)來執行第二處理，其中音頻訊號處理器被配置為提供一個或多個時長調整後中間音頻訊號，使得一個或多個時長調整後中間音頻訊號的相應幀的長度與多個時間增量不同，其中一個或多個時長調整後中間音頻訊號的相應幀的長度例如在10毫秒和30毫秒之間，例如在48kHz的採樣率下有480個樣本和1920個樣本之間，例如其時間粒度小於1毫秒，且其例如具有單一樣本時間粒度，多個時間增量例如為1.25毫秒或在48kHz的採樣率下有60個樣本。

已經認識到，時長調整的這種選擇允許對時間尺度進行精細調整，而不受第二處理的粒度的限制，這提供了高品質的時間尺度，同時仍然允許第二處理的高品質輸出訊號。

在一實施例中，音頻訊號處理器被配置成基於與一個或多個時長調整後中間音頻訊號的先前幀相關聯的一個或多個時域樣本以及基於與一個或多個時長調整後中間音頻訊號的當前幀相關聯的一個或多個時域樣本，來形成用於第二處理的樣本區塊，其中用於第二處理的樣本區塊例如為與當前幀相關聯的樣本區塊；例如為在第二處理中處理的樣本區塊或作為第二處理的處理步驟中的時間增量輸入到第二處理中的樣本區塊；如果第二處理需要60個樣本區塊進行處理或作為時間增量，則一個或多個時域樣本例如在1到59個樣本之間。音頻訊號處理器被配置為基於與一個或多個時長調整後中間音頻訊號的當前幀相關聯的多個時域樣本來形成用於第二處理的一個或多個樣本區塊(例如，60個樣本)(例如與當前幀相關聯的樣本區塊)，例如直到沒有足夠的與留下的一個或多個時長調整後中間音頻訊號的當前幀相關聯的時域樣本來形成用於第二處理的樣本區塊。此外，音頻訊號處理器被配置為緩衝與一個或多個時長調整後中間音頻訊號的當前幀相關聯的一個或多個剩餘(例如過多的)時域樣本(這不足以形成用於第二處理的樣本區塊)(例如，如果第二處理需要60個樣本區塊來進行處理或作為時間增量，則剩餘時域樣本在1到59個樣本之間)，以用於(稍後)形成用於第二處理的樣本區塊(例如，60個樣本)，其包括與一個或多個時長調整後中間音頻訊號的後續幀相關聯的一個或多個時域樣本，其中緩衝的一個或多個剩餘時域樣本可以被前置到一個或多個時長調整後中間音頻訊號的後續幀。

上述使用形成樣本區塊來進行第二處理的實施例，其對於單一樣本區塊的形成考慮與先前幀相關聯的緩衝樣本和與當前幀相關聯的樣本，並且對於用於第二處理的一個或多個其他樣本區塊的形成，僅考慮與當前幀相關聯的時域樣本，並且即使時長調整將幀長度改變為不同於用於第二處理的多個幀的區塊長度的整數倍，仍可以形成具有統一長度的用於第二處理的樣本區塊。緩衝與當前幀相關聯的一個或多個時域樣本的可能性也支持這一點，如果緩衝的幀的數量小於形成用於第二處理的樣本區塊所需的樣本數量，則這特別合理。因此，當前幀的緩衝樣本可以稍後使用，例如與後續幀相關聯的足夠數量的時域樣本(或頻域樣本)為可用時。因此，此概念允許對第二處理進行有效處理，其中可以輕鬆地為第二處理提供相同長度的樣本區塊。此外，已經認識到，即使在第二處理中使用處理參數，此概念也不會嚴重降低第二處理的性能，因為處理參數的粒度通常小於(或甚至顯著小於)用於第二處理的樣本區塊的長度，而且可以避免因為使用不同長度的樣本區塊進行第二處理而導致第二處理的困難。因此，此概念帶來了高處理效率和良好結果。

在一實施例中，音頻處理器被配置為使用與先前幀相關聯的一個或多個緩衝的剩餘(例如，過多的)時域樣本(例如與先前幀相關聯的所有緩衝剩餘(例如過多的)時域樣本)，以及與一個或多個時長調整後中間音頻訊號的當前幀相關聯的時域樣本的最大可能數量(使得與一個或多個時長調整後中間音頻訊號的當前幀相關聯的剩餘時域樣本的數量小於在逐塊第二處理中使用的區塊大小)，用於形成(例如60個)樣本區塊以用於與當前幀相關聯的第二處理。其中時域樣本的最大可能數量可以選擇為使得剩餘時域樣本的剩餘數量小於由第二處理所處理的樣本區塊的大小或每個時間增量輸入到第二處理中的樣本區塊的大小。

使用這種方法，可以將當前幀的多個樣本(其被緩衝以供稍後形成用於第二處理的樣本區塊)保持相當小。此外，使用這種方法，即使在存在細粒度時長調整的情況下，在第二處理中使用相同長度的區塊時也可以將等待時間保持得盡可能小，這減少了處理工作量。此外，以這種方式可以避免在第二處理中使用的時域樣本區塊的重疊。

在音頻處理器的實施例中，在第二處理中使用的後設資料的時間解析度小於(例如粗略小於)第二處理的時間解析度。

在這種情況下，在第二處理中使用的時域樣本區塊的實際邊界的變化(例如，即使在時長調整的情況下，其也是由恆定長度的區塊的使用引起的)並沒有真正降低第二處理提供的輸出音頻表示的音頻品質。此外，使用這樣的概念，可以將後設資料編碼的工作量保持得相當小，同時第二處理的時間解析度仍然可以相對較高，這又允許即時或準即時考慮一個或多個處理參數。

在音頻處理器的一實施例中，一個或多個中間音頻訊號是一個或多個(解碼的)傳輸通道訊號(例如TC訊號)，其中，例如一個或多個傳輸通道訊號可以包括對應的幀，其中，例如透過時長調整來縮短或延長一個或多個傳輸通道訊號的相應幀，使得時長調整後中間訊號包括相應的縮短或延長的幀(例如，每個幀包括更少或更多的時域樣本)。

已經認識到，對一個或多個解碼的傳輸通道訊號應用時長調整是特別有效的，因為解碼通常對相對長的樣本區塊(例如對音頻幀)進行操作，而時長調整可以實現相對精細的時間尺度。此外，已經認識到，解碼的傳輸通道通常包括時域樣本，其經常受到與傳輸通道的解碼基本上分開的進一步處理。換句話說，已經認識到解碼的傳輸通道構成中間訊號，其中與透過第一處理執行的傳輸通道解碼相比，進一步處理(例如，第二處理)是在不同的域中執行的(例如，在不同的變換域中，和/或使用不同的譜域表示)。因此，已經認識到，時長調整可以有效地插入在傳輸通道的(核心)解碼(其在第一處理中執行或作為第一處理)和在傳輸通道中執行的後續後處理(即在第二處理中執行或作為第二處理)之間。也已經認識到，(原始或時長調整的)傳輸通道的「後處理」通常充分獨立於傳輸通道的解碼，使得時長調整引起的幀大小的變化不會影響在第二處理中執行或作為第二處理的所述後處理。因此，透過所述的解決方案可以獲得良好的音頻品質。

在一實施例中，音頻處理器被配置為使用品質控制機制來執行時長調整，例如，使得根據期望的時間尺度值並考慮一個或多個中間音頻訊號的特性來調整實際時間尺度值；其中，例如考慮中間音頻訊號或其處理後版本的不同部分之間的相關性以調整時間縮放。

透過使用具有品質控制機制的這種時長調整，可以顯著減少時間縮放的偽影，因為實際時間縮放通常被調整(或適配)以適配於(原始)中間音頻訊號的特性(例如，一個音調週期的長度)。因此，當使用品質控制機制時，例如在時間縮放中執行重疊相加操作時，時長調整後中間音頻訊號的最終長度不僅由期望的時間尺度決定，而且選擇精確的時間尺度以實現相當小的失真(或甚至最小失真)。因此，可以保持較低的偽影，但其代價通常為時長調整後中間音頻訊號(或時長調整後中間音頻訊號的幀)的長度(例如，就時域樣本而言)不能以與訊號無關的方式預先決定。這進而導致時長調整後中間音頻訊號的長度可能不完全符合第二處理的「原始」要求，但是已經認識到這並不構成嚴重的問題。因此，此概念在實現效率和音頻品質之間實現了良好的折衷。

在一實施例中，音頻處理器被配置為依據一個或多個中間音頻訊號的一個或多個特性和/或依據輔助資訊，在品質控制的時長調整模式和非品質控制的時長調整模式之間切換。

使用這種方法，可以在多種廣泛的情況下實現高效率。

在一實施例中，音頻處理器被配置為在(例如，選擇性地切換到)非品質控制的時長調整模式下操作，例如，選擇性地切換到非品質控制時長調整模式。

當在非品質控制的時長調整模式中操作時，時長調整後中間音頻訊號的長度可以由控制器(準確地)預先決定，這允許實現幀對齊或預設多少個子幀(或區塊)應被提供給(原始)中間音頻訊號的幀的第二處理。因此，無論音頻訊號的細節如何，都可以執行精確的控制，這可以例如有助於幀邊界的同步或在音頻編碼器和音頻解碼器之間的同步，而且此機制可以減少處理參數的適配的工作，並且因此在一些情況下降低處理複雜度。

在一實施例中，音頻處理器被配置為針對被分類為靜默的幀選擇性地切換到特殊(靜默幀)時長調整模式(例如，切換到非品質控制時長調整模式)，其中靜默的幀例如為對於能量低於閾值等級的幀，或對於存在靜默幀信令的幀。此外，音頻處理器被配置為在特殊(靜默幀)時長調整模式下操作時，以不需要緩衝剩餘幀的方式執行時長調整，其中例如使得當前時長調整的幀的時域樣本的數量加上先前時長調整的幀的緩衝的時域樣本的數量是第二處理所處理的一個時域樣本區塊中的時域樣本的數量的整數倍，或當前時長調整的幀的時域樣本的數量加上先前時長調整的幀的緩衝時域樣本的數量的總和為時域樣本的數量的整數倍，其作為時間增量被輸入到第二處理中，且其中調整時長調整以提供如此數量的時長調整的時域樣本，使得第二處理中使用的子幀的邊界與第二處理中使用的子幀的幀邊界對齊。

透過對分類為靜默的幀切換到特殊的時長調整模式，可以以有效的方式實現時間對準，而不會顯著損害音頻品質。換句話說，透過採用特殊的時長調整方式，可以實現時長調整後中間音頻訊號的一幀能夠被第二處理完全處理(考慮到第二處理所採用的處理時間網格)，而不需要剩餘該(當前)幀的任何時域值或頻域值不被第二處理所處理。因此，對被分類為靜默的幀的檢測可以用於有效地達到這樣的情況，即不需要緩衝時長調整後中間音頻訊號的當前幀的任何時域樣本或頻域樣本以用於稍後處理(連同後續幀的樣本)，因此可以在沒有音頻品質問題的情況下實現低等待時間的狀態，例如可以以這樣的方式來調整時長調整，使得時長調整提供期望數量的時長調整的時域樣本而不受品質控制機制的約束，因為音頻品質在靜默幀條件中不會顯著劣化。

總之，音頻處理器利用靜默幀條件的檢測來有效實現時長調整的音頻訊號與第二處理之間的時間同步。

在一實施例中，音頻處理器被配置為將在第二處理中使用(例如處理)的子幀的大小、或輸入到第二處理中(例如作為新的時域樣本的區塊)以作為時間增量的子幀的大小，適配於到時長調整。

透過調整在第二處理中處理的子幀的大小或在第二處理中輸入的子幀的大小以對時長調整進行時間增量，可以實現時長調整後中間音頻訊號與第二處理之間的同步。例如，使子幀的大小(例如按照時隙、或按照時域樣本、或按照頻域樣本)適配於時長調整，可以例如避免緩衝時長調整後中間音頻訊號的任何值(用於與後續幀一起處理)的需要。例如，可以以這樣的方式調整在第二處理中使用的或輸入到第二處理中以進行時間增量的子幀的大小，使得所有時隙、或所有時域樣本、或所有頻域樣本的時長調整後中間音頻訊號的(縮短或延長的)幀與第二處理的子幀相關聯，其中例如第二處理的最後子幀在時長調整後中間音頻訊號的相應幀的末尾結束。因此，不需要當前幀和後續幀的時域樣本或頻域樣本或時隙的緩衝或聯合處理，這使得處理資源高效並且還可保持低處理工作量。

在一實施例中，音頻處理器被配置為將在第二處理中處理的或輸入到第二處理中以進行時間增量的多個時隙(例如作為新頻域樣本的區塊)，適配於時長調整，多個時隙例如為形成一個或多個時長調整後中間音頻訊號的子幀的多個頻域時隙或頻域樣本，或者形成一個或多個時長調整後中間音頻訊號的子幀(例如子幀的大小)的多個時域時隙或時域樣本。

透過使在第二處理中處理的、或輸入到第二處理中進行時間增量的時隙的數量或子幀的大小適配於時長調整，可以實現在後續幀可用之前(或者在時長調整已經應用於後續幀之前)，由第二處理完全處理當前幀，即使時長調整導致時長調整後中間音頻訊號的幀中的時隙數量的改變(例如當與原始中間音頻訊號的幀中的時隙數量相比時)。因此，可以實現上述優點，例如低時間延遲和高效處理。

在一實施例中，音頻處理器被配置為使用與一個或多個(原始)中間音頻訊號的不同片段(例如，幀或子幀或時隙)重疊的一個或多個重疊相加操作來執行時長調整。此外，音頻處理器被配置為適配於後設資料(例如，與(原始)中間音頻訊號的幀或子幀或時隙相關聯的後設資料)，其中重疊相加操作應用於一個或多個中間音頻訊號的不同片段(例如幀或子幀或時隙)，(從而)獲得與一個或多個時長調整後中間音頻訊號的幀或子幀相關聯的適配後的後設資料。

已經發現，一個或多個中間音頻訊號的不同片段的重疊相加可以生成時長調整後中間音頻訊號，其與原始中間音頻訊號相比包括不同的特性。然而，也已經認識到，與(原始)中間音頻訊號相關聯的後設資料的適配，特別是對於經受重疊相加操作的時間部分，可以用於提供以下後設資料，其很好地適配於通過重疊相加操作所獲得的時長調整後中間音頻訊號的部分的訊號特性。因此，後設資料的適配可以幫助防止使用重疊相加操作獲得的時間部分的音頻品質的劣化，例如後設資料的適配可以對應於重疊相加操作，例如，利用線性組合(例如以類似於重疊相加組合的方式)將後設資料的不同片段進行重疊相加。

在一實施例中，音頻處理器被配置為線性組合與重疊相加操作中涉及的一個或多個(原始)中間音頻訊號(例如未調整的解碼傳輸通道)的幀或子幀相關聯的後設資料，以(從而)獲得與一個或多個時長調整後中間音頻訊號的結果幀或子幀(例如，由重疊相加操作產生的幀)相關聯的後設資料。

已經發現，線性組合與重疊相加操作中涉及的一個或多個中間音頻訊號的幀或子幀相關聯的後設資料非常適合於獲得適合所獲得的時長調整後中間音頻訊號的部分的後設資料使用重疊相加運算。具體地，已經認識到後設資料的重疊相加操作和線性組合是類似的操作，因此可以在適配的(處理的)後設資料和所獲得的時長調整後中間音頻訊號的部分之間，透過重疊相加運算取得的良好配合的結果。

在一實施例中，音頻處理器(例如，時長調整；例如，基於WSOLA的時長調整)被配置為使用波形相似性確定方法來識別(例如，使用交互相關)一片段(也稱為“識別片段”或“最佳匹配”)，此片段為從作為中間音頻訊號的給定音頻幀的部分的多個候選片段中取得，用於與給定的音頻幀的預定部分(例如開始部分；例如“片段a”)重疊相加，以獲得給定音頻幀(其例如是時長調整後中間音頻訊號的幀)的縮短版本。

透過使用波形相似性確定方法來識別作為中間音頻訊號的給定音頻幀的部分的多個候選片段中的片段用於與預定部分重疊相加，有助於合理地保持較小的可聽失真。例如，可以識別與給定音頻幀的預定部分非常相似的片段，並且因此重疊相加操作帶來非常小的可聽失真。因此，可以透過音頻訊號的特性來決定實際時間縮放，因為重疊和相加的部分之間的時間對準是透過波形相似性確定方法，即透過實際音頻訊號的特性來獲得的。如此一來，時長調整很好地適配於音頻訊號的特性，帶來了良好的音頻品質(但也帶來了時長調整的實際量受訊號特性影響而無法利用控制方式任意決定的挑戰)。然而，已經認識到時長調整的概念非常適合目前的應用。

在一實施例中，音頻處理器被配置為在給定音頻幀的縮短版本的末尾處包括給定音頻幀的未調整部分(例如rem)，其在給定音頻幀的原始版本中的識別片段之後，例如，使得給定音頻幀的縮短版本是重疊相加部分與給定音頻幀的剩餘未調整部分(例如“rem”)的串聯，其中重疊相加部分所識別的片段與預定部分重疊相加組合(例如重疊和相加)。

透過在給定音頻幀的縮短版本的末尾處包含給定音頻幀的未調整部分，可以實現時長調整僅影響一個或多個中間音頻訊號中適合用於時長調整的一部分。因此，構成時長調整的核心的重疊相加操作可以應用於非常適合重疊相加操作的部分，而一個或多個中間音頻訊號的其他部分可以不被改變且可例如附加在幀的末尾(例如，附加在給定音頻幀的縮短版本的末尾)。因此，可以以良好的音頻品質和合理的計算量來完成時長調整。

在一實施例中，音頻處理器(例如時長調整；例如基於WSOLA的時長調整)被配置為從多個候選片段中識別(例如使用交互相關)一片段(也稱為”識別片段”或”最佳匹配”)，這些候選片段是包括給定音頻幀之前的中間音頻訊號的先前音頻幀的數值的部分(例如指定為”候選”)(以及中間音頻訊號的給定當前音頻幀的可能數值)，用於與使用波形相似性確定方法來決定給定音頻幀的預定部分(例如開始部分；例如”片段a”)，以便獲得給定音頻幀的延長版本。

透過識別包含在給定音頻幀之前的中間音頻訊號的先前音頻幀的數值的片段，並將其與給定音頻幀的預定部分進行重疊相加，可以實現給定音頻幀的延長。例如，可以”再利用”給定音頻幀之前的音頻幀的非常適合的部分，以便實現延長的音頻幀，其中可以通過適當地選擇”識別的片段”，並將其參予到給定音頻幀的預定部分和候選片段(從中選擇”識別片段”)之間的相似性，來實現良好的聽覺印象。因此，可以實現給定音頻幀的預定部分和先前音頻幀(在給定音頻幀之前)中開始並且通常在給定音頻幀的末尾結束的音頻部分之間的平滑過渡。因此，給定音頻幀的延長版本的總長度比給定音頻幀的長度長，因為還將先前音頻幀的時域樣本或頻域樣本(通過重疊相加操作)包括到給定的音頻幀中。總之，使用這個概念可以利用有效的方式實現延長的時長調整，其中可以透過合理的計算複雜度來獲得良好的音頻品質。

在一實施例中，音頻處理器被配置為在給定音頻幀的延長版本的末尾處包括未調整部分，該未調整部分包括給定音頻幀的數值(並且可選地還有先前音頻幀的數值)(例如，”rem”)，其跟隨已識別的片段(例如指定為”最佳匹配”)，例如使得給定音頻幀的延長版本是重疊相加部分的串聯，其為所識別的片段與預定部分(例如與給定幀的原始片段)以及基於跟隨給定音頻幀和可能的先前音頻幀的原始版本中的所識別的片段的部分的剩餘未調整部分的重疊相加組合(例如重疊和相加)。

透過在音頻幀的延長版本的末尾包括未調整的部分，該未調整的部分包括跟隨所識別的片段(對其應用重疊相加)的給定音頻幀的數值，可以實現良好的聽覺印象。具體地，可以實現音頻幀的末尾部分的長度保持基本上不被調整，其中在給定幀的開始處有效地執行時長調整(例如，使用重疊相加操作)。然而，已經認識到這樣的概念在計算上是高效的並且帶來良好的聽覺印象，因為重疊相加操作並非應用於整個幀而是僅應用於被認為是良好的幀的一部分。因此，即使一個或多個中間音頻訊號在音頻幀的整個長度上不是靜默的，也可以有效地應用重疊相加操作以及延長時間的時長調整。

在一實施例中，音頻處理器被配置為在與一個或多個中間音頻訊號的先前幀相關聯的一個或多個處理參數(例如混合矩陣Mprev或Mk,prev的元素；例如後設資料值或從後設資料值導出的處理值；例如混合矩陣的元素)和與一個或多個中間音頻訊號的當前幀相關聯的一個或多個處理參數(例如混合矩陣M或Mk的元素)之間進行時間內插，為了(例如由此)使用內插函數(例如g[n]或ga[n])獲得與一個或多個時長調整後中間音頻訊號的當前幀的不同時間實例(例如用時間索引n指定)相關聯的處理參數，該內插函數決定與先前幀相關聯的一個或多個處理參數的貢獻以及與當前幀相關聯的一個或多個處理參數在處理參數的線性組合中的貢獻。

已經發現，透過在與先前幀相關聯的一個或多個處理參數和與當前幀相關聯的一個或多個處理參數之間進行時間內插，處理參數可以適配於時間縮放，從而避免可聽失真。也已經認識到，內插函數(其可以例如定義偏離純線性內插的內插)的使用允許使內插適配於實際時間縮放，這帶來特別好的結果。特別地，在時長調整不是在全幀上線性執行的情況下，使用這樣的內插函數是有利的(這是有利的情況，如上所述)。

總之，已經認識到，使用內插函數在一個或多個處理參數之間或在一組或多組處理參數之間進行時間內插，可以在音頻品質和效率方面帶來良好的結果。

在音頻處理器的一實施例中，內插函數是將時間索引(例如樣本索引；例如n)映射到決定貢獻的權重值(例如g[n]或ga[n])的線性或分段線性函數，將與先前幀相關聯的處理參數和與當前幀相關聯的處理參數轉換為時間內插處理參數。

透過選擇這樣的內插函數(其較佳是線性函數或分段線性函數)，可以利用有效的方式執行一個或多個處理參數的內插，其中所述的內插的形狀與時長調整的函數完全一致。

在音頻處理器的一實施例中，對於時間上縮短的(例如，當前的)音頻幀，內插函數包括對於使用重疊相加組合所獲得的時長調整後的當前幀的一部分(例如，L _seg)的較大斜率(例如，內插函數的值隨時間索引的變化)，此斜率大於未調整的時長調整後的當前幀的一部分(例如，L _rem)(例如相對於(例如原始)中間音頻訊號；例如”剩餘部分”)的斜率。替代地或附加地，對於時間上延長的(例如，當前的)音頻幀，內插函數包括對於使用重疊相加組合所獲得的時長調整後的當前幀的一部分(例如，L _seg)的較小斜率(例如，內插函數的值隨時間索引的變化)，此斜率小於未調整的時長調整後的當前幀的一部分(例如，L _rem)(例如相對於(例如原始)中間音頻訊號；例如”剩餘部分”)的斜率。

已經發現，內插函數的這種選擇例如非常適合與時長調整概念一起使用，其中時間縮放主要發生在給定幀的開始部分，而給定幀的末尾部分基本上保持不變。

因此，在縮短時長調整的情況下，例如進行內插函數的選擇，使得內插函數在實際時間壓縮(縮短時間)的音頻幀的部分中包括(相對)較大的斜率，並且在沒有發生時間壓縮的音頻幀的部分中包括(相對)較小(例如”正常”)的斜率，因此，在發生實際縮短的幀的部分中，內插進行得相對較快(例如，比”正常”更快)，並且在沒有發生時間壓縮(縮短)的幀的部分中，參數的內插進行得相對較慢。

在延長的時長調整的情況下，可以例如進行內插函數的選擇，使得內插函數對於在實際時間延伸(延長)的音頻幀的部分包括(相對)較小的斜率，並且對於沒有時間延伸的音頻幀的部分包括(相對)較大(例如”正常”)的斜率。因此，內插在實際發生延長的幀的部分中進行得相對較慢(例如，比”正常”慢；例如，比在全幀上執行時間內插時慢)，並且參數的內插在沒有發生時間延長(延長)的幀的部分中進行得相對較快。

已經發現，處理參數的這種內插很好地適配於時長調整，並且導致很好地適配於時長調整後中間音頻訊號的內插處理參數。

在一實施例中，音頻處理器被配置為根據以下公式獲得與具有時間索引n的時間實例相關聯的內插處理參數P _inter[n]： P _inter[n]=g _a,f[n] P + (1-g _a,f)P _prev，其中P是與一個或多個中間音頻訊號的當前幀相關聯的一個處理參數或一組處理參數(例如尺度參數、或參數向量或參數矩陣)，其中P _prev是與一個或多個中間音頻訊號的先前幀相關聯的一個處理參數或一組處理參數(例如尺度參數、或參數向量或參數矩陣)，其中P _inter是與一個或多個時長調整後中間音頻訊號的當前幀中的時間實例n相關聯的一個處理參數或一組處理參數(例如尺度參數、或參數向量或參數矩陣)，且其中g _a,f是內插函數。

已經發現，內插處理參數的這種決定方式有效地構成了由單一縮放內插函數控制的線性組合，並且其也可以被認為是不同處理參數或處理參數集之間的(內值函數控制的)平移，其具有高計算效率並可帶來良好的結果。

在音頻處理器的一實施例中，內插函數g _a,f被定義為，且其中其中n是時間索引，其中L _rem=L _f-L _seg，其中L _f是要處理的幀的長度(例如，一個或多個時長調整後中間音頻訊號的當前幀的長度；例如，與一個或多個原始中間音頻訊號的原始幀的長度不同的長度)，並且其中L _seg是其中通過時長調整應用重疊相加的部分的長度。

已經認識到，內插函數的這種選擇，其在音頻幀的開始部分和音頻幀的結束部分中帶來內插函數的不同斜率，很好地適配於時長調整，其中幀的結束部分基本上保持未調整，而在給定音頻幀的開始部分中執行時間縮減或時間延展的重疊相加操作。已經認識到，具有兩個不同內插斜率的分段線性內插函數非常適合於時長調整的有利實現，並且可以透過合理的努力來實現。此外，內插函數可以適配於時長調整後中間音頻訊號的幀的實際長度，其中應注意的是，時長調整後中間音頻訊號的幀的長度通常是可變的並且依訊號而定的。因此，已經發現內插函數的這種選擇是特別有利的。

在一實施例中，音頻處理器被配置為根據下式執行一個或多個時長調整後中間音頻訊號(例如x[n]或xk[n])的數值的處理(例如時域處理) 或根據下式執行 , 其中x[n]和xk[n]是一個或多個時長調整後中間音頻訊號的數值或數值組(例如，時域值或譜域值)，其中M是與一個或多個中間音頻訊號的當前幀相關聯的一個處理參數或一組處理參數(例如，尺度參數、或參數向量或參數矩陣)，其中M _prev是與一個或多個中間音頻訊號的先前幀相關聯的一個處理參數或一組處理參數(例如，尺度參數、或參數向量或參數矩陣)，其中n是時間索引，其中L _f是要處理的幀的長度(例如，一個或多個時長調整後中間音頻訊號的當前幀的長度；例如，與一個或多個原始中間音頻訊號的原始幀的長度不同的長度)，並且其中g _a,f是內插函數。

已經認識到，對一個或多個時長調整後的音頻訊號的數值進行這種處理以導出一個或多個輸出訊號y[n]或y _k[n]帶來了特別好的處理結果。具體地，透過這樣的處理可以有效地考慮時長調整的影響，其中例如可以有效地應用上述時間縮放函數。例如，與先前幀和當前幀相關聯的處理參數(或處理參數組、或處理參數矩陣)之間的內插可以以非常高的時間解析度完成(即每個處理步驟)，其中處理步驟可以是時長調整後中間音頻訊號x或x _k的向量與透過參數內插獲得的處理矩陣(例如，混合矩陣或渲染矩陣)之間的矩陣-向量調整。

已經發現，這樣的概念可以有效地用於不同的處理操作，例如使用例如與原始中間音頻訊號的幀或子幀相關聯的一些處理參數的升混、渲染等操作。

總之，已經認識到這個概念是有效的，並且即使在存在時長調整的情況下也允許提供高品質的輸出音頻訊號。

在一實施例中，音頻處理器被配置為使用與音頻的子幀相關聯(例如單獨相關聯)的處理參數(例如後設資料組)來執行第二處理(例如時長調整後中間音頻訊號的渲染或升混)，其中音頻的每幀例如有幾組後設資料；例如，每個子幀都有一組後設資料，其中，例如渲染規則或渲染矩陣或混合規則或混合矩陣是從處理參數導出的，或者其中，例如，處理參數定義渲染規則或渲染矩陣或混合規則或混合矩陣。

透過在第二處理中使用與音頻幀的子幀相關聯的處理參數，可以實現高時間解析度。例如，每個子幀可以有一個處理參數或每個子幀可以有一組處理參數，因此，第二處理可以以子幀時間解析度快速地對音頻內容的變化做出反應。

因此，透過第二處理可以實現音頻內容的良好再現或渲染。

在一實施例中，音頻處理器被配置為使用與給定子幀(例如，一個或多個時長調整後中間音頻訊號的)相關聯的處理參數，並且可選地使用一個或多個時長調整後中間音頻訊號的訊號特性來獲得用於第二處理的處理規則，例如使用一個或多個時長調整後中間音頻訊號的組合能量。

透過使用與給定子幀相關聯的處理參數來獲得用於第二處理的處理規則，可以實現精細的時間粒度，這帶來音頻內容的良好品質的再現或渲染。此外，透過在確定處理規則時考慮給定子幀中的一個或多個時長調整後中間音頻訊號的訊號特性，可以在決定處理規則時考慮訊號特性，使得一定量的後設資料(或輔助資訊)可以保持相當小。例如，一個或多個時長調整後中間音頻訊號的組合能量可用於調整第二處理的處理規則，這通常導致很好地適配於實際訊號特性而不需要高位元率的處理。

在一實施例中，音頻處理器被配置為例如根據時長調整來決定定義時隙(例如一個或多個時長調整後中間音頻訊號)和子幀索引(例如一個或多個原始中間音頻訊號的子幀)之間的關聯的映射向量，使得映射描述哪些處理參數被分配(或最適合)於時長調整後中間音頻訊號的哪個時隙。

已經發現，依賴時長調整來決定時隙和子幀索引之間的關聯的這樣的概念有助於決定具有良好時間解析度的處理參數。例如，可以決定時長調整後中間音頻訊號的某個時隙是基於(或主要基於)原始中間音頻訊號的哪個子幀，並且這種關聯性可以反映在映射向量中。因此，時長調整後中間音頻訊號的每個時隙可以與映射向量中的原始中間音頻訊號的子幀相關聯，並且該關聯可以用於決定針對原始中間音頻訊號的幀或子幀的處理參數(或後設資料)。在本實施態樣中，應注意者，當與原始中間音頻訊號相比時，時隙與子幀的關聯對於時長調整後中間音頻訊號可以是不同的。然而，透過使一個(原始)子幀(以及因此其後設資料)與時長調整後中間音頻訊號的每個時隙相關聯，可以輕易地決定與時長調整後中間音頻訊號的子幀相關聯的處理參數(或後設資料)。

在一實施例中，音頻處理器被配置為根據下式決定映射向量：或根據下式：其中，m _sf[n]是映射向量的元素，其中，n是時隙索引；其中，n _offset為偏移值；其中，L _seg為時隙中的一個或多個原始中間音頻訊號的一幀長度的一半；其中，2L _seg為時隙中的一個或多個原始中間音頻訊號的一幀的長度；其中，Lsf為時隙中一個子幀的長度；其中，L _md為後設資料緩衝區的長度；其中，n _offset是；和其中，g _a,map[n]是內插函數；其中，表示四捨五入到最接近的整數；其中，modulo是模運算；和其中，除法是整數除法。

已經發現，這種決定映射向量的方式是特別有效的。特別地，可以透過考慮內插函數g _a來進行時長調整。然而，已經認識到，這樣的映射向量非常適合用於導出與時長調整後中間音頻訊號的時隙或子幀相關聯的處理參數(或後設資料)。

在一實施例中，其中，L _f為時隙中待處理的幀的長度；和其中，L _rem=L _f-L _seg。

在一實施例中，音頻處理器被配置為根據時長調整來決定一映射向量，用以定義一個或多個時長調整後中間音頻訊號的時隙與一個或多個原始中間音頻訊號的時隙之間的關聯，其中，例如，緩衝器以時隙方式儲存後設資料，例如發送的後設資料(即使後設資料是按子幀提供的，其中子幀包括多個時隙)。在一實施例中，音頻處理器被配置為根據下式決定映射向量：其中，n是時隙索引，其中，2Lseg為一個或多個原始中間音頻訊號在時隙中的一幀的長度；和其中，g _a,map[n]是一內插函數(例如，如上所述的)。

在一實施例中，音頻處理器被配置為根據時長調整來決定一映射向量，用以定義一個或多個時長調整後中間音頻訊號的時隙與一個或多個原始中間音頻訊號的時隙之間的關聯，例如，使得映射向量描述哪些處理參數被分配(或最適合)於時長調整後中間音頻訊號的哪個時隙，例如，在處理參數在每個時隙的基礎上可用的情況下，例如在輸入音頻表示中的(例如以編碼形式)、或作為在第一處理中執行的分析的結果。

透過定義一個或多個時長調整後中間音頻訊號的時隙與一個或多個原始中間音頻訊號的時隙之間的這種關聯，可以實現特別高的時間解析度。例如，時間解析度可以明顯比子幀精細(其中，例如，子幀可以包括多個時隙)。因此，透過使用指示哪些處理參數(如後設資料)在非常高的時間解析度下可用(或應該使用)的映射向量，例如基於每個時隙，可以高效且準確地決定時長調整後中間音頻訊號的時間尺度的處理參數。例如，映射向量可以定義例如時長調整後中間音頻訊號的哪個時隙與原始中間音頻訊號的哪個時隙最密切相關。因此，可以基於時長調整的知識有效地導出映射向量。因此，映射向量可以決定哪些處理參數(例如，後設資料)(通常與原始中間音頻訊號的時隙相關聯地定義)最適合時長調整後中間音頻訊號的不同時隙。因此，定義一個或多個時長調整後中間音頻訊號的時隙與一個或多個原始中間音頻訊號的時隙之間的關聯的映射向量可很好地用於匯出用於第二處理的處理參數。

在一實施例中，音頻處理器被配置為使用與構成一個或多個時長調整後標中間音頻訊號的給定子幀的時隙(例如根據映射向量，可以是後設資料映射向量)相關聯的處理參數(例如後設資料)(例如，使用與構成給定子幀的時隙相關聯的處理參數的平均值)，來決定與該一個或多個時長調整後中間音頻訊號的給定子幀相關聯的處理參數。音頻處理器可以例如被配置為使用與構成給定子幀的時隙相關聯的後設資料的平均來獲得與給定子幀相關聯的後設資料，或者音頻處理器可以被配置為使用與各個時隙相關聯的處理參數(例如使用時隙的後設資料)來獲得每個時隙的渲染規則或升混規則或中間參數(並且可選擇性地也使用一個或多個原始中間音頻訊號或一個或多個時長調整後中間音頻訊號的訊號特性；例如使用傳輸通道訊號特性)，以及使用與構成子幀的時隙相關聯的渲染規則或升混規則或中間參數的平均值來獲得與子幀相關聯的渲染規則或升混規則或中間參數。

已經發現，在存在高時間解析度後設資料或高時間解析度處理參數的情況下，可以執行與一個或多個時長調整後中間音頻訊號的給定子幀相關聯的處理參數(或後設資料)的決定，以可靠的方式，考慮與構成給定子幀的時隙相關聯的處理參數(或後設資料)。已經發現，在一些情況下，可以將時長調整後中間音頻訊號的時隙與原始中間音頻訊號的對應時隙相關聯。因此，通常可以決定與時長調整後中間音頻訊號的時隙(時長調整後中間音頻訊號的)相關聯的處理參數(例如，後設資料)。因此，也可以基於與構成(時長調整後中間音頻訊號的)子幀的那些時隙相關聯的處理參數(例如，後設資料)來有效率地決定與時長調整後中間音頻訊號的子幀相關聯的處理參數(例如，後設資料)。因此，即使通常不可能在時長調整後中間音頻訊號的子幀和原始中間音頻訊號的子幀之間具有清晰的關聯(因為時長調整)，時隙的時間粒度可能足以以有意義的方式進行這樣的分配。因此，使用與時隙相關聯的處理參數作為用於決定與子幀相關聯的處理參數的中間量，能夠以有效的方式帶來可靠的結果。

在一實施例中，音頻處理器被配置為使子幀的時隙之間的內插(例如，處理參數的內插，如定義混合規則的參數)，適配於通過時長調整獲得的子幀的大小(例如，在一個子幀的時隙的大小因時長調整而改變的情況)。

透過使子幀的時隙之間的內插適配於透過時長調整獲得的子幀的大小，可以有效地處理子幀的大小根據時長調整而變化的情況。因此，可以根據子幀的實際大小(例如，按照時隙測量)，以可靠且高效的方式獲得與子幀相關聯的處理參數(例如，後設資料)。

在一實施例中，音頻處理器被配置為根據當前幀的時長調整(並且可選地還根據一個或多個先前幀的時長調整)來調整(例如移位)一個或多個時長調整後中間音頻訊號的子幀的子幀網格，其中，例如，一個或多個時長調整後中間音頻訊號的子幀的長度可以保持不變。

透過根據時長調整來移動一個或多個時長調整後中間音頻訊號的子幀的子幀網格，即使經過時長調整的調整，仍然可以具有例如就多個時隙而言相等長度的子幀，例如，子幀網格可以改變，從而改變子幀的時隙分配。然而，子幀網格甚至可以以比時隙長度更精細的解析度改變。因此，可以有效地使用時長調整後中間音頻訊號的時域值或頻域值，並且即使存在時長調整，第二處理中基於子幀的操作也可以保持不變，例如，可以避免子幀的重疊，並且可以以使得緩衝盡量保持較小或甚至可以避免緩衝的方式調整子幀網格。因此，子幀網格的調整已被證明是用於進一步處理時長調整後中間音頻訊號的有效解決方案。

在音頻處理器的一實施例中，第一處理是音頻解碼，其中，例如，音頻處理器包括音頻解碼器以執行第一處理。

已經認識，僅在音頻解碼之後執行時長調整是有利的，因為通常不可能在音頻解碼之前以相當精細的時間粒度執行時長調整，因為音頻解碼通常在相對較大的時間粒度上進行操作。然而，已經認識到，音頻解碼和隨後的進一步處理(第二處理)之間的時長調整的實現通常是非常有效的解決方案，因為進一步處理通常增加音頻資訊的量並因此使得在第二處理後的時長調整更具挑戰性。

總而言之，已經發現，在作為解碼的第一處理之後使用時長調整構成了有效的解決方案，特別是如果在解碼之後存在進一步的處理(第二處理)，並且對時長調整的基礎上調整了中間音頻訊號。

在音頻處理器的一實施例中，第一處理包括解碼、渲染、重建和編碼中的至少一個，和/或第二處理包括解碼、渲染、重建和編碼中的至少一個。

已經認識到，在此類處理功能之間引入時長調整是有效的並且可以產生良好的音頻品質，其中應注意的是，在時長調整之後的第二處理中可能需要的處理參數的調整通常可以透過適度的努力來執行。此外，應注意者，”第二”處理可以例如包括多個組合的或單獨的處理步驟。換句話說，已經認識到，在許多情況下，在可以包括兩個或更多處理功能的多步驟處理鏈的中間進行時長調整就足夠了。

在一實施例中，音頻處理器被配置為從輸入緩衝器接收輸入音頻訊號表示(其中輸入緩衝器可以是或可以不是音頻處理器的一部分)。

已經認識到，使用輸入緩衝器(可以在第一處理之前按處理順序排列)有助於處理抖動，例如，包括輸入音頻訊號表示的資料封包的資料封包抖動。例如，這樣的抖動緩衝器可能有助於以相對較快的方式補償大封包延遲。然而，音頻處理器中時長調整的存在可以允許保持輸入緩衝器的大小相當小，因為時長調整可以適配於相對大的時間抖動，只要大的時間抖動發生在相當長的時間尺度上。因此，應注意者，輸入緩衝器(其可以是抖動緩衝器)與可以例如儲存包括輸入音頻訊號的編碼表示和時長調整的多個封包的組合允許處理短期抖動和長期抖動。總而言之，已經發現，具有輸入緩衝器、第一處理和第一處理之後的時長調整、以及在時長調整之後執行的第二處理的結構，在許多情況下是有利的。

在一實施例中，音頻處理器被配置為從抖動緩衝器接收輸入音頻訊號表示(其中抖動緩衝器可以是或可以不是音頻處理器的一部分)，並且音頻處理器包括時間縮放控制以調整時長調整，時間縮放控制是抖動緩衝控制，例如，其可以根據抖動緩衝器的充滿度和/或根據包含輸入音頻表示的封包的封包抖動的特性和/或根據使用者設定來調整時長調整。

如上所述，已經發現，使用抖動緩衝器是有利的，因為其有助於補償封包抖動。此外，已經認識到，使用作為抖動緩衝器控制的時間縮放控制是特別有利的，因為這允許使時長調整適配於抖動緩衝器的充滿度或抖動充滿度的變化。因此，在時間縮放控制的控制下，可以使用時長調整來避免抖動緩衝器的欠載或溢位。還已經認識到，在第一處理(例如，可以是對例如以封包形式儲存在抖動緩衝器中的編碼音頻表示進行解碼)之後的時長調整的設置，構成了計算高效的解決方案，可提供良好的音頻品質。

在音頻處理器的一實施例中，第一處理包括編碼傳輸通道的解碼，其中，例如，音頻處理器包括一解碼器，並且其中，例如，一個或多個傳輸通道的編碼表示可以構成輸入音頻表示，並且其中，例如，一個或多個傳輸通道的解碼表示可以組成(原始)中間音頻訊號。此外，第二處理包括渲染(例如渲染器)，其被配置為基於時長調整的傳輸通道和相關聯的後設資料來重建編碼或中間音頻格式，並將編碼或中間音頻格式渲染為輸出格式，其中時長調整的傳輸通道可以是時長調整後中間音頻訊號。

這個概念基於以下發現：解碼的傳輸通道通常非常適合時長調整的應用，因為解碼的傳輸通道通常以足夠細的時間粒度來表示，例如，以時域樣本的形式或以頻域樣本的形式，使得可以有效地進行時長調整。此外，解碼的傳輸通道通常包括相對較小的資料量，因為解碼的傳輸通道常常構成其中增加音頻訊號的數量的升混/渲染的基礎，並且因為解碼的傳輸通道有時也構成增加資料量的頻寬擴展的基礎。因此，已經認識到，將時長調整應用於解碼的傳輸通道比在第二處理中輸出從解碼的傳輸通道導出的訊號更有利。

在音頻處理器的一實施例中，渲染(例如渲染器)被配置為重建編碼音頻格式或中間音頻格式，且以在兩個連續的(例如單獨的)處理步驟中將編碼的音頻格式或中間音頻格式渲染為輸出格式。

已經發現，這種多步驟過程在計算上是高效的，因為可以執行編碼音頻格式或中間音頻格式的重建，以及利用單獨的處理步驟的方式將編碼音頻格式或中間音頻格式渲染為輸出格式，例如，使用單獨的處理參數。這樣的處理可以例如允許容易實現可以處理不同類型的輸出格式的系統。

在音頻處理器的一實施例中，音頻處理器的功能被分佈到兩個或更多個裝置，其間具有一介面。

例如，如果主要處理功能在具有較高運算能力的裝置中執行，而一些處理功能由具有較低運算能力的裝置執行，則這樣的實施方式可以是有利的。例如，介面可以被插入到處理鏈中的一點處，其中待傳輸的資料量可跨介面傳送，同時具有較低處理能力的裝置處的處理工作量保持相當小的。例如，在一些實施例中，經由介面將時長調整後中間音頻訊號轉發到另一裝置可能是有利的，因為時長調整後中間音頻訊號通常具有相對較低的資料率(例如，當與輸出音頻訊號相比時)，而計算上具有挑戰性的解碼和時長調整可以在具有大處理能力的強大裝置中執行。

因此，將音頻處理器的功能分配給兩個或多個裝置的概念在許多情況下可能是有利的。

在一實施例中，音頻處理器包括被配置為提供時長調整後中間音頻訊號(例如時長調整的解碼傳輸通道)和相關聯的後設資料(例如與時長調整的解碼傳輸通道相關聯的後設資料，其可以適配於時長調整或依賴於時長調整)的介面，以便用於後續渲染。

已經認識到，時長調整後中間音頻訊號和相關聯的後設資料可以透過介面(例如，位在不同的且可能空間上分離的裝置之間)有效地傳輸。因此，可以以有利的方式分配功能，從而最佳地利用各自的處理能力和介面能力。

在音頻處理器的一實施例中，第二處理是渲染，其中渲染(例如渲染器)被配置為利用一組合處理步驟來處理編碼音頻格式和/或中間音頻格式的重建，以及對重建的編碼音頻格式和/或中間音頻格式進行渲染。

已經發現，在某些情況下，利用一組合處理步驟來處理編碼音頻格式和/或中間音頻格式的重建，以及對重建的編碼音頻格式和/或中間音頻格式進行渲染可能是有利的。例如，已經認識到可以使用單一矩陣混合操作來執行此處理，這可以例如降低複雜性並且消除儲存(或緩衝)中間訊號的需要。因此，這裡描述的概念在某些處理場景中是有效的。

在音頻處理器的一實施例中，一個或多個中間音頻訊號是時域訊號，且音頻處理器被配置為對時域中間音頻訊號(例如，在時域中)執行時長調整。

已經認識到，時域訊號在許多情況下是有效的。例如，已經認識到，可以基於時域訊號有效地執行時長調整，因為可以在時域中輕鬆執行有助於高品質時長調整的相關性。此外，也認識到，時域訊號非常適合不同變換域(例如，不同譜域或頻域)之間的過渡。因此，已經發現，使用一個或多個時域訊號作為一個或多個中間音頻訊號是一種有利的解決方案。

在一較佳實施例中，音頻處理器(例如音頻處理器的時間縮放器)被配置為同步多個中間音頻訊號上的時間縮放操作，例如，使用多通道時間縮放為每個時長調整後中間音頻訊號提供相同數量的時域樣本。

已經認識到，多個中間音頻訊號的時間縮放操作的同步有助於減少在多個中間音頻訊號的情況下的可聽偽影。例如，多個中間音頻訊號上的時間縮放操作的同步可以執行多重相關以決定適當的共同時移，其允許對所有中間音頻訊號進行良好品質的重疊相加操作，因此，可聽偽影可以被減少到可容忍的程度。

在一實施例中，音頻處理器被配置為根據時長調整來修改瞬態位置資訊。

在一實施例中，音頻處理器被配置為根據下式獲得適配的瞬態位置其中，n _T為原始瞬態位置值，其中，L _f是一個或多個時長調整後中間音頻訊號的一幀的長度；和其中，2L _seg為一個或多個原始中間音頻訊號的一幀的長度。應注意的是，n _T、L _f和L _seg較佳地應以相同的時間解析度來表示，例如以具有瞬時位置值的時間解析度來表示，例如，以一個樣本的時間解析度來表示，或以給定數量的樣本的時間解析度來表示，或以一個時隙的時間解析度來表示，或以一個子幀的時間解析度來表示，或以兩個時隙的時間解析度來表示。

根據本發明的實施例創建了用於基於輸入音頻訊號表示(例如多通道音頻內容的編碼表示)提供處理後(例如解碼和渲染)的音頻訊號表示(例如，以多個渲染的時域音頻訊號的形式)的音頻處理系統(例如音頻解碼器)。音頻處理系統被配置為執行多個處理步驟(例如單獨的處理功能；例如第一處理和第二處理)，以便基於輸入音頻訊號表示提供經處理的音頻訊號表示。音頻處理系統被配置為對由第一處理(例如第一處理步驟)提供的一個或多個中間音頻訊號執行時長調整(例如，由第一處理提供的音頻訊號部分(例如音頻幀)的長度的修改)，以獲得一個或多個時長調整後中間音頻訊號。此外，音頻處理系統被配置為基於一個或多個時長調整後中間音頻訊號或基於從一個或多個時長調整後中間音頻訊號導出的訊號來執行在第一處理(例如第一處理步驟)之後的第二處理(例如第二處理步驟；例如升混和/或渲染)。音頻處理系統的功能被分配給兩個或多個裝置。

應注意者，此音頻處理系統基於與上述音頻處理器相同的配置。然而，應注意者，音頻處理系統的不同功能可以分佈到不同的實體，例如實體上分離的裝置。然而，已經認識到，將功能分佈到兩個或更多個裝置在多種情況下帶來優勢，例如，在處理應該分佈在具有不同處理能力的裝置之間的情況下，其中介面能力也需要被考慮。總而言之，音頻處理系統允許將本揭露所述的概念適應於分散式應用。

此外，應注意者，音頻處理系統可以可選地由本揭露公開的任何特徵、功能和細節(無論是單獨的還是組合的)來補充，例如，就音頻處理器而言。

在一實施例中，音頻處理系統包括一介面，用於將時長調整後中間音頻訊號(例如，時長調整的解碼傳輸通道)和相關聯的適配的後設資料提供給第二處理(例如渲染)，第二處理發生在與第一處理不同的裝置。

本實例基於以下發現：時長調整後中間音頻訊號和相關聯的後設資料通常可以以有效的方式從一個裝置傳輸到另一個裝置，因為這些資訊通常包括足夠小的位元率以適合經由介面的有效交換，另外，還可以參考上面對音頻處理器的分散式實例的討論。

根據本發明的一實施例創建用於基於編碼音頻表示提供解碼音頻表示的音頻解碼器。音頻解碼器包括如本揭露所公開的音頻處理器，例如，第一處理包括一個或多個編碼傳輸通道的解碼，其中，例如，一個或多個中間音頻訊號是一個或多個解碼的傳輸通道；例如，第二處理包括一個或多個時長調整後中間音頻訊號的渲染或升混，其中，例如，渲染或升混的音頻通道構成經處理的音頻表示。

已經認識到，本揭露所公開的音頻處理器非常適合在音頻解碼器中使用。具體地，本揭露所公開的音頻處理器非常適用於包含多個處理階段或處理步驟的音頻解碼器，其中這些步驟中的一個或多個可以作為第一處理來執行，並且這些處理步驟中的其他一個或多個可以作為第二處理來執行。換句話說，已經認識到，音頻處理器(以及對中間音頻訊號執行時長調整的概念)非常適合用於音頻解碼器。

根據本發明的實施例創建了一種用於基於輸入音頻訊號表示(例如，多通道音頻內容的編碼表示)提供處理的(例如解碼和渲染的)音頻訊號表示(例如，以多個渲染的時域音頻訊號的形式)的方法。此方法包括執行多個處理步驟(例如單獨的處理功能；例如第一處理和第二處理)，以便基於輸入音頻訊號表示提供經處理的音頻訊號表示。此方法包括對由第一處理(例如第一處理步驟)提供的一個或多個中間音頻訊號執行時長調整(例如，由第一處理提供的音頻訊號部分(例如音頻幀)的長度的調整)，以獲得一個或多個時長調整後中間音頻訊號，並且該方法包括在第一處理(例如第一處理步驟)之後執行的基於一個或多個時長調整後中間音頻訊號的第二處理(例如第二處理步驟；例如升混和/或渲染)。

該方法基於與本揭露所公開的音頻處理器相同的考量。因此，該方法可以可選地由本揭露所公開的關於音頻處理器的任何特徵、功能和細節(無論是單獨的還是組合的)來補充。

根據本發明的實施例創建一種電腦程式，當該電腦程式在電腦上運行時，可以執行本揭露所公開的方法。

1. 如圖1所示的音頻處理器

圖1顯示根據本發明實施例的音頻處理器100的方塊示意圖。音頻處理器100被配置為接收輸入音頻訊號表示110，並且基於其提供經處理的音頻訊號表示112，經處理的音頻訊號表示112也可以被認為是輸出音頻訊號表示。音頻處理器100被配置為執行多個處理步驟，以便基於輸入音頻訊號表示來提供經處理的音頻訊號表示112。具體地，音頻處理器100包括第一處理120，其接收輸入音頻訊號表示110，並且基於其提供一個或多個中間音頻訊號122。例如，第一處理120可以包括第一處理步驟，但是可選地，第一處理120可以包含多個處理步驟。

音頻處理器100也被配置為對由第一處理120提供的一個或多個(原始)中間音頻訊號122執行時長調整，以獲得一個或多個時長調整後中間音頻訊號132。換句話說，時長調整130接收一個或多個中間音頻訊號122，執行時長調整，並且作為時長調整的結果，提供一個或多個時長調整後中間音頻訊號132。音頻處理器100也被配置為基於一個或多個時長調整後中間音頻訊號來執行在第一處理之後的第二處理。例如，音頻處理器100可以包括第二處理140，其接收一個或多個時長調整後中間音頻訊號132、處理該一個或多個時長調整後中間音頻訊號並且作為處理的結果提供經處理的音頻訊號。例如，第二處理142可以包括第二處理步驟，然而，第二處理可以可選地包括多個處理步驟以基於一個或多個時長調整後中間音頻訊號132導出經處理的音頻訊號表示112。

音頻處理器100基於以下發現：基於一個或多個中間訊號(即，在時長調整之前執行的第一處理與在時長調整後執行的第二處理之間)執行時長調整，以及使用由時長調整提供的一個或多個時長調整後中間音頻訊號是有利的。具體地，已經認識到，不同處理步驟之間的時長調整(其基於輸入音頻訊號表示提供經處理的音頻訊號表示112(例如，解碼和渲染的音頻訊號表示或解碼和重建的音頻訊號表示)，通常比將時長調整應用到由處理鏈末端提供的最終音頻訊號更有效。例如，第一處理120的輸出處的通道數量可以小於經處理的音頻訊號表示112的通道數量，使得將時長調整130應用到一個或多個中間音頻訊號122與對最終經處理的音頻訊號表示112可能應用的時長調整相比，需要更少的努力(例如，計算資源)。例如，已經發現在第二處理步驟之前應用時長調整130是有利的，這增加了通道的數量和/或增加了音頻通道的頻寬，因為將時長調整應用到較小數量的音頻通道比將時長調整應用到經處理的音頻訊號表示112的增加數量(例如，渲染或升混或頻寬擴展)的通道更容易，其中經處理的音頻訊號表示112是透過進一步處理，例如基於一個或多個中間音頻訊號122的第二處理140。然而，也已經認識到，在許多情況下，與將應用於輸入音頻訊號表示的時長調整相比，更容易對一個或多個中間訊號應用時長調整130。例如，如果輸入音頻訊號表示110是編碼形式，時長調整將非常複雜，相反地，已經發現在解碼之後應用時長調整(其可以作為第一處理的一部分來執行或可以作為第一處理來執行)是高效的。

總而言之，音頻處理器100在計算複雜性和可實現的音頻品質之間帶來良好的折衷，其中，已經發現，對一個或多個中間訊號(即在兩個處理步驟之間)應用時長調整是非常有利的。

此外，應注意者，音頻處理器100可以可選地由本揭露所公開的特徵、功能和細節中的任一個單獨地或組合地補充。

例如，第二處理可以可選地包括兩個或更多個處理功能(或處理步驟)，其可以是基本上獨立的或可以以組合方式執行。

2. 如圖2所示的音頻處理系統

圖2顯示根據本發明實施例的音頻處理系統的方塊示意圖。根據圖2的音頻處理系統200被配置為接收輸入音頻訊號表示210並且基於其提供經處理的音頻訊號表示212。音頻處理系統200包括第一處理或第一處理器220，其接收輸入音頻訊號表示210並基於其提供一個或多個中間音頻訊號222。音頻處理系統200還包括時長調整或時長調整器230，其接收一個或多個中間音頻訊號222並應用時長調整。因此，時長調整/時長調整器230將一個或多個時長調整後中間音頻訊號232提供給第二處理或第二處理器240。第二處理或第二處理器240對一個或多個時長調整後中間音頻訊號或對從時長調整後中間音頻訊號導出的訊號應用進一步的處理，並且作為處理的結果提供經處理的音頻訊號代表212。例如，第一處理220和時長調整230之間可以存在介面。替代地或附加地，在時長調整/時長調整器230和第二處理/第二處理器240之間可以存在一介面，例如，第一處理/第一處理器220和第二處理/第二處理器240可以分佈到兩個或更多個裝置，例如，分佈到兩個或更多個單獨的硬體裝置，其可以例如使用有線連結或使用無線連結。例如，第一處理/第一處理器220和第二處理/第二處理器240可以是一起形成音頻處理系統200的實體上分離的裝置的一部分。時長調整230可以例如被包含在包含第一處理/第一處理器220的裝置中或可以包含在包含第二處理/第二處理器240的裝置中。

總而言之，音頻處理系統可以適合於基於輸入音頻訊號表示210提供經處理的音頻訊號表示212。音頻處理系統被配置為執行多個處理步驟，以便基於輸入音頻訊號表示210提供經處理的音頻訊號表示212。單獨的處理步驟可以例如由第一處理/第一處理器220和由第二處理/第二處理器240執行。音頻處理系統被配置為對由第一處理220提供的一個或多個中間音頻訊號222執行時長調整230，以便獲得一個或多個時長調整後中間音頻訊號232。此外，音頻處理系統被配置為基於一個或多個時長調整後中間音頻訊號232來執行在第一處理220之後的第二處理240。具體地，音頻處理系統的功能被分佈到兩個或更多個裝置，其中，例如，第一處理220和第二處理240可以被包括在單獨的裝置中。

然而，應注意者，音頻處理系統200可以可選地包括第三處理/第三處理器250，其可以位於第二處理/第二處理器240之後。例如，第三處理/第三處理器250可以執行一個或多個另外的處理功能，其產生(最終)經處理的音頻訊號(例如，可以輸出給使用者的音頻訊號)。

應注意者，可選地，第三處理可以在與第一處理不同的(實體)裝置中執行。例如，第三處理可以在與第二處理相同的裝置中執行。作為另一個替代方案，第三處理可以在與第二處理不同的(實體)裝置備中執行(例如，利用第二處理和第三處理之間的有線或無線介面)。

例如，可以實現分割渲染(即，傳輸通道(TC)解碼、雙耳渲染到三個不同的頭部位置、將後設資料傳送到周邊裝置、根據實際頭部位置在周邊裝置中完成渲染)。例如，傳輸通道解碼、時長調整和到三個不同頭部位置的雙耳渲染(或預渲染)可以在第一裝置中或甚至在兩個裝置中執行，預渲染的結果和後設資料(可以將(例如，適配的後設資料)傳送到周邊設備(例如，經由有線或無線介面)，並且可以在周邊裝置中執行根據實際頭部位置的渲染的完成。然而，將多個功能以不同方式分配到兩個或更多硬體設備或硬體裝置也是可能的。

然而，應注意者，音頻處理系統200包括與音頻處理器100類似的優點。

此外，應注意者，音頻處理系統200可以可選地由本揭露所公開的任何特徵、功能和細節來補充。具體地，音頻處理系統200可以可選地由關於音頻處理器100所公開的任何特徵、功能和細節來補充，無論是單獨的還是組合的。

3. 如圖3所示的音頻解碼器

圖3顯示根據本發明實施例的音頻解碼器300的方塊示意圖。音頻解碼器300被配置為接收編碼的音頻表示310並且基於其提供解碼的音頻表示312。具體地，音頻解碼器300包括音頻處理器340，其中音頻處理器340可以例如對應於如圖1所示的音頻處理器100。例如，由音頻處理器340執行的第一處理可以包括對一個或多個編碼傳輸通道的解碼，其可以例如由編碼音頻表示來表示，因此一個或多個中間音頻訊號可以是一個或多個解碼傳輸通道。例如，第二處理包括一個或多個時長調整後中間音頻訊號的渲染或升混，其中，例如，渲染的或升混的音頻通道構成處理的音頻表示(並且可以形成解碼的音頻表示312)。換句話說，音頻解碼器300的不同功能，例如傳輸通道解碼和渲染/升混可以由音頻處理器340執行，例如作為第一處理120和作為第二處理140，因此時長調整可以在由音頻解碼器300執行的不同功能之間執行。至此，音頻解碼器300包含與音頻處理器100相同的優點。

此外，應注意者，音頻解碼器300可以可選地由本揭露所公開的任何特徵、功能和細節來補充，例如，關於音頻處理器的特徵、功能和細節。

4.如圖4所示的方法

圖4顯示用於基於輸入音頻訊號表示來提供經處理的音頻訊號表示的方法400的流程圖。方法400包括步驟410，用以執行第一處理以提供一個或多個中間音頻訊號。方法400還包括步驟420，用以對一個或多個中間音頻訊號執行時長調整。方法400還包括步驟430，用以基於一個或多個時長調整後中間音頻訊號來執行第二處理。因此，該方法可以例如包括(或執行)音頻處理器100或音頻處理系統200或音頻處理器340的功能。因此，方法400可以帶來與上面討論的音頻處理器100相同的優點。

此外，應注意者，方法400可以可選地由本揭露所公開的任何特徵、功能和細節來補充，例如，對於音頻處理器、對於音頻處理系統以及對於音頻解碼器，無論是單獨的還是組合的。

5. 如圖9所示音頻處理

圖9顯示根據本發明實施例的音頻處理/音頻處理器900的方塊示意圖。根據圖9的音頻處理器被配置為接收輸入音頻訊號表示910並且基於其提供一個經處理的音頻訊號912(或多個經處理的音頻訊號)。音頻處理器900包括第一處理步驟(或第一處理)920，其接收輸入音頻訊號表示910並基於其提供第一中間音頻訊號(其以922表示)。音頻處理器900還包括時長調整(TSM)930，其接收第一中間音頻訊號(其以922表示)並基於其提供時長調整後第一中間音頻訊號(其以932表示)。然而，需注意者，第一中間音頻訊號可以可選地被多個中間音頻訊號取代，且時長調整後第一中間音頻訊號(932)可以選擇性地由多個時長調整後中間音頻訊號取代，其中應注意的是，在任一實施例中可以使用一個或多個中間音頻訊號。時長調整後第一中間音頻訊號(932)輸入到第二處理步驟940，第二處理步驟940基於時長調整後第一中間音頻訊號提供第二中間音頻訊號(以942表示)。可選地，音頻處理器100可以包括一個或多個另外的處理步驟，例如直至第n處理步驟(或第n處理，或第n處理器)，其以950表示，用以進一步處理第二中間音頻訊號(其以942表示)或從第二中間音頻訊號導出的另一個中間音頻訊號。例如，每個處理步驟(或每個處理、或每個處理器)可以提供新的中間音頻訊號，然後將其饋送到後續處理步驟(或處理或處理器)。因此，第n處理步驟950可以接收第n-1個中間音頻訊號。然而，處理鏈中的最後一個處理步驟(在本實施例中，第n處理步驟，以950表示)提供經處理的音頻訊號912。

在這點上，應注意者，總共可以有兩個處理步驟，例如，第一處理步驟(其以920表示)以及第二處理步驟(其以940表示)。然而，應注意者，可選地，在時長調整930之前可以存在兩個或更多個處理步驟，並且可選地，在時長調整930之後可以存在兩個或更多個處理步驟。

總而言之，圖9顯示對中間音頻訊號進行時長調整的音頻處理器。因此，將時長調整應用於由時長調整之前的處理步驟提供的中間音頻訊號，並且時長調整將時長調整後中間音頻訊號提供給後續處理步驟。

然而，應注意者，音頻處理器900可以包括前述的關於音頻處理器100的討論的相同優點。此外，音頻處理器900可以可選地由本揭露所公開的任何特徵、功能和細節來補充，無論是單獨地和組合地。

6. 如圖10所示的音處理器

圖10顯示中間音頻訊號具有參數和時長調整(TSM)的音頻處理器的方塊示意圖。

根據圖10的音頻處理器1000與根據圖9的音頻處理器900類似，因此這裡將不再討論相同的特徵、功能和細節，其可以參考根據圖9的音頻處理器900的討論。

然而，音頻處理器1000被配置為接收與輸入音頻訊號表示910相對應的輸入音頻訊號表示1010。音頻處理器1000被配置為基於輸入音頻訊號表示1010提供經處理的音頻訊號1012。音頻處理器1000包括原則上對應於第一處理步驟920的第一處理步驟1020。然而，音頻處理器1000的第一處理步驟1020被配置為使用一個或多個處理參數1021來調整由第一處理步驟1020執行的處理。第一處理步驟1020被配置為基於輸入音頻訊號表示1010提供的第一中間音頻訊號(其以1022表示)，其中使用一個或多個處理參數1021來控制或調整第一處理步驟1020。關於這個議題，需要注意的是，可參考圖10中的”第一處理參數”。然而，可選地，第一處理步驟1020可以使用多個第一處理參數。此外，應注意者，圖10顯示出第一處理步驟提供”第一中間音頻訊號”。然而，可選地，第一處理步驟1020可以提供多個中間音頻訊號。

音頻處理器1000包含時長調整1030，其對應於時長調整930。時長調整1030提供時長調整後第一中間音頻訊號(其以1032表示)。然而，替代地，時長調整1030可以提供多個時長調整後中間音頻訊號。

音頻處理器1000還包括第二處理步驟1040，其接收時長調整後第一中間音頻訊號(或多個時長調整後第一中間音頻訊號)。第二處理步驟1040原則上可以對應第二處理步驟940。然而，第二處理步驟1040使用第二處理參數(其以1041表示)，以便控制或調整第二處理步驟1040。然而，可選地，第二處理步驟1040可以接收並使用多個處理參數，因此，第二處理步驟1040提供第二中間音頻訊號(其以1042表示)。然而，可選地，第二處理步驟1040可以提供多個中間音頻訊號。

應注意者，第一處理1020可以向時長調整1030提供任意數量的中間音頻訊號，其中時長調整1030通常提供相同數量的時長調整後第一中間音頻訊號(1032)。換句話說，時長調整1030通常不會改變中間音頻訊號的數量。然而，第二處理步驟1040可以例如從時長調整1030接收第一數量的時長調整後中間音頻訊號、並且提供第二數量的中間音頻訊號或經處理的音頻訊號作為輸出。換句話說，第二處理步驟1040可以例如執行升混或降混，其中較佳是執行升混。

此外，音頻處理器1000可以可選地包含一個或多個額外的處理步驟，例如第n處理步驟1050。一個或多個可選的額外的處理步驟(例如，第n處理步驟1050)可以使用或不使用一個或多個處理參數。因此，音頻處理器1000獲得經處理的音頻訊號1012作為最後處理步驟的輸出(其中，在一些實施例中，第二處理步驟1040可以是最後處理步驟)。此外，應注意者，在某些情況下，僅單一個處理步驟(例如，處理步驟1020、1040、1050中的)使用一個或多個處理參數可能就足夠了。

然而，較佳地，第二處理步驟1040使用一個或多個處理參數來調整由第二處理步驟執行的處理。處理參數可以例如是定義由第二處理步驟1040執行的渲染操作或由第二處理步驟1040執行的升混操作的參數，或控制由第二處理步驟執行的頻寬擴充功能的參數，或調整由第二處理步驟1040執行的處理的任何其他處理參數。

綜上所述，音頻處理器1000的功能類似於音頻處理器900的功能，然而，其中一個或多個處理步驟使用一個或多個處理參數，其中應注意的是，不同的處理步驟可以使用不同的處理參數，並且不同處理步驟所使用的處理參數的數量可能會有所不同，並且其中，例如，每個處理步驟可以使用0個、1個或更多個處理參數。此外，應注意者，處理參數的時間粒度也可以在很寬的範圍內變化，例如，可以按時域樣本、或按頻域樣本、或按時隙、或按子幀、或按幀、或甚至按多個幀的區塊提供處理參數或一組處理參數。

然而，應注意者，根據圖10的音頻處理器1000包括與根據圖1的音頻處理器100類似的優點。具體地，透過在不同(例如，單獨的)處理步驟之間使用時長調整1030，可以實現良好的處理效率並且還可以實現良好的音頻品質。

此外，應注意者，根據圖10的音頻處理器1000可以可選地由本揭露所公開的任何特徵、功能和細節來補充，無論是單獨的還是組合的。

7. 如圖11所示的音頻處理器

圖11顯示根據本發明實施例的在中間音頻訊號和時間縮放控制器上具有時長調整(TSM)的音頻處理器1100的方塊示意圖。

音頻處理器1100類似於音頻處理器100並且類似於音頻處理器1000。

具體地，音頻處理器1100被配置為接收輸入音頻訊號表示1110並且基於其提供經處理的音頻訊號表示1112。音頻處理器1100包括第一處理步驟1120，其可對應於第一處理步驟920或第一處理步驟1020。第一處理步驟1120提供第一中間音頻訊號(以1122表示)並且可以選擇性地提供多個第一中間音頻訊號。音頻處理器1100包含時長調整1130，其可例如對應於時長調整930或時長調整1030。然而，時長調整1130可以從時間縮放控制器1160接收控制訊號1134並且可以向時間縮放控制器1160提供時間縮放資訊1136。此外，時長調整1130可以被設定為向第二處理步驟1140提供時長調整後第一中間音頻訊號(以1132表示)，時長調整後第一中間音頻訊號(以1132表示)可以基於第一中間音頻訊號(以1122表示)，並且可以使用時長調整從第一中間音頻訊號(以1122表示)導出。然而，應注意的是，第一中間音頻訊號和時長調整後第一中間音頻訊號都可以可選地包括多個通道。第二處理步驟1140可以例如對應第二處理步驟940和第二處理步驟1040，並且可以基於時長調整後第一中間音頻訊號1132提供第二中間音頻訊號(以1142表示)。然而，”第二中間音頻訊號”可以例如包含更多數量的通道訊號，其中，第二中間音頻訊號的通道訊號的數量可以等於或不同於輸入到第二處理1140的時長調整後第一中間音頻訊號的通道數量。然而，除了第二處理940、1040的功能之外，第二處理1140還可以從時間縮放控制器1160接收控制訊號1144。

此外，音頻處理器1100包含一個或多個其他的處理步驟，例如第n處理步驟(以1150表示)。因此，經處理的音頻訊號1012可被提供作為第n處理步驟的輸出，或者替代地，在除了第一處理步驟1120和第二處理步驟1140之外不存在其他的處理步驟的情況下，經處理的音頻訊號1012可被提供作為第二處理步驟(1140)的輸出訊號。

然而，一般來說，上面針對音頻處理器900和針對音頻處理器1000應用的任何解釋都是適用的，除了時長調整1130從時間縮放控制器1160接收控制訊號1134，時長調整1130向時間縮放控制器1160提供時間縮放資訊1136，且時長調整後的一個或多個處理步驟(例如，第二處理步驟1140和/或第n處理步驟1150)從時間縮放控制器1160接收對應的控制訊號1144、1154等，這些事實之外。

時間縮放控制器1160可以例如使用控制訊號1134來控制時長調整1130。因此，時間縮放控制器1160可以例如接收關於期望的時間縮放量的資訊(例如，從抖動緩衝器管理)，並且可以向時長調整1130提供控制資訊1134，從而調整時長調整。此外，時間縮放控制器1160可以從時長調整1130接收時間縮放資訊1136。關於這個議題，應注意者，時長調整1130可以基於控制訊號1134但也獨立於第一中間音頻訊號(1122)的訊號特性來決定時長調整的實際量。換句話說，可以根據第一中間音頻訊號的特性來調整時長調整量，從而減少偽影。因此，由時間縮放資訊1136所指示的實際時長調整量可能偏離由控制訊號1134所指示的期望時長調整。

然而，時間縮放控制器1160可以例如根據時間縮放資訊1136例如以迭代方式(例如對於後續幀)來調整期望的時長調整。此外，時間縮放控制器1160可以在時長調整之後向處理步驟1140、1150中的一個或多個提供控制資訊1144、1154。例如，時間縮放控制器1160可以根據時間縮放資訊1136(並且可能根據時間縮放控制器1160接收到的進一步資訊)來提供用於處理步驟的控制資訊1144、1154。因此，時間縮放控制器1160可以在時長調整之後向處理步驟1140、1150提供控制訊號1144、1154，從而使所述處理步驟適配於時長調整(例如，適配於期望的時長調整和/或適配於實際時長調整)。例如，控制訊號1144、1154可以用於調整幀網格或子幀網格，以便透過處理步驟1140、1150來決定處理區塊。然而，控制訊號1144、1154還可以調整處理步驟1140、1150的任何其他處理特性。

總而言之，音頻處理器1100包含多個處理步驟之間的時長調整，使得時長調整對中間音頻訊號1122進行操作。此外，時長調整1130由時間縮放控制器1160控制，且時長調整後的處理步驟1140、1150也適配於實際時長調整。因此，音頻處理器1100帶來了上述相對於音頻處理器100的優點，並且由於處理步驟1140和1150對時長調整的適應而另外提供了改進的音頻品質。

此外，應注意者，音頻處理器1100可以可選地由本揭露所公開的任何特徵、功能和細節來補充。

8. 如圖12所示的音頻處理器

圖12顯示根據本發明實施例的具有對中間音頻訊號的時長調整(TSM)、處理參數適配器和時間縮放控制器的音頻處理器1200的方塊示意圖。

應注意者，根據圖12的音頻處理器1200與根據圖11的音頻處理器1100非常相似。因此，前述之關於音頻處理器1100的那些特徵、功能和細節將不再贅述，而是可以參考前述之音頻處理器1100的討論。

音頻處理器1200被配置為接收輸入音頻訊號表示1210(其對應於輸入音頻訊號表示1110)，並且基於其提供經處理的音頻訊號1212(其對應於經處理的音頻訊號1112)。

音頻處理器1200包括第一處理步驟1220(其對應於第一處理步驟1120)，其中應注意的是，第一處理步驟1220可以例如使用第一處理參數(以1221表示)(或可選擇性地，多個第一處理參數)。第一處理步驟1220基於輸入音頻訊號表示1210提供第一中間音頻訊號(以1222表示)，其中第一處理步驟1220由第一處理參數(1221)控制。音頻處理器1200包括時長調整1230，其接收第一中間音頻訊號(1222)並基於其提供時長調整後第一中間音頻訊號(以1232表示)。時長調整1230接收控制訊號(或控制資訊)1234(對應於控制訊號1134)，並提供時間縮放資訊1236(對應於時間縮放資訊1136)。

音頻處理器1200包括第二處理步驟1240，其接收時長調整後第一中間音頻訊號(1232)並基於其提供第二中間音頻訊號(以1242表示)。第二處理步驟1240可以例如組合第二處理步驟1040的功能(例如，第二處理步驟1240使用處理參數)和第二處理步驟1140的功能(例如，第二處理步驟1240接收控制訊號)。例如，第二處理步驟1240(例如，從時間縮放控制器1260)接收控制訊號1244，並且進一步接收來自第一參數適配器1246的適配的第二處理參數(以1245表示)。例如，第一參數適配器1246接收第二處理參數(以1241表示)，並基於其提供調整後的第二處理參數(以1245表示)。第一參數適配器1246對第二處理參數(1241)的適配例如根據由時間縮放控制器1260提供的控制訊號1247來調整。

因此，時間縮放控制器1260可以例如控制由第二處理1240(其在時長調整1230之後)使用的一個或多個處理參數1241的適配，並且還可以使用控制訊號1244來控制第二處理1240的進一步適配。因此，時間縮放控制器1260可以例如對第二處理(或第二處理步驟)1240執行的處理具有雙重影響。

類似地，可選的其他處理步驟(例如，可選的其他第n處理步驟1250)可以類似於第二處理步驟1240。例如，第n處理步驟1250可以從時間縮放控制器1260接收控制訊號1251a，其中控制訊號1251a的效果可以與控制訊號1154的效果類似。此外，第n處理步驟1250可從參數適配器1256接收一個或多個經適配的處理參數1255。例如，參數適配器1256(例如，第n參數適配器)可以接收一個或多個第n處理參數(以1251表示)。此外，參數適配器1256從時間縮放控制器1260接收控制訊號1257，因此，參數適配器1256可以根據時間縮放控制器1260提供的控制訊號1257來調整一個或多個處理參數1251，從而獲得用於第n處理步驟1250的一個或多個適配的處理參數1255。此外，應注意的是，第n處理步驟1250還可以從時間縮放控制器1260接收控制訊號1254，其中控制訊號1254可以例如使第n處理步驟1250執行的處理適配於時長調整。

時間縮放控制器1260可以例如接收指示期望的時長調整的資訊並向時長調整1230提供控制訊號1234。因此，時間縮放控制器1260可以向時長調整1230發訊號通知期望哪種時長調整。然而，時長調整1230可以向時間縮放控制器1260提供時間縮放資訊1236，其中時間縮放資訊1236可以例如指示實際時長調整，其可以與期望的時長調整不同，這是由於一個或多個中間音頻訊號1222的訊號特性。時間縮放控制器可以例如根據時間縮放資訊1236為時長調整1230之後的處理步驟1240、1250提供控制訊號1244、1254。此外，時間縮放控制器1260可以例如提供控制訊號1247、1257，其根據時間縮放資訊1236來控制相應處理參數1241、1251的適配。因此，時間縮放控制器可以控制對應處理參數(或處理參數組)對時長調整的適配，也可以控制處理步驟1240、1250的處理功能對時長調整的適配。

然而，應該注意的是，不一定具有圖12所示的所有功能。例如，應注意者，第二處理步驟1240之後的任何其他處理步驟可以被認為是可選的。此外，參數適配器1246、1256和控制訊號1244、1254的使用可以被認為是可選的。例如，不需要所有這些功能都存在於一些實施例中。

總而言之，音頻處理器1200包括位於先前處理步驟1220和後續處理步驟1240之間的時長調整1230。音頻處理器1200還包括時間縮放控制器1260，其被配置為根據時長調整來控制用於處理步驟1240的一個或多個處理參數的適配，和/或用於適配處理步驟1240。

然而，應注意者，音頻處理器1200包含本揭露所公開的相對於音頻處理器1000和相對於音頻處理器1100的優點。

此外，應注意者，音頻處理器1200可以可選地由本揭露所公開的任何特徵、功能和細節來補充，無論是單獨的還是組合的。

9. 如圖13所示的音頻處理器

圖13顯示根據本發明實施例的包含播放語音控制的音頻處理器1300的方塊示意圖。音頻處理器1300被配置為接收輸入音頻表示1310並且基於其提供多個重建的音頻通道(以1312表示)，其例如可被視為經處理的音頻訊號表示。音頻處理器1300(其也可以被認為是音頻解碼器)包括解碼(或解碼器)1320，其可以例如執行傳輸通道(以及可選地後設資料)的IVAS解碼，因此，解碼1320可以提供一個或多個解碼的傳輸通道1322並且還可以提供解碼的後設資料1324。音頻處理器1300還包括多通道時長調整1330，其可以例如接收解碼的傳輸通道1322並提供一個或多個時長調整的(解碼的)傳輸通道1332。此外，音頻處理器1300包括重建和渲染1340，其接收時長調整的傳輸通道1332並且基於其提供重建的音頻通道1312。此外，音頻解碼器包括後設資料適配1370，其接收解碼的後設資料1324並基於其向重建和渲染1340提供適配後的後設資料1372。此外，音頻處理器1300包括播放速度控制器1380，其接收播放速度資訊1382(例如，播放速度因子)並基於其提供多個控制訊號1334、1344、1347，例如，播放速度控制還可以接收時間縮放資訊1336，其可以例如描述由多通道時長調整1330執行的實際時間縮放。播放速度控制1380可以包括自適應控制邏輯1381，其可以處理播放速度資訊1382和時間縮放資訊1336、並且基於其提供控制訊號1334、1344、1347。因此，播放速度控制1380可以根據播放速度資訊1382來控制由多通道時長調整1330執行的時間縮放，例如以便調整播放速度，例如，其可用於促進對音頻內容的理解，或其可例如用於獲得以不同速率或以不同時脈運行的音頻編碼器和音頻解碼器之間的同步。

應注意者，多通道時長調整1330可以被配置為例如以同步方式將時長調整應用於多個解碼的傳輸通道(例如，並行地)。此外，應注意者，重建和渲染1340可以例如由播放速度控制1380提供的控制訊號1344控制。然而，重建和渲染1340還可以例如接收渲染參數1349，渲染參數1349可以例如描述由時長調整的傳輸通道1332表示的音頻內容到重建的輸出通道1312的(期望的)渲染。應注意者，重建和渲染1340可以例如包含升混，使得例如重建的輸出通道1312的數量大於時長調整的傳輸通道1332的數量。渲染參數1349可以例如由使用者互動(例如，利用使用者介面)提供，或者可以例如從編碼的音頻表示中導出。

此外，後設資料適配1370可以使後設資料1324適配於時長調整，從而獲得適配後的後設資料1372。適配後的後設資料1372可以例如用於重建和渲染1340。僅作為範例，後設資料1324或適配後的後設資料1372可以例如描述要由重建和渲染1340執行的混合。例如，適配後的後設資料1372可以是混合矩陣的元素，或者可以是描述在重建和渲染1340中使用的混合矩陣的元素的參數，以基於時長調整導出重建的輸出通道1312。然而，也可以使用不同類型的後設資料。

總而言之，在音頻處理器1300中，多通道時長調整1330可以在解碼1320與重建和渲染1340之間執行，其中時長調整可以是在多個解碼的傳輸通道上操作(例如，以同步方式)的多通道時長調整。播放速度控制1380使用控制訊號1334來控制多通道時長調整1330，也使用控制訊號1344來控制重建和渲染1340，並且還使用控制訊號1347來控制後設資料適配1370。因此，可以提供適配後的後設資料1372，使得其適合於時長調整，這帶來了重建和渲染1340的良好結果。

然而，應注意者，音頻處理器1300可以包括本揭露所公開的其他音頻處理器的任何優點。

此外，應注意者，音頻處理器1300可以可選地由本揭露所公開的任何特徵、功能和細節來補充，無論是單獨的還是組合的。

10. 如圖14所示的音頻處理器

圖14顯示根據本發明實施例的音頻處理器1400的方塊示意圖。具體地，音頻處理器1400可以與IVAS抖動緩衝器管理(IVAS JBM)組合。然而，應注意者，音頻處理器1400的核心功能可以類似於音頻處理器1300的核心功能。具體地，音頻訊號處理器1400包括解碼1420，其可以被配置為執行傳輸通道(並且可選擇性地也執行後設資料)的IVAS解碼，解碼1420可以對應解碼1320，因此，解碼1420提供一個或多個解碼的傳輸通道1422(較佳為多個解碼的傳輸通道1422)。此外，音頻處理器1400包含多通道時長調整1430，其基本上可對應於多通道時長調整1330，多通道時長調整1430接收一個或多個解碼的傳輸通道1422並且也接收控制訊號1434，多通道時長調整1430提供一個或多個時長調整的傳輸通道1432，其基本上可以對應於時長調整的傳輸通道1332。另外，多通道時長調整1430提供時間縮放資訊1436，其基本上可對應於時間縮放資訊1336。此外，音頻處理器1400還包括重建和渲染1440，其基本上對應於重建和渲染1340，重建和渲染1440接收時長調整的傳輸通道1432並且也接收控制訊號1444，重建和渲染1440也接收一個或多個渲染參數1449、並且進一步接收適配後的後設資料1472，例如，控制訊號1444可對應控制訊號1341a，且一個或多個渲染參數1449可對應於一個或多個渲染參數1349，適配的後設資料1472可以對應於適配後的後設資料1372。重建和渲染1340基於時長調整的傳輸通道1432提供重建的輸出通道1412，重建和渲染1440可以使用控制訊號1444、一個或多個渲染參數1449和適配的後設資料1472來基於時長調整的傳輸通道1432來提供重建的輸出通道1412。例如，重建和渲染1440可以執行升混和/或渲染，其中升混矩陣或渲染矩陣的元素可以例如由適配的後設資料1472決定。另外，控制訊號1444和/或渲染參數1449還可以對重建和渲染1440產生影響，並且可以例如改變重建和渲染所使用的矩陣元素。

音頻處理器1400還包括後設資料適配1470，其可例如對應於後設資料適配1370，因此，後設資料適配1470可以例如根據時長調整(例如，根據控制訊號1447)來適配由解碼1420提供的後設資料1424，從而獲得適配的後設資料1472。因此，後設資料可以適配於時長調整的傳輸通道1432，使得重建和渲染1440提供具有良好音頻品質的重建(和/或渲染)的輸出通道1412。

然而，與音頻處理器1300不同，音頻處理器1400不包括播放速度控制，而是包含抖動緩衝器控制1480，此外，音頻處理器1400還可以包括封包處理1490，以下將描述封包處理1490和抖動緩衝器控制1480的功能。應注意者，音頻處理器1400可以接收輸入的即時傳輸協定封包(RTP packets)1492，輸入的即時傳輸協定封包1492可以例如從儲存媒體取得，或可以例如經由有線或無線資料連接(如TCP/IP網路(或任何其他網路))提供給音頻處理器1400。例如，輸入的RTP封包可能會受到時序抖動的影響，該時序抖動可能是由例如將RTP封包傳輸到音頻處理器1400所經由的通訊網路的延遲的變化所引起的。音頻處理器1400包括即時傳輸協定解包器1493，其接收即時傳輸協定封包並從即時有效負載封包中提取封包有效負載，因此，即時傳輸協定解包器1493接收輸入的RTP封包1492，並基於其提供封包有效負載1494，封包有效負載1494可以例如包含IVAS幀，例如根據IVAS標準的幀的編碼表示。音頻處理器1400還包括去抖動緩衝器1495，其接收有效負載資訊並且能夠緩衝(解包的)有效負載資訊(例如，IVAS幀)，因此，去抖動緩衝器1495將緩衝的有效負載資訊1496提供給解碼1420。例如，去抖動緩衝器1495可以被配置為以有效負載被解包的速率接收有效負載資訊1494，並且可以以解碼1420所需要的速率(或可以被處理的速率)向解碼1420提供緩衝的有效負載資訊1496。因此，當IVAS幀從RTP封包進行解封包時，去抖動緩衝器1495可以接收IVAS幀，並且當所述IVAS幀可以被處理(或應該被處理)時，去抖動緩衝器1495可以將該IVAS幀提供給解碼1420。

抖動緩衝器控制1480可以控制去抖動緩衝器1495、多通道時長調整1430，並且還可以控制重建和渲染1440以及參數適配1470。例如，抖動緩衝器控制1480可以包括網路抖動分析和目標延遲估計1481，其可以例如從RTP解包器接收時序資訊1493a，例如，時序資訊1493a可以描述RTP封包何時到達解包器1493和/或不同的有效負載資訊(例如，不同的IVAS幀)何時到達RTP解包器(或何時所述有效負載資訊可以被輸出到去抖動緩衝器1495)。換句話說，時序資訊1493a可以是可用於獲得關於網路抖動的資訊並且有助於估計目標延遲的任何資訊，因此，抖動緩衝器分析1481可以例如決定網路抖動並且可以例如獲得關於(期望的)平均去抖動緩衝器充滿度的資訊，即指示平均應在去抖動緩衝器1495中緩衝多少個有效負載資訊單元的資訊。

例如，抖動緩衝器控制1480可以包括自適應控制邏輯1483，其從網路抖動分析1481接收網路抖動分析結果1482。此外，抖動緩衝器控制1480可以包括播放延遲估計器1484，其可從去抖動緩衝器1495接收緩衝器充滿度資訊1485，並且還可以從多通道時長調整1430接收時間縮放資訊1436。

因此，播放延遲估計器1484可以例如決定或估計播放延遲並向自適應控制邏輯1483提供播放延遲資訊1486。自適應控制邏輯1483可以例如從網路抖動分析1481接收網路抖動分析結果資訊1482以及從播放延遲估計器1484接收播放延遲資訊1486，並提供分別用於多通道時長調整1430、用於重建和渲染1440以及用於後設資料適配1470的控制訊號1434、1444和1447。另外，自適應控制邏輯1483可以向去抖動緩衝器1495提供控制訊號1487。

因此，抖動緩衝器控制1480可以接收關於網路抖動的資訊、關於去抖動緩衝器充滿度的資訊、關於實際時長調整的資訊以及可能的附加資訊。基於這些資訊，抖動緩衝器控制1480能夠決定播放延遲，並且還能夠決定應該較佳地將多少有效負載單元(例如IVAS幀)儲存在去抖動緩衝器1495中以允許即使考慮到預期的網絡抖動，也能不間斷地提供重建的輸出通道1412。例如，抖動緩衝器控制1480能夠透過適當地控制去抖動緩衝器1495來實現短時抖動的補償。然而，抖動緩衝器控制1480還可以被配置為適配於時長調整，例如，為了在更長的時間範圍內處理抖動。此外，抖動緩衝器控制1480可以控制後設資料適配以及重建和渲染以很好地適配於可能的時長調整。

然而，應注意者，關於抖動緩衝器控制的功能的細節可以偏離上述的功能。

總而言之，音頻處理器1400允許使用去抖動緩衝器1495並且還使用多通道時長調整1430來補償網路抖動。抖動緩衝器控制1480可以被設定為控制去抖動緩衝器1495和多通道時長調整1430兩者以適配於向網路抖動提供重建的輸出通道1412的速度。去抖動緩衝器1495可以用於補償短期網路抖動，並且多通道時長調整1430可以用於補償較長時間縮放上的網路延遲的變化，並且還可以在編碼器以與音頻處理器1400所要求的速率不同的速率提供輸入的RTP封包1492的情況下使用。具體地，多通道時長調整1430位於解碼1420與重建和渲染1440之間的事實允許有效的時長調整，而不引入顯著的和可聽的偽影。

此外，應注意者，本揭露相對於其他音頻處理器討論的任何優點也適用於音頻處理器1400。

還應注意者，音頻處理器1400可以可選地由本揭露所公開的任何特徵、功能和細節以單獨的和技術組合的方式補充。

11. 如圖15a和15b所示的接收緩衝器

圖15a顯示IVAS抖動緩衝器管理(IVAS JBM)的接收器緩衝器的操作的示意性表示。應注意者，根據圖15a的抖動緩衝器管理可以可選地用在根據本揭露所公開的本發明的任何實施例中。

應注意者，抖動緩衝器管理可以被配置為控制接收器輸出緩衝器1510，以及接收器輸出緩衝器1510和聲學前端1520之間的解碼、時長調整和資料交換。例如，控制可以包括檢查1530是否有足夠的樣本可用(例如，接收器輸出緩衝器中是否包括足夠的樣本以將樣本區塊(例如，與音頻幀相關聯的樣本值)傳送到聲學前端1520)，如果發現有足夠的樣本可用，則控制包括將樣本出隊到PCM/FD資料緩衝器中並且返回(例如樣本)到聲學前端；例如，如果發現接收器輸出緩衝器1510中有足夠的可用樣本，則這些樣本可以被傳送到傳輸資料緩衝器(例如PCM/FD資料緩衝器)中以用於傳輸到聲學前端1520；例如，聲學前端1520可以接著從所述PCM/FD資料緩衝器拉出PCM/FD資料；例如，聲學前端1520可以從PCM/FD資料緩衝器拉出(處理後的)幀或子幀的時域值或頻域值，以用於進一步處理(並且較佳地用於將音頻內容輸出到使用者)。

然而，如果在檢查1530中發現沒有足夠的可用樣本(例如在接收器輸出緩衝器中)，則控制啟動下一幀(例如來自抖動緩衝器的下一幀)的解碼。例如，解碼可以包括音頻樣本的解碼(具有時長調整和適配的後設資料以及重建/渲染)，因此，可變大小的PCM/FD資料(或替代地，固定大小的PCM/FD資料)可以在資料緩衝器中(例如在接收器輸出緩衝器中)排隊。因此，例如，如果排隊的(例如，可變大小的)PCM/FD資料包括足夠的樣本，則可以將樣本傳送到聲學前端1520(例如，經由PCM/FD資料緩衝器)。

總而言之，在接收器輸出緩衝器和/或PCM/FD資料緩衝器中提供樣本可以包含解碼、並且還可以包含時長調整。可選地，處理還可以包括後設資料的適配和重建/渲染。

此外，應注意者，根據圖15a的機制可以選擇性地引入到本揭露所公開的任何實施例中。

圖15b顯示根據本發明的另一實施例的抖動緩衝器管理或控制機制的操作的示意性表示。這裡描述的抖動緩衝器管理(或控制機制)例如可以與用於IVAS抖動緩衝器管理(IVAS JBM)的緩衝器結合使用。

應注意者，抖動緩衝器管理(或控制機制)的操作是基於存在傳輸通道的解碼和已解碼的傳輸通道的時長調整的假設。進一步可以假設重建器/渲染器1560遵循時長調整，並且重建器/渲染器包括輸入緩衝器，其緩衝例如時長調整的傳輸通道，或在時長調整和重建器/渲染器之間存在緩衝器以緩衝時長調整後中間音頻訊號。

例如，抖動緩衝器管理(或控制機制)包括檢查1570是否有足夠的樣本可用於執行重建/渲染，其中，重建/渲染可以例如以逐區塊方式操作，因此可能需要時長調整的傳輸通道的區塊(例如幀或子幀)。檢查1570可以例如在需要提供新的重建/渲染值(例如，作為輸出(或傳輸))到聲學前端和/或周邊裝置時執行。如果發現有足夠的可用樣本(例如，在重建器/渲染器的輸入緩衝區中，或在時長調整和重建器/渲染器之間的緩衝區中)，執行重建/渲染(例如，由控制機制觸發)，其提供可輸入到可選接收器輸出緩衝器1590中的樣本，或者可以直接(例如，沒有緩衝)提供給聲學前端或周邊裝置1595(例如，透過介面)。

然而，如果在檢查1570中發現沒有足夠的樣本可用於執行(例如逐區塊)重建和/或渲染(例如透過重建器/渲染器1560)，則抖動緩衝器管理(或控制機制)可以例如觸發下一幀的解碼，例如傳輸通道音頻樣本的解碼1580(例如，與例如解碼的傳輸通道的時長調整一起或隨後進行時長調整，以及適配的後設資料的決定)。作為解碼1580和隨後的時長調整的結果，一個或多個時長調整的傳輸通道的樣本可用並且被輸入到重建器/渲染器的輸入緩衝器中或輸入到設置在時長調整和重建器/渲染器之間的緩衝器中。此外，如果需要適配的後設資料，也可以提供這樣的適配的後設資料。因此，重建器/渲染器1560可以基於緩衝的樣本並考慮適配的後設資料(如果需要)來執行重建和/或渲染，從而提供一個或多個重建和/或渲染的音頻訊號，該音頻訊號可以被輸入到(可選的)接收器輸出緩衝器1590，或可以被提供(直接提供，沒有緩衝)到聲學前端或周邊裝置1595。例如，在存在接收器輸出緩衝器1590的情況下，聲學前端1595可以接著從所述接收器輸出緩衝器拉出PCM/FD資料。例如，聲學前端1595可以從接收器輸出緩衝器拉出(處理後的)幀或子幀的時域值或頻域值，以用於進一步處理(並且較佳地用於將音頻內容輸出到使用者)。然而，在不存在接收器輸出緩衝器的情況下，重建器/渲染器可以向聲學前端/周邊裝置1595提供(例如發送或推送)處理後的幀或子幀。

總而言之，重建器/渲染器可以在聲學前端或周邊裝置需要時提供重建和/或渲染的音頻訊號。由於時長調整是在重建/渲染之前執行的，因此時長調整不會導致重建/渲染與重建和/或渲染的音頻訊號的播放之間的可變延遲。因此，在透過重建/渲染考慮運動參數的情況下，可以避免可變的運動到音頻延遲。而且，接收器輸出緩衝器可以可選地被省略，因為(在存在足夠的幀緩衝器的情況下，例如在解碼之前)，可以在任何需要的時候請求提供(時長調整的)解碼的傳輸通道。

總而言之，圖15b的控制機制是有利的解決方案。

此外，應注意者，根據圖15b的機制可以選擇性地引入到本揭露所公開的任何實施例中。

12. 如圖16所示的用於FD渲染的傳輸通道幀緩衝

圖16顯示根據本發明實施例的用於FD渲染的傳輸通道幀緩衝的示意性表示。

可以透過解碼(例如，透過解碼1320或透過解碼1420)提供的原始傳輸通道幀(以元件符號編號1610表示)，將時長調整應用於原始傳輸通道幀(可視為中間音頻訊號)，例如，可以應用時長調整1330或時長調整1430，因此，可以獲得縮短的傳輸通道幀1620，例如，縮短的傳輸通道幀1620可以被認為是時長調整後中間音頻訊號。

假設一先前幀的一個或多個時域樣本(與先前幀相關聯)在之前尚未被處理(例如，因為其不適合重建和渲染1340、1440的幀網格或子幀網格)，這些先前幀的一個或多個樣本(以1640表示)被附加在縮短的傳輸通道幀1620的開始處，從而產生樣本的一部分1632(其可以是時域樣本或頻域樣本)。換句話說，部分1632包括先前幀的一個或多個緩衝樣本1630和當前縮短的(時長調整的)傳輸通道幀1620的樣本。於此，從樣本的一部分1632中選擇樣本幀1640，例如，幀1640的長度由時長調整之後的第二處理的處理幀的大小決定，或由第二處理的子幀的大小的整數倍來決定，例如，幀1640(也稱為”要重建/渲染的幀”)的長度可以由在重建和渲染1340、1440的處理步驟中所需(或處理)的樣本的數量來決定，並且其可以例如是該樣本數量的整數倍。

然而，如果樣本的部分1632包括比輸入到重建和渲染1340、1440中的幀1640更多的樣本，則一個或多個樣本1642與後續幀的樣本一起被緩衝以供稍後處理(並且在該範圍內對應到緩衝樣本1630)。因此，透過使用一個或多個緩衝樣本1630，並且透過根據重建和渲染1340、1440的要求來設定幀1640的大小，即使在存在時長調整的情況下也可以有效地執行重建和渲染。例如，時頻變換(或時域到頻域變換)(以元件符號1650表示)可以被應用於幀1640，並且可以提供幀1640的頻域表示(以元件符號1660表示)，例如多個時隙，例如，頻域表示(以元件符號1660表示)可以輸入到渲染器1670中，渲染器1670還可以接收一個或多個渲染參數或其他參數1662。渲染器可以例如提供重建的輸出通道的頻域表示。逆時頻變換(例如，頻域到時域變換)1680可以應用於由渲染器1670提供的頻域表示(例如，重建的輸出通道或渲染的輸出通道)，從而獲得”縮短的”輸出幀的時域表示(以元件符號1690表示)。

總而言之，在圖16所示的處理中，可以獲得幀1640(例如，時域樣本的幀)，其可以被輸入到時頻變換1650中。幀1640的長度可以例如適合於時頻變換1650的處理網格，使得時頻變換1650可以提供幀1640的適當的頻域表示1660，此頻域表示1660可以輸入到渲染器中，該渲染器在頻域中執行渲染。在頻域中執行的渲染1670的結果隨後將被變換回時域，以獲得渲染的(和/或重建的)輸出通道的時域表示。

然而，應注意者，用於時頻變換1650的時域樣本的緩衝和選擇可以例如由可以設置在時長調整和實際重建/渲染之間的階段來執行。換句話說，如對應於圖16所解釋的概念可以可選地由本揭露所公開的任何音頻處理器來執行。

應注意者，在圖16的處理中，可以較佳地選擇幀1640的長度，使得幀長度適合(例如時頻變換1650和/或渲染器1670的)後續處理的原始處理網格(例如，子幀網格)，因此，可以選擇幀1640的長度，使得提供給時頻變換1650的時隙的數量是以時隙而言的子幀大小的整數倍。因此，時頻變換1650可以例如以預定(例如，固定)的變換長度運行。然而，透過以時頻變換1650導致多個時隙是預定子幀長度(時隙)的整數倍的方式來調整幀1640的長度，可能發生相對大量樣本1642應當被緩衝以供稍後處理。然而，以預定(例如，固定)幀(例如，按照子幀大小)執行時頻變換和後續渲染的可能性可以補償這個問題。

此外，如圖16所示的處理可以可選地由本揭露所公開的任何特徵、功能和細節以單獨和技術組合的方式補充。

13. 如圖17所示的具適配子幀大小的FD渲染

圖17顯示根據本發明實施例的具有適配的子幀大小的頻域渲染的示意性表示。應注意者，圖17所示的處理可以可選地用在本揭露所公開的任何音頻處理器中。

此處理接收傳輸通道幀1710，其可以例如透過解碼來提供。時長調整(例如，如本揭露所述的)基於(原始)傳輸通道幀1710提供縮短的傳輸通道幀1720，如本前所述的，樣本值部分(以1732表示)可以包括先前幀(例如與先前幀相關聯)的一個或多個緩衝樣本1730以及縮短的傳輸通道幀1720的樣本。可以從部分1732中選擇幀1740，其中例如可以選擇幀1740的長度，使得時頻變換1750可以基於所選的幀1740提供整數個時隙。然而，應注意者，在處理1700中，幀1740的選擇可以不綁定到後續處理(例如時域到頻域變換)的預定幀網格或子幀網格。因此，幀1740的多個樣本可能偏離使用”固定的”預定幀網格或子幀網格進行操作所需的多個樣本。因此，時頻變換1750基於幀1740提供樣本(或樣本集)的時隙數量可以不同於較佳的子幀長度(就時隙而言)的整數倍。然而，處理可以調整或細分時間部分，時頻變換1750將變換後的樣本(或變換後的樣本組)提供給/至不同長度的子幀。例如，第一子幀SF1可以包含四個時隙，第二子幀SF2也可以包含四個時隙，第三子幀SF3可以包含三個時隙，而第四子幀SF4可以包含兩個時隙。因此，時頻變換1750和/或隨後的時隙到子幀的分配可以進行操作，使得提供不同長度的子幀用於進一步處理。不同長度的子幀(例如SF1、SF2、SF3、SF4)可以例如被輸入到渲染器1770中，渲染器1770可以例如接收一個或多個參數1772、並且基於子幀和一個或多個參數1772提供渲染和/或重建的輸出通道的頻域表示。逆時頻變換(例如，頻域到時域變換)1780可以應用於由渲染器1770提供的渲染和/或重建的輸出通道的頻域表示，從而獲得時域渲染或重建的輸出通道的表示，例如，可以以縮短的輸出幀(以元件符號1790表示)的形式提供渲染和/或重建的輸出通道的時域表示。

總而言之，時長調整可導致縮短的傳輸通道幀，例如，此傳輸通道幀可與先前幀的一個或多個緩衝樣本組合。包括與先前幀相關聯的一個或多個緩衝樣本和(當前的)縮短的傳輸通道幀的樣本的這部分樣本可以接著用於提供不同長度的子幀，其中使用不同長度的子幀可以允許處理部分1740的大量樣本(同時僅需緩衝少量樣本1742，以用於稍後處理)。然後，渲染器1770可以處理不同長度的子幀(例如，透過時頻變換1750獲得的子幀SF1、SF2、SF3和SF4)，並且然後可以將在頻域中執行的渲染結果變換回時域，從而產生渲染或重建的輸出通道(例如，以縮短的輸出幀1790的形式)。因此，使用不同長度的子幀SF1、SF2、SF3、SF4允許特別好的處理效率並且還有助於保持較小的延遲。然而，與使用固定子幀長度相比，此處的處理自然稍微複雜一些。

應注意者，對應於圖17所述的處理可以可選地用在本揭露所公開的任何音頻處理器中。也可以注意到，如圖17所示的處理可以可選地由本揭露所公開的任何特徵、功能和細節來補充。

14. 如圖18所示，使用恆定子幀大小進行渲染並調整後設資料

圖18顯示具有恆定子幀大小並可調整後設資料的渲染的示意性表示。此處理基於傳輸通道幀1810並且對傳輸通道幀1810應用時長調整以獲得縮短的傳輸通道幀1820。透過將與先前幀相關聯的一個或多個緩衝樣本1830與縮短的傳輸通道幀1820的樣本組合來獲得樣本的一部分，透過該組合獲得的部分以1832表示。基於此部分1832來選擇幀1840，其中可以選擇幀1840的幀大小，使得時頻變換1850基於幀1840提供整數個時隙。部分1830的樣本(以1842表示)未包括在幀1840中，其可以被緩衝用於後續處理，例如可以與後續幀相關聯的樣本相結合。

時頻變換1850是基於所選的幀1840提供一組時隙，例如時隙TS1至TSm。然而，如果時隙的數量不等於子幀大小(就時隙而言)的整數倍，則先前幀(例如TS _-1,m)的一個或多個時隙和/或一個或多個後續幀的時隙(例如時隙TS ₊₁1和TS ₊₁2)可以用來獲得相等長度的子幀。例如，在圖18的實施例中，所有子幀SF1、SF2、SF3和SF4可以各自包含四個時隙，其中，第一個子幀例如包括時隙TS _-1,m、TS1、TS2和TS3，並且最後一個子幀例如可以包括樣本TSm-1、TSm、TS ₊₁1和TS ₊₁2。因此，可以透過使用先前幀的一個或多個時隙和/或後續幀的一個或多個時隙來獲得子幀，從而獲得相應的(相等的)子幀大小。

然後，子幀可以由渲染器1870處理，其中渲染器1870可以例如使用一個或多個參數1872。此外，逆時頻變換(例如，頻域到時域變換)1880可以應用於由渲染器1870提供的重建和/或渲染的音頻通道的頻域表示，因此，可以獲得重建和/或渲染的輸出通道的時域表示，其以1890表示。

因此，可以獲得重建或渲染的輸出通道的縮短的輸出幀。

然而，應注意者，例如由渲染器1870使用的後設資料可以適配於時長調整，如上所述，因此，可以實現良好的聽覺印象，因為適配的後設資料可以很好地適合輸入到渲染器1870中的頻域表示，其中，例如，後設資料可以適合由渲染器1870處理的子幀。

總而言之，如圖18所示的處理可以以有效的方式提供重建和/或渲染的輸出通道，其中，由於子幀的上述組成，以恆定的子幀大小來執行渲染，透過使後設資料適應子幀可以獲得良好的聽覺印象。

然而，應注意者，對應於圖18所述的處理可以可選地用在本揭露所公開的任何音頻處理器或音頻處理系統。

也應注意的是，如圖18所示的處理可以可選地由本揭露所公開的任何特徵、功能和細節來補充。

15. 內插函數的適配

內插函數的自適應如圖19所示，關於這個議題，應該注意的是，圖19所示的內插函數的適配可以用在本揭露所公開的任何實施例中，其應該結合圖5c所示的縮短幀的概念來理解，並且也結合了圖5d所示的輸入幀加長的概念，其中，這些用於縮短輸入幀和用於延長輸入幀的概念可以可選地用於本揭露所述的時長調整中。

現在參考圖5c所示，可以看出輸入幀可以具有2L _seg的長度，輸入幀(例如，其可以是(原始)中間音頻訊號的幀)可以被(至少在邏輯上)細分為第一部分(seg a)和第二部分(seg b)。然而，從輸入幀內的位置p _min開始，可以執行搜尋來識別輸入幀中能夠與部分seg a最佳重疊和相加的部分。在該搜尋中，可以考慮多個候選部分，並且可以使用各個候選部分與部分seg a之間的交互相關性作為識別可以最好地重疊和相加的部分的標準。已被識別為與部分seg a具有足夠好的(或最佳)重疊相加的部分(以521c表示)以及輸入幀521a的剩餘部分(以“REM”表示)，可以用於獲得輸出幀521d，例如，所識別的部分521c(也被指定為”最佳匹配”)將與輸入幀521a的部分” seg a”重疊並相加，因此，縮短的輸出幀521d的開始部分521e將由部分” seg a”和所識別的”最佳匹配”的部分521c的重疊相加形成，縮短的輸出幀521d的結束部分521f可由識別的部分521c之後的剩餘部分”REM”形成。因此，縮短的輸出幀521d是透過(部分seg a和521c的)重疊相加操作獲得的開始部分521e、和輸入幀521a中未修改的(結束)部分的結束部分521f(REM)的串聯而得。例如，可以假設部分” seg a”和”seg b”都可以具有相同長度的L _seg，另外假設剩餘部分“REM“具有L _rem的長度，因此可以假設縮短的輸出幀521d的長度為L _seg+ L _rem，其中開始部分的長度L _seg是使用有效地導致縮短的重疊相加操作形成的，而結束部分的長度L _rem保持不變。

現在參考圖5d說明輸入幀的加長。應注意者，在此假設輸入幀531a具有2L _seg的長度，例如，輸入幀531a(至少在邏輯上)被劃分為第一片段”seg a “和第二片段“seg b “，接著，選擇多個候選部分，其包括當前輸入幀531a之前的先前輸入幀的一個或多個樣本，並且因此部分或全部位於先前輸入幀中。因此，選擇”最佳匹配”的部分531c，其被判斷為給出與輸入幀531a的第一部分”seg a”的最佳可能(或至少足夠好)的重疊相加。因此，剩餘部分”REM”從辨識的部分531c的結束部分延伸到當前輸入幀531a的結束部分，因此，在某些情況下，剩餘部分甚至可以比輸入幀531a長，但也可以比輸入幀531a短；然而，剩餘部分通常會比Lseg長。

因此，使用輸入幀531a的部分”seg a”和所識別的”最佳匹配”的部分531c的重疊相加來獲得延長的輸出幀531d的開始部分。此外，將剩餘部分”REM”附加在重疊相加區域之後，從而獲得加長的輸出幀531d，因此，延長的輸出幀531d是重疊區域和剩餘部分”REM”的串聯，其中部分”seg a”和識別出的部分531c重疊相加。因此，縮短的輸出幀531d的長度等於長度L _seg(其是重疊相加部分的長度)和長度L _rem(其是剩餘部分的長度)之和。由於在加長輸入幀的情況下剩餘部分的長度通常比L _seg長，因此總長度通常大於2L _seg，因此，延長的輸出幀531d比輸入幀531a長，其中通過選擇所識別的部分531c或例如根據多個候選部分和片段”seg a”之間的交互相關來實現延長的輸出幀531d的良好品質。

總而言之，使用重疊相加操作獲得長度L _seg的開始部分531e，並且延長的輸出幀531d的結束部分531f保持不變。

關於如圖5c和5d所示的概念，應注意者，剩餘部分的長度L _rem是由音頻訊號的特性決定的，因此不是可以透過提供資訊的控制來準確預定的品質，而是可以透過期望的時長調整來決定。

接著將參考圖19說明可用於決定適配參數的內插函數。對於幀大小不變的情況，幀可以具有2L _seg的長度，其中幀的時間擴展在橫座標1910中示出，縱座標1912描述內插函數的值。可以看出，在幀大小不變的情況下(如元件符號1902所示)，內插函數的值從0(如元件符號1914所示)線性延伸至1(如元件符號1916所示)。應注意者，內插函數是直線函數，如元件符號1915所示。

然而，在可以使用如圖5c所示的概念獲得的縮短的幀大小的情況下，幀長度等於L _seg+ L _rem，並且短於2L _seg，這種情況在元件符號1922處顯示。其中，橫座標1930表示縮短的幀的時間擴展，縱座標1932表示內插函數的值。然而，可以看出，在縮短的幀的開始部分的長度L _seg的期間，內插函數的值從0(如元件符號1934所示)增加到小於1的第一值(如元件符號1935所示)。此外，在縮短的幀的結束部分的長度L _rem的期間，內插函數從第一值(如元件符號1935所示)增加到最終值1(如元件符號1936所示)。顯然地，與長度為L _rem的縮短幀的結束部分(例如，結束部分521f)中的斜率相比，在縮短幀的開始部分中(例如，在長度為L _seg的縮短幀的開始部分521e中)內插函數的斜率更大。顯然地，與縮短的幀的結束部分521f相比，在執行重疊相加操作的開始部分521e中(內插函數的)斜率更大。

對於加長的幀大小的情況出現不同的情況。在元件符號1942所示的加長的幀大小的情況中，加長幀的長度為L _seg+ L _rem，其中L _rem大於L _seg，且其中加長幀的長度大於2L _seg，其中，橫座標1950表示加長幀的時間延伸，縱座標1952表示內插函數的值。可以看出，在執行重疊相加的延長的輸出幀的開始部分(例如，開始部分531e)中，內插函數的斜率小於在延長的輸出幀的結束部分中(例如，在結束部分531f中)的斜率。例如，在開始部分的長度L _seg期間，內插函數的值可以從0開始(如元件符號1954所示)，並且增加到第一值(如元件符號1955所示)，然後，在加長的輸出幀的結束部分(長度L _rem)期間，內插函數可以增加到最終值1，如元件符號1956所示。換句話說，內插函數的斜率在執行了實現延長的重疊相加的部分中較小，並且內插函數的斜率在未調整的剩餘部分中較大。然而，已經發現，內插函數的這種適配帶來了處理參數的良好內插，這導致了良好的音頻品質。

16. 其他實施態樣和實施例

以下將說明根據本發明的其他實施態樣和實施例，其可以單獨使用並且可以與本揭露所公開的其他特徵、功能和細節結合使用。

換句話說，應注意的是，以下所述的實施例可以單獨使用，或者可以由本揭露所公開的任何特徵、功能和細節來補充。

另一方面，本揭露所公開的任何實施例可以可選地由本揭露所公開的任何特徵、功能和細節來補充。

最高級別

根據本發明的一實施態樣，本發明的主要想法在圖9中示出，其中具有多個處理階段的音頻處理器對中間音頻訊號之一執行時長調整。

在一實施例中(圖10)，在每個處理步驟中使用處理參數。

在另一實施例(圖11)中，存在共同時間縮放控制器，其控制時長調整本身，並且基於時間縮放的結果，使處理步驟適配於時長調整。

在另一實施例中(圖12)，時間縮放控制器也控制每個處理步驟的處理參數的適配。

音頻編碼播放速度控制

圖13顯示基於本發明的播放速度控制的方塊圖。

通訊編解碼器的JBM

圖14顯示基於本發明的通訊編解碼器的JBM的方塊圖。舉例而言，除了其他特徵之外，與如圖2和圖8所述的方法相比，其差異和創意在於解碼音頻訊號區塊內以及自適應控制邏輯引導處理區塊的方式。自適應控制邏輯例如是前述時間縮放控制器的實施例。如習知技術概述中所提到的通訊編解碼器(如IVAS)，其透過解碼傳輸通道和相關聯的後設資料來重建(或重構)解碼的音頻訊號，並且在重建/渲染階段中重建輸出通道，該重建/渲染階段使用傳輸通道、相關聯的後設資料以及可選的來自外部的附加渲染參數。

根據一實施態樣，本發明並非將由抖動緩衝器控制將控制的時長調整(TSM)應用在重建的輸出通道上，而是將其應用在解碼的傳輸通道上。例如，根據抖動緩衝器控制，傳輸通道的解碼幀可以被縮短或延長或保持原樣。例如，如果傳輸通道的數量大於1，則TSM被配置為以同步的方式在所有傳輸通道上應用相同的時長調整，例如，以確保所得到的時長調整的傳輸通道的長度放入渲染器的時間具有相同的持續時間，並且隨時間的推移具有相同的調整。

另外，例如，抖動緩衝器控制還以與傳輸通道相關聯的可選後設資料適配的時長調整的傳輸通道的改變的持續時間的方式來控制後設資料的適配。

根據一實施態樣，對於一些可能的傳輸格式，不需要後設資料來重建編碼格式，在這種情況下，傳輸通道已經表示此編碼格式。在這種情況下，如果所需的輸出格式例如也等於編碼格式，則將不需要渲染器，並且傳輸通道已經代表輸出通道，並且渲染器區塊被跳過或可以被視為單純傳遞區塊。

圖15a顯示本發明的可能的(可選的)接收器緩衝器處理。與圖2相比，接收器輸出緩衝器應該能夠(或者，在某些情況下，甚至需要能夠)保存多個輸出通道。例如，這種編解碼器的使用例是解碼訊號的分割處理，即，部分解碼和渲染在一個裝置上完成，其餘部分在另一個連結裝置上完成，例如，以手持裝置作為第一裝置，並以所謂的周邊裝置作為第二裝置，第二裝置是最終渲染和聲學前端所在的位置(例如，用於增強/虛擬實境的眼鏡)。在這種情況下，接收器輸出緩衝器可以例如被配置為提供所要求的輸出格式的PCM樣本或頻域表示的樣本(例如，作為CLDFB域中的樣本)。而且，從接收器輸出緩衝器請求的片段的持續時間可以例如不是解碼幀的持續時間，而是此持續時間的整數分數。

圖15b顯示緩衝器處理的另一種實施態樣，其詳細內容可以參考前述實施例的說明。

用於FD重建/渲染的TSM傳輸通道的緩衝

例如，渲染器可以是基於時域的渲染器或應用於傳輸通道的時頻變換表示的渲染器，例如採用複雜低延遲濾波器組(CLDFB)。時頻變換的時間解析度通常(但不一定)小於時域訊號的時間解析度，即，時序訊號例如被劃分為有限持續時間的時隙，其中例如，每個時隙是使用時頻變換將其變換為該時隙的頻率表示。

例如，TSM模組可以產生調整的(例如，時長調整的)幀的持續時間，該幀的持續時間不是TF變換(例如，時頻變換)的時隙大小的整數倍。因此，僅將代表最大可能數量的時隙的樣本數量傳遞到FD渲染器(例如頻域渲染器)是有利的。例如，任何過多的樣本都會被緩衝並添加到下一幀的經時長調整後的傳輸通道中。換句話說，放入FD渲染器的時域樣本包括來自先前幀的傳輸通道的緩衝樣本、當前幀的TSM傳輸通道的樣本、基於緩衝樣本的長度與當前幀的TSM傳輸通道樣本的長度的總和而縮短到最大可能數量的FD時隙。總的來說，這可能會導致與相關後設資料的輕微不匹配，但由於後設資料的時間解析度通常小於TF變換的時間解析度，即，例如，一組後設資料參數與傳輸通道的FD表示的幾個時隙相關聯，對重建和渲染的輸出通道的品質的影響是最小的。

例如，圖16顯示此實施例的處理流程，此實施例針對縮短的幀，對於延長的TC幀則可以類似地進行處理，TC幀為例如由TSM處理，產生縮短的TC幀。例如，當前幀的完整可用時域樣本現在是採用來自先前幀(1)的緩衝TC樣本並附加縮短的TC幀來構建的。例如，現在要建構的幀被視為適合時頻變換的最大可能數量的TS(例如時隙)的樣本部分，並且可用樣本(2)中可能的剩餘樣本是，例如，緩衝以供下一幀使用，然後，例如可利用前述的方式對時頻域變換幀進行剩餘處理以進行重建/渲染。

需注意者，例如，對於在時域中處理解碼的傳輸通道的渲染器來說，這樣的緩衝不是必需的，並且可以例如在當前幀中渲染完整的時長調整的解碼的傳輸通道幀。

[2]中的TSM操作包含一種特殊模式(第5.4.3.4章節)，其中對於非常靜默的幀而言，時長調整不以品質控制的方式操作，而是執行最大拉伸或收縮。在本發明的實施例中，在被分類為靜默的幀中，例如，訊號不是拉伸或縮短至最大允許值，而是例如在FD渲染器的情況下，不需要緩衝傳輸通道的樣本，即，TSM(例如，時長調整)傳輸通道與緩衝的樣本一起形成要渲染的幀，其長度是時頻變換的時隙大小的整數倍，而不需要過多的樣本被緩衝，這導致TSM傳輸通道與幀邊界的有利同步。

適配於重建/渲染

如重建所述，與解碼的傳輸通道相關聯的後設資料可以例如包含多個後設資料集，例如，每個後設資料集與解碼的傳輸通道幀的子幀相關聯。在這種情況下，例如，根據解碼的傳輸通道的時長調整來適配於渲染和/或後設資料將是有利的，例如，使渲染器的某些內部參數適配於所應用的TSM(例如內插步驟)也是有利的。

渲染：適配於子幀大小

在一實施例中，子幀的大小，即例如在FD域處理的情況下的FD時隙的數量或在包括在一個幀內的每個子幀的渲染器中的時域處理的情況下的時域樣本的數量，可基於傳輸通道的時長調整進行調整。

圖17顯示此類實施例的範例，在這種情況下，FD/時隙處理和TSM會導致縮短的時長調整的傳輸通道幀。在最簡單的情況下，參數可以是與TSM之前的已解碼傳輸通道幀的子幀相關聯的未調整的參數。由於TSM通常(但不一定)涉及未調整的解碼傳輸通道的不同片段的重疊和相加，在另一實施例中，例如透過後設資料的線性組合來調整進行重疊相加操作的子幀的後設資料是有利的，此後設資料與重疊相加過程中涉及的未調整的解碼傳輸通道的子幀相關聯。

渲染：保持子幀大小不變，適配後設資料

例如，可以要求所提出的系統提供持續時間比一個解碼幀的持續時間短的訊號部分(圖15)和/或提供用於渲染的外部參數(圖14)，動態外部參數(例如聽眾方向)的時間解析度通常具有等於渲染的子幀的時間解析度。對於這些情況，同樣考慮到盡可能小的運動到聲音延遲，以恆定子幀大小進行渲染是有利的。

圖10(或圖16或圖18)顯示實現此目的的實施例的範例(此範例仍是用於具有子幀的渲染器中的FD處理)。與具有適配的子幀大小的先前的實施例不同的是，子幀大小例如相對於未適配的情況沒有改變，但是例如子幀網格被移動，例如，根據先前的時長調整和當前幀中的時長調整。

如圖所示，在渲染步驟中，來自第一個子幀的一些時隙例如已經在先前幀中進行處理(由雜湊填充和由TS _-1表示的時隙來表示)，並且第一個子幀例如被縮短了該數量，或換句話說，仍需要處理以結束該子幀的時隙數量。例如，後續的子幀具有恆定大小。例如，該幀中的最後一個子幀可能超過要處理的幀大小，因此，例如，僅處理適合幀內的時隙數量，並且緩衝該子幀中仍需要處理的時隙數量到下一個幀中。

例如，一般來說，子幀的數量現在可以不同於未套用TSM的幀的子幀的數量，因此，可例如使後設資料適配於不同數量的子幀和/或所應用的時長調整是有利的，例如透過在TSM中應用重疊相加處理的子幀的線性組合和/或在新數量的子幀上對參數集進行線性內插。本實施例的另一個優點在於，例如，與子幀處理具有相同時間解析度的渲染器的可選外部參數不需要進行適配並且可以直接使用。

需注意者，對於顯示出FD重建/渲染和利用TSM縮短TC幀的實施例的所有範例，具有幀延長和/或時域渲染的範例也同樣適用。

IVAS JBM的處理參數和後設資料適配的實施細節

為全幀適配內插函數

在部分IVAS技術(例如參數化多通道、基於物件的音頻編碼)中，每幀僅具有一組後設資料，因此在這種情況下，無需使後設資料本身適配時長調整。在重建和渲染中，這些格式通常(但不一定)產生當前幀的混合規則(例如重建/渲染規則或矩陣)(例如混合矩陣) ，並與混合矩陣一起產生渲染的輸出訊號通過在當前和先前的混合規則之間使用線性內插法，例如，混合矩陣可以是用於時域處理的單一寬頻混合規則或用於頻域處理的頻帶相關規則，因此，對於長度不變的幀，時域處理情況下的時域輸出訊號為：其中，是樣本實例n處的傳輸通道樣本(以及可能的傳輸通道的去相關版本)，是內插器函數，是樣本實例n處的結果輸出通道樣本，且是樣本中幀長度的一半。

與未調整幀的頻域處理類似：其中，表示所使用的頻率表示的頻帶索引，是未調整的幀中頻域時隙數量的一半，n是要處理的時隙索引。

通常，這種情況下的線性內插器採用以下形式：使用[2]中的時長調整，我們可以看到，在某些情況下，我們總是會有剩餘部分(圖3和圖4中的rem)保持不變，並且具有長度的第一部分是重疊添加的版本，即使用先前幀的部分或當前幀的縮短部分產生。

根據一實施態樣，因此，可以有利的適配內插函數，用以在剩餘部分中保持未適配的內插器的斜率並通過重疊相加(第一個長部分)來適應此部分。同樣地，如果我們採用傳輸通道緩衝來保持一定的時間解析度，當假設對品質的影響很小時，我們可以假設為：其中是要處理的幀的長度，且例如，不再是時長調整後的傳輸通道的剩餘部分的實際長度。

圖19描述了調整內插器的原理。

因此，一般而言，例如，調整後的內插函數現在具有以下形式：

例如，通常有利於將限制為≥ 0的值：

那麼，現在對於時域處理的適配幀的處理例如是：而對於頻域處理，例如：

例如，自適應內插器函數的基於偽代碼循環的實例是(使用C樣式陣列索引，即陣列中的第一個元素的索引為零(0))：演算法1：用於產生自適應內插器的偽代碼

= get_interpolator(

begin

float dec = 1/(2* )

[ =1

for (n= -2 ; n ＞= ; n = n-1)

begin

[n] = max(0, [n+1]-dec)

end

if ( [ ] ＞ 0 )

begin

dec = [ ]/

for ( n = -1 ; n ＞= 0 ; n=n-1 )

[n] = max(0, [n+1]-dec)

end

else

for ( n = -1 ; n ＞= 0 ; n=n-1 )

[n] = 0

end

return

end

透過映射適配子幀後設資料

其他IVAS技術(DirAC、MASA、McMASA)，主要是基於基於場景的音頻(SBA)的技術，其中要編碼的音頻通常呈現在環繞立體聲中，例如，每幀採用數組後設資料，即它們有一組每個子幀的後設資料。在這種情況下，例如，基於該特定子幀的後設資料對每個子幀進行處理，混合規則通常(但不一定)是從後設資料產生的，並且可選地基於某些訊號特徵，例如，傳輸通道的組合能量，即所謂的參考能量。此外，渲染本身例如是透過使用像這樣的內插器在來自先前子幀的混合規則之間進行線性內插來完成的，其中於此是例如一個子幀的長度(以時隙為單位)。

例如，通常在這裡我們也喜歡遵循內插器的全幀自適應中提出的想法，即對於表示傳輸通道的未改變部分的剩餘部分也盡可能使用未改變的後設資料，並且僅在時長調整中將訊號重疊相加的部分進行調整。

後設資料通常(但不一定)儲存在緩衝器中，其中，例如，對於每個子幀儲存在緩衝器時隙中，該時隙的索引是子幀索引。

例如，對於共享共同後設資料的某些技術組合，後設資料需要延遲補償(例如，使用DirAC後設資料進行SPAR處理時)，在這種情況下，後設資料可以例如儲存在環形(模組)緩衝區中，該緩衝區包含比未更改的幀所需的後設資料時隙更多的後設資料時隙，通常是未更改的幀所需的時隙數量和延遲所需的後設資料時隙數量補償，後設資料緩衝區的長度為。例如，為了存取正確的後設資料以便以某種技術進行處理，例如對於要處理的每個幀決定後設資料中的偏移量。

例如，對於後設資料適配，於此可以建立映射向量，其中例如對於每個時隙儲存最適合的子幀索引，這可以例如使用規則來完成，規則是具有與相同特徵但適合生成映射索引的內插器、適合於陣列或向量的索引以零開頭的系統、適合於索引以1開頭的系統，可以透過將下式其中之一加入結果映射中，直接從以下內插器導出類似的內插器：其中，表示四捨五入到最接近的整數，是子幀的長度，公式中的除法是整數除法(即歐幾里德除法，其產生整數和(在本例中未使用的)餘數)，模運算是除數的模運算(即傳回整數除法的餘數的函數)。

以下偽代碼演算法是實現此映射的可能方法：

演算法2：生成後設資料映射
	= get_map(

1	begin
2	int src_idx, src_idx_map
3	float src_idx_f
4	int src_idx = 2* -1
5	float dec

6	for (n= -1 ; n ＞= ; n = n-1)
7	begin
8	src_idx_map = max(0,src_idx/	# integer division
9	[n] = modulo(src_idx_map + ), )
10	src_idx = src_idx – 1
12	end
13	if ( src_idx ＞ 0 )
14	begin
15	dec = (src_idx + 1) /	# float division
16	src_idx_f = (src_idx + 1) - dec
17	for ( n = -1 ; n ＞= 0 ; n=n-1 )
18	src_idx = max(0, / )	# integer division
19	[n] = modulo(src_idx + ), )
20	src_idx_f = src_idx_f - dec
21	end
22	else
23	for ( n = -1 ; n ＞= 0 ; n=n-1 )
24	[n] =
25	end
26	end
27	return
28	end

在處理本身中，為了在不依賴一個或多個傳輸通道訊號屬性的情況下產生混合規則，例如，可以透過使用子幀上的後設資料的平均值來生成，這可以被視為基於(幀)內插器特性的後設資料的線性內插。另一種可能性(範例)是基於由後設資料映射向量指示的時隙的後設資料來產生每個時隙的混合規則或中間參數集、並對混合規則或中間參數進行平均，例如，選擇哪個域進行平均取決於哪個域最適合平均。對於混合規則也考慮傳輸通道訊號屬性的情況，在許多情況下，在中間或混合規則域中進行平均是有利的，即在例如參考功率是訊號特徵的情況下，這可以被視為後設資料的(傳輸通道)訊號能量加權內插。

某些模式(SBA、DirAC)[7]不僅包含數個子幀的編碼和傳輸後設資料，而且例如還在解碼器的重建/渲染階段對傳輸通道應用後設資料分析，其時間解析度高於傳輸的後設資料的時間解析度，例如，對於沒有傳輸後設資料的頻段，每個時隙一個。

在這種情況下，內部緩衝器也已經以時隙方式儲存傳輸的後設資料，因此這種情況下的映射向量例如是：

例如，這可以使用演算法2並設定來實現。

解碼器後設資料分析也將估計的後設資料通常(但不一定)儲存在同一內部緩衝區中。對於適配子幀處理，由於映射可以針對多個連續時隙來處理指向內部後設資料緩衝區的相同時隙，有利的是在子幀處理之前將子幀的後設資料複製到本地緩衝器，以避免覆寫在處理中的相同(來源)時隙的解碼器處估計的後設資料上。

例如，映射向量也可以用於IVAS模式，其中混合規則不依賴訊號屬性，而是基於待處理幀長度不變的假設來計算和儲存的，然後根據(未改變的)時隙索引決定時隙的最終混合規則。在長度適配幀的情況下，可以用於將長度適配幀中要處理的時隙的時隙索引映射到未改變的時隙索引，以決定該時隙的混合規則。

採用瞬態位置指示器

某些IVAS技術(例如ParamMC[6])具有指示瞬態位置的後設資料，例如，TSM可以移動要處理的幀中的瞬態位置，因此可以透過以下方式調整瞬態位置：

其中，是適配的瞬態位置，和是要處理的幀的長度以及以瞬態位置後設資料的時間解析度表示的TSM片段長度，例如瞬態位置的時間解析度為2個CLDFB時隙(ParamMC)。

調整子幀處理內插

在所提出的系統中，要處理的子幀的時隙大小可能例如小於子幀處理的預設子幀大小。當在處理中使用內插器(例如，內插當前子幀和先前子幀的混合規則)時，這裡內插可以例如通過將其線性縮放到子幀大小來簡單地適配於較短的子幀大小處理。所以例如如果使用像這樣的線性內插器，則只需將內插器長度適配於要處理的子幀的大小。

17. 其他實施方案

儘管在裝置的相關說明中已經描述了一些實施態樣，但是顯然地，這些實施態樣也揭露相應方法的描述，其中區塊或裝置對應於方法步驟或方法步驟的特徵。類似地，在方法步驟的相關說明的實施態樣也揭露相應裝置的相應區塊或元件或特徵的描述。一些或所有方法步驟可以透過(或使用)硬體裝置來執行，例如微處理器、可程式計算機或電子電路。在一些實施例中，一個或多個最重要的方法步驟可以由這樣的裝置執行。

根據某些實例要求，本發明的實施例可以以硬體或軟體來實現。可以使用儲存有電子可讀控制訊號的數位儲存媒體來實現此實例，例如軟碟、DVD、藍光光碟、CD、ROM、PROM、EPROM、EEPROM或FLASH記憶體，其與可編程電腦系統協作(或能夠協作)以執行相應的方法。因此，數位儲存媒體可以是電腦可讀的。

根據本發明的一些實施例包括具有電子可讀控制訊號的資料載體，其能夠與可程式電腦系統協作，使得執行本揭露所公開的方法之一。

一般而言，本發明的實施例可以實現為具有程式碼的電腦程式產品，當電腦程式產品在電腦上運行時，程式碼可操作用於執行方法之一。程式碼可以例如儲存在機器可讀載體上。

其他實施例包括儲存在機器可讀載體上的用於執行本揭露所公開的方法之一的電腦程式。

換句話說，因此，本發明方法的實施例是具有程式碼的電腦程式，當該電腦程式在電腦上運行時，該程式碼用於執行本揭露所公開的方法之一。

因此，本發明方法的另一個實施例是資料載體(或數位儲存媒體、或電腦可讀媒體)，其包括記錄在其上的用於執行本揭露所公開的方法之一的電腦程式，資料載體、數位儲存媒體或記錄媒體通常是有形的和/或非暫時性的。

因此，本發明方法的另一個實施例是表示用於執行本揭露所公開的方法之一的電腦程式的資料流或訊號序列，資料流或訊號序列可以例如被配置為經由數據通訊連接(例如經由網際網路)傳送。

另一實施例包括處理裝置，例如電腦或可程式邏輯元件，其被配置為或適合執行本揭露所公開的方法之一。

另一實施例包括其上安裝有用於執行本揭露所公開的方法之一的電腦程式的電腦。

根據本發明的另一個實施例包括被配置為將用於執行本揭露所公開的方法之一的電腦程式，傳送(例如，電子地或光學地)到接收器的裝置或系統，接收器可以例如是電腦、行動裝置、儲存裝置等，該裝置或系統可以例如包括用於將電腦程式傳輸到接收器的檔案伺服器。

在一些實施例中，可程式邏輯元件(例如現場可程式閘陣列)可以用於執行本揭露所公開的方法的一些或全部功能。在一些實施例中，現場可程式閘陣列可以與微處理器協作以便執行本揭露所公開的方法之一，一般來說，該方法較佳地由任何硬體裝置來執行。

這裡描述的裝置可以利用硬體裝置來實現，或是利用電腦來實現，或是利用硬體裝置和電腦的組合來實現。

本揭露所公開的裝置或本揭露所公開的裝置的任何組件可以至少部分地以硬體和/或軟體來實現。

本揭露所公開的方法可以使用硬體裝置來執行，或使用電腦來執行，或使用硬體裝置和電腦的組合來執行。

本揭露所公開的方法或本揭露所公開的裝置的任何組件可以至少部分地由硬體和/或軟體來執行。

上述實施例僅是為了說明本發明的原理。應理解的，本揭露所述的配置和細節的修改和變化對於本領域的其他技術人員來說將是顯而易見的，因此，其意圖在僅受所附申請專利範圍的限制，而不是受透過本揭露之實施例的描述和解釋所呈現的具體細節限制。

19. 其他實施例

以下將說明本發明的其他實施例和實施態樣。

應注意的是，以下說明的各實施態樣可以單獨使用或組合使用。

還應注意的是，以下說明的實施態樣可以可選地由本揭露所公開的任何特徵、功能和細節來補充。

此外，以下揭露的任何實施態樣可以選擇性地引入到本揭露所公開的任何其他實施例中，無論是單獨的還是組合的。

1.一種用於提供時間縮放的音頻內容的音頻處理器，其中該音頻處理器具有多個處理步驟和中間音頻訊號，其中時間縮放是對中間音頻訊號進行的。(圖9)

2. 該音頻處理器，具有用於處理步驟的參數(圖10，參數例如是根據圖6依序應用的解碼後設資料或渲染參數)

3. 該音頻處理器，其中時間縮放由一時間縮放控制器所控制(圖11)

4. 該音頻處理器，其具有參數適配器(圖12)

5. 如實施態樣2的音頻處理器，其中處理步驟的參數是後設資料(例如，描述如何升混的空間後設資料)

6. 如實施態樣5的音頻處理器，其中後設資料與中間音頻訊號相關聯(例如，空間後設資料具有與TD訊號同步的子幀)

7. 如實施態樣4-6的音頻處理器，其中後設資料適配器被配置為適配與傳輸通道音頻樣本相關聯的後設資料(即，後設資料適配器遵循TD訊號的TSM的時間縮放比)

8. 如前述實施態樣的音頻處理器，其中中間音頻訊號是時域訊號並且對時域訊號進行時間縮放

9. 如前述實施態樣的音頻處理器，其中時間縮放器被配置為在多個音頻通道上同步時間縮放操作(例如，為每個通道給出相同數量的樣本的多通道TSM)

10. (刪除)

11. 緩衝TSM傳輸通道樣本以保持FD時間解析度的相關實施態樣(圖16，請參照說明)

12. 用於基於TC上應用的TSM為相關聯的每個子幀調整渲染器的子幀大小和/或後設資料的相關實施態樣(圖17，請參照說明)

13. 用於適配後設資料和子幀初始偏移以依據恆定子幀大小進行渲染的相關實施態樣(圖18，請參照說明)

14. 靜默幀中適配的TSM的相關實施態樣(無圖，請參照說明)

15. 在相關實施態樣中，揭露包含音頻處理器的解碼器，以及另一方面，解碼器是處理步驟之一

16. 在相關實施態樣中，處理步驟可以是解碼、渲染、重建、編碼(例如，這是在周邊的另一介面)

17. 如前述實施態樣的音頻處理器，其中音頻輸入訊號表示來自輸入緩衝器

18. 如前述實施態樣的音頻處理器，其中針對解碼器的輸入緩衝器是抖動緩衝器並且時間縮放控制是抖動緩衝器控制(參見例如[2]或[3])

19. 如前述實施態樣的音頻處理器，包括一解碼器，用於產生傳輸通道，一渲染器，用於從傳輸通道和相關聯的後設資料重建編碼或中間音頻格式、並將其渲染為輸出格式；(渲染器在圖中是單一個方塊，但其實際上是兩個步驟)

20. (如前述實施態樣的音頻處理器，其中傳輸通道已經代表輸出通道，並且渲染器只是一個直通方塊)

21. 如前述實施態樣19所述的音頻處理器，其中所述渲染器被配置為重建編碼音頻格式或中間音頻格式、並且在兩個連續處理步驟中將編碼音頻格式或中間音頻格式渲染為輸出格式。

22. 如前述實施態樣的音頻處理器，包括用於提供時間縮放的傳輸通道和相關聯的適配的後設資料以用於後續渲染的介面；(請參照說明，例如，將終端裝置中的渲染器與周邊裝置中的解碼器分開，在FD加參數域中連接)

23. 如前述實施態樣其中之一的音頻處理器，其中渲染器被配置為在一個組合處理步驟中處理編碼和中間輸出格式的重建以及將其渲染到輸出格式(參照大多數圖式，其中渲染和重建是單一方塊)

20. 結論

綜上所述，根據本發明的實施例關於一種具有中間音頻訊號的新穎的多階段音頻處理系統，其中對中間音頻訊號之一應用時長調整。此外，根據本發明的實施例顯示基於由共同時長調整控制器控制的中間音頻訊號的時長調整來適配處理步驟和處理參數的方法。在一詳細實施例中，其公開了一種用於通訊編解碼器的抖動緩衝器管理解決方案，該通訊編解碼器能夠基於傳輸通道和相關聯的後設資料對複雜音頻場景進行編碼和/或解碼，以重建編碼音頻格式。

本發明的實施例關於多階段音頻處理、時長調整、參數適配、播放速度、JBM和/或IVAS。

本發明的實施例可在3GPP IVAS的內容中使用。

參考文獻 [1] Kramer, Kris W.; Robert, Chris C. Forrester; Joly, Nepean: JITTER BUFFER MANAGEMENT; US Patent 6,658,027 B1; December 2003 [2] ETSI TS 126 448: Universal Mobile Telecommunications System (UMTS);LTE;EVS Codec Jitter Buffer Management (3GPP TS 26.448 version 12.0.0 Release 12) [3] Reuschl, Stefan; Döhla, Stefan; Lecomte, Jeremie; Jander, Manuel: Jitter Buffer Control, Audio Decoder, Method and Computer Program, US Patent 9,997,162 B2; June 2018 [4] IVAS Design Constraints (IVAS-4), Version 1.0.0, https://www.3gpp.org/ftp/tsg_sa/WG4_CODEC/IVAS_Permanent_Documents/IVAS-4_S4-2211619.zip [5] Fuchs, Guillaume, et al: Apparatus and Method for Encoding or Decoding Directional Audio Coding Parameters using Quantization and Entropy Coding; US Patent 11,367,454 B2, June 2022 [6] Bayer, Stefan; Boutheon, Alexandre; Fuchs, Guillaume; Multrus, Markus; Küch, Fabian; Thiergart, Oliver; Disch, Sascha; Herre, Jürgen: Parameter Encoding and Decoding, European Patent Application EP3984028A2, June 2020 [7] Bayer, Stefan, et al: Audio Scene Encoder, Audio Scene Decoder and Related Methods Using Hybrid Encoder/Decoder Spatial Analysis, European Patent Specification EP 3 724 876 B1, May 2022

100, 340, 900, 1000, 1100, 1200, 1300, 1400:音頻處理器 110, 210, 910, 1010, 1110, 1210:輸入音頻訊號表示 112, 212, 912:經處理的音頻訊號表示 120:第一處理 122, 222:中間音頻訊號 130, 930, 1030, 1130, 1230:時長調整 132, 232:時長調整後中間音頻訊號 140:第二處理 200:音頻處理系統 220:第一處理、第一處理器 230:時長調整、時長調整器 240:第二處理、第二處理器 250:第三處理、第三處理器 300:音頻解碼器 310:編碼的音頻表示 312:解碼的音頻表示 400:方法 410~430:步驟 521a, 531a:輸入幀 521c, 531c:部分 521e, 531e:開始部分 521f, 531f:結束部分 521d, 531d:輸出幀 920, 1020, 1220:第一處理步驟、處理步驟、第一處理 922, 1022:第一中間音頻訊號 932, 1032, 1132, 1232:時長調整後第一中間音頻訊號 940, 1040, 1140, 1240:第二處理步驟、處理步驟、第二處理 942, 1042, 1142, 1242:第二中間音頻訊號 950, 1050, 1150, 1250:第n處理步驟、處理步驟 1021:處理參數 1041:第二處理參數 1012:經處理的音頻訊號 1112:經處理的音頻訊號表示、經處理的音頻訊號 1120:第一處理步驟 1122, 1222:第一中間音頻訊號、中間音頻訊號 1134, 1144, 1154, 1234:控制訊號、控制資訊 1136:時間縮放資訊 1160, 1260:時間縮放控制器 1221:第一處理參數 1241:第二處理參數、處理參數 1244, 1247, 1254, 1257, 1334, 1344, 1347, 1434, 1447, 1487:控制訊號 1245:第二處理參數 1246:第一參數適配器、參數適配器 1251:第n處理參數、處理參數 1255:適配的處理參數 1256:參數適配器 1310:輸入音頻表示 1320:解碼、解碼器 1322, 1422:解碼的傳輸通道 1324:解碼的後設資料、後設資料 1330, 1430:多通道時長調整、時長調整 1332, 1432:時長調整的傳輸通道 1336, 1436:時間縮放資訊 1340, 1440:重建和渲染 1349, 1449:渲染參數 1370, 1470:後設資料適配、參數適配 1372, 1472:適配後的後設資料 1380:播放速度控制器、播放速度控制 1381, 1483:自適應控制邏輯 1382:播放速度資訊 1312:重建的音頻通道、重建的輸出通道 1420:解碼 1424:後設資料 1412:重建的輸出通道 1480:抖動緩衝器控制 1481:網路抖動分析和目標延遲估計、抖動緩衝器分析、網路抖動分析 1482:網路抖動分析結果、網路抖動分析結果資訊 1484:播放延遲估計器 1485:緩衝器充滿度資訊 1486:播放延遲資訊 1490:封包處理 1492:即時傳輸協定封包、RTP封包 1493:即時傳輸協定解包器、解包器 1493a:時序資訊 1494:封包有效負載、有效負載資訊 1495:去抖動緩衝器 1496:緩衝的有效負載資訊 1510:接收器輸出緩衝器 1520:聲學前端 1530:檢查 1560:重建器/渲染器 1570:檢查 1580:解碼 1590:接收器輸出緩衝器 1595:聲學前端、聲學前端或周邊裝置 1610:原始傳輸通道幀 1620, 1720, 1820:縮短的傳輸通道幀 1630, 1730:緩衝樣本 1632, 1732, 1832:部分 1640, 1840:幀 1642, 1742, 1842:樣本 1650, 1750, 1850:時頻變換 1660:頻域表示 1662, 1772, 1872:參數 1670:渲染器、渲染 1680, 1780, 1880:逆時頻變換 1690, 1890:時域表示 1700:處理 1710, 1810:傳輸通道幀 1740:幀、部分 1770, 1870:渲染器 1790:縮短的輸出幀 1830:緩衝樣本、部分 1902:幀大小不變 1910, 1930, 1950:橫座標 1912, 1932, 1952:縱座標 1914, 1916, 1934, 1935, 1936, 1954, 1955, 1956:內插函數的值 1915:內插函數 1922:縮短的幀大小 1942:加長的幀大小 seg a:第一部分、部分、第一片段 seg b:第二部分、部分、第二片段 SF1:第一子幀、子幀 SF2:第二子幀、子幀 SF3:第三子幀、子幀 SF4:第四子幀、子幀 TS:時隙

以下將參考圖式說明根據本發明的實施例，其中：圖1顯示根據本發明實施例的音頻處理器的方塊示意圖；圖2顯示根據本發明實施例的音頻處理系統的方塊示意圖；圖3顯示根據本發明實施例的音頻解碼器的方塊示意圖；圖4顯示根據本發明實施例的方法的流程圖；圖5a顯示EVS抖動緩衝管理解決方案的模組([2]的圖2)的方塊示意圖；圖5b顯示接收器輸出緩衝器([2]的圖7)的方塊示意圖；圖5c顯示輸入幀的縮短版本的示意性表示([2]的圖5)，其可以可選地用於根據本發明的實施例的時長調整中；圖5d顯示輸入幀的延長版本的示意性表示([2]的圖6)，其可以可選地用於根據本發明的實施例中的時長調整中；圖5e顯示具有子幀的頻域渲染的示意性表示；圖6顯示具有參數重建的IVAS的方塊示意圖；圖7顯示根據本發明實施例的通用多階段音頻處理器的方塊示意圖；圖8顯示根據本發明實施例的在輸出通道上具有時長調整(TSM)的IVAS抖動緩衝管理(IVAS JBM)的方塊示意圖；圖9顯示根據本發明的實施例的具有中間音頻訊號的時長調整(TSM)的音頻處理器的方塊示意圖；圖10顯示根據本發明實施例的具有中間音頻訊號的參數和時長調整(TSM)的音頻處理器的方塊示意圖；圖11顯示根據本發明實施例的具有中間音頻訊號的時長調整(TSM)的音頻處理器和時間縮放處理器的方塊示意圖；圖12顯示根據本發明實施例的具有中間音頻訊號的時長調整(TSM)的音頻處理器、處理參數適配器和時間縮放控制器的方塊示意圖；圖13顯示根據本發明實施例的播放語音控制的方塊示意圖；圖14顯示根據本發明實施例的IVAS抖動緩衝器管理(IVAS JBM)的方塊示意圖；圖15a顯示根據本發明實施例的用於IVAS抖動緩衝器管理(IVAS JBM)的接收器緩衝器的示意性表示；圖15b顯示根據本發明另一個實施例的用於IVAS抖動緩衝器管理(IVAS JBM)的接收器緩衝器的示意性表示；圖16顯示根據本發明的實施例的用於FD渲染的傳輸通道(TC)幀緩衝的示意性表示；圖17顯示根據本發明的實施例的具有適配的子幀大小的頻域(FD)渲染的示意性表示；圖18顯示根據本發明的實施例的具有恆定子幀大小並適配後設資料的渲染的示意性表示；以及圖19顯示根據本發明的實施例的用於適配內插函數的概念的圖形表示。

100:音頻處理器

110:輸入音頻訊號表示

112:經處理的音頻訊號表示

120:第一處理

122:中間音頻訊號

130:時長調整

132:時長調整後中間音頻訊號

140:第二處理

Claims

一種音頻處理器，用於基於一輸入音頻訊號表示提供一處理後音頻訊號表示，其中，該音頻處理器被配置為執行複數個處理步驟，以便基於該輸入音頻訊號表示提供該處理後音頻訊號表示；其中，該音頻處理器被配置為對由一第一處理提供的一個或多個中間音頻訊號執行一時長調整，以獲得一個或多個時長調整後中間音頻訊號；以及其中，該音頻處理器被配置為基於該一個或多個時長調整後中間音頻訊號來執行在該第一處理之後的一第二處理。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為根據一個或多個參數來執行該第二處理。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使該第二個處理適配於該時長調整。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為使一個或多個處理參數適配於該時長調整，以獲得多個適配後處理參數，其中，該音頻處理器被配置為根據該一個或多個適配後處理參數來執行該第二處理。
如請求項4所述之音頻處理器，其中，該一個或多個處理參數在時間上與該一個或多個中間音頻訊號相關聯，其中，該音頻處理器被配置為獲得該等適配後處理參數，使得該等適配後處理參數適配於該時長調整後中間音頻訊號的一時序。
如請求項4所述之音頻處理器，其中該音頻處理器被配置為使用時間內插法或使用時間外插法來獲得該適配後處理參數。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為對一個或多個解碼後傳輸通道套用一時長調整。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為基於一個或多個解碼後傳輸通道和一後設資料來獲得或重建複數個輸出音頻通道。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為對複數個解碼後傳輸通道應用相同的一時長調整。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為根據該時長調整來調整一後設資料，以用於獲得或重建一輸出音頻通道。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為對具有一第一長度的多個時間段執行該第一處理；以及其中，該音頻處理器被配置為對具有比該第一長度短的一第二長度的多個時間段執行該第二處理，或其中，該音頻處理器被配置為對具有比該第一長度短的一第二長度的多個時間增量執行該第二處理。
如請求項11所述之音頻處理器，其中該時長調整的一粒度比該第二長度更小。
如請求項1所述之音頻處理器，其中，該第一處理被配置為逐塊地提供多個時域樣本，其中由該第一處理提供的一時域樣本區塊包括一第一數量的時域樣本；以及其中，該第二處理被配置為基於時長調整的時域樣本的多個時域樣本區塊進行操作，該等時長調整的時域樣本是從使用時長調整的該第一處理提供的該等時域樣本導出的，其中，由該第二處理所處理的該等時域樣本區塊包括比由該第一處理提供的該等時域樣本區塊更短的長度；或者其中，該第二處理被配置為對每個處理步驟輸入多個時域樣本的一區塊，該區塊多個基於時長調整的時域樣本，該等基於時長調整的時域樣本是從使用該時長調整的該第一處理提供的該等時域樣本中導出的，其中，對每個處理步驟輸入到該第二處理的該等時域樣本的該區塊包括比該第一處理提供的該等時域樣本區塊更短的長度。
如請求項1所述之音頻處理器，其中由該第二處理所處理的該等時域樣本區塊包含複數個時域樣本。
如請求項1所述之音頻處理器，其中，用於該第二處理的後設資料與該輸入音頻訊號表示的多個子幀相關聯，和/或與該一個或多個中間音頻訊號的多個子幀相關聯，其中，各該子幀包括一個或多個時隙，其中，該音頻處理器被配置為提供該一個或多個時長調整後中間音頻訊號，使得該一個或多個時長調整後中間音頻訊號的一相應幀，在與該輸入音頻訊號表示的一對應幀相比時、和/或在與該一個或多個中間音頻訊號的一對應幀相比時，包括不同的長度。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為提供該一個或多個時長調整後中間音頻訊號，使得該一個或多個時長調整後中間音頻訊號的一相應幀的長度不同於應用於該第二處理的一區塊大小的倍數；和/或其中，該音頻處理器被配置為以多個時間增量執行該第二處理，其中，該音頻處理器被配置為提供該一個或多個時長調整後中間音頻訊號，使得該一個或多個時長調整後中間音頻訊號的一相應幀的長度不同於該等時間增量的倍數。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為基於與該一個或多個時長調整後中間音頻訊號中的一先前幀相關聯的一個或多個時域樣本、並且基於與該一個或多個時長調整後中間音頻訊號的一當前幀相關聯的一個或多個時域樣本，形成用於該第二處理一樣本區塊，以及其中，該音頻處理器被配置為基於與該一個或多個時長調整後中間音頻訊號的一當前幀相關聯的複數個時域樣本，形成用於該第二處理的一個或多個樣本區塊，且其中，該音頻處理器被配置為緩衝與該一個或多個時長調整後中間音頻訊號的一當前幀相關聯的一個或多個剩餘時域樣本，以形成用於該第二處理的一樣本區塊，該樣本區塊包括與該一個或多個時長調整後中間音頻訊號的一後續幀相關聯的一個或多個時域樣本。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使用與該一個或多個時長調整後中間音頻訊號的一先前幀相關聯的一個或多個緩衝剩餘時域樣本、以及與該一個或多個時長調整後中間音頻訊號的該當前幀相關聯的一最大可能數量的時域樣本，來形成用於與該當前幀相關聯的該第二處理的多個樣本區塊。
如請求項1所述之音頻處理器，其中在該第二處理中使用的一後設資料的一時間解析度小於該第二處理的一時間解析度。
如請求項1所述之音頻處理器，其中該一個或多個中間音頻訊號是一個或多個傳輸通道訊號。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使用一品質控制機制來執行該時長調整。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為依據該一個或多個中間音頻訊號的一個或多個特徵和/或依據一輔助資訊，在一品質控制時長調整模式和一非品質控制時長調整模式之間進行切換。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為在一非品質控制時長調整模式下操作。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為針對被分類為靜默的多個幀選擇性地切換到一特定時長調整模式；以及其中，該音頻處理器被配置為在該特定時長調整模式下操作時，以不需要緩衝剩餘幀的方式執行該時長調整。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使在該第二處理中使用的或被輸入到該第二個處理中以進行一時間增量的一子幀大小適配於該時長調整。
如請求項25所述之音頻處理器，其中該音頻處理器被配置為使在該第二個處理中處理的或輸入到該第二個處理中以進行該時間增量的多個時隙適配於該時長調整。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為使用與該一個或多個中間音頻訊號的不同片段重疊的一個或多個重疊相加操作來執行該時長調整，其中，該音頻處理器被配置為適配於一後設資料，其中將該等重疊相加操作應用於該一個或多個中間音頻訊號的不同片段，以獲得與該一個或多個時長調整後中間音頻訊號的幀或子幀相關聯的適配後設資料。
如請求項27所述之音頻處理器，其中該音頻處理器被配置為線性組合與重疊相加操作中涉及的該一個或多個中間音頻訊號的該等幀或子幀相關聯的該後設資料，以獲得與一個或多個時長調整後中間音頻訊號的最終幀或子幀相關聯的後設資料。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使用確定波形相似性的方法，從作為一中間音頻訊號的一給定音頻幀的多個部分的複數個候選片段中識別出一片段，用於與該給定音頻幀的一預定部分重疊相加，以獲得該給定音頻幀的一縮短版本。
如請求項29所述之音頻處理器，其中該音頻處理器被配置為在該給定音頻幀的該縮短版本的一末端處包含該給定音頻幀的一未調整部分，該未調整部分位於該給定音頻幀的一原始版本中的所識別的該片段之後。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使用確定波形相似性的方法，從複數個候選片段中識別出一片段，用於與一給定音頻幀的一預定部分進行重疊相加以獲得該給定音頻幀的一加長版本，該等候選片段為包括該給定音頻幀之前的一中間音頻訊號的一先前音頻幀的值的多個部分。
如請求項31所述之音頻處理器，其中該音頻處理器被配置為在該給定音頻幀的該加長版本的一末端處包括一未調整部分，該未調整部分包括跟隨所識別的該片段的該給定音頻幀的值。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為在與該一個或多個中間音頻訊號的一先前幀相關聯的一個或多個處理參數和與該一個或多個中間音頻訊號的一當前幀相關聯的一個或多個處理參數之間進行時間內插，以便使用一內插函數獲得與該一個或多個時長調整後中間音頻訊號的一當前幀的不同時間實例相關聯的處理參數，該內插函數決定在一處理參數線性組合中，與該先前幀相關聯的該一個或多個處理參數的貢獻以及與該當前幀相關聯的該一個或多個處理參數的貢獻。
如請求項33所述之音頻處理器，其中該內插函數是將一時間索引映射到一權重值的一線性函數或一分段線性函數，該權重值決定與一先前幀相關聯的一處理參數和與一當前幀相關聯的一處理參數對一時間內插處理參數的貢獻。
如請求項33所述之音頻處理器，其中，對於一時間縮短的音頻幀，該內插函數對於使用重疊相加組合獲得的時長調整後的該當前幀的一部分包括比時長調整後的該當前幀的未調整部分更大的斜率；和/或其中，對於一時間延長的音頻幀，該內插函數對於使用重疊相加組合獲得的時長調整後的該當前幀的一部分包括比時長調整後的該當前幀的未調整部分更小的斜率。
如請求項33所述之音頻處理器，其中，該音頻處理器被配置為根據下式獲得與具有時間索引的時間實例n相關聯的內插處理參數Pinter[n] Pinter[n]=ga,f[n] P + (1-ga,f)Pprev，其中，P是與該一個或多個中間音頻訊號的一當前幀相關聯的一處理參數或一組處理參數，其中，Pprev是與該一個或多個中間音頻訊號的一先前幀相關聯的一處理參數或一組處理參數，其中，Pinter是與該一個或多個時長調整後中間音頻訊號的一當前幀中的一時間實例n相關聯的一處理參數或一組處理參數，以及其中，ga,f是一內插函數。
如請求項36所述之音頻處理器，其中，該內插函數ga,f定義為，且其中其中，n是一時間索引，其中 Lrem=Lf-Lseg，其中，Lf為一待處理幀的一長度；其中，Lseg是應用重疊相加進行時長調整的一部分的長度。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為根據下式執行對該一個或多個時長調整後中間音頻訊號的值的處理：或根據下式執行： , 其中，x[n]和xk[n]是該一個或多個時長調整後中間音頻訊號的多個值或多組值，其中，M是與該一個或多個中間音頻訊號的一當前幀相關聯的一處理參數或一組處理參數；其中，Mprev是與該一個或多個中間音頻訊號的一先前幀相關聯的一處理參數或一組處理參數，其中，n是時間索引，其中，Lf為一待處理幀的長度，且其中，ga,f是一內插函數。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使用與一音頻幀的多個子幀相關聯的多個處理參數來執行該第二處理。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使用與一給定子幀相關聯的多個處理參數來獲得用於該第二處理的一處理規則。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為根據該時長調整來決定用於定義多個時隙和多個子幀索引之間的關聯的一映射向量。
如請求項41所述之音頻處理器，其中，該音頻處理器被配置為根據下式決定該映射向量：或根據根據下式：其中，m _sf[n]為該映射向量的元素；其中，n為一時隙索引；其中，n _offset為一偏移值；其中，L _seg為時隙中的原始的該一個或多個中間音頻訊號的一個幀的長度的一半；其中，2L _seg為時隙中原始的該一個或多個中間音頻訊號的一個幀的長度；其中，L _sf為時隙中一個子幀的長度；其中，L _md為一個後設資料緩衝的長度；其中，n _offset是；及其中，g _a,map[n]為一內插函數；其中，表示四捨五入到最接近的整數；其中，modulo是一模運算，以及其中，除法為整數除法。
如請求項42所述之音頻處理器，其中其中，L _f為時隙中待處理的一個幀的長度；其中，L _rem=L _f-L _seg。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為根據該時長調整來決定一映射向量，該映射向量定義該一個或多個時長調整後中間音頻訊號的時隙與原始的該一個或多個中間音頻訊號的時隙之間的關聯，[其中，例如，一緩衝器儲存一後設資料，例如以逐時隙的方式傳送該後設資料(即使該後設資料是按每個子幀提供的，其中一個子幀包括多個時隙)]。
如請求項44所述之音頻處理器，其中，該音頻處理器被配置為根據下式決定該映射向量：其中，n為一時隙索引，其中，2L _seg為時隙中原始的該一個或多個中間音頻訊號的一個幀的長度；及其中，g _a,map[n]為一內插函數。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為根據該時長調整來決定一映射向量，該映射向量定義該一個或多個時長調整後中間音頻訊號的時隙與原始的該一個或多個中間音頻訊號的時隙之間的關聯。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為使用與構成該一個或多個時長調整後中間音頻訊號的一給定子幀的時隙相關聯的多個處理參數來決定與該一個或多個時長調整後中間音頻訊號的該給定子幀相關聯的多個處理參數，或者其中，該音頻處理器可以被配置為使用與各個時隙相關聯的多個處理參數來獲得每個時隙的多個渲染規則或多個升混規則或多個中間參數，並且使用與該等時隙相關聯的該等渲染規則或該等升混規則或該等中間參數渲染的平均，來獲得與一子幀相關聯的一渲染規則或一升混規則或多個中間參數，以構成該子幀。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為使一子幀的多個時隙之間的一內插適配於透過該時長調整獲得的一子幀的大小。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為根據一當前幀的一時長調整來調整該一個或多個時長調整後中間音頻訊號的多個子幀的一子幀網格。
如請求項1所述之音頻處理器，其中該第一處理是一音頻解碼。
如請求項1所述之音頻處理器，其中，該第一處理包括解碼、渲染、重建和編碼中的至少一個；及/或其中，該第二處理包括解碼、渲染、重建和編碼中的至少一個。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為從一輸入緩衝器接收該輸入音頻訊號表示。
如請求項1所述之音頻處理器，其中，該音頻處理器被配置為從一抖動緩衝器接收該輸入音頻訊號表示；以及其中，該音頻處理器包括一時間縮放控制以調整該時長調整，其中，該時間縮放控制是一抖動緩衝器控制。
如請求項1所述之音頻處理器，其中，該第一處理包括多個編碼傳輸通道的解碼；以及其中，該第二處理包括一渲染，被配置為基於時長調整的多個傳輸通道和相關聯的後設資料重建一編碼音頻格式或一中間音頻格式，並且將該編碼音頻格式或該中間音頻格式渲染為一輸出格式。
如請求項54所述之音頻處理器，其中該渲染被配置為在兩個連續的處理步驟中重建該編碼音頻格式或該中間音頻格式，並且將該編碼音頻格式或該中間音頻格式渲染為該輸出格式。
如請求項1所述之音頻處理器，其中該音頻處理器的功能被分配到兩個或更多個裝置，該等裝置之間設有一介面。
如請求項1所述之音頻處理器，其中該音頻處理器包括一介面，其被配置為提供該時長調整後中間音頻訊號和相關聯的後設資料，以進行一後續渲染。
如請求項1所述之音頻處理器，其中，該第二處理是一渲染，其中，該渲染被配置為在一組合處理步驟中進行該編碼音頻格式及/或該中間音頻格式的一重建，以及進行重建後的該編碼音頻格式及/或該中間音頻格式的一渲染。
如請求項1所述之音頻處理器，其中，該一個或多個中間音頻訊號是多個時域訊號，以及其中，該音頻處理器被配置為對該時域中間音頻訊號進行該時長調整。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為同步複數個中間音頻訊號上的一時間縮放操作。
如請求項1所述之音頻處理器，其中該音頻處理器被配置為根據該時長調整來調整一瞬態位置資訊。
如請求項61所述之音頻處理器，其中，該音頻處理器被配置為根據下式獲得一適配瞬態位置其中，n _T為一原始瞬態位置值，其中，L _f為該一個或多個時長調整後中間音頻訊號的一個幀的長度；以及其中，2L _seg為原始的該一個或多個中間音頻訊號的一個幀的長度。
一種音頻處理系統，用於基於一輸入音頻訊號表示提供一處理後音頻訊號表示，其中，該音頻處理系統被配置為執行複數個處理步驟，以便基於該輸入音頻訊號表示提供該處理後音該訊號表示；其中，該音頻處理系統被配置為對由一第一處理提供的一個或多個中間音頻訊號執行一時長調整，以獲得一個或多個時長調整後中間音頻訊號，以及其中，該音頻處理系統被配置為基於該一個或多個時長調整後中間音頻訊號、或基於從該一個或多個時長調整後中間音頻訊號導出的多個訊號，來執行在該第一處理之後的一第二處理；其中，該音頻處理系統的功能被分配到兩個或更多個裝置。
如請求項63所述之音頻處理系統，其中該音頻處理系統包括一介面，用於提供該時長調整後中間音頻訊號和相關聯的調整後之後設資料給該第二處理，該第二處理與該第一處理在不同的裝置中進行。
一種音頻解碼器，用於基於一編碼音頻表示提供一解碼音頻表示，其中，該音頻解碼器包括如請求項1所述的該音頻處理器。
一種提供音頻訊號表示的方法，用於基於一輸入音頻訊號表示提供的一處理後音頻訊號表示，其中，該方法包括執行複數個處理步驟，以便基於該輸入音頻訊號表示來提供該處理後音頻訊號表示；其中，該方法包括對由一第一處理提供的一個或多個中間音頻訊號執行一時長調整，以獲得一個或多個時長調整後中間音頻訊號，以及其中，該方法包括基於該一個或多個時長調整後中間音頻訊號來執行在該第一處理之後的一第二處理。
一種電腦程式，用於當該電腦程式在一電腦上運行時，執行如請求項66所述的方法。