TW201610983A

TW201610983A - 資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術

Info

Publication number: TW201610983A
Application number: TW104116674A
Authority: TW
Inventors: 史蒂芬夏倫那; 席夢尼弗格; 哈拉德福契斯; 珍普洛格史堤; 史蒂芬多希拉
Original assignee: 弗勞恩霍夫爾協會
Priority date: 2014-05-28
Filing date: 2015-05-25
Publication date: 2016-03-16
Also published as: ES2739886T3; CN110177297A; EP3149955B1; PT3522554T; KR20170023870A; US20230396856A1; CA2950197C; EP3149955A1; AR125776A2; EP3800898B1; RU2653858C1; MX2016015388A; ES2883498T3; MX359385B; US20240357212A1; KR101967810B1; MY174199A; AR125774A2; US20220286756A1; EP3800898C0

Abstract

本案提供一種音訊資料處理器，其包含：一接收器介面，其用於接收經編碼音訊資料及與該經編碼音訊資料有關之元資料；一元資料剖析器，其用於剖析該元資料以判定一音訊資料操縱可能性；一互動介面，其用於接收一互動輸入且用於自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料；以及一資料串流產生器，其用於獲得該互動控制資料及該經編碼音訊資料以及該元資料且用於產生一輸出資料串流，該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分，及該互動控制資料。

Description

資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術

發明領域

本發明涉及一種根據技術方案1之音訊資料處理器、一種根據技術方案14之用於處理音訊資料之方法及一種根據技術方案15之用於執行處理音訊資料之方法之電腦程式。

發明背景

在家用消費型電子裝置(CE)安裝中，功能性在經由標準化介面連接之若干裝置上擴展。另外，(高品質)設備常常不僅僅建置成單個單一器件，而可使用複雜的單一器件(考慮機上盒、電視機、AVR接收器)。此等器件經由標準化介面(諸如HDMI)進行通訊。

在第一器件擷取所要串流且提供所有使用者介面時，第二器件常常在無任何使用者介面的情況下以「受控器模式」執行解碼。就使用者互動及對解碼器之控制而論，在此情形中，必須將此使用者資訊自第1器件傳達至第2器件。

舉例而言，如圖9中所示，電視節目常常由諸如機上盒之第一器件接收，該第一器件選擇適當傳輸頻道且擷取含有所要經寫碼要素之相關基本串流。此等所擷取串流可饋送至諸如音訊-視訊接收器之第二器件以用於再現。可藉由傳輸經解碼/經解壓縮表示(PCM音訊)或經編碼表示來實現此等兩個器件之間的傳輸，在頻寬限制應用於所使用的互連線的情況下尤其如此。

另外，因為選擇所要串流及/或視情況選擇使用者互動係在第1器件(例如，機上盒)中實現，因此在大多數情況下，僅此器件提供使用者控制介面。第二器件(例如，A/V接收器)僅提供在設定系統時通常僅由使用者存取一次且在正常操作時間以「受控器模式」起作用之組態介面。

現代音訊編碼解碼器方案並不僅僅支援音訊信號之編碼，且亦提供用於使用者互動以使音訊播出及渲染適於收聽者之偏好之構件。音訊資料串流由數個經編碼音訊信號(例如，頻道信號或音訊物件)及伴隨的元資料資訊組成，該元資料資訊描述此等音訊信號如何形成顯現至揚聲器之音訊場景。

音訊物件之實例為：˙以不同語言進行的對話，˙如音訊描述之額外對話，或˙音樂音效背景。

元資料資訊之實例為：

˙每一物件信號之預設音量等級(亦即，混音成混合信號以供擴音器呈現所必需之響度)，

˙預設空間位置(亦即，其必須顯現之位置)，

˙對於特定物件是否允許使用者互動之資訊，或

˙允許使用者如何進行互動之資訊，例如，最小/最大音量等級或對使用者可將物件重新平移至之位置的限制。

˙音訊物件之分類及/或描述

為實現使用者互動性，音訊解碼器/渲染器(例如第2器件)需要提供用於控制用於所要使用者互動之資訊的額外(輸入或互動)介面。

當解碼及渲染係在第2器件而非在第1器件中實施時，亦可能替代地需要在第1器件中實施對於音訊物件選擇及操縱的使用者控制且將此資料饋送至第2器件。

然而，此類資料之傳輸歸因於以下事實而受到限制：現有標準化連接並不支援使用者控制資料及/或渲染器資訊之傳輸。

或者，如上文所描述的對於第1器件的串流之選擇及使用者互動與如上文所描述的對於第2器件之解碼可由含於相同器件內之兩個單獨功能組件在對兩個組件之間的資料傳輸具有相同限制的情況下來處理，該等限制即：用於經寫碼資料及使用者互動資料之僅一個介面可用，較佳為第1器件之互動介面，而可省略用於使用者互動資料之第二介面，亦即通常由第2器件提供之介面。即使第1 器件及第2器件兩者皆含於或實施於相同(硬體)器件內，此亦導致與針對分開之第1器件與第2器件之情況所述的相同的情境。

為了實現所描述之使用情況且克服上述限制，提出將使用者控制資訊資料或(一般而言)互動資料嵌入至經編碼音訊資料串流中。

發明概要

因此，本發明之一目標為改良現有音訊資料處理器。

大體而言，第一器件可組配為如技術方案1中所界定之音訊資料處理器，其包含：一接收器介面，其用於接收經編碼音訊資料及與該經編碼音訊資料有關之元資料；一元資料剖析器，其用於剖析該元資料以判定一音訊資料操縱可能性；一互動介面，其用於接收一互動輸入且用於自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料；以及一資料串流產生器，其用於獲得該互動控制資料及該經編碼音訊資料以及該元資料且用於產生一輸出資料串流，該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分，及該互動控制資料。其他較佳實施例界定於所附附屬技術方案及其他獨立技術方案中。

該經編碼音訊資料可包含單獨的經編碼音訊物件，其中該元資料之至少一部分與一對應音訊物件有關，其中該元資料剖析器經組配以剖析該等經編碼音訊物件之該對應部分以針對至少一音訊物件判定該物件操縱可能性，其中該互動介面經組配以針對該至少一個經編碼音訊物件自與該至少一個經編碼音訊物件有關之該互動輸入產生該互動控制資料。因此，音訊物件可藉由使用各別互動控制資料而容易且直接地在儲存於該元資料內之其對應物件操縱可能性內操縱。

該互動介面可經組配以向一使用者呈現藉由該元資料剖析器自該元資料導出之該音訊資料操縱可能性，且自該使用者接收關於該資料操縱可能性之特定資料操縱之一使用者輸入。此可實現向使用者提供用於與發明性器件互動(例如用於操縱音訊物件，較佳在外部自解碼器)之使用者介面的實際方式。

該資料串流產生器可經組配以處理包含藉由該接收器介面接收之該經編碼音訊資料及該元資料之一資料串流而不解碼該經編碼音訊資料，或複製該經編碼音訊資料及該元資料之至少一部分而不改變輸出資料串流，其中該資料串流產生器經組配以將含有該互動控制資料之一額外資料部分添加至該輸出資料串流中之該經編碼音訊資料及/或該元資料。此提供較小複雜度之優勢，因為音訊資料處理器不需要解碼音訊信號。其僅需要剖析該元資料且將其寫回至該經編碼音訊資料串流之該元資料部分。

該資料串流產生器可經組配以在該輸出資料串流中以與該元資料相同之格式產生該互動控制資料。因此，任何互動控制資料可有利地整合至該輸出資料串流中。

該資料串流產生器可經組配以使該輸出資料串流中之一識別符與該互動控制資料相關聯，該識別符不同於與該元資料相關聯之一識別符。對於經操縱元資料使用一不同識別符之優勢為可啟用一遠端解碼器來在亦接收原始資料之同時自所接收經操縱資料串流識別該互動。

該資料串流產生器可經組配以將簽章資料添加至該互動控制資料，該簽章資料指示關於一應用程式、執行一互動(例如一音訊資料操縱或提供該使用者輸入)之一器件或一使用者的資訊。藉由傳送原始及經操縱資料，該元資料之重設係可能的。該元資料中之簽章允許追蹤該操縱之原始來源。

該元資料剖析器可經組配以識別用於由該經編碼音訊資料表示之一或多個音訊物件之一停用可能性，其中該互動介面經組配用於接收用於該等一或多個音訊物件之一停用資訊，且其中該資料串流產生器經組配用於將該等一或多個音訊物件在該互動控制資料中標記為停用或用於自該經編碼音訊資料移除該等經停用之一或多個音訊物件，以使得該輸出資料串流不包括用於該等經停用之一或多個音訊物件之經編碼音訊資料。因此，該資料串流可針對實際上或當前可用之彼等音訊物件加以調適，使得當前位元串流之總資料內容可得以減少。

該資料串流產生器可經組配以動態地產生該輸出資料串流，其中回應於一新互動輸入，該互動控制資料經更新以匹配該新互動輸入，且其中該資料串流產生器經組配以將該經更新之互動控制資料包括在該輸出資料串流中。因此，一資料串流可與即時資訊一起發送。換言之，可以快速方式、較佳即時地更新及處理與任何音訊物件特定值有關之互動輸入。

該接收器介面可經組配以接收包含該經編碼音訊資料及與該經編碼音訊資料有關的元資料之一主音訊資料串流，且額外接收包含一可選音訊物件之可選音訊資料，其中與該可選音訊物件有關之該元資料含於該主音訊資料串流中。藉由此組態，該音訊資料處理器可將該所選可選音訊物件之該經編碼音訊資料合併至該主音訊資料串流中，從而導致由該資料串流產生器產生之一完整輸出音訊資料串流。因此，可隨後或按需求將選音訊物件額外提供至一使用者。

該元資料剖析器可經組配以判定對於不包括於該經編碼音訊資料中之一缺失音訊物件的該音訊操縱可能性，其中該互動介面經組配以接收用於該缺失音訊物件之一互動輸入，且其中該接收器介面經組配以向一音訊資料提供者請求用於該缺失音訊物件之音訊資料或自含於一廣播串流或一網際網路協定連接中之一不同子串流接收用於該缺失音訊物件之該音訊資料。因此，一器件或一使用者可事先，亦即在一視情況可用之額外音訊物件實際上缺失時，操縱該視情況可用之額外音訊物件。可接著隨後經由網際網路或另一廣播串流請求該額外音訊物件。

該資料串流產生器可經組配以在該輸出資料串流中將另一封包類型指派至該互動控制資料，該另一封包類型不同於該經編碼音訊資料及該元資料之封包類型，或其中該資料串流產生器經組配以將一填充資料封包類型之填充資料添加至該輸出資料串流中，其中填充資料之量係基於藉由該音訊資料處理器之一輸出介面判定之資料速率要求而判定。因此，僅需要指派一個其他封包類型以便分別實現經操縱元資料或互動控制資料之傳送。此外，該音訊資料處理器可能想要將額外填充資料添加至一後續資料傳輸串流中以滿足彼鏈路之給定、通常較高之資料速率要求。此填充資料可不含有資訊且預期將被該解碼器忽略。

該音訊資料處理器可實施為一單獨器件，其中該接收器介面可形成經由一有線或無線連接至該單獨器件之一輸入，其中該音訊資料處理器可進一步包含連接至該資料串流產生器之一輸出介面，該輸出介面經組配用於輸出該輸出資料串流，其中該輸出介面執行該器件之一輸出且包含一無線介面或一有線連接器。因此，可提供例如在網路內之簡單連接性。

本發明可進一步藉由一種用於處理音訊資料之方法來實現，該方法包含：接收經編碼音訊資料及與該經編碼音訊資料有關之元資料；剖析該元資料以判定一音訊資料操縱可能性；接收一互動輸入且自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料；以及獲得該互動控制資料及該經編碼音訊資料以及該元資料且產生一輸出資料串流，該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分，及該互動控制資料。

本發明可進一步藉由一種電腦程式來實現，該電腦程式用於在於一電腦或一處理器上執行時執行前述處理音訊資料之方法。

可藉由以下實施例來進一步實現本發明：該音訊資料操縱可能性可選自包含以下各者中之至少一者的一群組：物件選擇、自若干語言之選擇、可選額外音訊物件之選擇、物件操縱、改變一或多個物件之音量、改變物件之位置(如將額外評論自中心揚聲器移動至右方揚聲器或兩者之間的任意位置)、替代單獨地選擇及操縱每一物件而選擇預置項(preset)，其中自該元資料選擇一預置，其中一預置項為由內容建立者針對特定應用程式或特定使用情形所推薦之物件的預先選擇，其中與一預設呈現相比，一預置項含有物件與例如不同音量等級、位置及響度/動態範圍壓縮資料之組合。

該資料串流產生器可經組配以將該互動控制資料產生為獨立資訊或相依性資訊，其中該相依性資訊取決於該元資料且在應用於經解碼音訊資料之情況下連同該元資料一起導致藉由該互動輸入界定之資料操縱。

該經編碼音訊資料可包含可選音訊物件，且該元資料可包含用於該等可選音訊物件之元資料，其中該接收器介面可經組配以額外接收具有主音訊資料之一主音訊資料串流，其中該資料串流產生器可經組配以產生該輸出資料串流，以使得該輸出資料串流額外包含該主音訊資料。

該資料串流產生器可經組配以將錯誤保護資料添加至該輸出資料串流且將另一封包類型指派至誤差錯誤保護資料，其中該資料串流產生器經組配以自該經編碼音訊資料、該元資料或該互動控制資料導出該錯誤保護資料。

該資料串流產生器可經組配以將該輸出資料串流產生為用於串流傳輸之一資料串流或諸如ISO MPEG-4檔案格式之檔案格式的基於容器之文件。

進一步建議該音訊資料處理器不具有解碼該經編碼音訊資料之功能性。

該音訊資料處理器可實施於機上盒、電視機或音訊/視訊記錄器-接收器中。

該音訊資料處理器可進一步包含用於經由一HDMI連接將該輸出資料串流傳輸至另一器件之輸出介面。

該音訊資料處理器亦可連同一解碼器一起提供(亦即，整合或實施)於相同(硬體)器件內。舉例而言，該音訊資料處理器與一解碼器可一起提供於TV、機上盒、A/V接收器或其類似者內。該音訊資料處理器與該解碼器可經由內部資料匯流排結構進行通訊。在包含系統單晶片(SoC)解決方案之TV器件中可能尤其需要此類組態。

因此或替代地，該音訊資料處理器可類似於上文針對單獨器件之情況所描述的情況而實施為相同器件中的獨立且單獨的功能組件，唯一的差異為輸出介面在器件內部之連接上(例如使用內部資料匯流排)執行音訊資料處理器之輸出。

關於上文所提及之特徵，根據本發明之音訊資料處理器能夠提供與器件或使用者之容易互動，同時提供簡單的器件設定(較佳使用現有裝置)。

此外，根據本發明之音訊資料處理器藉由將器件互動或使用者互動作為額外互動資料嵌入於音訊位流內而提供對上述問題之解決方案。藉由實施上述特徵，解碼器實施方案可能僅需要接受經編碼表示資料及互動控制資料兩者之一個介面。已經存在的互連件可能無需實施用於控制資訊之新頻道，而實施精力移至編碼解碼器自身。在複雜設定中，進一步確保互動控制資訊緊密地繫結至經編碼要素且因此在經由若干處理級進行饋送時可能不會損失。

1‧‧‧音訊資料處理器

2‧‧‧接收器介面

3‧‧‧經編碼音訊資料

4‧‧‧元資料

5‧‧‧元資料剖析器

6‧‧‧互動介面/使用者介面/器件互動介面

7‧‧‧互動輸入/使用者輸入

8‧‧‧互動控制資料/使用者控制資料/互動資訊資料

9‧‧‧資料串流產生器

10‧‧‧輸出資料串流/完整音訊資料串流/後續傳輸串流/經編碼音訊資料串流

11、12‧‧‧經編碼音訊物件

13、14‧‧‧元資料之部分

15‧‧‧經編碼輸入串流/輸入資料串流/主音訊資料串流

15a、15b‧‧‧輸入串流

16‧‧‧可選音訊資料

17‧‧‧可選音訊物件

18‧‧‧填充資料

19、26‧‧‧機上盒/第一器件

20‧‧‧輸入

21‧‧‧有線連接

22‧‧‧無線連接

23‧‧‧輸出介面

24‧‧‧無線介面

25‧‧‧有線連接器

27‧‧‧電視機

28、33‧‧‧音訊-視訊接收器/第二器件

32‧‧‧輸出資料串流/經編碼音訊資料串流

35‧‧‧音訊資料提供者

36‧‧‧廣播串流

37‧‧‧網際網路

110、120‧‧‧箭頭

201~205‧‧‧步驟

根據本發明之實施例的實例展示於圖式中且將在下文加以解釋，其中：圖1展示根據本發明之音訊資料處理器，圖2展示根據本發明之用於處理音訊資料之方法，圖3展示經編碼音訊資料及相關元資料之實例，圖4展示處理輸入及輸出串流之實例，圖5展示處理輸入及輸出串流之另一實例，圖6展示處理可選音訊資料之音訊資料處理器，圖7展示實施於單獨器件中之音訊資料處理器，圖8展示第一器件及第二器件之例示性使用情況，以及圖9展示具有機上盒及音訊-視訊接收器之例示性情形。

較佳實施例之詳細說明

在整個此文獻中且詳言之在以下描述中，「互動」一詞係在藉由使用者之互動或藉由器件之互動以及一般的互動(亦即，通常意義上的互動)意義上使用。換言之，「互動」可意謂「使用者互動」或「器件互動」，或一般互動。在特定描述部分中，「使用者」與「互動」二詞同義地使用。舉例而言，可在互動介面之意義上及相關之其他方式同義地使用使用者介面。

此外，「使用者」可為人類使用者或機器使用者，諸如(硬體)器件或軟體實施器件。

另外，使用者介面可作為器件特定預置組態而存在，其可替代使用者輸入或作為使用者輸入之補充而控制資料操縱。

圖1展示根據本發明之音訊資料處理器1。音訊資料處理器1包含用於接收經編碼輸入串流15之接收器介面2，該經編碼輸入串流15包含經編碼音訊資料3及元資料4。元資料4與經編碼音訊資料3有關，其關係由箭頭110指示。舉例而言，經編碼音訊資料3可含有音訊物件，而元資料4可含有關於該等音訊物件之操縱可能性之其他資訊。

音訊資料處理器1進一步包含用於剖析元資料4以判定音訊資料操縱可能性之元資料剖析器5。舉例而言，可調整音量等級、可調整空間位置或可選擇語言可表示音訊物件之音訊資料操縱可能性。

此外，音訊資料處理器1包含用於接收互動輸入7之互動介面6。互動介面6經進一步組配以基於互動輸入7產生互動控制資料8。該互動控制資料8與前述音訊資料操縱可能性有關。舉例而言，使用者可藉由經由互動介面6調整音訊物件之音量等級或空間位置或藉由選擇語言而與器件互動。在此情況下，互動介面6為可產生與使用者之選擇有關的對應使用者控制資料8之使用者介面6。

另外或替代地，互動介面6可為器件(特定)互動介面6。在此情況下，器件互動介面6經組配以基於器件互動輸入7產生器件互動控制資料8。舉例而言，諸如頭戴式耳機或其類似者之器件可與互動介面6連接。頭戴式耳機與互動介面6之間的連接可藉由音訊處理器偵測到且因此被視為互動輸入7。因此，在連接頭戴式耳機之後，互動介面6即刻提供頭戴式耳機特定互動控制資料8，諸如音訊物件操縱，例如音量之自動減小、預先選擇之語言或硬體組態之調整。

換言之，替代手動使用者互動，互動介面6基於偵測到特定器件而自動地選擇物件或調整。互動介面6產生器件特定互動控制資料8。

音訊資料處理器1進一步包含資料串流產生器9。資料串流產生器9獲得互動控制資料8、經編碼音訊資料3及元資料4。資料串流產生器9經組配以產生包含前述互動控制資料8、經編碼音訊資料3及元資料4之輸出資料串流10。

圖2展示根據本發明之用於處理音訊資料之對應方法。

在步驟201中，接收經編碼音訊資料3及相關元資料4。

在步驟202中，剖析元資料4以判定音訊資料操縱可能性。

在步驟203中，接收互動輸入，其中在步驟204中自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料。

在步驟205中，獲得互動控制資料及經編碼音訊資料以及元資料，且產生輸出資料串流，其中該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分及該互動控制資料。

參考圖3，經編碼音訊資料3包含單獨的經編碼音訊物件11、12。此外，元資料4之至少一部分13、14與對應音訊物件11、12有關(藉由箭頭110、120指示)。舉例而言，元資料4之部分「MD1」13與對應經編碼音訊物件「AO1」11有關，而元資料4之部分「MD2」14與對應經編碼音訊物件「AO2」12有關。

元資料剖析器5經組配以剖析經編碼音訊物件 11、12之對應部分13、14以便判定該等音訊物件11、12中之至少一者的物件操縱可能性。換言之，元資料剖析器5剖析用於各別音訊物件11、12之元資料13、14以便判定對於每一音訊物件11、12之音訊物件操縱可能性。舉例而言，元資料剖析器5判定音訊物件「AO1」11可能包含可調整音量等級。元資料剖析器5可經由使用者介面6將此潛在音量等級可調整性(音訊物件操縱可能性)呈現給使用者。

使用者介面6經組配以對於至少一個音訊物件11、12自與至少一個經編碼音訊物件11、12有關之使用者輸入7產生使用者控制資料8。舉例而言，使用者可能想要調整音訊物件「AO1」11之音量等級且因此經由使用者介面6提供各別輸入7。使用者介面6產生含有以下資訊之各別使用者控制資料8：使用者想要調整音訊物件「AO1」11之音量等級以及想要調整至何程度。

因此，使用者介面6經組配以向使用者呈現藉由元資料剖析器5自元資料4導出之音訊物件11、12的音訊物件操縱可能性。使用者介面6經進一步組配以自使用者接收關於資料操縱可能性(例如，音量等級調整範圍或一組可用語言)之特定資料操縱(例如，特定音量等級或特定語言)的使用者輸入7。

參考圖1及圖9，資料串流產生器9經組配以處理包含藉由接收器介面2接收之經編碼音訊資料3及元資料4的資料串流15而不解碼經編碼音訊資料3。舉例而言，假定根據本發明之音訊資料處理器1實施於機上盒19、26中，則其可將輸出資料串流10、32轉發至包含解碼器之外部音訊-視訊接收器28、33。在此情況下，在解碼將不由機上盒19、26而由音訊-視訊接收器28、33執行時，仍可編碼輸出資料串流10、32。

或者，資料串流產生器9經組配以複製經編碼音訊資料3及元資料4而不改變輸出資料串流10。

在任一情況下，如圖4中可以看出，資料串流產生器9經組配以將含有互動控制資料8之額外資料部分添加至輸出資料串流10中之經編碼音訊資料3及/或元資料4。

參考圖5，資料串流產生器9經進一步組配以將兩個輸入串流15a、15b合併為一共同輸出串流10，其中含有互動控制資料8之額外資料部分添加至輸出資料串流10中之經編碼音訊資料3及/或元資料4。

較佳地，資料串流產生器9經組配以在輸出資料串流10中以與元資料4相同之格式產生互動控制資料8。因此，互動控制資料8可與可用元資料4容易地組合。

若如上文所提及，資料串流產生器9複製元資料4，則除了含有用於各別音訊物件11、12之額外互動控制資料8的任何經操縱元資料之外，原始元資料4亦可保留於輸出串流10中。原始及經操縱元資料兩者皆可發送至解碼器28、33以便允許解碼器28、33將差異識別為(使用者)互動之結果且獲得關於內容建立者所希望之預設值之所有資訊或自原始元資料4及經操縱元資料4'(或互動控制資料8)計算(使用者)互動之結果。

進一步參考圖1，資料串流產生器9經組配以動態地產生輸出資料串流10。每當使用者或器件將新互動輸入7提供至互動介面6時，互動控制資料8相應地更新以便匹配該新互動輸入7。資料串流產生器9將此經更新互動控制資料8包括於輸出資料串流10中。

圖6展示根據本發明之音訊資料處理器1，其中處理可選音訊資訊。如可看出，輸入資料串流15為包含經編碼音訊資料3及有關元資料4之主音訊資料串流。此外，接收器介面2額外接收包含可選音訊物件17之可選音訊資料16。

然而，與該額外可選音訊物件「AOx」17有關之元資料，亦即關於該可選音訊物件「AOx」17之操縱可能性的資訊，含於主音訊資料串流15中。因此，音訊物件17係已知的但不呈現，且因此係可選的。

舉例而言，使用者收聽含有鼓、弦及鋼琴之管弦樂。可視情況包括吹奏樂器。若收聽者現在希望添加吹奏樂器，則其藉由將例如小號之可選吹奏樂器添加為可選音訊物件17。因為對於該小號之操縱可能性已經含於主音訊資料串流15之元資料4內，因此使用者具有根據其需要操縱當前添加之小號的可能性。

進一步參考圖6，該額外音訊物件「AOx」17可為不包括於經編碼音訊資料3及/或元資料4中之缺失音訊物件。因此，音訊物件17未知且因此缺失。

在此情況下，接收器介面2經組配以向音訊資料提供者35請求屬於該缺失音訊物件17之音訊資料16。接收器介面2亦經組配以自含於廣播串流36中之不同子串流接收該音訊資料16。接收器介面2經進一步組配以經由網際網路協定連接自網際網路37擷取該音訊資料16。

舉例而言，觀看電影之使用者可自含有例如英語、德語及法語之可用語言集合選擇一特定語言。第四語言已知但未呈現，且因此缺失。然而，可隨後經由例如網際網路提供第四語言。

再次參考圖4及圖5，輸入資料串流15及輸出資料串流10可大體上以經封包化結構可用。舉例而言，MPEG-H音訊經由串列介面之傳送由MHAS傳送語法(見N14459之章節13(ISO/IEC 23008-3委員會草案文字)[1])界定。此語法係以經封包化方式界定。

因此，為實現經操縱元資料4或互動控制資料8之傳送，僅需要對於新控制資訊指派一個其他封包類型。

此外，包含音訊資料處理器1之第一器件「第1器件」19可能想要將額外填充資料18添加至後續傳輸串流10中以滿足對於彼鏈路之給定、通常高得多之資料速率要求。此填充資料18可能不含資訊且預期將被接收經操縱輸出串流10之第二器件忽略。為實現此目的，可指派另一資料封包類型。

另外，因為傳入串流至「第1器件」19之傳送層可具有其自身的錯誤保護，但傳出鏈路不提供此類安全層，因此第1器件可添加含有奇偶校驗資料之資料封包。可將此等封包作為額外封包類型添加至MHAS串流。

另外，因為傳送層可傳達額外資料作為旁側資訊，因此此等資料封包亦可作為另一封包類型封裝至MHAS音訊串流中。此資料之實例為MPEG-2傳送及程式串流中之描述符。

用於儲存經編碼音訊資料之另一實例為ISO mp4檔案格式。類似於串流格式，對於檔案格式之情況，亦有可能讀取、操縱及寫回元資料至文件或除了原始元資料之外亦儲存使用者控制資料而不改變經編碼音訊信號資料。

參考文獻

[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)

[2] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”

[3] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"

現參考圖7，音訊資料處理器1實施為單獨器件「第1器件」19。在該單獨器件19中，接收器介面2經由有線連接21或無線連接22形成至單獨器件19之輸入20。

音訊資料處理器1進一步包含連接至資料串流產生器9且提供用於器件19之輸出的輸出介面23。另外，輸出介面23經組配以經由無線介面24或有線連接器25輸出輸出資料串流10。

可作為實例在兩個單獨器件可用之情形中描述進行本發明之其他方式。第一器件「第1器件」包含根據本發明之音訊資料處理器。第二器件「第2器件」自「第1器件」接收經處理但仍經編碼之音訊資料以用於解碼該音訊資料。

如在圖8及圖9中可看出，第一器件19、26接收包含經編碼音訊資料3及有關元資料4之輸入串流15。第一器件19、26自傳入音訊資料串流15或傳送串流讀取元資料資訊4，且使經編碼音訊信號資料3不受影響。第一器件19、26剖析元資料4且將關於物件之資訊(例如)在互動介面6中呈現給應用程式，該資訊包括對物件操縱之限制(為元資料4之部分)。自應用程式或互動介面6，使用者可選擇並操縱物件以使音訊呈現適於其個人偏好：˙物件選擇：例如，自若干語言中選擇一種語言、選擇可選額外音訊物件，等˙物件操縱：例如，改變物件之音量，改變物件之位置，如將額外評論自中心揚聲器移動至右方揚聲器或兩者之間的任意位置，˙預置項選擇：替代單獨地選擇及操縱每一物件，使用者亦可自元資料選擇預置項。預置項為由內容建立者針對特定應用程式或使用情形所推薦之物件的預先選擇。與預設呈現相比，預置項可含有物件與(例如)不同音量等級、位置及響度/動態範圍壓縮資料之組合。

在下一步驟中，第一器件19、26將關於使用者互動性之資訊(互動控制資料8)儲存至經編碼音訊資料串流10、32中。第一器件19、26可將已改變的值或操縱量(例如偏移值及相乘因數)寫回至元資料部分4或經編碼音訊資料串流之專用部分以使得第一器件19、26之輸出再次為有效經編碼音訊串流10、32。

第一器件19、26可使用不同識別符、標籤或封包類型來分別囊封經操縱元資料或使用者控制資料8。除了經操縱元資料之外，原始元資料4亦可保留於輸出串流10、32中。不同識別符、標籤或封包類型分別用於經操縱元資料或互動控制資料8以使得第二器件28、33能夠識別元資料4是否先前已被操縱。原始元資料4保留於串流10、32中以允許第二器件28、33將差異識別為使用者或器件互動之結果且獲得關於內容建立者所希望之預設值之所有資訊或自原始元資料4及經操縱元資料(或互動控制資料8)計算使用者或器件互動之結果。

作為經操縱元資料之部分，簽章資料可嵌入於元資料4中。簽章可含有關於操縱元資料4之應用程式、器件或使用者之資訊。

未由使用者選擇之音訊物件可在元資料4或互動控制資料8中標記為停用或替代地可自音訊串流10移除此等物件之經編碼音訊部分。

使用者或器件互動之過程可為動態的，亦即每當使用者或器件改變選擇及操縱設定時，第一器件19、26將彼等已改變值寫回至經編碼音訊資料串流10之元資料部分4。

亦有可能第二器件28、33由於自動處理(例如，使音訊場景適於收聽情境)或額外互動介面而額外操縱元資料4。在此情況下，第二器件28、33可將經操縱值寫回至經編碼音訊資料串流10，例如覆寫藉由第一器件19、26寫入之值。

返回參考圖6，在所謂的混合使用情況中作為實例描述進行本發明之另一方式。

所選可選音訊物件17之經編碼音訊資料3可不為主音訊資料串流15之部分，但可使用其它傳送頻道來遞送。舉例而言，在廣播頻道上遞送主音訊資料串流15，而按需求經由IP連接37遞送可選音訊物件17之經編碼音訊資料3。

用於所有物件之完整元資料4包括於主音訊資料串流15中以使得用於互動及物件選擇之所有資訊在第一器件19中可用。因此，互動及儲存互動控制資料8至串流10之過程等同於上文所描述的情況。

若使用者選擇物件17且經編碼音訊資料3不為主音訊資料串流15之部分，則第一器件19可在與主音訊資料串流15不同之資料連接(例如，廣播串流內之不同子串流36或IP連接37)上接收此物件17之經編碼音訊資料3。

在下一步驟中，第一器件19將該所選物件17之經編碼音訊資料3合併至主音訊串流15中，從而導致用於進一步遞送至第二器件33之完整音訊資料串流10。

此外，提出傳送嵌入於符合MPEG-H之位流10中之互動資料8的可能性。

如圖9中可看出，高級多媒體系統常常並不將所有所要功能性整合於一個單一器件中，而實際上在諸如機上盒26、電視機27或AVR接收器28之專用器件中實施不同功能組件。此等器件經由標準化介面(諸如HDMI)進行通訊。

然而，亦有可能至少音訊資料處理器與解碼器整合於一個單一器件中。音訊資料處理器可連同解碼器一起提供(亦即，整合或實施)於相同(硬體)器件內。舉例而言，該音訊資料處理器與一解碼器可一起提供於TV、機上盒、A/V接收器或其類似者內。該音訊資料處理器與該解碼器可經由內部資料匯流排結構進行通訊。在包含系統單晶片(SoC)解決方案之TV器件中可能尤其需要此類組態。

因此或替代地，該音訊資料處理器可類似於上文針對兩個單獨器件之情況所描述的情況而實施為相同器件中的獨立且單獨的功能組件，唯一的差異為輸出介面在器件內部之連接上(例如使用內部資料匯流排)執行音訊資料處理器之輸出。

涉及多個器件的MPEG-H內容再現之一個使用情況為藉由諸如機上盒(STB)26之第一器件19接收電視節目時的情況，該第一器件19選擇適當傳輸頻道且擷取含有所要經寫碼要素之相關基本串流。此處亦通常實施互動，亦即對於音訊元素選擇及互動/操縱之使用者控制。

MPEG-H解碼器31可不位於STB 26中而改為位於音訊-視訊接收器(AVR)28中。此使用情況描繪於圖9中。

在此情況下，所擷取串流需要饋送至AVR 28以供再現；此等兩個器件26、28之間的傳輸可藉由傳輸經解碼/經解壓縮表示(具有音訊之PCM)或經編碼表示(尤其在頻寬限制應用於所使用的互連線上之情況下)來實現。

AVR 28接著僅提供在設定系統時通常僅由使用者存取一次且在正常操作時間以「受控器模式」起作用的組態介面。

由於互動發生於STB(第1器件)26中且解碼及渲染實施於AVR(第2器件)28中，因此不可避免地能夠將使用者互動性資訊自STB 26發送至AVR 28。

為了實現所描述之使用情況且克服上述限制，提出將互動資訊資料8嵌入至經編碼音訊資料串流10中，如圖8中可看出。

第一器件19自傳入音訊資料串流15之mpegh3daConfig()或經由諸如MPEG-2 TS描述符之帶外信令而讀取元資料資訊4。其接著剖析音訊元素元資料4且在互動介面6中呈現關於物件之資訊，該資訊包括對物件操縱之限制(為元資料4之部分)。自互動介面6，使用者可選擇並操縱音訊元素以使音訊呈現適於其個人偏好。「使用者互動資料」描述物件選擇及操縱。

在下一步驟中，第一器件19使用新MHASPacketType將此資料寫入至MHAS音訊資料串流32。第一器件19之輸出再次為有效經編碼音訊串流10、32。mpegh3daConfig()中之原始元資料4及經編碼音訊信號資料3不進行修改。

此MHASPacketType之封包之存在使得第二器件28、33能夠識別(使用者)互動已發生。原始元資料4保留於串流10、32中以允許第二器件10、33獲得關於內容建立者所希望的預設值之所有資訊。

未由使用者選擇之音訊元素可在元資料4中標記為停用或替代地可自音訊串流10移除物件之經編碼音訊部分3。

互動(亦即，器件或使用者互動)之過程可為動態的，亦即每當使用者或器件改變選擇及操縱設定時，第一器件19、26將彼等已改變值寫回至經編碼音訊資料串流10之指定部分。

MHAS擴展

MPEG-H音訊經由串列介面之傳送由MHAS傳送語法(見N14459之章節13(ISO/IEC 23008-3委員會草案文字)[1])界定。此語法係以經封包化方式界定。因此，為實現使用者互動資料之傳送，僅需要對於新控制資訊指派一個其他封包類型：

PACTYP_USERINTERACTION

MHASPacketType PACTYP_USERINTERACTION可用以將元素互動資料饋送至解碼器。

對於此封包類型，MHASPacketLabel與(使用者)互動資料8所涉及之MHASPacketType PACTYP_MPEGH3DACFG之封包具有相同值。

語法

來自用於使用者互動之介面的語法元素mpegh3daElementInteraction()(見[2])重新用於攜載嵌入於位流10中之(使用者)互動資料8。

參考文獻

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] FhG, “Normative Interface for User Interaction”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France

此外，提出用於使用者互動性之規範性介面的可能語法。

提出自用於渲染控制之介面擷取用於互動控制之介面。mpegh3daAudioRendering()語法元素接著界定渲染參數，且新界定的mpegh3daElementInteraction()語法元素含有(使用者)互動所需之資訊。

mepegh3daElementInteraction()語法元素之界定

mpegh3daElementInteraction()語法元素提供用於任何可能(使用者)互動之介面。界定兩個互動模式。

第一者為高級互動模式，其中可對於存在於音訊場景中之每一元素群組用信號表示互動。此模式使得使用者能夠自由地選擇(在切換群組界定之限制內)欲播放哪些群組且與其全部進行互動(在給定範圍及限制內)。

第二模式為基本互動模式，其中使用者可選擇所界定的群組預置項(GroupPreset)(自mae_AudioSceneInfo()語法元素，見[1]之14.2)中的一者作為一預置項。接著界定在所選群組預置項之條件中提及的群組之開-關狀態，且其不可由使用者改變。使用者僅可根據所界定之容限及範圍改變其他群組之開-關狀態以及所有群組之位置及增益。

區分出四個不同的元素修改：

- 開/關互動性：接通或關斷一群元件(編者註：先前稱為「物件改變」[4])

- 位置互動性：改變一群元件之位置(方位角、仰角及距離，編者註：先前稱為「位置改變」[4])

- 增益互動性：改變一群元件之等級/增益(編者註：先前稱為「增益改變」[4])

- 線(WIRE)互動性：WIRE輸出為除了所連接揚聲器之外的任意輸出。一群元件之音訊內容投送至一WIRE輸出，例如用於聽力障礙或額外語言追蹤之內容。

所有修改係在元件群組等級上界定，此係因為群組聚集僅應聯合地操縱之有關元件。

引入簽章以用信號表示例如已在哪一器件中發生互動。

ei_InteractionSignatureDataLength此欄位以位元組界定隨後互動簽章之長度。

ei_InteractionSignatureDataType此欄位界定簽章之類型。以下值係可能的：mpegh3daElementInteraction()之另一實施例展示於表3b中：

ei_InteractionSignatureData此欄位含有界定互動資料之發起者之簽章。

ei_InteractionSignatureDataType之另一實施例展示於表4b中：

hasLocalZoomAreaSize界定關於本端縮放區域大小之資訊是否可用之旗標。若啟用此旗標，則應用物件重新映射用於縮放。

ei_interactionMode界定是選擇高級互動類型還是基本互動模式之旗標。

ei_numGroups此欄位含有音訊場景中之群組的數目。

ei_groupPresetID此欄位含有在音訊場景中界定之groupPresetID。此ID反映使用者之預置項選擇。

ei_groupID用於描述其互動的當前群組之GroupID。

ei_routeToWIRE此欄位界定是否應將群組之音訊內容投送至WIRE輸出。

ei_routeToWireID應將群組投送至之WIRE輸出之 ID。

ei_onOff界定當前群組之開-關狀態。在選擇基本互動模式(關於群組預置項之互動)之情況下，若此群組為具有ei_groupPrersetID之所選群組預置項之條件之部分，則此值必須等於具有ei_groupID之群組的所界定開-關狀態。對於基本互動模式，此處不允許用信號表示不同開-關狀態。不為所選群組預置項之條件之部分的所有群組之開-關狀態，可任意地用信號表示該開-關狀態。

ei_changePosition此旗標界定群組元件之位置是否已改變。

ei_azOffset方位角之改變給定為偏移。此欄位可採用AzOffset=-180°與AzOffset=180°之間的值：AzOffset=1.5．(ei_azOffset-128)

AzOffset=min(max(AzOffset,-180),180)；ei_elOffset方位角之改變給定為偏移。此欄位可採用ElOffset=-90°與ElOffset=90°之間的值：ElOffset=3．(ei_elOffset-32)

ElOffset=min(max(ElOffset,-90),90)；ei_distFact距離互動性給定為相乘因數。該欄位可採用0與15之間的值，從而導致DistFactor在0.00025與8之間：DistFactor=2^{((ei_distFactorr-8)-4)}

DistFactor=min(max(DistFactor,0.00025),8)；ei_changeGain此旗標界定群組元件之增益/等級是否已改變。

ei_gain此欄位界定當前群組之成員的額外增益。該欄位可採用0與127之間的值，從而表示介於以下值之間的增益值

增益=-63dB且增益=31dB，步階為1dB，其中增益[dB]=ei_gain-64

增益[dB]=min(max(Gain,-63),31)；若ei_gain設定為0，則增益應設定為負無限dB。

ei_GroupInteractivityStatus()之另一實施例展示於表6b中：

根據元資料音訊元素範圍(見[1]之14.2)界定互動資料。在元資料音訊元素界定中，以dB給出用於增益互動性之互動性範圍，用於方位角及仰角之互動性範圍給定為最小及最大偏移值(與此處具有相同解析度：對於方位角為1.5°且對於仰角為3°)，且用於距離之範圍給定為相乘因數。因此，以類似方式界定介面。

對於使用者互動，可在一個ElementInteraction()語法元素內而非對於每一互動類型及每一群組或元件使用語法元素之一個重複來用信號表示所有元件群組之所有可能改變(開/關、增益、位置、WIRE)。

亦針對關斷之群組界定WIRE輸出，此係因為只有如此才有可能將替代語言音軌投送至WIRE輸出。在解碼器中必須處置可能違反之切換群組邏輯。

此處移除先前在[4]中提出之內容類型(頻道、物件、HOA)。其已經隱含地藉由groupID而獲知，此係因為每一元件群組具有一signalGroupType(頻道、物件、SAOC、HOA)，其界定信號內容類型且在語法元素Signals3d()中用信號表示。

經由群組預置項之基本互動

若設定基本互動模式，則使用者可選擇所界定群組預置項中的一者(自mae_AudioSceneInfo()groupCollection語法元素，在w14464[7]中作為候選技術而提出)。

來自所選預置項之條件界定所提及群組之開-關狀態。使用者應不能夠修改此等群組之開-關狀態。

語法元素ei_GroupInteractivityStatus[2]中之對應欄位ei_onOff必須反映在所選群組預置項之條件中提及的所有群組之所選群組預置項中的條件。

所有其它群組之開-關狀態可由使用者選擇。

結論

此著作提出對於用於使用者互動之介面的界定。提供允許兩個不同互動模式(基本及高級)之介面界定。提出將所提出之介面應用於CD。

參考文獻

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] FhG, “Rendering Interfaces to MPEG-H and Unification of Loudspeaker Signaling”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France

[3] ISO/IEC JTC1/SC29/WG11 N14463, “Normative Interface for Binaural Data”, April 2014, Valencia, Spain

[4] ISO/IEC JTC1/SC29/WG11 M33134, “3D Audio Decoder Interfaces”, April 2014, Valencia, Spain (Input from Philips)

[5] ISO/IEC JTC1/SC29/WG11 M31427, “Thoughts on binaural parameterization of MPEG codecs”, October 2013, Geneva, Switzerland (Input from Orange)

[6] ISO/IEC JTC1/SC29/WG11 M30249, “BRIR interface format: update and implementation”, July 2013, Vienna, Austria (Input from Philips)

[7] ISO/IEC JTC1/SC29/WG11 N14464 “Candidate Technologies for 3D Audio”

此外，ISO/IEC 23008-3 CD文字[1]之章節13界定待用以將MPEG-H 3D音訊酬載囊封於(即時)串流中之MHAS語法。藉由此文獻，提出額外能力以致能MHAS在除MPEG-2傳送串流外的其他傳送系統中之可靠使用。

填充資料

某些傳輸頻道可能僅以恆定瞬時位元速率操作。為實現此目的，提出填充資料封包類型以能夠填充MHAS串流達到某一給定位元速率。

CRC

MPEG-2傳送串流層[2]負責保護經囊封之MHAS基本串流。因此，可識別傳輸中之資料損失或資料損毀。

另一方面，常見串列介面(例如，AES/EBU、S/PDIF、[3]、[4]、[5])不提供足夠錯誤保護。提出可選CRC封包類型以在於此類介面上使用MHAS的情況下致能錯誤偵測。

描述符囊封

MHAS串流用以傳達經編碼音訊至或自MPEG-2傳送串流編碼器/解碼器。提出以額外MHAS封包類型傳達有關描述符資訊。

MHASPacketType之另一實施例展示於表8b中：

mhasParity16Data 16位元欄位，其含有以如下多項式及為0xFFFF之移位暫存器初始狀態產生解碼器巾之16個暫存器之零輸出的CRC值：x ¹⁶+x ¹⁵+x ⁵+1。

mhasParity32Data 32位元欄位，其含有以如下多項式及為0xFFFFFFFF之移位暫存器初始狀態產生解碼器中之32個暫存器之零輸出的CRC值：x ³²+x ²⁶+x ²³+x ²²+x ¹⁶+x ¹²+x ¹¹+x ¹⁰+x ⁸+x ⁷+x ⁵+x ⁴+x ²+x+1。

mhas_fill_data_byte 8位元資料元素，不施加限制

隨機存取/即時播出標記

當封包酬載之第一marker_byte為「0x02」時，依據在章節5.5.5「音訊預載」中給出之規則編碼具有相同MHASPacketLabel之類型PACTYP_MPEG3DAFRAME之後續封包。

程式邊界標記

當封包酬載之第一marker_byte為「0x03」時，程式邊界出現於此時間點處，且所有後續封包屬於一新程式。

PSCTYP_CRC16及PACTYP_CRC32

MHASPacketType PACTYP_CRC16及PACTYP_CRC32可用於偵測先前MHAS封包(其中MHASPacketLabel設定為相同值)中之錯誤。其應直接在其CRC值所涉及之MHAS封包之後。當經由易出錯誤之頻道傳達MHAS串流時，此可為有益的。

錯誤偵測方法分別使用如對於mhasParity16Data或mhasParity32Data所界定之產生器多項式及相關聯移位暫存器狀態中的一者。

包括至CRC檢查中之位元為用於有關MHAS封包分別繼之以用於mhasParity16Data或mhasParity32Data字組之完整MHASPacketPayload()。

在不存在錯誤的情況下，移位暫存器之輸出中的每一者應為零。在CRC編碼器處，以一值編碼mhasParity16Data/mhasParity32Data欄位，使得此情形得以確保。

PACTYP_FILLDATA

MHASPacketType PACTYP_FILLDATA提供添加填充資料以調整瞬時位元速率之可能性。此在使用恆定速率傳輸頻道之某些即時應用程式中可為合乎需要的。

因為此類型之封包與特定酬載資料並無關係，因此MHASPacketLabel設定為0。

預期解碼器忽略在類型PACTYP_FILLDATA之封包中傳輸之資料。另外，允許處理MHAS串流之中間工具自串流移除此類封包。

允許將MHASPacketLength設定為0。此產生為2位元組之最小封包大小。

PACTYP_DESCRIPTOR

PACTYP_DESCRIPTOR可用以將MPEG-2 TS/PS描述符嵌入於MHAS串流中。傳達為mhas_descriptor_data_byte之資料與針對ISO/IEC 13818-1中之描述符()所界定者具有相同語法及語義。

對於此封包類型及在TS_program_map_section()(見ISO/IEC 13818-1)中之第一描述符迴圈中傳輸之描述符，MHASPacketLabel設定為0。

對於此封包類型及指派給一個基本串流之描述符(亦即，TS_program_map_section()中之第二描述符迴圈)，MHASPacketLabel設定為與來自相關聯基本串流之PACTYPE_CONFIG相同的值。

參考文獻

[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"

[2] ISO/IEC 13818-1:2013, Information technology - Generic Coding of moving pictures and associated audio information: Systems

[3] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”

[4] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"

[5] SMPTE 2041: Format for Non-PCM Audio and Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers

儘管已在區塊表示實際或邏輯硬體組件之方塊圖之上下文中描述本發明，但本發明亦可由電腦實施方法實施。在後一情況下，區塊表示對應方法步驟，其中此等步驟代表由由對應邏輯或實體硬體區塊執行之功能性。

儘管已在裝置之上下文中描述一些態樣，但顯而易見，此等態樣亦表示對應方法之描述，其中區塊或器件對應於方法步驟或方法步驟之特徵。類似地，方法步驟之上下文中所描述的態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(類似於(例如)微處理器、可程式化電腦或電子電路)執行方法步驟中之一些或全部。在一些實施例中，可由此裝置執行最重要之方法步驟中的某一者或多者。

本發明的經傳輸或經編碼信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。

取決於某些實施要求，本發明之實施例可以硬體或以軟體實施。實施可使用其上儲存有電子可讀控制信號之數位儲存媒體(例如，軟碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或快閃記憶體)來執行，該等控制信號與可規劃電腦系統合作(或能夠與之合作)，使得各別方法得到執行。因此，數位儲存媒體可係電腦可讀的。

根據本發明之一些實施例包含具有電子可讀控制信號之資料載體，該等控制信號能夠與可規劃電腦系統合作，使得本文中所描述之方法中的一者得到執行。

大體而言，本發明之實施例可實施為具有程式碼之電腦程式產品，程式碼可操作以用於在電腦程式產品於電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。

其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。

換言之，本發明方法之實施例因此為電腦程式，其具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中之一者的程式碼。

本發明方法之另一實施例因此為資料載體(或諸如數位儲存媒體或電腦可讀媒體之非暫時性儲存媒體)，其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。

本發明方法之另一實施例因此為表示用於執行本文中所描述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如，經由網際網路)而傳送。

另一實施例包含處理構件，例如，經組配或經調適以執行本文中所描述之方法中之一者的電腦或可規劃邏輯器件。

另一實施例包含電腦，其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。

根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如，用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或其類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。

在一些實施例中，可規劃邏輯器件(例如，場可規劃閘陣列)可用以執行本文中所描述之方法之功能性中的一些或全部。在一些實施例中，場可規劃閘陣列可與微處理器合作以便執行本文中所描述之方法中之一者。大體而言，該等方法較佳藉由任何硬體裝置來執行。

上文所描述之實施例僅僅說明本發明之原理。應理解，熟習此項技術者將顯而易見本文中所描述之配置及細節的修改及變化。因此，意圖為僅由接下來之專利申請專利範圍之範疇來限制，而非由借助於對本文中之實施例之描述及解釋所呈現的特定細節來限制。

1‧‧‧音訊資料處理器

2‧‧‧接收器介面

3‧‧‧經編碼音訊資料

4‧‧‧元資料

5‧‧‧元資料剖析器

6‧‧‧互動介面/使用者介面/器件互動介面

7‧‧‧互動輸入/使用者輸入

8‧‧‧互動控制資料/使用者控制資料/互動資訊資料

9‧‧‧資料串流產生器

15‧‧‧經編碼輸入串流/輸入資料串流/主音訊資料串流

110‧‧‧箭頭

Claims

一種音訊資料處理器，其包含：一接收器介面，其用於接收經編碼音訊資料及與該經編碼音訊資料有關之元資料；一元資料剖析器，其用於剖析該元資料以判定一音訊資料操縱可能性；一互動介面，其用於接收一互動輸入且用於自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料；以及一資料串流產生器，其用於獲得該互動控制資料及該經編碼音訊資料以及該元資料且用於產生一輸出資料串流，該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分，及該互動控制資料。
如請求項1之音訊資料處理器，其中該經編碼音訊資料包含單獨經編碼音訊物件，其中該元資料之至少一部分與一對應音訊物件有關，其中該元資料剖析器經組配以剖析該等經編碼音訊物件之該對應部分以對於至少一音訊物件判定該物件操縱可能性，其中該互動介面經組配以對於該至少一個經編碼音訊物件自與該至少一個經編碼音訊物件有關之該互動輸入產生該互動控制資料。
如請求項1或2之音訊資料處理器，其中該互動介面經組配以向一使用者呈現藉由該元資料剖析器自該元資料導出之該音訊資料操縱可能性，且自該使用者接收關於該資料操縱可能性之特定資料操縱之一使用者輸入。
如前述請求項中任一項之音訊資料處理器，其中該資料串流產生器經組配以處理包含藉由該接收器介面接收之該經編碼音訊資料及該元資料之一資料串流而不解碼該經編碼音訊資料，或複製該經編碼音訊資料及該元資料之至少一部分而不改變該輸出資料串流，其中該資料串流產生器經組配以將含有該互動控制資料之一額外資料部分添加至該輸出資料串流中之該經編碼音訊資料及/或該元資料。
如前述請求項中任一項之音訊資料處理器，其中該資料串流產生器經組配以在該輸出資料串流中以與該元資料相同之格式產生該互動控制資料。
如前述請求項中任一項之音訊資料處理器，其中該資料串流產生器經組配以使該輸出資料串流中之一識別符與該互動控制資料相關聯，該識別符不同於與該元資料相關聯之一識別符。
如前述請求項中任一項之音訊資料處理器，其中該資料串流產生器經組配以將簽章資料添加至該互動控制資料，該簽章資料指示關於一應用程式、執行一音訊資料操縱或提供該互動輸入之一器件或一使用者的資訊。
如前述請求項中任一項之音訊資料處理器，其中該元資料剖析器經組配以識別用於由該經編碼音訊資料表示之一或多個音訊物件之一停用可能性，其中該互動介面經組配用於接收用於該等一或多個音訊物件之一停用資訊，且其中該資料串流產生器經組配用於將該等一或多個音訊物件在該互動控制資料中標記為停用或用於自該經編碼音訊資料移除該等經停用之一或多個音訊物件，以使得該輸出資料串流不包括用於該等經停用之一或多個音訊物件之經編碼音訊資料。
如前述請求項中任一項之音訊資料處理器，其中該資料串流產生器經組配以動態地產生該輸出資料串流，其中回應於一新互動輸入，該互動控制資料經更新以匹配該新互動輸入，且其中該資料串流產生器經組配以將該經更新互動控制資料包括於該輸出資料串流中。
如前述請求項中任一項之音訊資料處理器，其中該接收器介面經組配以接收包含該經編碼音訊資料及與該經編碼音訊資料有關的元資料之一主音訊資料串流，且額外接收包含一可選音訊物件之可選音訊資料，其中與該可選音訊物件有關之該元資料含於該主音訊資料串流中。
如前述請求項中任一項之音訊資料處理器，其中該元資料剖析器經組配以判定對於不包括於該經編碼音訊資料中之一缺失音訊物件的該音訊操縱可能性，其中該互動介面經組配以接收用於該缺失音訊物件之一互動輸入，且其中該接收器介面經組配以向一音訊資料提供者請求用於該缺失音訊物件之音訊資料或自含於一廣播串流或一網際網路協定連接中之一不同子串流接收用於該缺失音訊物件之該音訊資料。
如前述請求項中任一項之音訊資料處理器，其中該資料串流產生器經組配以在該輸出資料串流中將另一封包類型指派至該互動控制資料，該另一封包類型不同於該經編碼音訊資料及該元資料之封包類型，或其中該資料串流產生器經組配以將一填充資料封包類型之填充資料添加至該輸出資料串流中，其中填充資料之一量係基於藉由該音訊資料處理器之一輸出介面判定之一資料速率要求而判定。
如前述請求項中任一項之音訊資料處理器，其實施為一單獨器件，其中該接收器介面形成經由一有線或無線連接至該單獨器件之一輸入，其中該音訊資料處理器進一步包含連接至該資料串流產生器之一輸出介面，該輸出介面經組配用於輸出該輸出資料串流，其中該輸出介面執行該器件之一輸出且包含一無線介面或一有線連接器。
一種用於處理音訊資料之方法，該方法包含：接收經編碼音訊資料及與該經編碼音訊資料有關之元資料；剖析該元資料以判定一音訊資料操縱可能性；接收一互動輸入且自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料；以及獲得該互動控制資料及該經編碼音訊資料以及該元資料且產生一輸出資料串流，該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分，及該互動控制資料。
一種電腦程式，其用於在於一電腦或一處理器上執行時執行如請求項14之處理音訊資料之方法。