[go: up one dir, main page]

TW201610983A - 資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術 - Google Patents

資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術 Download PDF

Info

Publication number
TW201610983A
TW201610983A TW104116674A TW104116674A TW201610983A TW 201610983 A TW201610983 A TW 201610983A TW 104116674 A TW104116674 A TW 104116674A TW 104116674 A TW104116674 A TW 104116674A TW 201610983 A TW201610983 A TW 201610983A
Authority
TW
Taiwan
Prior art keywords
data
audio
metadata
interactive
data stream
Prior art date
Application number
TW104116674A
Other languages
English (en)
Other versions
TWI587283B (zh
Inventor
史蒂芬 夏倫那
席夢尼 弗格
哈拉德 福契斯
珍 普洛格史堤
史蒂芬 多希拉
Original Assignee
弗勞恩霍夫爾協會
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會 filed Critical 弗勞恩霍夫爾協會
Publication of TW201610983A publication Critical patent/TW201610983A/zh
Application granted granted Critical
Publication of TWI587283B publication Critical patent/TWI587283B/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • H04N21/4355Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream involving reformatting operations of additional data, e.g. HTML pages on a television screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/436Interfacing a local distribution network, e.g. communicating with another STB or one or more peripheral devices inside the home
    • H04N21/4363Adapting the video stream to a specific local network, e.g. a Bluetooth® network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44222Analytics of user selections, e.g. selection of programs or purchase activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44227Monitoring of local network, e.g. connection or bandwidth variations; Detecting new devices in the local network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本案提供一種音訊資料處理器,其包含:一接收器介面,其用於接收經編碼音訊資料及與該經編碼音訊資料有關之元資料;一元資料剖析器,其用於剖析該元資料以判定一音訊資料操縱可能性;一互動介面,其用於接收一互動輸入且用於自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料;以及一資料串流產生器,其用於獲得該互動控制資料及該經編碼音訊資料以及該元資料且用於產生一輸出資料串流,該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分,及該互動控制資料。

Description

資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術 發明領域
本發明涉及一種根據技術方案1之音訊資料處理器、一種根據技術方案14之用於處理音訊資料之方法及一種根據技術方案15之用於執行處理音訊資料之方法之電腦程式。
發明背景
在家用消費型電子裝置(CE)安裝中,功能性在經由標準化介面連接之若干裝置上擴展。另外,(高品質)設備常常不僅僅建置成單個單一器件,而可使用複雜的單一器件(考慮機上盒、電視機、AVR接收器)。此等器件經由標準化介面(諸如HDMI)進行通訊。
在第一器件擷取所要串流且提供所有使用者介面時,第二器件常常在無任何使用者介面的情況下以「受控器模式」執行解碼。就使用者互動及對解碼器之控制而 論,在此情形中,必須將此使用者資訊自第1器件傳達至第2器件。
舉例而言,如圖9中所示,電視節目常常由諸如機上盒之第一器件接收,該第一器件選擇適當傳輸頻道且擷取含有所要經寫碼要素之相關基本串流。此等所擷取串流可饋送至諸如音訊-視訊接收器之第二器件以用於再現。可藉由傳輸經解碼/經解壓縮表示(PCM音訊)或經編碼表示來實現此等兩個器件之間的傳輸,在頻寬限制應用於所使用的互連線的情況下尤其如此。
另外,因為選擇所要串流及/或視情況選擇使用者互動係在第1器件(例如,機上盒)中實現,因此在大多數情況下,僅此器件提供使用者控制介面。第二器件(例如,A/V接收器)僅提供在設定系統時通常僅由使用者存取一次且在正常操作時間以「受控器模式」起作用之組態介面。
現代音訊編碼解碼器方案並不僅僅支援音訊信號之編碼,且亦提供用於使用者互動以使音訊播出及渲染適於收聽者之偏好之構件。音訊資料串流由數個經編碼音訊信號(例如,頻道信號或音訊物件)及伴隨的元資料資訊組成,該元資料資訊描述此等音訊信號如何形成顯現至揚聲器之音訊場景。
音訊物件之實例為:˙以不同語言進行的對話,˙如音訊描述之額外對話,或˙音樂音效背景。
元資料資訊之實例為:
˙每一物件信號之預設音量等級(亦即,混音成混合信號以供擴音器呈現所必需之響度),
˙預設空間位置(亦即,其必須顯現之位置),
˙對於特定物件是否允許使用者互動之資訊,或
˙允許使用者如何進行互動之資訊,例如,最小/最大音量等級或對使用者可將物件重新平移至之位置的限制。
˙音訊物件之分類及/或描述
為實現使用者互動性,音訊解碼器/渲染器(例如第2器件)需要提供用於控制用於所要使用者互動之資訊的額外(輸入或互動)介面。
當解碼及渲染係在第2器件而非在第1器件中實施時,亦可能替代地需要在第1器件中實施對於音訊物件選擇及操縱的使用者控制且將此資料饋送至第2器件。
然而,此類資料之傳輸歸因於以下事實而受到限制:現有標準化連接並不支援使用者控制資料及/或渲染器資訊之傳輸。
或者,如上文所描述的對於第1器件的串流之選擇及使用者互動與如上文所描述的對於第2器件之解碼可由含於相同器件內之兩個單獨功能組件在對兩個組件之間的資料傳輸具有相同限制的情況下來處理,該等限制即:用於經寫碼資料及使用者互動資料之僅一個介面可用,較佳為第1器件之互動介面,而可省略用於使用者互動資料之第二介面,亦即通常由第2器件提供之介面。即使第1 器件及第2器件兩者皆含於或實施於相同(硬體)器件內,此亦導致與針對分開之第1器件與第2器件之情況所述的相同的情境。
為了實現所描述之使用情況且克服上述限制,提出將使用者控制資訊資料或(一般而言)互動資料嵌入至經編碼音訊資料串流中。
發明概要
因此,本發明之一目標為改良現有音訊資料處理器。
大體而言,第一器件可組配為如技術方案1中所界定之音訊資料處理器,其包含:一接收器介面,其用於接收經編碼音訊資料及與該經編碼音訊資料有關之元資料;一元資料剖析器,其用於剖析該元資料以判定一音訊資料操縱可能性;一互動介面,其用於接收一互動輸入且用於自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料;以及一資料串流產生器,其用於獲得該互動控制資料及該經編碼音訊資料以及該元資料且用於產生一輸出資料串流,該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分,及該互動控制資料。其他較佳實施例界定於所附附屬技術方案及其他獨立技術方案中。
該經編碼音訊資料可包含單獨的經編碼音訊物件,其中該元資料之至少一部分與一對應音訊物件有關,其中該元資料剖析器經組配以剖析該等經編碼音訊物件之 該對應部分以針對至少一音訊物件判定該物件操縱可能性,其中該互動介面經組配以針對該至少一個經編碼音訊物件自與該至少一個經編碼音訊物件有關之該互動輸入產生該互動控制資料。因此,音訊物件可藉由使用各別互動控制資料而容易且直接地在儲存於該元資料內之其對應物件操縱可能性內操縱。
該互動介面可經組配以向一使用者呈現藉由該元資料剖析器自該元資料導出之該音訊資料操縱可能性,且自該使用者接收關於該資料操縱可能性之特定資料操縱之一使用者輸入。此可實現向使用者提供用於與發明性器件互動(例如用於操縱音訊物件,較佳在外部自解碼器)之使用者介面的實際方式。
該資料串流產生器可經組配以處理包含藉由該接收器介面接收之該經編碼音訊資料及該元資料之一資料串流而不解碼該經編碼音訊資料,或複製該經編碼音訊資料及該元資料之至少一部分而不改變輸出資料串流,其中該資料串流產生器經組配以將含有該互動控制資料之一額外資料部分添加至該輸出資料串流中之該經編碼音訊資料及/或該元資料。此提供較小複雜度之優勢,因為音訊資料處理器不需要解碼音訊信號。其僅需要剖析該元資料且將其寫回至該經編碼音訊資料串流之該元資料部分。
該資料串流產生器可經組配以在該輸出資料串流中以與該元資料相同之格式產生該互動控制資料。因此,任何互動控制資料可有利地整合至該輸出資料串流中。
該資料串流產生器可經組配以使該輸出資料串流中之一識別符與該互動控制資料相關聯,該識別符不同於與該元資料相關聯之一識別符。對於經操縱元資料使用一不同識別符之優勢為可啟用一遠端解碼器來在亦接收原始資料之同時自所接收經操縱資料串流識別該互動。
該資料串流產生器可經組配以將簽章資料添加至該互動控制資料,該簽章資料指示關於一應用程式、執行一互動(例如一音訊資料操縱或提供該使用者輸入)之一器件或一使用者的資訊。藉由傳送原始及經操縱資料,該元資料之重設係可能的。該元資料中之簽章允許追蹤該操縱之原始來源。
該元資料剖析器可經組配以識別用於由該經編碼音訊資料表示之一或多個音訊物件之一停用可能性,其中該互動介面經組配用於接收用於該等一或多個音訊物件之一停用資訊,且其中該資料串流產生器經組配用於將該等一或多個音訊物件在該互動控制資料中標記為停用或用於自該經編碼音訊資料移除該等經停用之一或多個音訊物件,以使得該輸出資料串流不包括用於該等經停用之一或多個音訊物件之經編碼音訊資料。因此,該資料串流可針對實際上或當前可用之彼等音訊物件加以調適,使得當前位元串流之總資料內容可得以減少。
該資料串流產生器可經組配以動態地產生該輸出資料串流,其中回應於一新互動輸入,該互動控制資料經更新以匹配該新互動輸入,且其中該資料串流產生器經 組配以將該經更新之互動控制資料包括在該輸出資料串流中。因此,一資料串流可與即時資訊一起發送。換言之,可以快速方式、較佳即時地更新及處理與任何音訊物件特定值有關之互動輸入。
該接收器介面可經組配以接收包含該經編碼音訊資料及與該經編碼音訊資料有關的元資料之一主音訊資料串流,且額外接收包含一可選音訊物件之可選音訊資料,其中與該可選音訊物件有關之該元資料含於該主音訊資料串流中。藉由此組態,該音訊資料處理器可將該所選可選音訊物件之該經編碼音訊資料合併至該主音訊資料串流中,從而導致由該資料串流產生器產生之一完整輸出音訊資料串流。因此,可隨後或按需求將選音訊物件額外提供至一使用者。
該元資料剖析器可經組配以判定對於不包括於該經編碼音訊資料中之一缺失音訊物件的該音訊操縱可能性,其中該互動介面經組配以接收用於該缺失音訊物件之一互動輸入,且其中該接收器介面經組配以向一音訊資料提供者請求用於該缺失音訊物件之音訊資料或自含於一廣播串流或一網際網路協定連接中之一不同子串流接收用於該缺失音訊物件之該音訊資料。因此,一器件或一使用者可事先,亦即在一視情況可用之額外音訊物件實際上缺失時,操縱該視情況可用之額外音訊物件。可接著隨後經由網際網路或另一廣播串流請求該額外音訊物件。
該資料串流產生器可經組配以在該輸出資料串 流中將另一封包類型指派至該互動控制資料,該另一封包類型不同於該經編碼音訊資料及該元資料之封包類型,或其中該資料串流產生器經組配以將一填充資料封包類型之填充資料添加至該輸出資料串流中,其中填充資料之量係基於藉由該音訊資料處理器之一輸出介面判定之資料速率要求而判定。因此,僅需要指派一個其他封包類型以便分別實現經操縱元資料或互動控制資料之傳送。此外,該音訊資料處理器可能想要將額外填充資料添加至一後續資料傳輸串流中以滿足彼鏈路之給定、通常較高之資料速率要求。此填充資料可不含有資訊且預期將被該解碼器忽略。
該音訊資料處理器可實施為一單獨器件,其中該接收器介面可形成經由一有線或無線連接至該單獨器件之一輸入,其中該音訊資料處理器可進一步包含連接至該資料串流產生器之一輸出介面,該輸出介面經組配用於輸出該輸出資料串流,其中該輸出介面執行該器件之一輸出且包含一無線介面或一有線連接器。因此,可提供例如在網路內之簡單連接性。
本發明可進一步藉由一種用於處理音訊資料之方法來實現,該方法包含:接收經編碼音訊資料及與該經編碼音訊資料有關之元資料;剖析該元資料以判定一音訊資料操縱可能性;接收一互動輸入且自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料;以及獲得該互動控制資料及該經編碼音訊資料以及該元資料且產生一輸出資料串流,該輸出資料串流包含該經編碼音訊資料、 該元資料之至少一部分,及該互動控制資料。
本發明可進一步藉由一種電腦程式來實現,該電腦程式用於在於一電腦或一處理器上執行時執行前述處理音訊資料之方法。
可藉由以下實施例來進一步實現本發明:該音訊資料操縱可能性可選自包含以下各者中之至少一者的一群組:物件選擇、自若干語言之選擇、可選額外音訊物件之選擇、物件操縱、改變一或多個物件之音量、改變物件之位置(如將額外評論自中心揚聲器移動至右方揚聲器或兩者之間的任意位置)、替代單獨地選擇及操縱每一物件而選擇預置項(preset),其中自該元資料選擇一預置,其中一預置項為由內容建立者針對特定應用程式或特定使用情形所推薦之物件的預先選擇,其中與一預設呈現相比,一預置項含有物件與例如不同音量等級、位置及響度/動態範圍壓縮資料之組合。
該資料串流產生器可經組配以將該互動控制資料產生為獨立資訊或相依性資訊,其中該相依性資訊取決於該元資料且在應用於經解碼音訊資料之情況下連同該元資料一起導致藉由該互動輸入界定之資料操縱。
該經編碼音訊資料可包含可選音訊物件,且該元資料可包含用於該等可選音訊物件之元資料,其中該接收器介面可經組配以額外接收具有主音訊資料之一主音訊資料串流,其中該資料串流產生器可經組配以產生該輸出資料串流,以使得該輸出資料串流額外包含該主音訊資料。
該資料串流產生器可經組配以將錯誤保護資料添加至該輸出資料串流且將另一封包類型指派至誤差錯誤保護資料,其中該資料串流產生器經組配以自該經編碼音訊資料、該元資料或該互動控制資料導出該錯誤保護資料。
該資料串流產生器可經組配以將該輸出資料串流產生為用於串流傳輸之一資料串流或諸如ISO MPEG-4檔案格式之檔案格式的基於容器之文件。
進一步建議該音訊資料處理器不具有解碼該經編碼音訊資料之功能性。
該音訊資料處理器可實施於機上盒、電視機或音訊/視訊記錄器-接收器中。
該音訊資料處理器可進一步包含用於經由一HDMI連接將該輸出資料串流傳輸至另一器件之輸出介面。
該音訊資料處理器亦可連同一解碼器一起提供(亦即,整合或實施)於相同(硬體)器件內。舉例而言,該音訊資料處理器與一解碼器可一起提供於TV、機上盒、A/V接收器或其類似者內。該音訊資料處理器與該解碼器可經由內部資料匯流排結構進行通訊。在包含系統單晶片(SoC)解決方案之TV器件中可能尤其需要此類組態。
因此或替代地,該音訊資料處理器可類似於上文針對單獨器件之情況所描述的情況而實施為相同器件中的獨立且單獨的功能組件,唯一的差異為輸出介面在器件內 部之連接上(例如使用內部資料匯流排)執行音訊資料處理器之輸出。
關於上文所提及之特徵,根據本發明之音訊資料處理器能夠提供與器件或使用者之容易互動,同時提供簡單的器件設定(較佳使用現有裝置)。
此外,根據本發明之音訊資料處理器藉由將器件互動或使用者互動作為額外互動資料嵌入於音訊位流內而提供對上述問題之解決方案。藉由實施上述特徵,解碼器實施方案可能僅需要接受經編碼表示資料及互動控制資料兩者之一個介面。已經存在的互連件可能無需實施用於控制資訊之新頻道,而實施精力移至編碼解碼器自身。在複雜設定中,進一步確保互動控制資訊緊密地繫結至經編碼要素且因此在經由若干處理級進行饋送時可能不會損失。
1‧‧‧音訊資料處理器
2‧‧‧接收器介面
3‧‧‧經編碼音訊資料
4‧‧‧元資料
5‧‧‧元資料剖析器
6‧‧‧互動介面/使用者介面/器件互動介面
7‧‧‧互動輸入/使用者輸入
8‧‧‧互動控制資料/使用者控制資料/互動資訊資料
9‧‧‧資料串流產生器
10‧‧‧輸出資料串流/完整音訊資料串流/後續傳輸串流/經編碼音訊資料串流
11、12‧‧‧經編碼音訊物件
13、14‧‧‧元資料之部分
15‧‧‧經編碼輸入串流/輸入資料串流/主音訊資料串流
15a、15b‧‧‧輸入串流
16‧‧‧可選音訊資料
17‧‧‧可選音訊物件
18‧‧‧填充資料
19、26‧‧‧機上盒/第一器件
20‧‧‧輸入
21‧‧‧有線連接
22‧‧‧無線連接
23‧‧‧輸出介面
24‧‧‧無線介面
25‧‧‧有線連接器
27‧‧‧電視機
28、33‧‧‧音訊-視訊接收器/第二器件
32‧‧‧輸出資料串流/經編碼音訊資料串流
35‧‧‧音訊資料提供者
36‧‧‧廣播串流
37‧‧‧網際網路
110、120‧‧‧箭頭
201~205‧‧‧步驟
根據本發明之實施例的實例展示於圖式中且將在下文加以解釋,其中:圖1展示根據本發明之音訊資料處理器,圖2展示根據本發明之用於處理音訊資料之方法,圖3展示經編碼音訊資料及相關元資料之實例,圖4展示處理輸入及輸出串流之實例,圖5展示處理輸入及輸出串流之另一實例,圖6展示處理可選音訊資料之音訊資料處理器,圖7展示實施於單獨器件中之音訊資料處理器,圖8展示第一器件及第二器件之例示性使用情況,以 及圖9展示具有機上盒及音訊-視訊接收器之例示性情形。
較佳實施例之詳細說明
在整個此文獻中且詳言之在以下描述中,「互動」一詞係在藉由使用者之互動或藉由器件之互動以及一般的互動(亦即,通常意義上的互動)意義上使用。換言之,「互動」可意謂「使用者互動」或「器件互動」,或一般互動。在特定描述部分中,「使用者」與「互動」二詞同義地使用。舉例而言,可在互動介面之意義上及相關之其他方式同義地使用使用者介面。
此外,「使用者」可為人類使用者或機器使用者,諸如(硬體)器件或軟體實施器件。
另外,使用者介面可作為器件特定預置組態而存在,其可替代使用者輸入或作為使用者輸入之補充而控制資料操縱。
圖1展示根據本發明之音訊資料處理器1。音訊資料處理器1包含用於接收經編碼輸入串流15之接收器介面2,該經編碼輸入串流15包含經編碼音訊資料3及元資料4。元資料4與經編碼音訊資料3有關,其關係由箭頭110指示。舉例而言,經編碼音訊資料3可含有音訊物件,而元資料4可含有關於該等音訊物件之操縱可能性之其他資訊。
音訊資料處理器1進一步包含用於剖析元資料4以判定音訊資料操縱可能性之元資料剖析器5。舉例而言,可調整音量等級、可調整空間位置或可選擇語言可表示音訊物件之音訊資料操縱可能性。
此外,音訊資料處理器1包含用於接收互動輸入7之互動介面6。互動介面6經進一步組配以基於互動輸入7產生互動控制資料8。該互動控制資料8與前述音訊資料操縱可能性有關。舉例而言,使用者可藉由經由互動介面6調整音訊物件之音量等級或空間位置或藉由選擇語言而與器件互動。在此情況下,互動介面6為可產生與使用者之選擇有關的對應使用者控制資料8之使用者介面6。
另外或替代地,互動介面6可為器件(特定)互動介面6。在此情況下,器件互動介面6經組配以基於器件互動輸入7產生器件互動控制資料8。舉例而言,諸如頭戴式耳機或其類似者之器件可與互動介面6連接。頭戴式耳機與互動介面6之間的連接可藉由音訊處理器偵測到且因此被視為互動輸入7。因此,在連接頭戴式耳機之後,互動介面6即刻提供頭戴式耳機特定互動控制資料8,諸如音訊物件操縱,例如音量之自動減小、預先選擇之語言或硬體組態之調整。
換言之,替代手動使用者互動,互動介面6基於偵測到特定器件而自動地選擇物件或調整。互動介面6產生器件特定互動控制資料8。
音訊資料處理器1進一步包含資料串流產生器9。 資料串流產生器9獲得互動控制資料8、經編碼音訊資料3及元資料4。資料串流產生器9經組配以產生包含前述互動控制資料8、經編碼音訊資料3及元資料4之輸出資料串流10。
圖2展示根據本發明之用於處理音訊資料之對應方法。
在步驟201中,接收經編碼音訊資料3及相關元資料4。
在步驟202中,剖析元資料4以判定音訊資料操縱可能性。
在步驟203中,接收互動輸入,其中在步驟204中自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料。
在步驟205中,獲得互動控制資料及經編碼音訊資料以及元資料,且產生輸出資料串流,其中該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分及該互動控制資料。
參考圖3,經編碼音訊資料3包含單獨的經編碼音訊物件11、12。此外,元資料4之至少一部分13、14與對應音訊物件11、12有關(藉由箭頭110、120指示)。舉例而言,元資料4之部分「MD1」13與對應經編碼音訊物件「AO1」11有關,而元資料4之部分「MD2」14與對應經編碼音訊物件「AO2」12有關。
元資料剖析器5經組配以剖析經編碼音訊物件 11、12之對應部分13、14以便判定該等音訊物件11、12中之至少一者的物件操縱可能性。換言之,元資料剖析器5剖析用於各別音訊物件11、12之元資料13、14以便判定對於每一音訊物件11、12之音訊物件操縱可能性。舉例而言,元資料剖析器5判定音訊物件「AO1」11可能包含可調整音量等級。元資料剖析器5可經由使用者介面6將此潛在音量等級可調整性(音訊物件操縱可能性)呈現給使用者。
使用者介面6經組配以對於至少一個音訊物件11、12自與至少一個經編碼音訊物件11、12有關之使用者輸入7產生使用者控制資料8。舉例而言,使用者可能想要調整音訊物件「AO1」11之音量等級且因此經由使用者介面6提供各別輸入7。使用者介面6產生含有以下資訊之各別使用者控制資料8:使用者想要調整音訊物件「AO1」11之音量等級以及想要調整至何程度。
因此,使用者介面6經組配以向使用者呈現藉由元資料剖析器5自元資料4導出之音訊物件11、12的音訊物件操縱可能性。使用者介面6經進一步組配以自使用者接收關於資料操縱可能性(例如,音量等級調整範圍或一組可用語言)之特定資料操縱(例如,特定音量等級或特定語言)的使用者輸入7。
參考圖1及圖9,資料串流產生器9經組配以處理包含藉由接收器介面2接收之經編碼音訊資料3及元資料4的資料串流15而不解碼經編碼音訊資料3。舉例而言, 假定根據本發明之音訊資料處理器1實施於機上盒19、26中,則其可將輸出資料串流10、32轉發至包含解碼器之外部音訊-視訊接收器28、33。在此情況下,在解碼將不由機上盒19、26而由音訊-視訊接收器28、33執行時,仍可編碼輸出資料串流10、32。
或者,資料串流產生器9經組配以複製經編碼音訊資料3及元資料4而不改變輸出資料串流10。
在任一情況下,如圖4中可以看出,資料串流產生器9經組配以將含有互動控制資料8之額外資料部分添加至輸出資料串流10中之經編碼音訊資料3及/或元資料4。
參考圖5,資料串流產生器9經進一步組配以將兩個輸入串流15a、15b合併為一共同輸出串流10,其中含有互動控制資料8之額外資料部分添加至輸出資料串流10中之經編碼音訊資料3及/或元資料4。
較佳地,資料串流產生器9經組配以在輸出資料串流10中以與元資料4相同之格式產生互動控制資料8。因此,互動控制資料8可與可用元資料4容易地組合。
若如上文所提及,資料串流產生器9複製元資料4,則除了含有用於各別音訊物件11、12之額外互動控制資料8的任何經操縱元資料之外,原始元資料4亦可保留於輸出串流10中。原始及經操縱元資料兩者皆可發送至解碼器28、33以便允許解碼器28、33將差異識別為(使用者)互動之結果且獲得關於內容建立者所希望之預設值之所有 資訊或自原始元資料4及經操縱元資料4'(或互動控制資料8)計算(使用者)互動之結果。
進一步參考圖1,資料串流產生器9經組配以動態地產生輸出資料串流10。每當使用者或器件將新互動輸入7提供至互動介面6時,互動控制資料8相應地更新以便匹配該新互動輸入7。資料串流產生器9將此經更新互動控制資料8包括於輸出資料串流10中。
圖6展示根據本發明之音訊資料處理器1,其中處理可選音訊資訊。如可看出,輸入資料串流15為包含經編碼音訊資料3及有關元資料4之主音訊資料串流。此外,接收器介面2額外接收包含可選音訊物件17之可選音訊資料16。
然而,與該額外可選音訊物件「AOx」17有關之元資料,亦即關於該可選音訊物件「AOx」17之操縱可能性的資訊,含於主音訊資料串流15中。因此,音訊物件17係已知的但不呈現,且因此係可選的。
舉例而言,使用者收聽含有鼓、弦及鋼琴之管弦樂。可視情況包括吹奏樂器。若收聽者現在希望添加吹奏樂器,則其藉由將例如小號之可選吹奏樂器添加為可選音訊物件17。因為對於該小號之操縱可能性已經含於主音訊資料串流15之元資料4內,因此使用者具有根據其需要操縱當前添加之小號的可能性。
進一步參考圖6,該額外音訊物件「AOx」17可為不包括於經編碼音訊資料3及/或元資料4中之缺失音 訊物件。因此,音訊物件17未知且因此缺失。
在此情況下,接收器介面2經組配以向音訊資料提供者35請求屬於該缺失音訊物件17之音訊資料16。接收器介面2亦經組配以自含於廣播串流36中之不同子串流接收該音訊資料16。接收器介面2經進一步組配以經由網際網路協定連接自網際網路37擷取該音訊資料16。
舉例而言,觀看電影之使用者可自含有例如英語、德語及法語之可用語言集合選擇一特定語言。第四語言已知但未呈現,且因此缺失。然而,可隨後經由例如網際網路提供第四語言。
再次參考圖4及圖5,輸入資料串流15及輸出資料串流10可大體上以經封包化結構可用。舉例而言,MPEG-H音訊經由串列介面之傳送由MHAS傳送語法(見N14459之章節13(ISO/IEC 23008-3委員會草案文字)[1])界定。此語法係以經封包化方式界定。
因此,為實現經操縱元資料4或互動控制資料8之傳送,僅需要對於新控制資訊指派一個其他封包類型。
此外,包含音訊資料處理器1之第一器件「第1器件」19可能想要將額外填充資料18添加至後續傳輸串流10中以滿足對於彼鏈路之給定、通常高得多之資料速率要求。此填充資料18可能不含資訊且預期將被接收經操縱輸出串流10之第二器件忽略。為實現此目的,可指派另一資料封包類型。
另外,因為傳入串流至「第1器件」19之傳送 層可具有其自身的錯誤保護,但傳出鏈路不提供此類安全層,因此第1器件可添加含有奇偶校驗資料之資料封包。可將此等封包作為額外封包類型添加至MHAS串流。
另外,因為傳送層可傳達額外資料作為旁側資訊,因此此等資料封包亦可作為另一封包類型封裝至MHAS音訊串流中。此資料之實例為MPEG-2傳送及程式串流中之描述符。
用於儲存經編碼音訊資料之另一實例為ISO mp4檔案格式。類似於串流格式,對於檔案格式之情況,亦有可能讀取、操縱及寫回元資料至文件或除了原始元資料之外亦儲存使用者控制資料而不改變經編碼音訊信號資料。
參考文獻
[1] ISO N14459 (ISO/IEC 23008-3 Committee Draft Text)
[2] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”
[3] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
現參考圖7,音訊資料處理器1實施為單獨器件「第1器件」19。在該單獨器件19中,接收器介面2經由有線連接21或無線連接22形成至單獨器件19之輸入20。
音訊資料處理器1進一步包含連接至資料串流產生器9且提供用於器件19之輸出的輸出介面23。另外,輸出介面23經組配以經由無線介面24或有線連接器25輸出輸出資料串流10。
可作為實例在兩個單獨器件可用之情形中描述進行本發明之其他方式。第一器件「第1器件」包含根據本發明之音訊資料處理器。第二器件「第2器件」自「第1器件」接收經處理但仍經編碼之音訊資料以用於解碼該音訊資料。
如在圖8及圖9中可看出,第一器件19、26接收包含經編碼音訊資料3及有關元資料4之輸入串流15。第一器件19、26自傳入音訊資料串流15或傳送串流讀取元資料資訊4,且使經編碼音訊信號資料3不受影響。第一器件19、26剖析元資料4且將關於物件之資訊(例如)在互動介面6中呈現給應用程式,該資訊包括對物件操縱之限制(為元資料4之部分)。自應用程式或互動介面6,使用者可選擇並操縱物件以使音訊呈現適於其個人偏好:˙物件選擇:例如,自若干語言中選擇一種語言、選擇可選額外音訊物件,等˙物件操縱:例如,改變物件之音量,改變物件之位置,如將額外評論自中心揚聲器移動至右方揚聲器或兩者之間的任意位置,˙預置項選擇:替代單獨地選擇及操縱每一物件,使用者亦可自元資料選擇預置項。預置項為由內容建立者針 對特定應用程式或使用情形所推薦之物件的預先選擇。與預設呈現相比,預置項可含有物件與(例如)不同音量等級、位置及響度/動態範圍壓縮資料之組合。
在下一步驟中,第一器件19、26將關於使用者互動性之資訊(互動控制資料8)儲存至經編碼音訊資料串流10、32中。第一器件19、26可將已改變的值或操縱量(例如偏移值及相乘因數)寫回至元資料部分4或經編碼音訊資料串流之專用部分以使得第一器件19、26之輸出再次為有效經編碼音訊串流10、32。
第一器件19、26可使用不同識別符、標籤或封包類型來分別囊封經操縱元資料或使用者控制資料8。除了經操縱元資料之外,原始元資料4亦可保留於輸出串流10、32中。不同識別符、標籤或封包類型分別用於經操縱元資料或互動控制資料8以使得第二器件28、33能夠識別元資料4是否先前已被操縱。原始元資料4保留於串流10、32中以允許第二器件28、33將差異識別為使用者或器件互動之結果且獲得關於內容建立者所希望之預設值之所有資訊或自原始元資料4及經操縱元資料(或互動控制資料8)計算使用者或器件互動之結果。
作為經操縱元資料之部分,簽章資料可嵌入於元資料4中。簽章可含有關於操縱元資料4之應用程式、器件或使用者之資訊。
未由使用者選擇之音訊物件可在元資料4或互動控制資料8中標記為停用或替代地可自音訊串流10移除 此等物件之經編碼音訊部分。
使用者或器件互動之過程可為動態的,亦即每當使用者或器件改變選擇及操縱設定時,第一器件19、26將彼等已改變值寫回至經編碼音訊資料串流10之元資料部分4。
亦有可能第二器件28、33由於自動處理(例如,使音訊場景適於收聽情境)或額外互動介面而額外操縱元資料4。在此情況下,第二器件28、33可將經操縱值寫回至經編碼音訊資料串流10,例如覆寫藉由第一器件19、26寫入之值。
返回參考圖6,在所謂的混合使用情況中作為實例描述進行本發明之另一方式。
所選可選音訊物件17之經編碼音訊資料3可不為主音訊資料串流15之部分,但可使用其它傳送頻道來遞送。舉例而言,在廣播頻道上遞送主音訊資料串流15,而按需求經由IP連接37遞送可選音訊物件17之經編碼音訊資料3。
用於所有物件之完整元資料4包括於主音訊資料串流15中以使得用於互動及物件選擇之所有資訊在第一器件19中可用。因此,互動及儲存互動控制資料8至串流10之過程等同於上文所描述的情況。
若使用者選擇物件17且經編碼音訊資料3不為主音訊資料串流15之部分,則第一器件19可在與主音訊資料串流15不同之資料連接(例如,廣播串流內之不同子 串流36或IP連接37)上接收此物件17之經編碼音訊資料3。
在下一步驟中,第一器件19將該所選物件17之經編碼音訊資料3合併至主音訊串流15中,從而導致用於進一步遞送至第二器件33之完整音訊資料串流10。
此外,提出傳送嵌入於符合MPEG-H之位流10中之互動資料8的可能性。
如圖9中可看出,高級多媒體系統常常並不將所有所要功能性整合於一個單一器件中,而實際上在諸如機上盒26、電視機27或AVR接收器28之專用器件中實施不同功能組件。此等器件經由標準化介面(諸如HDMI)進行通訊。
然而,亦有可能至少音訊資料處理器與解碼器整合於一個單一器件中。音訊資料處理器可連同解碼器一起提供(亦即,整合或實施)於相同(硬體)器件內。舉例而言,該音訊資料處理器與一解碼器可一起提供於TV、機上盒、A/V接收器或其類似者內。該音訊資料處理器與該解碼器可經由內部資料匯流排結構進行通訊。在包含系統單晶片(SoC)解決方案之TV器件中可能尤其需要此類組態。
因此或替代地,該音訊資料處理器可類似於上文針對兩個單獨器件之情況所描述的情況而實施為相同器件中的獨立且單獨的功能組件,唯一的差異為輸出介面在器件內部之連接上(例如使用內部資料匯流排)執行音訊資料處理器之輸出。
涉及多個器件的MPEG-H內容再現之一個使用情況為藉由諸如機上盒(STB)26之第一器件19接收電視節目時的情況,該第一器件19選擇適當傳輸頻道且擷取含有所要經寫碼要素之相關基本串流。此處亦通常實施互動,亦即對於音訊元素選擇及互動/操縱之使用者控制。
MPEG-H解碼器31可不位於STB 26中而改為位於音訊-視訊接收器(AVR)28中。此使用情況描繪於圖9中。
在此情況下,所擷取串流需要饋送至AVR 28以供再現;此等兩個器件26、28之間的傳輸可藉由傳輸經解碼/經解壓縮表示(具有音訊之PCM)或經編碼表示(尤其在頻寬限制應用於所使用的互連線上之情況下)來實現。
AVR 28接著僅提供在設定系統時通常僅由使用者存取一次且在正常操作時間以「受控器模式」起作用的組態介面。
由於互動發生於STB(第1器件)26中且解碼及渲染實施於AVR(第2器件)28中,因此不可避免地能夠將使用者互動性資訊自STB 26發送至AVR 28。
為了實現所描述之使用情況且克服上述限制,提出將互動資訊資料8嵌入至經編碼音訊資料串流10中,如圖8中可看出。
第一器件19自傳入音訊資料串流15之mpegh3daConfig()或經由諸如MPEG-2 TS描述符之帶外信令而讀取元資料資訊4。其接著剖析音訊元素元資料4且在互動介面6中呈現關於物件之資訊,該資訊包括對物件操縱 之限制(為元資料4之部分)。自互動介面6,使用者可選擇並操縱音訊元素以使音訊呈現適於其個人偏好。「使用者互動資料」描述物件選擇及操縱。
在下一步驟中,第一器件19使用新MHASPacketType將此資料寫入至MHAS音訊資料串流32。第一器件19之輸出再次為有效經編碼音訊串流10、32。mpegh3daConfig()中之原始元資料4及經編碼音訊信號資料3不進行修改。
此MHASPacketType之封包之存在使得第二器件28、33能夠識別(使用者)互動已發生。原始元資料4保留於串流10、32中以允許第二器件10、33獲得關於內容建立者所希望的預設值之所有資訊。
未由使用者選擇之音訊元素可在元資料4中標記為停用或替代地可自音訊串流10移除物件之經編碼音訊部分3。
互動(亦即,器件或使用者互動)之過程可為動態的,亦即每當使用者或器件改變選擇及操縱設定時,第一器件19、26將彼等已改變值寫回至經編碼音訊資料串流10之指定部分。
MHAS擴展
MPEG-H音訊經由串列介面之傳送由MHAS傳送語法(見N14459之章節13(ISO/IEC 23008-3委員會草案文字)[1])界定。此語法係以經封包化方式界定。因此,為實現使用者互動資料之傳送,僅需要對於新控制資訊指派一個其 他封包類型:
PACTYP_USERINTERACTION
MHASPacketType PACTYP_USERINTERACTION可用以將元素互動資料饋送至解碼器。
對於此封包類型,MHASPacketLabel與(使用者)互動資料8所涉及之MHASPacketType PACTYP_MPEGH3DACFG之封包具有相同值。
語法
來自用於使用者互動之介面的語法元素mpegh3daElementInteraction()(見[2])重新用於攜載嵌入於位流10中之(使用者)互動資料8。
參考文獻
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, “Normative Interface for User Interaction”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France
此外,提出用於使用者互動性之規範性介面的可能語法。
提出自用於渲染控制之介面擷取用於互動控制之介面。mpegh3daAudioRendering()語法元素接著界定渲染參數,且新界定的mpegh3daElementInteraction()語法元素含有(使用者)互動所需之資訊。
mepegh3daElementInteraction()語法元素之界定
mpegh3daElementInteraction()語法元素提供用於任何可能(使用者)互動之介面。界定兩個互動模式。
第一者為高級互動模式,其中可對於存在於音訊場景中之每一元素群組用信號表示互動。此模式使得使用者能夠自由地選擇(在切換群組界定之限制內)欲播放哪些群組且與其全部進行互動(在給定範圍及限制內)。
第二模式為基本互動模式,其中使用者可選擇所界定的群組預置項(GroupPreset)(自mae_AudioSceneInfo()語法元素,見[1]之14.2)中的一者作為一預置項。接著界定在所選群組預置項之條件中提及的群組之開-關狀態,且其不可由使用者改變。使用者僅可根據所界定之容限及範圍改變其他群組之開-關狀態以及所有群組之位置及增益。
區分出四個不同的元素修改:
- 開/關互動性:接通或關斷一群元件(編者註:先前稱為「物件改變」[4])
- 位置互動性:改變一群元件之位置(方位角、仰角及距離,編者註:先前稱為「位置改變」[4])
- 增益互動性:改變一群元件之等級/增益(編者註:先前稱為「增益改變」[4])
- 線(WIRE)互動性:WIRE輸出為除了所連接揚聲器之外的任意輸出。一群元件之音訊內容投送至一WIRE輸出,例如用於聽力障礙或額外語言追蹤之內容。
所有修改係在元件群組等級上界定,此係因為群組聚集僅應聯合地操縱之有關元件。
引入簽章以用信號表示例如已在哪一器件中發生互動。
ei_InteractionSignatureDataLength此欄位以位元組界定隨後互動簽章之長度。
ei_InteractionSignatureDataType此欄位界定簽章之類型。以下值係可能的:mpegh3daElementInteraction()之另一實施例展示於表3b中:
ei_InteractionSignatureData此欄位含有界定互動資料之發起者之簽章。
ei_InteractionSignatureDataType之另一實施例展示於表4b中:
ei_InteractionSignatureData此欄位含有界定互動資料之發起者之簽章。
hasLocalZoomAreaSize界定關於本端縮放區域大小之資訊是否可用之旗標。若啟用此旗標,則應用物件重新映射用於縮放。
ei_interactionMode界定是選擇高級互動類型還是基本互動模式之旗標。
ei_numGroups此欄位含有音訊場景中之群組的數目。
ei_groupPresetID此欄位含有在音訊場景中界定之groupPresetID。此ID反映使用者之預置項選擇。
ei_groupID用於描述其互動的當前群組之GroupID。
ei_routeToWIRE此欄位界定是否應將群組之音訊內容投送至WIRE輸出。
ei_routeToWireID應將群組投送至之WIRE輸出之 ID。
ei_onOff界定當前群組之開-關狀態。在選擇基本互動模式(關於群組預置項之互動)之情況下,若此群組為具有ei_groupPrersetID之所選群組預置項之條件之部分,則此值必須等於具有ei_groupID之群組的所界定開-關狀態。對於基本互動模式,此處不允許用信號表示不同開-關狀態。不為所選群組預置項之條件之部分的所有群組之開-關狀態,可任意地用信號表示該開-關狀態。
ei_changePosition此旗標界定群組元件之位置是否已改變。
ei_azOffset方位角之改變給定為偏移。此欄位可採用AzOffset=-180°與AzOffset=180°之間的值:AzOffset=1.5.(ei_azOffset-128)
AzOffset=min(max(AzOffset,-180),180);ei_elOffset方位角之改變給定為偏移。此欄位可採用ElOffset=-90°與ElOffset=90°之間的值:ElOffset=3.(ei_elOffset-32)
ElOffset=min(max(ElOffset,-90),90);ei_distFact距離互動性給定為相乘因數。該欄位可採用0與15之間的值,從而導致DistFactor在0.00025與8之間:DistFactor=2((ei_distFactorr-8)-4)
DistFactor=min(max(DistFactor,0.00025),8);ei_changeGain此旗標界定群組元件之增益/等級是 否已改變。
ei_gain此欄位界定當前群組之成員的額外增益。該欄位可採用0與127之間的值,從而表示介於以下值之間的增益值
增益=-63dB且增益=31dB,步階為1dB,其中增益[dB]=ei_gain-64
增益[dB]=min(max(Gain,-63),31);若ei_gain設定為0,則增益應設定為負無限dB。
ei_GroupInteractivityStatus()之另一實施例展示於表6b中:
根據元資料音訊元素範圍(見[1]之14.2)界定互 動資料。在元資料音訊元素界定中,以dB給出用於增益互動性之互動性範圍,用於方位角及仰角之互動性範圍給定為最小及最大偏移值(與此處具有相同解析度:對於方位角為1.5°且對於仰角為3°),且用於距離之範圍給定為相乘因數。因此,以類似方式界定介面。
對於使用者互動,可在一個ElementInteraction()語法元素內而非對於每一互動類型及每一群組或元件使用語法元素之一個重複來用信號表示所有元件群組之所有可能改變(開/關、增益、位置、WIRE)。
亦針對關斷之群組界定WIRE輸出,此係因為只有如此才有可能將替代語言音軌投送至WIRE輸出。在解碼器中必須處置可能違反之切換群組邏輯。
此處移除先前在[4]中提出之內容類型(頻道、物件、HOA)。其已經隱含地藉由groupID而獲知,此係因為每一元件群組具有一signalGroupType(頻道、物件、SAOC、HOA),其界定信號內容類型且在語法元素Signals3d()中用信號表示。
經由群組預置項之基本互動
若設定基本互動模式,則使用者可選擇所界定群組預置項中的一者(自mae_AudioSceneInfo()groupCollection語法元素,在w14464[7]中作為候選技術而提出)。
來自所選預置項之條件界定所提及群組之開-關狀態。使用者應不能夠修改此等群組之開-關狀態。
語法元素ei_GroupInteractivityStatus[2]中之對應欄位ei_onOff必須反映在所選群組預置項之條件中提及的所有群組之所選群組預置項中的條件。
所有其它群組之開-關狀態可由使用者選擇。
結論
此著作提出對於用於使用者互動之介面的界定。提供允許兩個不同互動模式(基本及高級)之介面界定。提出將所提出之介面應用於CD。
參考文獻
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] FhG, “Rendering Interfaces to MPEG-H and Unification of Loudspeaker Signaling”, Input to the Meeting of AHG on 3D Audio, DRC and Audio Maintenance, June 2-3, 2014, Paris, France
[3] ISO/IEC JTC1/SC29/WG11 N14463, “Normative Interface for Binaural Data”, April 2014, Valencia, Spain
[4] ISO/IEC JTC1/SC29/WG11 M33134, “3D Audio Decoder Interfaces”, April 2014, Valencia, Spain (Input from Philips)
[5] ISO/IEC JTC1/SC29/WG11 M31427, “Thoughts on binaural parameterization of MPEG codecs”, October 2013, Geneva, Switzerland (Input from Orange)
[6] ISO/IEC JTC1/SC29/WG11 M30249, “BRIR interface format: update and implementation”, July 2013, Vienna, Austria (Input from Philips)
[7] ISO/IEC JTC1/SC29/WG11 N14464 “Candidate Technologies for 3D Audio”
此外,ISO/IEC 23008-3 CD文字[1]之章節13界定待用以將MPEG-H 3D音訊酬載囊封於(即時)串流中之MHAS語法。藉由此文獻,提出額外能力以致能MHAS在除MPEG-2傳送串流外的其他傳送系統中之可靠使用。
填充資料
某些傳輸頻道可能僅以恆定瞬時位元速率操作。為實現此目的,提出填充資料封包類型以能夠填充MHAS串流達到某一給定位元速率。
CRC
MPEG-2傳送串流層[2]負責保護經囊封之MHAS基本串流。因此,可識別傳輸中之資料損失或資料損毀。
另一方面,常見串列介面(例如,AES/EBU、S/PDIF、[3]、[4]、[5])不提供足夠錯誤保護。提出可選CRC封包類型以在於此類介面上使用MHAS的情況下致能錯誤偵測。
描述符囊封
MHAS串流用以傳達經編碼音訊至或自MPEG-2傳送串流編碼器/解碼器。提出以額外MHAS封包類型傳達有關描述符資訊。
MHASPacketType之另一實施例展示於表8b中:
mhasParity16Data 16位元欄位,其含有以如下多項式及為0xFFFF之移位暫存器初始狀態產生解碼器巾之16個暫存器之零輸出的CRC值:x 16+x 15+x 5+1。
mhasParity32Data 32位元欄位,其含有以如下多項式及為0xFFFFFFFF之移位暫存器初始狀態產生解碼器中 之32個暫存器之零輸出的CRC值:x 32+x 26+x 23+x 22+x 16+x 12+x 11+x 10+x 8+x 7+x 5+x 4+x 2+x+1。
mhas_fill_data_byte 8位元資料元素,不施加限制
隨機存取/即時播出標記
當封包酬載之第一marker_byte為「0x02」時,依據在章節5.5.5「音訊預載」中給出之規則編碼具有相同MHASPacketLabel之類型PACTYP_MPEG3DAFRAME之後續封包。
程式邊界標記
當封包酬載之第一marker_byte為「0x03」時,程式邊界出現於此時間點處,且所有後續封包屬於一新程式。
PSCTYP_CRC16及PACTYP_CRC32
MHASPacketType PACTYP_CRC16及PACTYP_CRC32可用於偵測先前MHAS封包(其中MHASPacketLabel設定為相同值)中之錯誤。其應直接在其CRC值所涉及之MHAS封包之後。當經由易出錯誤之頻道傳達MHAS串流時,此可為有益的。
錯誤偵測方法分別使用如對於mhasParity16Data或mhasParity32Data所界定之產生器多項式及相關聯移位暫存器狀態中的一者。
包括至CRC檢查中之位元為用於有關MHAS封包分別繼之以用於mhasParity16Data或mhasParity32Data字組之完整MHASPacketPayload()。
在不存在錯誤的情況下,移位暫存器之輸出中的每一者應為零。在CRC編碼器處,以一值編碼mhasParity16Data/mhasParity32Data欄位,使得此情形得以確保。
PACTYP_FILLDATA
MHASPacketType PACTYP_FILLDATA提供添加填充資料以調整瞬時位元速率之可能性。此在使用恆定速率傳輸頻道之某些即時應用程式中可為合乎需要的。
因為此類型之封包與特定酬載資料並無關係,因此MHASPacketLabel設定為0。
預期解碼器忽略在類型PACTYP_FILLDATA之封包中傳輸之資料。另外,允許處理MHAS串流之中間工具自串流移除此類封包。
允許將MHASPacketLength設定為0。此產生為2位元組之最小封包大小。
PACTYP_DESCRIPTOR
PACTYP_DESCRIPTOR可用以將MPEG-2 TS/PS描述符嵌入於MHAS串流中。傳達為mhas_descriptor_data_byte之資料與針對ISO/IEC 13818-1中之描述符()所界定者具有相同語法及語義。
對於此封包類型及在TS_program_map_section()(見ISO/IEC 13818-1)中之第一描述符迴圈中傳輸之描述符,MHASPacketLabel設定為0。
對於此封包類型及指派給一個基本串流之描述 符(亦即,TS_program_map_section()中之第二描述符迴圈),MHASPacketLabel設定為與來自相關聯基本串流之PACTYPE_CONFIG相同的值。
參考文獻
[1] ISO/IEC JTC1/SC29/WG11 N14459, "Text of ISO/IEC 23008-3/CD, 3D audio"
[2] ISO/IEC 13818-1:2013, Information technology - Generic Coding of moving pictures and associated audio information: Systems
[3] IEC 60958-3: “Digital audio interface - Part 3: Consumer applications”
[4] IEC 61937-11, “Digital audio - Interface for non-linear PCM encoded audio bitstreams applying IEC 60958 - Part 11: MPEG-4 AAC and its extensions in LATM/LOAS"
[5] SMPTE 2041: Format for Non-PCM Audio and Data in AES-3 - MPEG-4 AAC and HE AAC Compressed Digital Audio in ADTS and LATM/LOAS Wrappers
儘管已在區塊表示實際或邏輯硬體組件之方塊圖之上下文中描述本發明,但本發明亦可由電腦實施方法實施。在後一情況下,區塊表示對應方法步驟,其中此等步驟代表由由對應邏輯或實體硬體區塊執行之功能性。
儘管已在裝置之上下文中描述一些態樣,但顯而易見,此等態樣亦表示對應方法之描述,其中區塊或器件 對應於方法步驟或方法步驟之特徵。類似地,方法步驟之上下文中所描述的態樣亦表示對應區塊或項目或對應裝置之特徵的描述。可由(或使用)硬體裝置(類似於(例如)微處理器、可程式化電腦或電子電路)執行方法步驟中之一些或全部。在一些實施例中,可由此裝置執行最重要之方法步驟中的某一者或多者。
本發明的經傳輸或經編碼信號可儲存於數位儲存媒體上或可在諸如無線傳輸媒體之傳輸媒體或諸如網際網路之有線傳輸媒體上傳輸。
取決於某些實施要求,本發明之實施例可以硬體或以軟體實施。實施可使用其上儲存有電子可讀控制信號之數位儲存媒體(例如,軟碟、DVD、Blu-Ray、CD、ROM、PROM及EPROM、EEPROM或快閃記憶體)來執行,該等控制信號與可規劃電腦系統合作(或能夠與之合作),使得各別方法得到執行。因此,數位儲存媒體可係電腦可讀的。
根據本發明之一些實施例包含具有電子可讀控制信號之資料載體,該等控制信號能夠與可規劃電腦系統合作,使得本文中所描述之方法中的一者得到執行。
大體而言,本發明之實施例可實施為具有程式碼之電腦程式產品,程式碼可操作以用於在電腦程式產品於電腦上執行時執行該等方法中之一者。程式碼可(例如)儲存於機器可讀載體上。
其他實施例包含儲存於機器可讀載體上的用於執行本文中所描述之方法中之一者的電腦程式。
換言之,本發明方法之實施例因此為電腦程式,其具有用於在電腦程式於電腦上執行時執行本文中所描述之方法中之一者的程式碼。
本發明方法之另一實施例因此為資料載體(或諸如數位儲存媒體或電腦可讀媒體之非暫時性儲存媒體),其包含記錄於其上的用於執行本文中所描述之方法中之一者的電腦程式。資料載體、數位儲存媒體或記錄媒體通常係有形的及/或非暫時性的。
本發明方法之另一實施例因此為表示用於執行本文中所描述之方法中之一者的電腦程式之資料串流或信號序列。資料串流或信號序列可(例如)經組配以經由資料通訊連接(例如,經由網際網路)而傳送。
另一實施例包含處理構件,例如,經組配或經調適以執行本文中所描述之方法中之一者的電腦或可規劃邏輯器件。
另一實施例包含電腦,其上安裝有用於執行本文中所描述之方法中之一者的電腦程式。
根據本發明之另一實施例包含經組配以將用於執行本文中所描述之方法中之一者的電腦程式傳送(例如,用電子方式或光學方式)至接收器的裝置或系統。接收器可(例如)為電腦、行動器件、記憶體器件或其類似者。裝置或系統可(例如)包含用於將電腦程式傳送至接收器之檔案伺服器。
在一些實施例中,可規劃邏輯器件(例如,場可 規劃閘陣列)可用以執行本文中所描述之方法之功能性中的一些或全部。在一些實施例中,場可規劃閘陣列可與微處理器合作以便執行本文中所描述之方法中之一者。大體而言,該等方法較佳藉由任何硬體裝置來執行。
上文所描述之實施例僅僅說明本發明之原理。應理解,熟習此項技術者將顯而易見本文中所描述之配置及細節的修改及變化。因此,意圖為僅由接下來之專利申請專利範圍之範疇來限制,而非由借助於對本文中之實施例之描述及解釋所呈現的特定細節來限制。
1‧‧‧音訊資料處理器
2‧‧‧接收器介面
3‧‧‧經編碼音訊資料
4‧‧‧元資料
5‧‧‧元資料剖析器
6‧‧‧互動介面/使用者介面/器件互動介面
7‧‧‧互動輸入/使用者輸入
8‧‧‧互動控制資料/使用者控制資料/互動資訊資料
9‧‧‧資料串流產生器
10‧‧‧輸出資料串流/完整音訊資料串流/後續傳輸串流/經編碼音訊資料串流
15‧‧‧經編碼輸入串流/輸入資料串流/主音訊資料串流
110‧‧‧箭頭

Claims (15)

  1. 一種音訊資料處理器,其包含:一接收器介面,其用於接收經編碼音訊資料及與該經編碼音訊資料有關之元資料;一元資料剖析器,其用於剖析該元資料以判定一音訊資料操縱可能性;一互動介面,其用於接收一互動輸入且用於自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料;以及一資料串流產生器,其用於獲得該互動控制資料及該經編碼音訊資料以及該元資料且用於產生一輸出資料串流,該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分,及該互動控制資料。
  2. 如請求項1之音訊資料處理器,其中該經編碼音訊資料包含單獨經編碼音訊物件,其中該元資料之至少一部分與一對應音訊物件有關,其中該元資料剖析器經組配以剖析該等經編碼音訊物件之該對應部分以對於至少一音訊物件判定該物件操縱可能性,其中該互動介面經組配以對於該至少一個經編碼音訊物件自與該至少一個經編碼音訊物件有關之該互動輸入產生該互動控制資料。
  3. 如請求項1或2之音訊資料處理器,其中該互動介面經 組配以向一使用者呈現藉由該元資料剖析器自該元資料導出之該音訊資料操縱可能性,且自該使用者接收關於該資料操縱可能性之特定資料操縱之一使用者輸入。
  4. 如前述請求項中任一項之音訊資料處理器,其中該資料串流產生器經組配以處理包含藉由該接收器介面接收之該經編碼音訊資料及該元資料之一資料串流而不解碼該經編碼音訊資料,或複製該經編碼音訊資料及該元資料之至少一部分而不改變該輸出資料串流,其中該資料串流產生器經組配以將含有該互動控制資料之一額外資料部分添加至該輸出資料串流中之該經編碼音訊資料及/或該元資料。
  5. 如前述請求項中任一項之音訊資料處理器,其中該資料串流產生器經組配以在該輸出資料串流中以與該元資料相同之格式產生該互動控制資料。
  6. 如前述請求項中任一項之音訊資料處理器,其中該資料串流產生器經組配以使該輸出資料串流中之一識別符與該互動控制資料相關聯,該識別符不同於與該元資料相關聯之一識別符。
  7. 如前述請求項中任一項之音訊資料處理器,其中該資料串流產生器經組配以將簽章資料添加至該互動控制資料,該簽章資料指示關於一應用程式、執行一音訊資料操縱或提供該互動輸入之一器件或一 使用者的資訊。
  8. 如前述請求項中任一項之音訊資料處理器,其中該元資料剖析器經組配以識別用於由該經編碼音訊資料表示之一或多個音訊物件之一停用可能性,其中該互動介面經組配用於接收用於該等一或多個音訊物件之一停用資訊,且其中該資料串流產生器經組配用於將該等一或多個音訊物件在該互動控制資料中標記為停用或用於自該經編碼音訊資料移除該等經停用之一或多個音訊物件,以使得該輸出資料串流不包括用於該等經停用之一或多個音訊物件之經編碼音訊資料。
  9. 如前述請求項中任一項之音訊資料處理器,其中該資料串流產生器經組配以動態地產生該輸出資料串流,其中回應於一新互動輸入,該互動控制資料經更新以匹配該新互動輸入,且其中該資料串流產生器經組配以將該經更新互動控制資料包括於該輸出資料串流中。
  10. 如前述請求項中任一項之音訊資料處理器,其中該接收器介面經組配以接收包含該經編碼音訊資料及與該經編碼音訊資料有關的元資料之一主音訊資料串流,且額外接收包含一可選音訊物件之可選音訊資料,其中與該可選音訊物件有關之該元資料含於該主音訊資料串流中。
  11. 如前述請求項中任一項之音訊資料處理器, 其中該元資料剖析器經組配以判定對於不包括於該經編碼音訊資料中之一缺失音訊物件的該音訊操縱可能性,其中該互動介面經組配以接收用於該缺失音訊物件之一互動輸入,且其中該接收器介面經組配以向一音訊資料提供者請求用於該缺失音訊物件之音訊資料或自含於一廣播串流或一網際網路協定連接中之一不同子串流接收用於該缺失音訊物件之該音訊資料。
  12. 如前述請求項中任一項之音訊資料處理器,其中該資料串流產生器經組配以在該輸出資料串流中將另一封包類型指派至該互動控制資料,該另一封包類型不同於該經編碼音訊資料及該元資料之封包類型,或其中該資料串流產生器經組配以將一填充資料封包類型之填充資料添加至該輸出資料串流中,其中填充資料之一量係基於藉由該音訊資料處理器之一輸出介面判定之一資料速率要求而判定。
  13. 如前述請求項中任一項之音訊資料處理器,其實施為一單獨器件,其中該接收器介面形成經由一有線或無線連接至該單獨器件之一輸入,其中該音訊資料處理器進一步包含連接至該資料串流產生器之一輸出介面,該輸出介面經組配用於輸出該輸出資料串流,其中該輸出介面執行該器件之一輸出且包含一無線介面或一有線連接 器。
  14. 一種用於處理音訊資料之方法,該方法包含:接收經編碼音訊資料及與該經編碼音訊資料有關之元資料;剖析該元資料以判定一音訊資料操縱可能性;接收一互動輸入且自該互動輸入產生與該音訊資料操縱可能性有關之互動控制資料;以及獲得該互動控制資料及該經編碼音訊資料以及該元資料且產生一輸出資料串流,該輸出資料串流包含該經編碼音訊資料、該元資料之至少一部分,及該互動控制資料。
  15. 一種電腦程式,其用於在於一電腦或一處理器上執行時執行如請求項14之處理音訊資料之方法。
TW104116674A 2014-05-28 2015-05-25 資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術 TWI587283B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP14170416 2014-05-28
PCT/EP2015/056768 WO2015180866A1 (en) 2014-05-28 2015-03-27 Data processor and transport of user control data to audio decoders and renderers

Publications (2)

Publication Number Publication Date
TW201610983A true TW201610983A (zh) 2016-03-16
TWI587283B TWI587283B (zh) 2017-06-11

Family

ID=50884250

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104116674A TWI587283B (zh) 2014-05-28 2015-05-25 資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術

Country Status (19)

Country Link
US (5) US10674228B2 (zh)
EP (4) EP3800898B1 (zh)
JP (1) JP6371416B2 (zh)
KR (1) KR101967810B1 (zh)
CN (2) CN106537929B (zh)
AR (6) AR100623A1 (zh)
AU (1) AU2015266343B2 (zh)
BR (1) BR112016027639B1 (zh)
CA (1) CA2950197C (zh)
ES (3) ES2883498T3 (zh)
MX (1) MX359385B (zh)
MY (1) MY174199A (zh)
PL (3) PL3522554T3 (zh)
PT (2) PT3522554T (zh)
RU (1) RU2653858C1 (zh)
SG (1) SG11201609920SA (zh)
TW (1) TWI587283B (zh)
WO (1) WO2015180866A1 (zh)
ZA (1) ZA201608160B (zh)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1805891B1 (en) 2004-10-26 2012-05-16 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
EP2850612B1 (en) 2012-05-18 2019-04-10 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
EP2946469B1 (en) 2013-01-21 2017-03-15 Dolby Laboratories Licensing Corporation System and method for optimizing loudness and dynamic range across different playback devices
KR102158002B1 (ko) 2013-01-21 2020-09-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
WO2014128275A1 (en) 2013-02-21 2014-08-28 Dolby International Ab Methods for parametric multi-channel encoding
CN107093991B (zh) 2013-03-26 2020-10-09 杜比实验室特许公司 基于目标响度的响度归一化方法和设备
US9635417B2 (en) 2013-04-05 2017-04-25 Dolby Laboratories Licensing Corporation Acquisition, recovery, and matching of unique information from file-based media for automated file detection
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
CN105531759B (zh) 2013-09-12 2019-11-26 杜比实验室特许公司 用于下混合音频内容的响度调整
EP3044876B1 (en) 2013-09-12 2019-04-10 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
CN110808723B (zh) 2014-05-26 2024-09-17 杜比实验室特许公司 音频信号响度控制
EP3799044B1 (en) * 2014-09-04 2023-12-20 Sony Group Corporation Transmission device, transmission method, reception device and reception method
CN106716524B (zh) * 2014-09-30 2021-10-22 索尼公司 发送装置、发送方法、接收装置和接收方法
CN107112023B (zh) 2014-10-10 2020-10-30 杜比实验室特许公司 基于发送无关的表示的节目响度
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
EP3258467B1 (en) * 2015-02-10 2019-09-18 Sony Corporation Transmission and reception of audio streams
US10271094B2 (en) * 2015-02-13 2019-04-23 Samsung Electronics Co., Ltd. Method and device for transmitting/receiving media data
JPWO2016194563A1 (ja) 2015-06-02 2018-03-22 ソニー株式会社 送信装置、送信方法、メディア処理装置、メディア処理方法および受信装置
CA2956136C (en) * 2015-06-17 2022-04-05 Sony Corporation Transmitting device, transmitting method, receiving device, and receiving method
US10027994B2 (en) * 2016-03-23 2018-07-17 Dts, Inc. Interactive audio metadata handling
US10492016B2 (en) * 2016-09-29 2019-11-26 Lg Electronics Inc. Method for outputting audio signal using user position information in audio decoder and apparatus for outputting audio signal using same
WO2018130577A1 (en) 2017-01-10 2018-07-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, audio encoder, method for providing a decoded audio signal, method for providing an encoded audio signal, audio stream, audio stream provider and computer program using a stream identifier
US11595774B2 (en) 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
EP3677037A1 (en) 2017-08-28 2020-07-08 Dolby Laboratories Licensing Corporation Media-aware navigation metadata
CN108122558B (zh) * 2017-12-22 2020-12-29 深圳国微技术有限公司 一种latm aac音频流的实时转容实现方法及装置
CN115691519A (zh) * 2018-02-22 2023-02-03 杜比国际公司 用于处理嵌入在mpeg-h 3d音频流中的辅媒体流的方法及设备
US11435977B2 (en) 2018-04-20 2022-09-06 Lg Electronics Inc. Method for transmitting and receiving audio data related to transition effect and device therefor
CN108521584B (zh) * 2018-04-20 2020-08-28 广州虎牙信息科技有限公司 互动信息处理方法、装置、主播侧设备和介质
EP3769510A1 (en) 2018-05-07 2021-01-27 Apple Inc. User interfaces for viewing live video feeds and recorded video
JP7455812B2 (ja) 2018-08-21 2024-03-26 ドルビー・インターナショナル・アーベー 即時再生フレーム(ipf)の生成、輸送及び処理のための方法、装置及びシステム
EP3938962A1 (en) * 2019-03-15 2022-01-19 Dolby International AB Method and apparatus for updating a neural network
US11622219B2 (en) * 2019-07-24 2023-04-04 Nokia Technologies Oy Apparatus, a method and a computer program for delivering audio scene entities
CN110413253A (zh) * 2019-08-02 2019-11-05 北京清流鼎点科技有限公司 音频设备控制方法和装置、音频设备及存储介质
EP4014506B1 (en) 2019-08-15 2023-01-11 Dolby International AB Methods and devices for generation and processing of modified audio bitstreams
US12205607B2 (en) 2019-08-15 2025-01-21 Dolby Laboratories Licensing Corporation Methods and devices for generation and processing of modified bitstreams
KR102253524B1 (ko) * 2019-09-02 2021-05-20 네이버 주식회사 라우드니스 정규화 방법 및 시스템
US11838578B2 (en) * 2019-11-20 2023-12-05 Dolby International Ab Methods and devices for personalizing audio content
CN114115787B (zh) * 2020-09-01 2024-10-18 瑞昱半导体股份有限公司 用于音频传输界面上进行数据传输的信号传输方法与装置
CN116195261A (zh) 2020-09-05 2023-05-30 苹果公司 用于管理媒体项目的音频的用户界面
CN114650456B (zh) * 2020-12-17 2023-07-25 深圳Tcl新技术有限公司 一种音频描述符的配置方法、系统、存储介质及配置设备
KR20230021508A (ko) * 2021-08-05 2023-02-14 삼성전자주식회사 전자 장치 및 전자 장치의 멀티미디어 재생 방법
EP4322536A4 (en) 2021-08-05 2024-10-09 Samsung Electronics Co., Ltd. Electronic device and method for multimedia playback in electronic device
CN118786678A (zh) * 2021-12-30 2024-10-15 弗劳恩霍夫应用研究促进协会 通过社交媒体元数据的多设备和多用户个性化及交互音频
US11785285B1 (en) * 2022-05-20 2023-10-10 Lenbrook Industries Limited Audio video receiver (AVR) architecture

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6642966B1 (en) * 2000-11-06 2003-11-04 Tektronix, Inc. Subliminally embedded keys in video for synchronization
US7546173B2 (en) 2003-08-18 2009-06-09 Nice Systems, Ltd. Apparatus and method for audio content analysis, marking and summing
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
JP4229058B2 (ja) * 2004-12-10 2009-02-25 ヤマハ株式会社 端末装置および記録媒体
RU2393556C2 (ru) * 2005-01-28 2010-06-27 Панасоник Корпорейшн Носитель записи, устройство воспроизведения и способы записи и воспроизведения
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
TW200638335A (en) * 2005-04-13 2006-11-01 Dolby Lab Licensing Corp Audio metadata verification
KR100749503B1 (ko) * 2005-08-29 2007-08-14 엠텍비젼 주식회사 프로세서와 오디오 입출력 제어기가 데이터 메모리를공유하는 방법 및 이를 위한 장치
FR2910586B1 (fr) * 2006-12-22 2009-02-06 Vernet Sa Vanne thermostatique de regulation d'un fluide, circuit de liquide de refroidissement incorporant une telle vanne et procede de fabrication d'une telle vanne.
US8175289B2 (en) * 2008-03-13 2012-05-08 Gordon Raymond L Digital audio distribution network
EP2146522A1 (en) 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP5698156B2 (ja) * 2009-06-09 2015-04-08 トムソン ライセンシングThomson Licensing 復号装置、復号方法、および編集装置
MY153337A (en) * 2009-10-20 2015-01-29 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of a downmix signal representation,apparatus for providing a bitstream representing a multi-channel audio signal,methods,computer program and bitstream using a distortion control signaling
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US9258665B2 (en) * 2011-01-14 2016-02-09 Echostar Technologies L.L.C. Apparatus, systems and methods for controllable sound regions in a media room
CA3104225C (en) 2011-07-01 2021-10-12 Dolby Laboratories Licensing Corporation System and tools for enhanced 3d audio authoring and rendering
CN103946919B (zh) * 2011-11-22 2016-11-09 杜比实验室特许公司 用于产生音频元数据质量分数的方法和系统
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
JP6015085B2 (ja) * 2012-04-13 2016-10-26 船井電機株式会社 音声信号出力機器
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
CN104604257B (zh) * 2012-08-31 2016-05-25 杜比实验室特许公司 用于在各种收听环境中渲染并且回放基于对象的音频的系统
KR102158002B1 (ko) * 2013-01-21 2020-09-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 프로그램 라우드니스 및 경계 메타데이터를 가진 오디오 인코더 및 디코더
MX364331B (es) * 2014-03-18 2019-04-23 Koninklijke Philips Nv Corrientes de datos de artículos de contenido audiovisual.
US9971319B2 (en) * 2014-04-22 2018-05-15 At&T Intellectual Property I, Lp Providing audio and alternate audio simultaneously during a shared multimedia presentation
CN106465036B (zh) * 2014-05-21 2018-10-16 杜比国际公司 配置经由家庭音频回放系统的音频的回放

Also Published As

Publication number Publication date
ES2739886T3 (es) 2020-02-04
CN110177297A (zh) 2019-08-27
EP3149955B1 (en) 2019-05-01
PT3522554T (pt) 2021-01-06
KR20170023870A (ko) 2017-03-06
US20230396856A1 (en) 2023-12-07
CA2950197C (en) 2019-01-15
EP3149955A1 (en) 2017-04-05
AR125776A2 (es) 2023-08-16
EP3800898B1 (en) 2023-07-19
RU2653858C1 (ru) 2018-05-15
MX2016015388A (es) 2017-02-22
ES2883498T3 (es) 2021-12-07
MX359385B (es) 2018-09-25
US20240357212A1 (en) 2024-10-24
KR101967810B1 (ko) 2019-04-11
MY174199A (en) 2020-03-13
AR125774A2 (es) 2023-08-16
US20220286756A1 (en) 2022-09-08
EP3800898C0 (en) 2023-07-19
WO2015180866A1 (en) 2015-12-03
US11381886B2 (en) 2022-07-05
PT3149955T (pt) 2019-08-05
AR125773A2 (es) 2023-08-16
AU2015266343A8 (en) 2017-02-16
PL3800898T3 (pl) 2023-12-27
AR125775A2 (es) 2023-08-16
US20170223429A1 (en) 2017-08-03
BR112016027639B1 (pt) 2023-11-14
BR112016027639A2 (zh) 2017-08-22
PL3522554T3 (pl) 2021-06-14
ES2956362T3 (es) 2023-12-20
CA2950197A1 (en) 2015-12-03
ZA201608160B (en) 2017-08-30
EP3522554B1 (en) 2020-12-02
CN106537929A (zh) 2017-03-22
CN106537929B (zh) 2019-07-09
AU2015266343A1 (en) 2017-01-19
JP6371416B2 (ja) 2018-08-08
AR125772A2 (es) 2023-08-16
SG11201609920SA (en) 2016-12-29
EP4236331A2 (en) 2023-08-30
TWI587283B (zh) 2017-06-11
EP3800898A1 (en) 2021-04-07
US10674228B2 (en) 2020-06-02
AU2015266343B2 (en) 2018-03-15
EP4236331A3 (en) 2023-10-18
EP3522554A1 (en) 2019-08-07
US12035018B2 (en) 2024-07-09
AR100623A1 (es) 2016-10-19
CN110177297B (zh) 2021-12-24
PL3149955T3 (pl) 2019-10-31
US11743553B2 (en) 2023-08-29
JP2017523638A (ja) 2017-08-17
US20200314505A1 (en) 2020-10-01

Similar Documents

Publication Publication Date Title
TWI587283B (zh) 資料處理器以及將使用者控制資料傳輸至音訊解碼器及渲染器之技術
JP6212625B2 (ja) オブジェクト・ベース・オーディオを生成し、対話的にレンダリングする方法およびシステム