[go: up one dir, main page]

TW202242852A - 適應性增益控制 - Google Patents

適應性增益控制 Download PDF

Info

Publication number
TW202242852A
TW202242852A TW111108914A TW111108914A TW202242852A TW 202242852 A TW202242852 A TW 202242852A TW 111108914 A TW111108914 A TW 111108914A TW 111108914 A TW111108914 A TW 111108914A TW 202242852 A TW202242852 A TW 202242852A
Authority
TW
Taiwan
Prior art keywords
gain
frame
downmix
encoded
bits
Prior art date
Application number
TW111108914A
Other languages
English (en)
Inventor
潘吉 塞蒂亞萬
里沙普 塔吉
史蒂芬 布魯恩
Original Assignee
美商杜拜研究特許公司
瑞典商都比國際公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商杜拜研究特許公司, 瑞典商都比國際公司 filed Critical 美商杜拜研究特許公司
Publication of TW202242852A publication Critical patent/TW202242852A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Stereophonic System (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本發明提供一種用於對音訊信號執行增益控制之方法。在一些實施方案中,該方法涉及判定與待編碼之一音訊信號之一當前訊框所相關聯的一或多個降混通道相關聯之降混信號。在一些實施方案中,該方法涉及判定一編碼器是否存在一過載條件。在一些實施方案中,該方法涉及判定一增益參數。在一些實施方案中,該方法涉及基於該增益參數及與該音訊信號之一先前訊框相關聯之一增益參數來判定至少一個增益過渡函數。在一些實施方案中,該方法涉及將該至少一個增益過渡函數應用於該等降混信號之一或多者。在一些實施方案中,該方法涉及結合指示應用於該當前訊框之增益控制之資訊來編碼該等降混信號。

Description

適應性增益控制
本發明係關於用於適應性增益控制之系統、方法及媒體。
增益控制可用於例如將信號衰減至由一核心編解碼器預期之一範圍內。用以判定待應用之一增益之許多增益控制技術需要一延遲及/或取決於應用於先前訊框之增益參數。當在易於出錯(諸如蜂巢式傳輸)及/或需要即時處理(諸如對話)之狀況下利用時,此等增益控制技術會導致問題。
本發明之至少一些態樣可經由方法來實施。一些方法可涉及判定與待編碼之一音訊信號之一當前訊框所相關聯的一或多個降混通道相關聯之降混信號。一些方法可涉及判定待用於編碼該一或多個降混通道之至少一者的該等降混信號之一編碼器是否存在一過載條件。一些方法可涉及回應於判定該過載條件存在,判定該音訊信號之該當前訊框之該一或多個降混通道之該至少一者的一增益參數。一些方法可涉及基於該增益參數及與該音訊信號之一先前訊框相關聯之一增益參數來判定至少一個增益過渡函數。一些方法可涉及將該至少一個增益過渡函數應用於該等降混信號之一或多者。一些方法可涉及結合指示應用於該當前訊框之增益控制之資訊來編碼該等降混信號。
在一些實例中,使用一部分訊框緩衝器來判定該至少一個增益過渡函數。在一些實例中,使用該部分訊框緩衝器判定該至少一個增益過渡函數引入實質上0額外延遲。
在一些實例中,該至少一個增益過渡函數包括一過渡部分及一穩態部分,且其中該過渡部分對應於從與該音訊信號之該先前訊框相關聯之該增益參數至與該音訊信號之該當前訊框相關聯之該增益參數之一過渡。在一些實例中,該過渡部分具有衰落之一過渡類型,其中增益回應於與該先前訊框之該增益參數相關聯之一衰減大於與該當前訊框之該增益參數相關聯之一衰減而在該當前訊框之樣本之一部分上增加。在一些實例中,該過渡部分具有反向衰落之一過渡類型,其中增益回應於與該先前訊框之該增益參數相關聯之一衰減小於與該當前訊框之該增益參數相關聯之一衰減而在該當前訊框之樣本之一部分上減小。在一些實例中,使用一原型函數及一縮放因數來判定該過渡部分,且其中基於與該當前訊框相關聯之該增益參數及與該先前訊框相關聯之該增益參數來判定該縮放因數。在一些實例中,指示應用於該當前訊框之該增益控制之該資訊包括指示該至少一個增益過渡函數之該過渡部分之資訊。
在一些實例中,該至少一個增益過渡函數包括應用於存在該過載條件之全部該一或多個降混通道之一單一增益過渡函數。在一些實例中,該至少一個增益過渡函數包括應用於全部該一或多個降混通道之一單一增益過渡函數,且其中該一或多個降混通道之一子集存在該過載條件。在一些實例中,該至少一個增益過渡函數包括存在該過載條件之該一或多個降混通道之各者的一增益過渡函數。在一些實例中,用於編碼指示應用於該當前訊框之該增益控制之該資訊之一位元數目與存在該過載條件之一降混通道數目實質上線性地縮放。
在一些實例中,一些方法可進一步涉及:判定與待編碼之該音訊信號之一第二訊框所相關聯的該一或多個降混通道相關聯之第二降混信號;針對該第二訊框之該一或多個降混通道之至少一者判定該編碼器是否存在一過載條件;及回應於判定該第二訊框不存在該過載條件,在不應用一非單位增益之情況下編碼該等第二降混信號。在一些實例中,一些方法可進一步涉及設定指示增益控制未應用於該第二訊框之一旗標,其中該旗標包括一個位元。
在一些實例中,一些方法可進一步涉及:判定用於編碼指示應用於該當前訊框之該增益控制之該資訊之一位元數目;及從以下分配該位元數目:1)用於編碼與該當前訊框相關聯之後設資料之位元;及/或2)用於編碼該等降混信號以編碼指示應用於該當前訊框之該增益控制之該資訊之位元。在一些實例中,從用於編碼該等降混信號之位元來分配該位元數目,且其中用於編碼該等降混信號之該等位元以基於與該一或多個降混通道相關聯之空間方向之一順序而減少。
一些方法可涉及在一解碼器處針對一音訊信號之一當前訊框接收該音訊信號之一經編碼訊框。一些方法可涉及解碼該音訊信號之該經編碼訊框以獲得與該音訊信號之該當前訊框相關聯之降混信號及指示由一編碼器應用於該音訊信號之該當前訊框之增益控制之資訊。一些方法可涉及至少部分基於指示應用於該音訊信號之該當前訊框之該增益控制之該資訊來判定待應用於與該音訊信號之該當前訊框相關聯之一或多個降混信號之一反向增益函數。一些方法可涉及將該反向增益函數應用於該一或多個降混信號。一些方法可涉及對該等降混信號進行升混以產生升混信號,包含應用該反向增益函數之該一或多個降混信號,其中該等升混信號適於演現。
在一些實例中,指示應用於該當前訊框之該增益控制之該資訊包括與該音訊信號之該當前訊框相關聯之一增益參數。在一些實例中,至少部分基於該音訊信號之該當前訊框之該增益參數及與該音訊信號之一先前訊框相關聯之一增益參數來判定該反向增益函數。
在一些實例中,該反向增益函數包括一過渡部分及一穩態部分。
在一些實例中,一些方法可進一步涉及:在該解碼器處判定尚未接收到一第二經編碼訊框;由該解碼器重建一替代訊框以取代該第二經編碼訊框;及將應用於該第二經編碼訊框之前的一先前編碼訊框之反向增益參數應用於該替代訊框。在一些實例中,一些方法可進一步涉及:在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框;解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及藉由使用與由該編碼器應用於該第三經編碼訊框之該增益控制相關聯之反向增益參數,使應用於該替代訊框之該等反向增益參數變平滑,來判定待應用於與該第三經編碼訊框相關聯之該等降混信號之反向增益參數。在一些實例中,一些方法可進一步涉及:在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框;解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及判定待應用於與該第三經編碼訊框相關聯之該等降混信號之反向增益參數,使得該等反向增益參數實施增益參數從該第三經編碼訊框之一平滑過渡。在一些實例中,在未接收之該第二經編碼訊框與所接收之該第三經編碼訊框之間存在至少一個中間訊框,且其中在該解碼器處未接收到該至少一個中間訊框。在一些實例中,一些方法可進一步涉及:在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框;解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及至少部分基於應用於在該解碼器處未接收到之該第二經編碼訊框之前的在該解碼器處接收之一訊框之反向增益參數來判定待應用於與該第三經編碼訊框相關聯之該等降混信號之反向增益參數。在一些實例中,一些方法可進一步涉及:在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框;解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及基於指示應用於該第三經編碼訊框之該增益控制之該資訊來重新縮放該解碼器之一內部狀態。
在一些實例中,一些方法可進一步涉及演現該等升混信號以產生經演現音訊資料。在一些實例中,一些方法可進一步涉及使用一擴音器或耳機之一或多者重播該經演現音訊資料。
可由一或多個裝置根據儲存於一或多個非暫時性媒體上之指令(例如,軟體)來執行本文中描述之操作、功能及/或方法之一些或全部。此等非暫時性媒體可包含記憶體裝置(諸如本文中描述之記憶體裝置),包含但不限於隨機存取記憶體(RAM)裝置、唯讀記憶體(ROM)裝置等。因此,本發明中描述之標的物之一些新穎態樣可經由具有儲存於其上之軟體之一或多個非暫時性媒體來實施。
本發明之至少一些態樣可經由一種設備來實施。例如,一或多個裝置可能夠至少部分執行本文中揭示之方法。在一些實施方案中,一種設備係或包含具有一介面系統及一控制系統之一音訊處理系統。控制系統可包含一或多個通用單晶片或多晶片處理器、數位信號處理器(DSP)、特定應用積體電路(ASIC)、場可程式化閘陣列(FPGA)或其他可程式化邏輯裝置、離散閘或電晶體邏輯、離散硬體組件或其等之組合。
在隨附圖式及下文描述中闡述本說明書中描述之標的物之一或多個實施方案之細節。將從描述、圖式及發明申請專利範圍明白其他特徵、態樣及優點。應注意,下圖之相對尺寸可不按比例繪製。
標記及命名
貫穿本發明,包含在發明申請專利範圍中,術語「揚聲器」、「擴音器」及「音訊再現換能器」同義地使用以表示任何發聲換能器或換能器組。一組典型耳機包含兩個揚聲器。一揚聲器可經實施以包含多個換能器,諸如一低音喇叭及一高音喇叭,其可由一單一共同揚聲器饋送或多個揚聲器饋送驅動。在一些實例中,(若干)揚聲器饋送可在耦合至不同換能器之不同電路分支中經受不同處理。
貫穿本發明,包含在發明申請專利範圍中,在廣義上使用「對」一信號或資料執行一操作之表達(諸如濾波、縮放、變換或將增益應用於信號或資料)以表示直接對信號或資料或對信號或資料之一經處理版本執行操作。例如,可對在對其執行操作之前已經歷初步濾波或預處理之一信號版本執行操作。
貫穿本發明,包含在發明申請專利範圍中,表達「系統」在廣義上使用以表示一裝置、系統或子系統。例如,實施一解碼器之一子系統可被稱為一解碼器系統,且包含此一子系統之一系統(例如,回應於多個輸入而產生X個輸出信號之一系統,其中子系統產生M個輸入且從一外部源接收其他X-M個輸入)亦可被稱為一解碼器系統。
貫穿本發明,包含在發明申請專利範圍中,術語「處理器」在廣義上使用以表示可程式化或可以其他方式組態(諸如使用軟體或韌體)以對資料(其可包含音訊或視訊或其他影像資料)執行操作之一系統或裝置。處理器之實例包含一場可程式化閘陣列(或其他可組態積體電路或晶片組)、經程式化及/或以其他方式組態以對音訊或其他聲音資料執行管線處理之一數位信號處理器、一可程式化通用處理器或電腦及一可程式化微處理器晶片或晶片組。
用於基於場景之音訊、立體聲音訊、多通道音訊及/或物件音訊之一些寫碼技術取決於在一降混操作之後對多個分量信號進行寫碼。降混可容許以保留波形之一波形編碼方式對減少數目個音訊分量進行寫碼,且可參數地編碼剩餘分量。在接收器側上,可使用指示參數編碼之參數後設資料來重建剩餘分量。由於僅組件之一子集經波形編碼,且與參數編碼分量相關聯之參數後設資料可關於位元率高效地編碼,所以此一編碼技術可為相對位元率高效的,同時仍容許高品質音訊。
可能出現之一個問題係,由一空間編碼器判定之降混通道可包含具有不適合於由建構一音訊信號位元串流之一核心編解碼器進行後續處理之位準之信號。例如,在一些情況中,一降混信號可具有一如此高位準,使得核心編解碼器過載,儘管原始輸入信號在其分量信號之任何者中未過載。此會導致嚴重失真,諸如在解碼及演現之後的經重建信號中之削波。此會導致最終演現信號中之大量品質損失。一種潛在解決方案可為衰減輸入信號以避免核心編解碼器之過載。然而,此解決方案可具有增加粒狀雜訊之缺點,此係因為用於編碼信號之量化器可不在一最佳範圍內操作。
圖1展示用於對經編碼高階高保真度立體聲響複製(HOA)信號執行增益控制之一習知系統之一示意性方塊圖。圖1中展示之示意圖可用於編碼及解碼MPEG-H信號。MPEG-H係國際標準化組織(ISO)/國際電工技術委員會(IEC)動畫專家組(MPEG)正在開發之一組國際標準。MPEG-H具有各種部分,包含部分3,MPEG-H 3D音訊。應注意,由於MPEG-H音訊係未經設計用於易出錯傳輸環境中之對話應用(諸如蜂巢式通信)之一編解碼器,所以MPEG-H音訊編解碼器無需滿足嚴格寫碼延時要求及/或嚴格傳輸誤差恢復要求。因此,如此應用之增益控制可利用遞迴操作且可引入一延遲,如下文將更詳細論述。
在一編碼器102處,在104處處理一輸入HOA信號。該處理可包含分解,例如,其中產生降混通道。降混通道可包含針對一給定訊框由[-max,max]定界之一組信號。由於一核心編碼器108可在[-1,1)範圍內編碼信號,所以與超過核心編碼器108之範圍之降混通道相關聯之信號之樣本會導致過載。為了避免過載,一增益控制106調整訊框之增益,使得相關聯信號在核心編碼器108之範圍內(例如,在[-1,1)內)。核心編碼器108可被視為產生一經編碼位元串流之編解碼器。由分解/處理區塊104產生之附帶資訊(其可包含與參數編碼通道相關聯之後設資料或類似者)可結合作為核心編碼器108之一輸出產生之信號被編碼於一位元串流中。
由一解碼器112接收經編碼位元串流。解碼器112可提取附帶資訊,且一核心解碼器116可提取降混信號。接著,一反向增益控制區塊120可使由編碼器應用之增益反向。例如,反向增益控制區塊120可放大由編碼器102之增益控制106衰減之信號。接著,可由一HOA重建區塊122重建HOA信號。視情況,可由演現/重播區塊124演現及/或重播HOA信號。演現/重播區塊124可包含例如用於將經重建HOA輸出演現為經演現音訊資料之各種演算法。例如,演現經重建HOA輸出可涉及跨多個揚聲器分佈HOA輸出之一或多個信號以達成一特定感知印象。視情況,演現/重播區塊124可包含用於呈現經演現音訊資料之一或多個擴音器、耳機等。
增益控制106可使用以下技術來實施增益控制。增益控制106可首先判定一訊框中之信號值之一上界。例如,針對MPEG-H音訊信號,該界可表達為一乘積
Figure 02_image001
,其中在MPEG-H標準中指定該乘積。鑑於上界,所需最小衰減可確保經縮放信號樣本由區間[-1,1)定界。換言之,經縮放樣本可在核心編碼器108之範圍內。此可藉由應用增益因數
Figure 02_image003
來判定,其中
Figure 02_image004
。根據定義,e min可為一負數。在一些實施例中,放大率可受限於一最大放大因數
Figure 02_image006
,其中e max係一非負整數。因此,為了執行衰減及放大兩者,可定義一增益因數2 e,其中增益參數e係[e min,e max]之範圍內之一值。因此,表示增益參數e所需之最低位元數目被判定為
Figure 02_image007
Figure 02_image008
如上文描述,一特定通道n及訊框j之一增益因數g n(j)可藉由應用對應於一個HOA區塊之一單訊框延遲且利用以下遞迴操作來判定:
Figure 02_image010
在上文中,g n(j-2)表示應用於訊框(j-2)之一增益因數,且
Figure 02_image012
表示計算訊框j-1之增益因數g n(j-1)所需之增益因數調整。為了判定增益因數調整,使用來自當前訊框j之資訊,其引入一個訊框之一延遲。換言之,使用此技術判定增益因數既引入一單訊框延遲,又需要一遞迴運算。
增益g n(j-2)之知識要求在潛在傳輸誤差之情況中可具有問題,其中在編碼器及解碼器狀態之間可存在一偏差,且因此,可無法由解碼器精確地重建增益。再者,在其中以一隨機位置存取經編碼內容之情況中,諸如除了在檔案之開頭之外,先前訊框資訊可無法被存取。因此,利用遞迴操作及一延遲之習知增益控制之缺點可不適合於在需要低延遲之編解碼器及易出錯環境(諸如用於蜂巢式傳輸之環境)中實施。
本文中揭示用於提供適應性增益控制之技術。具體而言,如本文中描述,可判定具有零延遲之增益參數,此係因為可基於產生供一編解碼器使用之預看樣本來判定增益參數。應注意,編解碼器可為由一感知編碼器使用之編解碼器。再者,可非遞迴地判定經判定增益參數,從而容許在其中可能丟棄訊框之易出錯環境中使用適應性增益控制技術。在下文結合圖2至圖6展示及描述增益參數之判定及相關聯增益過渡函數之應用。
另外,在一些實施方案中,可僅在其中一或多個降混通道與將藉由超過編解碼器之一預期範圍而導致編解碼器之一過載條件之信號相關聯之例項中應用適應性增益控制。如本文中描述,在其中未應用增益控制之例項中,諸如在其中不存在過載條件之例項中,可不針對訊框編碼增益參數。藉由在其中待應用增益控制之例項中選擇性地編碼增益參數,而非針對全部訊框,本文中描述之增益控制技術產生一更位元率高效編碼。增益參數之一更高效編碼容許更多位元用於降混通道之編碼,最終導致更佳音訊品質。在下文結合圖7及圖8展示及描述用於在用於編碼增益資訊之位元、用於編碼後設資料之位元及用於編碼降混通道之位元之間分配位元之技術。
圖2展示根據一些實施例之用於執行低延遲適應性增益控制之一實例系統200之一示意性方塊圖。如繪示,系統200包含一編碼器202及一解碼器212。在編碼器202處,一輸入HOA信號(或一階高保真度立體聲響複製(FOA))信號經受藉由一空間編碼區塊204之處理。針對一N通道輸入,空間編碼區塊204可產生一組M個降混通道。該組降混通道中之降混通道數目可在1至N之一範圍內。例如,針對一FOA輸入,降混通道可包含:一主降混通道W’,其可藉由使用各種混合增益來混合全向輸入信號W與定向輸入信號X、Y及Z而產生;及多至3個殘餘通道X’、Y’及Z’,各對應於無法從主降混信號預測之X、Y及Z信號中之信號分量。在一個實例中,空間編碼區塊204利用空間重建(SPAR)技術。在D. McGrath、S. Bruhn、H. Purnhagen、M. Eckert、J. Torres、S. Brown及D. Darcy之Immersive Audio Coding for Virtual Reality Using a Metadata-assisted Extension of the 3GPP EVS Codec IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2019年,第730頁至第734頁中進一步描述SPAR,其之全部內容以引用的方式併入本文中。在其他實例中,空間編碼區塊204可利用能量壓縮變換之任何其他適合線性預測編解碼器,諸如卡忽南-拉維(Karhunen-Loeve)變換(KLT)或類似者。在一些實施方案中,使用待由一核心編碼器208利用之預看樣本來產生降混通道。在一些實施方案中,空間編碼區塊204可另外產生可由核心編碼器208利用之附帶資訊210。附帶資訊210可包含用於由解碼器212對降混通道進行升混之後設資料。例如,可利用附帶資訊210來重建由空間編碼單元204降混之原始音訊輸入一之表示。
接著,可藉由一適應性增益控制206分析與M個降混通道相關聯之信號。適應性增益控制206可判定與M個降混通道之任何者相關聯之信號是否超過由核心編碼器208預期之範圍,且因此將使核心編碼器208過載。在一些實施例中,在其中適應性增益控制206判定不應用增益之一例項中,諸如回應於判定M個降混通道之信號皆不超過核心編碼器208之一預期範圍,適應性增益控制206可設定指示未應用增益控制之一旗標。該旗標可藉由設定一單一位元之一值來設定。應注意,在一些實施方案中,在其中適應性增益控制206判定不應用增益之例項中,適應性增益控制206可不設定旗標,藉此保留一個位元(例如,與旗標相關聯之位元)。例如,在一些實施方案中,如果一空間後設資料位元串流及/或一核心編碼器位元串流(其可為一感知編碼器位元串流)係自終止的,則可藉由判定位元串流中是否存在任何未讀位元來判定一增益控制旗標之存在。未讀位元可為位元串流中之剩餘位元。接著,可將M個降混通道傳遞至核心編碼器208以結合附帶資訊210在一位元串流中編碼。
相反地,在其中適應性增益控制206判定待應用增益之例項中,適應性增益控制206可判定增益參數,且根據經判定增益參數將(若干)增益應用於M個降混通道。接著,可將應用增益之M個降混通道傳遞至核心編碼器208以結合附帶資訊210在位元串流中編碼。增益參數可被包含於附帶資訊210中,例如,作為指示增益參數之一組位元,如下文更詳細描述。
在一些實施方案中,適應性增益控制206可藉由針對一當前訊框j及M個降混通道之一特定通道判定超出核心編碼器208之預期範圍(例如,將導致一過載條件)之一增益參數e(j)來判定待應用之一增益。在一些實施方案中,增益參數e(j)係當與通道相關聯之信號按基於增益參數判定之一增益因數縮放時導致與通道相關聯之信號在預期範圍內之最小正整數(包含0)。如上文描述,預期範圍可為[01,1]。例如,增益因數可為
Figure 02_image013
。應注意,在一些實施方案中,並非識別導致經縮放通道避免過載條件之增益參數,而是可選擇增益參數,使得當按增益因數縮放時,信號在小於與過載條件相關聯之範圍之一範圍內。換言之,增益參數可經選擇,使得經縮放信號僅避免過載條件,或在小於與過載條件相關聯之範圍之某一預定範圍內,例如,以容許某一餘量。
在一些實施方案中,適應性增益控制206可判定在與一先前訊框(例如,第j-1個訊框)相關聯之一增益參數e(j-1)與當前訊框之增益參數e(j)之間過渡之一增益過渡函數。在一些實施方案中,增益過渡函數可使增益參數跨第j個訊框之樣本從第j-1個訊框處之增益參數(例如,e(j-1))之值平滑地過渡至當前訊框之增益參數(例如,e(j))。因此,增益過渡函數可包含兩個部分:1)一過渡部分,其中增益參數跨過渡部分之樣本從先前訊框之增益參數過渡至當前訊框之增益參數;及2)一穩態部分,其中增益參數針對穩態部分之樣本具有當前訊框之增益參數之值。
在一些實施例中,在其中應用於當前訊框之增益小於應用於先前訊框之增益之一例項中,過渡部分可被稱為具有「衰落」之一過渡類型,此係因為衰減量跨當前訊框之樣本增加。應用於當前訊框之增益小於應用於先前訊框之增益之情況可表示為e(j)>e(j-1)。在一些實施例中,在其中應用於當前訊框之增益大於應用於先前訊框之增益之一例項中,過渡部分可被稱為具有「反向衰落」或「非衰落」之一過渡類型,此係因為衰減量跨當前訊框之樣本減少。應用於當前訊框之增益大於應用於先前訊框之增益之情況可表示為e(j)<e(j-1)。在一些實施例中,在其中應用於當前訊框之增益相同於應用於當前訊框之增益之一例項中,過渡部分可被稱為具有「保持」之一過渡類型,其中過渡部分並非過渡的,而具有相同於穩態部分之值。應用於當前訊框之增益相同於應用於當前訊框之增益之情況可表示為e(j)=e(j-1)。
在一些實施例中,可使用一增益過渡函數之一過渡部分之一原型形狀來判定一增益過渡函數之一過渡部分,其中基於當前訊框之增益參數與先前訊框之增益參數之間之差異來縮放原型形狀。例如,可基於e(j)-e(j-1)來縮放原型形狀。例如,一原型函數p可具有以下性質:1) p(0)=1 (例如,0 dB);及2) p(l end)=0.5 (例如,-6 dB),其中l end表示針對其定義p之最右索引。繼續此實例,利用此一原型函數p之一增益過渡函數可表示為:
Figure 02_image015
在圖3A中展示各自具有擁有「衰落」之一過渡類型之一過渡部分之增益過渡函數之實例。在圖3A中展示之實例中,各增益過渡函數具有在樣本0處開始之一過渡部分,其可對應於當前訊框之開始,具有0 dB之一增益,其中0 dB係先前訊框(例如,第j-1個訊框)之增益參數。在圖3A中展示之實例中,各增益過渡函數之過渡部分在約384個樣本之過程中改變為增益過渡函數之穩態部分。針對圖3A中展示之三個增益過渡函數之各者,穩態部分對應於第j個訊框之一不同增益參數,其中增益相對於先前訊框之增益分別增加6 dB、12 dB及18 dB。換言之,如圖3A中展示,針對三個增益過渡函數,分別地,exp=-[e(j)-e(j-1)]=-1、-2及-3。應注意,針對圖3A中展示之增益過渡函數之各者,過渡部分具有相同長度(例如,約384個樣本)。應注意,穩態部分之長度可對應於與由編解碼器引入之延遲有關之一偏移,例如,在圖3A中展示之實例中為12毫秒。相應地,過渡部分之長度可與偏移之倒數有關。在圖3A中展示之實例中,過渡部分之長度係訊框長度(例如,20毫秒)減去編解碼器延遲(例如,12毫秒)。應注意,編解碼器延遲可為不包含訊框大小延遲之總寫碼器演算法延遲。
另外,應注意,具有「反向衰落」或「非衰落」之一過渡類型之一過渡部分之增益過渡函數可表示為跨圖3A中展示之增益過渡函數之一水平線翻轉之鏡像。藉由實例,水平線可為x軸。
參考回圖2,解碼器212可接收一經編碼位元串流作為一輸入,且可重建HOA信號,例如,用於演現。在一些實施例中,一核心解碼器216接收由編碼器202對其應用增益之M個降混通道,且將M個降混通道提供至一反向增益控制220。反向增益控制220從附帶資訊210獲得由編碼器202應用之增益參數。例如,在一些實施方案中,反向增益控制220可從附帶資訊210擷取由編碼器202應用之增益參數e(j)。另外,反向增益控制區塊220可例如從記憶體擷取由編碼器應用於先前訊框之增益參數,例如,e(j-1)。接著,反向增益控制區塊220可使用所獲得之增益參數使由編碼器202應用之增益反向。例如,在一些實施方案中,反向增益控制220可建構從先前訊框之增益參數過渡至當前訊框之增益參數之一反向增益過渡函數。在一些實施方案中,反向增益過渡函數可為由編碼器202應用之跨一中心垂直線成鏡像且垂直調整之增益過渡函數。藉由實例,垂直線可為y軸。
轉向圖3B,根據一些實施方案展示將由一解碼器回應於由一編碼器應用圖3A中展示之增益過渡函數而應用之一反向增益過渡函數之一實例。如繪示,反向增益過渡函數具有一穩態部分及一過渡部分。反向增益過渡函數之穩態部分及過渡部分之持續時間可對應於(例如,相同於)增益過渡函數之對應穩態部分及過渡部分之持續時間,如圖3A及圖3B中繪示。如繪示,圖3B中展示之各反向增益過渡函數以0 dB開始,且過渡至待應用於當前第j個訊框之反向增益。即,各反向增益過渡函數以0 dB開始,其對應於應用於先前訊框j-1之反向增益。應注意,在由編碼器應用之增益對應於以小於0 dB之一增益(如圖3A之增益過渡函數中展示)指示之一衰減之情況下,由解碼器應用之反向增益對應於具有大於0 dB之一增益之一放大(如圖3B之增益過渡函數中展示)。相反地,在其中由編碼器應用之增益對應於例如具有大於0 dB之一增益之一放大之例項中,由解碼器應用之反向增益對應於例如具有小於0 dB之一增益之一衰減。
參考回圖2,在已應用反向增益之後,將應用反向增益之M個降混通道提供至一空間解碼區塊222。空間解碼區塊222可使用附帶資訊210重建HOA信號。例如,在其中空間編碼區塊204利用SPAR技術進行空間編碼之例項中,空間解碼區塊222可利用SPAR技術來重建使用包含於附帶資訊210中之後設資料編碼之一或多個通道。接著,可由一演現/重播區塊224演現經重建HOA輸出。演現/重播區塊224可包含例如用於將經重建HOA輸出演現為經演現音訊資料之各種演算法。例如,演現經重建HOA輸出可涉及跨多個揚聲器分配HOA輸出之一或多個信號以達成一特定感知印象。視情況,演現/重播區塊224可包含用於呈現經演現音訊資料之一或多個擴音器、耳機等。
在一些實施方案中,一解碼器可利用各種技術從丟棄或丟失訊框恢復,該等訊框可發生在例如蜂巢式傳輸期間或與其他易出錯環境相關。在其中訊框未被丟棄且解碼器可存取結合先前訊框利用之增益參數之例項中,解碼器可基於與先前訊框相關聯之增益參數來判定反向增益過渡函數。然而,在其中一訊框被丟棄之情況中,當處理丟棄訊框之後的第一恢復訊框(本文中通常被稱為一「恢復訊框」)時,解碼器無法存取恢復訊框之前的訊框之增益參數,此係因為先前訊框及相關聯增益參數已丟失。因此,在一些實施方案中,解碼器可使用任何適合訊框丟失隱藏技術針對丟棄訊框重建一替代訊框。接著,解碼器可將先前接收訊框之增益參數用於替代訊框。
圖4展示根據一些實施方案之一系列訊框之編碼器增益及對應解碼器增益之一實例。如繪示,一丟棄訊框402 (在圖4中描繪為一「X」)之前係一所接收訊框401,且之後係一恢復訊框403。編碼器應用編碼器增益G E,如曲線404中展示。具體而言,G E針對所接收訊框401係0 dB,且針對丟棄訊框402及恢復訊框403係-18 dB。如由核心解碼器輸出位準曲線406繪示,使用訊框丟失隱藏技術重建丟棄訊框402以產生一替代訊框。替代訊框可具有對應於先前訊框之解碼器增益(例如,所接收訊框401之增益或0 dB)之一寫碼器解碼器輸出位準,如在408處展示。相應地,如由解碼器增益曲線410繪示,替代訊框具有等效於先前訊框(例如,所接收訊框401)之解碼器增益之一解碼器增益G*,如在412處展示。
一丟棄訊框414可發生一類似程序。在此情況中,丟棄訊框414之編碼器增益G E係0 dB,而先前接收訊框413之編碼器增益係-18 dB。換言之,丟棄訊框414發生在從-18 dB至0 dB之一增益轉變期間。因此,在使用訊框丟失隱藏技術之情況下,核心解碼器輸出位準針對一替代訊框重建-18 dB之一增益。替代訊框之經重建增益對應於先前接收訊框413之-18 dB之編碼器增益,如在416處展示。相應地,替代訊框之解碼器增益可經設定為先前接收訊框413之解碼器增益或18 dB,如在418處展示。應注意,針對其中編碼器增益針對丟棄訊框420及先前訊框419相同之一丟棄訊框420,針對一替代訊框設定對應於丟棄訊框420之解碼器增益不會導致解碼器增益不連續,此係因為先前訊框419與丟棄訊框420之間不存在增益改變。
另外,應注意,如在相對輸出增益曲線422中展示,利用將一替代訊框之一解碼器增益設定為等於先前接收訊框之解碼器增益之一技術會導致0 dB之一總相對輸出增益,從而指示訊框之間不存在波動,此在減少歸因於跨訊框之輸出增益改變之感知不連續性方面可為期望的。
在一些實施方案中,一解碼器可執行一平滑技術以從先前接收訊框之增益參數過渡至恢復訊框之增益參數,例如,跨未接收到增益參數之替代訊框平滑。
在一些實施方案中,平滑技術可涉及解碼器以在融合樣本之一初始部分期間將增加權重給予替代訊框且在融合樣本之一後續部分期間將增加權重給予恢復訊框之一方式融合替代訊框及恢復訊框。
作為另一實例,在一些實施方案中,平滑技術可涉及在解碼恢復訊框之前調整解碼器狀態記憶體以補償丟失訊框之增益。作為一更特定實例,在其中判定恢復訊框之增益過高之一例項中,可向下調整解碼器狀態記憶體,使得使用一適當降低之解碼器狀態記憶體來解碼恢復訊框。換言之,可回應於判定先前訊框之經重建解碼器增益G*小於恢復訊框之解碼器增益G而向下縮放解碼器狀態記憶體。相反地,在其中判定恢復訊框之增益過低之一例項中,可向上調整解碼器狀態記憶體,使得使用一適當增加之解碼器狀態記憶體來解碼恢復訊框。換言之,可回應於判定先前訊框之經重建解碼器增益G*大於恢復訊框之解碼器增益G而向上縮放解碼器狀態記憶體。因此,可基於經重建解碼器增益G*來調整恢復訊框之解碼器增益G。應注意,由於經重建解碼器增益G*可基於在丟棄訊框之前的訊框(例如圖4之訊框401)之增益來判定,所以可至少部分基於在丟棄訊框之前的訊框之解碼器增益來調整恢復訊框之解碼器增益G。
作為又另一實例,在一些實施方案中,平滑技術可涉及在先前接收訊框與恢復訊框之間應用一平滑函數。此一平滑函數可對應於由解碼器實施及利用之一平滑函數,藉此容許在不具有額外附加項之情況下執行平滑。替代地,在一些實施方案中,平滑函數可為在丟棄訊框之情況中利用之一專用平滑函數。在此等實施方案中,平滑功能可取決於封包丟失之一持續時間,該持續時間可以秒、區塊或訊框數目來指示,此在丟棄多個循序訊框之情況中可為有利的。
圖5展示根據一些實施方案之用於判定增益參數且根據經判定增益參數將增益應用於降混信號之一程序500之一實例。在一些實施方案中,程序500之方塊可由一編碼器裝置執行。在一些實施方案中,程序500之方塊可以除圖5中展示之順序之外之一順序來執行。在一些實施方案中,程序500之兩個或更多個方塊可實質上並行執行。在一些實施方案中,可省略程序500之一或多個方塊。
在502處,程序500可判定與待編碼之一音訊信號之一訊框相關聯之降混信號。例如,在一些實施方案中,程序500可使用任何適合空間編碼技術來判定一組降混通道。空間編碼技術之實例包含SPAR、一線性預測技術或類似者。該組降混通道可包含從一個至N個通道之任何者,其中N係輸入通道之數目,例如,在FOA信號之情況中,N係4。降混信號可包含對應於音訊信號之一特定訊框之降混通道之音訊信號。應注意,在一些實施方案中,程序500可判定「傳送信號」,而非判定降混信號。此等傳送信號可指代待編碼之信號,其不一定為降混的。
在504處,程序500可判定一編解碼器(諸如增強型語音服務(EVS)編解碼器及/或任何其他適合編解碼器)是否存在一過載條件。例如,程序500可回應於判定至少一個降混通道之信號超過一預定範圍(例如,[-1,1)及/或任何其他適合範圍)而判定存在一過載條件。
如果在504處判定不存在過載條件(在504處為「否」),則程序500可繼續進行至512,且可編碼降混信號。例如,在一些實施方案中,程序500可產生一位元串流,該位元串流結合可由一解碼器用於對降混信號進行升混(例如,重建一FOA或HOA輸出)之附帶資訊(諸如後設資料)來編碼降混信號。
相反地,如果在504處判定存在一過載條件(在504處為「是」),則程序500可繼續進行至506,且可判定導致避免過載條件之訊框之一增益參數。例如,在一些實施方案中,程序500可藉由判定一最小正整數來判定一增益參數,使得當降混通道之降混信號按基於增益參數判定之一增益因數縮放時,降混信號在預定範圍內,例如,在[-1,1)內。例如,如上文結合圖2描述,增益參數可表示為當前訊框(j)之一正整數(包含0) e(j),其中將一增益因數2 -e(j)應用於降混信號導致降混信號在預定範圍內。
在508處,程序500可基於在方塊506處判定之當前訊框(例如,訊框j)之增益參數及先前訊框(例如,訊框j-1)之一增益參數來判定一增益過渡函數。例如,如上文結合圖2描述,增益過渡函數可具有一過渡部分及一穩態部分,其中穩態部分對應於當前訊框之增益因數,且過渡部分對應於當前訊框之一樣本子集之一序列中間增益因數,其等從先前訊框之末尾處之增益因數過渡至當前訊框之穩態部分之增益因數。
在其中先前訊框之增益參數對應於小於當前訊框之增益參數之衰減之例項中,過渡部分可被稱為具有「衰落」之一過渡類型。相反地,在其中先前訊框之增益參數對應於大於當前訊框之增益參數之衰減之例項中,過渡部分可被稱為具有「反向衰落」或「非衰落」之一過渡類型。在其中先前訊框之增益參數相同於當前訊框之增益參數之例項中,過渡部分可被稱為具有「保持」之一過渡類型。在其中過渡部分具有「保持」之一過渡類型之例項中,過渡部分期間之增益過渡函數之值可相同於穩態部分期間之增益過渡函數之值。在一些實施方案中,可藉由基於先前及/或當前訊框之增益參數縮放一原型函數來判定增益過渡函數之一過渡部分。如上文結合圖2描述,增益過渡函數之過渡部分之持續時間可對應於由編解碼器利用之一延遲持續時間。
在510處,程序500可將增益過渡函數應用於與訊框相關聯之降混信號。例如,在一些實施方案中,程序500可使降混信號之樣本按由增益過渡函數指示之增益因數縮放。作為一更特定實例,在一些實施方案中,當前訊框之一第一樣本可按對應於先前訊框之增益參數之一增益因數縮放,當前訊框之一最後樣本可按對應於當前訊框之增益參數之一增益因數縮放,且中間樣本可按對應於增益過渡函數之過渡或穩態部分之增益參數之一增益因數縮放。應注意,在其中將程序500應用於傳送信號之例項中,例如,如上文結合方塊502描述,程序500可將增益過渡函數應用於傳送信號。
應注意,在一些實施方案中,增益過渡函數可僅應用於在方塊504處偵測到過載條件之降混通道之降混信號。例如,在其中針對Y’通道及X’通道偵測到一過載條件之一例項中,可針對Y’通道及X’通道之各者判定單獨增益過渡函數,且將其等應用於Y’通道及X’通道之信號。繼續此實例,增益過渡函數可未應用於W’及Z’通道。在此等例項中,例如,在方塊512處,可編碼應用增益過渡函數之通道之指示以及各通道之對應增益參數。替代地,在一些實施方案中,在其中僅一個降混通道存在一過載條件之例項中,對應增益過渡函數可應用於全部降混通道。在此等例項中,由於增益過渡函數應用於全部通道,所以無需傳輸已應用增益之通道之指示,此會導致增加位元率效率。
在512處,程序500可編碼降混信號,且如果應用增益,則編碼指示該訊框之(若干)增益參數之資訊。在其中應用增益之例項中,經編碼降混信號可為在方塊510處應用增益過渡函數之後的降混信號。降混信號及指示增益參數之任何資訊可由一編解碼器(諸如EVS編解碼器或類似者)結合可由一解碼器用於重建或對降混信號進行升混之任何附帶資訊(諸如後設資料)進行編碼。應注意,在其中程序500利用傳送信號之例項中,例如,如上文結合方塊502描述,程序500可編碼傳送信號。
應注意,在一些實施方案中,程序500可將增益參數編碼於一組位元中。在一些實施方案中,一額外位元可用作一異常旗標,例如,以指示過渡函數。在一些實施方案中,增益過渡函數可指示與增益過渡函數之過渡部分相關聯之一原型函數。在一些實施方案中,增益過渡函數可指示一硬過渡,例如,一階梯函數,其發生在其中訊框之間發生突然且相對大之位準改變且因此無法藉由增益控制來實施一平滑過渡之例項中。藉由使用異常旗標設定此一異常,一解碼器可實施硬過渡。可使用x個位元編碼一增益參數,其中x取決於一當前訊框之增益參數之量化值之一數目,例如,e(j)之量化值之一數目。例如,x可由ceil(log 2(增益參數之量化值之數目)來判定。在一個實例中,在其中e(j)可採取0、1、2及3之值之一例項中,x係2個位元。
在其中每通道啟用適應性增益控制以使得將唯一增益過渡函數應用於與觸發一過載條件之信號相關聯之各降混通道之例項中,可將x個位元用於啟用增益控制之各通道,其中每通道之額外一個位元指示符指示增益參數已被編碼。在此一例項中,用於傳輸增益控制資訊之一總位元數目為N dmx+(x+1)*N,其中N dmx表示降混通道之數目(且其中針對N dmx個通道之各者,一單一位元用於指示是否啟用增益控制),且其中N表示已啟用增益控制之通道之數目。應注意,在其中未針對一特定訊框啟用增益控制之例項中,N dmx個位元可用於指示未啟用增益控制,例如,N dmx個通道各使用1個位元。應注意,在其中降混通道之數目為1之例項中,例如,僅W個通道經波形編碼,用於傳輸增益控制資訊之總位元數目由(x+1)*N表示。例如,在給定一個降混通道之情況下,如果未針對該一個降混通道啟用增益控制(例如,N=0),則所使用之位元數目為0。繼續此實例,如果啟用增益控制(例如,N=1),則所使用之位元數目為x+1。應注意,在項「x+1」中,1表示1位元異常旗標(例如,其可用於指示將實施硬過渡(諸如一階梯函數)以在連續訊框之間過渡,如下文更詳細描述)。
在其中將與觸發一過載條件之一降混通道相關聯之一單一增益過渡函數應用於全部降混通道之例項中,可使用較少位元來傳輸增益控制資訊。例如,使用x個位元結合指示例如過渡函數之一異常旗標來傳輸當前訊框之一單一增益參數。作為一更特定實例,在此等實施方案中,用於使一訊框傳輸增益控制資訊之總位元數目由x+1表示。
在一些實施方案中,程序500可從通常分配以傳輸附帶資訊(諸如用於重建HOA信號之後設資料)之位元及/或從通常分配以編碼降混通道之位元來分配用於傳輸訊框之增益控制資訊之位元。在下文結合圖7及圖8展示及描述用於分配增益控制位元之實例技術。
圖6展示根據一些實施方案之用於獲得由一編碼器利用之增益參數且基於經獲得增益參數應用一反向增益過渡函數之一程序600之一實例。在一些實施方案中,程序600之方塊可由一解碼器裝置執行。在一些實施方案中,程序600之方塊可以除圖6中展示之順序之外之一順序來執行。在一些實施方案中,程序600之兩個或更多個方塊可實質上並行執行。在一些實施方案中,可省略程序600之一或多個方塊。
程序600可在602處開始於接收一音訊信號之一經編碼訊框。所接收訊框(例如,當前訊框)在本文中通常被稱為第j個訊框。所接收訊框可緊接在一先前接收訊框之後,或可為不緊接在一先前接收訊框之後的一訊框。
在604處,程序600可解碼音訊信號之經編碼訊框以獲得降混信號及(如果由編碼器應用增益控制)指示與該訊框相關聯之至少一個增益參數之資訊。在一些實施方案中,程序600可基於一異常旗標(例如,一位元異常旗標)來判定是否由編碼器應用增益控制,該異常旗標指示是否待實施一硬過渡(例如,一階梯函數過渡)。換言之,在其中未設定異常旗標之例項中,解碼器可判定將在連續訊框之間執行一平滑過渡。在其中編碼器以每通道基礎應用增益控制之例項中,程序600可另外識別增益控制被應用於哪些降混通道。
在606處,程序600可基於當前訊框之增益參數(在本文中通常被稱為e(j))及先前訊框之一增益參數(例如,在本文中通常被稱為e(j-1))來判定一反向增益過渡函數。在一些實施方案中,程序600可從記憶體(例如,從解碼器狀態記憶體)擷取先前訊框之增益參數。在其中增益控制未應用於先前訊框之例項中,程序600可將e(j-1)設定為0。
在一些實施方案中,程序600可將反向增益過渡函數判定為在編碼器處應用之增益過渡函數之逆。例如,反向增益過渡函數可對應於跨一水平線成鏡像且調整之增益過渡函數。鏡像及調整可沿著x軸。在上文結合圖3B展示及描述此一反向增益過渡函數之一實例。在一些實施方案中,反向增益過渡函數可具有對應於應用於先前訊框之增益之一穩態部分(其中增益基於先前訊框之增益參數來判定,或在其中增益控制未應用於先前訊框之例項中設定為0)。接著,反向增益過渡函數可具有一過渡部分,該過渡部分係在編碼器處應用之增益過渡函數之過渡部分之逆。例如,在其中應用於當前訊框之增益對應於相對於先前訊框之更多衰減之一例項中,反向增益過渡函數可具有從較小放大過渡至較大放大之一過渡部分。相反地,在其中應用於當前訊框之增益對應於相對於先前訊框之較少衰減之一例項中,反向增益過渡函數可具有從較大放大過渡至較小放大之一過渡部分。過渡部分之一持續時間可與由編解碼器引入之延遲有關,其中過渡部分之持續時間係訊框長度(例如,20毫秒)減去編解碼器延遲(例如,12毫秒)。應注意,在其中由編解碼器引入之延遲長於一訊框長度之例項中,可以一個訊框之一延遲應用反向增益過渡。在一些例項中,可藉由程序600 (例如,藉由解碼器)從增益控制位元獲得延遲。應注意,反向增益過渡函數亦可用於衰減由編碼器之增益控制放大之信號。
在608處,程序600可將反向增益過渡函數應用於降混信號以使由編碼器應用之增益反向。例如,反向增益過渡函數之應用會導致由編碼器衰減之降混信號被放大以使衰減反向。作為另一實例,反向增益過渡函數之應用會導致由編碼器放大之降混信號被衰減以使放大反向。
在610處,程序600可對降混信號進行升混。升混可由一空間編碼器執行。在一些實例中,空間編碼器可利用SPAR技術。升混信號可對應於一經重建FOA或HOA音訊信號。在一些實施方案中,程序600可使用編碼於位元串流中之附帶資訊(例如,後設資料)對信號進行升混,其中附帶資訊可用於重建參數編碼信號。
在一些實施方案中,在612處,程序600可演現升混信號以產生經演現音訊資料。在一些實施方案中,程序600可利用任何適合演現演算法來演現一FOA或HOA音訊信號,例如,演現基於場景之音訊資料。在一些實施方案中,經演現音訊資料可以任何適合格式儲存,例如,用於未來演現或重播。應注意,在一些實施方案中,可省略方塊612。
在一些實施方案中,在614處,程序600會導致經演現音訊資料被重播。例如,在一些實施方案中,可經由擴音器及/或耳機之一或多者來呈現經演現音訊資料。在一些實施方案中,可利用多個擴音器,且多個擴音器可在三個維度中相對於彼此定位於任何適合位置或定向上。應注意,在一些實施方案中,可省略程序614。
如上文結合圖5描述,可使用一組增益控制位元來編碼增益控制資訊(例如,指示增益參數之資訊)。在一些實施方案中,可針對偵測到一過載條件之各降混通道判定不同增益參數及增益過渡函數。在此等實施方案中,需要增益控制位元來指示是否將增益控制應用於降混通道之各者,且針對應用增益控制之降混通道之各者編碼增益參數,如上文結合圖5描述。替代地,在一些實施方案中,基於存在一過載條件之一個降混通道判定之一單一增益過渡函數可應用於全部降混通道。在此等實施方案中,需要較少增益控制位元,此係因為無需一單獨位元旗標來表示是否已將增益控制應用於各降混通道,因此導致一更位元率高效編碼。
藉由將相同增益過渡函數應用於全部降混通道(包含不存在過載條件之降混通道),一更位元率高效編碼可藉由例如衰減不存在編解碼器之過載之信號而導致感知品質之降級。相比之下,利用一更針對性增益控制(其中增益控制以一針對性方式應用於各降混通道)可需要更多位元來傳輸增益控制資訊。然而,利用額外位元來傳輸針對性(例如,通道特定)增益控制資訊可需要重新分配通常用於對降混通道進行波形編碼之位元,此在一些情況中可降低感知品質。因此,在將相同增益過渡函數應用於全部降混通道與應用通道特定增益控制之間可存在一狀況相依權衡。無論增益控制是否應用於全部降混通道或基於一針對性每通道,與增益控制資訊相關聯之位元可從通常將用於對降混通道進行波形編碼之位元及/或從通常將用於編碼用於從降混通道重建一FOA或HOA信號之附帶資訊(諸如後設資料)之位元來分配,藉此減少用於編碼降混通道或附帶資訊之可用位元之數目。
下文描述用於編碼增益控制資訊之位元分佈之更詳細技術。為了提供背景,圖7A描述用於使用利用上文結合圖2至圖6描述之適應性增益控制技術之SPAR技術編碼及解碼音訊信號之一FOA編解碼器。應注意,儘管圖7A描述利用SPAR技術進行空間編碼,然結合圖7A及圖8描述之技術可結合任何適合空間編碼技術使用。圖8展示根據一些實施例之用於分配用於編碼增益控制資訊之位元之一實例程序800之一流程圖。
圖7A係根據一些實施方案之用於以SPAR格式編碼及解碼FOA之一FOA編解碼器700之一方塊圖。FOA編解碼器700包含SPAR編碼器701、核心編碼器705、適應性增益控制(AGC)編碼器713、SPAR解碼器706、核心解碼器707及AGC解碼器714。在一些實施方案中,SPAR編碼器701將一FOA輸入信號轉換為用於在SPAR解碼器706處再生輸入信號之一組降混通道及參數。降混信號可在1至4個通道之間變化,且參數可包含預測係數(PR)、交叉預測係數(C)及解相關係數(P)。下文進一步詳細描述用於利用SPAR以使用PR、C及P參數從音訊信號之一降混版本重建一音訊信號之更詳細技術。
應注意,圖7A中展示之實例實施方案繪示一標稱2通道降混,其中W (被動預測)或W’ (主動預測)通道與一單一預測通道Y’一起發送至SPAR解碼器706。在一些實施方案中,W’可為一主動通道。可藉由基於混合增益將X、Y及Z通道混合至W通道中來建構一主動W’降混通道。在一個實例中,可使用以下來判定W通道之一主動預測:
Figure 02_image017
在上文中,f表示容許將X、Y、Z通道之一些混合至W通道中之正規化輸入協方差之一函數,且
Figure 02_image019
Figure 02_image021
Figure 02_image023
表示預測係數。在一些實施方案中,f亦可為一常數,例如,0.50。在被動W中,f=0,且因此不存在X、Y、Z通道至W通道中之混合。
在至少一個通道作為一殘餘通道發送且至少一個通道參數地發送之情況中(即,針對2及3通道降混),交叉預測係數(C)容許從殘餘通道重建參數通道之一些部分。針對雙通道降混(如下文進一步詳細描述),C係數容許從Y’重建X及Z通道之一些,且藉由W通道之解相關版本重建無法從PR及C參數重建之剩餘信號分量,如下文進一步詳細描述。在3通道降混情況中,Y’及X’單獨用於重建Z。
在一些實施方案中,SPAR編碼器701包含被動/主動預測器單元702、重混單元703及提取/降混選擇單元704。在一些實施方案中,被動/主動預測器可接收4通道B格式(W、Y、Z、X)之FOA通道,且可計算降混通道(W (或W’)、Y’、Z’、X’之表示)。
在一些實施方案中,提取/降混選擇單元704從位元串流(例如,一沉浸式語音及服務(IVAS)位元串流)之一後設資料酬載區段提取SPAR FOA後設資料,如下文更詳細描述。被動/主動預測器單元702及重混單元703使用SPAR FOA後設資料來產生經重混FOA通道(W或W’及A’),該等通道被輸入至核心編碼器705中以編碼為一核心編碼位元串流(例如,一EVS位元串流),該位元串流經囊封於發送至SPAR解碼器706之IVAS位元串流中。應注意,在此實例中,高保真度立體聲響複製B格式通道以AmbiX慣例配置。然而,亦可使用其他慣例,諸如菲爾斯-馬勒姆(Furse-Malham) (FuMa)慣例(W、X、Y、Z)。
參考SPAR解碼器706,核心編碼位元串流(例如,一EVS位元串流)由核心解碼器707解碼,從而導致N dmx(例如,N dmx=2)個降混通道。在一些實施方案中,SPAR解碼器706執行與由SPAR編碼器701執行之操作相反之操作。例如,在圖7A之實例中,使用SPAR FOA空間後設資料從2個降混通道恢復經重混FOA通道(W’、A’、B’、C’之表示)。經重混SPAR FOA通道被輸入至反向混合器711中以恢復SPAR FOA降混通道(W’、Y’、Z’、X’之表示)。接著,將經預測SPAR FOA通道輸入至反向預測器712中以恢復原始未混合SPAR FOA通道(W、Y、Z、X)。
應注意,在此雙通道實例中,解相關器區塊709A (dec 1)及709B (dec 2)用於使用一時域或頻域解相關器產生W’通道之解相關版本。降混通道及解相關通道與SPAR FOA後設資料組合使用以參數地重建X及Z通道。C區塊708表示殘餘通道與2x1 C係數矩陣相乘,從而產生兩個交叉預測信號,該等信號經加總至參數重建通道中,如圖7A中展示。P 1區塊710A及P 2區塊710B表示解相關器輸出與2x2 P係數矩陣之行相乘,從而產生四個輸出,該等輸出經加總至參數重建通道中,如圖7A中展示。
在一些實施方案中,取決於降混通道之數目,FOA輸入之一者被完整地發送至SPAR解碼器706 (W通道),且其他通道(Y、Z及/或X)之一者至三者作為殘餘通道或完全參數地發送至SPAR解碼器706。PR係數(無論降混通道之數目N dmx如何,其保持不變)用於最小化殘餘降混通道中之可預測能量。C係數用於進一步幫助從殘餘通道再生完全參數化通道。因而,在單通道及四通道降混情況中無需C係數,其中不存在殘餘通道或參數化通道可供預測。P係數用於填充未由PR及C係數補償之剩餘能量。P係數之數目取決於一頻帶中之降混通道之數目N。在一些實施方案中,使用以下四個步驟判定SPAR PR係數(僅被動W)。
步驟1:可從可表示全向信號之主W信號預測側信號(例如,Y、Z、X)。在一些實施方案中,基於與對應預測通道相關聯之預測參數來預測側信號。在一個實例中,可使用以下來判定側信號Y、Z及X:
Figure 02_image025
在上文中,可基於協方差矩陣來判定各通道之預測參數。在一個實例中:
Figure 02_image027
在上文中,R AB表示信號A及B之輸入協方差矩陣之元素。在一些實施方案中,可根據頻帶來判定協方差矩陣。應注意,可以一類似方式分別針對Z’及X’殘餘通道判定預測參數pr z及pr x。應注意,如本文中使用,向量PR表示預測係數之向量。例如,可將向量PR判定為[pr y,pr z,pr x] T
步驟2:可重混W通道及經預測Y’、Z’及X’信號。如本文中使用,重混可指代基於一準則重新排序或重新組合信號。例如,在一些實施方案中,W通道及經預測Y’、Z’及X’信號可從最聲學相關至最不聲學相關進行重混。作為一更特定實例,在一些實施方案中,可藉由將輸入信號重新排序為W、Y’、X’及Z’來重混信號,此係因為來自左右方向之音訊線索(例如,Y’信號)可比來自前後方向之音訊線索(例如,X’信號)更聲學相關,且來自前後方向之音訊線索繼而可比來自上下方向之音訊線索(例如,Z’信號)更聲學相關。一般言之,可使用以下來判定經重混信號:
Figure 02_image029
在上文中,[remix]表示指示用於重新排序信號之準則之一矩陣。
步驟3:可判定降混通道之4通道後預測及重混之協方差。例如,可藉由以下來判定4通道後預測及重混後之一協方差矩陣R pr
Figure 02_image031
在使用上文之情況下,協方差矩陣R pr可具有以下格式:
Figure 02_image033
在上文中,d表示殘餘通道(例如,如果降混通道之數目由N dmx表示,殘餘通道係第二通道至第N dmx個通道),且u表示待由解碼器完全重建之參數通道(例如,第N dmx+1個通道至第四通道)。鑑於W、A、B及C通道之一命名慣例,其中A、B及C對應於經重混X、Y及/或Z通道,下表繪示針對N dmx之不同值之d及u通道。
N dmx d u
1 ---- A’、B’、C’
2 A’ B’、C’
3 A’、B’ C’
4 A’、B’、C’ ----
在一些實施方案中,在利用R pr協方差矩陣(上文描述)之R dd、R ud及R uu元素之情況下,FOA編解碼器可判定是否可從傳輸至解碼器之剩餘通道交叉預測全參數通道之一部分。例如,在一些實施方案中,可基於協方差矩陣之R dd、R ud及R uu元素來判定交叉預測係數C。在一個實例中,可藉由以下來判定交叉預測係數C:
Figure 02_image035
應注意,C針對一3通道降混可具有形狀(1x2),且針對一2通道降混可具有形狀(2x1)。
步驟4:可判定將由解相關器709A及709B重建之參數化通道中之剩餘能量。在一些實施例中,剩餘能量可由一矩陣P表示。由於P可為一協方差矩陣,且因此厄米(Hermetian)對稱的,所以在一些實施方案中,僅來自矩陣P之上三角形或下三角形之元素被發送至解碼器。矩陣P之對角元素可為實數,而非對角元素可為複數。在一些實施方案中,由矩陣P表示之剩餘能量可基於升混通道中之殘餘能量Res uu來判定。在一個實例中,P可藉由以下來判定:
Figure 02_image037
在另一實例中,僅對角元素可用於計算P參數,其中每頻帶發送至解碼器之P參數之數目等於待在解碼器處參數地重建之通道之數目。此處,P可藉由以下來判定:
Figure 02_image039
,其中
Figure 02_image041
在上文中,scale表示一正規化縮放因數。在一些實施方案中,scale可為一寬頻值。在一個實例中,scale=0.01。替代地,在一些實施方案中,scale可為頻率相依的。在一些此等實施方案中,scale可在不同頻帶中採取不同值。在一個實例中,頻譜可被劃分為12個頻帶,且scale可由例如線性等分向量(0.5、0.01、12)判定。
在一些實施方案中,升混通道中之殘餘能量Res uu可基於實際能量後預測(例如,R uu)及一經再生交叉預測能量Reg uu來判定。在一個實例中,升混通道中之殘餘能量可為實際能量後預測與經再生交叉預測能量Reg uu之間之差異。在一個實例中,Res uu=R uu–Reg uu。在一些實施方案中,經再生交叉預測能量Reg uu可基於交叉預測係數及預測協方差矩陣來判定。例如,在一些實施方案中,Reg uu可藉由以下來判定:
Figure 02_image043
參考回圖7A,在一些實施方案中,將與降混通道相關聯之信號(例如,W’、Y’、X’及/或Z’)提供至AGC編碼器713。接著,AGC編碼器713可回應於判定降混通道之至少一者存在一過載條件而例如使用上文結合圖2及圖5描述之技術來判定增益參數。增益參數及與PR、C及/或P矩陣相關聯之資訊可被編碼為附帶資訊,諸如後設資料。
圖7B係根據一實施例之用於編碼及解碼IVAS位元串流之IVAS編解碼器750之一方塊圖。IVAS編解碼器750包含一編碼器及遠端解碼器。IVAS編碼器包含空間分析及降混單元752、量化及熵寫碼單元753、AGC增益控制單元762、核心編碼單元756及模式/位元率控制單元757。IVAS解碼器包含量化及熵解碼單元754、核心解碼單元758、反向增益控制單元763、空間合成/演現單元759及解相關器單元761。
空間分析及降混單元752接收表示一音訊場景之N通道輸入音訊信號751。輸入音訊信號751包含但不限於:單聲道信號、立體聲信號、雙耳信號、空間音訊信號(例如,多通道空間音訊物件)、FOA、高階高保真度立體聲響複製(HOA)及任何其他音訊資料。藉由空間分析及降混單元752將N通道輸入音訊信號751降混至指定數目個降混通道(N dmx)。在此實例中,N dmx<=N。空間分析及降混單元752亦產生可由一遠端IVAS解碼器用於合成來自N dmx個降混通道之N通道輸入音訊信號751、空間後設資料及在解碼器處產生之解相關信號之附帶資訊(例如,空間後設資料)。在一些實施例中,空間分析及降混單元752實施用於對立體聲/FOA音訊信號進行分析/降混之複雜進階耦合(CACPL)及/或用於對FOA音訊信號進行分析/降混之空間重建器(SPAR)。在其他實施例中,空間分析及降混單元752實施其他格式。
N dmx個降混通道可包含針對一給定訊框由[-max,max]定界之一組信號。由於一核心編碼器756可在[-1,1)範圍內編碼信號,所以與超過核心編碼器756之範圍之降混通道相關聯之信號之樣本會導致過載。為了使降混通道位於所要範圍內,將N dmx個通道饋送至增益控制單元762,該增益控制單元762動態地調整訊框之增益,使得降混通道在核心編碼器之範圍內。將增益調整資訊(AGC後設資料)發送至對AGC後設資料進行寫碼之一量化及寫碼單元753。
經增益調整之N dmx個通道由包含於核心編碼單元756中之核心編解碼器之一或多個例項進行寫碼。藉由量化及熵寫碼單元753對附帶資訊(例如,空間後設資料(MD))以及AGC後設資料進行量化及寫碼。接著,將經寫碼位元共同封裝至(若干) IVAS位元串流中且發送至IVAS解碼器。在一實施例中,底層核心編解碼器可為可用於產生經編碼位元串流之任何適合單聲道、立體聲或多通道編解碼器。
在一些實施例中,核心編解碼器係一EVS編解碼器。EVS編碼單元756遵守3GPP TS 26.445且提供一廣泛範圍之功能性,諸如窄頻(EVS-NB)及寬頻(EVS-WB)語音服務之增強品質及寫碼效率、使用超寬頻(EVS-SWB)語音之增強品質、對話應用中之混合內容及音樂之增強品質、對封包丟失及延遲抖動之穩健性及對AMR-WB編解碼器之回溯相容性。
在解碼器處,N dmx個通道由包含於核心解碼單元758中之核心編解碼器之對應一或多個例項來解碼,且包含AGC後設資料之附帶資訊由量化及熵解碼單元754來解碼。將一主降混通道(諸如呈一FOA信號格式之W通道)饋送至解相關器單元761,該解相關器單元761產生N至N dmx個解相關通道。將N dmx個降混通道及AGC後設資料饋送至反向增益控制區塊763,該反向增益控制區塊763撤銷由增益控制單元762進行之增益調整。將經反向增益調整之N dmx個降混通道、N至N dmx個解相關通道及附帶資訊饋送至空間合成/演現單元759,該空間合成/演現單元759使用此等輸入來合成或再生可由音訊裝置760呈現之原始N通道輸入音訊信號。在一實施例中,N dmx個通道由除EVS之外之單聲道編解碼器來解碼。在其他實施例中,N dmx個通道由一或多個多通道核心寫碼單元及一或多個單通道核心寫碼單元之一組合來解碼。
在一些實施方案中,FOA編解碼器可在用於編碼空間後設資料(例如,用於重建參數編碼通道,諸如SPAR中之PR、C及P參數)之位元與用於編碼降混通道之位元之間分配或分佈用於增益控制之位元。一般言之,用於編碼後設資料之位元數目在本文中通常被稱為MD bits,且用於編碼降混通道之位元在本文中通常被稱為EVS bits,其中EVS係用於編碼降混通道之感知編解碼器。應注意,儘管下文給出之實例指代使用EVS編解碼器作為編解碼器,然下文描述之技術可應用於任何其他適合編解碼器。在一些實施方案中,FOA編解碼器可藉由以下來分配用於增益控制之位元:1)判定用於編碼增益資訊之位元數目;2)判定用於編碼後設資料之一位元數目(例如,判定MD bits);3)判定用於編碼降混通道之一位元數目(例如,判定EVS bits);及4)從後設資料位元及/或EVS bits分配增益控制位元,使得相對於其中未應用增益控制(且因此,未編碼增益控制資訊)之例項,使用較少位元來編碼後設資料及/或降混通道。
圖8係根據一些實施方案之用於分配增益控制位元之一實例程序800之一流程圖。在一些實施方案中,程序800可由一編碼器裝置執行。在一些實施方案中,程序800之方塊可以除圖8中展示之順序之外之一順序來執行。在一些實施方案中,程序800之兩個或更多個方塊可實質上並行執行。在一些實施方案中,可省略程序800之一或多個方塊。
在802處,程序800可判定待用於編碼增益控制資訊之一位元數目。用於編碼一增益參數之位元數目在本文中通常表示為x。如上文結合圖5描述,在一些實施方案中,在其中將一共同增益過渡函數應用於全部降混通道之例項中,用於編碼增益控制資訊之位元數目可表示為x+1,其中x個位元用於編碼增益參數資訊,且其中一單一位元用於指示過渡函數。替代地,如上文結合圖5描述,在其中將增益過渡函數單獨應用於存在一過載條件之各降混通道之例項中,用於編碼增益控制資訊之位元數目可取決於降混通道數目(例如,N dmx)及存在一過載條件(且因此,應用增益控制)之降混通道數目N。在此等例項中,用於編碼增益控制資訊之位元數目可由N dmx+(x+1)*N表示,其中針對各降混通道使用一單一位元來指示是否已應用增益控制,且其中針對已應用增益控制之各降混通道使用一異常旗標來指示過渡函數。應注意,在其中降混通道數目為1之例項中(例如,利用一單一W通道),用於編碼增益控制資訊之位元數目可表示為1+(x+1)*N。
在804處,程序800可判定待用於編碼後設資料資訊之一位元數目,例如可由一解碼器用於重建參數編碼通道之後設資料,本文中通常被稱為MD bits。在一些實施方案中,MD bits可經判定,使得MD bits係待用於編碼後設資料之一目標位元數目(本文中通常被稱為MD tar)與可用於編碼後設資料之一最大位元數目(本文中通常被稱為MD max)之間之一值。在一些實施方案中,可基於待用於編碼降混通道之一目標位元數目(本文中通常被稱為EVS tar)來判定MD tar,且可基於待用於編碼降混通道之一最小位元數目(本文中通常被稱為EVS min)來判定MD max。在一個實例中:
Figure 02_image045
在上文中,IVAS bits表示可用於編碼與IVAS編解碼器相關聯之資訊之一位元數目,且header bits表示用於編碼一位元串流標頭之一位元數目。在一些實施方案中,MD bits可小於或等於MD max。換言之,用於編碼後設資料之位元數目可為容許使用足夠數目個位元編碼降混通道以保持音訊品質之一位元數目。
在一些實施方案中,可使用一反覆程序來判定MD bits。此一反覆程序之一實例如下:
步驟1:在輸入音訊信號之每訊框基礎上,後設資料參數可例如以一非時間差分方式量化且例如使用一算術寫碼器寫碼。如果位元數目MD bits小於後設資料位元之目標數目(例如,MD tar),反覆程序可退出,且後設資料位元可經編碼至位元串流中。可由核心編碼器(例如,EVS編解碼器)利用任何額外位元(例如,MD tar-MD bits)來編碼降混通道,藉此增加經編碼降混音訊通道之位元率。如果MD bits大於目標位元數目,則反覆程序可繼續進行至步驟2。
步驟2:與訊框相關聯之後設資料參數之一子集可經量化且從先前訊框之量化後設資料參數值中減去,且可編碼差分量化參數值(例如,使用時間差分寫碼)。如果MD bits之更新值小於MD tar,則反覆程序可退出,且後設資料位元可經編碼至位元串流中。可由核心編碼器(例如,EVS編解碼器)利用任何額外位元(例如,MD tar-MD bits)。如果MD bits大於目標位元數目,則反覆程序可繼續進行至步驟3。
步驟3:可在無熵之情況下量化後設資料參數時判定MD bits。比較來自步驟1、2及3之MD bits之值與可用於編碼後設資料之最大位元數目(例如,MD max)。如果來自步驟1、2及3之MD bits之最小值小於MD max,則反覆程序退出,且可使用MD bits之最小值將後設資料編碼至位元串流中。可從待用於編碼降混通道之位元來分配用於編碼後設資料之超過後設資料位元之目標數目之位元(例如,MD bits-MD tar)。然而,如果在步驟3,來自步驟1、2及3之MD bits之最小值超過MD max,則反覆程序繼續進行至步驟4:
步驟4:可對後設資料參數進行更粗略量化,且可根據上文步驟1至3來分析與更粗略量化之參數相關聯之位元數目。如果更粗略量化之後設資料參數仍不滿足後設資料位元數目MD bits小於用於編碼後設資料之最大分配位元數目之準則,則利用保證在最大分配位元數目內對後設資料參數進行量化之一量化方案。
參考回圖8,在方塊806處,程序800可判定用於編碼降混通道之一位元數目,本文中通常被稱為EVS bits。如上文結合方塊804描述,在一些實施方案中,待用於編碼降混通道之位元數目可取決於用於編碼後設資料之位元數目。例如,在其中使用較少位元來編碼後設資料參數之例項中,可使用更多位元來編碼降混通道。相反地,在其中使用較多位元來編碼後設資料參數之例項中,可使用更少位元來編碼降混通道。在一個實例中,EVS bits可藉由以下來判定:
Figure 02_image047
在一些實施方案中,如果可用於編碼降混通道之位元數目(例如,EVS bits)小於待用於編碼降混通道之目標位元數目(本文中通常被稱為EVS tar),則可跨不同降混通道重新分配位元。在一些實施方案中,可基於聲學顯著性或聲學重要性從通道重新分配位元。例如,在一些實施方案中,可以Z’、X’、Y’及W’之順序從通道取得位元,此係因為對應於上下方向(例如,Z’通道)之音訊信號可比其他方向(例如,前後或X’通道,或左右或Y’通道)更不聲學相關。
相反地,在一些實施方案中,如果可用於編碼降混通道之位元數目(例如,EVS bits)大於目標位元數目EVS tar,則可將額外位元分佈至降混通道。在一些實施方案中,額外位元之分佈可根據各種降混通道聲學重要性。在一個實例中,可以W’、Y’、X’及Z’之順序分佈額外位元,使得額外位元優先分配給全向通道。
在808處,程序800可判定增益控制位元、後設資料位元及/或降混通道位元之間之一位元分配。換言之,程序800可判定用以減少後設資料位元(例如,MD bits)及/或降混通道位元(例如,EVS bits)之位元數目,以便使用在方塊802中判定之增益控制位元數目來編碼增益控制資訊。
在一些實施方案中,程序800可分配用於編碼降混通道之位元以編碼增益控制資訊。例如,在一些實施方案中,程序800可使EVS bits減少待用於編碼增益控制資訊之位元數目。在一些此等實施方案中,用於編碼降混通道之位元可經分配以依基於降混通道之聲學重要性或相關性之一順序編碼增益控制資訊。在一個實例中,可以Z’、X’、Y’及W’之順序從降混通道取得位元。在一些實施方案中,可從一單一降混通道利用之最大位元數目可對應於待用於編碼降混通道之目標位元數目與待用於編碼該通道之最小位元數目之間之差異。在一些實施方案中,如果從經分配以編碼降混通道之位元中不存在可用於編碼增益控制資訊之位元,則程序800可調整一或多個降混通道之一位元率(例如,降低一位元率)以釋放位元來編碼增益控制資訊。在一個實例中,如果針對全部降混通道將EVS bits設定為待用於編碼該降混通道之最小位元數目,則程序800可降低位元率。替代地,在一些實施方案中,程序800可從待用於編碼後設資料參數之位元來分配用以編碼增益控制資訊之位元。
應注意,在一些實施方案中,程序800可使用經分配以編碼降混通道之位元及經分配以編碼後設資料參數之位元來分配待用於編碼增益控制資訊之位元。例如,在一些實施方案中,鑑於編碼增益控制資訊所需之AGC bits,程序800可從最初分配以編碼後設資料參數之位元來分配m個位元,例如,如在方塊804中判定,且從最初分配以編碼降混通道之位元來分配AGC bits-m個位元,如在方塊806中判定。
接著,程序800可繼續進行至輸入音訊信號之下一訊框。
圖9繪示根據一實施例之一IVAS系統900之實例使用案例。在一些實施例中,各種裝置透過呼叫伺服器902通信,該呼叫伺服器902經組態以從例如由公用交換電話網路(PSTN)/其他公用陸地行動網路裝置(PLMN) 904繪示之一PSTN或一PLMN接收音訊信號。使用案例支援僅以單聲道演現及捕獲音訊之傳統裝置906,包含但不限於:支援增強語音服務(EVS)、多速率寬頻(AMR-WB)及適應性多速率窄頻(AMR-NB)之裝置。使用案例亦支援捕獲及演現立體聲音訊信號之使用者設備(UE) 908及/或914,或將單聲道信號捕獲及雙耳演現為多通道信號之UE 910。使用案例亦支援分別由視訊會議室系統916及/或918捕獲及演現之沉浸式及立體聲信號。使用案例亦支援用於家庭影院系統920之立體聲音訊信號之立體聲捕獲及沉浸式演現,及用於虛擬實境(VR)裝置922及沉浸式內容攝取924之音訊信號之單聲道捕獲及沉浸式演現之電腦912。
圖10係展示能夠實施本發明之各種態樣之一設備之組件之實例之一方塊圖。正如本文中提供之其他圖,圖10中展示之元件之類型及數目僅藉由實例來提供。其他實施方案可包含更多、更少及/或不同類型及數目之元件。根據一些實例,設備1000可經組態用於執行本文中揭示之至少一些方法。在一些實施方案中,設備1000可為或可包含一電視機、一音訊系統之一或多個組件、一行動裝置(諸如一蜂巢式電話)、一膝上型電腦、一平板裝置、一智慧型揚聲器或另一類型之裝置。
根據一些替代實施方案,設備1000可為或可包含一伺服器。在一些此等實例中,設備1000可為或可包含一編碼器。因此,在一些例項中,設備1000可為經組態以在一音訊環境(諸如一家庭音訊環境)中使用之一裝置,而在其他例項中,設備1000可為經組態以在「雲端」中使用之一裝置,例如,一伺服器。
在此實例中,設備1000包含一介面系統1005及一控制系統1010。在一些實施方案中,介面系統1005可經組態用於與一音訊環境之一或多個其他裝置通信。在一些實例中,音訊環境可為一家庭音訊環境。在其他實例中,音訊環境可為另一類型之環境,諸如一辦公室環境、一汽車環境、一火車環境、一街道或人行道環境、一公園環境等。在一些實施方案中,介面系統1005可經組態用於與音訊環境之音訊裝置交換控制資訊及相關聯資料。在一些實例中,控制資訊及相關聯資料可涉及設備1000正在執行之一或多個軟體應用程式。
在一些實施方案中,介面系統1005可經組態用於接收或提供一內容串流。內容串流可包含音訊資料。音訊資料可包含但不限於音訊信號。在一些例項中,音訊資料可包含空間資料,諸如通道資料及/或空間後設資料。在一些實例中,內容串流可包含視訊資料及對應於視訊資料之音訊資料。
介面系統1005可包含一或多個網路介面及/或一或多個外部裝置介面,諸如一或多個通用串列匯流排(USB)介面。根據一些實施方案,介面系統1005可包含一或多個無線介面。介面系統1005可包含用於實施一使用者介面之一或多個裝置,諸如一或多個麥克風、一或多個揚聲器、一顯示系統、一觸控感測器系統及/或一手勢感測器系統。在一些實例中,介面系統1005可包含控制系統1010與一記憶體系統之間之一或多個介面,諸如圖10中展示之選用記憶體系統1015。然而,在一些例項中,控制系統1010可包含一記憶體系統。在一些實施方案中,介面系統1005可經組態用於從一環境中之一或多個麥克風接收輸入。
控制系統1010可例如包含一通用單晶片或多晶片處理器、一數位信號處理器(DSP)、一特定應用積體電路(ASIC)、一場可程式化閘陣列(FPGA)或其他可程式化邏輯裝置、離散閘或電晶體邏輯及/或離散硬體組件。
在一些實施方案中,控制系統1010可駐留於多於一個裝置中。例如,在一些實施方案中,控制系統1010之一部分可駐留於本文中描繪之環境之一者內之一裝置中,且控制系統1010之另一部分可駐留於環境外部之一裝置中,諸如一伺服器、一行動裝置(例如,一智慧型電話或一平板電腦)等。在其他實例中,控制系統1010之一部分可駐留於一個環境內之一裝置中,且控制系統1010之另一部分可駐留於該環境之一或多個其他裝置中。例如,控制系統1010之一部分可駐留於實施一基於雲端之服務之一裝置中,諸如一伺服器,且控制系統1010之另一部分可駐留於實施基於雲端之服務之另一裝置中,諸如另一伺服器、一記憶體裝置等。在一些實例中,介面系統1005亦可駐留於多於一個裝置中。
在一些實施方案中,控制系統1010可經組態用於至少部分執行本文中揭示之方法。根據一些實例,控制系統1010可經組態用於實施判定增益參數、應用增益過渡函數、判定反向增益過渡函數、應用反向增益過渡函數、相對於一位元串流分佈用於增益控制之位元或類似者之方法。
可由一或多個裝置根據儲存於一或多個非暫時性媒體上之指令(例如,軟體)來執行本文中描述之一些或全部方法。此等非暫時性媒體可包含記憶體裝置,諸如本文中描述之記憶體裝置,包含但不限於隨機存取記憶體(RAM)裝置、唯讀記憶體(ROM)裝置等。一或多個非暫時性媒體可例如駐留於圖10中展示之選用記憶體系統1015及/或控制系統1010中。因此,本發明中描述之標的物之各種新穎態樣可在具有儲存於其上之軟體之一或多個非暫時性媒體中實施。該軟體可例如包含用於判定增益參數、應用增益過渡函數、判定反向增益過渡函數、應用反向增益過渡函數、相對於一位元串流分佈用於增益控制之位元等之指令。該軟體可例如由一控制系統(諸如圖10之控制系統1010)之一或多個組件執行。
在一些實例中,設備1000可包含圖10中展示之選用麥克風系統1020。選用麥克風系統1020可包含一或多個麥克風。在一些實施方案中,麥克風之一或多者可為另一裝置之部分或與另一裝置相關聯,諸如揚聲器系統之一揚聲器、一智慧型音訊裝置等。在一些實例中,設備1000可不包含一麥克風系統1020。然而,在一些此等實施方案中,設備1000仍可經組態以經由介面系統1010接收一音訊環境中之一或多個麥克風之麥克風資料。在一些此等實施方案中,設備1000之一基於雲端之實施方案可經組態以經由介面系統1010從一音訊環境中之一或多個麥克風接收麥克風資料或至少部分對應於麥克風資料之一雜訊度量。
根據一些實施方案,設備1000可包含圖10中展示之選用擴音器系統1025。選用擴音器系統1025可包含一或多個擴音器,其或其等在本文中亦可被稱為「揚聲器」或更一般言之稱為「音訊再現換能器」。在一些實例中,例如,基於雲端之實施方案,設備1000可不包含一擴音器系統1025。在一些實施方案中,設備1000可包含耳機。耳機可經由一耳機插孔或經由一無線連接(例如,藍牙)連接或耦合至設備1000。
本發明之一些態樣包含經組態(例如,程式化)以執行所揭示方法之一或多個實例之一系統或裝置及儲存用於實施所揭示方法或其步驟之一或多個實例之程式碼之一有形電腦可讀媒體(例如,一磁碟)。例如,一些所揭示系統可為或包含一可程式化通用處理器、數位信號處理器或微處理器,其經程式化具有軟體或韌體及/或以其他方式組態以對資料執行各種操作之任何者,包含所揭示方法或其步驟之一實施例。此一通用處理器可為或包含含有一輸入裝置、一記憶體及一處理子系統之一電腦系統,該處理子系統經程式化(及/或以其他方式組態)以回應於所確認資料執行所揭示方法(或其步驟)之一或多個實例。
一些實施例可被實施為一可組態(例如,可程式化)數位信號處理器(DSP),其經組態(例如,程式化或以其他方式組態)以對(若干)音訊信號執行所需處理,包含執行所揭示方法之一或多個實例。替代地,所揭示系統(或其元件)之實施例可被實施為一通用處理器,例如,一個人電腦(PC)或其他電腦系統或微處理器,其可包含一輸入裝置及一記憶體,該記憶體經程式化具有軟體或韌體及/或以其他方式組態以執行包含所揭示方法之一或多個實例之各種操作之任何者。替代地,發明系統之一些實施例之元件被實施為經組態(例如,程式化)以執行所揭示方法之一或多個實例之一通用處理器或DSP,且該系統亦包含其他元件。其他元件可包含一或多個擴音器及/或一或多個麥克風。經組態以執行所揭示方法之一或多個實例之一通用處理器可經耦合至一輸入裝置。輸入裝置之實例包含例如一滑鼠及/或一鍵盤。通用處理器可經耦合至一記憶體、一顯示裝置等。
本發明之另一態樣係一種電腦可讀媒體,諸如一磁碟或其他有形儲存媒體,其儲存用於執行(例如,可由一寫碼器執行以執行)所揭示方法或其步驟之一或多個實例之程式碼。
雖然本文中已描述本發明之特定實施例及本發明之應用,但一般技術者將明白,在不脫離本文中描述及主張之本發明之範疇之情況下,對本文中描述之實施例及應用之許多變動係可能的。應理解,雖然已展示及描述本發明之某些形式,但本發明不限於所描述及展示之特定實施例或所描述之特定方法。
102:編碼器 104:分解/處理區塊 106:增益控制 108:核心編碼器 112:解碼器 116:核心解碼器 120:反向增益控制區塊 122:高保真度立體聲響複製(HOA)重建區塊 124:演現/重播區塊 200:系統 202:編碼器 204:空間編碼區塊 206:適應性增益控制 208:核心編碼器 210:附帶資訊 212:解碼器 216:核心解碼器 220:反向增益控制 222:空間解碼區塊 224:演現/重播區塊 401:所接收訊框 402:丟棄訊框 403:恢復訊框 404:曲線 406:核心解碼器輸出位準曲線 408:寫碼器解碼器輸出位準 410:解碼器增益曲線 412:解碼器增益G* 413:先前接收訊框 414:丟棄訊框 416:編碼器增益 418:解碼器增益 419:先前訊框 420:丟棄訊框 422:相對輸出增益曲線 500:程序 502:方塊 504:方塊 506:方塊 508:方塊 510:方塊 512:方塊 600:程序 602:方塊 604:方塊 606:方塊 608:方塊 610:方塊 612:方塊 614:程序 700:一階高保真度立體聲響複製(FOA)編解碼器 701:空間重建(SPAR)編碼器 702:被動/主動預測器單元 703:重混單元 704:提取/降混選擇單元 705:核心編碼器 713:適應性增益控制(AGC)編碼器 706:空間重建(SPAR)解碼器 707:核心解碼器 708:C區塊 709A:解相關器區塊(dec 1) 709B:解相關器區塊(dec 2) 710A:P 1區塊 710B:P 2區塊 711:反向混合器 712:反向預測器 714:適應性增益控制(AGC)解碼器 750:沉浸式語音及服務(IVAS)編解碼器 751:N通道輸入音訊信號 752:空間分析及降混單元 753:量化及熵寫碼單元 754:量化及熵解碼單元 756:核心編碼單元 757:模式/位元率控制單元 758:核心解碼單元 759:空間合成/演現單元 760:音訊裝置 761:解相關器單元 762:適應性增益控制(AGC)增益控制單元 763:反向增益控制單元 800:程序 802:方塊 804:方塊 806:方塊 808:方塊
圖1係根據一些實施例之用於提供音訊信號之增益控制之一系統之一示意性方塊圖。
圖2係根據一些實施例之用於實施適應性增益控制之一系統之一示意性方塊圖。
圖3A及圖3B分別展示根據一些實施例之可由一編碼器實施之增益函數及可由一解碼器實施之反向增益函數之實例。
圖4展示根據一些實施例之可由一解碼器回應於丟棄訊框而應用之反向增益之實例圖。
圖5係根據一些實施例之可由一編碼器執行以實施適應性增益控制之一實例程序之一流程圖。
圖6係根據一些實施例之可由一解碼器執行以實施適應性增益控制之一實例程序之一流程圖。
圖7A係根據一些實施例之利用空間重建編碼技術之一編碼器及解碼器之一實例示意圖。
圖7B係根據一些實施例之利用適應性增益控制之一實例多通道編解碼器之一方塊圖。
圖8係根據一些實施例之在實施適應性增益控制時進行位元分佈之一實例程序之一流程圖。
圖9繪示根據一些實施例之一沉浸式語音及服務(IVAS)系統之實例使用案例。
圖10展示繪示能夠實施本發明之各種態樣之一設備之組件之實例之一方塊圖。
在各個圖式中,相同元件符號及名稱指示相同元件。
200:系統
202:編碼器
204:空間編碼區塊
206:適應性增益控制
208:核心編碼器
210:附帶資訊
212:解碼器
216:核心解碼器
220:反向增益控制
222:空間解碼區塊
224:演現/重播區塊

Claims (30)

  1. 一種用於對音訊信號執行增益控制之方法,該方法包括: 判定與待編碼之一音訊信號之一當前訊框所相關聯的一或多個降混通道相關聯之降混信號; 判定待用於編碼該一或多個降混通道之至少一者的該等降混信號之一編碼器是否存在一過載條件; 回應於判定該過載條件存在,判定該音訊信號之該當前訊框之該一或多個降混通道之該至少一者的一增益參數; 基於該增益參數及與該音訊信號之一先前訊框相關聯之一增益參數來判定至少一個增益過渡函數; 將該至少一個增益過渡函數應用於該等降混信號之一或多者;及 結合指示應用於該當前訊框之增益控制之資訊來編碼該等降混信號。
  2. 如請求項1之方法,其中使用一部分訊框緩衝器來判定該至少一個增益過渡函數。
  3. 如請求項2之方法,其中使用該部分訊框緩衝器判定該至少一個增益過渡函數引入實質上0額外延遲。
  4. 如請求項1至3中任一項之方法,其中該至少一個增益過渡函數包括一過渡部分及一穩態部分,且其中該過渡部分對應於從與該音訊信號之該先前訊框相關聯之該增益參數至與該音訊信號之該當前訊框相關聯之該增益參數之一過渡。
  5. 如請求項4之方法,其中該過渡部分具有衰落之一過渡類型,其中增益回應於與該先前訊框之該增益參數相關聯之一衰減大於與該當前訊框之該增益參數相關聯之一衰減而在該當前訊框之樣本之一部分上增加。
  6. 如請求項4之方法,其中該過渡部分具有反向衰落之一過渡類型,其中增益回應於與該先前訊框之該增益參數相關聯之一衰減小於與該當前訊框之該增益參數相關聯之一衰減而在該當前訊框之樣本之一部分上減小。
  7. 如請求項4之方法,其中使用一原型函數及一縮放因數來判定該過渡部分,且其中基於與該當前訊框相關聯之該增益參數及與該先前訊框相關聯之該增益參數來判定該縮放因數。
  8. 如請求項4之方法,其中指示應用於該當前訊框之該增益控制之該資訊包括指示該至少一個增益過渡函數之該過渡部分之資訊。
  9. 如請求項1至3中任一項之方法,其中該至少一個增益過渡函數包括應用於存在該過載條件之全部該一或多個降混通道之一單一增益過渡函數。
  10. 如請求項1至3中任一項之方法,其中該至少一個增益過渡函數包括應用於全部該一或多個降混通道之一單一增益過渡函數,且其中該一或多個降混通道之一子集存在該過載條件。
  11. 如請求項1至3中任一項之方法,其中該至少一個增益過渡函數包括存在該過載條件之該一或多個降混通道之各者的一增益過渡函數。
  12. 如請求項11之方法,其中用於編碼指示應用於該當前訊框之該增益控制之該資訊之一位元數目與存在該過載條件之一降混通道數目實質上線性地縮放。
  13. 如請求項1至3中任一項之方法,其進一步包括: 判定與待編碼之該音訊信號之一第二訊框所相關聯的該一或多個降混通道相關聯之第二降混信號; 針對該第二訊框之該一或多個降混通道之至少一者判定該編碼器是否存在一過載條件;及 回應於判定該第二訊框不存在該過載條件,在不應用一非單位增益之情況下編碼該等第二降混信號。
  14. 如請求項13之方法,其進一步包括設定指示增益控制未應用於該第二訊框之一旗標,其中該旗標包括一個位元。
  15. 如請求項1至3中任一項之方法,其進一步包括: 判定用於編碼指示應用於該當前訊框之該增益控制之該資訊之一位元數目;及 從以下分配該位元數目:1)用於編碼與該當前訊框相關聯之後設資料之位元;及/或2)用於編碼該等降混信號以編碼指示應用於該當前訊框之該增益控制之該資訊之位元。
  16. 如請求項15之方法,其中從用於編碼該等降混信號之位元來分配該位元數目,且其中用於編碼該等降混信號之該等位元以基於與該一或多個降混通道相關聯之空間方向之一順序而減少。
  17. 一種用於對音訊信號執行增益控制之方法,該方法包括: 在一解碼器處針對一音訊信號之一當前訊框接收該音訊信號之一經編碼訊框; 解碼該音訊信號之該經編碼訊框以獲得與該音訊信號之該當前訊框相關聯之降混信號及指示由一編碼器應用於該音訊信號之該當前訊框之增益控制之資訊; 至少部分基於指示應用於該音訊信號之該當前訊框之該增益控制之該資訊來判定待應用於與該音訊信號之該當前訊框相關聯之一或多個降混信號之一反向增益函數;及 將該反向增益函數應用於該一或多個降混信號;及 對該等降混信號進行升混以產生升混信號,包含應用該反向增益函數之該一或多個降混信號,其中該等升混信號適於演現。
  18. 如請求項17之方法,其中指示應用於該當前訊框之該增益控制之該資訊包括與該音訊信號之該當前訊框相關聯之一增益參數。
  19. 如請求項18之方法,其中至少部分基於該音訊信號之該當前訊框之該增益參數及與該音訊信號之一先前訊框相關聯之一增益參數來判定該反向增益函數。
  20. 如請求項17至19中任一項之方法,其中該反向增益函數包括一過渡部分及一穩態部分。
  21. 如請求項17至19中任一項之方法,其進一步包括: 在該解碼器處判定尚未接收到一第二經編碼訊框; 由該解碼器重建一替代訊框以取代該第二經編碼訊框;及 將應用於該第二經編碼訊框之前的一先前編碼訊框之反向增益參數應用於該替代訊框。
  22. 如請求項21之方法,其進一步包括: 在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框; 解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及 藉由使用與由該編碼器應用於該第三經編碼訊框之該增益控制相關聯之反向增益參數,使應用於該替代訊框之該等反向增益參數變平滑,來判定待應用於與該第三經編碼訊框相關聯之該等降混信號之反向增益參數。
  23. 如請求項21之方法,其進一步包括: 在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框; 解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及 判定待應用於與該第三經編碼訊框相關聯之該等降混信號之反向增益參數,使得該等反向增益參數實施增益參數從該第三經編碼訊框之一平滑過渡。
  24. 如請求項23之方法,其中在未接收之該第二經編碼訊框與所接收之該第三經編碼訊框之間存在至少一個中間訊框,且其中在該解碼器處未接收到該至少一個中間訊框。
  25. 如請求項21之方法,其進一步包括: 在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框; 解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及 至少部分基於應用於在該解碼器處未接收到之該第二經編碼訊框之前的在該解碼器處接收之一訊框之反向增益參數來判定待應用於與該第三經編碼訊框相關聯之該等降混信號之反向增益參數。
  26. 如請求項21之方法,其進一步包含: 在該解碼器處接收該第二經編碼訊框之後的一第三經編碼訊框; 解碼該第三經編碼訊框以獲得與該第三經編碼訊框相關聯之降混信號及指示由該編碼器應用於該第三經編碼訊框之增益控制之資訊;及 基於指示應用於該第三經編碼訊框之該增益控制之該資訊來重新縮放該解碼器之一內部狀態。
  27. 如請求項17至19中任一項之方法,其進一步包括演現該等升混信號以產生經演現音訊資料。
  28. 如請求項27之方法,其進一步包括使用一擴音器或耳機之一或多者重播該經演現音訊資料。
  29. 一種設備,其經組態用於實施如請求項1至28中任一項之方法。
  30. 一或多種非暫時性媒體,其具有儲存於其上之軟體,該軟體包含用於控制一或多個裝置以執行如請求項1至28中任一項之方法之指令。
TW111108914A 2021-03-11 2022-03-11 適應性增益控制 TW202242852A (zh)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US202163159807P 2021-03-11 2021-03-11
US63/159,807 2021-03-11
US202163161868P 2021-03-16 2021-03-16
US63/161,868 2021-03-16
US202263267878P 2022-02-11 2022-02-11
US63/267,878 2022-02-11

Publications (1)

Publication Number Publication Date
TW202242852A true TW202242852A (zh) 2022-11-01

Family

ID=80937109

Family Applications (1)

Application Number Title Priority Date Filing Date
TW111108914A TW202242852A (zh) 2021-03-11 2022-03-11 適應性增益控制

Country Status (11)

Country Link
US (1) US20240153512A1 (zh)
EP (1) EP4305618A1 (zh)
JP (1) JP2024510205A (zh)
KR (1) KR20230153402A (zh)
AU (1) AU2022233430A1 (zh)
BR (1) BR112023017361A2 (zh)
CA (1) CA3212631A1 (zh)
IL (1) IL305331A (zh)
MX (1) MX2023010602A (zh)
TW (1) TW202242852A (zh)
WO (1) WO2022192217A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024076810A1 (en) * 2022-10-06 2024-04-11 Dolby Laboratories Licensing Corporation Methods, apparatus and systems for performing perceptually motivated gain control
WO2025015478A1 (zh) * 2023-07-14 2025-01-23 北京小米移动软件有限公司 信号处理方法及其装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5227794B2 (ja) * 2005-06-30 2013-07-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
EP2959479B1 (en) * 2013-02-21 2019-07-03 Dolby International AB Methods for parametric multi-channel encoding

Also Published As

Publication number Publication date
JP2024510205A (ja) 2024-03-06
IL305331A (en) 2023-10-01
EP4305618A1 (en) 2024-01-17
KR20230153402A (ko) 2023-11-06
AU2022233430A1 (en) 2023-09-14
WO2022192217A1 (en) 2022-09-15
US20240153512A1 (en) 2024-05-09
CA3212631A1 (en) 2022-09-15
BR112023017361A2 (pt) 2023-10-03
MX2023010602A (es) 2023-09-25

Similar Documents

Publication Publication Date Title
CN110890101B (zh) 用于基于语音增强元数据进行解码的方法和设备
EP3762923B1 (en) Audio coding
WO2020008112A1 (en) Energy-ratio signalling and synthesis
CN114175151A (zh) Ivas比特流的编码和解码
CN112567765B (zh) 空间音频捕获、传输和再现
TW202242852A (zh) 適應性增益控制
CN114008704A (zh) 编码已缩放空间分量
US9466302B2 (en) Coding of spherical harmonic coefficients
TW202422318A (zh) 用於執行感知激勵增益控制之方法、設備及系統
CN116547749B (zh) 音频参数的量化
CN113994425B (zh) 对基于场景的音频数据进行编码和解码的设备和方法
JP2022547038A (ja) 低レイテンシ・低音効果コーデック
US20240304196A1 (en) Multi-band ducking of audio signals
CN116982109A (zh) 具有下混信号自适应增益控制的音频编解码器
US20240161754A1 (en) Encoding of envelope information of an audio downmix signal
RU2822169C2 (ru) Способ и система для генерирования битового потока
CN116997960A (zh) 音频信号技术领域的多频带闪避
CN116982110A (zh) 对音频下混信号的包络信息进行编码
KR20220157848A (ko) 다채널 오디오 신호 처리 장치 및 방법
KR20230153226A (ko) 다채널 오디오 신호 처리 장치 및 방법
WO2024097485A1 (en) Low bitrate scene-based audio coding
KR20230157225A (ko) 장면 분류를 위한 오디오 처리 방법 및 장치
TW202211206A (zh) 低延遲、低頻率效應之編碼解碼器