[go: up one dir, main page]

TW201618087A - 諧波濾波器工具之諧波度相依控制技術 - Google Patents

諧波濾波器工具之諧波度相依控制技術 Download PDF

Info

Publication number
TW201618087A
TW201618087A TW104123539A TW104123539A TW201618087A TW 201618087 A TW201618087 A TW 201618087A TW 104123539 A TW104123539 A TW 104123539A TW 104123539 A TW104123539 A TW 104123539A TW 201618087 A TW201618087 A TW 201618087A
Authority
TW
Taiwan
Prior art keywords
time
pitch
harmonic
time structure
filter
Prior art date
Application number
TW104123539A
Other languages
English (en)
Other versions
TWI591623B (zh
Inventor
葛倫 馬可維希
克里斯汀 赫姆瑞區
艾曼紐 拉斐里
曼紐 貞德
史蒂芬 多伊拉
Original Assignee
弗勞恩霍夫爾協會
紐倫堡大學
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 弗勞恩霍夫爾協會, 紐倫堡大學 filed Critical 弗勞恩霍夫爾協會
Publication of TW201618087A publication Critical patent/TW201618087A/zh
Application granted granted Critical
Publication of TWI591623B publication Critical patent/TWI591623B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

一使用可控制、可切換或甚至可調整之諧波濾波器工具的音頻編解碼器編碼效率係在除了諧波度量測之外藉由使用時間結構量測執行此一工具的諧波度相依控制以便控制該波濾波器工具而被改進。特別是,音頻信號的時間結構以相依於基音的方式被評估。這使諧波濾波器工具能達成一情況適應控制,使得在單獨基於諧波度之量測控制的情況下將不使用或減少使用此一工具決定,雖然使用諧波濾波器工具在這種情況下增加編碼效率,但在諧波濾波器工具可能效率差或甚至有破壞性的其他情況下,該控制適當地減少諧波濾波器工具的應用。

Description

諧波濾波器工具之諧波度相依控制技術
本申請案係有關於對諧波濾波器工具,諸如前置/後置濾波器或只有後置濾波器方式之控制的決策。此種工具舉例而言適用於MPEG-D統一語音及音頻編碼(USAC)與即將到來的3GPP增強型語音服務編解碼器
發明背景
基於變換的音頻編解碼器如AAC、MP3或TCX在處理諧波音頻信號,特別是以低位元率時通常引入間諧波量化雜訊。
當基於變換的音頻編解碼器在低延遲下操作時,由於較差的頻率解析度及/或因較短的變換大小及/或較差的視窗頻率響應引入的選擇性,此一效果更進一步變差。
當主觀地評估高音色音頻材料如一些音樂或有聲語音時,此一間諧波的雜訊通常被察覺為一非常惱人的「顫音」噪聲,大幅降低基於變換之音頻編解碼器的性能。
此一問題的一種常見解決方式是應用基於預測之技術,較佳地使用在變換域或時域中基於前行輸入或解碼樣本之加法或減法的自迴歸(AR)模型化預測。
然而,在具有變化時間結構的信號中使用此種技術再度導致不良影響,諸如打擊樂音樂活動或口語爆發音或甚至由於重複單脈衝狀暫態造成脈衝軌跡。因此,對於包含暫態和諧波成分的信號或在暫態與脈衝串之間有模糊的信號要特別注意。
依據本發明之一實施例,係特地提出一種用於執行音頻編解碼器之諧波濾波器工具的諧波度相依控制的裝置,包含:一基音估計器,組配來決定由該音頻編解碼器處理的一音頻信號的一基音;一諧波度測量器,組配來使用該基音以決定該音頻信號的諧波度的量測;一時間結構分析器,組配來依據該基音以決定至少一量測該音頻信號之一時間結構的一特性的時間結構量測;一控制器,組配來依據該時間結構量測及諧波度之量測控制該諧波濾波器工具。。
10‧‧‧裝置
12‧‧‧音頻信號
14‧‧‧控制信號
16‧‧‧基音估計器
18‧‧‧基音滯後
20‧‧‧諧波度測量器
22‧‧‧諧波度的量測
24‧‧‧時間結構分析器
26‧‧‧量測
28‧‧‧控制器
30‧‧‧濾波器工具
32‧‧‧頻譜圖
34‧‧‧框
34a‧‧‧當前框
36‧‧‧時間區域
38‧‧‧時間上過去標頭端
40‧‧‧時間上未來標頭端
42‧‧‧過去標頭端
44‧‧‧時間上未來標頭端
46‧‧‧時間量
48‧‧‧時間候選區域
50‧‧‧變數Nnew
52‧‧‧能量樣本
70‧‧‧基於變換之編碼器
72‧‧‧解碼器
74‧‧‧資料流
76‧‧‧頻域
78‧‧‧時域
80‧‧‧變換器
82‧‧‧頻譜整形器
84‧‧‧量化器
86‧‧‧頻譜整形器
88‧‧‧反向變換器
90‧‧‧前置濾波器
92‧‧‧前置濾波器
94‧‧‧後置濾波器
96‧‧‧後置濾波器
98‧‧‧控制信號
100‧‧‧後置濾波器
102‧‧‧後置濾波器
104‧‧‧顯式發送信號
120‧‧‧邏輯
122‧‧‧檢查結果
124‧‧‧開關
152‧‧‧暫態檢測器
154‧‧‧暫態檢測信號
本發明之附屬請求項申請標的的有利實施以及本案較佳實施例參照圖式於下文中陳述:第1圖所示為依據一實施例根據濾波器增益控制諧波濾波器之一裝置的方塊圖;第2圖所示為應用諧波濾波器工具滿足之一可能預定條件的實例;第3圖繪示一可行之決策邏輯實施的流程圖,該決策邏輯中包括可參數化以實現第2圖之條件實例。
第4圖為執行一諧波濾波器工具之諧波度(及時間-量測)相依控制之裝置的方塊圖;第5圖為舉例說明用於依據一實施例決定該時間結構量測之一時間區域的時間位置的示意圖;第6圖概要繪示依據一實施例於該時間區域內時間上抽樣該音頻信號能量的能量樣本;第7圖為依據使用一諧波前/後置濾波器之實施例的方塊圖,藉由分別繪示當編碼器使用第4圖之裝置時音頻編解碼器中之編碼器和解碼器來說明在一音頻編解碼器中使用第4圖之裝置;第8圖為依據使用一諧波後置濾波器之實施例的方塊圖,藉由分別繪示當編碼器使用第4圖之裝置時音頻編解碼器中之編碼器和解碼器來說明在一音頻編解碼器中使用第4圖之裝置;第9圖為一依據一實施例的第4圖之控制器的方塊圖;第10圖為一系統之方塊圖,繪示第4圖之裝置與一暫態檢測器共享使用能量樣本的可能性;第11圖係一實例為低基音信號之音頻信號的時域部分(部分的波形)的曲線圖,另外繪示用以決定至少一時間結構量測之時間區域的基音相依定位;第12圖係實例為高基音信號之音頻信號的時域部分的曲線圖,另外繪示用以決定至少一時間結構量測之時間區域的基音相依定位;第13圖為在一諧音信號內之脈衝與階躍暫態的一例示 聲頻譜圖;第14圖為一例示頻譜圖以說明LTP對脈衝與階躍暫態的影響;第15圖繪示一者在另一者之上的音頻信號的時域部分與其各別的低通濾波與高通濾波形式,用以說明依據第2、3、16和17圖對脈衝和階躍暫態的控制;第16圖為一脈衝狀暫態的區段能量時序--能量樣本序列,以及用於依據第2、3圖決定至少一時間結構量測之時間區域布局;第17圖為一類似階躍暫態的區段能量時序--能量樣本序列,以及用於依據第2、3圖決定至少一時間結構量測之時間區域布局;第18圖為一串列脈衝之例示頻譜圖;(使用短FFT頻譜圖之摘錄)
第19圖為一串列脈衝的例示波形;第20圖為該串列脈衝的原始短FFT頻譜圖;以及第21圖為該串列脈衝的原始長FFT頻譜圖。
較佳實施例之詳細說明
一些解決方案存在用來改善諧波音頻信號之基於變換之音頻解碼器的主觀品質。他們所有皆利用長期週期性(基音)的非常諧和、固定波形,且是基於以預測為基礎的技術,無論在變換域抑或時域。大部分的解決方案稱為長期預測(LTP)或基音預測,特徵為一對濾波器被應用於信 號:編碼器中的前置濾波器(通常作為時域或頻域中的第一步驟)和解碼器中的後置濾波器(通常作為時域或頻域中的最後步驟)。然而有一些其他的解決方案只在解碼器端應用單一後濾波程序,通常稱作諧波後置濾波器或低音後置濾波器。所有這些方式,無論是成對的前後置濾波器或只有後置濾波器,在下文中將被表示為諧波濾波工具。
變換域方式的實例為:
[1] H. Fuchs, 「以後向自適應線性立體聲預測改良MPEG音頻編碼」,99th AES Convention, New York, 1995, Preprint 4086.
[2] L. Yin, M. Suonio, M. Väänänen, 「MPEG音頻編碼的一種新穎的後向預測」, 103rd AES Convention, New York, 1997, Preprint 4521.
[3] Juha Ojanperä, Mauri Väänänen, Lin Yin, 「變換域感覺音頻編碼的長期預測器」 107th AES Convention, New York, 1999, Preprint 5036.
應用前後濾波之時域方式的實例為:
[4] Philip J. Wilson, Harprit Chhatwal, 「具有長期預測器的適應性變換編碼器」,美國專利5,012,517,1991年4月30日.
[5] Jeongook Song, Chang-Heon Lee, Hyen-O Oh, Hong-Goo Kang, 「使用有效率的長期預測器於低位元率音頻編碼中之諧波增強」 EURASIP Journal on Advances in Signal Processing, August 2010.
[6] Juin-Hwey Chen, 「用以壓縮音頻信號的基於基音之前濾波和後濾波」,美國專利8,738,385,2014年5月27日.
[7] Jean-Marc Valin, Koen Vos, Timothy B. Terriberry, “「Opus格式音頻編解碼器的定義」,ISSN:2070-1721, IETF RFC 6716, September 2012.
[8] Rakesh Taori, Robert J. Sluijter, Eric Kathmann 「具有改良基音檢測之語音編碼器的傳輸系統」、美國專利5,963,895,1999年10月5日。
僅應用後濾波之時域方式的實例為:
[9] Juin-Hwey Chen, Allen Gersho, 「用於編碼語音品質增強之適應性後濾波」,IEEE Trans. on Speech and Audio Proc., vol. 3, January 1995.
[10] Int. Telecommunication Union, 「8-32kbit/s之語音與音頻的框錯誤強健可變位元率編碼」 Recommendation ITU-T G.718, June 2008.
www.itu.int/rec/T-REC-G.718/e, section 7.4.1.
[11] Int. Telecommunication Union, 「使用結合結構代數CELP(CS-ACELP)之8kbit/s語音編碼」, Recommendation ITU-T G.729, June 2012.
www.itu.int/rec/T-REC-G.729/e, section 4.2.1.
[12] Bruno Bessette et al., 「合成語音之頻率選擇性基音增強的方法和裝置」、美國專利7,529,660,2003年5月30日。
暫態檢測器的一實例為:
[13] Johannes Hilpert et al., 「檢測一離散時間音頻信號中之一暫態的方法和裝置」、美國專利6,826,525,2004年11月30日。
心理聲學的相關文獻:
[14] Hugo Fastl, Eberhard Zwicker, 「心理聲學:事實與模式」, 3rd Edition, Springer, December 14, 2006.
[15] Christoph Markus, 「背景噪音估計」,歐洲專利EP 2,226,794, 2009年3月6日。
所有前述文獻中描述的技術在單一門檻決策上(例如,預測增益[5]或基音增益[4]或基本上與正規化相關成比例的諧波度[6])做成何時啟用預測濾波器的決策。此外,如果前一框中的增益在一預定義固定門檻之上,如果基音改變且減低門檻,OPUS[7]使用遲滯以增加門檻。如果在一些特定的框配置中一暫態被發現,OPUS[7]也使長期(基音)預測器去能。此一設計的理由似乎起源於一般相信在一混合的諧波信號與暫態信號成分中,暫態支配該混合,且如同稍早論述的據其起動LTP或基音預測,主觀上引起的傷害更甚於改進。然而,對於將在下文中論述的某些波形混合而言,依據暫態音頻框起動長期或基音預測器有效增加編碼品質或效率且因此有益。此外,當起動預測器時,根據瞬間信號特徵而非預測增益改變其強度是有利的,在習知技術中是唯一的方式。
因此,本發明的一目的是提供音頻編解碼器之諧 波濾波器工具的諧波度相依控制的概念,其導致改進的編碼效率,例如改進之客觀編碼增益或較佳的感覺品質等等。
此目的由本案獨立請求項之請求標的達成。
本案之一項基本發現為使用一可控制的-可切換的或甚至可調整的諧波濾波器工具的音頻編解碼器,藉由在諧波度量測之外使用時間結構量測控制該諧波濾波器工具以執行此一工具的諧波度相依控制而改進音頻編解碼器之編碼效率。特別是音頻信號的時間結構是以依據基音的方式被評估。此可達成諧波濾波器工具的情況適應控制,使得在單獨依據諧波度量測之控制的情況下,係在不使用此一工具或即便使用諧波濾波器工具但減少其使用下決定,於該情況下將增加編碼效率而諧波濾波工具被使用,而在其他情況中,諧波濾波工具可能是無效率或甚至有害的,該控制可適當地減少使用諧波濾波器工具。
以下的描述由諧波濾波器工具控制的一第一詳細實施例開始。在此提出導致此一第一實施例之思想的簡短概觀。然而,這些觀念也適用於接著說明的實施例。下文中提出概括之實施例,接著是音頻信號部分之特定具體實例,以便更具體地概述由本案實施例產生的效果。
啟用或控制一諧波濾波器工具的決策機構,例如一以預測為基礎之技術,是以諧波度量測諸如正規化相關或預測增益以及時間結構量測,例如時間平度量測或能量變化為基礎。
如以下概述,此決策不僅依據當前框的諧波度量測,且依據前一框之諧波度量測以及當前框和選擇性地前一框之時間結構量測。
決策方案可被設計成使得以預測為基礎之技術也對暫態啟用,無論何時使用以一相應模式推斷將是在心理聲學上有利的。
用於啟用以預測為基礎之技術的門檻在一實施例中可以是依據當前基音而非基音改變。
決策方案例如允許避免一特定暫態之重複,但對於一些暫態和具有特定時間結構的信號容許以預測為基礎之技術--暫態檢測器正常情況下將會信號短路變換塊(即,存在一或多個暫態)。
以下提出的決策技術可應用於上述任一以預測為基礎之方法--在變換域或在時域,前置濾波器加上後置濾波器或僅有後置濾波器的方式。此外,其可被適用於操作帶限(用低通)或在次帶中操作(用帶通特性)的預測器。
關於LTP起動、基音預測、或諧波後濾波的總體目的是達成下列二條件:- 一目的或主觀的優勢藉由起動該濾波器而得到,- 無顯著的噪聲因濾波器的起動而引入。
決定使用濾波器是否有客觀利益通常藉由自相關及/或目標信號上之預測增益量測執行且是習知的[1-7]。
主觀上優勢的量測至少對固定信號也是明確 的,因為經由聽力測試獲得的感覺改進資料典型地與對應的客觀量測成比例,即上述的相關及或預測增益。
然而識別或預測由濾波引起的噪聲存在需要比客觀測量的簡單比較更複雜的技術,該客觀測量比如習知技術中所實施之框類型(固定框之長變換相對於暫態框之短變換)或對某些門檻之預測增益。基本上,為了要避免噪聲,必須保證濾波在目標波形中引起的改變在時間或頻率的任何地方皆未顯著地超過一時變時頻遮蔽門檻。依據一些實施例的決策方案在下文中提出,使用由三個對欲被編碼及/或接受濾波的每一音頻框依序執行之算法塊組成的以下濾波器決策與控制方案:計算被普遍使用的諧波濾波器資料,諸如正規化相關或增益值(下文稱為「預測增益」)。下文將再度提到,「增益」一詞意為通常與濾波器強度相關之任何參數的概括,例如一個明確的增益因子或一組一或一個以上濾波器係數的絕對或相對大小。
一T/F包絡線量測塊,其以預定義之時間與頻域解析度計算時間-頻率(T/F)振幅或能量或平度資料(此可能包括量測用於上述框類型決策之框暫態)。由於音頻信號用於當前框之濾波--典型地使用過去的信號樣本,的區域依據該基音(且相應地計算之T/F包絡線亦如此),諧波度量測塊中獲得的基音被輸入至T/F包絡線量測塊。
一濾波器增益計算塊執行有關哪一個濾波器增益用於濾波(且在位元流中傳送)之最後決策。理想地,此一 計算塊應對每一小於或等於預測增益之可傳送濾波器增益計算用該濾波器增益濾波後之目標信號的一類似時頻激勵模式包絡線,且應比較此一「實際」包絡線與該原始信號之一激勵模式包絡線。然後可使用於編碼/傳送最大濾波器增益,其相應之時頻「實際」包絡線與「原始」包絡線不會相差超過一定量。此一濾波器增益我們稱之為心理聲學最佳。
在稍後描述的其他實施例中,該三計算塊結構有少許修改。
換言之,諧波度和T/F包絡線量測在對應塊中被得到,其接著被用來導出輸入和濾波輸出框二者之心理聲學激勵模式,且最後置濾波器增益被適應以使得由「實際」與「原始」包絡線之比率所給的遮蔽門檻未被顯著地超過。為理解起見應指出,在此一情況下的一激勵模式非常相似於檢驗中之信號的一類似頻譜圖表示,但因人類聽力之某些特性且證明聽力本身是「遮蔽之後」的而呈現時間平滑模型。
第1圖繪示以上介紹的三計算塊之間的連結。不幸地,二激勵模式之逐框導出以及最佳濾波器增益的窮舉搜尋是計算複雜的。因此在以下說明中提出簡化。
為了要在所提出之濾波器起動決策方案中避免激勵模式的高費用計算,低複雜度的包絡線量測被使用為激勵模式特性的估計。過去發現在T/F包絡線量測塊中,諸如部分的能量(SE),時間平度量測(TFM),最大能量變化 (MEC)或傳統的框配置資訊諸如框類型(長/固定或短/暫態)足夠導出心理聲學標準的估計。這些估計然後可被利用在濾波器增益計算塊,以高準確度決定被應用於編碼或傳送的一最佳的濾波器增益。為了避免全局最優增益之計算密集搜尋,相對所有可能的濾波器增益(或其子集合)的率失真迴路可由一次條件運算子取代。此種「廉價」運算子可用於決定是否使用來自諧波度和T/F包絡線測量塊的資料所計算之一些濾波器增益應被設置為零(決定不使用諧波濾波)或不(決定使用諧波濾波)。注意諧波度量測塊能保持不變。此一低複雜性實施例的按步實現在下文中被描述。
如同所提到的,受一次條件運算子控制的「初始」濾波器增益使用來自諧波度的資料和T/F包絡線量測塊被導出。「初始」濾波器增益可以等於時變預測增益(來自諧波度量測塊)與時變比例因子(來自T/F包絡線量測塊的心理聲學包絡線資料)的乘積。為了進一步減少計算負荷一固定不變的比例因子諸如0.625可用來代替信號自適應時變比例因子。這典型地保有充份的品質且亦在下列實現中被考慮。
濾波器工具之控制的具體實施例現在逐步展開說明。
1.暫態檢測和時間量測
輸入信號s HP (n)被輸入時域暫態檢測器。輸入信號s HP (n)是被高通濾波後的。暫態檢測器之HP濾波器的轉移函數由下式提供 H TD (z)=0.375-0.5z -1+0.125z -2 (1)
由暫態檢測之HP濾波器濾波的信號表示為s TD (n)。HP濾波之信號s TD (n)被分段成8個相同長度的段。HP濾波信號s TD (n)每一段的能量被計算如下:
其中是輸入抽樣頻率下在2.5毫秒段中的樣本數目。
一累積能量使用下式計算:E Acc =max(E TD (i-1),0.8125E Acc ) (3)
如果一段E TD (i)的能量超過累積能量一個固定因子attackRatio=8.5則一攻擊被檢出且該攻擊指標被設定為iE TD (i)>attackRatio.E Acc (4)
若基於以上標準沒有攻擊被檢出,但一強能量增加在段i中被檢出,在不指出改擊之存在下攻擊指標設定為i。攻擊指標基本上隨以另外一些限制被設定為一框中之最後改擊的位置。
每一段的能量變化被計算如下:
時間平度量測被計算如下:
最大能量變化被計算如下: MEC(N pasr ,N new )=max(E chng (-N past ),E chng (-N past +1),...,E chng (N new -1)) (7)
如果指標E chng (i)或E TD (i)為負則其表示來自前一段之值,段相對當前框加指標。
N past 是來自過去框的段數目。如果時間平度量測是對ACELP/TCX決策中的使用計算,其等於0。如果時間平度量測是對TCX LTP決策計算,則其等於:
N new 是來自當前框的段數目,對於非暫態框其等於8。對於暫態框首先具有極大值和最大能量之段的位置被找到:
如果E TD (i min)>0.375E TD (i max)則N new 被設定成i max-3,否則N new 被設定成8.
2.變換塊長度切換
TCX的重疊長度和變換塊長度依據暫態的存在及其位置。
表1:基於暫態位置的重疊和變換長度的編碼
上述之暫態檢測器基本上送回最後攻擊之指標,其限制為如果有多數的暫態則最小重疊優於一半重疊,一半重疊優於全部重疊。如果在位置2或6的攻擊不夠強,則一半的重疊被選擇而非最小重疊。
3.基音估計
每框一基音滯後(整數部分+小數部分)被估計(框大小例如20毫秒)。這以三步驟完成以減少少複雜度且改善估計準確度。
a.基音滯後之整數部分的第一估計
使用一種產生平滑之基音開展輪廓的基音分析算法(例如,ITU-T G.718,sec.6.6中記載之開環基音分析)。 此一分析通常是在一子框基礎上被完成(子框大小例如10毫秒),且產生每一子框之一基音滯後估計。注意,這些基音滯後估計沒有任何小數部分且通常是根據降低抽樣信號估計(抽樣頻率例如6400赫茲)。被使用的信號可以是任何音頻信號,例如Rec.ITU-T G.718,sec.6.5中記載的LPC加權音頻信號。
b.基音滯後之整數部分的精化
基音滯後的最後整數部分在一以核心編碼器抽樣率運行的一音頻信號x[n]上被估計,核心編碼器抽樣率通常高於使用在a.(例如12.8仟赫、16仟赫,32仟赫...)之降抽樣信號的抽樣率。信號x[n]可為任何音頻信號,例如LPC加權音頻信號。
基音滯後的整數部分則是使自相關函數最大化的滯後T int
基滯後T周圍之d在步驟1.a被估計。
c.基音滯後之小數部分的估計
小數部分藉由內插步驟2.b.中計算的自相關函數C(d)並選擇使內插之自相關函數最大化的分數基音滯後T fr 被找到。內插可使用例如在Rec.ITU-T G.718,sec.6.6.7中記載的低通FIR濾波器執行。
4.決策位元
如果輸入音頻信號不包含任何的諧波含量或以預測為基礎的技術將會引入時間結構中失真(例如短的暫態重複),則沒有參數在位元流中被編碼。只有1位元被傳送以使解碼器識別它是否必須解碼濾波器參數。決策基於一些參數被作成:在步驟3.b.中被估計之整數基音滯後的正規化相關。
如果輸入信號可由整數基音滯後完全預測,正規化自相關為1,且如果不能完全預測為0。一高值(接近1)則表示一諧波信號。對於更強健的決策,除了當前框(norm_corr(curr))的正規化自相關外,過去框(norm_corr(prev))的正規化相關也可在決策中被使用,例如:若(norm_corr(curr)*norm_corr(prev))>0.25
或若max(norm_corr(curr),norm_corr(prev))>0.5,則當前框包含一些諧波含量(位元=1)
a.由暫態檢測器計算之特徵(例如時間平度量測(6),最大能量改變(7))避免對一包含強的暫態或大的時間改變之信號起動後置濾波器。時間特徵是在包含當前框(N new 區段)和最多達基音滯後(N past 區段)之過去框的信號上被計算,對於緩慢衰減的階梯狀暫態,由LTP濾波引入的頻譜非諧波 部分之失真將會因強的長持續暫態的遮蔽(例如碎音鈸)而被抑制,全部或部分特徵僅在最多達暫態位置(i max-3)被計算。
b.低基音信號之脈衝串列可被暫態檢測器檢測為一暫態。對於具有低基音之信號,來自暫態檢測器的特徵因而被忽略,且以依據於基音滯後之正規化相關的另外門檻代替。
若<=1.2-T int /L,則設定位元=0且不傳送任何參數。
一範例決策繪示於第2圖,其中b1是一些位元率,例如,48kbps,其中TCX_20表示框使用單一長區塊被編碼,其中TCX_10表示框使用2,3,4或更多短區塊被編碼,其中TCX_20/TCX_10決策是以上述之暫態檢測器輸出為基礎。tempFlatness是在(6)中定義之時間平度量測,maxEnergyChange是在(7)中定義之最大能量改變。條件範數norm_corr(curr)>1.2-m1/L也可被寫作(1.2 norm_corr的)*L<m1<。
決策邏輯的原則敘述在第3圖中之方塊圖中。應該注意到第3圖在門檻不受限制的意義上比第2圖更為通用。它們可依照第2圖或不同地被設定。此外,第3圖說明第2圖的示範位元速率相依可被停用。自然地,第3圖的決策邏輯可被改變而包括第2圖的位元率相依。更進一步,第3圖對於僅使用當前基音或亦使用過去基音保持非特定。第3圖說明第2圖2的實施例可在此一方面改變。
第3圖中之「門檻」相當於用於第2圖中之tempFlatness和maxEnergyChange的不同門檻。第3圖中之「門檻_1」相當於第2圖中的1.2-T int /L。第3圖中之「門檻_2」相當於0.44或第2圖中之norm_corr(curr),norm_corr(prev))>0.5或(norm_corr(curr)* norm_corr_prev)>0.25。
由上面的例子很明顯,暫態的檢測影響長時期預測使用何種決策機制以及信號的什麼部分將在決策中被用於測量、而不是直接引發長時期預測不作用。
使用於變換長度決策之時間量測與使用於LTP決策的時間量測可能完全不同或者它們可能重疊或完全相同但是在不同區域中計算。
對於低基音信號,如果依據基音滯後的正規化相關之門檻被達到,暫態檢測完全被忽略。
5.增益估計和量化
通常以核心編碼器抽樣率對輸入音頻信號估計增益,但也可能是對任何音頻信號像是LPC加權音頻信號。此一信號以y[n]註記且與x[n]可以是相同或不同的。
y[n]之預測yP[n]首先以下列濾波器藉由將y[n]濾波找到。
T int 為基音滯後(估計in0)的整數部分且B(z,T fr )為一低通FIR濾波器,其係數依據基音滯後T fr (在0被估計)的小數部分。
B(z)在基音滯後解析度是¼時的一實例:
然後依下式計算增益g
且限制在0和1之間.
最後,增益按2位元量化,使用例如均勻量化。
如果增益被量化至0,則沒有參數在位元流中被編碼,只有1決策位元(位元=0)。
迄此提出的說明給與針對諧波濾波器工具之諧波度相依控制的本發明實施例的動機且概述了本發明實施例的優點,下文概述的實施例描述上文之按步實施方案的廣義實施例。迄此之說明有時是非常特定的,但諧波度相依控制也可以被有利地用在其他音頻編解碼器的架構中,且可相對前文概述之特定細節改變。由於此一原因,本案之實施例以更一般性的方式在下文中再次說明。不過以下的說明時常會引用以上的詳細說明以便使用上述細節來揭露下文中一般描述的元件如何能依據進一步的實施例被實施。在這樣做時應注意所有這些特定的實施細節可以個別 地從上文描述轉移到下文中描述之元件。因此,每當下文之說明引用上文之說明時,此一引用意味與進一步引用上文描述無關。
因此,從上述的詳細描述浮現的一比較一般性的實施例在第4圖中繪示。詳細地,第4圖繪示一用於執行一諧波濾波工具,諸如一音頻編解碼器之諧波前置/後置濾波器,或諧波後置濾波工具的諧波度相依控制的裝置。該裝置大體上用參考符號10指示。裝置10接收被音頻編解碼器處理的音頻信號12且輸出一控制信號14實現裝置10的控制任務。裝置10包含一基音估計器16組配來決定音頻信號12之一當前基音滯後,及一諧波度測量器20組配來使用一當前基音滯後18來決定音頻信號12之諧波度的量測22。詳言之,諧波度量測可以是一預測增益、或可以藉由一(單一)或多於一(多抽)濾波器係數或一最大正規化相關來實施。第1圖的諧波度測量計算塊包含基音估計器16和諧波度測量器20兩者的任務。
裝置10更進一步包含組配來以一依據基音滯後18的方式決定至少一時間結構量測26的的時間結構分析器24,量測26測量音頻信號12之時間結構的特性。例如,相依性可依據於時間區域的定位,量測26於該時間區域測量音頻信號12之一時間結構的一特性,如前文所述且下文將更詳細描述。然而,為了完整起見,在此簡略提及,量測26對基音滯後18之決定的相依性亦可與上文及下文中描述不同地被實施。例如,時間部分即決定窗不是 以依據基音滯後的方式定位,相依性能夠僅在時間上改變音頻信號在一與相對當前框之基音滯後無關地定位的一窗內之一個別時間間隔貢獻於該量測26的權重。與下文描述有關地,此可意指決定窗36可能是穩定地對應當前和過去框的序連連接定位,且基音相依定位部分僅作用為對於音頻信號影響量測26之時間結構具增加權重之一窗。然而,在目前假定時間窗之位置依據基音滯後定位。時間結構分析器24相當於第1圖的T/F包絡線量測計算塊。
最後,第4圖之裝置包含一控制器28組配來依據時間結構量測26及諧波度之量測22輸出控制信號14以便藉此控制諧波前置/後置濾波器或諧波後置濾波器。當比較第4圖與第1圖時,最佳濾波器增益計算塊相當於、或表示控制器28的一種可能實施。
裝置10的運算模式如以下說明。詳言之,裝置10的任務是控制一音頻編解碼器的諧波濾波器工具,且雖然以上有關第1至3圖概述的較詳細描述顯示此一工具在濾波器強度或濾波器增益上的一逐步控制或適應作為例子,但制器28不限於逐步控制型態。一般而言,控制器28的控制可逐漸地適應濾波器強度或諧波度濾波器工具在0與最大值之間的增益,在以上關於第1至3圖之特定實施例的情況下兩者皆包含,但不同的可能性也可行,諸如逐步控制於兩個非零濾波器增益值之間,一逐步控制或一二進制控制諸如切換於啟用(非零)或停用(零增益)之間以打開或關閉諧波濾波器工具。
由上述的論述明白,第4圖中以虛線30繪示的諧波濾波器工具目的在於改進諧波濾波器工具諸如一基於變換的音頻編解碼器的主觀品質。特別地,此一工具30在低位元率方案中尤其有用,在低位元率方案中量化雜訊在沒有工具30下在此諧波相位中引入聽得見的噪聲。然而,重要的是濾波器工具30不負面影響非主要為諧音之音頻信號的其他時間相位。更進一步,如以上概述者,濾波器工具30例如可能是後置濾波器方式或前置濾波器加上後置濾波器方式。前置及/或後置濾波器可能在變換域或時域中操作。例如,工具30的後置濾波器可有一轉移函數,其具有以頻譜距離布置為對應基音滯後18、或設定為獨立於基音滯後18的局部極大值。前置濾波器及/或後置濾波器以LTP濾波器之形式,例如分別為一FIR和IIR濾波器的形式實施也可行。前置濾波器可具有一與後置濾波器之轉移函數實質上相反的轉移函數。實際上,前置濾波器尋求藉由增加音頻信號之當前基音的諧波裡的量化雜訊來隱藏音頻信號之諧波成分內的量化雜訊,且相應地後置濾波器重建發送的頻譜。在後置濾波器是唯一方式下,後置濾波器真正地修改傳輸的音頻信號以便過濾在音頻信號的基音之間出現的量化雜訊。
應注意第4圖在某種意義上是以簡化方式繪製的。例如,雖然第4圖建議基音估計器16,諧波度測量器20和時間結構分析器24直接對音頻信號12或至少是其相同形式運算,此一情況並非必要。實際上,基音-估 計器16,時間結構分析器24和諧波度測量器20可能對音頻信號的不同版本運算,諸如原始音頻信號及其一些預修改後版本的不同版本,其中這些版本可在元件16,20和24之中內部改變且亦可相對音頻編解碼器改變,也可能對始音頻信號的一些修改版本運算。例如,時間結構分析器24能以輸入抽樣率,即音頻信號12之原始抽樣率對音頻信號12運算,或也能對其一內部編碼/解碼版本運算。音頻編解碼器進而能以通常比輸入抽樣率低的某一內部核心抽樣率運算。基音估計器16進而能對音頻信號的一預修改後版本執行其基音估計任務,諸如舉例而言,對音頻信號12之一心理聲學加權版本估計用以改進對於在感覺能力上比其他頻譜分量更重要的頻譜分量的基音估計。例如,如上文所述,基音估計器16可組配來在包含一第一階段和一第二階段的複數個階段中決定基音滯後18,該第一階段產生基音滯後的初步估計,該初步估計接著在第二階段中被改善。舉例而言,如同上文所描述,基音估計器16可決定一符合第一抽樣率之降低抽樣域之基音滯後的初步估計,且接著以高於該第一抽樣率的第二抽樣率改善基音滯後的初步估計。
至於有關諧波度測量器20,由以上相關第1至3圖的論述已明瞭,其可藉由計算音頻信號或其一預修改後版本在基音滯後18之一正規化相關以決定諧波度之量測22。應指出的是,諧波度測量器20甚至可組配來以基音滯後之外的數個相關時間位置,諸如包括且在基音滯後18附 近之一時間延遲間隔中計算正規化相關。這可能是有利的,舉例而言,濾波工具30使用一多抽LTP或者可能LTP有分數基音的情況。在這種情況下,諧波度測量器20甚至可在實際基音滯後,諸如以上相關第1至3圖概述之具體實例中的整數基音滯後附近的滯後指標分析或評估該相關。
對於基音估計器16的更進一步細節以及可能實施,請參看上文提出的「基音估計」一節。諧波度測量器20在上文中相對norm.corr方程式論述。但在上文中所描述的「諧波度」一詞應不僅包括正規化相關,同時也暗示測量諧波度,諸如諧波濾波器的一預測增益,其中該諧波濾波器在使用前置/後置濾波器方式的情況下可相等或不同於濾波器230的前置濾波器且不考慮使用此一諧波濾波器的音頻編解碼器或是否此一諧波濾波器僅被諧波測量器20使用來決定量測22。
如以上關於第1至3圖的描述,時間結構分析器24可組配來決定在依據該基音滯後時間上定位之時間區域內的至少一時間結構量測26。為了進一步對此說明,參見第5圖,第5圖繪示音頻信號之一頻譜圖32,即,其頻譜舉例而言依據由聲音結構分析器24內部使用之版本的音頻信號的抽樣率分解到某一最高頻率fH,該版本之音頻信號以某一變換塊速率時間抽樣,該變換塊速率可與一設若存在之音頻編解碼器的變換塊速率一致或不一致。為了說明的目的,第5圖繪示頻譜圖係時間上細分成例如該控制器 可執行濾波器控制之單位的框,該框細分例如亦可與由包含或使用濾波器工具30的音頻編解碼器所使用的細分框一致。
暫且在說明上假定控制器28執行控制任務的當前框是框34a。如同上文及在第5圖中說明者,時間結構分析器決定性因子在其內決定該至少一時間結構量測26的時間區域36不一定與當前框34a一致。而是時間區域36的時間上過去標頭38和時間上未來標頭端40可能偏離當前框34a的時間上過去標頭和未來標頭端12與44。如同以上已說明,對於當前框34a,時間結構分析器24能夠依據由決定每一框34之基音滯後18的基音估計器16所決定的基音滯後18來定位時間區域36的時間上過去標頭端38。由上文論述已清楚,時間結構分析器24可定位時間區域的時間上過去標頭端38以使得時間上過去標頭端38相對當前框34a之過去標頭端42朝一過去方向位移,移如位移一隨基音滯後18單調增加的時間量46。換言之,基音滯後18愈大則該量46愈大。如自以上相關第1至3圖的論述明瞭,該量可根據方程式8被設定,式中Npast為時間位移46的量測。
時間區域36之時間上未來標頭端40進而可被時間結構分析器24依據音頻信號在一時間候選區域48內的時間結構設定,該時間候選區域48從時間區域36之時間上過去標頭端38延伸到當前框44的時間上未來標頭端。詳言之,如以上已論述,時間結構分析器24可評估音頻信 號在時間候選區域48內之能量樣本的差異量測,以便決定時間區域36之時間上未來標頭端40的位置。在以上相關第1至3圖提出的特定細節中,在時間候選區域48內的最大與最小能量樣本之差的量測被使用為差異量測,其間的一振幅比。特別地,在上述具體實例中,測量時間區域36之時間上未來標頭端40相對當前框34a的時間上過去標頭端42之位置的變數Nnew在第5圖中標示為50。
由以上論述明瞭,時間區域36依據基音滯後18的定位有利之處在於裝置10正確地確認諧波濾波工具30能有利被使用之位置的能力增加。詳言之,此種位置的正確檢測變得更加可靠,即此種情況能以更高的可能性被檢測而實質上不增加偽陽性檢測。
如以上相關第1至3圖描述者,時間結構分析器24可在時間區域36內之音頻信號能量的時間抽樣基礎上決定至少一時間結構量測。此係繪示於第6圖中,其中該能量樣本是以在一跨越任意時間和能量軸的時間/能量平面上標出的點表示。如以上說明,能量樣本52可以由以一高於框34之框率的抽樣率對音頻信號抽樣。在決定至少一時間結構量測26中,分析器24如以上所述例如可計算在時間區域36內之成對緊接連續能量樣本52間之變化的一組能量改變值,為了此一目的使用方程式5。藉由此一量測,可從每一對緊接連續能量樣本52得到一能量改變值。分析器24接著可使由時間區域36內之能量樣本52獲得之該組能量改變滿足一純量函數以獲得至少一結構能量量測 26。在以上的具體實例中,舉例而言,時間平度量測已經根據加數之和決定,每一加數恰依據於該組能量值的一個。最大能量值進而依據方程式7使用一施加至能量改變值上的最大運算子而被決定。
已如上文所述,能量樣本52不一定測量音頻信號12的原始、未作修改版本。相反地,能量樣本52可測量音頻信號在某一修改域中之音頻信號能量。在上述的具體實例中,舉例而言,能量樣本高通濾波後得到之量測音頻信號能量的能量樣本。因此,音頻信號在一頻譜較低區域之的能量對能量樣本52的影響低於該音頻信號之頻譜較高分量。然而也存在其他可能。詳言之,應指出者是依據迄此提出之實例中時間結構分析器24每一樣本時刻僅使用至少一時間結構量測26之一值的實例,僅是一個實施例且存在另外的實施例,依據該另外的實施例時間結構分析器以一頻譜鑑別方式決定時間結構量測以便獲得多數個頻譜帶中之每一頻譜帶的至少一值。因此,時間結構分析器24接著會將在時間區域36內決定之當前框34a的至少一個時間結構量測26的多於一值提供給控制器28,即每一此頻譜帶一個值,其中頻譜帶分割舉例而言為頻譜圖32的整體頻譜間隔。
第7圖繪示裝置10及其在一依據諧波前置/後置濾波器方式之支持諧波濾波器工具30的音頻編解碼器中的使用。第7圖出示一基於變換之編碼器70以及一基於變換之解碼器72,編碼器70將音頻信號12編碼成一資料流74 且解碼器72接收資料流74以便在標示於76之頻域中或選擇性地在標示於78之時域中重建音頻信號。應明瞭編碼器與解碼器70和72是獨立/分離的實體且併存繪示在第7圖中僅是為了說明。
基於變換的編碼器70包含使音頻信號12接受一變換的變換器80。變換器80可使用一重疊變換如一臨界抽樣之重疊變換,其實例是MDCT。在第7圖的實例中,基於變換的音頻編碼器70也包含一頻譜整形器82,其頻譜整形由變換器80輸出的音頻信號之頻譜。頻譜整形器82可根據一轉移函數將音頻信號之頻譜整形,該轉移函數實質上為頻域感覺函數的反向函數。頻域感覺函數可經由線性預測被導出,且關於頻域感覺函數的資訊可在資料流74中例如以線性預測係數的形式被傳送至解碼器72,線性預測係數例如是線頻譜頻率值之量化線頻譜對。或者,一感覺模型可被使用來來決定比例因子形式的頻域感覺函數,每一比例因子頻帶一個比例因子,比例因子頻帶例如能與巴克帶一致。編碼器70也包括一量化器84,其將經頻譜整形之頻譜例如以一對所有頻譜線相等的量化函數量化。如此的經頻譜整形及量化之頻譜在資料流74內被傳送至解碼器72。
為了完整起見,應指出的是,變換器80和頻譜整形器82之間的順序在第7圖中之選擇僅供說明之用。理論上,頻譜整形器82可使頻譜整形事實上在時域內,即上游變換器80發生。更進一步,為了決定頻域感覺函數, 頻譜整形器82可在時域存取音頻信號12,但未在第7圖中特別表示。在解碼器端,解碼器72在第7圖中繪示為包含一頻譜整形器86,組配來以頻譜整形器82的轉移函數之反向函數,即實質上以頻域感覺函數,接著藉由選擇性之反向變換器88整形由資料流74獲得之入站頻譜整形及量化頻譜。該反向變換器88執行相對變換器80的反向變換且例如可就此一目的執行一基於變換塊的反向變換,接續一重疊-相加處理以便執行時域混疊抵消,俾在時域中重建音頻信號。
如第7圖中繪示,一諧波前置濾波器可由在變換器80之上游或下游位置的編碼器70構成。舉例而言,一在變換器80上游的諧波前置濾波器可使時域內的音頻信號12接受一濾波以便在轉移函數或頻譜整形器82之外有效率地減弱音頻信號在諧波的頻譜。或者,諧波前置濾波可被置於變換器80下游,以這樣的前置濾波器92執行或引起頻域中的相同減弱。如於第7圖中繪示,相對應的後置濾波器94和96係位於解碼器72內:在前置濾波器92的情況中,在頻域內後置濾波器94位於反向變換器88上游將音頻信號之頻譜相反於前置濾波器92之轉移函數地反向整形,且在使用前置濾波器90的情況中,後置濾波器96在反向轉換器88下游,以一相反於前置濾波器90之轉移函數的轉移函數對在時域中重建的音頻信號執行濾波。
在第7圖的情況,裝置10控制成對實施之92與96或92與94的音頻編解碼器之諧波濾波器工具,藉由 經音頻編解碼器之資料流74將控制信號98顯式發送至解碼端用於控制該各別的後置濾波器,且與解碼端之後置濾波器的控制一致地控制編碼端的前置濾波器。
為了完整起見,第8圖繪示使用一基於變換的音頻編解碼器的裝置10也包含元件80,82,84,86和88,但此圖說明的情況為音頻編解碼器支援僅有諧波後置濾波器的方式。此處諧波濾波器工具30可實施為一在解碼器72內位於反向變換器上的後置濾波器100,以便執行在頻域內的後置濾波,或藉由使用一位於反向變換器88下游之後置濾波器以在解碼器72內執行在時域內的諧波後置濾波。後置濾波器100和102的運算模式實上與後置濾波器94與96的運算模式相同:這些後置濾波器的目的是減弱諧波間的量化雜訊。裝置10經由在資料流74內顯式發送信號來控制這些後置濾波器,該顯式發送信號在第8圖中用參考號104表示。
如上文所描述,控制信號98或104例如是以一定期方式,諸如每一框34被發送。應指出的是框不一定是相等長度。框34的長度亦可能改變。
上文中的描述,尤其是關於第2圖與第3圖的描述揭露了有關控制器28如何控制諧波濾波器工具的可能性。由該討論而明瞭,可能是該至少一時間結構量測測量該音頻信號在時間區域36之內的平均或最大能量變化。再者,控制器28在其控制選項內可能包括諧波濾波器工具30的停用。此係會示於第9圖中,第9圖繪示控制器28 包含一邏輯120,組配來檢查是否至少一時間結構量測及該諧波度量測符合一預定條件以得到一檢查結果122,該檢查結果122為二進制性質且指示是否預定條件被滿足。控制器28係被表示成包含一組配來依據檢查結果122將諧波濾波器工具於啟用與停用之間切換。如果檢查結果122指出邏輯120已認可預定條件被滿足,開關124藉由控制信號14直接指示該情況、或開關124隨同諧波濾波器工具30之一濾波器增益程度指示該情況。亦即,在後一例子中,開關將不是僅在完全關閉諧波濾波器工具30與完全打開諧波濾波器工具30之間切換,而是將諧波濾波器工具30設定成分別在濾波器強度或濾波器增益上改變的某一中間狀態。在這種情況下,如果開關124也將該諧波濾波器工具30適應/控制於完全關閉與完全打開工具30之間的某處,開關124可依據該至少一時間結構量測26及諧波度量測22以便決定控制信號14的中間狀態,即開關124用以適應工具30。換言之,開關124也可以根據量測26與22決定用來控制諧波濾波器工具30的增益因子或適應因子。或者,開關124使用於非直接指示諧波濾波器工具30關閉狀態,音頻信號12的控制信號14之所有狀態。如果檢查結果122指出符合一預定條件,則控制信號14指示諧波濾波器工具30停用。
如由以上第2和第3圖之描述中明瞭,如果至少一時間結構量測小於一預定第一門檻且對於一當前框及/或一過去框之諧波度的量測高於一第二門檻。一替代選擇 也可能存在:如果對於一當前框的諧波度之量測高於第三門檻且對於一當前框及/或一過去框的諧波度之量測高於隨著基音滯後減少之第四門檻,則滿足預定條件。
尤其,在第2和第3圖的實例中,實際上有三個滿足預定條件的可選擇方式,該等可選擇方式依據至少一時間結構量測:1.一時間結構量測<當前和過去框之門檻與組合諧波度>第二門檻;2.一時間結構量測<第三門檻和(當前或過去框的諧波度)>第四門檻;3.(一時間結構量測<第五門檻或所有時間量測<門檻)及當前框之諧波度>第六門檻。
因此,第2和第3圖揭示邏輯124的可行實施例子。
已在上文中相對第1至第3圖說說明,可行的是裝置10並不僅使用來控制音頻編解碼器的諧波濾波器工具。裝置10可隨同暫態檢測形成一系統,其能執行諧波濾波器工具之控制以及檢測暫態。第10圖繪示此一可能性。第10圖說明由裝置10和一暫態檢測器152組成的一系統150,且雖然裝置10輸出上文詳述之輸出控制信號14,暫態檢測器152係組配來檢測音頻信號12中的暫態。然而,要做到這一點,暫態檢測器152利用發生在裝置10內的一中間結果:暫態檢測器152使用時域地或頻域-時域地將音頻信號之能量抽樣的能量樣本52以供其檢測,但選擇性地 評估在一時間區域36以外的時間區域,舉例而言,諸如在當前框34a內的能量樣本。根據這些能量樣本,暫態檢測器152執行暫態檢測且信號暫態藉由一檢測信號154被檢測。在以上實例的情況下,暫態檢測信號實質上指示滿足方程式4條件的位置,即時間連續能量樣本之一能量改變超過某一門檻的位置。
從以上說明也明瞭,一基於變換的編碼器,諸如第8圖中繪示者或一編碼變換的激勵編碼器可包含或使用第10圖之系統用以依據暫態檢測信號154切換一轉換塊及/或重疊長度。再者,另外地或可選擇地,一包含或使用第10圖之系統的音頻編碼器可以是切換模式型態的。例如,USAC和EVS於模式之間使用切換。因此,如此的編碼器可能組配來支援切換在一變換編碼激勵模式與一碼激勵線性預測模式之間切換且編碼器可組配來執行依據第10圖之系統的暫態檢測信號154來執行切換。就變換編碼激勵模式而言,變換塊及/或重疊長度再次可依據於暫態檢測信號154。
上述實施例之優勢的實例。
實例1:
在其中計算LTP決策之時間量測的區域大小依據基音(見方程式(8))且此一區域不同於計算轉換長度的區域(通常當前框加上預看)。
在第11圖的實例中,暫態是在計算時間量測的區域內且因而影響LTP決策。動機的形成依上文所述是利 用由「基音滯後」指示之段的過去樣本的當前框之LTP將會伸入暫態的一部分。
在第12圖之實例中,暫態是在計算時間量測的區域以外且因此不影響LTP決策。這是合理的,因不像在前一圖中。當前框之LTP將不會伸入暫態。
在兩實例中(第11圖和第12圖),變換長度配置僅在當前框,即標示「框長度」的區域內的時間量測上決定。此意指在兩個實例中,沒有暫態將會在當前框中被檢測到且最好使用一單一長變換(而非多個連續的短變換)。
實例2:
在這裡我們討論LTP有關在諧波信號內脈衝和步級暫態的行為,其中一實例在第13圖中由信號的頻譜圖舉出。
當編碼信號包括完全信號之LTP時(由於LTP決策僅基於基音增益),輸出的頻譜圖看起來如第14圖所呈現。
頻譜係在第14圖中之信號的波形呈現在第15圖中。第15圖也包括相同的信號經低通(LP)濾波及高通(HP)濾波。在LP濾波信號中諧波結構變得比較清楚且在HP濾波信號中脈衝如暫態的位置及其軌跡更明顯。完全信號、LP信號及HP信號的水平在圖中為了說明而作修改。
對短脈衝如暫態而言(如第13圖中之第一暫態),長期預測造成如第14和15中可見的暫態重複。在階 狀長暫態(如第13圖中的第二暫態)期間使用長期預測由於暫態對較長期間足夠強,且因而遮蔽(同時以及後遮蔽)部分使用長期預測建構之信號。決策機制使LTP能用於階狀暫態(利用預測的優勢)且使LTP不能用於短脈衝狀暫態(避免噪聲)。
在第16和17圖中,在暫態檢測器中計算的區段能量被顯示。第16圖繪示脈衝狀暫態。第17圖繪示階狀暫態。對於第16圖中的脈衝狀暫態而言時間結構是在含有當前框(N new 區段)及最多到基音滯後(N past 區段)之過去框的信號上被計算,由於比率是在門檻()之上。 對第17圖中之狀暫態而言,比率是在門檻()之下且因此僅有來自區段-8,-7和-6的能量使用在時間量測的計算上。這些計算時間結構之區段的不同選擇導致對脈衝狀暫態決定高得多的能量波動,且因而使LTP不能用於脈衝狀暫態並使LTP能用於階狀暫態。
實例3:
然而在一些情況中,時間結構的使用可能是不利的。在第18圖中之頻譜及在第19圖中的波形顯示Fatboy Slim的"Kalifornia"開始約35毫秒之片段摘錄。
依據時間平度量測及最大能量改變之LTP決策因檢出極大的能量時間波動而使LTP不能用於此一型態之信號。
此樣本是暫態與形成低基音信號之串列脈衝之間之歧義的實例。
如第20圖中所見,該圖呈現相同信號之600毫秒摘錄片段,信號包含重複的非常短之脈衝狀暫態(頻譜圖使用短長度FFT產生)。
如於第21圖中之相同600毫秒摘錄片段中所見,信號看起來好像包含具有低及改變基音的諧音信號(頻譜圖使用長長度FFT產生)。
此種信號受益於LTP因具有清晰的重複結構(相 等於清晰的諧波結構)。由於有清晰的能量種變動(如由第18圖、第19圖和第20圖可見),LTP將因超過時間平度量測或最大能量改變的門檻而被停用。然而,在我們的提案中,LTP由於正規化相關超過依據基音滯後的門檻而被啟用(norm_corr(curr)<=1.2-T int /L)。
因此,除其他之外,以上實施例例如揭示了音頻編碼的一較佳諧波濾波器的概念。必需順帶重申的是,稍微偏離該一概念是可實行的。尤其,如上文所記,音頻信號12可以是語音或是音樂信號且可因基音估計、諧波度量測,或時間結構分析或測量的目的以信號12的預處理版本取代。同時,基音估計可不限於基音滯後的量測,而是如同本領域技術人員所知也能藉由在時域或頻域中量測基本頻率而執行,其能容易地藉由一方程式諸如「基音滯後=抽樣頻率/基音頻率」而轉換成一同等的基音滯後。因此,一般而言,基音估計器16估計音頻信號之基音,該音頻 信號之基音轉而體現在基音滯後和基音頻率中。
雖然一些層面已就一裝置的情況描述,很清楚地這些方面也代表對應方法的描述,其中一方塊或設備對應於一方法步驟或一方法步驟的特徵。類似地,在方法步驟情況下描述的諸方面也代表對應方方塊或項目或一對應裝置的特徵。某些或全部方法步驟可藉由(或使用)一硬體裝置,例如像是一微處理機、一可程式設計電腦或一電子電路來實施。在一些實施例中,最重要的方法步驟中的某一或多個步驟可藉由此一裝置來實施。
本發明之編碼音頻信號可被儲存在一數位儲存媒體上,或可傳輸於一傳輸媒體諸如一無線傳輸媒體、或傳輸於一有線傳輸媒體諸如網際網路。
視特定的實施需求而定,本發明的實施例能能夠實施為硬體或軟體。實施可使用一數位儲存媒體來完成,例如一軟式磁碟、一DVD、一藍光DVD、一CD、一唯讀記憶體、一可再程式化唯讀記憶體(PROM)、一可抹除可程式化唯讀記憶體(EPROM)或一快閃憶體,其上儲存有電子可讀的控制信號,其與可程式設計電腦系統協作(或能夠與之協作)。因此,數位儲存媒體可以是電腦可讀的。
依據本發明的一些實施例包含有電子可讀控制信號的資料載體,該控制信號能與可程式設計電腦系統協作以使得本文中所描述的諸方法中之一可被執行。
通常,本發明的實施例能被實施為一具有程式碼的電腦程式產品,當電腦程式產品運行在一電腦上時該程 式碼可作用而執行諸方法中之一。程式碼例如可被儲存在一機器可讀載體上。
其他的實施例包含執行本文中描述的諸方法之一的儲在在一機器可讀載體上之電腦程式。
換言之,本發明之方法的一實施例即為一電腦程式,具有當該電腦程式在一電腦上運行時用於執行本文描述之諸方法之一者的程式碼。
因此,本發明方法的進一步實施例是一資料載體(或一電子儲存媒體,或一電腦可讀媒體),包含記錄於其上之電腦程式用於執行本文中描述的諸方法之一。該資料載體、電子儲存媒體或記錄之媒體典型地是實體及/或非變遷的。
因此,本發明方法之更一步的一實施例為一表示用於執行本文所描述諸方法之一的電腦程式的一資料流或一信號序列。資料流或信號序列例如可組配成經由一資料通信連接,例如經由網際網路被傳送。
更進一步的實施例包含一處理手段,例如一電腦、或一可程式設計的邏輯裝置,其配置成適應執行本文中描述的諸方法之一者。
更進一步的實施例包含一電腦其上已安裝用於執行本文中描述之諸方法之一的電腦程式。
依據本發明之一更進一步的實施例包含一裝置或一系統,組配來將用於執行本文所描述之諸方法之一的一電腦程式移轉至(例如,電子地或光學地)一接收者。該接 收者例如可以是一電腦、一行動裝置、一記憶體裝置等同類。裝置或系統例如可包括一用來將電腦程式移轉至該接收者的檔案伺服器。
在一些實施例中,一可程式設計的邏輯裝置(例如現場可程式閘陣列)可被使用來執行本文中描述之諸方法的一些或全部的功能。在一些實施例中,欄位可程式閘陣列可與一微處理機協作以便執行本文所描述之諸方法之一。通常方法最好由任何硬體裝置來執行。
上述的實施例僅是說明本發明的原理。可以理解的是本文所描述的安排與細節的修飾與變化對於本領域技術人士是顯而易見的。因此意欲僅受接下來的專利請求項限制而不受經由描述和說明本文中之實施例而提出的特定細節限制。

Claims (27)

  1. 一種用於執行音頻編解碼器之諧波濾波器工具的諧波度相依控制的裝置,包含:一基音估計器,組配來決定由該音頻編解碼器處理的一音頻信號的一基音;一諧波度測量器,組配來使用該基音以決定該音頻信號的諧波度的量測;一時間結構分析器,組配來依據該基音以決定至少一量測該音頻信號之一時間結構的一特性的時間結構量測;一控制器,組配來依據該時間結構量測及諧波度之量測控制該諧波濾波器工具。
  2. 依據請求項1之裝置,其中該諧波度測量器係組配來藉由在該基音之一基音滯後或其附近計算該音頻信號或其一預修改後版本的一正規化相關來決定諧波度的量測。
  3. 依據請求項1或2之裝置,其中該基音估計器係組配來在包含第一階段和第二階段的階段中決定該基音。
  4. 依據請求項3之裝置,其中該基音估計器係組配來在該第一階段內決定該基音在一第一抽樣率之降低抽樣域的一初步估計,且在該第二階段內以高於第一抽樣率的第二抽樣率精化該初步估計。
  5. 依據前述請求項中任一項之裝置,其中該基音估計器係組配來使用自相關以決定該基音。
  6. 依據前述請求項中任一項之裝置,其中該時間結構分析器係組配來決定在一依據該基音時間上定位之一時間區域內的該至少一時間結構量測。
  7. 依據請求項6之裝置,其中該時間結構分析器係組配來依據該基音定位該時間區域、或對該時間結構量測之決定有較高影響之區域的時間上過去標頭端。
  8. 依據請求項6或7之裝置,其中該時間結構分析器係組配來定位該時間區域、或對該時間結構量測之決定有較高影響之區域的時間上過去標頭端,使得該時間區域、或對該時間結構量測之決定有較高影響之區域的時間上過去標頭端以隨著基音減少單調增加之一時間量位移到過去方向。
  9. 依據請求項7或8之裝置,其中該時間結構分析器係組配來依據一時間候選區域內之音頻信號的時間結構定位該時間區域、或對該時間結構量測之決定有較高影響之區域的時間上未來標頭端,該時間候選區域從該時間區域、或對該時間結構量測之決定有較高影響之該區域的時間上過去標頭端延伸到一當前框之一時間上未來標頭端。
  10. 依據請求項9之裝置,其中該時間結構分析器係組配來使用該時間候選區域內最大與最小能量樣本之振幅或比率來定位該時間區域、或對該時間結構量測之決定有較高影響之區域的時間上未來標頭端。
  11. 如前述前求項中任一項之裝置,其中該控制器包含 一邏輯,組配來檢查是否一預定條件由至少一時間結構量測及諧波度之量測滿足而得到一檢查結果;以及一開關,組配來根據該檢查結果使該諧波濾波器工具在啟用與停用之間切換。
  12. 依據請求項11之裝置,其中該至少一時間結構量測測量該時間區域內之該音頻信號的平均或最大能量變化且該邏輯係組配來使得若有以下情況則該預定條件被滿足不僅至少一時間結構量測係小於一預定第一門檻且該諧波度對一當前框及/或前一框之量測在第二門檻以上。
  13. 依據請求項12之裝置,其中該邏輯係組配來使得若有以下情況則該預定條件也被滿足該諧波度對當前框之量測在第三門檻之上,且該諧波度對當前框及/或前一框之量測是在隨該基音之基音滯後增加而減小的第四門檻以上。
  14. 依據前述請求項中任一項之裝置,其中該控制器係組配來藉由下述來控制該諧波濾波器工具經由一音頻編解碼器之資料流將一控制信號顯式發送信號至解碼端;或經由一音頻編解碼器之資料流將一控制信號顯式發送信號至解碼端用於控制在該解碼端之一後置濾波器,且與控制在該解碼端之後置濾波器一致地控制在一解碼端的前置濾波器。
  15. 依據前述請求項中任一項之裝置,其中該時間結構分析 器係組配來以一頻譜鑑別方式決定該至少一時間結構量測,以獲得多個頻譜帶之每一頻譜帶的至少一時間結構量測的一值。
  16. 依據前述請求項中任一項之裝置,其中該控制器係組配來以框單位控制該諧波濾波器工具,且該時間結構分析器係組配來以高於框之框率的抽樣率抽樣該音頻之能量,以獲得該音頻的能量樣本且根據該能量樣本決定該至少一時間結構量測。
  17. 依據請求項16之裝置,其中該時間結構分析器係組配來決定在時間上依據該基音定位之一時間區域內的至少一時間結構量測,且該時間結構分析器係組配來根據該能量樣本,藉由計算一組測量該時間區域內之能量樣本的成對緊接連續能量樣本間之改變的能量改變值,並使該組能量改變值滿足包括一最大運算子或每一加數依據於該組能量改變值之恰好一者的加數之和的一純量函數以決定該至少一時間結構量測。
  18. 依據請求項16和17中任一項之裝置,其中該時間結構分析器係組配來執行音頻信號之能量在一高通濾波域內之抽樣。
  19. 依據前述請求項中任一項之裝置,其中該基音估計器,該諧波度測量器及該時間結構分析器基於包括原始音頻信號及其某一預修改後版本的音頻信號不同版本執行量測。
  20. 依據前述請求項中任一項之裝置,其中該控制器係組配 來依據於時間結構量測及該諧波度之量測來控制該諧波濾波器工具在啟用與停用諧波濾波器工具之一前置濾波器及/或一後置濾波器之間切換,或逐漸適應該諧波濾波器工具的該前置濾波器及/或該後置濾波器的濾波器強度,其中該諧波濾波器工具是一前置濾波器外加後置濾波器的方式且該諧波濾波器工具的前置濾波器工具係組配來增加在該音頻信號之基音的一諧波內的量化雜訊,及該諧波濾波器工具之該後置濾波器係組配來相應地重建發送頻譜,或該諧波濾波器工具僅是一後置濾波器的方式且該諧波濾波器工具的該後置濾波器係組配來過濾發生在該音頻信號之基音的諧波之間的量化雜訊。
  21. 一種聲音編碼器或聲音解碼器,包含一諧波濾波器工具及依據前述請求項中任一項之執行該諧波濾波器工具的諧波度相依控制的裝置。
  22. 一種系統,包含一依據前述請求項16至18中任一項之裝置,用於執行一諧波濾波器工具之諧波度相依控制,以及一暫態檢測器,組配來根據該能量樣本檢測將被該音頻編解碼器處理之一音頻信號中的暫態。
  23. 一種包含請求項22之系統的基於變換之編碼器,組配來依據檢測出的暫態切換一變換塊及/或重疊長度。
  24. 一種包含請求項22之系統的音頻編碼器,組配來支援依 據於檢測出之暫態而在一變換編碼激勵模式及一碼激勵線性預估模式之間切換。
  25. 依據請求項24之音頻編碼器,組配來依據檢測出的暫態於該變換編碼激勵模式中切換一變換塊及/或重疊長度。
  26. 一種用以執行一音頻編解碼器的諧波濾波器工具之諧波度相依控制的方法,包含決定將被音頻編解碼器處理之一音頻信號的一基音;使用該基音決定音頻信號之諧波度的量測;依據該基音決定測量該音頻信號之時間結構之一特性的至少一個時間結構量測;依據該時間結構量測及該諧波度之量測控制該諧波濾波器工具。
  27. 一種電腦程式,具有一當在電腦上運行時用以執行依據請求項26之方法的程式碼。
TW104123539A 2014-07-28 2015-07-21 諧波濾波器工具之諧波度相依控制技術 TWI591623B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP14178810.9A EP2980798A1 (en) 2014-07-28 2014-07-28 Harmonicity-dependent controlling of a harmonic filter tool

Publications (2)

Publication Number Publication Date
TW201618087A true TW201618087A (zh) 2016-05-16
TWI591623B TWI591623B (zh) 2017-07-11

Family

ID=51224873

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104123539A TWI591623B (zh) 2014-07-28 2015-07-21 諧波濾波器工具之諧波度相依控制技術

Country Status (18)

Country Link
US (3) US10083706B2 (zh)
EP (4) EP2980798A1 (zh)
JP (3) JP6629834B2 (zh)
KR (1) KR102009195B1 (zh)
CN (2) CN113450810B (zh)
AR (1) AR101341A1 (zh)
AU (1) AU2015295519B2 (zh)
BR (1) BR112017000348B1 (zh)
CA (1) CA2955127C (zh)
ES (3) ES2836898T3 (zh)
MX (1) MX366278B (zh)
MY (1) MY182051A (zh)
PL (3) PL3779983T3 (zh)
PT (2) PT3175455T (zh)
RU (1) RU2691243C2 (zh)
SG (1) SG11201700640XA (zh)
TW (1) TWI591623B (zh)
WO (1) WO2016016190A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980799A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP3382701A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
TWI864704B (zh) * 2023-04-26 2024-12-01 弗勞恩霍夫爾協會 用於音訊編碼器中之尺度參數之諧度相依傾斜控制之設備及方法

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5469087A (en) * 1992-06-25 1995-11-21 Noise Cancellation Technologies, Inc. Control system using harmonic filters
JP3122540B2 (ja) * 1992-08-25 2001-01-09 シャープ株式会社 ピッチ検出装置
CN1155942C (zh) * 1995-05-10 2004-06-30 皇家菲利浦电子有限公司 具有改进的音调检测的编码语音传输系统和方法
JP3483998B2 (ja) * 1995-09-14 2004-01-06 株式会社東芝 ピッチ強調方法および装置
US6064962A (en) * 1995-09-14 2000-05-16 Kabushiki Kaisha Toshiba Formant emphasis method and formant emphasis filter device
JP2940464B2 (ja) * 1996-03-27 1999-08-25 日本電気株式会社 音声復号化装置
JPH09281995A (ja) * 1996-04-12 1997-10-31 Nec Corp 信号符号化装置及び方法
CN1180677A (zh) 1996-10-25 1998-05-06 中国科学院固体物理研究所 纳米添加氧化铝陶瓷的改性方法
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
DE19736669C1 (de) 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
JP2000206999A (ja) * 1999-01-19 2000-07-28 Nec Corp 音声符号伝送装置
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
CA2388352A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
TW594674B (en) * 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
JP2004302257A (ja) * 2003-03-31 2004-10-28 Matsushita Electric Ind Co Ltd 長期ポストフィルタ
US20050143979A1 (en) * 2003-12-26 2005-06-30 Lee Mi S. Variable-frame speech coding/decoding apparatus and method
JP4698593B2 (ja) * 2004-07-20 2011-06-08 パナソニック株式会社 音声復号化装置および音声復号化方法
ATE476733T1 (de) * 2004-09-16 2010-08-15 France Telecom Verfahren zum verarbeiten eines rauschbehafteten tonsignals und einrichtung zur implementierung des verfahrens
ES2358125T3 (es) * 2005-04-01 2011-05-05 Qualcomm Incorporated Procedimiento y aparato para un filtrado de antidispersión de una señal ensanchada de excitación de predicción de velocidad de ancho de banda.
ATE482449T1 (de) * 2005-04-01 2010-10-15 Qualcomm Inc Verfahren und vorrichtungen zum kodieren und dekodieren eines hochbandteils eines sprachsignals
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
CN101496095B (zh) * 2006-07-31 2012-11-21 高通股份有限公司 用于信号变化检测的系统、方法及设备
MX2009004212A (es) * 2006-10-20 2009-07-02 France Telecom Atenuacion de superposicion de voz, en particular para generar una excitacion en un decodificador, en ausencia de informacion.
US8036899B2 (en) * 2006-10-20 2011-10-11 Tal Sobol-Shikler Speech affect editing systems
EP2099026A4 (en) * 2006-12-13 2011-02-23 Panasonic Corp AFTERFILTER AND FILTER PROCESS
JP5084360B2 (ja) * 2007-06-13 2012-11-28 三菱電機株式会社 音声符号化装置及び音声復号装置
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
WO2009039897A1 (en) * 2007-09-26 2009-04-02 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program
ATE518224T1 (de) * 2008-01-04 2011-08-15 Dolby Int Ab Audiokodierer und -dekodierer
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
JP5538382B2 (ja) * 2008-07-11 2014-07-02 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号エンコーダ、オーディオ信号デコーダ、オーディオ信号をエンコードするための方法、オーディオ信号をデコードするための方法及びコンピュータープログラム
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
PL3598446T3 (pl) * 2009-01-16 2022-03-28 Dolby International Ab Transpozycja harmonicznych rozszerzona o iloczyn wektorowy
EP2226794B1 (en) 2009-03-06 2017-11-08 Harman Becker Automotive Systems GmbH Background noise estimation
CN102169694B (zh) * 2010-02-26 2012-10-17 华为技术有限公司 生成心理声学模型的方法及装置
WO2011142709A2 (en) * 2010-05-11 2011-11-17 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for processing of audio signals
CA3124114C (en) * 2010-07-02 2022-07-05 Dolby International Ab Audio decoding with selective post filtering
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
BR112013016438B1 (pt) * 2010-12-29 2021-08-17 Samsung Electronics Co., Ltd Método de codificação, método de decodificação, e mídia de gravação legível por computador não transitória
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
TWI488177B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
CN102195288B (zh) * 2011-05-20 2013-10-23 西安理工大学 一种有源调谐型混合滤波器及进行有源调谐的控制方法
US8731911B2 (en) 2011-12-09 2014-05-20 Microsoft Corporation Harmonicity-based single-channel speech quality estimation
CN103325384A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 谐度估计、音频分类、音调确定及噪声估计
WO2013142726A1 (en) * 2012-03-23 2013-09-26 Dolby Laboratories Licensing Corporation Determining a harmonicity measure for voice processing
US20140046670A1 (en) * 2012-06-04 2014-02-13 Samsung Electronics Co., Ltd. Audio encoding method and apparatus, audio decoding method and apparatus, and multimedia device employing the same
DE102014113392B4 (de) 2014-05-07 2022-08-25 Gizmo Packaging Limited Verschlussvorrichtung für einen Behälter
ES2614358T3 (es) * 2014-07-28 2017-05-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selección de uno de un primer algoritmo de codificación y un segundo algoritmo de codificación usando reducción de armónicos
JP2017122908A (ja) * 2016-01-06 2017-07-13 ヤマハ株式会社 信号処理装置および信号処理方法
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering

Also Published As

Publication number Publication date
ES2836898T3 (es) 2021-06-28
CN106575509B (zh) 2021-05-28
PT3396669T (pt) 2021-01-04
CN113450810B (zh) 2024-04-09
PL3175455T3 (pl) 2018-11-30
EP3779983B1 (en) 2024-08-21
CA2955127A1 (en) 2016-02-04
JP2020052414A (ja) 2020-04-02
BR112017000348A2 (pt) 2018-01-16
PT3175455T (pt) 2018-10-15
EP3175455B1 (en) 2018-06-27
US10083706B2 (en) 2018-09-25
JP7568695B2 (ja) 2024-10-16
EP3779983A1 (en) 2021-02-17
JP7160790B2 (ja) 2022-10-25
KR20170036779A (ko) 2017-04-03
RU2017105808A3 (zh) 2018-08-28
PL3396669T3 (pl) 2021-05-17
US10679638B2 (en) 2020-06-09
EP3175455A1 (en) 2017-06-07
TWI591623B (zh) 2017-07-11
EP3396669B1 (en) 2020-11-11
BR112017000348B1 (pt) 2023-11-28
US20190057710A1 (en) 2019-02-21
WO2016016190A1 (en) 2016-02-04
SG11201700640XA (en) 2017-02-27
EP3396669A1 (en) 2018-10-31
EP3779983C0 (en) 2024-08-21
PL3779983T3 (pl) 2025-01-07
AU2015295519B2 (en) 2018-08-16
RU2691243C2 (ru) 2019-06-11
RU2017105808A (ru) 2018-08-28
KR102009195B1 (ko) 2019-08-09
JP2023015055A (ja) 2023-01-31
AR101341A1 (es) 2016-12-14
EP2980798A1 (en) 2016-02-03
ES2988064T3 (es) 2024-11-19
MY182051A (en) 2021-01-18
ES2685574T3 (es) 2018-10-10
JP2017528752A (ja) 2017-09-28
CN106575509A (zh) 2017-04-19
MX2017001240A (es) 2017-03-14
US11581003B2 (en) 2023-02-14
AU2015295519A1 (en) 2017-02-16
JP6629834B2 (ja) 2020-01-15
CA2955127C (en) 2019-05-07
CN113450810A (zh) 2021-09-28
US20200286498A1 (en) 2020-09-10
US20170133029A1 (en) 2017-05-11
MX366278B (es) 2019-07-04

Similar Documents

Publication Publication Date Title
TWI591623B (zh) 諧波濾波器工具之諧波度相依控制技術
KR101771828B1 (ko) 오디오 인코더, 오디오 디코더, 인코딩된 오디오 정보를 제공하기 위한 방법, 디코딩된 오디오 정보를 제공하기 위한 방법, 컴퓨터 프로그램 및 신호 적응적 대역폭 확장을 이용한 인코딩된 표현
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JP6086999B2 (ja) ハーモニクス低減を使用して第1符号化アルゴリズムと第2符号化アルゴリズムの一方を選択する装置及び方法
WO2012110448A1 (en) Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
KR102426050B1 (ko) 피치 지연 선택