TW564400B - Speech coding/decoding method and speech coder/decoder - Google Patents
Speech coding/decoding method and speech coder/decoder Download PDFInfo
- Publication number
- TW564400B TW564400B TW090132449A TW90132449A TW564400B TW 564400 B TW564400 B TW 564400B TW 090132449 A TW090132449 A TW 090132449A TW 90132449 A TW90132449 A TW 90132449A TW 564400 B TW564400 B TW 564400B
- Authority
- TW
- Taiwan
- Prior art keywords
- speech
- pitch
- parameter
- linear prediction
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000005284 excitation Effects 0.000 claims abstract description 39
- 239000011295 pitch Substances 0.000 claims description 72
- 238000001228 spectrum Methods 0.000 claims description 63
- 238000000605 extraction Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000003786 synthesis reaction Methods 0.000 claims description 7
- 238000009499 grossing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000013139 quantization Methods 0.000 claims description 4
- 206010061218 Inflammation Diseases 0.000 claims description 2
- 230000009471 action Effects 0.000 claims description 2
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000004054 inflammatory process Effects 0.000 claims description 2
- 241000270666 Testudines Species 0.000 claims 1
- 235000012054 meals Nutrition 0.000 claims 1
- 230000001846 repelling effect Effects 0.000 claims 1
- 238000013461 design Methods 0.000 abstract description 15
- 230000006835 compression Effects 0.000 abstract description 4
- 238000007906 compression Methods 0.000 abstract description 4
- 230000001755 vocal effect Effects 0.000 abstract 1
- 238000007792 addition Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001256 tonic effect Effects 0.000 description 2
- 244000025254 Cannabis sativa Species 0.000 description 1
- 235000012766 Cannabis sativa ssp. sativa var. sativa Nutrition 0.000 description 1
- 235000012765 Cannabis sativa ssp. sativa var. spontanea Nutrition 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052797 bismuth Inorganic materials 0.000 description 1
- JCXGWMGPZLAOME-UHFFFAOYSA-N bismuth atom Chemical compound [Bi] JCXGWMGPZLAOME-UHFFFAOYSA-N 0.000 description 1
- 235000009120 camo Nutrition 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000005607 chanvre indien Nutrition 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 239000011487 hemp Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
56i44Q0a ^ ^ , 年月 ^少上^
w、食,--备、I ,90132449 修正 曰 月 ----------------------- ^jPLi 五、發明說明(1) 【發明領域】 , 本發明係有關一種語音編/解碼方法及語音編/解碼器 的設計’特別是一種將位元率由始語音64Kbps降至 1· 6Kbps之語音編/解碼方法及語音編/解碼器的設計。 【發明背景】 基本上數位語音編碼(Digitai Speech Coding)的主 要目的是將語音數位化,並且將其適當的編碼壓縮,以減 少數位語音訊號在傳輸時所需的位元率(Bit Rate),降低 傳輸訊號所需之頻寬及增加傳輸線路的使用效能。除了降 低語音傳輸的位元率之外,還必須確保在接收端所接收到 壓縮後的語音資料,能夠合成具有合理音質的語音。目 前’各種語音編碼技術無不致力於位元率的降低以及合成 音質的提升。 低位元率洁音編蹲Is的發展’繼FS1016 CELP 4.8Kbps之後,美國國防部於1 9 96年宣佈了混合激發線性 預測編碼器(MELP)為2· 4Kbps的新標準,造成了 2.4K及更 低位元率編碼器的研究潮流。本發明人在研究了目前2.4Κ 標準如LPC1 0及混合激發線性預測編碼器混合激發線性預 測編碼器等之後,進而發展出1· 6kbps語音壓縮方法。語 音技術的硬體化,是語音產品化、生活化的主要關鍵。本 發明以應,導向積體電路(設計方,式完成之1: 6kbps語音編 碼器之硬體架構,執行速度上比數位訊號^理器來的快, 適合多線編碼等需要快速運算的系統,且成本也比數位訊 號處理器來的低。 【發明概要】
案號 90132449 一年 月 a 修正 五、發明說明(2) 本發明之主要目的係提供一種語音編碼方法,將位元 率由始語音64Kbps降至1.6Kbps,以減少數位語音訊號在 傳輸時所需的位元率(Bit Rate),降低傳輸訊號所需之頻 寬及增加傳輸線路的使用效能。 本發明之另一目的係提供一種語音解碼方法,以確保 在解壓縮後的語音資料,能夠具有合理音質的語音。 本發明又一目的係以應用導向積體電路設計方式完成 浯音編/解碼器之硬體架構,執行速度上比數位訊號處理 器來的快,適合多線編碼等需要快速運算的系統,且成本 也比數位訊號處理器來的低。 ^ 為達上述目的,本發明提出一種語音編碼方法,係將 浯音訊號以8KHz取樣,再予以分成許多主音框(frame), 做為編碼參數傳輸單位,其中一個主音框總共傳送48個位 το,且該每個主音框大小為24〇點,位元率為丨,該 1碼參數包括有:線性頻譜對參數(Une Spectrum pair, )、增益參數、有聲/無聲判斷參數、音高週期參數以 沐^位元之同步位元;其中該線性頻譜對參數之求出方 寸_、棟該主音框的語音先用漢明視窗(Hamming Window)作 =处,再求其自相關係數做線性預測分析,求取十階線 =測係數,•著轉換成線性頻譜對參數;該增益= 數求出,該有聲/無聲判斷參數係利用越零率(z㈣ 步判斷,該音南週期參數之求出方法包括以下
第7頁 5麵00
案號 9013244Q 五、發明說明(3) 步驟一:將該主音框的所 就疋找出振幅大小最大點 為主找音南’將此最大值 前後1 9點清除為零;若此 高,將此最小值點設為音 清除為零; 步驟二:設定上述振幅最 曰 (Threshold) 步驟三:若此主音框是以 刖主音框的最大值,若此 高’並將目前最大值點及 框是以負源為主找音高, 值’若此值小於臨界值, 值點及其前後1 9點清除為 步驟四:反覆利用步驟三 兩所有的點都小於臨界值 的點都大於臨界值為止; 步驟五·將音高的位置依PI、P2、P3、P4、P5、P6 步驟六··將所有音高的位 一丨,2,···,N(N為音高的個 得音高週期。 另外,在解碼端,係 每個次音框合成時的十階 化後之線性頻譜對參數與 有取樣點找出其絕對最大值’也 之值;若此值為正,則以最大值 點設為音高,並將最大值點及其 值為負,則以最小值為主找音 高,並將最小值點及其前後1 9點 大點之值的0.68倍為臨界值 正源為主找音高,則重新找出目 值大於臨界值,則設此點為音 其前後1 9點清除為零;若此主音 則重新找出目前主音框的最小 則設此點為音高,並將目前最小 零; 尋找音高,直到以正源為主找音 為止,或以負源為主找音高所有 照從小到大的順序排序,可 得
IH
置求取間距Di = Pi + 1 — pi , · 數),並將間距加以平扒 ^ _* i 了 5,就可 將每個主音框分為四個次音框, 線性預測係數是由目前主^^ 前一値It音框t、線y譜‘參^
第8頁 5^MQPi2 年刀 h l一·=J1^^132449,m 一 年月日 修正 五、發明說明(4) " " *----- ,里化值内插,反求而得;另外,在激發源部份,若為有 1細I ·二&激發,由音尚週期產生的脈衝串加上隨機雜 吞二成’ f為無聲,則僅用隨機雜訊表示;此外,在產生 ϋί ί聲激發源後’該激發源必須經過平滑化濾、波器加 ^ 源的平滑;最後,將上述十階線性預測係數與過 叙二兴之十個語音訊號相乘,再加上上述語音激發源訊號 ^ 3廉’即可得到對應於目前語音激發源訊號之合成語 音0 ^外,配合上述方法,本發明提出一種語音編/解碼 f係以應用導向超大型積體電路架構(ASIC)之方式來 ,又计丄其中編碼端包括:一漢明視窗處理單元,其係將每 個主曰框的浯音先用漢明視窗(Hamming Window)作前處 理1自相關運算單元,係將上述處理過之語音求其自相 Ϊ Ϊ Ϊ ; 一線性預測係數擷取單元,係將上述自相關係數 線性預f分析,求取十階線性預測係數;一線性頻譜姆 二數擷取單70,係將上述十階線性預測係數轉換為線性頻 =ί參數並加以量化編碼;一增益榻取單元,係利用上 述自=關係數和線性預測係數求出增益參數;一音高週期 ,取單4元,係用以將上述主音框求取音高週期;以及一 聲/無聲判斷單元,係利用越零率(Zer〇 cr〇ssing rate)、能量(Energy)以及上,線性預測係數的第一階係 數做絲合判斷該語音訊號係有聲/無聲。 在解碼端包括·一脈衝串產生器(Impulse Train enerator) ’係接受上述音高週期以產生脈衝串;一第 遺機雜訊產生器(Rand〇m Noi se Generator ),係用以 56 妨 2 @號 90132449
五、發明說明(5) 產生隨機雜訊,在上述有聲/無聲判斷單元判 時,該隨機雜訊與上述脈衝串傳送至一加法 源一第二隨機雜訊產生器,係用以產生隨機雜二生:: 迷有聲/無聲判斷單元判斷為無聲時,該隨機雜吨直 不為激發源;一線性頻譜對參數(LSP)内插單元(Lsp Interpolation),係接受上述線性頻譜對參數, 主音框量化後之線性頻譜對參數與前一個主音框 ,對參數的量化值以加權指數内#;—線性頻來= 線性預測係數渡波器(LSP t0 Lpc),係用以將上述内: 後之線性頻譜對參數求出每個次音框合成時的十階線性 測係數;一合成濾波器(Synthetic H Her ),係將上 十階線性預測係數與過去合成之十個語音訊號相乘,再加 上上述語音激發源與上述增益,即可得到對應於目前語音 激發源訊號之合成語音。 【發明詳細說明】 〜為詳細揭露本發明,以下以較佳實施例配合圖式做詳 、、田”尤明。本發明係以應用導向超大型積體電路架構(IC ) 之2式來設計,將語音訊號#8KHZ取樣,再予以分成許多 主音框(frame),做為編碼參數傳輸單位,每個主音框的 大小為30ms (240樣本點),其中編碼端架構示意圖,如圖 一所不’包括:一漢明視窗處理單元丨丨,其係將每個主音 框的曰先用漢明視窗(Hamming wind〇w)作前處理;一自 相關運算單元1 2,係將上述處理過之語音求其自相關係 數’一線性預測係數擷取單元丨3,係將上述自相關係數做 線性預測分析’求取十階線性預測係數;一線性頻譜對參
第10頁 564400
案號 90132449 五、發明說明(6) 元“知係:上述十階線性預測係數轉換為線性頻 jif ’以置化編碼;-增益擷取單元15,係利= 上述自相關係數和線性預測係數求出增益參數;一 ^ ^ 期擷取單元16 ’係用以將上述主音框求取音高週期週 以及一有聲/無聲判斷單元17,係利用越零率(Zer〇>數, crossing rate)、能量(Energy)以及上述線性預測係數 第一階係數做綜合判斷該語音訊號係有聲/無聲。 本發明之編碼方法,係將每個主音框的語音先用漢明 視窗(Hamming Window)作前處理,再運用求其自相關/係數 做線性預測分析,求取十階線性預測係數,接著轉換成線 頻譜對參數(Line Spectrum Pair,LSP),這和LPC-1〇 的 反射係數(Reflection Coefficients)不同,它的物理意 義是當聲門全開或全閉時,在頻譜圖中會形成一對對線狀 的紋理’而且接近共振頻率(res〇nant freqUencies)出現 的位置’它是交錯地出現,其值的大小介於〇到兀之間,故 線頻譜對參數具有良好的穩定度(Stability)。此外,它 有量化與内插以降低位元率的特性,所以我們可以將所求 出的十階線性預測係數轉換為線頻譜對參數,並加以量化 編碼。 除了線頻譜對參數外,本方法尚需傳送增益、有聲/ 無聲判斷、音高週期等語音參數,分述如下: (1 )增益(Gain) " 增益可以利用線性預測分析所求得的自相關係數和線 性預測係數求出,其式子如下
G
5^400/ —…身號901324迎--年 月 曰 修正__ 五、發明說明(7) * 一 '~— 其中G為增益,R(k)為自相關係數,a(k)為線性預 係數,η為線性預測的階數。 、“ (2 )有聲語音還是無聲語音之判斷 每個主音框要判斷為有聲語音還是無聲語音,這個判 斷是為了選取不同的激發源,若是有聲音,則選取有聲的 激發源’若是無聲音,則選取無聲的激發源,所以有聲、 音/無聲音的判斷是非常重要的,否則判斷錯了,激發源 也就隨之判錯’聲音的品質也會下降。要判斷有聲音/ ^ 聲音的方法很多,在本發明使用了三種常用的方法,其“方 a·越零率(zero crossing rate):越零率顧名思義乃系立 訊號S( η)通過零值的次數,也就是兩連續樣本間具有^ ^ 的正負號次數,以式子表示則為: sign[S(n)] s i gn [ S ( η +1 )] 如果越零率高,則表示此段語音為無聲語音,若越零率 低’則表示此段語音為有聲語音,因為無聲語音像摩擦音 的能量多集中在3Κ Hz以上,所以越零率會偏高。 b·能量(Energy)··語音訊伽號S(n)的能量E(n)定義為
^能量大,則表示為有聲語音;若能量小,則表示為 無斧,音,且能量在計算自相關R(0)時已求得了。 c·線性預測係數的第一階係數:若此係數大,則表示為 有聲語音;若此係數小,則表示為無聲語音。 述二種方法如果有兩個方法判斷為有聲語音,則此 *3& -kr a _ M t
主音框為有聲語音,反之,則為無聲語音 麵
(3 )音高週期(Pi tch), 音高週期之演算法如下: f驟1 ··將主音框的所有取樣點找出其絕對最大值,也就 疋找出振幅大小最大點之值,若此值為正,則以最大值為 主找音高’將此最大值點設為音高。並將最大值點及其前 後1 9點清除為零;若此值為負,則以最小值為主找音高, 將此最^值點設為音高,並將最小值點及其前後19點清除 為零。這疋因為語音的波形有些由正源比較好看出音高的 =置,有些則是由負源比較好看出音高的位置。而我們的 曰高週期最小值約為20 ,所以可以將所找出之音高附近的 1 9點設為零。 步驟2 ··設定振幅最大點之值的〇·68倍為臨界值 (Threshold) 〇 :驟3:若此主音框是以正源為主找音高,則重新找出目 =主音框的最大值,若此值大於臨界值,則設此點為音 高,並將目前最大值點及其前後19點清除為零。若此主音 框是以負源為主找音高,則重新找出目前主音框的 值,若此值小於臨界值,則設此點為音高,並將目 值點及其前後1 9點清除為零。 音高’直到以正源為主找 ’或以負源為主找音高所 步驟4 :如此反覆利用步驟3尋找 音高所有的點都小於臨界值為止
I 有的點都大於臨界值臨界值為止 步驟5 :因為所求的音高的位置順序是按照值的大小所排 列,所以在求取音高週期之前必須將音高的位置依昭從小 到大的順序排序,可得PI、P2、P3、P4、p5、p6 5 汹 400 魅9013難 五、發明說明(9){^驟::,後,將所有音高的位置求取間距Di = Pi + 1 - 的,1 β立2二,N (Ν為音高的個數),並將間距加以平 均,就疋音高週期Ρ 了。 妇 卞Σα Ρ η 曰 修正 Ν-1 碼端架構圖如圖二,其每個主音框又可分 括:一脈衡ΙΪΓ曰的大小為7*5ms (60樣本點),其包 将接為立古、 E (Impulse Train Generator )21 ^ 器(R^ifd南1期參數以產生脈衝串;一第一隨機雜訊產生 / 〇m N〇1Se Generator ) 22 ,係用以產生隨機雜 上述有聲/無聲判斷單元η判斷為有聲時,該機隨雜機 隨機雜訊產生器23 產生激發源;-第二 無聲判斷單元17判斷為益㈣^ f上述有聲/ •一 馮無聲時,該隨機雜訊直接表示為激 發源,線性頻譜對參數(LSP)内插單元(LSP I^t^r^olajioii/ ) 24,係接受上述線性頻譜對參數,由目 :嫌::m:線性頻譜對參數與前一個主音框之線性 頻;a對參數的量化值以“ #也· rin . 值M加權拍數内插;一線性頻譜對參數 轉測係數渡波器(LSPt0LPC)25,係用以 性頻譜對參數求出每個次音框合成時的十階線 性預測係數,一合成濾波器(Synthetic Futer ),係將 上述十階線性預測係數與過去合成之十個語音訊號相乘, 再加上語音激發源盘增茬炎机,1 激發源訊號之合ΐ語·;益參數料得到對應於目前語音 本發:之解碼方法中次音框合成時的線性預測係數是 由目前主8框量化後之線性頻譜對參數與前一個主音框之
5644〇Q^
曰 修正 線丨生頻譜對參數的量化值内插,反求而得,内插加權指數 見表一 〇 在激發源部份,若為有聲,採用混合激發,由音高週 期產生的脈衝争加上隨機雜訊紐成。混和激發的目的是在 週期的激發源中適當的參入一些隨機雜訊,如此可以模擬 生像= 2”"曰特徵來產生各種的有聲語音,才不會產 & &祖1 #預測分析機械聲的感覺和擾人的雜訊,使合 成的;;σ日自然度增加,接客右獻 線性預測八鉍% I ^同有聲^音的音質,這點是傳統 示。 刀 欠缺的,若為無聲,則僅用隨機雜訊表 略·· 本方法加入了 U下兩S増進合成語音品質的策 (1) 激發源平滑化濾波器 激發源平滑化濾波器可使 源。 便解碼端擁有更佳之語音激發 a ·在有聲音方面,jl in :麻、占, A(z) : 〇·125 + 〇·;5ζ二二二如圖三A 所示,為 b ·在無聲音方面,其孚、、典 z A(z)…G· 125 +、〇·25三8所示’為 (2) 主音框間高週期之連續性· 題,必須考慮其連續性的問 前主音框則是由餘點的大…在目 生激發的脈衝串,例如前主音框的音高週期開始產 m 餘點為40 ’若目前主音框的音古=二=週期為5〇,則會剩 二-----------週期為75,則目前主音框
$ 15頁 5#440i〇4 I年月 l· !
曰 五、發明說明(11) 產生脈7串的起點則改n MM 間的連縯,如圖四所示。 本發明之編瑪方法因為不用反射係 對參數,所以可節省位元的數目,其位 框以34個位元料切線㈣㈣參數 用1個位70,音高週期用7個位元,增益 元的同步位元,一個主音框總共傳送48 框大小為240點,位元率為丨6Kbps。 以下針對編碼方法中採用到的自相 係數擷取、線性頻譜對參數擷取、增益 取’首先分析其運算式,再根據運算式 設計方式。 修正 主音框和主音框之 數而改用線性頻譜 元配置為每個主音 ,有聲/無聲判斷 用5個位元,1個位 個位元,每個主音 關運算、線性預測 擷取及音高週期擷 提出其硬體架構之 【自相關運算之硬體架構設計方式】 自相關運算在所有語音參數求取的計算量是最大的, 如果以10階的自相關運算為例必須計算別到!^1()共丨丨個, 而以R0為例;所需要的乘法數目為2 4〇,加法數目為239 : R1的乘法數目為239,加法數目為238,依此類推到R11所 需的乘法數目為230,加法數目為229 ;若以唯讀記憶體控 制(Control ROM)之方式來控制乘加與載入暫存器的方 式;其控制字組(Control Word)要5159筆,太大也太沒 效率了。 I · 因為自相關演算法有固定的週期性,所以本發明提出 一個有限狀態機方式的解法;改直接由有限狀態機發出控 制訊號到資料路徑;首先觀察自相關演算法以一個音框 2 40點為例:
第16頁 2 564400 她 90132449 Λ_3 曰 修正 五、發明說明(12) 239-k R(k)=乞 x(m)x(m + k) (1· 1 無論計算到哪一階,其終止條件都是式子(11)當中χ (m + k) = χ(2 39),我們在電路上採用二組位址計胃數器^與 c2來表示x(m)與x(m + k)的值,在計算每一階的(:1與2之範' 圍分佈如圖五所示,計算自相關的有限狀態機只要發現以 = 239時就可以轉移狀態去計算下一階了。 " 將自相關分成6個狀態(STATE),描述如下: 51 52 53 54 55 56
Load R1 Load R2 Load R4 Load R3 Execute R3 + R4 If (c2==239)End of calculation R(〇··l〇) and storage it. 1 Else c2 = c2+l,cl=cl+1; SO: Stop state (execute R1xR2) 在控制單元内有二組位址計數器“與“用來產生x(m) 與x(m+k)位址,在有限狀態機的狀態6會判斷c2是否為 239來終止自相關在某一階的乘加運算。自相關的運算為 乘加所組成的資料路徑所以一個乘法器乘完之後緊接著就 是加法器來做累;^,而累加暫存器會存放計算好的自相關 值並透過移位器(Barr el Shifter)將自相關值正規化在 1 6 3 8 4以下。 【線性預測係數擷取之硬體架構設計方式】 # % _才目關係數後緊接著是求取線性預測係數,我們採用
第17頁 5^40Q ; I “ _案號90132449 _年月 Ε
五、發明說明(13) 德賓演算法如下·· ( Μ \
Kt= R(iyY^R(i-j) /EM V Μ )
Ei〇) = R(O) 其中 妒:預測誤差 E(0 = (1-〇Ευ·Ό ) a严 df、 m a 自相關係數 偏導數係數 i階預測參數的第j個 N:l:k i?(A:)= ^S{m)h{m)S{m^k)h{m^k) S(n) ··輪入ϋ訊號 咖):漢明窗 在本發明中將德賓演算法的三個迴圏予以展 、 接一筆的指令藉由寫微指令集的方式來控制資料j成一筆 取線性預測係數的運算,以i=5為例,展開的演算路法&如做梅 六所不。^於演算中存在除法運算;以1〇階德賓演算法為 例,存在著1 〇次的除法運算分別為all (第一階的第一 個)、a22、a33、a44、a55,a66、a77、a88、a99、al010 (胃第十階的第十個)。根據資料範圍分析,這些除出來的值 是不會超出正負3.0的;於是我們設計一個除法器專門求 取線性預測係數。方法以二分法的觀念求商,除了符號位 元之外總共有1 5個位元要變動,方法如下:
第18頁 神44她 !年;j 90132449 曰 修正 五、發明說明(14) 1. set initial value , quotient = 16’bOlOO一〇〇〇〇一〇〇〇〇一〇〇〇〇 clear = 16,b 1011J111 一 1111J111 add = 16,b0010一〇〇〇〇一〇〇〇〇一〇〇〇〇 2. temp = multiply quotient by divisor 3. compare temp with dividend. if (temp>dividend) quot i ent(new)= quotient(o1d) & clear | add; add // add and clear else quotient(new) = quotient(o1d) 4·add >>=1; c1ear>>=1; variable are right shigt 1 bit 5. i f ( add == 0) exit else jump to 2 以一個5.0除3·0的範例來描述演算法運算的整個過程 如圖七所示,最後得到商的值為〇〇〇l_j〇l〇_l〇l〇_1011 (1·666748)。 【線頻譜對參數擷取之硬體架構設計方式】 首先說明線性預測係數轉線頻譜對參數之方法,線頻 譜對參數的物理意義分別表示聲帶全開與全閉條件下的頻 譜對參數多項式P(z)與Q(z),這兩個多項式具有線性關 係,可以提供解碼時做良好的_性内插使用,使得編碼的 位元率能降低;所以廣泛應用到各種語音編碼器上。 作)=4«⑺+2倘你, (2 1} Q(z)^An{z)-z^An{z^) (2· 2) (2·1)、(2·2)兩式若再進一步推導則可得:
第19頁 564400 號 90132449 曰 修正 五、發明說明(15) (2.3) (2. 4) P(jc)=16jc5 +8;7〆 +(4户2 -20)χ3 -(8Α -2Α)) +〇4 -¾¾ +5^+(/¾ +β) 〇{χ)^\β^ ^Sqxx4 +(4q2 -20)x3 -(¾ -2^3)x2 +(分4 一3《2 + 5)X + (% -+ 95) 其中 :cos 必
Pi = + ^ 1〇 -1 = a2 + a9_ p' = a 3 ^ ^ % - Pi 尸4 = + a7 - /?3 P5 = as + a6 一 P q i ^ a λ - a λ « 2 = 0 2 - a 9 + L ^4 = ^4-^7 + ^3 P4 + 1 (2· 5) q g &1〇,&9办,···^為線性預測的1 0階參數,P(x)和Q(x)的 根即為線性頻譜對參數。 (2·3)、(2.4)可除以16而不影響其根 (2. 6) (2. 7) (2· 7)兩式改為巢
Pf ⑻=X5 + g〆 + g2X3 + g3x2 + + g5 Q,(x) = x5 +h〆 +h2x3 +h3x2 +h4x + h5 為增加準確度及減少運算可把(2.6) 狀形式: 、 ηχ)=((((X+a +s2 ^4)^+gs (2 · 8 ) Q\x) = ((((X + Aj )x + Λ2)χ + A3)^ + A4>^ + h (2.9) ! · 轉 在(2.6)中共用15次相乘、5次相加,而(2·8)只用4次 相乘、5次相加,減少相乘的次數則可大幅提高其準確 度。而(2.8)與(2. 9)的gl〜g5與hi〜h5可直接有下列式子 換過來
第20頁 5644〇α 案號 90132449 曰 修正 五、發明說明(16) g5=0.03125*P5-0. 0625*P3+0.0625*P1 g4=〇·0625*Ρ4-0·1875*P2+0.3125 g3 = 〇. 125*P3-0. 5m g2 = 〇·25*P2- 1·25 gl = 0. 5 *P1 h5=0·03125*Q5-(K0625*Q3+0.0625*Q1 h4= 0.0625*Q4-0.1875*Q2+0.3125 h3=0·125*Q3-0· 5*Q1 h2=0·25*Q2-1·25 hi = 〇. 5*Q1 圖八顯示線性頻譜對參數擷取單元之硬體架構圖,我 們以三級之管線架構來實現整個運算,管線之第一級讀取 資料進入暫存器,第二級以乘法器33執行乘法運算,第三 級以加法器3 4執行加法運算。 各階之線頻譜對參數索引值以表格(Look Up Table, LUT)存放。在此我們解根之前必須先將多項式的係數“ 15與11卜115之係數先算好並放在1^4»132中。解1^?事實上便 是求解根,我們採取勘根定理來解根,亦即當P(a)P(b)<〇 時’ a、b之間便存在P(x)之根。所以架構中需要比較電路 來判斷P(a)P(b)之正負,由於p(a)、p(b)皆為二補數,故 此比較電路以一個互斥閘即可實現。 整個運算的開始或結束均由線頻譜對參數之有限狀態 機(LSP — FSM) 31來控制,頻譜對參數之有限狀態機的作用 在於當比較電路找到根時會送出一個信號告知頻譜對參數
IHI 第21頁 564400 案號 90132449 曰 修正 五、發明說明(17) 之有限狀態機目前所要找的根己找到,執行存索引的動 作,並且繼續找下一階的線頻譜對參數索引(LSp INDEX),直到全部10階的線頻譜對參數索引都找出後就停 止,所以一序列的線頻譜對參數索引求取之運算時序都需 經由頻譜對參數之有限狀態機來控制。此外,控制器 (Control ler)31會依照線頻譜對參數之有限狀態機的指示 來控制表格(LUT)送出值到暫存器(reg)内,或暫存器組 (Register File)的内容放到暫存器内,並且控制其它運 算單元的動作。 【增益擷取之硬體架構設計方式】 增益的運算見式(3·1),由於存在開根號運算我們將 式子(3 · 1)修改成式子(3 · 2)就可避設額外設計開根號電路 了,如此一來運算只而加、減、乘就可以了,其電路架構 如圖九所示。首先將式(3· 2)等號右邊的值經資料路徑算 出並存放在R5暫存器42中,而G的值有32筆索引值對應到 32種不同的增益值,儲存在唯讀記憶體(R〇M) 43中;可藉 由查表的方式依序找出增益值,並且送入乘法器44中得到 輸出為G的平方之值且儲存在R3暫存器中,由控制單元的 增益有限狀態機41來比對R3與R5的值,一直比對到备妓说 的值便將索引值編碼起來。 (3.1) %聊-艺撕)哪) V /*1 G2 =R(〇)-J]A(I)*RXI) 1*1 音高週期擷取之硬體架構設計方式】
(3. 2)
第22頁 修正 曰 _ 案號 90132449 五、發明說明(18) 為了簡化硬體之設計,我們將音高週期擷取之方法簡化如 下: (1) 在一個音框中找出絕對值最大的值定為尖峰值 (Peak),若尖峰值為正則以正源為主找音高週期;若 peak為負則以負源為主找音高週期以圖3一$為例,其peak 為負所以,以負源主找音高週期。 (2) 取一臨界值(τη)為0.68乘上尖峰值的值。 (3) 超過臨界值的樣本點才予以考慮,從第一點開始找出 第一個大於等於臨界值值的樣本點;假設位「 接著跳30個樣本_[n_並將計數器為 30,從sp[n+30]往後找第二個樣本點,每找一個便將計 數器值加1 ;直到找到第二個大於等於臨界值為止,此時 的計數器值即為音高週期。 本發明編碼後所產生的48個位元,由一組48個位元所 組成的暫存器來存放,其資料放順序按照參數擷取之順序 來排列第0到第33個位元存放1〇階線頻譜對參數索引值, 第34到38存放增益索引值,第39存放有聲/無聲位元第 ’第48個位元位元保留做以後擴充使 用。 综?所述’本發明所提供之語音編/解碼方法及語音 編/解态,不僅可達預期,實用功效外並且為前所未見之 新設計’已符合專利法發明之要件,爰依法。 ίί德^請貴審查委員詳予審查,並祈早日賜準專利, __以上已將一本發明一詳細^^惟以上所流去,僅為本
第24頁 5^400 5 案號 90132449
B 修正 圖式簡單說明 圖一顯示本發明之編碼端架構示意圖; 圖二顯示本發明之解碼端架構示意圖; 圖三A顯示在激發源為有聲音時之平滑化濾波器; 圖三B顯示在激發源為無聲音時之平滑化濾波器; 圖四顯示本發明中主音框間高週期之連續圖; 圖五顯示自相關運算内部變數範圍; 圖六顯示德賓演算法展開之例子; 圖七顯示圖六演算法運算的整個過程; 圖八顯示線性頻譜對參數擷取單元之硬體架構圖 圖九顯示增益擷取單元之硬體架構。 【主要元件編號】 11 漢明視窗處理單元 12 自相關運算單元 13 線性預測係數擷取單元 14 線性頻譜對參數擷取單元 15 增益擷取單元 16 音高週期擷取單元 17 有聲/無聲判斷單元 21 脈衝串產生器 22 第一隨機雜訊產生器 23 第二隨機雜訊產生器 24 線性頻譜對參數内插單元 25 線性頻譜對參數轉線性預測係數濾波器 26 合成濾波器 31 線頻譜對參數有限狀態機及控制器 第25頁 564400 Μύ 90132449 曰 修正 圖式簡單說明 33 34 35 36 41 42 43 44 45 46 32 隨機存取記憶體 乘法器 加法器 唯讀記憶體 多工器 增益有限狀態機及控制器 隨機存取記憶體 唯讀記憶體 乘法器 加/減法器 多工器
第26頁
Claims (1)
- 56 餐 QO八二種語音編碼方法,係將語音訊號以8ΚΗζ取樣,再予以 刀成許多主音框(f rame),每個主音框的大小為3〇ms (240 樣本點),做為編碼參數傳輸單位,該編碼參數包括有: 線吐頻譜對參數(Line Spectrum Pair, LSP)、增益參 數、有聲/無聲判斷參數、音高週期參數以及一個位元之 同步位元;其中該線性頻譜對參數之求出方法係將該主音 框的音先用漢明視窗(jjamming window)作前處理,再求 其自+相關係數做線性預測分析,求取十階線性預測係數, 接著轉換成線性頻譜對參數;該增益參數係利用上述線性 預測分析所求得的自相關係數和線性預測係數求出;該有 聲/無聲判斷參數係利用越零率(Zer〇 crossing rate)、 能量(Energy )以及線性預測係數的第一階係數做綜合判 斷,該音高週期參數之求出方法包括以下步驟: 步釋一:將該主音框的所有取樣點找出其絕對最大 值’也就是找出振幅大小最大點之值;若此值為正,則以 最大值為主找音高,將此最大值點設為音高,並將最大值 點及其前後適當取樣點清除為零;若此值為負,則以最小 值為主找音高,將此最小值點設為音高,並將最小值點及 其前後適當取樣點清除為零; 步驟一*· $又疋上述振幅最大點之值的適當倍數為臨界 值(Threshold); 步驟三··若此主音框是以正源為主找音高,則重新找 出目則主g框的最大值,若此值大於臨界值,則設此點為 音高’並將目前最大值點及其前後適當取樣點清除為零;第27頁 5644Θ0, 案號901324仙 曰 修正 六、申請專利範圍 樞 若此主音框是以負源為主找音高,則重新找出目前主立 的最小值,若此值小於臨界值,則設此點為音高,並曰相 前最小值點及其前後適當取樣點清除為零; 、將目 步驟四:反覆利用步驟三尋找音高,直到 同所有的點都小於臨界值為止,或以負源為主 立^ 所有的點都大於臨界值為止; 9向 步驟五:將音高的位置依照從小到大的順序排序, 可 得p!、p2、P3、P4、p5、p6 ; Pi, 就可 步驟六:將所有音高的位置求取間距Di == Pi+i =1,2,···,n(N為音高的個數),並將間距加以平均 得音高週期。 2·如申請專利範圍第1項所述之語音編碼方法,其中該有 聲/無聲判斷參數利用越零率(Zero crossing rate)、能 量(Energy)以及線性預測係數的第一階係數做綜合判斷之 方法如下: a·越零率:越零率係該語音訊號s(n)通過零值的次數,也 就是兩連續樣本間具有不同的正負號次數,以式子表示則 為: sign[S(n)] s i gn [ S ( η +1 )] 如果越零率高,則表示此段語音為無聲語音,若越零率 ,’則表示此段語音為有聲語音。 b·能量:該語音訊號s(n)的能量Ε(η)定義為: Size E(n) = JS(n)2第28頁 ^#44§0 ― , 案说90132449 奉月日 修正 _ 六、申請專利範圍 若能量大,則表示為有聲語音;若能量小,則表示為盔聲 語音; ^ C·線性預測係數的第一階係數:若此係數大,則表示為有 聲語音;若此係數小,則表示為無聲語音; 上述三種方法如果有兩個方法判斷為有聲語音,則此主音 框為有聲語音,反之,則為無聲語音。 3·如申請專利範圍第1項所述之語音編碼方法,其中該音 高週期參數之求出方法中之適當取樣點係為丨9點。 曰4·如申請專利範圍第3項所述之語音編碼方法,其令該音 高週期參數之求出方法中,步驟二之適當倍數為〇68倍9。 5·如申請專利範圍第4項所述之語音編碼方法,其中一個 主音框總共傳送48個位元,位元配置為:34個位元傳送上 述十階線性頻譜對參數,1個位元傳送上述有聲/無聲判斷 參數,7個位元傳送上述音高週期參數,5個位元傳送上述 增益參數以及1個位元傳送上述同步位元;且該每個主音^ 框大小為240點,位元率為;i.6Kbps。6· —種語音解碼方法,係將每個主音框分為四個次音框, 每個次音框合成時的十階線性預測係數是由目前主^框量 化後之線性頻譜對參數與前一個主音框之線性頻譜^參= ,量化值内插,反求而得;另外,在激發源部份%若為有 聲,採用混合激發,由音高週期產生的脈衝串加上隨機雜 訊組成,若為無聲,則僅用隨機雜訊表示;此外,在產生 有聲或無聲激發源後,該激發源必須經過平滑化遽波器加 強该激發源的平滑;最後,將上述十階線性預測係數與過56440Q^ --丄…案號90132449 _年月 a 修正 _ 六、申請專利範圍 去合成之十個語音訊號相乘,再加上上述語音激發源訊號 與增益’即可得到對應於目前語音激發源訊號之合成語 音。 ?· 一種語音編/解碼器,其係以應用導向超大型積體電路 架構(AS 1C)之方式來設計,將語音訊號以8KHz取樣,再予 以分成許多主音框(frame),做為編碼參數傳輸單位,可 分為編碼端與解碼端,其中編碼端包括·· 一漢明視窗處理單元,其係將每個主音框的語音先用 漢明視窗(Hammi ng Window)作前處理; 一自相關運算單元,係將上述處理過之語音求其自相 關係數; 一線性預測係數插取單元,係將上述自相關係數做線 性預測分析,求取十階線性預測係數; 一線性頻譜對參數擷取單元,係將上述十階線性預測 係數轉換為線性頻譜對參數,並加以量化編碼; 、 一增益擷取單元,係利用上述自相關係數和 係數求出增益參數; $ j 一音高週期擷取單元,係用以將上述主音框求 週期參數;以及 曰同 一有聲/無聲判斷單元,係利用越零率(Zer〇 crossing rate)、能量(Energy)以及上述線性預測係數的 第一階係數做綜合判斷該語音訊號係有聲/無聲; 在該解碼端,每個主音框可分為四個次音框…,該解碼端包 括:第30頁 5斜 4002一脈衝串產生器(Impulse Train Generator),係 接受上述音高週期參數以產生脈衝串; 一第一隨機雜訊產生器(Rand〇m N〇ise Generator ),係用以產生隨機雜訊,在上述有聲/無聲判 斷單元判斷為有聲時,該隨機雜訊與上述脈衝串傳送至一 加法器以產生激發源; 了第二隨機雜訊產生器,係用以產生隨機雜訊,在上 述有聲/無聲判斷單元判斷為無聲時,該隨機雜訊直接表 示為激發源;一線性頻譜對參數(LSP)内插單元(LSP Interpolation ),係接受上述線性頻譜對參數,由目前 主音框量化後之線性頻譜對參數與前一個主音框之線性 譜對參數的量化值以加權指數内插; 一線/性頻譜對參數轉線娃預測係數濾波器(LSP tb LPC ),係用以將上述内插後之線性頻譜對參數求出 次音框合成時的十階線性預測係數; 一合成濾波器(Synthetic Filter),係將上述十p 線性預測係數與過去合成之十個語音訊號 述:音激:源與上述増益參數,即可得到對應於目前土: 激發源訊號之合成語音。 3m E8 ·如申請專利範圍第7 μ、+、 立 ,禾」項所述之浯音編/解碼器,苴. 主音框總共傳送48個位元,仞;舻罢炎 ^ ,,、中一 疋 位凡配置為· 34個位元值;主 述十階線性頻譜對參龜,〗 — 疋傳送 參數,7個位元傳送上述 另掌/…、聲判 疋曰冋週期參數,5個位元傳送上f喔 年月 1 2-f:C .V:; Mmk 90132449 六、申請一碎兩圍 增益參數以及1個位元傳送上述同步位元;且該每個主音 框大小為240點,位元率為1.6Kbps。 9·如申請專利範圍第7項所述之語音編/解碼器,其中該自 相關運鼻早元係直接由有限狀恶機發出控制訊號到資料路 徑,其執行以下方程式 239-k R(k)= Xx(m)x(m + k) m=0且在控制單元内有二組位址計數器cl與c2用來產生x(m)與 X ( m + k )位址’該有限狀態機分成6個狀態:狀態一係讀取 R1 ’狀態二係讀取R2,狀態三係讀取R4 (同時執行ri X R2 ),狀態四係讀取R3,狀態五係執行R3 +R4,狀態六 係判斷如果c2 =23 9,則結束計算並且將其儲存;否則c2 = c2+l 且cl=cl+l 〇 10·如申請專利範圍第7項所述之語音編/解碼器,其中該 線性預測係數擷取單元係將十階德賓演算法的三個迴圈予 以f開成一筆接一筆的指令,藉由寫微指令集的方式來控 制資=路徑做擷取線性預測係數的運算;該線性預測係數 擷取單元係包括一除法器,利用二分法求取線性預測係U·如申請專利範圍第7項所述之語音編/解碼器,其中該 線性頻譜對參數擷取單元係包括: 一隨機存取記憶體,係用以儲存事先算好之多項式的 係數; 1 、、比較電路’係用一立斥閘以根據勘根定理來解根, 並在找到根時送出一個信號告知頻譜對參數之有限狀態第32頁 56440(¾ ^ 〒 Θ l:r/. ! 一 號90132449 年月日 … -----__ 六、申請專利範圍 -- 機; 一頻譜對參數之有限狀態機,係接受上、+、於& 批/一 又上迹信號,執打 存索引的動作,並且繼續找下一階的線頰譜對參數索引 (LSP INDEX),直到全部十階的線頻譜對參數索%丨都找出 後就停止; ' 一控制器’係依照上述線頻譜對參數之有限狀態機的 指示來控制表格(LUT)送出值到暫存器(REG)内,或暫存器 組(Register Fi le)的内容放到暫存器内,並且控制夕 運算單元的動作。33頁
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW090132449A TW564400B (en) | 2001-12-25 | 2001-12-25 | Speech coding/decoding method and speech coder/decoder |
US10/328,486 US7305337B2 (en) | 2001-12-25 | 2002-12-24 | Method and apparatus for speech coding and decoding |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW090132449A TW564400B (en) | 2001-12-25 | 2001-12-25 | Speech coding/decoding method and speech coder/decoder |
Publications (1)
Publication Number | Publication Date |
---|---|
TW564400B true TW564400B (en) | 2003-12-01 |
Family
ID=21680047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW090132449A TW564400B (en) | 2001-12-25 | 2001-12-25 | Speech coding/decoding method and speech coder/decoder |
Country Status (2)
Country | Link |
---|---|
US (1) | US7305337B2 (zh) |
TW (1) | TW564400B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8554551B2 (en) | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
US8804970B2 (en) | 2008-07-11 | 2014-08-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
CN109478198A (zh) * | 2016-05-20 | 2019-03-15 | 弗劳恩霍夫应用研究促进协会 | 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7546517B2 (en) * | 2004-08-03 | 2009-06-09 | President And Fellows Of Harvard College | Error-correcting circuit for high density memory |
JP2006285402A (ja) * | 2005-03-31 | 2006-10-19 | Pioneer Electronic Corp | 画像処理装置 |
US20110057818A1 (en) * | 2006-01-18 | 2011-03-10 | Lg Electronics, Inc. | Apparatus and Method for Encoding and Decoding Signal |
EP3629328A1 (en) * | 2007-03-05 | 2020-04-01 | Telefonaktiebolaget LM Ericsson (publ) | Method and arrangement for smoothing of stationary background noise |
US8718804B2 (en) * | 2009-05-05 | 2014-05-06 | Huawei Technologies Co., Ltd. | System and method for correcting for lost data in a digital audio signal |
JP2013003470A (ja) * | 2011-06-20 | 2013-01-07 | Toshiba Corp | 音声処理装置、音声処理方法および音声処理方法により作成されたフィルタ |
US11120821B2 (en) * | 2016-08-08 | 2021-09-14 | Plantronics, Inc. | Vowel sensing voice activity detector |
CN112002338B (zh) * | 2020-09-01 | 2024-06-21 | 北京百瑞互联技术股份有限公司 | 一种优化音频编码量化次数的方法及系统 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5528723A (en) * | 1990-12-28 | 1996-06-18 | Motorola, Inc. | Digital speech coder and method utilizing harmonic noise weighting |
JP3254687B2 (ja) * | 1991-02-26 | 2002-02-12 | 日本電気株式会社 | 音声符号化方式 |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
JP3303580B2 (ja) * | 1995-02-23 | 2002-07-22 | 日本電気株式会社 | 音声符号化装置 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
JP3196595B2 (ja) * | 1995-09-27 | 2001-08-06 | 日本電気株式会社 | 音声符号化装置 |
US5673361A (en) * | 1995-11-13 | 1997-09-30 | Advanced Micro Devices, Inc. | System and method for performing predictive scaling in computing LPC speech coding coefficients |
JPH09230896A (ja) * | 1996-02-28 | 1997-09-05 | Sony Corp | 音声合成装置 |
JP4040126B2 (ja) * | 1996-09-20 | 2008-01-30 | ソニー株式会社 | 音声復号化方法および装置 |
JPH10105195A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6963833B1 (en) * | 1999-10-26 | 2005-11-08 | Sasken Communication Technologies Limited | Modifications in the multi-band excitation (MBE) model for generating high quality speech at low bit rates |
-
2001
- 2001-12-25 TW TW090132449A patent/TW564400B/zh not_active IP Right Cessation
-
2002
- 2002-12-24 US US10/328,486 patent/US7305337B2/en not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8554551B2 (en) | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context replacement by audio level |
US8554550B2 (en) | 2008-01-28 | 2013-10-08 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multi resolution analysis |
US8560307B2 (en) | 2008-01-28 | 2013-10-15 | Qualcomm Incorporated | Systems, methods, and apparatus for context suppression using receivers |
US8600740B2 (en) | 2008-01-28 | 2013-12-03 | Qualcomm Incorporated | Systems, methods and apparatus for context descriptor transmission |
US8804970B2 (en) | 2008-07-11 | 2014-08-12 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
TWI463486B (zh) * | 2008-07-11 | 2014-12-01 | Fraunhofer Ges Forschung | 音訊編碼器/解碼器、音訊編碼/解碼方法、電腦程式產品及電腦可讀儲存媒體 |
CN109478198A (zh) * | 2016-05-20 | 2019-03-15 | 弗劳恩霍夫应用研究促进协会 | 用于确定相似度信息的装置、用于确定相似度信息的方法、用于确定自相关信息的装置、用于确定互相关信息的装置以及计算机程序 |
CN109478198B (zh) * | 2016-05-20 | 2023-09-22 | 弗劳恩霍夫应用研究促进协会 | 用于确定相似度信息的装置、方法及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20030139923A1 (en) | 2003-07-24 |
US7305337B2 (en) | 2007-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101542599B (zh) | 用于编码和解码宽带语音信号的方法、装置和系统 | |
EP0259950B1 (en) | Digital speech sinusoidal vocoder with transmission of only a subset of harmonics | |
JP2940005B2 (ja) | 音声符号化装置 | |
JP4005359B2 (ja) | 音声符号化及び音声復号化装置 | |
KR100304682B1 (ko) | 음성 코더용 고속 여기 코딩 | |
US6298322B1 (en) | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal | |
TW564400B (en) | Speech coding/decoding method and speech coder/decoder | |
JPH03211599A (ja) | 4.8kbpsの情報伝送速度を有する音声符号化/復号化器 | |
JPH02293800A (ja) | ピツチ関連遅延値を導出する方法 | |
US4791670A (en) | Method of and device for speech signal coding and decoding by vector quantization techniques | |
US6314393B1 (en) | Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder | |
CN1104010A (zh) | 产生用于话音编码器的频谱噪音加权滤波器的方法 | |
JPWO2009016816A1 (ja) | 音声符号化装置および音声符号化方法 | |
JPH0258100A (ja) | 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置 | |
JP3112462B2 (ja) | 音声符号化装置 | |
JPH0651799A (ja) | 音声メッセージ符号化装置と復号化装置とを同期化させる方法 | |
JPH02282800A (ja) | 音声符号化方式 | |
Tomar et al. | Linear Prediction Analysis and Quantization for the Conjugate-Structure Algebraic-Code-Excited Linear-Prediction Speech Compression Algorithm | |
JP4007730B2 (ja) | 音声符号化装置、音声符号化方法および音声符号化アルゴリズムを記録したコンピュータ読み取り可能な記録媒体 | |
JPH05143099A (ja) | 音声符号化・復号化装置 | |
JP3274451B2 (ja) | 適応ポストフィルタ及び適応ポストフィルタリング方法 | |
JP3230380B2 (ja) | 音声符号化装置 | |
WO2001009880A1 (en) | Multimode vselp speech coder | |
KR100318335B1 (ko) | 잔차신호의 에너지 레벨 정규화를 통한 음성신호처리복호화기에서의 피치 포스트필터 성능 향상 방법 | |
Changchun et al. | A real-time implementation of 4.2 Kb/s celp speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |