TW541517B

TW541517B - Speech recognition system

Info

Publication number: TW541517B
Application number: TW090132450A
Authority: TW
Inventors: Jhing-Fa Wang; Jia-Ching Wang; Jtai-Lung Chen; Chin-Chan Chang
Original assignee: Univ Nat Cheng Kung
Priority date: 2001-12-25
Filing date: 2001-12-25
Publication date: 2003-07-11
Also published as: US20030125938A1; US7266496B2

Description

541517

【發明領域】本發明係有關於一種語音辨識系統，特別是一種以應用導向超大型積體電路架構（ASIC)之方式設計而成，同日^ 以模組化的設計方式分割為四塊模組之語音辨識系統。【發明背景】隨著可攜性系統的盛行以及使用語音來做人機的溝通 ^面日趨重要，將語音處理的演算法實現到硬體上是刻不容，的。而這些可攜性系統用來處理語音的方式通常以使用單晶片微處理機或數位訊號處理器來達成目的。單晶片 U，理機成本低，但運异功能不強難以實現較複雜的語音運算；若使用數位訊號處理器來開發則時間最短、設計彈陸度咼但成本較咼。本發明以應用導向超大型積體電路架構之方式將整個語音辨識的過程（自語音輪入至辨識結果輪出）元整貫現’執行速度上比數位訊號處理器來的快，且放到可攜性系統的成本也比數位訊號處理器來的低。【發明概要】本發明之主要目的係以應用導向超大型積體電路架構 (A S I C)之方式來設計出語音辨識系統，使其執行速度快，且放到可攜性系統的成本也較低。本务明之另一目的係以模組化的設計方式將該語音辨識糸統分割為四塊模組，各模組可自成一個智產元件（I p )，各智產元件可以配合各種不同之商品及應用需求進行設計上的重覆使用，大量縮短上市時間。為達上述目的，本發明提出一種語音辨識系統，其係以應

541517

五、發明說明（2) 用導向超大型積體電路架構（ASI◦之方式來設計，輪入為語音訊號，而輸出為辨識的結果，同時以模組化的方式將該系統分為四模組各別進行設計，且該四模組玎自成一個智產元件（I P )，該四模組分別為：糸統控制模組你接受外部訊肌1工W …口卜电- 路做彳工制’遠外部訊號共有訓練模式及辨識模式兩種； =相關及線性預測參數模組，其係由自相關參數單參數及=參數單元所組成，該兩單元可分別求取自相關預測參數T預測參數1以將輸入之語音資料轉變成線性 W1晋芩數模細倒頻譜泉數，傲炎、、、、，其係接受上述線性預測參數，輪辨識模組，係模型；

Warping，dtw)、寅管動恕時間校準（Dynamic Timing 比對後，輸出辨=係將上述之語音資料的模型做另外，更包括—；：：。組一般性暫存器所二，收杈組，係由一組移位暫存器及頻率之介面，將接、>，其作為外部取樣頻率與内部工作頻率一致後，再讀^吾^資料頻率轉換成與内部電路另外，更勹j °貝出運算。料的倒頻匕括—外部記情俨 t肩瑨參數。 U體，係用以儲存訓練語音其中’ f川練f 語音㊁：性預測參^模：、、先接收訓練語音資料後，通過、料的甸頻譜參數，、倒頻譜參數模組後，將該訓' 欠存到外部記憶體；而辨識模式係 541517 --—-- 五、發明說明（3) 統接收辨識且、倒頻譜，邹智存器 f憶體的訓 =音資料的 ^〜筆的訓，紐選擇最【圖式之簡圖一顯 *1二顯 *1三顯圖四顯圖五顯圖六顯圖七顯 _八顯圖九顯圖十顯圖十一圖十二表一顯 /主要元件 10么 0 系統控 20 “ 自相關 ‘二貝/ Ί ，通過自相關及線性預測參數模 :妙板組後’將辨識語音資料的倒頻譜存放在么然、後通知辨識模組開始抓取先前存放在外部、東°° 9資料的倒頻譜參數與内部暫存器的辨識，，瑨麥數進行辨識，進而輸出辨識分數，在、、東吾音資料都得到辨識分數後，交由系統控制佳分數進而輪出辨識結果。單說明】示本發明之架構示意圖；示本發明之詳細架構圖；二語音接收模組之電路架構圖；二決定單元之電路架構圖；示自相關參數單元之電路架構圖；示線性預測單元之電路架構圖；示倒頻譜參數模組之電路架構圖；不處理元件的輸入/輸出界面（I/O)之示意圖；不處理元件之内部示意圖；不1 Ο Ο X1 0 0動態時間校準之晶格示意圖；顯示切分過後的動態時間校準之晶格示意圖；顯示辨識模組之資料路徑圖；示圖十一中前端部份之時序控制。編號】制模組（Control Modul e)

及線性預測參數模組（A u t o c o r r e 1 a t i 0 n & L P C

第6頁 541517 五、發明說明（4)

Module) 30 40 50 60 70 80 90 倒頻譜參數模組（C e p s t r u m Μ 〇 d u 1 e ) 辨識模組（DTW Module) 外部記憶體（RAM) 訓練模式（T r a i n i n g B u 11 ο η) 辨識模式（Recognition Button) 语音訊號（Speech) 辨識結果（Recognition Result) 【發明詳細說明】為詳細揭露本發明，以下以一較佳實施例配合圖式做詳細說明。本發明之語音辨識系統，從語音資料輸入麥克風開始，分別要做下列的處理··（ 1 )低通濾波器（L〇w Pass

Filter)，（2)預強調（Pre-emphasis)，（3)取窗處理 (Windowing)，（4)自相關係數分析（Aut〇c〇rrelati〇n

Analysis) ’ （5)¾¾ 點{貞測（Endpoint Detection) ，（6)線性預測分析（LPC Analysis)，（ 7)倒頻譜參數擷取 (Cepstrum Extraction) ’（8)參考樣本更新（Reference Updating)，（9)動態時間較準（DTW)，（1〇)決定單元 (Decision Logic)。最後而輸出辨識結果（由七段顯示器或LED顯不辨識結果）。整個語音辨識系統用應用導向超大型積體電路架構之方式（ASIC)實現，如圖一所示，係為本發明之架構示意圖，其中輸入為語音訊號（Speec-h)8〇，而輸出為辨識.的結果（Recognition Result)90，同時以模組化的方式將本發明分為四模組各別進行設計，且該四模

第7頁 541517 五、發明說明（5) 組可自成一個智產元件（IP)，各智產元件可以配合各種不同之商品及應用需求進行设汁上的重覆使用，大量縮短上市時間；該四模組分別為：系統控制模組（controi Μ 〇 d u 1 e ) 1 〇，係接受外部訊號控制，進而對内部電路做控制，該外部訊號共有訓練模式（T r a i n i n g B u 11 ο η ) 6 0及辨識模式（Recogni t ion But ton )70兩種；自相關及線性預測參數模組（Autocorrelation&LPC Module)20，其係由自相關參數單元及線性預測參數單元所組成，該兩單元可分別求取自相關參數及線性預測參數，用以將輸入之語音資料轉變成線性預測參數；倒頻譜參數模組（Cepstrum曰、

Module)3 0，其係接受上述線性預測參數，輸出倒頻譜參數’做為語音資料的模型；辨識模組（DTW Modu][e)4〇，係 =用動態時間校準（Dynamic Tlming Warping， DTW)演 :去係將上述之語音資料的模型做一比對後，輸出辨識 ^數。另外，還包括一語音接收模組，係由一組移位暫存，及一組一般性暫存器所構成，其作為外部取樣頻率與内作頻率.之介面，將接收之語音資料頻率轉換成與内部 $路工作頻/率一致後，再讀出運算；以及一外部記憶體 I A Μ $ 0 ’係用以儲存訓練語音資料的倒頻譜參數。曰二二，上述（1)低通濾波器（Low Pass Filter)是放在 :卜邛，用離散元件實現。其他四個模組的分工如下. 糸、、充控制模組10處理u)參考樣本更新（Reference pdating)以及（1〇)決定置（ · · 及線料箱、、目丨a ★ / 、 DeC1S1〇n L〇glC)，自相關、、J麥數模組20處理（2)預強調（Pre-emphasis)、

541517 五、發明說明（6) 頻 (3 )取窗處理（W i n d 〇 w i n g )、（ 4 )自相關係數分析 (Autocorrelation Analysis)、（5)端點偵測（Endpoint D e t e c t i ο η )以及（6 )線性預測分析（L P C A n a 1 y s i s )，倒 3 譜參數模組3 0處理（7 )倒頻譜參數擷取（c e p s t r u m Extraction)，辨識模組4〇處理（9)動態時間較準（DTW)。當本發明語音辨識系統接受到不同控制訊號時，系統會根據不同控制訊號情形而有不同的處理模式。共有二種模式如下· （ 1 )訓練模式：系統接收訓練語音資料，通過自相關及線性預測參數模組2 0、倒頻譜參數模組 'r 2〇)f # ^ 'i，J ^ ^ # f，J ^ ^ ^50 0 線性=J，數拉組20、倒頻譜參數模組30後，將辨m 資料的倒頻譜存放在内部暫灸㈣紅曰始抓取先前存放在外部記二ΐ通知辨識模組40開參數與内部暫存器的辨識：二吾音資料的倒頻譜識，進而輸出辨識分數。心貝^倒頻错參數進行辨辨識分數後，交由李@ ^母一筆的訓練語音資料都得到辨識結果9 〇。、、” 擇攻佳分數進而輸出本發明之細部結構如【語音接收模組】囷一所述，茲分述如下：整體系统包含兩種頻率，一曰冰内部之工作頻率，疋外部之取樣頻率，一是音接收模組，1 汀木兩者頻率不同，我們設吁τ彳1 言，倘若外部種不同頻率的介面。兴如二曰取樣頻率是8ΚΗζ，内部^面舉例而 -----〜電路的操作頻率 541517 五 -發明說明（7) — 疋10MHz，則此語音接收模組，一方面以8KHz的頻率接收語音資料，一方面以1〇MHz的頻率將語音資料讀出運算。該語音接收模組之電路架構如圖三所示。【系統控制模組】系統控制模組1〇，共分為二大部份，一個是外部取頻率（以8ΚΗζ為例）的有限狀態機（FSM)，另一個是7 工作頻率（以10MHz為例）的有限狀態機。二個部份口外部訊號的控制，進而對内部刀主要控制語音接收模组。當語音= 音資料做運算。内部工作頻率的右阳仙：且⑼開始5貝取語記憶體50及内部暫存器的讀寫，以及义：：主要控制外部 ;。當倒頻譜參數模組3。發出完時間:;;籌的不同而控制記憶體或暫存器將語音:依據㈣模式將語音參數寫入外部記憶體5 ::成當:丨：：槟式時，將語音參數寫入内部 P。凡成，當辨識進行比對動作。當每—筆辨識分數：气通知辨識模組40 再進而通知決定單元進行運算， °线杈組4 0輸出時，定單兀是將每一筆由辨識模組4〇钤$入辨熾結果90。決最佳分數的判斷。圖四即為決—二—勺辨識分數，做一個元主要由最小選擇電路及一個二==2電路架構，決定單動時，跟著辨識分數輸入，和二=成，當開始訊號啟選擇，如果輸入的辨識分數比二=小的辨識分數做最小時，則將輸入的辨識分數寫入則最。小的辨識分數還小 • 曰存器，並將目前計數器第10頁 541517 五、發明說明（8) 的計數值寫入B暫存器，而此處計數器是受開始訊號控的。當所有的辨識分數輸入後，則B暫存器的值即二結果。句辨硪【自相關及線性預測參數模組】自相關及線性預測參數模組2 〇分為二大單—· 參數單元及線性預測參數單元，分別求取自自相關性預測參數。自相關參數單元接收2 5 6點的技立關苓數及線出十階11個自相關參數。自相關參數單元又^八曰貢一料，輪份··預強調部份、漢明視窗部份及自相關 1為二大部個部份的觀念後，本發明設計了自相關參在了解三構，如圖五所示，圖中共用到兩個乘法器，早凡的電路架用於將語音資料與漢明視窗相乘，而漢;、’ 士方之乘法器於漢明視窗唯獨記憶體（Hamming ROM)中。硯窗的值則儲存與一個加法器組合成一組乘法累加電路，下方之乘法器式將十階11個自相關參數依次求出。 17以用循序之方、’泉性預測單元係用以求出線性預測參數，苴份··累加、除法、參數更新，因此其電^計算有三大部二，左邊的暫存器AbU10分別存放自相/構如圖六所個位移暫存器則是要存放線性預測泉〖翏數，右邊的 sum則是要累加用，暫存器』是用來存’下面的暫存器【倒頻譜參數模組】、川决差的。倒頻譜參數模組30係接受線性預測二數。而且面積考量下的情形下，其電肷數，輸出倒頻譜示’僅運用_ έ悉架構如圖七所 ^ 組乘法為及加法器，記憶辨τ ^Lpc — RAM儲存線

第11頁 541517 五、發明說明（9) 性預測參數’共有1 〇個，每個以1 6位元儲存，記憶體 Constant —ROM儲存45個常數，每個以丨6位元儲存。記憶體 Cep —RAM儲存倒頻譜參數，共有1 〇個，每個以1 6位元儲存0 【辨識模組】辨識模組40採取動態時間校準⑶ynamic Timing Warping，DTW)演算法，所以設計辨識單元的重心，就放在一部份·處理元件（processing Eiement，PE)設什與控制的方法。處理元件所要做的事就是將三個方向的距離累加值做一個最小的選擇’然後計算本點的距離值，並加上之而輸出到本點為止的距離累加值，圖八為處理元件的輸入/輸

出界面 tmpC i, 距離值一個最圖九則 j-l)，小值選擇，Uj 本點距器輸出接電路， (I/O)示意圖，tmp(i-l，j)， tmp(i-l，卜1)， J· 1 )為二個方向的距離，U j及r丨的倒頻譜參數向] 則為的本點的距離值，將三個方向的距離累加值《、的L擇加上本點的距離值之輸出為t m p (i，j) 為處理元件的内部示意圖，““卜丨，』·）， tmp(i —i

，广n一為三個方向的距離，經圖中Minimum( ί 时），將—個方向的距離累加值做一個最小的選 3Π!頻譜參數向量距離值計算器，輸出έ ’、珉小值選擇器的輸出同時灌入加法器，加^ 1文疋 t m ρ (ί，j ) 〇要來推導100χ100動態時間校準的實ρ 图十為日曰U意圖’在此有個公式：如果f為音框

541517 五、發明說明（ίο) 數目，W為扭曲因子（Warping Factor)，則戶斤+ 點數為：、々品要計算的 PEs= F(2W+1) ~ W(W+1) 所以在1 0 0x 1 0 0裏，取扭曲因子為15的話， 28 6 0次處理元件的計算，這是個很大的數目，共需要電路中，需進一步應要去推導規則的控制電略$以在控制首先，將2 8 6 0點切成的前端部份（〇〜1 3 5 )、中二為適當。 (1 3 6〜2 7 5 4 )、後端部份（2 7 5 5〜2 8 5 9 )三部份，間邛份示，前端部份如果將各時間點要計算時，所兩α圖十一所距離累加值時間點做一表整理時即如表一所^要的二方向各個時間點需要用到左方、左下方、下方哪I’表—代表累加值，及此累加值需從第幾個移位暫存哭向的距離一中可觀察得知，前端部份可分為16組，^ 獲得，從表此η點裏’第！點只需要下方的距離值累積，η組有？點，在 ^暫存器的值，第只需要左方的距離值用到弟η-1個第η個移位暫存器的值，其餘則左方的距更知，用到個移位暫存哭的佶，产下古值累積用到第η 曰仔杰的值，左下方的距離值累穑移二暫存器的值，下方的距離值累積用到，第2(η-1)個存器的值。中間部份及後端部個移位暫出其規則。刀也j以知用頰似方法尋找圖十—顯示辨識模組的資料路徑，圖中+ .,, 值運异。咸法器用以求出本點的距離值相滅取 J此雕值加法器用以將距

第13頁 541517 五、發明說明（11) 離累加值加上本點的距離值。下方為移位暫存器的部份，運用3 1個暫存器大小之移位暫存器儲存過去的距離累加值。右上方為取左、左下、下三個距離值累積的最小電路，運用3個多工器分別從移位暫存器中選擇出此時需要之值，再經圖中M i n i m u m (最小值選擇器），將三個方向的距離累加值做一個最小的選擇。綜上所述，本發明所提供之語音辨識系統，不僅可達預期之實用功效外並且為前所未見之新設計，已符合專利法發明之要件，依法具文申請之。為此，謹請貴審查委員詳予審查，並祈早曰賜準專利，至感德便。以上已將本發明詳細說明，惟以上所述者，僅為本發明之較佳實施例而已，當不能限定本發明實施之範圍，即凡依本發明申請專利範圍所作之均等變化與修飾等，皆應仍屬本發明之專利涵蓋範圍意圖保護之範®壽。

第14頁

Claims

541517 六、申請專利範圍 1 · 一種語音辨識系統，其係以應用導向超大型積體電路架構（AS IC)之方式來設計，輸入為語音訊號，而輸出為辨識的結果’同時以模組化的方式將該系統分為四模組各別進行設計’且該四模組可自成一個智產元件（I P )，該四模組分別為：系統控制模組，係接受外部訊號控制，進而對内部電路做控制’該外部訊號共有訓練模式及辨識模式兩種；自相關及線性預測參數模組，其係由自相關參數單元 ^線性預測參數單元所組成，該兩單元可分別求取自相關乡數及線性預測參數，用以將輪入之語音資料轉變成線性預測參數； ' ，其係接受上述線性預測參數音資料的模型；用動態時間校準（Dynamic Timing 去，係將上述之語音資料的模型做一數。 1項所述之語音辨識系統，更包括一一組移位暫存器及一組/躲性暫存器取樣頻率與内部工作頻率之介面，將轉換成與内部電路工作頻率一致後，倒續譜參數，做為α 辨識模組，係5 arping， DTW)演算比對後，輸出辨識分 &如申請專利範圍第 =音接收模組，係由構成，其作為外部 =之語音資料頻率再讀出運算。戈申睛專利範圍箆 μ 片’·丨…丨刊π 項所述之語音辨識系統，其中ti 外部記憶體，係用r I、所述之語音辨識系統，更包括 4 ·如申請專利範圍^^存訓練語音資料的倒頻譜參數

Mi5l7 申请專利範圍模式係系統接 ί數模組1 5晋苓數存到外 f料後’通過組後，將辨識通知辨識模級資料的倒頻譜參數進行辨識資料都得到辨進而輪出辨識 5·如申請專利控制模組包括部工作頻率的態機都分別受制該外部取組 1 當語音資組開始讀取語機主要控制外模組間的溝通操作模式的不該決定 ΠΟ 早元係行運算後將 6. 如中清專利單元係由最小 f訓練語音資料後，通過自相關及線性預.、則 f譜參數模組[將該訓練語音資料的= :記憶體，而辨識模式係系統接收辨識笋音、 i相關及線性預測參數模組、倒頻譜參數i =音資料：倒頻譜存放在内部暫存器，；開始抓取先前存放在外部記憶體的訓練：音參數與内部暫存器的辨識語音資料的倒頻譜 2而：出：識分·，在每一筆的訓練夂 ^^1 ^又由系統控制模組選擇最佳分數、，、〇果〇範圍第1項所述之語音辨識系統，其中系統 :外部，樣頻率的有限狀態機（FSM)、一内有限狀態機以及-決定單元；該兩個有限狀 :外部訊J的控制’進而對内部電路做控限狀態機主要控制語音接收模 :次：：f通知自相關及線性預測參數模 :貝料：運异；該内部工作頻率的有限狀態 :憶體及内部暫存器的讀冑，以及連繫各同：:到!=數模組發出完成訊號時，依據 ::控體或暫存器將語音參數寫入；最佳分數取出。輪出的辨識分數進 ί ξ第5項所述之語音辨識系統，其中決定、擇電路及一計數器所構成。

541517 六、申讀專利範® 7關ί】？專f範圍第】項所述之語音辨識系統，其，自相資包括兩個乘法器，第一乘法器用於將語音唯獨；二：視固相纟’而漢明視窗的值則儲存於漢明視窗纪人ming R0M)中；第二乘法器與一個加法界數i次求1且乘法累加電路’可以用循序之方式將自相關參 8預！ΓΛ所述,語音辨識系統，其中線性 1至第〗η斬六〆匕括/、組多工器及31個暫存器，其中第器則是器係分別存放自#關參數，第11至第29暫存譜參數模組係項所=之^音辨識系統，其中倒頻記憶體（Lpc RAM、。一加法為、一線性預測參數 (Constant_R〇M) ^ 記憶體（LpmM\ r ep— ,其中该線性預測參數個，每個以u位元^用.以儲存線性預測參數，共有10 儲存45個常數，每個、子，"亥常數記憶體（Constant —ROM ) (Cep —RAM )儲存H1 6位元儲存；該倒頻譜參數記憶體儲存。 ’、瑨苓數，共有1 0個，每個以1 6位元 10·如申請專利範模組係至少包括一項所述之s吾音辨識系統，其中辨識個多工器及一最丨^法絕對值累加電路、31個暫存器、3 取小值選擇器。第17頁