TW514867B - Method and apparatus for constructing voice templates for a speaker-independent voice recognition system - Google Patents
Method and apparatus for constructing voice templates for a speaker-independent voice recognition system Download PDFInfo
- Publication number
- TW514867B TW514867B TW090117207A TW90117207A TW514867B TW 514867 B TW514867 B TW 514867B TW 090117207 A TW090117207 A TW 090117207A TW 90117207 A TW90117207 A TW 90117207A TW 514867 B TW514867 B TW 514867B
- Authority
- TW
- Taiwan
- Prior art keywords
- pronunciations
- template
- scope
- generate
- patent application
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 53
- 230000011218 segmentation Effects 0.000 claims abstract description 51
- 230000008859 change Effects 0.000 claims description 32
- 238000001228 spectrum Methods 0.000 claims description 13
- 238000013139 quantization Methods 0.000 claims description 8
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims 9
- 210000004209 hair Anatomy 0.000 claims 3
- 230000002079 cooperative effect Effects 0.000 claims 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 claims 1
- 238000012549 training Methods 0.000 abstract description 37
- 238000012360 testing method Methods 0.000 abstract description 32
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000010276 construction Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 8
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 208000037063 Thinness Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 206010048828 underweight Diseases 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Electrically Operated Instructional Devices (AREA)
- Image Analysis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Machine Translation (AREA)
- Image Processing (AREA)
- Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)
Description
514867 A7 B7 五、發明説明(i ) 發明背景 I. 發明範疇: 本發明一般而言係關於通訊範疇,更特定而言,係關於 與演説者無關的語音辨識系統的語音樣板。 II. 背景: 語音辨識(VR)代表賜與機器模擬的智慧來辨識使用者或 使用者語音指令,並便於與該機器的人機介面之最重要的 技術之一。VR也代表人類説話瞭解的關键技術。使用技 術來由一聲音説話信號還原一語言訊息的系統即稱之爲語 音辨識器。此處所使用的該名詞”語音辨識器”通常代表任 何説話使用者介面致能的裝置。一語音辨識器通常包含一 聲音處理器及一字元解碼器。該聲音處理器擷取一系列的 包含資訊的特徵或向量,其必須來達到進入的原始演説的 VR。該字元解碼器解碼該特徵或向量的序列來產生一有 意義及所需要的輸出格式,例如對應於該輸入發音的一系 列語言字元。 該聲音處理器代表一語音辨識器中的前端演説分析子系 統。回應於一輸入演説信號,該聲音處理器提供一適當的 代表來特徵化該隨時間變化的演説信號。該聲音處理器必 須捨棄不相關的資訊,例如背景雜訊,通道失眞,擴音器 特性,及演説方式等。有效率的聲音處理可使得語音辨識 器具有加強的聲音分辨能力。目前爲止,要分析的一有用 特徵爲該短時間頻譜外形。兩種常用的頻譜分析技術來特 徵化該短時間頻譜外形爲線性預測編碼(LPC)及濾波器庫 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
裝 •缘 514867 A7 B7 五、發明説明(2 ) 爲主的頻譜模型化。範例性LPC技術係描述於美國專利編 號5,414,796中,其授權給本發明的受讓人,在此完全引 用做爲參考,以及L.B. Rabiner及R.W. Schafer所著的 Digital Processing of Speech Signals 396-453 (1978),其也在此 完全引用做爲參考。 VR的使用(通常也稱之爲speech recognition ),爲了安全 的理由而日漸重要。舉例而言,VR可用來取代無線電話 鍵盤的人爲按鈕動作。此係特別地有用,當使用者在開車 時要撥打電話時。當使用沒有VR的電話時,該駕駛者必 須由駕駛盤移出一隻手,並注視著鍵盤來按鈕及撥打電 話。這些動作增加了車禍的可能性。一種語音啓動電話 (及没计有语音辨識的電話)’其將允許該駕驶者來撥打電 話,而仍可注視著前方道路。一種車用免持聽筒系統可額 外地允許駕駛者來在打電話時成維持雙手在方向盤上。 語音辨識裝置可分類成演説者相關(SD)或演説者無關(SI) 之裝置。擴晉器相關裝置較爲常見,其被訓練爲辨識來自 特殊使用者的指令。相反地,擴音器無關裝置能夠接受來 自任何使用者的聲音指令。爲了增加_給定的VR系統之 效能’不論是演説者相關或演説者無關,皆需要訓練來建 立該系統有效的參數。換言之,該系統需要在其最佳化運 作之前來學習。 一演説者相關VR裝置基本上以兩個階段運作,即訓練 階段及辨識階段。在訓練階段中,該VR系統提示使用者 説出系統同彙中的字元一次或兩次(基本上爲兩次),所以 — -5 - 本紙張尺度適用中國國家榡準(CNS) A4規格(21〇 X 297公釐) 514867 A7 ____B7 五、發明説明~" —— 該系統可學習到使用者對這些特殊字元或片語的語音特 性。對於一車用免持聽筒的範例詞彙可包含鍵盤上的數 竽;關键字’·打電話”傳送”,”撥號",,,取消,,,,,清除 加人","刪除","歷史",”程式”,"是"及π否、及 經常撥打的同事,朋友或親人之預先定義號碼的名字。一 旦完成訓練,該使用者可説出該訓練過的字元來在辨識階 段啓始打電話,而VR裝置藉由比較説出的發音與先前訓 練的發音(儲存爲樣板),並採用最佳的匹配來辨識。舉例 而言,如果名字”John”爲訓練的名字之一,該使用者可藉 由説出片語"Call John”來啓始打電話給J〇hn。該VR系统可 辨識字元”Call,,及” John”,並可撥出該使用者先前輸入的 J 〇 h η的電活號碼。此即爲訓練的系統及方法。 一演説者無關的VR裝置也使用一訓練樣板,其包含一 預先足義尺寸的預錄詞彙(如某些控制字元,由〇到9的 數字,是及否)。大量的演説者(如1〇〇)必須錄製説出詞彙 中的每個字元。 習用上,演説者無關的VR樣板係由比較包含由第一組 演説者(基本上100名演説者)所說出的字元之測試資料庫 與包含由第二組演説者(與第一組同樣多)説出相同字元的 一訓練資料庫。一字元,由一使用者説出,其基本上稱之 爲一發晋。每個该訓練資料庫的發音係先經過時間正規 化,然後在測試與孩測試資料庫的發音之收斂性之前被量 化(基本上係根據已知的技術來向量量化)。但是,落時間 正規化技術依賴僅由個別訊框(一發音的週期性段落)得到 -6 - A7 B7 五、發明説明( 的貝訊,其具有與先前訊框的最大差異。其較佳地是來提 供一万法來使用一給定發音中更多的資訊來構建演説者無 關的VR樣板心方法。其進一步需要來增加根據發音形式 來構建演説者無關的VR樣板之習用技術的準確性或收斂 性。因此,其有需要一種方法來建構演説者無關的語音辨 識樣板,其提供加強的準確性,並使用該發音中的較大量 的資訊。 發明概要 本發明係關於一種建構演説者無關的語音辨識樣板之方 法’其提供加強的準確性及使用該發音中較大量的資訊。 因此,在本發明的一方面中,其提供一種產生説話樣板的 方法’用於一演説者無關的語音辨識系統。該方法較佳地 疋包含分段每個一第一複數個發音之發音來對每個發音產 生複數個時間叢集的段落,每個時間叢集化的段落係由一 頻瑨平均値來代表;量化所有該第一複數個發音的該複數 個頻譜平均來產生複數個樣板向量;比較該複數個樣板向 里與一第二複數個發音的每一個來產生至少一個比較結 果’匹配涊第一複數個發音與該複數個樣板向量,如果該 •^少一個比較結果超過至少一個預定的臨限値,以產生一 最佳化匹配路徑結果;根據該最佳化匹配路徑結果在時間 中區隔化孫第一複數個發音;並重複該量化,比較,匹配 及區隔化,直到該至少一個比較結果並未超過任何至少— 個預定的臨限値。 圖式簡單説明
裝 訂
A7 B7 五、發明説明(5 ) 圖1所示爲用於建構及實施演説者無關的語音辨識之語 “樣板的系統方塊圖。 圖2所示爲可用於圖1的系統中之語音辨識系統的方塊 圖。 圖3所示爲由一語晋辨識子系統,例如圖2的子系統, 所執行方法的流程圖,藉以辨識輸入語音樣本。 圖4所示爲可用於圖1的系統之樣板建構子系統的方塊 圖。 圖5所示爲可用於圖i的系統之樣板建構子系統的方塊 圖。 圖
音樣板。 6所示爲由一樣板建構子系統,例如圖4的子系統或 的子系統,所執行的方法步驟之流程圖,用以建構語 車父佳具體實施例之詳細説明 根據一具體實施例’ ^圖"斤示,一用以建構及實施演 說者無關的語音辨識之語音樣板的系統10 ,其包含一演 死者無關樣板建構子系統12及—語音辨識子系統14。該 演說者無關樣板建構子系統12係結合於該語音辨識子系 統14 〇 々説者…、關浯音樣板係由該演說者無關樣板建構子系統 所建構,如下述圖4_6。該樣板係提供給該語音辨識子 ^ 來用於辨識來自一使用者的輸入語音,如下述之 一語音辨識子系統 根據一具體實施例,如圖2所示 本紙張尺歧 514867 A7 B7 五、發明説明(6 ) 100包含一類比到數位轉換器(A/D) 102 ,一前端聲音處理 器104,一特徵擷取器106,一語音樣板資料庫108,圖樣 比較邏輯110,及決策邏輯112。在一特殊具體實施例 中,該聲音處理器104及該特徵擷取器106係實施成一個 裝置,例如一參數擷取器。在一具體實施例中,該聲音處 理器104包含一頻率分析模組114。在一具體實施例中, 該特徵擷取器106包含一終點偵測器116,一時間叢集語 音分段模組118,及一語音位準正規化器120。 該A/D 102係耦合於該聲音處理器104。該聲音處理器 104係耦合於該特徵擷取器106。在一具體實施例中,該 特徵擷取器106内,該終點偵測器116係耦合於該時間叢 集語音分段模組118,其耦合於該振幅量化器120。該特 徵擷取器106耦合於該圖樣比較邏輯110。該圖樣比較邏 輯110耦合於該樣板資料庫108及該決策邏輯112。 該語音辨識子系統100可存在於像是無線電話或一車用 免持聽筒。一使用者(未示出)説出一字元或片語,即產生 一語音信號。該語音信號即利用一習用的換能器(未示出) 來轉換到一電子語音信號s(t)。該語音信號s(t)即提供給 A/D 102 ,其根據一已知的取樣方法,例如像是脈衝編碼 調變(PCM),A-法則或# -法則來轉換該語音信號到數位 化的語音樣本s(n)。 該語音樣本vs(n)係提供給該聲音處理器104來決定參 數。該聲音處理器104產生一組參數,其模型化該輸入語 音信號s(t)的特徵。該參數可根據任何已知的一些語音參 _-_9-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 514867 A7 ____B7_._ 五、發明説明(7 ) 數決定技術來決定,其包含像是語音編碼器編碼,離散傅 立葉轉換(DFT)爲主的頻譜係數(如快速傅立葉轉換(FFT) 爲主的頻譜係數),線性預測係數(LPCTs),或巴克等級分 析,如前述美國專利編號5,414,796 ,及Lawrence Rabiner 及 Biing-Hwang Juang 所著 Fundamentals of Speech Recognition (1993)中所述。該組參數較佳地是爲以訊框爲主(分段成週 期性訊框)。該聲音處理器104可實施爲一數位信號處理 器(DSP)。該DSP可包含一語音編碼器。另外,該聲音處 理器1 〇4可實施爲一語音編碼器。 每個參數訊框即提供給該特徵擷取器106。在該特徵擷 取器106中,該終點偵測器116使用該擷取的參數來偵測 一發音(即一字元)的終點。在一具體實施例中,該終點偵 測較佳地是根據美國專利申請編號09/246,414中所述的原 理來進行,其於1999年2月8日立案,名爲”在有雜訊之 下準確地找出語音終點的方法及裝置”("METHOD AND APPARATUS FOR ACCURATE ENDPOINTING OF SPEECH IN THE PRESENCE OF NOISE"),其授權給本發明的受讓人, 在此完全引用做爲參考。根據此技術,該發音係相較於一 第一臨限値,例如像是一信號對雜訊比(SNR)臨限値,以 決定該發音的一第一啓始點及一第一終止點。在該第一啓 始點之前的該發音的一部份即與一第二SNR臨限値比較, 以決定該發音的一第二啓始點。在該第一終止點之後之該 發音係與第二SNR臨界値比較,以決定該發音之第二終 止點。該第一及第二SNR臨限値較佳地是週期性地重新計 -10- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 514867 A7 B7 五了發明説明(8~~) ' " 算,而該第一 SNR臨限値較佳地是超過該第二SNR臨限 値。 該偵測的發音之頻率領域參數的訊框係提供給該時間叢 集語音分段模組118,其根據一具體實施例而實施一壓縮 技術,其述於美國專利申請編號09/225,891 ,於1999年1 月4日提案,名爲”語音信號的分段及辨識之系統及方法 "("SYSTEM AND METHOD FOR SEGMENTATION AND RECOGNITION OF SPEECH SIGNALS"),其授權給本發明的 受讓人,在此完全引用做爲參考。根據此技術,該頻率領 域參數中的每個語音訊框係以關於該語音訊框的至少一個 頻譜値來代表。然後一頻譜差異値即對每對相鄰的訊框來 決定。該頻譜差異値代表關於該配對中兩個訊框的頻譜値 之間的差異。一初始叢集邊界係設定在每對相鄰訊框之 間,產生參數中的叢集,及將一變化値指定給每個叢集。 該變化値較佳地是等於該決定的頻譜差異値之一。然後計 算複數個叢集結合參數,每個該叢集結合參數係關於一對 相鄰的叢集。一最小的叢集結合參數係選自複數個叢集結 合參數。然後一結合的叢集即由取消關於該最小叢集結合 參數的該叢集之間的叢集邊界來形成。該結合的變化値代 表指定給關於該最小叢集結合參數的該叢集之變化値。該 處理較佳地是重複進行,藉以形成複數個結合的叢集,且 該分段的語音信號可較佳地是根據該複數個結合的叢集來 形成。 本技藝的專業人士將可暸解,該時間叢集語音分段模組 一 -11- 本紙張尺度適用中國國家襟準(CNS) A4規格(2i〇X297公釐) 514867 A7 B7 五、發明説明( 118可由其它裝置來取代,例如像是一時間正規化模組。 但是,專業人士亦可瞭解到,因爲該時間叢集語音分段模 組118結合具有最小差異的訊框成爲叢集,其係相較於先 前的訊框,並使用平均値而非個別的訊框,該時間叢集# 音分段模組118使用該處理的發音中更多的資訊。其亦可 瞭解到,該時間叢集語音分段模組118較佳地是配合圖樣 比較邏輯110來使用,其利用本技藝中所熟知的動態時間 扭曲(DTW),如下所述。 該叢集平均係提供給該語音位準正規化器12〇。在一具 體實施例中,該語音位準正規化器120藉由指定給每個叢 集平均每個通道兩個位元來量化該語音振幅(即每個頻率 兩個位元)。在另一具體實施例中,其中頻譜係數被擷 取,該語音位準正規化器120並未用於量化該叢集平均, 其爲專業人士所能瞭解。由該語音位準正規化器12〇所產 生的輸出係由該特徵擷取器106提供給該圖樣比較邏輯 110 〇 琢語晋辨識子系統100的所有詞彙字元的一組樣板係永 久地儲存在該樣板資料庫108。該組樣板較佳地是爲一組 演說者無關的樣板,其以如下所述的一演説者無關的樣板 建構子系統所建構。該樣板資料庫108較佳地是由任何習 用的非揮發性媒體形式來實施,例如像是快閃記憶體。此 允許孩樣板來保持在該樣板資料庫108中,當該語音辨識 子系統100的電源被關掉時。 涊圖樣比較邏輯110比較來自該特徵擷取器1〇6的向量
裝 訂
514867 A7 B7 五、發明説明(K)) 與儲存在樣板資料庫108中的所有樣板。在該向量與所有 儲存在樣板資料庫108中的樣板之間的比較結果或距離將 提供給該決策邏輯112。該決策邏輯112自該樣板資料庫 108中選出最爲匹配該向量的樣板。另外,該決策邏輯112 可使用一習用的π Ν-最佳”選擇演算法,其在一預定的匹 配臨限値之内選出Ν個最接近的匹配。然後該使用者即被 詢問是要那一個選擇。該決策邏輯112的輸出爲在該詞彙 中決定出所説的字元。 在一具體實施例中,該圖樣比較邏輯110及該決策邏輯 112使用一 DTW技術來測試收斂性。該DTW技術在本技藝 中爲人所熟知,並述於Lawrence Rabiner及Biing-Hwang Juang 户斤著白勺 Fundamentals of Speech Recognition 200-238 (1993)。其在此完全引用做爲參考。根據該DTW技術,一 格架由繪出要測試的該發音的一時間序列,對於儲存在該 樣板資料庫108中的每個發音之時間序列所形成。然後正 在測試的發音即與該樣板資料庫108中的每個發音進行比 較,點對點方式(例如每10 ms ),一次一個發音。對於樣 板資料庫108中的每個發音,正在測試的發音被調整或 ”扭曲”在時間中,其係在特殊的點被壓縮或擴張,直到達 到與該樣板資料庫108中的發音最可能接近的匹配。在時 間中的每個點上,該兩個發音進行比較,其爲在該點(零 成本)宣告匹配,或宣告一不匹配。在一特殊點上的一不 匹配的事件中,正在測試的發音即被壓縮,擴張,或如果 需要的話被錯配。該處理一直持續到該兩個發音已經彼此 _- 13-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 514867 A7 B7 11 五、發明説明( 几王地比較過。其有可能爲大量(典型會有數千)的不同調 整的發音。該調整的發音具有最低成本的函數(即需要最 少量的壓縮及/或擴張及/或錯配)被選出。以類似於Viterbi 解碼演算法的方^,該選擇較佳地是由重新回顧該樣板資 料庫108中的發音之每個點來進行,藉以決定具有最低整 體成本的路徑。此允許該最低成本(即最爲匹配)的調整過 發音,可以不需要重新排序產生每個不同調整的發音之所 有可能之”強制"方法而決定出來。然後對於該樣板資料庫 108中所有發音之該最低成本調整的發音即被比較,其中 具有最低成本者即被選爲該儲存的發音中最爲接近匹配於 該測試的發音。 該圖樣比較邏輯11G及該決策邏輯112可較佳地實施爲 一微處理器。菽語晋辨識子系統100可爲像是一 ASIC。該 語音辨識子系統100的辨識準確性爲該語音辨識子系統 削如何正確地辨識出該詞彙中説出的字元或片語之度 量。舉例而言,- 95%辨識準確性代表該語音辨識子系統 100可正確地在1〇〇次中辨識出該詞彙中的字元以%次。 根據-具體實施例,-語音辨識子系統(未示出)執行圖 3所示的流程圖中的演算法步驟,以辨識語音輸入到_音五 音辨識子系統。在步驟巾,其提供輸人語音到該語音 辨識子系統。然後控制流進行到步驟2〇2。在步驟2〇2 中,即偵測出一發音的終點。在一特殊具體實施例:,該 發音的該終點係根據上述的美國專利中請編號_46,414 中所提充的技術來偵測,如上述配合圖2的控制流,即進 -14- 本紙張尺度適用巾@國家標準(CNS) A4規格(⑽χ挪公爱) 514867 A7 B7 五、發明説明(12 ) 行到步驟204。 在步驟204中,在該擷取的發音中執行時間叢集語音分 段。在一特殊具體實施例中,所使用的該時間叢集語音分 段技術即爲先前美國專利申請編號09/225^91中所述的技 術,如圖2中所述。然後控制流進行到步骤208。在步驟 206中,係提供演説者無關的樣板來匹配於在步驟204中 所產生的該語骨叢集平均。該演説者無關樣板較佳地是根 據下述參考圖4-6的技術所建構。然後控制流進行到步驟 208。在步驟208中,在一特殊發音的叢集與所有該演說 者無關的樣板之間進行一 DTW匹配,且該最接近的匹配 樣板被選爲該辨識的發音。在一特殊具體實施例中,該 DTW 匹配係根據 Lawrence Rabiner 及 Biing-Hwang Juang 所著 Fundamentals of Speech Recognition 200-238 (1993)中所述的技 術來進行,其如圖2所示。本技藝的專業人士可以瞭解 到,除了時間叢集語音分段之外的方法亦可在步驟204中 執行。這種方法包含像是時間正規化。 根據一具體實施例,如圖4所示,一演說者無關的樣板 建構子系統300包含一處理器302及一儲存媒體304。該處 理器100較佳地是爲一微處理器,但可爲任何習用種類的 處理器,專屬處理器,數位信號處理器(DSP),控制器或 狀態機器。該處理器302耦合於該儲存媒體304,其較佳 地是實施爲快閃記憶體,EEPR0M記憶體,RAM記憶體, 設定用來保持韌體指令的ROM記憶體,執行在該處理器 302上的一軟體模組,或任何其它習用種類的記憶體。該 _ 15 - 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝 514867 A7 B7 五、發明説明(13 ) 演説者無關的樣板建構子系統300較佳地是實施爲執行 UNIX⑧作業系統電腦。在另一具體實施例中,該儲存媒體 304可爲板上的RAM記憶體,或該處理器302及該儲存媒 體304可存在於一 ASIC。在一具體實施例中,該處理器 302係用來執行包含於該儲存媒體304的一組指令,用以 執行演算法步驟,例如下述參考圖6的步驟。 根據另一具體實施例,如圖5所示,一演説者無關的樣 板建構子系統400包含一終點偵測器402,時間叢集語音 分段邏輯404,一向量量化器406,一收斂測試器408,及 K値平均語音分段邏輯410。一控制處理器(未示出)可較 佳地是用來控制該演説者無關的樣板建構子系統400所執 行的遞迴數目。 該終點偵測器402係耦合於該時間叢集語音分段邏輯 404。該時間叢集語音分段邏輯404係耦合於該向量量化 器406。該向量量化器406係耦合於該收斂測試器408,及 該K値平均語音分段邏輯410。該控制處理器較佳地是經 由一控制匯流排(未示出)而耦合於該終點偵測器402,該 時間叢集語音分段邏輯404,該向量量化器406,該收斂 測試器408,及該K値平均語音分段邏輯410。 要被訓練的一發音訓練樣本Sx(n)係提供在訊框中給該 終點偵測器402。該訓練樣本較佳地是由一訓練資料庫 (未示出)所提供,其中要訓練的發音被儲存。終點偵測器 402偵測發音之啓始點及終止點。在一具體實施例中,該 訓練資料庫包含100個字元,每個皆由100個不同的演説 _- 16-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐)
裝 蒙 514867 A7 B7 五、發明説明(14 ) 者説出,而得到總共10,000個儲存的發音。在一具體實施 例中,該終點偵測器402係根據前述美國專利申請編號 09/246,414中所述的原理來運作,並參考上述圖2。 該終點偵測器402提供該偵測的發音到該時間叢集語音 分段邏輯404。該時間叢集語音分段邏輯404在該偵測的 發音上執行一壓縮演算法。在一具體實施例中,該時間叢 集語音分段邏輯404係根據前述美國專利申請編號 09/225,891中所述的原理來運作,並參考上述圖2 。在一 具體實施例中,該時間叢集語音分段邏輯404壓縮該偵測 的發音成二十個段落,每個段落包含一叢集平均。 該時間叢集語音分段邏輯404提供一給定字元的所有訓 練發音的該叢集平均到該向量量化器406。該向量量化器 406量化該發音的該叢集平均(即對於相同字元的所有演説 者),並提供所得到的向量做爲該發音的可能演説者無關 (SI)樣板給該收斂性測試器408。該向量量化器406較佳地 是根據任何許多已知的向量量化(VQ)技術來運作。不同的 VQ技術係説明在像是 A. Gersho及R.M. Gray所著 Quantization and Signal Compression (1992)。在一特殊具體實 施例中,該向量量化器406產生四叢集向量。因此,例如 每個段落係序列化提供給該向量量化器406,其代表每個 段落成爲四個叢集。每個叢集代表該特殊字元的每個演説 者,且每個字元有數個叢集。根據一具體實施例,每個樣 板有8個向量(4個叢集乘以20個段落)。 該敎斂測試器408比較該潛在的SI樣板與要測試的發音 _- 17-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 514867 A7 B7 五、發明説明(15 ) 之測試樣本Sy(n)。該測試樣本係以訊框提供給該收敛測 試器408。該測試樣本較佳地是由一測試資料庫(未示出) 來提供,其中儲存有要測試的發音。在一具體實施例中, 該測試資料庫包含1〇〇個字元,每個係由100個不同的演 説者來説出,成爲總共10,000個儲存的發音。該字元較佳 地是與包含在訓練資料庫中爲相同的字元,但由100個不 同的演説者説出。該收斂測試器408比較要訓練的發音之 潛在的SI樣板,與要測試的發音之樣本。在一具體實施例 中,該收斂測試器408係用來使用一 DTW演算法來測試收 斂性。該使用的DTW演算法較佳地是爲描述在Lawrence Rabiner 及 Biing-Hwang Juang 户斤著的 Fundamentals of Speech Recognition 200-238 (1993)及上述的圖 2 中。 在一具體實施例中,該收斂測試器408係用來分析資料 庫中所有字元的結果之準確性及具有潛在的SI樣板的資料 庫之變化。該變化先被檢查,而如果該變化低於一預定的 臨限値時,該準確性即被檢查。該變化較佳地是對每個段 落來計算,然後加總來產生一整體的變化値。在一特殊具 體實施例中,該變化係由計算該4個叢集的最佳匹配的均 方根誤差來得到。該均方根誤差技術爲本技藝中所熟知。 該收斂性測試被定義爲準確,如果來自該測試資料庫的發 音匹配於由該訓練資料庫所產生的潛在SI樣板(即如果辨 識對於該資料庫中所有字元爲正確的話)。 該潛在的SI樣板也可由該向量量化器406提供給該K値 平均語音分段邏輯410。該K値平均語音分段邏輯410也 _-18-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 514867 A7 B7 五、發明説明(16 ) 接收該訓練樣本,其較佳地是區隔成訊框。在該收敛性測 試器408已執行第一收斂性測試之後,該變化或準確性的 結果可低於該變化及準確性的預定臨限値。在一具體實施 例中,如果該變化或準確性的結果低於該變化及準確性的 預定臨限値時,即執行另一個遞迴。因此,該控制處理器 指示該K値平均語音分段邏輯410來對該訓練樣本執行K 値平均分段化,藉以產生如下述的分段語音訊框。根據該 K値平均語音分段化,該訓練樣本係匹配於該潛在的SI樣 本,較佳地是以一 DTW技術,藉此產生如上述圖2之最 佳路徑。然後該訓練樣本即根據該最佳路徑被分段化。舉 例而言,該訓練樣本的前5個訊框可匹配於該可能SI樣板 的第一訊框,接下來的3個訓練樣本的訊框可匹配於該可 能SI樣板的第二訊框,而該訓練樣本的下10個訊框可匹 配於該潛在的SI樣板的第三訊框。在此例中,該訓練樣本 的前5個訊框將被分段成一個訊框,下三個訊框則被分段 成一第二訊框,而下10個訊框將被分段成一第三訊框。 在一具體實施例中,該K値平均語音分段邏輯4 1 0根據 一範例性K値平均分段技術來執行該K値平均分段化, 該技術描述於 Lawrence Rabiner 及 Biing-Hwang Juang 所著 Fundamentals of Speech Recognition 382-384 (1993),其在此完 全引用做爲參考。然後該K値平均語音分段邏輯410即提 供該更新的叢集平均的訊框到該向量量化器406,該向量 量化器量化該叢集平均,並提供該結果向量(其包含新的 潛在SI樣板)到該收斂性測試器408,以執行另一個收斂 _- 19-_ 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐) 514867 五、發明説明(17 A7 B7
性測試。本技藝的一專業人士將可瞭解到此遞迴處理可依 需要持續到達成在該預定臨限値之上的變化及準確性辞 果。 、’ 一旦该收斂性測試通過,該潛在的(現在爲最終的)SI 樣板可較佳地用於一語音辨識子系統,例如圖2的語音辨 識子系統。該最終的S][樣板將可儲存在圖2的樣板資料庫 108中’或用於圖3的流程圖中的步驟2〇6。 在一具體實施例中,一演説者無關樣板建構子系統(未 示出)執行示於圖6的流程圖中的方法步驟,以建構一發 音的演説者無關的樣板。在步驟5〇〇中,一發音的訓練樣本係由一訓練資料庫獲得(未示出)。該訓練資料庫較佳地 疋包含大量的字元(如100個字元),每個皆由大量的演説 者説出(如每個字元100個演説者)。然後控制流進行到步 驟 502 〇 在步驟502中,對於訓練樣本執行終點偵測,以偵測一 發骨。在一具體實施例中,該終點偵測係根據前述的美國 專利申請編號〇9/246,414所述的技術執行,並參考上圖 2。然後控制流進行到步驟504。 在步驟5〇4巾,時間叢集語音分段係對制的發音來執 行,藉此壓縮該發音成數個段落,每個段落由一平均來代 表。在一特殊具體實施例中,該發音係壓縮成2〇個段 落,每個段落包含-叢集平均。在一具體實施例中,該時 間叢集語音分段係根據前述的美國專利申請編號 随25,891所述的技術執行,並參考上圖2。然後控制流
裝 訂
514867 A7 B7 五、發明説明(18 ) 進行到步驟506。 在步驟506中,該相同字元的所有演説者的訓練樣本的 叢集平均皆爲向量量化。在特殊具體實施例中,該叢集平 均係根據描述於 A. Gersho及R.M. Gray 所華 Vector Quantization and Signal Compression (1992)中的許多已知技術 中的一個來向量量化。在一特殊具體實施例中,產生4叢 集向量。因此,例如每個段落係由4個叢集來代表。每個 叢集代表該特殊字元的每個演説者,且每個字元有多個叢 集。根據一具體實施例,每個樣板產生80個向量(4個叢 集乘以20個段落)。然後控制流進行到步驟510。 在步驟508中,測試樣本由一測試資料庫(未示出)得 到,以測試收敛性。該測試資料庫較佳地是包含在該訓練 資料庫中含有的相同字元,其每個皆由大量的演説者所説 出(例如每個發音有100個演説者)。然後控制流進行到步 驟 510 〇 在步驟510中,該量化的向量係以潛在的SI樣板與該測 試樣本來比較,以測試收斂性。在一具體實施例中,該收 斂性測試爲一 DTW演算法。該使用的DTW演算法可較佳 i也爲 Lawrence Rabiner 及 Biing-Hwang Juang 户斤著的 Fundamentals of Speech Recognition 200-238 (1993)所述,並參 考上圖2。 在一具體實施例中,步驟510的收斂性測試分析所有資 料庫中字位的結果之準確性及具有潛在SI樣板的資料庫之 變化。該變化先被檢查,且如果該變化低於一預定的臨限 _-21^_ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 514867 A7 B7 五、發明説明(19 ) 値時,該準確性即被檢查。該變化 G奴佳地是以每個段落來 計算,然後被加總來產生一整體的 欠化値。在一特殊具體 實施例中,該變化係由計算該4個叢隹 泉木:的取佳匹配的均方 根來取得。該均方根技術在本技藝巾所熟知。該收斂性測 試在由該測試資料庫產生的該可能SI樣板匹配於來自該訓 練資料庫的該發音時’被定義爲準確(即如果辨識對於所 有孩資料庫中的字元爲正確)^然後控制流進行到步驟 512 〇 在步驟512中,如果步驟510的收斂性測試對於變化或 準確性的結果低於變化及準確性的預定臨限値時,即執行 另一個遞迴。因此,K値平均語音分段即對該訓練樣本來 執行。該K値平均語音分段匹配該訓練樣本於該潛在的SI 木K板’其較佳地是以I>tw技術執行,藉此產生一最佳化 路徑,如參考上述之圖2。然後該訓練樣本根據該最佳化 路徑來分段。在一具體實施例中,該K値平均語音分段係 根據 Lawrence Rabiner 及 Biing_Hwang Juang 所著 Fundamentals of Speech Recognition 382-384 (1993)中所述的技 術來執行。然後控制流回到步驟5〇6,其中該更新的叢集 平均訊框被向量量化,且在步驟510中,以來自該測試資 料庫的樣本進行收斂性測試(如同該新的潛在SI樣板)。本 技藝的專業人士將可瞭解此遞迴處理可依需要持續到達成 在該預定臨限値之上的變化及準確性結果。 一旦通過該收斂性測試(即一旦達到該臨限値),該潛在 的(現在爲最後的)SI樣板可較佳地用於語音辨識子系 -22- 本纸張尺度適用中國國家標準(CNS) A4規格(210X 297公釐) 514867 A7 B7 五、發明説明(2〇 ) 統,例如圖2的語音辨識子系統。該最後的SI樣板將儲存 在圖2的樣板資料庫108中,或用於圖3的流程圖中的步 驟 206。 因此,已經描述建構一演説者無關語音辨識系統的語音 樣板之創新及改良的方法及裝置。本技藝的那些專業人士 將可瞭解,在以上説明中所參考的資料,指令,命令,資 訊,信號,位元,符號及晶片等,皆可較佳地是由電壓, 電流,電磁波,磁場或粒子,光學場或粒子,或其任何組 合來代表。那些專業人士將進一步瞭解配合此處所揭示的 具體實施例中所描述的不同説明性邏輯方塊,模組,電路 及演算法步驟,其可實施爲電子硬體,電腦軟體,或其組 合。該不同的説明組件,方塊,模組,電路及步驟一般係 以其功能來描述。是否該功能是實施爲硬體或軟體,係依 據該特殊應用,及施加於整體系統的設計限制。專業人士 可認知到在這些狀況下硬體及軟體之互換行,以及如何最 佳地實施每個特殊應用所描述的功能。依照範例,配合此 處所揭示的具體實施例之不同的説明邏輯方塊,模組,電 路及演算法步驟,可實施或執行於一數位信號處理器 (DSP),一特定應用積體電路(ASIC),一現場程式化閘極陣 列(FPGA)或其它可程式邏輯裝置,分散閘極或電晶體邏 輯,分散硬體組件,例如像是暫存器及FIFO,一執行一 組韌體指令的處理器,任何習用的可程式軟體模組及一處 理器,或其任何組合來執行此處所述的功能。該處理器可 較佳地是爲一微處理器,但另外,該處理器可爲任何習用 _- 23-_ 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐) 514867 A7 B7 五、發明説明(21 ) 的處理器,控制器,微控制器,或狀態機器。該軟體模組 可存在於RAM記憶體,快閃記憶體,ROM記憶體, EPROM記憶體,EEPROM記憶體,暫存器,硬碟,可移除 碟片,一 CD-ROM,或任何其它本技藝中已知的儲存媒體 形式。一範例處理器可較佳地是耦合於該儲存媒體,藉以 讀取資訊或寫入資訊到該儲存媒體。另外,該儲存媒體將 可整合到該處理器。該處理器及該儲存媒體可存在於一 ASIC。該ASIC可存在於一電話。另外,該處理器及該儲 存媒體可存在於一電話。該處理器可實施爲一 DSP及一微 處理器的組合,或成爲配合一 DSP核心的兩個微處理器 等。 因此本發明的較佳具體實施例已經顯示及説明。然而, 本技藝的專業人士可以瞭解,在不背離本發明的精神或範 圍之下,可對此處所揭示的具體實施例進行不同的變化。 因此,本發明乃限於以下的申請專利範圍。 _-24- 本紙張尺度適用中國國家標準(CNS) A4規格(210 X 297公釐)
Claims (1)
- 514867 88895 ABCD 六、申請專利範圍 1,-種用於與演説者無關的語音辨識系統中產生語音樣 板之方法,該方法包含: 刀敁第複數個發晋的每個發音以爲每個發音產 生複數個時間叢集的段落,每個時間叢集的段落係由 一頻譜平均所代表; 對於所有的該第一複數個發立氺B , 瓦双七㈢來!化孩複數個頻譜 平均以產生複數個樣板向量; 將該每一個樣板向量愈一筐—# 、 J里只罘一復數個發晋比較來產 生至少一比較結果; 當該至少一比較結果超過至少—預定的臨限値時, 匹配該第一複數個發音與該複數個樣板向量,以產生 一最佳的匹配路徑結果; 根據該最佳的匹配路徑結果在時間中區隔該第一複 數個發音;及 重複該量化,比較,匹配及區隔,直到該至少一比 較結果不會超過任何至少一個預定的臨限値。 2.如申請專利範圍第!項之方法,其中該比較包含計算 一變化度量。 3·如申請專利範圍第1項之方法,其中該比較包含計算 一準確性度量。 4·如申清專利範圍第1項之方法,其中該比較包含首先 計算一變化度量,其次,如果該變化度量並未超過一 第一預定臨限値時,計算一準確性度量。 5·如申請專利範圍第4項之方法,其中該匹配包含如果 -25- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) -----Jl—Ί.----裝錢| (請先閱讀背面之注惠事項再填寫本頁) - •線· 經濟部智慧財產局員工消費合作社印製 514867 經濟部智慧財產局員工消費合作社印製 ___§______六、申請專利範圍 該變化度量超過該第一預定臨限値或該準確性度量超 過一第二預定臨限値時,匹配該第_發音與該複數個 樣板向量。 6·如申請專利範圍第丨項之方法,其中該比較包含執行 一動態時間扭曲計算。 7. 如申請專利範圍第1項之方法,其中該匹配包含執行 一動態時間扭曲計算。 8. 如申請專利範圍第1項之方法,其中該匹配及該區隔 包含執行一 K値平均分段計算。 9. 如申請專利範圍第1項之方法,進一步包含該第一發 音的終點。 10. —種產生用於與演說者無關之語音辨識系統的語音樣 板之裝置,該裝置包含: 用以分段一第一複數個發音的每個發音之裝置,以 爲每個發音產生複數個時間叢集的段落,每個時間叢 集的段落係由一頻譜平均所代表; 用以對於所有的該第一複數個發音來量化該複數個 頻譜平均之裝置,以產生複數個樣板向量; 用以將該每一個樣板向量與一第二複數個發音比較 之裝置,以產生至少一比較結果; 當該至少一比較結果超過至少一預定的臨限値時, 用以匹配該第一複數個發音與該複數個樣板向量之裝 置,以產生一最佳的匹配路徑結果; 用以根據該最佳的匹配路徑結果在時間中區隔該第 26- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)---- —^llJJ----I (請先閱讀背面之注音?事項再填寫本頁) 訂. -•線· A8B8C8D8 經濟部智慧財產局員工消費合作社印製 514867 六、申請專利範圍 一複數個發音之裝置;及 用以重複該量化,比較,匹 該至少-比較結果不會超過任何至::〈裝置’直5 値。 ^ 一個預定的臨PI 11· 一種產生用於與演說者無關之纽立 板之裝置,該裝置包含·· ”辦識系統的語音樣 分段邏輯,用來分段一第 … 音,以爲每個發音產二:Γ獲數個發音的每個發 乃母個發Θ產生複數個時間叢集的段落 時間叢集的段落係由一頻譜平均所代表. -量化器’其_合於該分段邏輯,並配置成對於所 有的該第-複數個發音量化該複數個頻譜平均,以產 生複數個樣板向量; 一收斂性測試器,其耦合於該量化器,並配置成將 每一個該複數個樣板向量與—第二複數個發音比較以 產生至少一比較結果;及 區隔化邏輯,其耦合於該量化器及該收斂性測試 器’並配置成當該至少一比較結果超過至少一預定的 臨限値時來匹配該第一複數個發音與該複數個樣板向 量,用以產生一最佳匹配路徑結果,並用以根據該最 佳匹配路徑結果來在時間中區隔該第一複數個發音, 其中該量化器,該收斂性測試器,及該區隔化邏輯 係進一步配置成重複該量化,比較,匹配及區隔化, 直到該至少一比較結果不會超過任何至少一預定的臨 限値。 -27- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)514867 A8 B8 C8 D8 六、申請專利範圍 12·如申請專利範圍第i i項之裝置,其中該至少一比較 結果爲一變化度量。 ------7-T--- J----I (請先閱讀背面之注意事項再填寫本頁) 13·如申請專利範圍第i !項之裝置,其中該至少一比較 結果爲一準確性度量。 14·如申請專利範圍第1 !項之裝置,其中該至少一比較 結果爲一變化度量及一準確性度量,其中該收斂性測 試器用來首先計算該變化度量,而其次,如果該變化 度量並未超過一第一預定臨限値時,計算一準確性度 ° 15·如申請專利範圍第1 4項之裝置,其中該匹配包含如 果該變化度量超過該第一預定臨限値或該準確性度量 超過一第二預定臨限値時,匹配該第—發音與該複數 個樣板向量。 線· 16·如申請專利範圍第!丨項之裝置,其中該收斂性測試 器用來執行一動態時間扭曲計算。 17·如申請專利範圍第1 1項之裝置,其中該區隔邏輯用 來執行一動態時間扭曲計算。 經濟部智慧財產局員工消費合作社印製 18. 如申請專利範圍第1 1項之裝置,其中該區隔邏輯包 含K値平均語音分段計算。 19. 如申請專利範圍第1 1項之裝置,進一步包含一終點 、偵測器,其耦合於該分段邏輯,並用於偵測該第一發 音的終點。 20. —種產生用於與演説者無關之語音辨識系統的語音樣 板之裝置,該裝置包含: -28 - 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 514867 A8B8C8D8 比較 其中該至少一比較 六、申請專利範圍 一處理器;及 一儲存媒體,其耦合於該處理器,並包含一組由咳 處理器執行的指令,以分段一第一 x 币復數個發晋的每個 發音來產生每個發音的複數個時間叢集段落,每個時 間叢集段落由一平均値代表,量化所有的該第一複數 個發音的該複數個頻譜平均來產生複數個樣板向量, 比較每一個該複數個樣板向量與一第二複數個發音來 產生至少一比較結果,如果該至少一比較結果超過至 少一預定的臨限値時匹配該第一複數個發音與該複數 個樣板向量,以產生一最佳匹配路徑結果,根據該最 佳匹配路徑結果而在時間中區隔該第一複數個發音, 及重複該量化,比較,匹配及區隔化,直到該至少一 比較結果不超過任何至少一預定的臨限値。 21·如申請專利範圍第2 〇項之裝置,其中該至少 結果爲一變化度量。 22·如申請專利範圍第2 〇項之裝置 結果爲一準確性度量。 23. 如申請專利範圍第2 〇項之裝置,其中該至少一比較 結果爲一變化度量及一準確性度量,其中該組由該處 理器執行的指令首先計算該變化度量,而其次,如果 該變化度量並未超過一第一預定臨限値時,計算該準 確性度量。 24. 如申請專利範圍第2 3項之裝置,其中該組指令係進 一步由該處理器執行,用以如果該變化度量超過該第 -29_ 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) 丨 — 丨IT If — —· ΙΊΙ — · I I 1 — I I t ---- - ----I I IAW (請先閱讀背面之注意事項再填寫本頁) 經濟部智慧財產局員工消費合作社印製預疋臨限値或該準確性度量超過一第二預定臨限値 時,匹配該第一發音與該複數個樣板向量。 如申明專利範圍第2 0項之裝置,其中該組指令由該 處里器執行,用以藉由執行一動態時間扭曲計算來比 較每一個該複數個樣板向量與該複數個發音。 如申叫專利範圍第2 0項之裝置,其中該組指令由該 處理器執行來匹配區隔邏輯,其用來藉由執行一動態 時間扭曲計算來匹配該第一發音與該複數個樣板向 量 ° 27·如申請專利範圍第20項之裝置,其中該組指令由該 處理器執行,用以藉由執行一 κ値平均語音分段計算 來區隔該第一發音。 汉如申請專利範圍第20項之裝置,其中該組指令係進 一步由該處理器執行來偵測該第一發音的終點。 29. —種處理器可讀取之媒體,其包含—组處理器可執行 的指令以: T 分段一第一複數個發音的每個發音,以爲每個發音 產生複數個時間叢集的段落,每個時間叢集的段落係 由一頻譜平均所代表; ~ 對於所有的該第一複數個發音來量化該複數個頰譜 平均,以產生複數個樣板向量; ” Μ 將每一個樣板向量與一第二複數個發音比較,以產 生至少一比較結果; 當該至少一比較結果超過至少—預定的臨限値時, -30- 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐) ------J--Ί-----1 (請先閱讀背面之注意事項再填寫本頁) . 線· 經濟部智慧財產局員工消費合作社印製 J 丄 %67 A8 B8 C8 D8 六、申請專利範圍 匹配該第一複數個發音與該複數個樣板向量,以產生 —最佳的匹配路徑結果; 根據該最佳的匹配路徑結果,在時間中區隔該第一 複數個發音;及 重複該量化,比較,匹配及區隔化,直到該至少一 比較結果不會超過任何至少一個預定的臨限値。 -----J- J—* J----. (請先閱讀背面之注咅?事項再填寫本頁) 訂 經濟部智慧財產局員工消費合作社印製 -31 本紙張尺度適用中國國家標準(CNS)A4規格(210 X 297公釐)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/615,572 US6735563B1 (en) | 2000-07-13 | 2000-07-13 | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
Publications (1)
Publication Number | Publication Date |
---|---|
TW514867B true TW514867B (en) | 2002-12-21 |
Family
ID=24465970
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW090117207A TW514867B (en) | 2000-07-13 | 2001-07-13 | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
Country Status (13)
Country | Link |
---|---|
US (1) | US6735563B1 (zh) |
EP (1) | EP1301919B1 (zh) |
JP (1) | JP4202124B2 (zh) |
KR (1) | KR100766761B1 (zh) |
CN (1) | CN1205601C (zh) |
AT (1) | ATE345562T1 (zh) |
AU (1) | AU2001273410A1 (zh) |
BR (1) | BR0112405A (zh) |
DE (1) | DE60124551T2 (zh) |
ES (1) | ES2275700T3 (zh) |
HK (1) | HK1056427A1 (zh) |
TW (1) | TW514867B (zh) |
WO (1) | WO2002007145A2 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
TWI454942B (zh) * | 2006-05-23 | 2014-10-01 | Creative Tech Ltd | 利用音調匹配從音頻檔案集合中存取一個音頻檔案之方法及設備 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6990446B1 (en) * | 2000-10-10 | 2006-01-24 | Microsoft Corporation | Method and apparatus using spectral addition for speaker recognition |
DE10127559A1 (de) * | 2001-06-06 | 2002-12-12 | Philips Corp Intellectual Pty | Benutzergruppenspezifisches Musterverarbeitungssystem |
TW541517B (en) * | 2001-12-25 | 2003-07-11 | Univ Nat Cheng Kung | Speech recognition system |
DE10220524B4 (de) | 2002-05-08 | 2006-08-10 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und zur Erkennung einer Sprache |
EP1363271A1 (de) | 2002-05-08 | 2003-11-19 | Sap Ag | Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs |
KR100533601B1 (ko) * | 2002-12-05 | 2005-12-06 | 베스티안파트너스(주) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
US7509257B2 (en) * | 2002-12-24 | 2009-03-24 | Marvell International Ltd. | Method and apparatus for adapting reference templates |
EP2527046A1 (en) | 2003-07-29 | 2012-11-28 | Intelligent Energy, Inc. | Thin hydrogen separation membrane |
US7389233B1 (en) * | 2003-09-02 | 2008-06-17 | Verizon Corporate Services Group Inc. | Self-organizing speech recognition for information extraction |
KR100827074B1 (ko) * | 2004-04-06 | 2008-05-02 | 삼성전자주식회사 | 이동 통신 단말기의 자동 다이얼링 장치 및 방법 |
US7914468B2 (en) * | 2004-09-22 | 2011-03-29 | Svip 4 Llc | Systems and methods for monitoring and modifying behavior |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
CN1963918A (zh) * | 2005-11-11 | 2007-05-16 | 株式会社东芝 | 说话人模板的压缩、合并装置和方法,以及说话人认证 |
US8612229B2 (en) | 2005-12-15 | 2013-12-17 | Nuance Communications, Inc. | Method and system for conveying an example in a natural language understanding application |
JP4745094B2 (ja) * | 2006-03-20 | 2011-08-10 | 富士通株式会社 | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム |
TWI349266B (en) * | 2007-04-13 | 2011-09-21 | Qisda Corp | Voice recognition system and method |
CN101465123B (zh) * | 2007-12-20 | 2011-07-06 | 株式会社东芝 | 说话人认证的验证方法和装置以及说话人认证系统 |
US20120168331A1 (en) * | 2010-12-30 | 2012-07-05 | Safecode Drug Technologies Corp. | Voice template protector for administering medicine |
CN102623008A (zh) * | 2011-06-21 | 2012-08-01 | 中国科学院苏州纳米技术与纳米仿生研究所 | 声纹识别方法 |
CN105989849B (zh) * | 2015-06-03 | 2019-12-03 | 乐融致新电子科技(天津)有限公司 | 一种语音增强方法、语音识别方法、聚类方法及装置 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
KR101901965B1 (ko) * | 2017-01-12 | 2018-09-28 | 엘에스산전 주식회사 | 프로젝트 화면 작성장치 |
KR102509821B1 (ko) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Oos 문장을 생성하는 방법 및 이를 수행하는 장치 |
CN110706710A (zh) * | 2018-06-25 | 2020-01-17 | 普天信息技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN109801622B (zh) * | 2019-01-31 | 2020-12-22 | 嘉楠明芯(北京)科技有限公司 | 一种语音识别模板训练方法、语音识别方法及装置 |
CN111063348B (zh) * | 2019-12-13 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及计算机存储介质 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
US4802224A (en) | 1985-09-26 | 1989-01-31 | Nippon Telegraph And Telephone Corporation | Reference speech pattern generating method |
US4797929A (en) * | 1986-01-03 | 1989-01-10 | Motorola, Inc. | Word recognition in a speech recognition system using data reduced word templates |
CA1299750C (en) * | 1986-01-03 | 1992-04-28 | Ira Alan Gerson | Optimal method of data reduction in a speech recognition system |
US4855910A (en) * | 1986-10-22 | 1989-08-08 | North American Philips Corporation | Time-clustered cardio-respiratory encoder and method for clustering cardio-respiratory signals |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
JP3432822B2 (ja) | 1991-06-11 | 2003-08-04 | クゥアルコム・インコーポレイテッド | 可変速度ボコーダ |
US5337394A (en) * | 1992-06-09 | 1994-08-09 | Kurzweil Applied Intelligence, Inc. | Speech recognizer |
US5682464A (en) * | 1992-06-29 | 1997-10-28 | Kurzweil Applied Intelligence, Inc. | Word model candidate preselection for speech recognition using precomputed matrix of thresholded distance values |
JP3336754B2 (ja) * | 1994-08-19 | 2002-10-21 | ソニー株式会社 | デジタルビデオ信号の記録方法及び記録装置 |
US5839103A (en) * | 1995-06-07 | 1998-11-17 | Rutgers, The State University Of New Jersey | Speaker verification system using decision fusion logic |
JP3180655B2 (ja) * | 1995-06-19 | 2001-06-25 | 日本電信電話株式会社 | パターンマッチングによる単語音声認識方法及びその方法を実施する装置 |
KR0169414B1 (ko) * | 1995-07-01 | 1999-01-15 | 김광호 | 복수채널 직렬 접속 제어회로 |
AU1305799A (en) * | 1997-11-03 | 1999-05-24 | T-Netix, Inc. | Model adaptation system and method for speaker verification |
US6278972B1 (en) * | 1999-01-04 | 2001-08-21 | Qualcomm Incorporated | System and method for segmentation and recognition of speech signals |
US6266643B1 (en) * | 1999-03-03 | 2001-07-24 | Kenneth Canfield | Speeding up audio without changing pitch by comparing dominant frequencies |
US6510534B1 (en) * | 2000-06-29 | 2003-01-21 | Logicvision, Inc. | Method and apparatus for testing high performance circuits |
-
2000
- 2000-07-13 US US09/615,572 patent/US6735563B1/en not_active Expired - Lifetime
-
2001
- 2001-07-11 KR KR1020037000496A patent/KR100766761B1/ko not_active IP Right Cessation
- 2001-07-11 CN CNB018127711A patent/CN1205601C/zh not_active Expired - Fee Related
- 2001-07-11 WO PCT/US2001/022009 patent/WO2002007145A2/en active IP Right Grant
- 2001-07-11 ES ES01952681T patent/ES2275700T3/es not_active Expired - Lifetime
- 2001-07-11 BR BR0112405-6A patent/BR0112405A/pt not_active IP Right Cessation
- 2001-07-11 AT AT01952681T patent/ATE345562T1/de not_active IP Right Cessation
- 2001-07-11 EP EP01952681A patent/EP1301919B1/en not_active Expired - Lifetime
- 2001-07-11 JP JP2002512966A patent/JP4202124B2/ja not_active Expired - Fee Related
- 2001-07-11 AU AU2001273410A patent/AU2001273410A1/en not_active Abandoned
- 2001-07-11 DE DE60124551T patent/DE60124551T2/de not_active Expired - Lifetime
- 2001-07-13 TW TW090117207A patent/TW514867B/zh not_active IP Right Cessation
-
2003
- 2003-11-26 HK HK03108617A patent/HK1056427A1/xx not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI454942B (zh) * | 2006-05-23 | 2014-10-01 | Creative Tech Ltd | 利用音調匹配從音頻檔案集合中存取一個音頻檔案之方法及設備 |
US8532984B2 (en) | 2006-07-31 | 2013-09-10 | Qualcomm Incorporated | Systems, methods, and apparatus for wideband encoding and decoding of active frames |
US8239190B2 (en) | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
Also Published As
Publication number | Publication date |
---|---|
WO2002007145A3 (en) | 2002-05-23 |
BR0112405A (pt) | 2003-12-30 |
KR20030014332A (ko) | 2003-02-15 |
HK1056427A1 (en) | 2004-02-13 |
US6735563B1 (en) | 2004-05-11 |
KR100766761B1 (ko) | 2007-10-17 |
EP1301919A2 (en) | 2003-04-16 |
JP2004504641A (ja) | 2004-02-12 |
AU2001273410A1 (en) | 2002-01-30 |
WO2002007145A2 (en) | 2002-01-24 |
EP1301919B1 (en) | 2006-11-15 |
ES2275700T3 (es) | 2007-06-16 |
DE60124551T2 (de) | 2007-09-06 |
CN1441947A (zh) | 2003-09-10 |
ATE345562T1 (de) | 2006-12-15 |
CN1205601C (zh) | 2005-06-08 |
JP4202124B2 (ja) | 2008-12-24 |
DE60124551D1 (de) | 2006-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW514867B (en) | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system | |
US6671669B1 (en) | combined engine system and method for voice recognition | |
JP4218982B2 (ja) | 音声処理 | |
Tiwari | MFCC and its applications in speaker recognition | |
JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
TW434528B (en) | A method and apparatus for automatic speech segmentation into phoneme-like units for use in speech processing applications, and based on segmentatin into broad phonetic classes, sequence-constrained vector quantization, and hidden-markov-models | |
CN101030369B (zh) | 基于子词隐含马尔可夫模型的嵌入式语音识别方法 | |
TW546632B (en) | System and method for efficient storage of voice recognition models | |
JPH0535299A (ja) | 音声符号化方法及び装置 | |
CN101625864A (zh) | 声音识别装置和声音识别方法 | |
KR20010102549A (ko) | 화자 인식 방법 및 장치 | |
JP2001166789A (ja) | 初頭/末尾の音素類似度ベクトルによる中国語の音声認識方法及びその装置 | |
JP4461557B2 (ja) | 音声認識方法および音声認識装置 | |
JP2003524795A (ja) | スピーチエネーブル装置のユーザインターフェースの完全性をテストする方法および装置 | |
Assaleh et al. | Speech recognition using the modulation model | |
CN101246686A (zh) | 连续二次贝氏分类法辨认相似国语单音的方法及装置 | |
Unnibhavi et al. | A survey of speech recognition on south Indian Languages | |
JPH1097274A (ja) | 話者認識方法及び装置 | |
JP2006235243A (ja) | 音響信号分析装置及び音響信号分析プログラム | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
KR100488121B1 (ko) | 화자간 변별력 향상을 위하여 개인별 켑스트럼 가중치를 적용한 화자 인증 장치 및 그 방법 | |
Pol et al. | USE OF MEL FREQUENCY CEPSTRAL COEFFICIENTS FOR THE IMPLEMENTATION OF A SPEAKER RECOGNITION SYSTEM | |
JP5278263B2 (ja) | 音声認識装置およびプログラム | |
Walia | Discrete Fractional Fourier Transform and Vector Quantization Based Speaker Identification System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |