[go: up one dir, main page]

TW541517B - Speech recognition system - Google Patents

Speech recognition system Download PDF

Info

Publication number
TW541517B
TW541517B TW090132450A TW90132450A TW541517B TW 541517 B TW541517 B TW 541517B TW 090132450 A TW090132450 A TW 090132450A TW 90132450 A TW90132450 A TW 90132450A TW 541517 B TW541517 B TW 541517B
Authority
TW
Taiwan
Prior art keywords
module
parameter
linear prediction
data
cepstrum
Prior art date
Application number
TW090132450A
Other languages
English (en)
Inventor
Jhing-Fa Wang
Jia-Ching Wang
Jtai-Lung Chen
Chin-Chan Chang
Original Assignee
Univ Nat Cheng Kung
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=21680048&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=TW541517(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Univ Nat Cheng Kung filed Critical Univ Nat Cheng Kung
Priority to TW090132450A priority Critical patent/TW541517B/zh
Priority to US10/328,482 priority patent/US7266496B2/en
Application granted granted Critical
Publication of TW541517B publication Critical patent/TW541517B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Complex Calculations (AREA)
  • Image Analysis (AREA)

Description

541517
【發明領域】 本發明係有關於一種語音辨識系統,特別是一種以應 用導向超大型積體電路架構(ASIC)之方式設計而成,同日^ 以模組化的設計方式分割為四塊模組之語音辨識系統。 【發明背景】 隨著可攜性系統的盛行以及使用語音來做人機的溝通 ^面日趨重要,將語音處理的演算法實現到硬體上是刻不 容,的。而這些可攜性系統用來處理語音的方式通常以使 用單晶片微處理機或數位訊號處理器來達成目的。單晶片 U,理機成本低,但運异功能不強難以實現較複雜的語音 運算;若使用數位訊號處理器來開發則時間最短、設計彈 陸度咼但成本較咼。本發明以應用導向超大型積體電路架 構之方式將整個語音辨識的過程(自語音輪入至辨識結果 輪出)元整貫現’執行速度上比數位訊號處理器來的快, 且放到可攜性系統的成本也比數位訊號處理器來的低。 【發明概要】 本發明之主要目的係以應用導向超大型積體電路架構 (A S I C)之方式來設計出語音辨識系統,使其執行速度快, 且放到可攜性系統的成本也較低。 本务明之另一目的係以模組化的設計方式將該語音辨識糸 統分割為四塊模組,各模組可自成一個智產元件(I p ),各 智產元件可以配合各種不同之商品及應用需求進行設計上 的重覆使用,大量縮短上市時間。 為達上述目的,本發明提出一種語音辨識系統,其係以應
541517
五、發明說明(2) 用導向超大型積體電路架構(ASI◦之方式來設計,輪入為 語音訊號,而輸出為辨識的結果,同時以模組化的方式將 該系統分為四模組各別進行設計,且該四模組玎自成一個 智產元件(I P ),該四模組分別為: 糸統控制模組 你接受外部訊肌1工W …口卜电- 路做彳工制’遠外部訊號共有訓練模式及辨識模式兩種; =相關及線性預測參數模組,其係由自相關參數單 參數及=參數單元所組成,該兩單元可分別求取自相關 預測參數T預測參數1以將輸入之語音資料轉變成線性 W1晋芩數模細 倒頻譜泉數,傲炎、、、、,其係接受上述線性預測參數,輪 辨識模組,係模型;
Warping,dtw)、寅管動恕時間校準(Dynamic Timing 比對後,輸出辨=係將上述之語音資料的模型做 另外,更包括—;::。 組一般性暫存器所二,收杈組,係由一組移位暫存器及 頻率之介面,將接、>,其作為外部取樣頻率與内部工 作頻率一致後,再讀^吾^資料頻率轉換成與内部電路 另外,更勹j °貝出運算。 料的倒頻 匕括—外部記情俨 t肩瑨參數。 U體,係用以儲存訓練語音 其中’ f川練f 語音㊁:性預測參^模:、、先接收訓練語音資料後,通過 、料的甸頻譜參數,、倒頻譜參數模組後,將該訓' 欠存到外部記憶體;而辨識模式係 541517 --—-- 五、發明說明(3) 統接收辨識 且、倒頻譜 ,邹智存器 f憶體的訓 =音資料的 ^〜筆的訓 ,紐選擇最 【圖式之簡 圖一顯 *1二顯 *1三顯 圖四顯 圖五顯 圖六顯 圖七顯 _八顯 圖九顯 圖十顯 圖十一 圖十二 表一顯 /主要元件 10么 0 系統控 20 “ 自相關 ‘二貝/ Ί ,通過自相關及線性預測參數模 :妙板組後’將辨識語音資料的倒頻譜存放在 么然、後通知辨識模組開始抓取先前存放在外部 、東°° 9資料的倒頻譜參數與内部暫存器的辨識 ,,瑨麥數進行辨識,進而輸出辨識分數,在 、、東吾音資料都得到辨識分數後,交由系統控制 佳分數進而輪出辨識結果。 單說明】 示本發明之架構示意圖; 示本發明之詳細架構圖; 二語音接收模組之電路架構圖; 二決定單元之電路架構圖; 示自相關參數單元之電路架構圖; 示線性預測單元之電路架構圖; 示倒頻譜參數模組之電路架構圖; 不處理元件的輸入/輸出界面(I/O)之示意圖; 不處理元件之内部示意圖; 不1 Ο Ο X1 0 0動態時間校準之晶格示意圖; 顯示切分過後的動態時間校準之晶格示意圖; 顯示辨識模組之資料路徑圖; 示圖十一中前端部份之時序控制。 編號】 制模組(Control Modul e)
及線性預測參數模組(A u t o c o r r e 1 a t i 0 n & L P C
第6頁 541517 五、發明說明(4)
Module) 30 40 50 60 70 80 90 倒頻譜參數模組(C e p s t r u m Μ 〇 d u 1 e ) 辨識模組(DTW Module) 外部記憶體(RAM) 訓練模式(T r a i n i n g B u 11 ο η) 辨識模式(Recognition Button) 语音訊號(Speech) 辨識結果(Recognition Result) 【發明詳細說明】 為詳細揭露本發明,以下以一較佳實施例配合圖式做 詳細說明。本發明之語音辨識系統,從語音資料輸入麥克 風開始,分別要做下列的處理··( 1 )低通濾波器(L〇w Pass
Filter),(2)預強調(Pre-emphasis),(3)取窗處理 (Windowing),(4)自相關係數分析(Aut〇c〇rrelati〇n
Analysis) ’ (5)¾¾ 點{貞測(Endpoint Detection) , (6)線 性預測分析(LPC Analysis),( 7)倒頻譜參數擷取 (Cepstrum Extraction) ’(8)參考樣本更新(Reference Updating),(9)動態時間較準(DTW),(1〇)決定單元 (Decision Logic)。最後而輸出辨識結果(由七段顯示器 或LED顯不辨識結果)。整個語音辨識系統用應用導向超大 型積體電路架構之方式(ASIC)實現,如圖一所示,係為 本發明之架構示意圖,其中輸入為語音訊號(Speec-h)8〇, 而輸出為辨識.的結果(Recognition Result)90,同時以模 組化的方式將本發明分為四模組各別進行設計,且該四模
第7頁 541517 五、發明說明(5) 組可自成一個智產元件(IP),各智產元件可以配合各種不 同之商品及應用需求進行设汁上的重覆使用,大量縮短上 市時間;該四模組分別為:系統控制模組(controi Μ 〇 d u 1 e ) 1 〇,係接受外部訊號控制,進而對内部電路做控 制,該外部訊號共有訓練模式(T r a i n i n g B u 11 ο η ) 6 0及辨 識模式(Recogni t ion But ton )70兩種;自相關及線性預測 參數模組(Autocorrelation&LPC Module)20,其係由自相 關參數單元及線性預測參數單元所組成,該兩單元可分別 求取自相關參數及線性預測參數,用以將輸入之語音資料 轉變成線性預測參數;倒頻譜參數模組(Cepstrum曰、
Module)3 0,其係接受上述線性預測參數,輸出倒頻譜參 數’做為語音資料的模型;辨識模組(DTW Modu][e)4〇,係 =用動態時間校準(Dynamic Tlming Warping, DTW)演 :去係將上述之語音資料的模型做一比對後,輸出辨識 ^數。另外,還包括一語音接收模組,係由一組移位暫存 ,及一組一般性暫存器所構成,其作為外部取樣頻率與内 作頻率.之介面,將接收之語音資料頻率轉換成與内部 $路工作頻/率一致後,再讀出運算;以及一外部記憶體 I A Μ $ 0 ’係用以儲存訓練語音資料的倒頻譜參數。 曰二二,上述(1)低通濾波器(Low Pass Filter)是放在 :卜邛,用離散元件實現。其他四個模組的分工如下. 糸、、充控制模組10處理u)參考樣本更新(Reference pdating)以及(1〇)決定置 ( · · 及線料箱、、目丨a ★ / 、 DeC1S1〇n L〇glC),自相關 、、J麥數模組20處理(2)預強調(Pre-emphasis)、
541517 五、發明說明(6) 頻 (3 )取窗處理(W i n d 〇 w i n g )、( 4 )自相關係數分析 (Autocorrelation Analysis)、(5)端點偵測(Endpoint D e t e c t i ο η )以及(6 )線性預測分析(L P C A n a 1 y s i s ),倒 3 譜參數模組3 0處理(7 )倒頻譜參數擷取(c e p s t r u m Extraction),辨識模組4〇處理(9)動態時間較準(DTW)。 當本發明語音辨識系統接受到不同控制訊號時,系統 會根據不同控制訊號情形而有不同的處理模式。共有二種 模式如下· ( 1 )訓練模式:系統接收訓練語音資 料,通過自相關及線性預測參數模組2 0、倒頻譜參數模組 'r 2〇)f # ^ 'i,J ^ ^ # f,J ^ ^ ^50 0 線性=J,數拉組20、倒頻譜參數模組30後,將辨m 資料的倒頻譜存放在内部暫灸㈣紅曰 始抓取先前存放在外部記二ΐ通知辨識模組40開 參數與内部暫存器的辨識:二吾音資料的倒頻譜 識,進而輸出辨識分數。心貝^倒頻错參數進行辨 辨識分數後,交由李@ ^母一筆的訓練語音資料都得到 辨識結果9 〇。 、、” 擇攻佳分數進而輸出 本發明之細部結構如 【語音接收模組】 囷一所述,茲分述如下: 整體系统包含兩種頻率,一曰冰 内部之工作頻率, 疋外部之取樣頻率,一是 音接收模組,1 汀木兩者頻率不同,我們設吁τ彳1 言,倘若外部 種不同頻率的介面。兴如二 曰取樣頻率是8ΚΗζ,内部^面舉例而 -----〜電路的操作頻率 541517 五 -發明說明(7) — 疋10MHz,則此語音接收模組,一方面以8KHz的頻率接收 語音資料,一方面以1〇MHz的頻率將語音資料讀出運算。 該語音接收模組之電路架構如圖三所示。 【系統控制模組】 系統控制模組1〇,共分為二大部份,一個是外部取 頻率(以8ΚΗζ為例)的有限狀態機(FSM),另一個是7 工作頻率(以10MHz為例)的有限狀態機。二個部份口 外部訊號的控制,進而對内部 刀 主要控制語音接收模组。當語音= 音資料做運算。内部工作頻率的右阳仙:且⑼開始5貝取語 記憶體50及内部暫存器的讀寫,以及义::主要控制外部 ;。當倒頻譜參數模組3。發出完時間:;;籌 的不同而控制記憶體或暫存器將語音:依據㈣模式 將語音參數寫入外部記憶體5 ::成當:丨:: 槟式時,將語音參數寫入内部 P。凡成,當辨識 進行比對動作。當每—筆辨識分數:气通知辨識模組40 再進而通知決定單元進行運算, °线杈組4 0輸出時, 定單兀是將每一筆由辨識模組4〇钤$入辨熾結果90。決 最佳分數的判斷。圖四即為決—二—勺辨識分數,做一個 元主要由最小選擇電路及一個二==2電路架構,決定單 動時,跟著辨識分數輸入,和二=成,當開始訊號啟 選擇,如果輸入的辨識分數比二=小的辨識分數做最小 時,則將輸入的辨識分數寫入則最。小的辨識分數還小 • 曰存器,並將目前計數器 第10頁 541517 五、發明說明(8) 的計數值寫入B暫存器,而此處計數器是受開始訊號控 的。當所有的辨識分數輸入後,則B暫存器的值即二 結果。 句辨硪 【自相關及線性預測參數模組】 自相關及線性預測參數模組2 〇分為二大單—· 參數單元及線性預測參數單元,分別求取自自相關 性預測參數。自相關參數單元接收2 5 6點的技立關苓數及線 出十階11個自相關參數。自相關參數單元又^八曰貢一料,輪 份··預強調部份、漢明視窗部份及自相關 1為二大部 個部份的觀念後,本發明設計了自相關參在了解三 構,如圖五所示,圖中共用到兩個乘法器,早凡的電路架 用於將語音資料與漢明視窗相乘,而漢;、’ 士方之乘法器 於漢明視窗唯獨記憶體(Hamming ROM)中。硯窗的值則儲存 與一個加法器組合成一組乘法累加電路,下方之乘法器 式將十階11個自相關參數依次求出。 17以用循序之方 、’泉性預測單元係用以求出線性預測參數,苴 份··累加、除法、參數更新,因此其電^計算有三大部 二,左邊的暫存器AbU10分別存放自相/構如圖六所 個位移暫存器則是要存放線性預測泉〖翏數,右邊的 sum則是要累加用,暫存器』是用來存’下面的暫存器 【倒頻譜參數模組】 、川决差的。 倒頻譜參數模組30係接受線性預測 二數。而且面積考量下的情形下,其電肷數,輸出倒頻譜 示’僅運用_ έ悉 架構如圖七所 ^ 組乘法為及加法器,記憶辨τ ^Lpc — RAM儲存線
第11頁 541517 五、發明說明(9) 性預測參數’共有1 〇個,每個以1 6位元儲存,記憶體 Constant —ROM儲存45個常數,每個以丨6位元儲存。記憶體 Cep —RAM儲存倒頻譜參數,共有1 〇個,每個以1 6位元儲 存0 【辨識模組】 辨識模組40採取動態時間校準⑶ynamic Timing Warping,DTW)演算法,所以設計辨識單元的重心,就放 在一部份·處理元件(processing Eiement,PE)設什與 控制的方法。 處理元件所要做的事就是將三個方向的距離累加值做 一個最小的選擇’然後計算本點的距離值,並加上之而輸 出到本點為止的距離累加值,圖八為處理元件的輸入/輸
出界面 tmpC i, 距離值 一個最 圖九則 j-l), 小值選 擇,Uj 本點距 器輸出 接 電路, (I/O)示意圖,tmp(i-l,j), tmp(i-l,卜1), J· 1 )為二個方向的距離,U j及r丨的倒頻譜參數向] 則為的本點的距離值,將三個方向的距離累加值《 、的L擇加上本點的距離值之輸出為t m p (i,j) 為處理元件的内部示意圖,““卜丨,』·), tmp(i —i
,广n一為三個方向的距離,經圖中Minimum( ί 时),將—個方向的距離累加值做一個最小的選 3Π!頻譜參數向量距離值計算器,輸出έ ’、珉小值選擇器的輸出同時灌入加法器,加^ 1文疋 t m ρ (ί,j ) 〇 要來推導100χ100動態時間校準的實ρ 图十為日曰U意圖’在此有個公式:如果f為音框
541517 五、發明說明(ίο) 數目,W為扭曲因子(Warping Factor),則戶斤+ 點數為: 、々品要計算的 PEs= F(2W+1) ~ W(W+1) 所以在1 0 0x 1 0 0裏,取扭曲因子為15的話, 28 6 0次處理元件的計算,這是個很大的數目,共需要 電路中,需進一步應要去推導規則的控制電略$以在控制 首先,將2 8 6 0點切成的前端部份(〇〜1 3 5 )、中二為適當。 (1 3 6〜2 7 5 4 )、後端部份(2 7 5 5〜2 8 5 9 )三部份,間邛份 示,前端部份如果將各時間點要計算時,所兩α圖十一所 距離累加值時間點做一表整理時即如表一所^要的二方向 各個時間點需要用到左方、左下方、下方哪I’表—代表 累加值,及此累加值需從第幾個移位暫存哭向的距離 一中可觀察得知,前端部份可分為16組,^ 獲得,從表 此η點裏’第!點只需要下方的距離值累積,η組有?點,在 ^暫存器的值,第只需要左方的距離值用到弟η-1個 第η個移位暫存器的值,其餘則左方的距更知,用到 個移位暫存哭的佶,产下古 值累積用到第η 曰仔杰的值,左下方的距離值累穑 移二暫存器的值,下方的距離值累積用到,第2(η-1)個 存器的值。中間部份及後端部 個移位暫 出其規則。 刀也j以知用頰似方法尋找 圖十—顯示辨識模組的資料路徑,圖中+ .,, 值運异。咸法器用以求出本點的距離值 相滅取 J此雕值加法器用以將距
第13頁 541517 五、發明說明(11) 離累加值加上本點的距離值。下方為移位暫存器的部份, 運用3 1個暫存器大小之移位暫存器儲存過去的距離累加 值。右上方為取左、左下、下三個距離值累積的最小電 路,運用3個多工器分別從移位暫存器中選擇出此時需要 之值,再經圖中M i n i m u m (最小值選擇器),將三個方向的 距離累加值做一個最小的選擇。 綜上所述,本發明所提供之語音辨識系統,不僅可達 預期之實用功效外並且為前所未見之新設計,已符合專利 法發明之要件,依法具文申請之。為此,謹請貴審查委 員詳予審查,並祈早曰賜準專利,至感德便。 以上已將本發明詳細說明,惟以上所述者,僅為本發 明之較佳實施例而已,當不能限定本發明實施之範圍,即 凡依本發明申請專利範圍所作之均等變化與修飾等,皆應 仍屬本發明之專利涵蓋範圍意圖保護之範®壽。
第14頁

Claims (1)

  1. 541517 六、申請專利範圍 1 · 一種語音辨識系統,其係以應用導向超大型積體電路架 構(AS IC)之方式來設計,輸入為語音訊號,而輸出為辨識 的結果’同時以模組化的方式將該系統分為四模組各別進 行設計’且該四模組可自成一個智產元件(I P ),該四模組 分別為: 系統控制模組,係接受外部訊號控制,進而對内部電 路做控制’該外部訊號共有訓練模式及辨識模式兩種; 自相關及線性預測參數模組,其係由自相關參數單元 ^線性預測參數單元所組成,該兩單元可分別求取自相關 乡數及線性預測參數,用以將輪入之語音資料轉變成線性 預測參數; ' ,其係接受上述線性預測參數 音資料的模型; 用動態時間校準(Dynamic Timing 去,係將上述之語音資料的模型做一 數。 1項所述之語音辨識系統,更包括一 一組移位暫存器及一組/躲性暫存器 取樣頻率與内部工作頻率之介面,將 轉換成與内部電路工作頻率一致後, 倒續譜參數,做為α 辨識模組,係5 arping, DTW)演算 比對後,輸出辨識分 &如申請專利範圍第 =音接收模組,係由 構成,其作為外部 =之語音資料頻率 再讀出運算。 戈申睛專利範圍箆 μ 片’·丨…丨刊π 項所述之語音辨識系統,其中ti 外部記憶體,係用r I、所述之語音辨識系統,更包括 4 ·如申請專利範圍^^存訓練語音資料的倒頻譜參數
    Mi5l7 申请專利範圍 模式係系統接 ί數模組1 5晋苓數存到外 f料後’通過 組後,將辨識 通知辨識模級 資料的倒頻譜 參數進行辨識 資料都得到辨 進而輪出辨識 5·如申請專利 控制模組包括 部 工 作 頻 率 的 態 機 都 分 別 受 制 該 外 部 取 組 1 當 語 音 資 組 開 始 讀 取 語 機 主 要 控 制 外 模 組 間 的 溝 通 操 作 模 式 的 不 該 決 定 ΠΟ 早 元 係 行 運 算 後 將 6. 如 中 清 專 利 單 元 係 由 最 小 f訓練語音資料後,通過自相關及線性預.、則 f譜參數模組[將該訓練語音資料的= :記憶體,而辨識模式係系統接收辨識笋音、 i相關及線性預測參數模組、倒頻譜參數i =音資料:倒頻譜存放在内部暫存器,; 開始抓取先前存放在外部記憶體的訓練:音 參數與内部暫存器的辨識語音資料的倒頻譜 2而:出:識分·,在每一筆的訓練夂 ^^1 ^又由系統控制模組選擇最佳分數 、,、〇 果 〇 範圍第1項所述之語音辨識系統,其中系統 :外部,樣頻率的有限狀態機(FSM)、一内 有限狀態機以及-決定單元;該兩個有限狀 :外部訊J的控制’進而對内部電路做控 限狀態機主要控制語音接收模 :次::f通知自相關及線性預測參數模 :貝料:運异;該内部工作頻率的有限狀態 :憶體及内部暫存器的讀冑,以及連繫各 同::到!=數模組發出完成訊號時,依據 ::控體或暫存器將語音參數寫入; 最佳分數取出。 輪出的辨識分數進 ί ξ第5項所述之語音辨識系統,其中決定 、擇電路及一計數器所構成。
    541517 六、申讀專利範® 7關ί】?專f範圍第】項所述之語音辨識系統,其,自相 資包括兩個乘法器,第一乘法器用於將語音 唯獨;二:視固相纟’而漢明視窗的值則儲存於漢明視窗 纪人ming R0M)中;第二乘法器與一個加法界 數i次求1且乘法累加電路’可以用循序之方式將自相關參 8預!ΓΛ所述,語音辨識系統,其中線性 1至第〗η斬六 〆匕括/、組多工器及31個暫存器,其中第 器則是器係分別存放自#關參數,第11至第29暫存 譜參數模組係項所=之^音辨識系統,其中倒頻 記憶體(Lpc RAM、 。 一加法為、一線性預測參數 (Constant_R〇M) ^ 記憶體(LpmM\ r ep— ,其中该線性預測參數 個,每個以u位元^用.以儲存線性預測參數,共有10 儲存45個常數,每個、子,"亥常數記憶體(Constant —ROM ) (Cep —RAM )儲存H1 6位元儲存;該倒頻譜參數記憶體 儲存。 ’、瑨苓數,共有1 0個,每個以1 6位元 10·如申請專利範 模組係至少包括一 項所述之s吾音辨識系統,其中辨識 個多工器及一最丨^法絕對值累加電路、31個暫存器、3 取小值選擇器。 第17頁
TW090132450A 2001-12-25 2001-12-25 Speech recognition system TW541517B (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW090132450A TW541517B (en) 2001-12-25 2001-12-25 Speech recognition system
US10/328,482 US7266496B2 (en) 2001-12-25 2002-12-24 Speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW090132450A TW541517B (en) 2001-12-25 2001-12-25 Speech recognition system

Publications (1)

Publication Number Publication Date
TW541517B true TW541517B (en) 2003-07-11

Family

ID=21680048

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090132450A TW541517B (en) 2001-12-25 2001-12-25 Speech recognition system

Country Status (2)

Country Link
US (1) US7266496B2 (zh)
TW (1) TW541517B (zh)

Families Citing this family (170)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU6630800A (en) 1999-08-13 2001-03-13 Pixo, Inc. Methods and apparatuses for display and traversing of links in page character array
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US7669134B1 (en) 2003-05-02 2010-02-23 Apple Inc. Method and apparatus for displaying information during an instant messaging session
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8595642B1 (en) 2007-10-04 2013-11-26 Great Northern Research, LLC Multiple shell multi faceted graphical user interface
US8165886B1 (en) 2007-10-04 2012-04-24 Great Northern Research LLC Speech interface system and method for control and interaction with applications on a computing system
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8327272B2 (en) 2008-01-06 2012-12-04 Apple Inc. Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8352268B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8396714B2 (en) 2008-09-29 2013-03-12 Apple Inc. Systems and methods for concatenation of words in text to speech synthesis
US8352272B2 (en) 2008-09-29 2013-01-08 Apple Inc. Systems and methods for text to speech synthesis
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8639516B2 (en) 2010-06-04 2014-01-28 Apple Inc. User-specific noise suppression for voice quality improvements
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US20120310642A1 (en) 2011-06-03 2012-12-06 Apple Inc. Automatically creating a mapping between text data and audio data
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8478584B1 (en) 2012-11-06 2013-07-02 AskZiggy, Inc. Method and system for domain-optimized semantic tagging and task execution using task classification encoding
KR102103057B1 (ko) 2013-02-07 2020-04-21 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
US8694305B1 (en) 2013-03-15 2014-04-08 Ask Ziggy, Inc. Natural language processing (NLP) portal for third party applications
US10078487B2 (en) 2013-03-15 2018-09-18 Apple Inc. Context-sensitive handling of interruptions
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US8688447B1 (en) 2013-08-21 2014-04-01 Ask Ziggy, Inc. Method and system for domain-specific noisy channel natural language processing (NLP)
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9811594B2 (en) * 2014-09-09 2017-11-07 Cisco Technology, Inc. Automatic explanation of presented abbreviations
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2080862C (en) * 1991-12-19 1996-11-26 Priya Jakatdar Recognizer for recognizing voice messages in pulse code modulated format
US5664058A (en) * 1993-05-12 1997-09-02 Nynex Science & Technology Method of training a speaker-dependent speech recognizer with automated supervision of training sufficiency
US5778342A (en) * 1996-02-01 1998-07-07 Dspc Israel Ltd. Pattern recognition system and method
US6253175B1 (en) * 1998-11-30 2001-06-26 International Business Machines Corporation Wavelet-based energy binning cepstal features for automatic speech recognition
US6304844B1 (en) * 2000-03-30 2001-10-16 Verbaltek, Inc. Spelling speech recognition apparatus and method for communications
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6671669B1 (en) * 2000-07-18 2003-12-30 Qualcomm Incorporated combined engine system and method for voice recognition

Also Published As

Publication number Publication date
US20030125938A1 (en) 2003-07-03
US7266496B2 (en) 2007-09-04

Similar Documents

Publication Publication Date Title
TW541517B (en) Speech recognition system
CN110534099B (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN110364143A (zh) 语音唤醒方法、装置及其智能电子设备
CN112927707A (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN113516990B (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
CN110544488A (zh) 一种多人语音的分离方法和装置
CN110047468B (zh) 语音识别方法、装置及存储介质
CN107004405A (zh) 语音识别装置和语音识别方法
CN110992963B (zh) 网络通话方法、装置、计算机设备及存储介质
CN105869641A (zh) 语音识别装置及语音识别方法
CN110400571B (zh) 音频处理方法、装置、存储介质及电子设备
CN109460461A (zh) 基于文本相似度模型的文本匹配方法及系统
CN109994127A (zh) 音频检测方法、装置、电子设备及存储介质
TWI740315B (zh) 聲音分離方法、電子設備和電腦可讀儲存媒體
CN110827823A (zh) 语音辅助识别方法、装置、存储介质及电子设备
CN107248407A (zh) 一种手势音乐演奏器
CN110379411A (zh) 针对目标说话人的语音合成方法和装置
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
CN113851113A (zh) 模型训练方法及装置、语音唤醒方法及装置
CN108628819A (zh) 处理方法和装置、用于处理的装置
CN114937454A (zh) 一种声纹识别防语音合成攻击的方法、装置及存储介质
CN110610697B (zh) 一种语音识别方法及装置
JP2019174785A (ja) 音源方向推定装置、音源方向推定方法及びそのプログラム
CN112750425B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN113707149A (zh) 音频处理方法和装置

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees