TW561452B - Method and apparatus for speech recognition - Google Patents
Method and apparatus for speech recognition Download PDFInfo
- Publication number
- TW561452B TW561452B TW090133371A TW90133371A TW561452B TW 561452 B TW561452 B TW 561452B TW 090133371 A TW090133371 A TW 090133371A TW 90133371 A TW90133371 A TW 90133371A TW 561452 B TW561452 B TW 561452B
- Authority
- TW
- Taiwan
- Prior art keywords
- hypothesis
- block
- frame
- candidate
- score
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 31
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 238000011161 development Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 2
- 238000011156 evaluation Methods 0.000 claims 2
- 239000013598 vector Substances 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 230000001186 cumulative effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 241000251468 Actinopterygii Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 101100042610 Arabidopsis thaliana SIGB gene Proteins 0.000 description 1
- 239000004606 Fillers/Extenders Substances 0.000 description 1
- 101000863770 Homo sapiens DNA ligase 1 Proteins 0.000 description 1
- 101000619640 Homo sapiens Leucine-rich repeats and immunoglobulin-like domains protein 1 Proteins 0.000 description 1
- 102100022170 Leucine-rich repeats and immunoglobulin-like domains protein 1 Human genes 0.000 description 1
- 101100294408 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MOT2 gene Proteins 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 235000012046 side dish Nutrition 0.000 description 1
- 101150117326 sigA gene Proteins 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Character Discrimination (AREA)
Description
561452
發明領域 本發明係關於一種要安裝在 知工業和豕用電氣用品 的語音辨識之技術,且更特別關於 、 又行⑴關於用於以語音辨識率來改 善的g吾音辨識之方法和裝置。 發明背景 傳統上’已有—種用於語音辨識的方法和裝置,如 “Hermann Ney:用於連續語 (溯年之IEEE信號處理上的報告第4〇冊第2號第Μ頁)”。 第8圖係—相關技術的語音辨識系統之程序流程。圖中 顯示之程序步驟與-輸人語調之職來同步地執行。在執 行在輸入語調之末端時,近似於輸人語調的_假設、在辨 識結果時被獲得。使用此_方法的搜尋被參照為—訊框同 步化束流搜尋。在各個步驟上、來解說於下。 使用-位通過之搜尋演繹法則,一假設在一輸入語調 之第丨個訊框上、被建立,且在第(H1)個訊框中來發展。若 假設係mu則_語調段频使絲㈣該字組。 不然’若假設係在-字組末#,則後續的—字組被根據一 子組間連接規則來連結。.這延伸第一個語調段落。在第i 個吼框上的假設被抹除、來只儲存第(i+1)個假設(步驟 S801) 〇 其次’在第(1+1)個訊框中由步驟88〇1發展的假設間, 分數上最向、累積高達第(i+1)個訊框(此後參照為累積分數) 的假設被採用為一參考。所儲存的僅係、具有在相對於與 其不同的假設被抹除時、之分數的一恆定臨界值内之一分 4 本紙張尺度適用中國國家標準(CNS) A4規格(21〇><297公楚) 561452 五、發明説明(2 ) 數的假設。此參照為窄化候選人者。該窄化避免假設之數 目以羃級來增加,而因此變得不可能來計算(步驟議)。 其次,程序移至係目前訊框i的“+1,,之次—訊框。此 時,對是否係最後訊框來做決定。若係最後訊框,則程序 結束。若非最後訊框,則程序再移至步驟i。(步驟削) 如前述地’相關技術只依賴累積分數是否在一臨界 内、來窄化假設候選者。 有時,存在有如曰本專利早期公開案第6588/丨996號, 作為-語音辨識方法、來正確估計在訊框同步化束流搜尋 中的假設。在此公開案中描述的語音辨識方法,顯示在訊 框同步化束流搜尋中、對時間來標稱化的計算。亦即,針 對所有假設、由共同可能函數來減掉在時間t的一假設上之 分數。然後,所儲存的係一最大值之經標稱化分數、和具 有在相對於該最大值的一恆定臨界内所標稱化之一分數的 假設。 然而在相關技術之語音辨識系統中,在一字組内或一 子組末端處的假設,採用如上述的累積分數中最高之一假 没、作為一參考,來儲存具有在相對於該分數的一恆定臨 界内之一分數的假設。結果,在字組末端、有多數可連接 子組候選者來尾隨,因此在假設之數目上、獲致大幅增加。 結果,在選擇假設候選者上、對困難的計算已有一退步。 本發明已解決此問題。係一目的來提供用於語音辨識 的方法和裝置,其在選擇假設候選者上能夠有效縮減計算 量、同時獲得語音辨識之正確度。 561452 A7 B7 五、發明説明(3 ) 發明之概要 根據用來解決問題的本發明,用於語音辨識之一方 法、在一訊框同步化束流搜尋中包括一程序,在一候選字 組内、以不管假設數目地、對一字組末端來留下音響分數 高的相似假設,且在一候選字組之一末端、來窄化假設之 數目。亦即,用於語音辨識的方法包含:一特徵量抽取步 驟,根據一輸入語調之一訊框來抽取一特徵量;一儲存步 驟,來判定一目前處理訊框是在先前登記的一候選字組之 末端或在其内,且當在一字組末端時根據一第一假設儲存 判定評準、而在一字組内時根據一第二假設儲存判定評準 來儲存該候選字組;一發展步驟,當一經儲存候選字組處 在一字組内時藉由延伸表達該字組的語調段落、且當在一 子組末端時藉由根據一字組間連接規則來連結尾隨的一字 組、來發展一假設;一操作步驟,用來計算在自該輸入語 調抽取的特徵量、和該經發展假設之一音響模型的一訊框 式特徵量間之一相似度,且從該相似度、和高達自該相似 度計算的一緊接在前訊框之假設的一辨識分數、來計算一 新的辨識分數;及重複該儲存步驟、該發展步驟及該操作 步驟、直到處理訊框變為該輸入語調的一最後訊框為止, 且在一辨識結果近似該輸入語調時、以由處理該最後訊框 所得的較高辨識分數之次序、來輸出假設中的至少一個, 的一步驟。 圖式之簡單描述 第1圖係顯示在本發明之一實施例中的一語音辨 識裝 先 閲 il 背· 注 意 事 項
頁 訂
五、發明説明(4 ) 置之一系統組態圖; 第2圖係在發明之實施例中的一語音辨識處理部段之 硬體組態的方塊圖; 第3圖係在發明之實施例中的一語音辨識處理部段之 功能組態的方塊圖; 第4圖係顯示在發明之實施例中的語音辨識處理部段 之程序的流程圖; 第5圖係在發明之實施例中、要先被登記的一組候選字 組、及其辨識分數上的解說圖; 第6圖係在發明之實施例中、用於假設判定的程序圖; 第7圖顯示在發明之實施例中、一字組間連接規則的例 圖;及 第8圖係顯示一相關技術的程序之流程圖。 較佳實施例之描述 現在將參考圖式來解說本發明之實施例。 第1圖係顯示在本發明之一實施例中的一語音辨識裝 置之一糸統組態圖。 在第1圖中,語音辨識裝置包括一麥克風101、一語音 辨識處理部段102、一外部儲存單元103、及一輸出單元1〇4。 麥克風101係來捕捉由一使用者說出的語調,且和語音 辨識裝置整合。請注意,麥克風101無需和語音辨識裝置在 一本體中。 語音辨識處理部段102、在透過麥克風1〇1來檢知一輸 入語調時,會處理來辨識從候選字組間由使用者說出的一 五、發明説明(5 ) 子組,作為語音辨識之一主體。 外部儲存單元103儲存有要在語音辨識處理部段1〇2中 來執行的一處理程式。 輪出單元1G4係—液晶面板,來顯示由語音辨識處理部 段102辨識的字組或本文。 現在,在本實施例之操作列示上做解說。 語音辨識裝置在打開電源時,把作為一資料信號· 的處理程t自外料存單元⑻載人到語音韻處理部段 102。该處理程式在儲存在語音辨識處理部段⑽之一主要 儲存部段後、要被執行。然後,語音辨識處理部段職過 夕克風101、來接收供辨識用的使用者之語調字組的一語調 L唬SIG1,且把它儲存到語音辨識處理部段1〇2的主要儲 存部段。使用者之語調字組可為由多個句子組成的一字組 或本文。其次,語音辨識處理部段1〇2以自其頂上之次序、 在輸入語調上實施-辨識程序,從在受—信號训3控制的 輸出單元104上之候選字組間來顯示一最匹配字組或本文。 現在參考第2圖,在語音辨識處理部段1〇2之一硬體組 態上做解說。 浯音辨識處理部段102包括把自麥克風1〇1輸入的類比 k唬、轉換成一數位信號的一 A/D轉換器2〇1,用來儲存資 料和處理程式的一主要儲存部段2〇2,根據程式來處理資料 的一資訊處理部段203,根據諸如音素和音節的語調段落、 與用音響特徵來模型化的多個訊框來組配、把字組表達為 辨識之一主體的一音響模型204,描述在供辨識用的字組間 五、發明説明(6 ) 則的-語言模型205,用候選字組集合來登記的 子、且邊菜2G6,記錄表列之字組來尾隨某—字組的一字組 連接規lj2G9’把程輕式以高速率、自外部儲存單元1〇3 傳送到主要儲存部段202的一驗(直接記憶體存取單 兀)2〇二及用於在外部儲存單元1〇3和輸出單元刚間的雙 向平订通k、且把資料同步地傳遞到一匯流排上的一 PIO(平仃I/O裝置)2G8。請注意在圖式中,裝置2〇1至勘 係透過匯流排來連接。其次,在要被參考第3圖而上述的硬 體組態來實現之語音辨識儲存部段1〇2的功能方塊組態 上、來做解說。 .儲存部段301暫時地儲存輸入語調資料、特徵量向量、 候選子組等等。特徵量抽取部段3〇2自輸入語調、來抽取一 特被罝之語調。一字組際字組末端判定部段3〇3判定一假設 是在一字組内或在一字組末端。一字組際假設儲存判定部 段304、由一語調基底辨識分數來判定是否要儲存一假設候 選子組。一字組末端假設儲存判定部段、由假設候選字 組之數目來判定是否要儲存一假設。一搜尋控制部段3〇6 在假設於一字組内時、來.延伸表達一字組的語調段落,且 於一字組末端時、符合於在語言模型2〇5中描述的字組間連 接規則地、連結尾隨的一字組。因此,控制部段3〇6執行一 訊框同步化束流搜尋中的假設之發展控制、來發展假設。 一相似度計算部段307計算在自特徵量抽取部段3〇2輸出的 輸入語調之一訊框基底特徵量、和音響模型2〇4間的相似 度。一搜尋操作部段308從由相似度計算部段307所計算的 本紙張尺度適用中國國家標準(CNS) A4規格(210X297^1 > 五、發明説明(7 ) 相似度、和兩達緊接在前訊框之假設的辨識分數、來叶曾 一辨識分數。假設錢部㈣W和所計算職分數Z 新。-語音辨識結束判定部段310判定程序是否已完成、高 達儲存在儲存部段301中的輸入語調資料之末端。-辨識結 果,出部段3H使訊框同步化束流搜尋繼續至輸入語調之 末端,且作為-辨識結果地、來輸出辨識分數上高的一可 輸出假設。 第4圖係藉功能方塊圖來顯示在語音辨識處理部段1〇2 中之資料程序流程的流程圖。使用流程圖,資料程序流程 被解說。 在圖式中,S表示其中各程序步驟要由第3圖之功能方 塊來實現的各程序步驟。 起先,由使用者說出的整個語調信號、基於i〇ms之一 訊框而暫時地儲存到儲存部段3〇1(步驟S4〇i)。 其次,語調輸入被檢測、從字組語彙1〇4來拷貝包括先 前登記的候選字組和具有,〇,的一初始值之辨識分數的一 初始組集之一假設,且把它儲存到儲存部段3〇ι(步驟 S402)。本實施例儲存包括如第5圖顯示的候選字組和辨識 分數之一初始組集的一假設。第5圖係儲存五個字組5〇1、 如“箭頭”、“之後,,、“存取,,、“接受,,、和“緩魚,,,及個別 辨識分數502(初始值‘〇’)的例子。對於候選字組,可能來儲 存不具有語意的仿製字組。 然後,特徵量抽取部段302在所有累積訊框上、只在語 調後的第一時間來實施LPC Cepstrum分析,且抽取乙^ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 10 561452 A7 __B7_ 五、發明説明(8 ) cepstral係數向量,把它們再儲存到儲存部段301。自此, 根據序列辨識、把LPC cepstrum向量自儲存部段301讀出。 (步驟S403)。雖然特徵量要使用LPC cepstml係數向量來抽 取,用如MFCC(mel頻率cepstral係數)的其他音響參數、可 獲得類似效果。 其次,字組際字組末端判定部段303目前正處理者係在 一字組内的語調段落、或在一字組末端的語調段落(步驟 S404)。在一使用者語調之頂上,假定係在一字組内的語調 段落上。在語調之頂上以外處,當在假設上的目前處理訊 框係在一字組内、而非在一字組末端時,字組際假設儲存 判定部段304參考於在目前候選字組間之辨識分數上最高 的一字組内之一假設、來窄化至具有在相對於該辨識分數 的一恆定臨界内之辨識分數的字組際假設(步驟S405)。當 假設係在一字組末端時,字組末端假設儲存判定部段305、 以較高辨識分數之次序從目前候選字組選出假設、根據假 設數目來窄化假設(步驟S406)。 然後,搜尋控制部段306在經窄化假設處在一字組内 時、把語調段落延伸來表達一字組,且在一字組末端時、 根據字組間連接規則209來連結尾隨的一字組,因此執行作 為一新的假設性候選字組之發展(步驟S407)。 然後,相似度計算部段3 0 7,從作為一選定候選字組5 01 之語調段落的輸入語調之目前處理訊框的一特徵量、及音 素的一特徵量、在經發展假設上來計算一相似度。搜尋操 作部段308把該相似度、和高達緊接在前訊框之假設辨識分 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 11 (請先閲讀背面之注意事項再本頁) 、tr— 五 、發明說明 此來判定-辨識分數(步驟_)。這些程 之特東流搜尋操作,意,候選字組 型204來抽出。… 3 ·且-之音響參數的音響模 Α例巾’相似度使財程式⑴中表達 ⑺來=距離量測。從相似度L(i,j},—音響分數由方程式 在方程式⑴中,邮)的音響分數 框i和音響模型語彙訊框』處。 η…周況 L(i J) = (x(i) - μ0)* Σ (j)- (χ〇) _ μϋ))+ 1〇§|Σ (j)| ⑴ as(i,j) = |L(i,j)| ⑺ .其中移項係—反矩陣’X⑴為對應於-輸入訊框i的-輸入向量,且⑴為對應於語彙訊框 j的一特性向量之斜方差矩陣和平均值向量。前述之音響模 型確係在這些語彙訊框1的一組集之斜方差夫巨陣和平均值 向量。輸入向量在此實施例中’為係抽有輸入語調的一特 性向量之一 LPC cepstrum係數向量。語彙訊框也為從係在 對應於輸入訊框而考慮的一字組語彙中所登記之一字組的 音響模型、所抽取的一特性向量。 其次,假設更新部段309把經發展假設、與一新的辨識 分數一起更新(步驟S409)。 使用第6圖,在從程序步驟S404至S409的程序上來做 解說。 在此實施例中,來自最大辨識分數、作為針對一字组 際假設的一判定評準之恆定臨界被給予’3’,且作為針對一 12 本紙張尺度適用中國國家標準(CNS) M規格(210X297公釐) 561452 A7
字組末端假設的一判定評準之較上等級辨識分數的數目 為2明主思,圓圈中的標號表示一經決定辨識分數。 “在第ό圖中,由步驟S4〇2儲存的五個字組被根據訊框 來處理。於時間t,自一字組頂上由、,延伸的辨識分數係 一數值“12,,,且由,Γ延伸者為一數值,8,。因為,丨,之辨識分 數係等於或小於一臨界值(12_3=9),候選字組‘‘缝魚,,被從 候選者來刪除。然後,在“鰻魚,,以外的四個字組被留下來 龜績程序。於時間1+11,候選字組“之後,,之辨識分數等於 或小於一臨界值(24-3二21),且因此被刪除。留下有“箭 碩”、“存取”、和“接受,,,且程序繼續。於時間t+t3,“箭頭,, 之辨識分數“35”等於或小於一臨界值(45-3=42),且因此被 刪除。留下“存取,,和“接受,,來繼續程序。於時間忏6,其餘 兩字組即結束。然而,因為其餘者係較上兩等級,故“存取,, 和“接受”都留下。 其次,從字組間連接規則209,尾隨這些候選字組的候 選字組被採用來提供新的假設候選者。使用第7圖來解說此 例子。 苐7圖係子組間連接規則的例圖。存在有和“t〇,,之 登記,各作為尾隨在實施例中留為一候選者的字組“存取,, 之一字組,且“a”、“the,,、和“your,,之登記,作為尾隨字組 接受”之一字組。這五個字組被抽取、作為新的候選字組, 且假設被更新。然後,程序再回到步驟S4〇3。請注意,在實施例中第6圖只描述音素基底候選者窄化 轾序。然而在貫際程序中,根據一音素與多個訊框來組配 本紙張尺度適用中國國家標準(CNS) A4規格(21〇χ297公楚) 請- 閲 讀 背· 面 之 注 意 事 項
頁 訂
13 五、發明説明(11 ) 的訊框、來執行類似候選者窄化程序。 在第4圖中’語音辨識結束判定部段310、判定上述程 序疋否已π成、到儲存在儲存部段3〇1中的最後一輸入語 °周直到、、、"束判定條件被滿足為止,步驟S403至S409之訊 框基底程序被重複(S41〇)。 其次’辨識結果輸出部段311把—高辨識分數之可輸出 假設輸出到輸出單元1G4’作為來自在毅結束判定條件時 被留下的假設組集之一辨識結果。 在根據本實施例的語音辨識中, 識程序,需要平均為丨,12(),_字組格點的_計算== 慮到,^相關技術方法中的3,請,_平均字組袼點之觀點 上’計算量被縮減至近乎四分之一。在此,字組格點參照 為在透過在一訊框同步化束流搜尋中、從開始到結束的一 語調來完成窄化程序時,在訊框内未被修掉(留存的)之一 候k者冑時,每字組的格點之平均數目由方程式⑺來決 定0
a = IlNf/U s=l f=s {J ) 其中a:每字組的總格子之平均數目,s:在語調之開 端的訊框數目,e :在語調之末端的訊框數目,且Nf:在訊 框數目上的格點之數目。 亦即,於語調之總數内、來加總自語調開端_s到語調 末端-e的格點之總數、被總語調數目來除。 同時,考慮語音辨識之正確度、即獲得下列結果。 561452 -----------B7 五、發明説明(1” ^~ 一 使用在實施例中所用的五個字組,在各包括15男人和 女人的總共30人上、來執行實驗性語音辨識。根據結果, 相關技術方法具有81·4%之辨識率,而本發明之方法有 81·1/〇。以此方式,藉本發明之方法的語音辨識、在正確 度上係與相關技術方法大致不同。 根據本务明,在一訊框同步化束流搜尋中,不管假設 之數目地、可藉由至一字組末端地來正確計算一字組内的 务音上、和分數上高的類似假設,來獲得辨識之正確度。 =者在一字組末端,因尾隨的字組之連接而縮減的是假 :之數目。據此,藉由窄化假設之數目,計算量可有效地 、、’、咸同時獲得辨識之正確度。此增加語音辨識處理之速 度’且改善即時處理容量。 15 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐) 561452 A7 B7 五、發明説明(l3 ) 元件標號對照 101…麥克風 303…字組際字組末端判 102···語音辨識處理部段 304…字組際假設儲存判 103···外部儲存單元 定部段 104···輸出單元 305…字組末端假設儲存 201"*A/D轉換單元 判定部度 202···主要儲存部段 306…搜尋控制部段 203···資訊處理部段 307…相似度計算部段 204···音響模型 308…搜尋操作部段 205···語言模型 309…假設更新部段 206···字組語彙 310…語音辨識末端判定 207".DMA(直接記憶體 部段 存取單元) 311…辨識結果輸出部段 208···ΡΙΟ(平行輸入輸出 312…假設判定部段 裝置) 501…經選定候選字組 209···字組間連接規則 502…個別辨識分數 301···儲存部段 S401-S411、S801-S803·· 302···特徵量抽取部段 步驟 定部段 (請先閲讀背面之注意事項再_本頁) 訂· 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 16
Claims (1)
- 年;]R 六、申請專利範圍 第90133371號申請案申請專利範圍修正本 1· 一種用於語音辨識之方法,包含有: 92.6.13. 一特徵量抽取步驟,根據一輸入語調之一訊框來抽 取一特徵量; 一儲存步驟,用來判定一目前處理訊框是在先前登 記的一候選字組内或在其之一末端,且當在一字組内時 根據一第一假設儲存判定評準、而在一字組末端時根據 一第二假設儲存判定評準、來儲存該候選字組; 一發展步驟,當一經儲存候選字組處在一字組内時 藉由延伸表達該字組的語調段落、且當在一字組末端時 藉由根據一字組間連接規則來連結尾隨的一字組、來發 展一假設; 一運算步驟,用來計算在自該輸入語調抽取的特徵 量、和該經發展假設之一音響模型的一訊框基底特徵量 間之一相似度,且從該相似度、和高達自該相似度計算 的一緊接在前訊框之假設的一辨識分數、來計算一新的 辨識分數;及 一重複步驟,其重複該儲存步驟、該發展步驟及該 操作步驟、直到該處理訊框變為該輸入語調的一最後訊 框為止,且在一辨識結果近似該輸入語調時、以由處理 忒最後訊框所得的較高辨識分數之次序、來輸出假設中 的至少一個。 2·依據申請專利範圍第丨項之方法,其中該第一假設儲存 判定評準係從該辨識分數之一最大值、來選擇在一預定 {m) A4^ (210X297^}六、申請專利範園 界值内之候選字組,㈣第二假設料判定評準係來 «一預定數目之候選字組、作為從在該辨識分數中最 大之一候選字組所計算者。 3· —種用於語音辨識之裝置,包含有: 一特徵量抽取部段,«-輸人語調之-訊棍來抽 取一特徵量; 一搜尋控制部段,用來控制、當該假設處在一字組 内時藉由延伸表達一字組的語調段落、且當在一字組末 端時藉由根據先前決定之一字組間連接規則來連結尾 隨的一字組、來發展一假設; 一相似度計算部段,用來計算在自該輸入語調抽取 的一訊框特徵量、和該經發展假設之一音響模型的一訊 框特徵量間之一相似度; 一搜尋運算部段,用來從該相似度、和高達一緊接 在則訊框之假設的辨識分數、來運算一辨識分數; 一假設判定部段,用來判定一目前處理訊框是在該 假設之一字組内或在其之一字組末端,且使用該辨識分 數、當在一字組内時根據一第一判定評準來選擇一候選 字組、而在一字組末端時根據一第二判定評準、來選擇 一候選字組; 一假設儲存裝置,用來儲存經判定要儲存的一假 設; 一子組假設登記裝置’用來把該假設和該辨識分 數、登記為一新的假設;及 六、申請專利範園 一辨識結果輸出部段,用來繼續該訊框基底程序至 該輸入語調之最後、且以較高辨識分數之次序來輸出至 少一假設。 4·依據申請專利範圍第3項之裝置,其中該第一判定評準 係從該辨識分數之一最大值、來選擇在一預定臨界值内 之候選字組,而該第二判定評準係來選擇一預定數目之 候選子組、作為從在該辨識分數中最大之一候選字組所 計算者。 5. —種記錄程式之可電腦讀取記錄媒體,該程式係用來執 行: 特徵量抽取步驟,根據一輸入語調之一訊框來抽 取一特徵量; 一儲存步驟,用來判定一目前處理訊框是在先前登 圯的一候選字組内或在其之一末端,且當在一字組内時 根據一第一假設儲存判定評準、而在一字組末端時根據 一第二假設儲存判定評準、來儲存該候選字組; 一發展步驟,當一經儲存候選字組處在一字組内時 藉由延伸表達該字組的語調段落、.且當在一字組末端時 藉由根據一字組間連接規則來連結尾隨的一字組、來發 展一假設; 一操作步驟,用來計算在自該輸入語調抽取的該特 徵量、和該經發展假設之一音響模型的一訊框基底特徵 量間之一相似度,且從該相似度、和高達自該相似度 、申請專利範園 算的一緊接在前訊框之假設的一辨識分數、來計算一新 的辨識分數;及 一重複步驟,其重複該儲存步驟、該發展步驟及該 操作步驟、直到該處理訊框變為該輸入語調的一最後訊 框為止’且在一辨識結果近似該輸入語調時、以由處理 5亥最後訊框所得的較高辨識分數之次序、來輸出假設中 的至少一個。 6.依據中請專利範圍第5項之記錄程式的可電腦讀取記 錄媒體’其中該第-假設儲存判定評準係從該辨識分 數之-最大值、來選擇在―預定臨界值内之候選字 、·且而δ亥第一假設儲存判定評準係來選擇一預定數目 之候選字組、作為從在該辨識分數中最大之一 組所計算者。 、、丁
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001014160A JP2002215187A (ja) | 2001-01-23 | 2001-01-23 | 音声認識方法及びその装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
TW561452B true TW561452B (en) | 2003-11-11 |
Family
ID=18880895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW090133371A TW561452B (en) | 2001-01-23 | 2001-12-31 | Method and apparatus for speech recognition |
Country Status (5)
Country | Link |
---|---|
US (1) | US7072835B2 (zh) |
EP (1) | EP1225567B1 (zh) |
JP (1) | JP2002215187A (zh) |
DE (1) | DE60229315D1 (zh) |
TW (1) | TW561452B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8655655B2 (en) | 2010-12-03 | 2014-02-18 | Industrial Technology Research Institute | Sound event detecting module for a sound event recognition system and method thereof |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US7392185B2 (en) | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US20040254790A1 (en) * | 2003-06-13 | 2004-12-16 | International Business Machines Corporation | Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars |
JP4541781B2 (ja) | 2004-06-29 | 2010-09-08 | キヤノン株式会社 | 音声認識装置および方法 |
US7475016B2 (en) * | 2004-12-15 | 2009-01-06 | International Business Machines Corporation | Speech segment clustering and ranking |
US20070124147A1 (en) * | 2005-11-30 | 2007-05-31 | International Business Machines Corporation | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems |
US7437291B1 (en) | 2007-12-13 | 2008-10-14 | International Business Machines Corporation | Using partial information to improve dialog in automatic speech recognition systems |
CN102027534B (zh) * | 2008-05-16 | 2013-07-31 | 日本电气株式会社 | 语言模型得分前瞻值赋值方法及设备 |
US8543393B2 (en) * | 2008-05-20 | 2013-09-24 | Calabrio, Inc. | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms |
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
KR20120046627A (ko) * | 2010-11-02 | 2012-05-10 | 삼성전자주식회사 | 화자 적응 방법 및 장치 |
CN103578471B (zh) * | 2013-10-18 | 2017-03-01 | 威盛电子股份有限公司 | 语音辨识方法及其电子装置 |
US10134425B1 (en) * | 2015-06-29 | 2018-11-20 | Amazon Technologies, Inc. | Direction-based speech endpointing |
CN107248409A (zh) * | 2017-05-23 | 2017-10-13 | 四川欣意迈科技有限公司 | 一种方言语境的多语言翻译方法 |
US20240331687A1 (en) * | 2023-03-30 | 2024-10-03 | International Business Machines Corporation | Insertion error reduction with confidence score-based word filtering |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5241619A (en) * | 1991-06-25 | 1993-08-31 | Bolt Beranek And Newman Inc. | Word dependent N-best search method |
JP3368989B2 (ja) | 1994-06-15 | 2003-01-20 | 日本電信電話株式会社 | 音声認識方法 |
JP2731133B2 (ja) | 1995-09-12 | 1998-03-25 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 連続音声認識装置 |
US5706397A (en) * | 1995-10-05 | 1998-01-06 | Apple Computer, Inc. | Speech recognition system with multi-level pruning for acoustic matching |
JP4042176B2 (ja) | 1997-03-11 | 2008-02-06 | 三菱電機株式会社 | 音声認識方式 |
JP3042455B2 (ja) | 1997-07-28 | 2000-05-15 | 日本電気株式会社 | 連続音声認識方式 |
GB9802836D0 (en) * | 1998-02-10 | 1998-04-08 | Canon Kk | Pattern matching method and apparatus |
US6374220B1 (en) * | 1998-08-05 | 2002-04-16 | Texas Instruments Incorporated | N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states |
-
2001
- 2001-01-23 JP JP2001014160A patent/JP2002215187A/ja active Pending
- 2001-12-31 TW TW090133371A patent/TW561452B/zh not_active IP Right Cessation
-
2002
- 2002-01-10 EP EP02000206A patent/EP1225567B1/en not_active Expired - Lifetime
- 2002-01-10 DE DE60229315T patent/DE60229315D1/de not_active Expired - Fee Related
- 2002-01-17 US US10/052,145 patent/US7072835B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8655655B2 (en) | 2010-12-03 | 2014-02-18 | Industrial Technology Research Institute | Sound event detecting module for a sound event recognition system and method thereof |
Also Published As
Publication number | Publication date |
---|---|
DE60229315D1 (de) | 2008-11-27 |
EP1225567B1 (en) | 2008-10-15 |
EP1225567A2 (en) | 2002-07-24 |
US7072835B2 (en) | 2006-07-04 |
US20020128836A1 (en) | 2002-09-12 |
EP1225567A3 (en) | 2004-02-04 |
JP2002215187A (ja) | 2002-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TW561452B (en) | Method and apparatus for speech recognition | |
CN108877778B (zh) | 语音端点检测方法及设备 | |
JP3049259B2 (ja) | 音声認識方法 | |
TWI681383B (zh) | 用於確定語音信號對應語言的方法、系統和非暫態電腦可讀取媒體 | |
CN107958673B (zh) | 一种口语评分方法及装置 | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
CN113327574A (zh) | 一种语音合成方法、装置、计算机设备和存储介质 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
CN106297800A (zh) | 一种自适应的语音识别的方法和设备 | |
CN112309398B (zh) | 工作时长监控方法、装置、电子设备和存储介质 | |
EP1209659A2 (en) | Method and apparatus for text input utilizing speech recognition | |
CN112331207B (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
JP2020187211A (ja) | 対話装置、対話方法、及び対話コンピュータプログラム | |
CN113763992B (zh) | 语音测评方法、装置、计算机设备和存储介质 | |
Ramteke et al. | Phoneme boundary detection from speech: A rule based approach | |
CN112259084B (zh) | 语音识别方法、装置和存储介质 | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
JP3660512B2 (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
CN115312030A (zh) | 虚拟角色的显示控制方法、装置及电子设备 | |
JP3444108B2 (ja) | 音声認識装置 | |
JP3735209B2 (ja) | 話者認識装置及び方法 | |
CN113421587A (zh) | 语音评测的方法、装置、计算设备及存储介质 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
GD4A | Issue of patent certificate for granted invention patent | ||
MM4A | Annulment or lapse of patent due to non-payment of fees |