[go: up one dir, main page]

TW561452B - Method and apparatus for speech recognition - Google Patents

Method and apparatus for speech recognition Download PDF

Info

Publication number
TW561452B
TW561452B TW090133371A TW90133371A TW561452B TW 561452 B TW561452 B TW 561452B TW 090133371 A TW090133371 A TW 090133371A TW 90133371 A TW90133371 A TW 90133371A TW 561452 B TW561452 B TW 561452B
Authority
TW
Taiwan
Prior art keywords
hypothesis
block
frame
candidate
score
Prior art date
Application number
TW090133371A
Other languages
English (en)
Inventor
Tomohiro Konuma
Tsuyoshi Inoue
Mitsuru Endo
Natsuki Saito
Akira Ishida
Original Assignee
Matsushita Electric Ind Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Ind Co Ltd filed Critical Matsushita Electric Ind Co Ltd
Application granted granted Critical
Publication of TW561452B publication Critical patent/TW561452B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

561452
發明領域 本發明係關於一種要安裝在 知工業和豕用電氣用品 的語音辨識之技術,且更特別關於 、 又行⑴關於用於以語音辨識率來改 善的g吾音辨識之方法和裝置。 發明背景 傳統上’已有—種用於語音辨識的方法和裝置,如 “Hermann Ney:用於連續語 (溯年之IEEE信號處理上的報告第4〇冊第2號第Μ頁)”。 第8圖係—相關技術的語音辨識系統之程序流程。圖中 顯示之程序步驟與-輸人語調之職來同步地執行。在執 行在輸入語調之末端時,近似於輸人語調的_假設、在辨 識結果時被獲得。使用此_方法的搜尋被參照為—訊框同 步化束流搜尋。在各個步驟上、來解說於下。 使用-位通過之搜尋演繹法則,一假設在一輸入語調 之第丨個訊框上、被建立,且在第(H1)個訊框中來發展。若 假設係mu則_語調段频使絲㈣該字組。 不然’若假設係在-字組末#,則後續的—字組被根據一 子組間連接規則來連結。.這延伸第一個語調段落。在第i 個吼框上的假設被抹除、來只儲存第(i+1)個假設(步驟 S801) 〇 其次’在第(1+1)個訊框中由步驟88〇1發展的假設間, 分數上最向、累積高達第(i+1)個訊框(此後參照為累積分數) 的假設被採用為一參考。所儲存的僅係、具有在相對於與 其不同的假設被抹除時、之分數的一恆定臨界值内之一分 4 本紙張尺度適用中國國家標準(CNS) A4規格(21〇><297公楚) 561452 五、發明説明(2 ) 數的假設。此參照為窄化候選人者。該窄化避免假設之數 目以羃級來增加,而因此變得不可能來計算(步驟議)。 其次,程序移至係目前訊框i的“+1,,之次—訊框。此 時,對是否係最後訊框來做決定。若係最後訊框,則程序 結束。若非最後訊框,則程序再移至步驟i。(步驟削) 如前述地’相關技術只依賴累積分數是否在一臨界 内、來窄化假設候選者。 有時,存在有如曰本專利早期公開案第6588/丨996號, 作為-語音辨識方法、來正確估計在訊框同步化束流搜尋 中的假設。在此公開案中描述的語音辨識方法,顯示在訊 框同步化束流搜尋中、對時間來標稱化的計算。亦即,針 對所有假設、由共同可能函數來減掉在時間t的一假設上之 分數。然後,所儲存的係一最大值之經標稱化分數、和具 有在相對於該最大值的一恆定臨界内所標稱化之一分數的 假設。 然而在相關技術之語音辨識系統中,在一字組内或一 子組末端處的假設,採用如上述的累積分數中最高之一假 没、作為一參考,來儲存具有在相對於該分數的一恆定臨 界内之一分數的假設。結果,在字組末端、有多數可連接 子組候選者來尾隨,因此在假設之數目上、獲致大幅增加。 結果,在選擇假設候選者上、對困難的計算已有一退步。 本發明已解決此問題。係一目的來提供用於語音辨識 的方法和裝置,其在選擇假設候選者上能夠有效縮減計算 量、同時獲得語音辨識之正確度。 561452 A7 B7 五、發明説明(3 ) 發明之概要 根據用來解決問題的本發明,用於語音辨識之一方 法、在一訊框同步化束流搜尋中包括一程序,在一候選字 組内、以不管假設數目地、對一字組末端來留下音響分數 高的相似假設,且在一候選字組之一末端、來窄化假設之 數目。亦即,用於語音辨識的方法包含:一特徵量抽取步 驟,根據一輸入語調之一訊框來抽取一特徵量;一儲存步 驟,來判定一目前處理訊框是在先前登記的一候選字組之 末端或在其内,且當在一字組末端時根據一第一假設儲存 判定評準、而在一字組内時根據一第二假設儲存判定評準 來儲存該候選字組;一發展步驟,當一經儲存候選字組處 在一字組内時藉由延伸表達該字組的語調段落、且當在一 子組末端時藉由根據一字組間連接規則來連結尾隨的一字 組、來發展一假設;一操作步驟,用來計算在自該輸入語 調抽取的特徵量、和該經發展假設之一音響模型的一訊框 式特徵量間之一相似度,且從該相似度、和高達自該相似 度計算的一緊接在前訊框之假設的一辨識分數、來計算一 新的辨識分數;及重複該儲存步驟、該發展步驟及該操作 步驟、直到處理訊框變為該輸入語調的一最後訊框為止, 且在一辨識結果近似該輸入語調時、以由處理該最後訊框 所得的較高辨識分數之次序、來輸出假設中的至少一個, 的一步驟。 圖式之簡單描述 第1圖係顯示在本發明之一實施例中的一語音辨 識裝 先 閲 il 背· 注 意 事 項
頁 訂
五、發明説明(4 ) 置之一系統組態圖; 第2圖係在發明之實施例中的一語音辨識處理部段之 硬體組態的方塊圖; 第3圖係在發明之實施例中的一語音辨識處理部段之 功能組態的方塊圖; 第4圖係顯示在發明之實施例中的語音辨識處理部段 之程序的流程圖; 第5圖係在發明之實施例中、要先被登記的一組候選字 組、及其辨識分數上的解說圖; 第6圖係在發明之實施例中、用於假設判定的程序圖; 第7圖顯示在發明之實施例中、一字組間連接規則的例 圖;及 第8圖係顯示一相關技術的程序之流程圖。 較佳實施例之描述 現在將參考圖式來解說本發明之實施例。 第1圖係顯示在本發明之一實施例中的一語音辨識裝 置之一糸統組態圖。 在第1圖中,語音辨識裝置包括一麥克風101、一語音 辨識處理部段102、一外部儲存單元103、及一輸出單元1〇4。 麥克風101係來捕捉由一使用者說出的語調,且和語音 辨識裝置整合。請注意,麥克風101無需和語音辨識裝置在 一本體中。 語音辨識處理部段102、在透過麥克風1〇1來檢知一輸 入語調時,會處理來辨識從候選字組間由使用者說出的一 五、發明説明(5 ) 子組,作為語音辨識之一主體。 外部儲存單元103儲存有要在語音辨識處理部段1〇2中 來執行的一處理程式。 輪出單元1G4係—液晶面板,來顯示由語音辨識處理部 段102辨識的字組或本文。 現在,在本實施例之操作列示上做解說。 語音辨識裝置在打開電源時,把作為一資料信號· 的處理程t自外料存單元⑻載人到語音韻處理部段 102。该處理程式在儲存在語音辨識處理部段⑽之一主要 儲存部段後、要被執行。然後,語音辨識處理部段職過 夕克風101、來接收供辨識用的使用者之語調字組的一語調 L唬SIG1,且把它儲存到語音辨識處理部段1〇2的主要儲 存部段。使用者之語調字組可為由多個句子組成的一字組 或本文。其次,語音辨識處理部段1〇2以自其頂上之次序、 在輸入語調上實施-辨識程序,從在受—信號训3控制的 輸出單元104上之候選字組間來顯示一最匹配字組或本文。 現在參考第2圖,在語音辨識處理部段1〇2之一硬體組 態上做解說。 浯音辨識處理部段102包括把自麥克風1〇1輸入的類比 k唬、轉換成一數位信號的一 A/D轉換器2〇1,用來儲存資 料和處理程式的一主要儲存部段2〇2,根據程式來處理資料 的一資訊處理部段203,根據諸如音素和音節的語調段落、 與用音響特徵來模型化的多個訊框來組配、把字組表達為 辨識之一主體的一音響模型204,描述在供辨識用的字組間 五、發明説明(6 ) 則的-語言模型205,用候選字組集合來登記的 子、且邊菜2G6,記錄表列之字組來尾隨某—字組的一字組 連接規lj2G9’把程輕式以高速率、自外部儲存單元1〇3 傳送到主要儲存部段202的一驗(直接記憶體存取單 兀)2〇二及用於在外部儲存單元1〇3和輸出單元刚間的雙 向平订通k、且把資料同步地傳遞到一匯流排上的一 PIO(平仃I/O裝置)2G8。請注意在圖式中,裝置2〇1至勘 係透過匯流排來連接。其次,在要被參考第3圖而上述的硬 體組態來實現之語音辨識儲存部段1〇2的功能方塊組態 上、來做解說。 .儲存部段301暫時地儲存輸入語調資料、特徵量向量、 候選子組等等。特徵量抽取部段3〇2自輸入語調、來抽取一 特被罝之語調。一字組際字組末端判定部段3〇3判定一假設 是在一字組内或在一字組末端。一字組際假設儲存判定部 段304、由一語調基底辨識分數來判定是否要儲存一假設候 選子組。一字組末端假設儲存判定部段、由假設候選字 組之數目來判定是否要儲存一假設。一搜尋控制部段3〇6 在假設於一字組内時、來.延伸表達一字組的語調段落,且 於一字組末端時、符合於在語言模型2〇5中描述的字組間連 接規則地、連結尾隨的一字組。因此,控制部段3〇6執行一 訊框同步化束流搜尋中的假設之發展控制、來發展假設。 一相似度計算部段307計算在自特徵量抽取部段3〇2輸出的 輸入語調之一訊框基底特徵量、和音響模型2〇4間的相似 度。一搜尋操作部段308從由相似度計算部段307所計算的 本紙張尺度適用中國國家標準(CNS) A4規格(210X297^1 > 五、發明説明(7 ) 相似度、和兩達緊接在前訊框之假設的辨識分數、來叶曾 一辨識分數。假設錢部㈣W和所計算職分數Z 新。-語音辨識結束判定部段310判定程序是否已完成、高 達儲存在儲存部段301中的輸入語調資料之末端。-辨識結 果,出部段3H使訊框同步化束流搜尋繼續至輸入語調之 末端,且作為-辨識結果地、來輸出辨識分數上高的一可 輸出假設。 第4圖係藉功能方塊圖來顯示在語音辨識處理部段1〇2 中之資料程序流程的流程圖。使用流程圖,資料程序流程 被解說。 在圖式中,S表示其中各程序步驟要由第3圖之功能方 塊來實現的各程序步驟。 起先,由使用者說出的整個語調信號、基於i〇ms之一 訊框而暫時地儲存到儲存部段3〇1(步驟S4〇i)。 其次,語調輸入被檢測、從字組語彙1〇4來拷貝包括先 前登記的候選字組和具有,〇,的一初始值之辨識分數的一 初始組集之一假設,且把它儲存到儲存部段3〇ι(步驟 S402)。本實施例儲存包括如第5圖顯示的候選字組和辨識 分數之一初始組集的一假設。第5圖係儲存五個字組5〇1、 如“箭頭”、“之後,,、“存取,,、“接受,,、和“緩魚,,,及個別 辨識分數502(初始值‘〇’)的例子。對於候選字組,可能來儲 存不具有語意的仿製字組。 然後,特徵量抽取部段302在所有累積訊框上、只在語 調後的第一時間來實施LPC Cepstrum分析,且抽取乙^ 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 10 561452 A7 __B7_ 五、發明説明(8 ) cepstral係數向量,把它們再儲存到儲存部段301。自此, 根據序列辨識、把LPC cepstrum向量自儲存部段301讀出。 (步驟S403)。雖然特徵量要使用LPC cepstml係數向量來抽 取,用如MFCC(mel頻率cepstral係數)的其他音響參數、可 獲得類似效果。 其次,字組際字組末端判定部段303目前正處理者係在 一字組内的語調段落、或在一字組末端的語調段落(步驟 S404)。在一使用者語調之頂上,假定係在一字組内的語調 段落上。在語調之頂上以外處,當在假設上的目前處理訊 框係在一字組内、而非在一字組末端時,字組際假設儲存 判定部段304參考於在目前候選字組間之辨識分數上最高 的一字組内之一假設、來窄化至具有在相對於該辨識分數 的一恆定臨界内之辨識分數的字組際假設(步驟S405)。當 假設係在一字組末端時,字組末端假設儲存判定部段305、 以較高辨識分數之次序從目前候選字組選出假設、根據假 設數目來窄化假設(步驟S406)。 然後,搜尋控制部段306在經窄化假設處在一字組内 時、把語調段落延伸來表達一字組,且在一字組末端時、 根據字組間連接規則209來連結尾隨的一字組,因此執行作 為一新的假設性候選字組之發展(步驟S407)。 然後,相似度計算部段3 0 7,從作為一選定候選字組5 01 之語調段落的輸入語調之目前處理訊框的一特徵量、及音 素的一特徵量、在經發展假設上來計算一相似度。搜尋操 作部段308把該相似度、和高達緊接在前訊框之假設辨識分 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 11 (請先閲讀背面之注意事項再本頁) 、tr— 五 、發明說明 此來判定-辨識分數(步驟_)。這些程 之特東流搜尋操作,意,候選字組 型204來抽出。… 3 ·且-之音響參數的音響模 Α例巾’相似度使財程式⑴中表達 ⑺來=距離量測。從相似度L(i,j},—音響分數由方程式 在方程式⑴中,邮)的音響分數 框i和音響模型語彙訊框』處。 η…周況 L(i J) = (x(i) - μ0)* Σ (j)- (χ〇) _ μϋ))+ 1〇§|Σ (j)| ⑴ as(i,j) = |L(i,j)| ⑺ .其中移項係—反矩陣’X⑴為對應於-輸入訊框i的-輸入向量,且⑴為對應於語彙訊框 j的一特性向量之斜方差矩陣和平均值向量。前述之音響模 型確係在這些語彙訊框1的一組集之斜方差夫巨陣和平均值 向量。輸入向量在此實施例中’為係抽有輸入語調的一特 性向量之一 LPC cepstrum係數向量。語彙訊框也為從係在 對應於輸入訊框而考慮的一字組語彙中所登記之一字組的 音響模型、所抽取的一特性向量。 其次,假設更新部段309把經發展假設、與一新的辨識 分數一起更新(步驟S409)。 使用第6圖,在從程序步驟S404至S409的程序上來做 解說。 在此實施例中,來自最大辨識分數、作為針對一字组 際假設的一判定評準之恆定臨界被給予’3’,且作為針對一 12 本紙張尺度適用中國國家標準(CNS) M規格(210X297公釐) 561452 A7
字組末端假設的一判定評準之較上等級辨識分數的數目 為2明主思,圓圈中的標號表示一經決定辨識分數。 “在第ό圖中,由步驟S4〇2儲存的五個字組被根據訊框 來處理。於時間t,自一字組頂上由、,延伸的辨識分數係 一數值“12,,,且由,Γ延伸者為一數值,8,。因為,丨,之辨識分 數係等於或小於一臨界值(12_3=9),候選字組‘‘缝魚,,被從 候選者來刪除。然後,在“鰻魚,,以外的四個字組被留下來 龜績程序。於時間1+11,候選字組“之後,,之辨識分數等於 或小於一臨界值(24-3二21),且因此被刪除。留下有“箭 碩”、“存取”、和“接受,,,且程序繼續。於時間t+t3,“箭頭,, 之辨識分數“35”等於或小於一臨界值(45-3=42),且因此被 刪除。留下“存取,,和“接受,,來繼續程序。於時間忏6,其餘 兩字組即結束。然而,因為其餘者係較上兩等級,故“存取,, 和“接受”都留下。 其次,從字組間連接規則209,尾隨這些候選字組的候 選字組被採用來提供新的假設候選者。使用第7圖來解說此 例子。 苐7圖係子組間連接規則的例圖。存在有和“t〇,,之 登記,各作為尾隨在實施例中留為一候選者的字組“存取,, 之一字組,且“a”、“the,,、和“your,,之登記,作為尾隨字組 接受”之一字組。這五個字組被抽取、作為新的候選字組, 且假設被更新。然後,程序再回到步驟S4〇3。請注意,在實施例中第6圖只描述音素基底候選者窄化 轾序。然而在貫際程序中,根據一音素與多個訊框來組配 本紙張尺度適用中國國家標準(CNS) A4規格(21〇χ297公楚) 請- 閲 讀 背· 面 之 注 意 事 項
頁 訂
13 五、發明説明(11 ) 的訊框、來執行類似候選者窄化程序。 在第4圖中’語音辨識結束判定部段310、判定上述程 序疋否已π成、到儲存在儲存部段3〇1中的最後一輸入語 °周直到、、、"束判定條件被滿足為止,步驟S403至S409之訊 框基底程序被重複(S41〇)。 其次’辨識結果輸出部段311把—高辨識分數之可輸出 假設輸出到輸出單元1G4’作為來自在毅結束判定條件時 被留下的假設組集之一辨識結果。 在根據本實施例的語音辨識中, 識程序,需要平均為丨,12(),_字組格點的_計算== 慮到,^相關技術方法中的3,請,_平均字組袼點之觀點 上’計算量被縮減至近乎四分之一。在此,字組格點參照 為在透過在一訊框同步化束流搜尋中、從開始到結束的一 語調來完成窄化程序時,在訊框内未被修掉(留存的)之一 候k者冑時,每字組的格點之平均數目由方程式⑺來決 定0
a = IlNf/U s=l f=s {J ) 其中a:每字組的總格子之平均數目,s:在語調之開 端的訊框數目,e :在語調之末端的訊框數目,且Nf:在訊 框數目上的格點之數目。 亦即,於語調之總數内、來加總自語調開端_s到語調 末端-e的格點之總數、被總語調數目來除。 同時,考慮語音辨識之正確度、即獲得下列結果。 561452 -----------B7 五、發明説明(1” ^~ 一 使用在實施例中所用的五個字組,在各包括15男人和 女人的總共30人上、來執行實驗性語音辨識。根據結果, 相關技術方法具有81·4%之辨識率,而本發明之方法有 81·1/〇。以此方式,藉本發明之方法的語音辨識、在正確 度上係與相關技術方法大致不同。 根據本务明,在一訊框同步化束流搜尋中,不管假設 之數目地、可藉由至一字組末端地來正確計算一字組内的 务音上、和分數上高的類似假設,來獲得辨識之正確度。 =者在一字組末端,因尾隨的字組之連接而縮減的是假 :之數目。據此,藉由窄化假設之數目,計算量可有效地 、、’、咸同時獲得辨識之正確度。此增加語音辨識處理之速 度’且改善即時處理容量。 15 本紙張尺度適用中國國家標準(CNS) Α4規格(210X297公釐) 561452 A7 B7 五、發明説明(l3 ) 元件標號對照 101…麥克風 303…字組際字組末端判 102···語音辨識處理部段 304…字組際假設儲存判 103···外部儲存單元 定部段 104···輸出單元 305…字組末端假設儲存 201"*A/D轉換單元 判定部度 202···主要儲存部段 306…搜尋控制部段 203···資訊處理部段 307…相似度計算部段 204···音響模型 308…搜尋操作部段 205···語言模型 309…假設更新部段 206···字組語彙 310…語音辨識末端判定 207".DMA(直接記憶體 部段 存取單元) 311…辨識結果輸出部段 208···ΡΙΟ(平行輸入輸出 312…假設判定部段 裝置) 501…經選定候選字組 209···字組間連接規則 502…個別辨識分數 301···儲存部段 S401-S411、S801-S803·· 302···特徵量抽取部段 步驟 定部段 (請先閲讀背面之注意事項再_本頁) 訂· 本紙張尺度適用中國國家標準(CNS) A4規格(210X297公釐) 16

Claims (1)

  1. 年;]R 六、申請專利範圍 第90133371號申請案申請專利範圍修正本 1· 一種用於語音辨識之方法,包含有: 92.6.13. 一特徵量抽取步驟,根據一輸入語調之一訊框來抽 取一特徵量; 一儲存步驟,用來判定一目前處理訊框是在先前登 記的一候選字組内或在其之一末端,且當在一字組内時 根據一第一假設儲存判定評準、而在一字組末端時根據 一第二假設儲存判定評準、來儲存該候選字組; 一發展步驟,當一經儲存候選字組處在一字組内時 藉由延伸表達該字組的語調段落、且當在一字組末端時 藉由根據一字組間連接規則來連結尾隨的一字組、來發 展一假設; 一運算步驟,用來計算在自該輸入語調抽取的特徵 量、和該經發展假設之一音響模型的一訊框基底特徵量 間之一相似度,且從該相似度、和高達自該相似度計算 的一緊接在前訊框之假設的一辨識分數、來計算一新的 辨識分數;及 一重複步驟,其重複該儲存步驟、該發展步驟及該 操作步驟、直到該處理訊框變為該輸入語調的一最後訊 框為止,且在一辨識結果近似該輸入語調時、以由處理 忒最後訊框所得的較高辨識分數之次序、來輸出假設中 的至少一個。 2·依據申請專利範圍第丨項之方法,其中該第一假設儲存 判定評準係從該辨識分數之一最大值、來選擇在一預定 {m) A4^ (210X297^}
    六、申請專利範園 界值内之候選字組,㈣第二假設料判定評準係來 «一預定數目之候選字組、作為從在該辨識分數中最 大之一候選字組所計算者。 3· —種用於語音辨識之裝置,包含有: 一特徵量抽取部段,«-輸人語調之-訊棍來抽 取一特徵量; 一搜尋控制部段,用來控制、當該假設處在一字組 内時藉由延伸表達一字組的語調段落、且當在一字組末 端時藉由根據先前決定之一字組間連接規則來連結尾 隨的一字組、來發展一假設; 一相似度計算部段,用來計算在自該輸入語調抽取 的一訊框特徵量、和該經發展假設之一音響模型的一訊 框特徵量間之一相似度; 一搜尋運算部段,用來從該相似度、和高達一緊接 在則訊框之假設的辨識分數、來運算一辨識分數; 一假設判定部段,用來判定一目前處理訊框是在該 假設之一字組内或在其之一字組末端,且使用該辨識分 數、當在一字組内時根據一第一判定評準來選擇一候選 字組、而在一字組末端時根據一第二判定評準、來選擇 一候選字組; 一假設儲存裝置,用來儲存經判定要儲存的一假 設; 一子組假設登記裝置’用來把該假設和該辨識分 數、登記為一新的假設;及 六、申請專利範園 一辨識結果輸出部段,用來繼續該訊框基底程序至 該輸入語調之最後、且以較高辨識分數之次序來輸出至 少一假設。 4·依據申請專利範圍第3項之裝置,其中該第一判定評準 係從該辨識分數之一最大值、來選擇在一預定臨界值内 之候選字組,而該第二判定評準係來選擇一預定數目之 候選子組、作為從在該辨識分數中最大之一候選字組所 計算者。 5. —種記錄程式之可電腦讀取記錄媒體,該程式係用來執 行: 特徵量抽取步驟,根據一輸入語調之一訊框來抽 取一特徵量; 一儲存步驟,用來判定一目前處理訊框是在先前登 圯的一候選字組内或在其之一末端,且當在一字組内時 根據一第一假設儲存判定評準、而在一字組末端時根據 一第二假設儲存判定評準、來儲存該候選字組; 一發展步驟,當一經儲存候選字組處在一字組内時 藉由延伸表達該字組的語調段落、.且當在一字組末端時 藉由根據一字組間連接規則來連結尾隨的一字組、來發 展一假設; 一操作步驟,用來計算在自該輸入語調抽取的該特 徵量、和該經發展假設之一音響模型的一訊框基底特徵 量間之一相似度,且從該相似度、和高達自該相似度 、申請專利範園 算的一緊接在前訊框之假設的一辨識分數、來計算一新 的辨識分數;及 一重複步驟,其重複該儲存步驟、該發展步驟及該 操作步驟、直到該處理訊框變為該輸入語調的一最後訊 框為止’且在一辨識結果近似該輸入語調時、以由處理 5亥最後訊框所得的較高辨識分數之次序、來輸出假設中 的至少一個。 6.依據中請專利範圍第5項之記錄程式的可電腦讀取記 錄媒體’其中該第-假設儲存判定評準係從該辨識分 數之-最大值、來選擇在―預定臨界值内之候選字 、·且而δ亥第一假設儲存判定評準係來選擇一預定數目 之候選字組、作為從在該辨識分數中最大之一 組所計算者。 、、丁
TW090133371A 2001-01-23 2001-12-31 Method and apparatus for speech recognition TW561452B (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001014160A JP2002215187A (ja) 2001-01-23 2001-01-23 音声認識方法及びその装置

Publications (1)

Publication Number Publication Date
TW561452B true TW561452B (en) 2003-11-11

Family

ID=18880895

Family Applications (1)

Application Number Title Priority Date Filing Date
TW090133371A TW561452B (en) 2001-01-23 2001-12-31 Method and apparatus for speech recognition

Country Status (5)

Country Link
US (1) US7072835B2 (zh)
EP (1) EP1225567B1 (zh)
JP (1) JP2002215187A (zh)
DE (1) DE60229315D1 (zh)
TW (1) TW561452B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US20040254790A1 (en) * 2003-06-13 2004-12-16 International Business Machines Corporation Method, system and recording medium for automatic speech recognition using a confidence measure driven scalable two-pass recognition strategy for large list grammars
JP4541781B2 (ja) 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US7475016B2 (en) * 2004-12-15 2009-01-06 International Business Machines Corporation Speech segment clustering and ranking
US20070124147A1 (en) * 2005-11-30 2007-05-31 International Business Machines Corporation Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems
US7437291B1 (en) 2007-12-13 2008-10-14 International Business Machines Corporation Using partial information to improve dialog in automatic speech recognition systems
CN102027534B (zh) * 2008-05-16 2013-07-31 日本电气株式会社 语言模型得分前瞻值赋值方法及设备
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
TWI420510B (zh) * 2010-05-28 2013-12-21 Ind Tech Res Inst 可調整記憶體使用空間之語音辨識系統與方法
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
CN103578471B (zh) * 2013-10-18 2017-03-01 威盛电子股份有限公司 语音辨识方法及其电子装置
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN107248409A (zh) * 2017-05-23 2017-10-13 四川欣意迈科技有限公司 一种方言语境的多语言翻译方法
US20240331687A1 (en) * 2023-03-30 2024-10-03 International Business Machines Corporation Insertion error reduction with confidence score-based word filtering

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5241619A (en) * 1991-06-25 1993-08-31 Bolt Beranek And Newman Inc. Word dependent N-best search method
JP3368989B2 (ja) 1994-06-15 2003-01-20 日本電信電話株式会社 音声認識方法
JP2731133B2 (ja) 1995-09-12 1998-03-25 株式会社エイ・ティ・アール音声翻訳通信研究所 連続音声認識装置
US5706397A (en) * 1995-10-05 1998-01-06 Apple Computer, Inc. Speech recognition system with multi-level pruning for acoustic matching
JP4042176B2 (ja) 1997-03-11 2008-02-06 三菱電機株式会社 音声認識方式
JP3042455B2 (ja) 1997-07-28 2000-05-15 日本電気株式会社 連続音声認識方式
GB9802836D0 (en) * 1998-02-10 1998-04-08 Canon Kk Pattern matching method and apparatus
US6374220B1 (en) * 1998-08-05 2002-04-16 Texas Instruments Incorporated N-best search for continuous speech recognition using viterbi pruning for non-output differentiation states

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8655655B2 (en) 2010-12-03 2014-02-18 Industrial Technology Research Institute Sound event detecting module for a sound event recognition system and method thereof

Also Published As

Publication number Publication date
DE60229315D1 (de) 2008-11-27
EP1225567B1 (en) 2008-10-15
EP1225567A2 (en) 2002-07-24
US7072835B2 (en) 2006-07-04
US20020128836A1 (en) 2002-09-12
EP1225567A3 (en) 2004-02-04
JP2002215187A (ja) 2002-07-31

Similar Documents

Publication Publication Date Title
TW561452B (en) Method and apparatus for speech recognition
CN108877778B (zh) 语音端点检测方法及设备
JP3049259B2 (ja) 音声認識方法
TWI681383B (zh) 用於確定語音信號對應語言的方法、系統和非暫態電腦可讀取媒體
CN107958673B (zh) 一种口语评分方法及装置
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
CN109036471B (zh) 语音端点检测方法及设备
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
WO2018192186A1 (zh) 语音识别方法及装置
CN106297800A (zh) 一种自适应的语音识别的方法和设备
CN112309398B (zh) 工作时长监控方法、装置、电子设备和存储介质
EP1209659A2 (en) Method and apparatus for text input utilizing speech recognition
CN112331207B (zh) 服务内容监控方法、装置、电子设备和存储介质
JP2020187211A (ja) 対話装置、対話方法、及び対話コンピュータプログラム
CN113763992B (zh) 语音测评方法、装置、计算机设备和存储介质
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
CN112259084B (zh) 语音识别方法、装置和存储介质
CN112750445A (zh) 语音转换方法、装置和系统及存储介质
JP5897718B2 (ja) 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备
JP3444108B2 (ja) 音声認識装置
JP3735209B2 (ja) 話者認識装置及び方法
CN113421587A (zh) 语音评测的方法、装置、计算设备及存储介质
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent
MM4A Annulment or lapse of patent due to non-payment of fees