[go: up one dir, main page]

TW201517017A - 語言模型的建立方法、語音辨識方法及電子裝置 - Google Patents

語言模型的建立方法、語音辨識方法及電子裝置 Download PDF

Info

Publication number
TW201517017A
TW201517017A TW102140171A TW102140171A TW201517017A TW 201517017 A TW201517017 A TW 201517017A TW 102140171 A TW102140171 A TW 102140171A TW 102140171 A TW102140171 A TW 102140171A TW 201517017 A TW201517017 A TW 201517017A
Authority
TW
Taiwan
Prior art keywords
pinyin
sequence
phonetic
obtaining
probability
Prior art date
Application number
TW102140171A
Other languages
English (en)
Other versions
TWI532035B (zh
Inventor
guo-feng Zhang
Original Assignee
Via Tech Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Via Tech Inc filed Critical Via Tech Inc
Publication of TW201517017A publication Critical patent/TW201517017A/zh
Application granted granted Critical
Publication of TWI532035B publication Critical patent/TWI532035B/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一種語言模型的建立方法、語音辨識方法及電子裝置,其中語音辨識方法包括以下步驟。根據聲學模型獲得語音信號的音標序列。依據音標序列以及音節聲學詞典,獲得符合音標序列的多個拼音。依據這些拼音,自語言模型中獲得多個文字序列及多個文字序列概率,其中將各拼音與備選句子列表進行匹配,而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率,並計算這些拼音所對應的單詞拼音概率,而獲得所述文字序列概率。選擇文字序列概率中最大者所對應的文字序列,以做為語音信號的辨識結果。

Description

語言模型的建立方法、語音辨識方法及電子裝置
本發明是有關於一種語音辨識技術,且特別是有關於一種可用於識別不同語言、方言或發音習慣所發出的語音的語言模型的建立方法、語音辨識方法及其電子裝置。
語音辨識(speech recognition)毫無疑問的是一種熱門的研究與商業課題。語音辨識通常是將輸入的語音取出特徵參數,再與資料庫的樣本相比對,找出與輸入相異度低的樣本取出。
目前常見做法大都是先採集語音語料(如錄下來的人的語音),然後由人工進行標注(即,對每一句語音標注上對應的文字),然後使用這些語料來訓練聲學模型(acoustic model)和聲學詞典(transcription-syllable module)。其中,在訓練聲學模型和聲學詞典時,是利用對應於多個詞彙的多個語音語料以及這些詞彙於字典中標註的多個音標來進行訓練,藉以獲得聲學模型和聲學詞典中與上述音標相對應的多個語音語料的資料。
然而,目前作法存在如下問題。問題1:由於聲學模型中用以訓練的詞彙的音標,是來自於字典上所標註的音標,因此倘若用戶的非標準發音(如翹舌音不分、前後鼻音不分等)進入聲學模型,則這些發音會有很高的機率無法符合字典上所標註的音標,因而造成聲學模型的模糊性變大。如拼音“in”在聲學模型中會給出比較大的概率為“ing”,而為了不標準發音的妥協,會導致整體錯誤率的升高。問題2:由於不同地區的發音習慣不同,非標準發音有多種變形,導致聲學模型的模糊性變得更大,因而使得識別準確率的進一步降低。問題3:無法識別方言,如標準漢語、滬語、粵語、閩南語等。問題4:無法識別容易讀錯的字,如一丘之貉(hé),很多人會把它念成(hè)。問題5:由於聲學詞典會將音標轉換成字彙,因此會丟失了很多語音資訊(如重音的位置),進而影響到意圖識別的準確率,這將導致語義識別的錯誤率上升。
本發明提供一種語言模型的建立方法、語音辨識方法及電子裝置,其可消除語音映射到文字所產生的歧義性,以準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言及語義。
本發明提出一種語言模型的建立方法,用於電子裝置。語言模型的建立方法包括以下步驟。接收多個備選句子,以及根據語料庫,獲得與各備選句子中的各單詞符合的多個拼音以及多 個單詞拼音概率,藉以獲得這些備選句子所對應的備選句子列表。
本發明提出一種語音辨識方法,用於電子裝置。語音辨識方法包括以下步驟。首先,根據聲學模型獲得語音信號的多個音標,其中音標包括多個音素。並且,依據各音標以及音節聲學詞典,獲得符合音標的多個拼音。接著,依據這些拼音,自語言模型中獲得多個文字序列及多個文字序列概率,其中此步驟包括將各拼音與備選句子列表進行匹配,而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率,以及計算這些拼音所對應的單詞拼音概率,而獲得所述文字序列概率,其中對應於所述文字序列概率的備選句子為所述文字序列。最後,選擇文字序列概率中最大者所對應的文字序列,以做為語音信號的辨識結果。
本發明另提出一種電子裝置,其包括儲存單元以及處理單元。儲存單元儲存多個程式碼片段。處理單元耦接至輸入單元以及儲存單元。處理單元透過所述程式碼片段來執行多個指令。這些指令包括:接收多個備選句子,以及根據語料庫,獲得與各備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率,藉以獲得所述備選句子所對應的備選句子列表。
本發明另提出一種電子裝置,其包括輸入單元、儲存單元以及處理單元。輸入單元接收語音信號。儲存單元儲存多個程式碼片段。處理單元耦接至輸入單元以及儲存單元,其中處理單元透過所述程式碼片段來執行多個指令。這些指令包括:根據聲學模型獲得語音信號的多個音標,所述音標包括多個音素。依據 各音標以及音節聲學詞典,獲得符合音標的多個拼音。依據所述拼音,自語言模型中獲得多個文字序列及多個文字序列概率,其中處理單元所執行的這些指令包括:將各拼音與備選句子列表進行匹配,而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率,並計算這些拼音所對應的單詞拼音概率,而獲得所述文字序列概率,其中對應於所述文字序列概率的備選句子為所述文字序列。最後,選擇所述文字序列概率中最大者所對應的文字序列,以做為語音信號的辨識結果。
基於上述,當電子裝置進行語音信號的語音辨識時,可根據聲學模型獲得符合真實發音的多個音標,以及在音節聲學詞典中獲得符合音標的拼音。並且,電子裝置會依據每個拼音,自語音模型中找出符合這些拼音的文字序列與文字序列概率,並從這些文字序列概率中最大者所對應的文字序列,來做為辨識結果。如此一來,本發明可依據語音輸入的真實發音所對應的拼音來進行拼音到文字的辨識,藉以消除語音映射到文字所產生的歧義性,而保留原始語音輸入的信息,使得語音辨識更加精準。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
100‧‧‧電子裝置
110‧‧‧處理單元
120‧‧‧儲存單元
130‧‧‧輸入單元
140‧‧‧輸出單元
21、41‧‧‧語音資料庫
22、42‧‧‧語料庫
200、400‧‧‧語音辨識模組
210、410‧‧‧聲學模型
220‧‧‧聲學詞典
230、430‧‧‧語言模型
240、440‧‧‧解碼器
420‧‧‧音節聲學詞典
S1、S2‧‧‧語音信號
S310、S320、S330、S340、S350、S510、S520、S530、S540、S550、S610、S620、S630、S640、S650‧‧‧本發明語音辨識方法的各步驟
圖1是依照本發明一實施例的電子裝置的方塊圖。
圖2是依照本發明一實施例的語音辨識模組的示意圖。
圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。
圖4是依照本發明一實施例的語音辨識模組的示意圖。
圖5是依照本發明一實施例所繪示的語音辨識方法的流程圖。
圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。
在傳統語音辨識方法中,普遍存在底下問題,即,由於在不同地區的方言中的模糊音、使用者發音習慣的不同、或是不同的語言,會導致辨識率的精準度受到影響。此外,由於現有技術中的語音辨識一般是以文字輸出,因而丟失了很多語音信息,例如隨音調而異的語義表達。再者,在發音到文字的映射過程中,現有技術一般使用的概率是某個音是某個詞的概率,因此相同的音會被映射到所有的同音字,而導致發音轉文字時的錯誤率上升。為此,本發明提出一種語言模型的建立方法、語音辨識方法及其電子裝置,可在原有語音識別的基礎上,改進辨識率的精準度。為了使本發明之內容更為明瞭,以下特舉諸實施例作為本發明確實能夠據以實施的範例。
圖1是依照本發明一實施例的電子裝置的方塊圖。請參 照圖1,電子裝置100包括處理單元110、儲存單元120以及輸入單元130,也可包括輸出單元140。
電子裝置100例如是行動電話(Cell phone)、個人數位助理(Personal Digital Assistant,PDA)手機、智慧型手機(Smart phone)、掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)、筆記型電腦、個人電腦,車用電腦等具有運算功能的裝置,在此並不限制其範圍。
處理單元110耦接至儲存單元120及輸入單元130。處理單元110為具備運算能力的硬體(例如晶片組、處理器等),用以執行電子裝置100中的硬體、韌體以及處理軟體中的資料。在本實施例中,處理單元110例如是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor,DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits,ASIC)、可程式化邏輯裝置(Programmable Logic Device,PLD)或其他類似裝置。
儲存單元120可儲存一個或多個用來執行語音辨識方法的程式碼以及資料(例如,使用者所輸入的語音信號、執行語音辨識所需的聲學模型(acoustic model)、音節聲學詞典(acoustic lexicon)、語言模型(language model)及語料庫等)等等。在本實施例中,儲存單元120例如為非揮發性記憶體(Non-volatile memory,NVM)、動態隨機存取記憶體(Dynamic Random Access Memory,DRAM)或靜態隨機存取記憶體(Static Random Access Memory,SRAM)等。
輸入單元130例如為麥克風,用以接收使用者的聲音,而將使用者的聲音轉換為語音信號。
在此,本實施例可以程式碼來實現電子裝置100的語音辨識方法。具體而言,儲存單元120中可儲存有多個程式碼片段,而上述程式碼片段在被安裝後,處理單元110會透過這些程式碼片段來執行多個指令,藉以實現本實施例的聲學模型的建立方法以及語音辨識方法。更進一步地說,處理單元110會藉由執行程式碼片段中的多個指令,來建立聲學模型、音節聲學詞典以及語言模型,並透過上述程式碼片段來驅動語音辨識模組,以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例之語音辨識方法。其中,所述語音辨識模組可以是以電腦程式碼來實作,或者在本發明另一實施例中,所述語音辨識模組可由一個或數個邏輯閘組合而成的硬體電路來實作。據此,本實施例的處理單元110會將輸入單元130所接收的語音信號透過上述語音辨識模組來進行語音辨識,以利用聲學模型、音節聲學詞典以及語言模型而獲得多個字串概率及多個字串。並且,處理單元110會選出字串概率中最大者所對應的字串,以做為語音信號的辨識結果。
另外,本實施例還可包括輸出單元140,以輸出語音信號的辨識結果。輸出單元140例如為陰極射線管(Cathode Ray Tube,CRT)顯示器、液晶顯示器(Liquid Crystal Display,LCD)、電漿 顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯示單元,以顯示所獲得的字串概率中最大者所對應的候選字串。或者,輸出單元140亦可以是揚聲器,以播放所獲得的字串概率中最大者所對應的候選字串。
需說明的是,本實施例的處理單元110會針對不同的語言、方言或發音習慣,分別建立上述聲學模型、音節聲學詞典與語言模型,並將這些模型與詞典存放於儲存單元120。
詳細而言,聲學模型例如是一個統計分類器,其可利用混合高斯模型,以將所接收到的語音信號,解析成基本的音素(Phone),並將各音素分類至對應的基本音標。其中,聲學模型可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。音節聲學詞典通常是由被識別語言的單詞組成,一般可採用隱藏式馬可夫模型(Hidden Markov Model,HMM)將聲學模型輸出的音組成單詞,其中對於單音節語言(例如中文),通常可藉由音節聲學詞典以將聲學模型所輸出的音標轉換成對應的詞彙。語言模型(language model)主要是利用機率統計的方法來揭示語言單位內在的統計規律,其中N元語法(N-Gram)簡單有效而被廣泛使用。
底下舉一實施例來說明。
圖2是依照本發明一實施例的語音辨識模組的示意圖。請參照圖2,語音辨識模組200主要包括聲學模型210、音節聲學詞典220、語言模型230以及解碼器240。其中,聲學模型210與 音節聲學詞典是由語音資料庫21經訓練而獲得,語言模型230是由語料庫(text corpus)22經訓練而獲得。在本實施例中,語音資料庫21以及語料庫22具有多個語音信號,而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入。
請同時參照圖1與圖2,聲學模型210用以辨識來自不同語言、方言或發音習慣的語音信號,以識別出與語音信號的發音相符合的多個音標。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得聲學模型210。詳言之,處理單元110可自語音資料庫21接收多個語音信號,以及接收與語音信號中發音相符合的多個音標,其中對應於各音標的發音具有多個音素。並且,處理單元110會依據語音信號與音標進行訓練,而獲得聲學模型210中與音標相對應的多個音素的資料。更具體而言,處理單元110可從語音資料庫21中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號,解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後,再利用這些特徵參數與已標註對應音標的語音信號進行訓練,而獲得語音信號的特徵參數與音標相符合的關係,進而建立聲學模型210。
音節聲學詞典220具有多個詞彙,以及各音標與各詞彙匹配的模糊音概率。在此,處理單元110可透過音節聲學詞典220而查詢出與各音標相符的多個詞彙,以及每一個詞彙與其相匹配的音標之間的模糊音概率。在本實施例中,處理單元110會基於 不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得音節聲學詞典。詳言之,處理單元110可根據語音信號的音標與語音信號分別對應的詞彙進行訓練,而獲得各音標與各詞彙匹配的模糊音概率。值得一提的是,處理單元110亦會對語音信號中的每一音標標註對應的編碼。也就是說,對於每一具有發音相異而字形相同的詞彙(即多音字)而言,此詞彙對應於每一種發音具有不同的音標,並且,此詞彙具有至少一編碼,而每一編碼對應於這些相異音標的其中之一。如此一來,本實施例之音節聲學詞典220可包括來自不同發音的語音輸入的音標所對應的詞彙,以及各音標所對應的編碼。
語言模型230是基於歷史資訊的模型(History-based Model)的設計理念,即,根據經驗法則,統計先前已出現的一連串事件與下一個出現的事件之間的關係。在此,語言模型230用以依據不同詞彙的編碼,以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的多個語料,經由訓練而獲得語言模型230,其中所述語料具有多個發音的語音輸入以及此語音輸入對應的字串。在此,處理單元110會自語料庫22獲得字串,並且將字串與字串的詞彙所分別對應的編碼進行訓練,而獲得編碼與各字串匹配的資料。
解碼器240是語音辨識模組200的核心之一,其任務是對輸入的語音信號,根據聲學模型210、音節聲學詞典220以及語 言模型230,尋找能夠以最大概率輸出的字串。舉例來說,利用聲學模型210獲得對應的音素(phone)或音節(syllable),再由音節聲學詞典220來獲得對應的字或詞,之後由語言模型230來判斷一連串的字成為句子的概率。
以下即搭配上述電子裝置100與語音辨識模組200來說明本發明的語音辨識方法。圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖2與圖3,本實施例中的語音辨識方法,適於透過電子裝置100來對語音信號進行語音辨識。其中,處理單元110能針對不同的語言、方言或發音習慣,利用聲學模型210、音節聲學詞典220、語言模型230以及解碼器240以自動地辨識出語音信號所對應的語言。
於步驟S310中,輸入單元130接收語音信號S1,其中語音信號S1例如是來自使用者的語音輸入。更具體而言,語音信號S1例如為單音節語言的語音輸入,而單音節語言例如為中文。
於步驟S320中,處理單元110會根據聲學模型210獲得語音信號S1的多個音標,其中音標包括多個音素。在此,對於單音節語言來說,語音信號S1中的各音節具有多個音素,而音節會對應於的一個音標。舉例來說,以「前進」這兩單詞而言,它的音節為「前」與「進」,以及具有「ㄑ」、「一ㄢ」、「ˊ」、「ㄐ」、「一ㄣ」及「ˋ」這些音素。其中,「ㄑ」、「一ㄢ」及「ˊ」可對應於音標「qián」,而「ㄐ」、「一ㄣ」及「ˋ」可對應於音標「jìn」。
在本實施例中,處理單元110可根據預先設定,從聲學 模型210中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。在此,處理單元110可利用聲學模型210,並選擇訓練資料中的語音信號以及這些語音信號所對應的基本音標,來查詢出符合語音信號S1的多個音標。
詳言之,上述預先設定指的是電子裝置100被設定為依據哪一種發音來進行語音辨識。舉例來說,假設電子裝置100被設定為依據北方人的發音習慣來進行語音辨識,則處理單元110會在聲學模型210中,選擇由北方人的發音習慣所訓練而成的訓練資料。類似地,假設電子裝置100被設定為進行閩南語的語音辨識,則處理單元110會在聲學模型210中選擇由閩南語所訓練而成的訓練資料。上述所列舉的預先設定為舉例說明,於其他實施例中,電子裝置100亦可被設定為依據其他語言、方言或發音習慣來進行語音辨識。
進一步而言,處理單元110會根據所選擇的聲學模型210以及語音信號S1中的音素,計算語音信號S1中的音素與每一個基本音標相符的音標匹配概率。爾後,處理單元110會從所計算出的這些音標匹配概率中,選擇音標匹配概率中最大者所對應的各基本音標,以做為語音信號S1的音標。更具體來說,處理單元110可將所接收到語音信號S1切割為多個音框,而這些音框中的兩相鄰因框之間可以有一段重疊區域。之後,再從每個音框中取出特徵參數而獲得一特徵向量。例如,可利用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients,MFCC)自音框中取出36 個特徵參數,而獲得一個36維的特徵向量。在此,處理單元110可將語音信號S1的特徵參數與聲學模型210所具有的音素的資料進行匹配,以計算出語音信號S1中的各音素與相符的各基本音標之間的音標匹配概率。如此一來,處理單元110可在這些音標匹配概選擇最大者所對應的各基本音標,以做為語音信號S1的音標。
於步驟S330中,處理單元110會根據各音標以及音節聲學詞典220,獲得符合音標的多個詞彙。其中,音節聲學詞典220具有音標對應的詞彙,而各詞彙具有至少一編碼,且對應於具有相異音標而字型相同的詞彙(即多音字)而言,此詞彙的各編碼分別對應於詞彙的其中之一音標。
在此,處理單元110亦可根據預先設定,從音節聲學詞典220中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。並且,處理單元110會依據自音節聲學詞典220中所選擇的訓練資料與語音信號S1的各音標,而獲得音標與各詞彙匹配的模糊音概率。需說明的是,由於多音字可因不同語言、方言或發音習慣而具有不同的音標,因此在音節聲學詞典220中,每一種音標所對應於的詞彙皆會具有模糊音概率,其中模糊音概率會因不同語言、方言或發音習慣而改變。換言之,經由不同語言、方言或發音習慣所訓練的訓練資料,音節聲學詞典220中的各種音標與對應的詞彙會具有不同的模糊音概率。
舉例來說,當預先設定為選擇音節聲學詞典220中,以 北方人的發音訓練而成的訓練資料時,則對於音標為「fú」而言,其對應的詞彙有較大的模糊音概率為「福」、「符」、「芙」等字,而「fú」對應的詞彙則有較低的模糊音概率為「胡」、「湖」、「壺」等字。又例如,當預先設定為選擇音節聲學詞典220中,以大多數人習慣的發音訓練而成的訓練資料時,則對於音標為「hè」而言,其對應的詞彙有較大的模糊音概率為「賀」、「賀」以及「貉」等字。值得一提的是,由於大多數人習慣將「一丘之『貉』」中的『貉(ㄏㄜˋ)』這個詞彙的發音唸成「ㄏㄜˋ」,因此,在「hè」對應至「貉」的模糊音概率仍會較高。如此一來,藉由選擇模糊音概率中最大者所對應的詞彙,處理單元110可依據特定的語言、方言或發音習慣,獲得語音信號S1中的各音標相匹配的詞彙。
另一方面,由於具有不同發音的多音字,其依據不同的發音會有不同的涵義,因此在本實施例中,對應於具有相異音標而字型相同的多音字而言,處理單元110可取得每一詞彙的編碼,藉以區別每一詞彙的不同發音。以多音字「長」這個詞彙為例,其漢語發音的音標可例如為「cháng」、「zh ng」,而對於不同方言或發音習慣來說,「長」的音標亦可例如是「cêng」、「zêng」(粵音)。因此,對於上述「長」的音標,則音節聲學詞典會將這些音標對應至四種編碼,例如「c502」、「c504」、「c506」以及「c508」。此處所指的編碼僅為舉例說明,其編碼亦可以其他形式(如數值、字母或符號其中之一或其組合)來呈現。換言之,本實施例之音節聲學詞典220可將多音字視為不同的詞彙,藉以使得多音字在 語言模型230中可對應到具有不同涵義的字串。如此一來,當處理單元110利用音節聲學詞典220以獲得具有不同音標的多音字時,由於此多音字所具有的不同音標會對應到不同的編碼,因此處理單元110可區別出此多音字的不同發音,藉以保留此多音字於不同發音時的歧異性。
於步驟S340中,處理單元110會依據各詞彙的編碼,自語言模型230中獲得多個字串及多個字串概率。詳細而言,語言模型230用以依據不同詞彙的編碼,以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。因此,處理單元110可依據自音節聲學詞典220所獲得的詞彙的編碼,透過語言模型230來計算此編碼符合各字串的字串概率。其中,倘若處理單元110計算出的字串概率較低,則表示此編碼所對應的音標用於這個字串的機率甚低。反之,倘若處理單元110計算出的字串概率較高,則表示此編碼所對應的音標有很大的機率是對應於這個字串。
同樣以多音字「長」這個詞彙為例,其音標(例如「cháng」、「zhng」、「cêng」及「zêng」等)所對應的編碼可例如為「c502」、「c504」、「c506」以及「c508」等。在此,假設南京的市長的名字為江大橋,若音標為「zhng」所對應的編碼「c504」於「…南京市『長(ㄓㄤˇ)』江大橋…」這個字串中的字串概率很高,則處理單元110會判斷音標為「zhng」的「長」這個詞彙,在「南京市『長』江大橋」中出現的概率很大,且「長」前面所接的詞彙為「市」的概率亦高。並且,此時處理單元110會判斷 出音標「zhng」所對應的編碼「c504」於「南京是『長(ㄔㄤˊ)』江大橋的…」這個字串中的字串概率較低。
從另一觀點看,若音標為「cháng」所對應的編碼「c502」於「南京是『長(ㄔㄤˊ)』江大橋的…」這個字串中的字串概率較高時,則處理單元110會判斷音標為「cháng」的「長」這個詞彙,在「南京是『長』江大橋的…」中出現的概率很大,且「長」前面所接的詞彙為「是」的概率亦高。此時,處理單元110便會判斷音標「cháng」所對應的編碼「c502」於「南京市『長(ㄓㄤˇ)』江大橋」這個字串中的字串概率會較低。
再舉一例,對於「長」這個詞彙而言,其音標可為「cháng」或「zhng」等。雖然一般來說,當「長」這個詞彙前面接「市」這個詞彙時,「長」通常是以音標「zhng」來發音,但也有可能是以音標「cháng」來發音。例如,「南京市長江大橋」可以指的是「『南京市』-『長(ㄔㄤˊ)江大橋』」,亦可指的是「『南京』-『市長(ㄓㄤˇ)』-『江大橋』」。因此,處理單元110會依據音標「cháng」所對應的編碼「c502」,以及音標「zhng」所對應的編碼「c504」,根據語言模型230來計算編碼「c502」與「c504」在「南京市長江大橋」這個字串中的字串概率。
舉例來說,倘若對應於音標「cháng」的編碼「c502」在「南京市長江大橋」這個字串中的字串概率較高,則表示音標為「cháng」的「長」這個詞彙在「『南京市』-『長(ㄔㄤˊ)江大橋』」的概率亦較高。或者,倘若對應於音標「zhng」的編碼「c504」 在「南京市長江大橋」這個字串中的字串概率較高,則表示音標為「zhng」的「長」這個詞彙在「『南京』-『市長(ㄓㄤˇ)』-『江大橋』」的概率亦會較高。
接後,於步驟S350中,處理單元110會選擇字串概率中最大者所對應的字串,以做為語音信號S1的辨識結果S2。舉例來說,處理單元110例如是計算每一來自音節聲學詞典220的模糊音概率與來自語言模型230的字串概率之乘積為聯合概率,以選擇模糊音概率與字串概率的聯合概率中最大者所對應的字串,來做為語音信號S1的辨識結果S2。也就是說,處理單元110不限於從音節聲學詞典220中選擇與音標最相符的詞彙,而是處理單元110可依據從音節聲學詞典220所獲得之與音標相符合的多個詞彙以及其編碼,並在語言模型230中選擇字串概率最大者來做為辨識結果S2。當然,本實施例之處理單元110亦可分別在音節聲學詞典220中選擇模糊音概率中最大者所對應的詞彙,以做為語音信號的各音標所匹配的詞彙,並且根據所述匹配的詞彙的編碼來計算各編碼於語言模型230中所獲得的字串概率,來計算模糊音概率與字串概率之乘積為聯合概率,藉以從聯合概率中選出最大者所對應的字串。
具體而言,同樣以多音字「長」這個詞彙以及「南京市長江大橋」這個詞彙為例,其中「長」的音標例如為「cháng」、「zhng」、「cêng」及「zêng」等,且其音標所分別對應的編碼例如為「c502」、「c504」、「c506」以及「c508」等。在此,當音標「cháng」 經音節聲學詞典220所獲得的詞彙為「長」的模糊音概率較高時,處理單元110會依據「長」以及音標「cháng」所對應的編碼「c502」,在語言模型230中選擇字串概率最高者所對應的字串為辨識結果。舉例來說,倘若「長」的編碼「c502」在「南京是『長(ㄔㄤˊ)』江大橋的…」中出現的字串概率為最大時,則處理單元110可獲得「南京是『長』江大橋的…」這個字串為辨識結果。然而,倘若「長」的編碼「c502」在「『南京市』-『長(ㄔㄤˊ)江大橋』」中出現的字串概率為最大時,則處理單元110可獲得「『南京市』-『長(ㄔㄤˊ)江大橋』」這個字串為辨識結果。或者,當音標「zhng」經音節聲學詞典220所獲得的詞彙為「長」的模糊音概率較高時,處理單元110會依據「長」以及音標「zhng」所對應的編碼「c504」,在語言模型230中選擇字串概率最高者所對應的字串為辨識結果。舉例來說,倘若「長」的編碼「c504」在是「『南京』-『市長』-『江大橋』」中出現的字串概率為最大時,則處理單元110可獲得是「『南京』-『市長』-『江大橋』」個字串為辨識結果。如此一來,電子裝置100不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率。並且根據此詞彙的編碼,電子裝置100可獲得此詞彙套用在不同字串中的字串概率,藉以更能準確地辨識出與語音信號S1相符的字串,而提高語音辨識的準確率。
綜上所述,在本實施例之聲學模型的建立方法、語音辨 識方法及電子裝置中,電子裝置會基於不同語言、方言或不同發音習慣的語音信號,經由訓練來建立聲學模型、音節聲學詞典以及語言模型。並且,對於具有一個發音以上的多音字,電子裝置會依據多音字的各音標,分別賦予不同的編碼,藉以在語言模型中保留多音字的歧異性。因此,當電子裝置進行語音信號的語音辨識時,可根據聲學模型中所獲得的多個音標,在音節聲學詞典中獲得符合真實發音的詞彙。特別是,由於在音節聲學詞典中,具有一個或多個音標的詞彙具有對應於各音標的各編碼,因此電子裝置能依據每一個編碼,自語言模型中獲得相符合的字串及其字串概率。藉此,電子裝置即可選擇出字串概率最大者所對應的字串,以做為語音信號的辨識結果。
如此一來,本發明可依據來自不同語言、方言或發音習慣的語音輸入,在聲學模型、音節聲學詞典和語言模型中進行解碼,且解碼結果不僅可依序到音標和音標所對應的詞彙輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率,以及此詞彙套用在不同字串中的字串概率,據以選出概率最大的輸出,作為語音信號的辨識結果。相比於傳統方法,本發明不僅可以準確地進行聲音至文字的轉換,同時還可知道語言、方言或發音習慣的類型。這對後續的機器語音對話會有幫助,例如對粵語發音的輸入直接用粵語回答。另外,本發明還可將區別多音字的各發音的涵義,使得語音信號的辨識結果更可符合語音信號對應的意思。
值得一提的是,為了避免在發音與文字的映射過程中,丟失了很多語音信息,例如隨音調而異的語義表達,在本發明的語音辨識方法中所得到的解碼結果,還可依序得到音標序列和音標序列所對應的音節序列輸出,同時也能得到這個音標序列在不同語言、方言或發音習慣的情況下與音節序列匹配的概率,以及此音節序列套用在不同文字序列中的概率,據以選出概率最大的輸出作為語音信號的辨識結果。如此一來,在原有語音識別的基礎上,本發明更可提高語音辨識的準確率。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例。
本實施例仍搭配圖1的電子裝置的方塊圖來進行說明。本實施例亦可以程式碼來實現電子裝置100的語音辨識方法。具體而言,儲存單元120中可儲存有多個程式碼片段,而上述程式碼片段在被安裝後,處理單元110會透過這些程式碼片段來執行多個指令,藉以實現本實施例的語音辨識方法。更進一步地說,處理單元110會藉由執行程式碼片段中的多個指令,來建立語音辨識模組,其中包括聲學模型、音節聲學詞典以及語言模型。並且,處理單元110可透過上述程式碼片段來驅動語音辨識模組,以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例之語音辨識方法。據此,本實施例的處理單元110會將輸入單元130所接收的語音信號透過上述語音辨識模組來進行語音辨識,以利用聲學模型、音節聲學詞典以及語言模型而獲得多個音節序列概率及多個音節序列。並且,處理單元110會選出拼音序列概率中 最大者所對應的音節序列或文字序列,以做為語音信號的辨識結果。
當然,本實施例亦可包括輸出單元140,用以輸出語音信號的辨識結果,例如透過輸出單元140顯示所獲得的拼音序列概率中最大者所對應的拼音序列或此拼音序列所對應的字串。或者,輸出單元140亦可以是揚聲器,以透過語音方式來播放所述拼音序列。此外,關於本實施例語音辨識方法所適用的電子裝置100的詳細說明,可參考前述實施例,在此不再重複贅述。
底下再舉一實施例來說明本實施例的語音辨識方法,其中仍搭配圖1的電子裝置100。
圖4是依照本發明一實施例的語音辨識模組的示意圖。請參照圖1與圖4,語音辨識模組400主要包括聲學模型410、音節聲學詞典420、語言模型430以及解碼器440。聲學模型410與音節聲學詞典是由語音資料庫41經訓練而獲得,語言模型430是由語料庫(text corpus)42經訓練而獲得。其中,語音資料庫41以及語料庫42具有多個語音信號,而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入,且語料庫42更具有這些語音信號所對應的拼音。在本實施例中,處理單元110可針對不同的語言、方言或發音習慣進行語音辨識的訓練,而分別建立聲學模型410、音節聲學詞典420、語言模型430,並將這些模型與詞典存放於儲存單元120,以用於本實施例的語音辨識方法中。
詳細而言,聲學模型410用以辨識來自不同語言、方言 或發音習慣的語音信號,以識別出與語音信號的發音相符合的多個音標。進一步地說,聲學模型410例如是一個統計分類器,其可利用混合高斯模型,以將所接收到的語音信號,解析成基本的音素(Phone),並將各音素分類至對應的基本音標。其中,聲學模型410可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得聲學模型410。詳言之,處理單元110可自語音資料庫41接收多個語音信號,以及接收與語音信號中發音相符合的多個音標,其中對應於各音標的發音具有多個音素。並且,處理單元110會依據語音信號與音標進行訓練,而獲得聲學模型410中與音標相對應的多個音素的資料。更具體而言,處理單元110可從語音資料庫41中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號,解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後,再利用這些特徵參數與已標註對應音標的語音信號進行訓練,而獲得語音信號的特徵參數與音標相符合的關係,進而建立聲學模型410。
處理單元110可透過音節聲學詞典420,以將聲學模型410所輸出的多個音標映射成對應的音節。其中,音節聲學詞典420具有多個音標序列以及各音標序列所映射的音節。需說明的是,每一個音節都有一個音調,其中音調例如是指陰、陽、上、去及輕聲等,而對於方言來說,音標亦可包括其它音調。為了保 留使用者所發出的發音及音調,處理單元110會根據聲學模型410所輸出的多個音標,將這些音標映射成對應的帶音調的音節。
具體來說,處理單元110可透過音節聲學詞典420,而將多個音標轉換成音節。進一步而言,根據聲學模型210所輸出的音標,處理單元110會自音節聲學詞典420輸出帶音調的音節,計算出與聲學模型410所輸出的音標匹配的多個音節序列概率,再從這些音節序列概率中選取最大者所對應的音節序列,來做為這些音標對應的拼音。舉例來說,假設聲學模型410所輸出的音標為「b」)以及「a」,則處理單元110可透過音節聲學詞典420而獲得拼音及其音調為ba(上聲)。
語言模型430用以依據不同詞彙的拼音以及此拼音對應的音調資訊,來辨識出與此拼音相符合的拼音序列,並獲得此拼音與此拼音序列相符合的拼音序列概率,其中拼音序列例如表示相關詞彙的拼音。詳細而言,語言模型430是基於歷史資訊的模型(History-based Model)的設計理念,即,根據經驗法則,統計先前已出現的一連串事件與下一個出現的事件之間的關係。例如,語言模型430可利用機率統計的方法來揭示語言單位內在的統計規律,其中N元語法(N-Gram)簡單有效而被廣泛使用。在本實施例中,處理單元110會基於不同語言、方言或不同發音習慣的多個語料,經由訓練而獲得語言模型430,其中所述語料具有多個發音的語音輸入以及此語音輸入對應的拼音序列。在此,處理單元110會自語料庫42獲得拼音序列,並且將拼音序列與其對 應的音調進行訓練,而獲得不同音調的拼音與各拼音序列匹配的資料,例如各拼音與音調資訊匹配於各拼音序列的拼音序列概率。
解碼器440是語音辨識模組400的核心之一,其任務是對輸入的語音信號,根據聲學模型410、音節聲學詞典420以及語言模型430,尋找能夠以最大概率輸出的拼音序列。舉例來說,利用聲學模型410獲得對應的音標(phonetic transcription),再由音節聲學詞典420來獲得對應的拼音(phonetic spelling),之後由語言模型430來判斷出一連串的拼音序列成為語音信號所欲表達之語義的概率。
以下即搭配上述圖1的電子裝置100與上述語音辨識模組400來說明本發明的語音辨識方法。圖5是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖4與圖5,本實施例中的語音辨識方法,適於透過電子裝置100來對語音信號進行語音辨識。其中,處理單元110能針對不同的語言、方言或發音習慣,利用聲學模型410、音節聲學詞典420、語言模型430以及解碼器440以自動地辨識出語音信號所對應的語義。
於步驟S510中,輸入單元130接收語音信號S1,其中語音信號S1例如是來自使用者的語音輸入。更具體而言,語音信號S1例如為單音節語言的語音輸入,而單音節語言例如為中文。
於步驟S520中,處理單元110會根據聲學模型410獲得語音信號S1的多個音標,其中音標包括多個音素。在此,對於單音節語言來說,語音信號S1中具有多個音素,而用來表示這些音 素之發音的符號為所謂的音標,亦即每個音標代表一個音素。舉例來說,對於「福」這個字而言,其依據不同語言或方言會具有不同的發音。例如,以國語來說,「福」的音標例如是「fú」,而以潮汕話來說,「福」的音標例如是「hog4」。又例如,對於「人」這個字而言,以國語來說,「人」的音標例如是「rén」。以粵語來說,「人」的音標例如是「jan4」。以閩南語來說,「人」的音標例如是「lang2」。以廣的來說,「人」的音標例如是「nin」。換言之,處理單元110從聲學模型410所獲得各音標,是直接映射到語音信號S1的發音。
為了提高語音信號S1的發音映射至音標時的準確度,本實施例的處理單元110可根據預先設定,從聲學模型410中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。藉此,處理單元110可利用聲學模型410,並選擇訓練資料中的語音信號以及這些語音信號所對應的基本音標,來查詢出符合語音信號S1的多個音標。
詳言之,上述預先設定指的是電子裝置100被設定為依據哪一種發音來進行語音辨識。舉例來說,假設電子裝置100被設定為依據北方人的發音習慣來進行語音辨識,則處理單元110會在聲學模型410中,選擇由北方人的發音習慣所訓練而成的訓練資料。類似地,假設電子裝置100被設定為進行閩南語的語音辨識,則處理單元110會在聲學模型410中選擇由閩南語所訓練而成的訓練資料。上述所列舉的預先設定為舉例說明,於其他實 施例中,電子裝置100亦可被設定為依據其他語言、方言或發音習慣來進行語音辨識。
進一步而言,處理單元110會根據所選擇的聲學模型210以及語音信號S1中的音素,計算語音信號S1中的音素與每一個基本音標相符的音標匹配概率。爾後,處理單元110會從所計算出的這些音標匹配概率中,選擇音標匹配概率中最大者所對應的各基本音標,以做為語音信號S1的音標。更具體來說,處理單元110可將所接收到語音信號S1切割為多個音框,而這些音框中的兩相鄰因框之間可以有一段重疊區域。之後,再從每個音框中取出特徵參數而獲得一特徵向量。例如,可利用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients,MFCC)自音框中取出36個特徵參數,而獲得一個36維的特徵向量。在此,處理單元110可將語音信號S1的特徵參數與聲學模型410所具有的音素的資料進行匹配,以計算出語音信號S1中的各音素與相符的各基本音標之間的音標匹配概率。如此一來,處理單元110可在這些音標匹配概選擇最大者所對應的各基本音標,以做為語音信號S1的音標。
於步驟S530中,處理單元110會根據各音標以及音節聲學詞典420,獲得符合音標的多個拼音以及這些拼音所分別對應的音調資訊。其中,音節聲學詞典420具有符合各音標的多個拼音,以及發音為此音標時,針對不同語義所伴隨之可能的音調。在本實施例中,處理單元110也可根據預先設定,從音節聲學詞典420中選擇訓練資料,而此訓練資料來自於不同語言、方言或不同發 音習慣的訓練結果其中之一。並且,處理單元110會依據自音節聲學詞典420中所選擇的訓練資料與語音信號S1的各音標,而獲得音標與各拼音匹配的拼音匹配概率。需說明的是,由於每一個詞彙可因不同語言、方言或發音習慣而具有不同的音標,且每一個詞彙也可依據不同的語義而具有不同音調的發音,因此在音節聲學詞典420中,每一種音標所對應於的拼音皆會具有拼音匹配概率,其中拼音匹配概率會因不同語言、方言或發音習慣而改變。換言之,經由不同語言、方言或發音習慣所訓練的訓練資料,音節聲學詞典420中的各種音標與對應的拼音會具有不同的拼音匹配概率。
舉例來說,當預先設定為選擇音節聲學詞典420中,以北方人的發音訓練而成的訓練資料時,則對於發音為「fú」這個音標而言,其對應的拼音有較大的拼音匹配概率為「Fú」,而有較低的拼音匹配概率為「Hú」。具體來說,當北方人說「福」這個詞彙的時候,處理單元110可自聲學模型410獲得「fú」這個音標,並從音節聲學詞典420中,獲得「Fú」為具有較大拼音匹配概率的拼音,而獲得「Hú」為具有較小拼音匹配概率的拼音。在此,「fú」這個音標所對應的拼音,會因不同地區的方音習慣而有不同的拼音匹配概率。
在另一例中,當預先設定為選擇音節聲學詞典420中,以大多數人之發音習慣所訓練而成的訓練資料時,則對於發音為「yíng」這個音標而言,其對應的拼音有較大的拼音匹配概率為 「Yíng」,而有較低的拼音匹配概率為「Xing」。具體來說,通常用戶說「『影』響」這個詞彙的時候,處理單元110可自聲學模型410獲得「yíng」這個音標,並從音節聲學詞典420中,獲得「Xing」以及「Yíng」這些拼音所分別對應的拼音匹配概率。在此,「yíng」這個音標所對應的拼音,會隨者不同的語義而有不同的拼音匹配概率。
值得一提的是,由於相同文字所組成的語音輸入,可根據不同語義或意圖而具有不同音調的語音信號,因此處理單元110可根據音節聲學詞典420中的拼音與音調資訊,而獲得與音調相符的拼音,藉以對不同語義的拼音進行區分。舉例來說,對於「今天很好」這句話所對應的語音輸入來說,其表達的語義可以是疑問句,或者是肯定句。亦即,「今天很好?」中的「好」所對應的音調較高,而「今天很好。」中的「好」所對應的音調會較低。因此,對於發音為「ho」這個音標而言,處理單元110可從音節聲學詞典420中,獲得「háo」以及「ho」這些拼音所分別對應的拼音匹配概率。
換言之,處理單元110可根據音節聲學詞典420中的音調,而識別出具有相同拼音而不同音調的語音輸入,使得這些具有不同音調的拼音在語言模型430中可對應到具有不同含意的拼音序列。如此一來,當處理單元110利用音節聲學詞典420以獲得拼音時,同時可獲得發此拼音時的音調資訊,因此處理單元110可辨識具有不同語義的語音輸入。
於步驟S540中,處理單元110會依據各拼音與音調資訊,自語言模型430中獲得多個拼音序列及多個拼音序列概率。在此,由於不同的音調資訊在語言模型430可被區分為不同的語義,而這些語義會對應於不同的拼音序列,因此處理單元110可依據自音節聲學詞典420所獲得的拼音以及音調資訊,透過語言模型430來計算此拼音以及音調資訊符合各拼音序列的拼音序列概率,進而找出符合此音調資訊的拼音序列。
更具體而言,本實施例的語言模型430中更具有多個關鍵字所對應的拼音序列,其中關鍵字例如是地名、人名等名詞或其他固定用語或慣用語等等。例如,語言模型430具有對應於「長江大橋」這個關鍵字的拼音序列「Cháng-Jing-Dà-Qiáo」。因此,當處理單元110依據自音節聲學詞典420所獲得的拼音以及音調資訊與語言模型430中的拼音序列進行匹配時,可比較這個拼音是否符合語言模型430中的各關鍵字所對應的拼音序列,而若是這個拼音較符合關鍵字所對應的拼音序列,則處理單元110可獲得較高的拼音序列概率。如此一來,倘若處理單元110計算出的拼音序列概率較低,則表示此拼音所對應的音調資訊用於這個拼音序列的機率甚低。反之,倘若處理單元110計算出的拼音序列概率較高,則表示此拼音所對應的音調資訊有很大的機率是對應於這個拼音序列。
接後,於步驟S550中,處理單元110會選擇拼音序列概率中最大者所對應的拼音序列,以做為語音信號S1的辨識結果 S2。舉例來說,處理單元110例如是計算每一來自音節聲學詞典420的拼音匹配概率與來自語言模型430的拼音序列概率之乘積為聯合概率,再從拼音匹配概率與拼音序列概率的聯合概率中選擇最大者所對應的拼音序列,來做為語音信號S1的辨識結果S2。也就是說,處理單元110不限於從音節聲學詞典420中選擇與音標最相符的拼音以及音調資訊,而是處理單元110可依據從音節聲學詞典420所獲得之與音標相符合的多個拼音以及音調資訊,並在語言模型430中選擇拼音序列概率最大者的拼音序列來做為辨識結果S2。當然,本實施例之處理單元110亦可分別在音節聲學詞典420中選擇拼音匹配概率中最大者所對應的拼音以及音調資訊,以做為語音信號的各音標所匹配的拼音,並且根據所述匹配的拼音的來計算各拼音於語言模型430中所獲得的拼音序列概率,再來計算拼音匹配概率與拼音序列概率之乘積為聯合概率,藉以從聯合概率中選出最大者所對應的拼音。
值得一提的是,處理單元110自上述所獲得的拼音序列,還可透過語義識別模組(未繪示)以將拼音序列轉換成對應的文字序列,其中語義識別模組可根據以拼音為基礎的識別資料庫(未繪示),查詢拼音序列對應的文字。具體來說,識別資料庫具有拼音序列與文字序列對應的資料,因此處理單元110透過語義識別模組以及識別資料庫,可進一步將拼音序列轉換成文字序列,再透過輸出單元140顯示予用戶。
底下再舉一實施例來說明本實施例的語音辨識方法,其 中假設來自用戶的語音輸入S1為對應於「南京市長江大橋」這個問句。在此,輸入單元130接收語音信號S1,而處理單元110會根據聲學模型410獲得語音信號S1的多個音標,即「『nán』『jng』『shì』『cháng』『jing』『dà』『qiáo』」。接著,處理單元110會根據這些音標以及音節聲學詞典420,獲得符合音標的多個拼音以及這些拼音所分別對應的音調資訊,而這些拼音以及對應的音調資訊分別有部分的拼音匹配概率為「『Nán』『Jng』『Shì』『Cháng』『Jing』『Dà』『Qiáo』」,或者有部分的拼音匹配概率為「『Nán』『Jng』『Shì』『Zhng』『Jing』『Dà』『Qiáo』」。在此,假設「『nán』『jng』『shì』『cháng』『jing』『dà』『qiáo』」這些音標對應到「『Nán』『Jng』『Shì』『Cháng』『Jing』『Dà』『Qiáo』」這些拼音時,分別具有較高的拼音匹配概率。
之後,處理單元110會依據「Nán」、「Jng」、「Shì」、「Cháng」、「Jing」、「Dà」、「Qiáo」這些拼音以及「Nán」、「Jng」、「Shì」、「Zhng」、「Jing」、「Dà」、「Qiáo」這些拼音,分別自語言模型230中獲得多個拼音序列及多個拼音序列概率。此時,假設「Cháng」、「Jing」、「Dà」、「Qiáo」可在語言模型430中匹配到「長江大橋」這個關鍵字的拼音序列「Cháng-Jing-Dà-Qiáo」,因而「Nán-Jng-Shì-Cháng-Jing-Dà-Qiáo」會有較大的拼音序列概率。如此一來,處理單元110即會以「Nán-Jng-Shì-Cháng-Jing-Dà-Qiáo」做為輸出的拼音序列。
綜上所述,在本實施例的語音辨識方法及電子裝置中, 電子裝置會基於不同語言、方言或不同發音習慣的語音信號,經由訓練來建立聲學模型、音節聲學詞典以及語言模型。因此,當電子裝置進行語音信號的語音辨識時,可根據聲學模型獲得符合真實發音的多個音標,以及在音節聲學詞典中獲得符合音標的拼音。特別是,由於音節聲學詞典具有各拼音用於不同語義時的音調資訊,因此電子裝置能依據音調資訊,自語言模型中獲得與拼音相符合的拼音序列及其拼音序列概率。藉此,電子裝置即可選擇出拼音序列概率最大者所對應的拼音序列,以做為語音信號的辨識結果。
如此一來,本發明可依據來自不同語言、方言或發音習慣的語音輸入,在聲學模型、音節聲學詞典和語言模型中進行解碼。並且,解碼結果不僅可依據音標所對應的拼音輸出,同時也能得到這個音標在不同語言、方言或發音習慣的情況下與拼音匹配的拼音匹配概率,以及各拼音套用在不同拼音序列中的拼音序列概率。最後,本發明會選出上述概率最大的輸出,作為語音信號的辨識結果。相比於傳統方法,本發明可獲得語音輸入的真實發音所對應的拼音序列,因此可保留原始語音輸入的信息,例如保留多音字在不同發音時的信息。此外,本發明還可依據語言、方言或發音習慣的類型,來將語音輸入的真實發音轉換成對應的拼音序列。這對後續的機器語音對話會有幫助,例如對粵語(或其他方言/語言)發音的輸入直接用粵語(或其他方言/語言)回答。另外,本發明還可依據真實發音中的音調資訊,區別各拼音的涵 義,使得語音信號的辨識結果更可符合語音信號對應的意思。如此一來,本發明的語音辨識方法及電子裝置,可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言以及語義,使得語音辨識更加精準。
值得一提的是,上述處理單元110在透過語言模型430而獲得拼音序列及拼音序列概率的過程中,是獲得某個拼音映射到某個詞彙的拼音序列的概率,在此定義為正向概率。本實施例的語音辨識方法,還可透過反向概率來達到更高的語音辨識準確率,進一步地判斷出相同的發音所分別對應的不同文字。也就是說,處理單元110會透過語言模型430進一步處理拼音到所對應的文字的映射。其中,處理單元110會查詢各個備選句子中的每一個單詞與所述單詞可能的發音之間相匹配的概率,以獲得匹配於上述拼音所對應的多個文字,以及此拼音匹配各文字的概率,最後再從這些概率中選取最大者來做為語音辨識結果,即語音訊號所對應的文字序列。如此一來,對於同音字或不同習慣性的變音(如方言口音導致的發音),本實施例的語音辨識方法可直接依據這些發音,更準確地獲得對應於這些發音的文字,大大地提高識別的準確率。為了使本發明之內容更為明瞭,以下特舉實施例作為本發明確實能夠據以實施的範例,其中仍搭配上述圖1的電子裝置100與上述語音辨識模組400來說明本發明的語音辨識方法。
本實施例與前述實施例相似,其不同之處在於:本實施例的處理單元110會將輸入單元130所接收的語音信號S1,透過 聲學模型410、音節聲學詞典420以及語言模型430而獲得多個文字序列概率及多個文字序列。並且,處理單元110會選出文字序列概率中最大者所對應的文字序列,以做為語音信號的辨識結果S2。
圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖4與圖6,於步驟S610中,輸入單元130接收語音信號S1,其中語音信號S1例如是來自使用者的語音輸入。於步驟S620中,處理單元110會根據聲學模型410獲得語音信號S1的多個音標,其中這些音標包括多個音素。於步驟S630中,處理單元110會依據各音標以及音節聲學詞典420,獲得符合音標的多個拼音。上述步驟S610至步驟S630與步驟S510至步驟S530相似,故可參考前述相關段落的說明。
於步驟S640中,處理單元110會依據各拼音,自語言模型430中獲得多個文字序列及多個文字序列概率。在此,處理單元110會將各拼音與備選句子列表進行匹配,其中備選句子列表記錄有多個備選句子,且記錄有備選句子中的各單詞所符合的拼音以及各單詞與各拼音之間的單詞拼音概率。因此,處理單元110可透過備選句子列表而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率。並且,處理單元110會計算這些拼音所對應的這些單詞拼音概率,而獲得所述文字序列概率,其中對應於文字序列概率的這個備選句子為所述文字序列。
詳言之,處理單元110可預先產生上述的備選句子列表, 以建立語言模型430。其中,處理單元110會接收多個備選句子,並且根據語料庫42,獲得與各備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率,藉以獲得備選句子所對應的備選句子列表。具體而言,處理單元110可透過輸入單元130以接收多個語音信號,並且基於不同語言、方言或不同發音習慣的語音信號,經由訓練而獲得語料庫42。在此,處理單元110會根據這些用來訓練的語音信號中所對應的多個單詞,接收與各單詞發音相符合的拼音,據以依據各單詞與這些拼音來進行訓練,而獲得語料庫42中各單詞對應於各拼音的單詞拼音概率。
舉例來說,處理單元110會輸入單元130接收來自不同語言、方言或不同發音習慣所發出的「你好」這個語音信號。由於不同語言、方言或不同發音習慣的發音不盡相同,因此「你好」這個語音信號所對應的發音,其拼音可以是「n-ho」(對應於北方人的發音)、「ni-hu」或「nhij-ho」(對應於南方人的發音)等或其他不同的拼音。此時,處理單元110會依據「你好」這個語音信號與其所對應的「n-ho」、「ni-hu」或「nhij-ho」等這些拼音來進行訓練,以分別計算出「你」與「好」所對應的可能拼音有哪些,以及對應的概率(即單詞拼音概率)是多少。例如,對於北方人的發音而言,「你」這個語音信號對應到「n」、「ni」與「nhij」的單詞拼音概率依序是90%、8%以及2%,而「好」這個語音信號對應到「ho」、hu」與「ho」的單詞拼音概率依序是82%、10%以及8%。換言之,處理單元110所獲得的備選句子列 表記錄有各單詞與其可能的發音之間的關係,其中每個可能的發音是以拼音來標註,且當各單詞越有機會對應到某一個拼音時,則單詞拼音概率越高。藉此,在語言模型430中,處理單元110便可依據各拼音而獲得這個拼音可能的單詞。
更進一步而言,處理單元110在計算這些拼音所對應的這些單詞拼音概率時,會將對應於語音信號S1中的每一個拼音的單詞拼音概率相乘,而獲得對應於這個語音信號S1的概率乘積來做為文字序列概率,同時獲得這些拼音所對應的單詞所組成的備選句子來做為文字序列。舉例來說,假設處理單元110自音節聲學詞典420所獲得的拼音為「ni-hu」,則依據備選句子列表,處理單元110可將「ni」這個拼音對應到「你」這個單詞,將「hu」這個拼音對應到「好」這個單詞,且處理單元110會將「ni」所對應的單詞拼音概率以及「hu」所對應的單詞拼音概率相乘,而獲得對應於「你好」這個備選句子做為文字序列,以及此時的文字序列概率。當然,此時處理單元110也有機會將「ni-hu」這些拼音對應到其他的單詞(例如對應到「內訌」這個文字序列),而獲得其他的文字序列概率(例如對應到「內訌」這個文字序列的概率)。
於步驟S650中,處理單元110會選擇文字序列概率中最大者所對應的文字序列,以做為語音信號的辨識結果S2。舉例來說,假設對於「ni-hu」這些拼音而言,處理單元110獲得對應於「你好」這個文字序列的文字序列概率為P1,獲得對應於「內 訌」這個文字序列的文字序列概率為P2,且獲得對應於「泥濠」這個文字序列的文字序列概率為P3,其中P1大於P2,且P1大於P3,則處理單元110會選擇文字序列概率為P1所對應的「你好」這個文字序列來做為辨識結果S2。當然,處理單元110亦可透過輸出單元140來顯示所獲得的文字序列概率中最大者所對應的文字序列或者其他可能的文字序列,以讓使用者直覺地辨識這個辨識結果S2。
另外需說明的是,上述處理單元110在獲得文字序列以及計算對應的文字序列概率的步驟中,還可依據不同的門檻值來篩選出較高概率的結果(即,處理單元110自聲學模型410所獲得的各音標及音標匹配概率,自音節聲學詞典420所獲得的各個拼音及拼音匹配概率,及自語言模型430所獲得的各拼音所對應的單詞及單詞拼音概率),並據以在不同的模型中計算。具體而言,處理單元110可依據第一門檻值,來篩選出音標匹配概率大於第一門檻值的音標,並依據這些音標在音節聲學詞典420來產生對應的拼音。此時,處理單元110可依據第二門檻值,來篩選出拼音匹配概率大於第二門檻值的拼音,並依據這些拼音在語言模型430來產生對應的文字序列與文字序列概率。也就是說,處理單元110所計算出的文字序列概率為上述音標匹配概率、拼音匹配概率以及單詞拼音概率的乘積,故處理單元110可選擇音標匹配概率、拼音匹配概率以及單詞拼音概率的聯合概率中最大者所對應的文字序列,以做為語音信號的辨識結果S2。如此一來,本實施例的 語音辨識方法,可精準地依據使用者的發音而獲得符合這個發音的文字序列,藉以消除語音映射到文字所產生的大量歧義性,而大大地提升語音辨識的準確率。
綜上所述,在本實施例的語言模型的建立方法、語音辨識方法及電子裝置中,當電子裝置進行語音信號的語音辨識時,可根據聲學模型獲得符合真實發音的多個音標,以及在音節聲學詞典中獲得符合音標的拼音。特別是,電子裝置會依據每個拼音,自語音模型中找出符合這個拼音的單詞以及單詞拼音概率。最後,電子裝置可經由計算這些拼音對應到這些單詞的單詞拼音概率而獲得文字序列概率,並從這些文字序列概率中最大者所對應的文字序列,來做為辨識結果。相比於傳統方法,由於本發明可依據語音輸入的真實發音所對應的拼音,來進行拼音到文字的辨識,因此可消除語音映射到文字所產生的歧義性,藉以保留原始語音輸入的信息,例如保留多音字在不同發音時的信息。如此一來,本發明的語言模型的建立方法、語音辨識方法及電子裝置,可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語義,使得語音辨識更加精準。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S610、S620、S630、S640、S650‧‧‧本發明語音辨識方法的各步驟

Claims (28)

  1. 一種語言模型的建立方法,用於一電子裝置,該方法包括:接收多個備選句子;以及根據一語料庫,獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率,藉以獲得該些備選句子所對應的一備選句子列表。
  2. 如申請專利範圍第1項所述的語言模型的建立方法,更包括:基於不同語言、方言或不同發音習慣的多個語音信號,經由訓練而獲得該語料庫。
  3. 如申請專利範圍第2項所述的語言模型的建立方法,其中在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫的步驟包括:根據該些語音信號中所對應的該些單詞,接收與各該單詞發音相符合的該些拼音;以及依據各該單詞與該些拼音進行訓練,而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
  4. 一種語音辨識方法,用於一電子裝置,該方法包括:根據一聲學模型獲得一語音信號的一音標序列,該音標序列包括多個音素;依據該音標序列以及一音節聲學詞典,獲得符合該音標序列 的多個拼音;依據該些拼音,自一語言模型中獲得多個文字序列及多個文字序列概率,包括:將各該拼音與一備選句子列表進行匹配,而獲得各該拼音與多個備選句子中的各單詞對應的一單詞拼音概率;以及計算該些拼音所對應的該些單詞拼音概率,而獲得該些文字序列概率,其中對應於該些文字序列概率的該些備選句子為該些文字序列;以及選擇該些文字序列概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  5. 如申請專利範圍第4項所述的語音辨識方法,更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型。
  6. 如申請專利範圍第5項所述的語音辨識方法,其中在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型的步驟包括:接收與該些語音信號中發音相符合的該些音標序列;以及依據該些語音信號與該些音標序列進行訓練,而獲得該聲學模型中與該些音標序列相對應的該些音素的資料。
  7. 如申請專利範圍第4項所述的語音辨識方法,其中在根據該聲學模型獲得該語音信號的該音標序列的步驟包括:根據一預先設定,從該聲學模型中選擇一訓練資料,其中該 訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一;根據所選擇的該訓練資料以及該語音信號的各該音素,計算該些音素符合該音標序列的一音標匹配概率;以及選擇該些音標匹配概率中最大者所對應的該音標序列,以做為該語音信號的該音標序列。
  8. 如申請專利範圍第4項所述的語音辨識方法,其中在依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些拼音的步驟包括:依據該音標序列的一音調,獲得各該拼音對應的一音調資訊。
  9. 如申請專利範圍第4項所述的語音辨識方法,其中在依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些拼音的步驟更包括:依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些拼音,並獲得該音標序列與各該拼音匹配的一拼音匹配概率;以及選擇該些拼音匹配概率中最大者所對應的該拼音,以做為符合各該音標序列的該拼音。
  10. 如申請專利範圍第9項所述的語音辨識方法,更包括:選擇該些拼音匹配概率與該些文字序列概率的聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  11. 如申請專利範圍第4項所述的語音辨識方法,更包括: 接收多個備選句子;以及根據一語料庫,獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率,藉以獲得該些備選句子所對應的該備選句子列表。
  12. 如申請專利範圍第11項所述的語音辨識方法,更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫。
  13. 如申請專利範圍第12項所述的語音辨識方法,其中在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫的步驟包括:根據該些語音信號中所對應的該些單詞,接收與各該單詞發音相符合的該些拼音;以及依據各該單詞與該些拼音進行訓練,而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
  14. 如申請專利範圍第12項所述的語音辨識方法,其中在依據該些拼音,自該語言模型中獲得該些文字序列及該些文字序列概率的步驟包括:根據一預先設定,選擇該備選句子列表,其中該備選句子列表為對應於基於不同語言、方言或不同發音習慣的該些語音信號其中之一,經由訓練所獲得該語料庫。
  15. 一種電子裝置,包括:一儲存單元,儲存多個程式碼片段;以及 一處理單元,耦接至該輸入單元以及該儲存單元,該處理單元透過該些程式碼片段來執行多個指令,該些指令包括:接收多個備選句子;以及根據一語料庫,獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率,藉以獲得該些備選句子所對應的一備選句子列表。
  16. 如申請專利範圍第15項所述的電子裝置,更包括:一輸入單元,接收多個語音信號,且該些指令更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫。
  17. 如申請專利範圍第16項所述的電子裝置,其中該些指令在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫的步驟包括:根據該些語音信號中所對應的該些單詞,接收與各該單詞發音相符合的該些拼音;以及依據各該單詞與該些拼音進行訓練,而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
  18. 一種電子裝置,包括:一輸入單元,接收一語音信號;一儲存單元,儲存多個程式碼片段;以及一處理單元,耦接至該輸入單元以及該儲存單元,該處理單元透過該些程式碼片段來執行多個指令,該些指令包括: 根據一聲學模型獲得該語音信號的一音標序列,該音標序列包括多個音素;依據該音標序列以及一音節聲學詞典,獲得符合該音標序列的多個拼音;依據該些拼音,自一語言模型中獲得多個文字序列及多個文字序列概率,包括:將各該拼音與一備選句子列表進行匹配,而獲得各該拼音與多個備選句子中的各單詞對應的一單詞拼音概率;以及計算該些拼音所對應的該些單詞拼音概率,而獲得該些文字序列概率,其中對應於該些文字序列概率的該些備選句子為該些文字序列;以及選擇該些文字序列概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  19. 如申請專利範圍第18項所述的電子裝置,其中該些指令更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型。
  20. 如申請專利範圍第19項所述的電子裝置,其中該些指令在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該聲學模型的步驟包括:接收與該些語音信號中發音相符合的該些音標序列;以及 依據該些語音信號與該些音標序列進行訓練,而獲得該聲學模型中與該些音標序列相對應的該些音素的資料。
  21. 如申請專利範圍第18項所述的電子裝置,其中該些指令在根據該聲學模型獲得該語音信號的該些音標序列的步驟包括:根據一預先設定,從該聲學模型中選擇一訓練資料,其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一;根據所選擇的該訓練資料以及該語音信號的各該音素,計算該些音素符合該音標序列的一音標匹配概率;以及選擇該些音標匹配概率中最大者所對應的該音標序列,以做為該語音信號的該音標序列。
  22. 如申請專利範圍第18項所述的電子裝置,其中該些指令在依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些拼音的步驟包括:依據該音標序列的一音調,獲得各該拼音對應的一音調資訊。
  23. 如申請專利範圍第18項所述的電子裝置,其中該些指令在依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些拼音的步驟更包括:依據該音標序列以及該音節聲學詞典,獲得符合該音標序列的該些拼音,並獲得該音標序列與各該拼音匹配的一拼音匹配概率;以及選擇該些拼音匹配概率中最大者所對應的該拼音,以做為符 合各該音標序列的該拼音。
  24. 如申請專利範圍第23項所述的電子裝置,其中該些指令更包括:選擇該些拼音匹配概率與該些文字序列概率的聯合概率中最大者所對應的該文字序列,以做為該語音信號的辨識結果。
  25. 如申請專利範圍第18項所述的電子裝置,其中該些指令更包括:接收多個備選句子;以及根據一語料庫,獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率,藉以獲得該些備選句子所對應的該備選句子列表。
  26. 如申請專利範圍第25項所述的電子裝置,其中該些指令更包括:基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫。
  27. 如申請專利範圍第26項所述的電子裝置,其中該些指令在基於不同語言、方言或不同發音習慣的該些語音信號,經由訓練而獲得該語料庫的步驟包括:根據該些語音信號中所對應的該些單詞,接收與各該單詞發音相符合的該些拼音;以及依據各該單詞與該些拼音進行訓練,而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
  28. 如申請專利範圍第26項所述的電子裝置,其中該些指令在依據該些拼音,自該語言模型中獲得該些文字序列及該些文字序列概率的步驟包括:根據一預先設定,選擇該備選句子列表,其中該備選句子列表為對應於基於不同語言、方言或不同發音習慣的該些語音信號其中之一,經由訓練所獲得該語料庫。
TW102140171A 2013-10-18 2013-11-05 語言模型的建立方法、語音辨識方法及電子裝置 TWI532035B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310489580.0A CN103578464B (zh) 2013-10-18 2013-10-18 语言模型的建立方法、语音辨识方法及电子装置

Publications (2)

Publication Number Publication Date
TW201517017A true TW201517017A (zh) 2015-05-01
TWI532035B TWI532035B (zh) 2016-05-01

Family

ID=50050117

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102140171A TWI532035B (zh) 2013-10-18 2013-11-05 語言模型的建立方法、語音辨識方法及電子裝置

Country Status (3)

Country Link
US (2) US9711138B2 (zh)
CN (1) CN103578464B (zh)
TW (1) TWI532035B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI582754B (zh) * 2015-10-09 2017-05-11 Mitsubishi Electric Corp Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof
US9805714B2 (en) 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
TWI665663B (zh) * 2018-08-22 2019-07-11 張維中 影音倒轉播放裝置與系統及其方法
TWI746138B (zh) * 2020-08-31 2021-11-11 國立中正大學 構音異常語音澄析裝置及其方法
TWI791463B (zh) * 2016-09-19 2023-02-11 諾斯魯普查爾斯 物機器

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
CN104036774B (zh) * 2014-06-20 2018-03-06 国家计算机网络与信息安全管理中心 藏语方言识别方法及系统
US9922643B2 (en) * 2014-12-23 2018-03-20 Nice Ltd. User-aided adaptation of a phonetic dictionary
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
CN106469554B (zh) * 2015-08-21 2019-11-15 科大讯飞股份有限公司 一种自适应的识别方法及系统
KR102313028B1 (ko) * 2015-10-29 2021-10-13 삼성에스디에스 주식회사 음성 인식 시스템 및 방법
CN107016994B (zh) * 2016-01-27 2020-05-08 阿里巴巴集团控股有限公司 语音识别的方法及装置
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
CN105654953B (zh) * 2016-03-22 2019-05-17 美的集团股份有限公司 语音控制方法以及系统
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN105845139B (zh) * 2016-05-20 2020-06-16 北方民族大学 一种离线语音控制方法和装置
CN106021531A (zh) * 2016-05-25 2016-10-12 北京云知声信息技术有限公司 通过语音实现图书查询的方法、系统及装置
CN105913846B (zh) * 2016-05-25 2019-12-06 北京云知声信息技术有限公司 一种语音挂号实现方法、装置及系统
CN106057197B (zh) * 2016-05-25 2019-08-16 北京云知声信息技术有限公司 一种语音定时操作方法、装置及系统
JP6727607B2 (ja) * 2016-06-09 2020-07-22 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
CN106653007B (zh) * 2016-12-05 2019-07-16 苏州奇梦者网络科技有限公司 一种语音识别系统
US9805073B1 (en) 2016-12-27 2017-10-31 Palantir Technologies Inc. Data normalization system
US20180188823A1 (en) * 2017-01-04 2018-07-05 International Business Machines Corporation Autocorrect with weighted group vocabulary
CN108510976B (zh) * 2017-02-24 2021-03-19 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN108509408B (zh) * 2017-02-27 2019-11-22 芋头科技(杭州)有限公司 一种句子相似度判断方法
US20180358004A1 (en) * 2017-06-07 2018-12-13 Lenovo (Singapore) Pte. Ltd. Apparatus, method, and program product for spelling words
JP7295839B2 (ja) * 2017-07-10 2023-06-21 エスシーティアイ ホールディングス、インク 音節に基づく自動音声認識
CN107767858B (zh) * 2017-09-08 2021-05-04 科大讯飞股份有限公司 发音词典生成方法及装置、存储介质、电子设备
CN107705787A (zh) * 2017-09-25 2018-02-16 北京捷通华声科技股份有限公司 一种语音识别方法及装置
CN108417203A (zh) * 2018-01-31 2018-08-17 广东聚晨知识产权代理有限公司 一种人体语音识别传输方法及系统
CN108346426B (zh) * 2018-02-01 2020-12-08 威盛电子(深圳)有限公司 语音识别装置以及语音识别方法
CN110197656A (zh) * 2018-02-26 2019-09-03 付明涛 一种可快速记录会议内容并转换成文字的设备
CN108447475A (zh) * 2018-03-02 2018-08-24 国家电网公司华中分部 一种基于电力调度系统的语音识别模型的建立方法
CN108682420B (zh) * 2018-05-14 2023-07-07 平安科技(深圳)有限公司 一种音视频通话方言识别方法及终端设备
CN109036420B (zh) * 2018-07-23 2021-01-26 努比亚技术有限公司 一种语音识别控制方法、终端及计算机可读存储介质
CN110853647A (zh) * 2018-07-27 2020-02-28 Tcl集团股份有限公司 一种视频搜索方法、视频播放终端及存储介质
CN110930992A (zh) * 2018-09-19 2020-03-27 珠海格力电器股份有限公司 数据处理方法、装置、智能终端和存储介质
CN109243428B (zh) * 2018-10-15 2019-11-26 百度在线网络技术(北京)有限公司 一种建立语音识别模型的方法、语音识别方法及系统
KR102718582B1 (ko) * 2018-10-19 2024-10-17 삼성전자주식회사 음성을 인식하는 장치 및 방법, 음성 인식 모델을 트레이닝하는 장치 및 방법
CN109582823A (zh) * 2018-11-21 2019-04-05 平安科技(深圳)有限公司 视频信息链式存储方法、装置、计算机设备及存储介质
CN109582775B (zh) * 2018-12-04 2024-03-26 平安科技(深圳)有限公司 信息录入方法、装置、计算机设备及存储介质
CN111402887A (zh) * 2018-12-17 2020-07-10 北京未来媒体科技股份有限公司 一种语音转义文字的方法及装置
CN111435592B (zh) * 2018-12-25 2023-12-01 Tcl科技集团股份有限公司 一种语音识别方法、装置及终端设备
CN109684643B (zh) * 2018-12-26 2021-03-12 湖北亿咖通科技有限公司 基于句向量的文本识别方法、电子设备及计算机可读介质
CN111383641B (zh) * 2018-12-29 2022-10-18 华为技术有限公司 语音识别方法、装置和控制器
CN111401071A (zh) * 2019-01-02 2020-07-10 百度在线网络技术(北京)有限公司 模型的训练方法、装置、计算机设备和可读存储介质
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110047465A (zh) * 2019-04-29 2019-07-23 德州职业技术学院(德州市技师学院) 一种会计语言识别信息录入装置
CN110288980A (zh) * 2019-06-17 2019-09-27 平安科技(深圳)有限公司 语音识别方法、模型的训练方法、装置、设备及存储介质
KR20210016767A (ko) 2019-08-05 2021-02-17 삼성전자주식회사 음성 인식 방법 및 음성 인식 장치
CN112397051B (zh) * 2019-08-16 2024-02-02 武汉Tcl集团工业研究院有限公司 语音识别方法、装置及终端设备
CN110765733A (zh) * 2019-10-24 2020-02-07 科大讯飞股份有限公司 一种文本规整方法、装置、设备及存储介质
CN110767217B (zh) * 2019-10-30 2022-04-12 爱驰汽车有限公司 音频分割方法、系统、电子设备和存储介质
CN111091638A (zh) * 2019-11-25 2020-05-01 星络智能科技有限公司 存储介质、智能门锁及其鉴权方法
CN111192572A (zh) * 2019-12-31 2020-05-22 斑马网络技术有限公司 语义识别的方法、装置及系统
JP7314079B2 (ja) * 2020-02-21 2023-07-25 株式会社東芝 データ生成装置、データ生成方法およびプログラム
CN111429886B (zh) * 2020-04-09 2023-08-15 厦门钛尚人工智能科技有限公司 一种语音识别方法及系统
CN113589947B (zh) * 2020-04-30 2024-08-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111667821A (zh) * 2020-05-27 2020-09-15 山西东易园智能家居科技有限公司 一种语音识别系统及识别方法
CN111785275A (zh) * 2020-06-30 2020-10-16 北京捷通华声科技股份有限公司 语音识别方法及装置
CN111599340A (zh) * 2020-07-27 2020-08-28 南京硅基智能科技有限公司 一种多音字读音预测方法、装置及计算机可读存储介质
CN111768765B (zh) * 2020-07-30 2022-08-19 华为技术有限公司 语言模型生成方法和电子设备
CN111914825B (zh) * 2020-08-03 2023-10-27 腾讯科技(深圳)有限公司 文字识别方法、装置及电子设备
CN112331207B (zh) * 2020-09-30 2024-08-30 音数汇元(上海)智能科技有限公司 服务内容监控方法、装置、电子设备和存储介质
TWI744036B (zh) * 2020-10-14 2021-10-21 緯創資通股份有限公司 聲音辨識模型訓練方法及系統與電腦可讀取媒體
CN112489634A (zh) * 2020-11-17 2021-03-12 腾讯科技(深圳)有限公司 语言的声学模型训练方法、装置、电子设备及计算机介质
CN114724547B (zh) * 2020-12-21 2025-03-14 普天信息技术有限公司 一种用于口音英语的识别方法及系统
CN112651854B (zh) * 2020-12-23 2024-06-21 讯飞智元信息科技有限公司 语音调度方法、装置、电子设备和存储介质
CN112668340B (zh) * 2020-12-28 2024-07-12 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN113763947B (zh) * 2021-01-15 2024-04-05 北京沃东天骏信息技术有限公司 一种语音意图识别方法、装置、电子设备及存储介质
CN113011127A (zh) * 2021-02-08 2021-06-22 杭州网易云音乐科技有限公司 文本注音方法及装置、存储介质和电子设备
CN113744722B (zh) * 2021-09-13 2024-08-23 上海交通大学宁波人工智能研究院 一种用于有限句库的离线语音识别匹配装置与方法
CN114333809B (zh) * 2021-12-21 2025-01-10 上海淇玥信息技术有限公司 用户语音数据处理方法、装置及电子设备
CN114758649B (zh) * 2022-04-06 2024-04-19 北京百度网讯科技有限公司 一种语音识别方法、装置、设备和介质
CN115346531B (zh) * 2022-08-02 2024-08-09 启迪万众网络科技(北京)有限公司 一种语音媒体处理用语音转文字识别系统
CN115905297B (zh) * 2023-01-04 2023-12-15 脉策(上海)智能科技有限公司 用于检索数据的方法、设备和介质
CN117238277B (zh) * 2023-11-09 2024-01-19 北京水滴科技集团有限公司 意图识别方法、装置、存储介质及计算机设备

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4833712A (en) * 1985-05-29 1989-05-23 International Business Machines Corporation Automatic generation of simple Markov model stunted baseforms for words in a vocabulary
JPH083815B2 (ja) * 1985-10-25 1996-01-17 株式会社日立製作所 自然言語の共起関係辞書保守方法
DE3681156D1 (de) * 1986-03-27 1991-10-02 Ibm Automatische erzeugung von eingeschraenkten auf markov-modellen gestuetzten wortmustern.
US5258909A (en) * 1989-08-31 1993-11-02 International Business Machines Corporation Method and apparatus for "wrong word" spelling error detection and correction
US5682539A (en) * 1994-09-29 1997-10-28 Conrad; Donovan Anticipated meaning natural language interface
WO2000073936A1 (en) * 1999-05-28 2000-12-07 Sehda, Inc. Phrase-based dialogue modeling with particular application to creating recognition grammars for voice-controlled user interfaces
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US20080147404A1 (en) * 2000-05-15 2008-06-19 Nusuara Technologies Sdn Bhd System and methods for accent classification and adaptation
US7043422B2 (en) * 2000-10-13 2006-05-09 Microsoft Corporation Method and apparatus for distribution-based language model adaptation
US7353173B2 (en) * 2002-07-11 2008-04-01 Sony Corporation System and method for Mandarin Chinese speech recognition using an optimized phone set
US7353174B2 (en) * 2003-03-31 2008-04-01 Sony Corporation System and method for effectively implementing a Mandarin Chinese speech recognition dictionary
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
WO2006030305A1 (en) * 2004-09-17 2006-03-23 Agency For Science, Technology And Research Spoken language identification system and methods for training and operating same
CN1831937A (zh) * 2005-03-08 2006-09-13 台达电子工业股份有限公司 语音辨识与语言理解分析的方法与装置
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
CN101454826A (zh) * 2006-05-31 2009-06-10 日本电气株式会社 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统
CN101067780B (zh) * 2007-06-21 2010-06-02 腾讯科技(深圳)有限公司 智能设备的文字输入系统及方法
JP2009128675A (ja) * 2007-11-26 2009-06-11 Toshiba Corp 音声を認識する装置、方法およびプログラム
TWI349925B (en) * 2008-01-10 2011-10-01 Delta Electronics Inc Speech recognition device and method thereof
JP5149737B2 (ja) * 2008-08-20 2013-02-20 株式会社ユニバーサルエンターテインメント 自動会話システム、並びに会話シナリオ編集装置
CN101464896B (zh) * 2009-01-23 2010-08-11 安徽科大讯飞信息科技股份有限公司 语音模糊检索方法及装置
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
CN102063900A (zh) * 2010-11-26 2011-05-18 北京交通大学 克服混淆发音的语音识别方法及系统
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
CN102779508B (zh) * 2012-03-31 2016-11-09 科大讯飞股份有限公司 语音库生成设备及其方法、语音合成系统及其方法
CN102750267B (zh) * 2012-06-15 2015-02-25 北京语言大学 汉语音字转换方法及系统、区分性词典的构建方法
US9047274B2 (en) * 2013-01-21 2015-06-02 Xerox Corporation Machine translation-driven authoring system and method
CN103578465B (zh) * 2013-10-18 2016-08-17 威盛电子股份有限公司 语音辨识方法及电子装置
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI582754B (zh) * 2015-10-09 2017-05-11 Mitsubishi Electric Corp Language pattern generating means, language pattern generating method and program, voice recognizing apparatus, and voice recognition method and program thereof
US9805714B2 (en) 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
TWI791463B (zh) * 2016-09-19 2023-02-11 諾斯魯普查爾斯 物機器
TWI665663B (zh) * 2018-08-22 2019-07-11 張維中 影音倒轉播放裝置與系統及其方法
TWI746138B (zh) * 2020-08-31 2021-11-11 國立中正大學 構音異常語音澄析裝置及其方法

Also Published As

Publication number Publication date
CN103578464A (zh) 2014-02-12
US20160314783A1 (en) 2016-10-27
CN103578464B (zh) 2017-01-11
US20150112679A1 (en) 2015-04-23
TWI532035B (zh) 2016-05-01
US9711139B2 (en) 2017-07-18
US9711138B2 (en) 2017-07-18

Similar Documents

Publication Publication Date Title
TWI532035B (zh) 語言模型的建立方法、語音辨識方法及電子裝置
TWI539441B (zh) 語音辨識方法及電子裝置
CN103578467B (zh) 声学模型的建立方法、语音辨识方法及其电子装置
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
US10140973B1 (en) Text-to-speech processing using previously speech processed data
JP7092953B2 (ja) エンドツーエンドモデルによる多言語音声認識のための音素に基づく文脈解析
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US10163436B1 (en) Training a speech processing system using spoken utterances
CN103578471B (zh) 语音辨识方法及其电子装置
Le et al. Automatic speech recognition for under-resourced languages: application to Vietnamese language
Karpov et al. Large vocabulary Russian speech recognition using syntactico-statistical language modeling
JP2001296880A (ja) 固有名の複数のもっともらしい発音を生成する方法および装置
GB2557714A (en) Determining phonetic relationships
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
US20200372110A1 (en) Method of creating a demographic based personalized pronunciation dictionary
Li et al. Context-Dependent Duration Modeling with Backoff Strategy and Look-Up Tables for Pronunciation Assessment and Mispronunciation Detection.
JP7165439B2 (ja) ソース言語の音声によって拡張言語の音声認識モデルをトレーニングする方法
Martin Towards improved speech recognition for resource poor languages
JP2023006055A (ja) プログラム、情報処理装置、方法
CN116434779A (zh) 语言学习系统
Wu et al. A comparison study on contextual modeling for estimating functional loads of phonological contrasts
Sunitha et al. Dynamic construction of Telugu speech corpus for voice enabled text editor