TW201517017A

TW201517017A - 語言模型的建立方法、語音辨識方法及電子裝置

Info

Publication number: TW201517017A
Application number: TW102140171A
Authority: TW
Inventors: guo-feng Zhang
Original assignee: Via Tech Inc
Priority date: 2013-10-18
Filing date: 2013-11-05
Publication date: 2015-05-01
Also published as: CN103578464A; US20160314783A1; CN103578464B; US20150112679A1; TWI532035B; US9711139B2; US9711138B2

Abstract

一種語言模型的建立方法、語音辨識方法及電子裝置，其中語音辨識方法包括以下步驟。根據聲學模型獲得語音信號的音標序列。依據音標序列以及音節聲學詞典，獲得符合音標序列的多個拼音。依據這些拼音，自語言模型中獲得多個文字序列及多個文字序列概率，其中將各拼音與備選句子列表進行匹配，而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率，並計算這些拼音所對應的單詞拼音概率，而獲得所述文字序列概率。選擇文字序列概率中最大者所對應的文字序列，以做為語音信號的辨識結果。

Description

語言模型的建立方法、語音辨識方法及電子裝置

本發明是有關於一種語音辨識技術，且特別是有關於一種可用於識別不同語言、方言或發音習慣所發出的語音的語言模型的建立方法、語音辨識方法及其電子裝置。

語音辨識(speech recognition)毫無疑問的是一種熱門的研究與商業課題。語音辨識通常是將輸入的語音取出特徵參數，再與資料庫的樣本相比對，找出與輸入相異度低的樣本取出。

目前常見做法大都是先採集語音語料(如錄下來的人的語音)，然後由人工進行標注(即，對每一句語音標注上對應的文字)，然後使用這些語料來訓練聲學模型(acoustic model)和聲學詞典(transcription-syllable module)。其中，在訓練聲學模型和聲學詞典時，是利用對應於多個詞彙的多個語音語料以及這些詞彙於字典中標註的多個音標來進行訓練，藉以獲得聲學模型和聲學詞典中與上述音標相對應的多個語音語料的資料。

然而，目前作法存在如下問題。問題1：由於聲學模型中用以訓練的詞彙的音標，是來自於字典上所標註的音標，因此倘若用戶的非標準發音(如翹舌音不分、前後鼻音不分等)進入聲學模型，則這些發音會有很高的機率無法符合字典上所標註的音標，因而造成聲學模型的模糊性變大。如拼音“in”在聲學模型中會給出比較大的概率為“ing”，而為了不標準發音的妥協，會導致整體錯誤率的升高。問題2：由於不同地區的發音習慣不同，非標準發音有多種變形，導致聲學模型的模糊性變得更大，因而使得識別準確率的進一步降低。問題3：無法識別方言，如標準漢語、滬語、粵語、閩南語等。問題4：無法識別容易讀錯的字，如一丘之貉(hé)，很多人會把它念成(hè)。問題5：由於聲學詞典會將音標轉換成字彙，因此會丟失了很多語音資訊(如重音的位置)，進而影響到意圖識別的準確率，這將導致語義識別的錯誤率上升。

本發明提供一種語言模型的建立方法、語音辨識方法及電子裝置，其可消除語音映射到文字所產生的歧義性，以準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言及語義。

本發明提出一種語言模型的建立方法，用於電子裝置。語言模型的建立方法包括以下步驟。接收多個備選句子，以及根據語料庫，獲得與各備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得這些備選句子所對應的備選句子列表。

本發明提出一種語音辨識方法，用於電子裝置。語音辨識方法包括以下步驟。首先，根據聲學模型獲得語音信號的多個音標，其中音標包括多個音素。並且，依據各音標以及音節聲學詞典，獲得符合音標的多個拼音。接著，依據這些拼音，自語言模型中獲得多個文字序列及多個文字序列概率，其中此步驟包括將各拼音與備選句子列表進行匹配，而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率，以及計算這些拼音所對應的單詞拼音概率，而獲得所述文字序列概率，其中對應於所述文字序列概率的備選句子為所述文字序列。最後，選擇文字序列概率中最大者所對應的文字序列，以做為語音信號的辨識結果。

本發明另提出一種電子裝置，其包括儲存單元以及處理單元。儲存單元儲存多個程式碼片段。處理單元耦接至輸入單元以及儲存單元。處理單元透過所述程式碼片段來執行多個指令。這些指令包括：接收多個備選句子，以及根據語料庫，獲得與各備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得所述備選句子所對應的備選句子列表。

本發明另提出一種電子裝置，其包括輸入單元、儲存單元以及處理單元。輸入單元接收語音信號。儲存單元儲存多個程式碼片段。處理單元耦接至輸入單元以及儲存單元，其中處理單元透過所述程式碼片段來執行多個指令。這些指令包括：根據聲學模型獲得語音信號的多個音標，所述音標包括多個音素。依據各音標以及音節聲學詞典，獲得符合音標的多個拼音。依據所述拼音，自語言模型中獲得多個文字序列及多個文字序列概率，其中處理單元所執行的這些指令包括：將各拼音與備選句子列表進行匹配，而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率，並計算這些拼音所對應的單詞拼音概率，而獲得所述文字序列概率，其中對應於所述文字序列概率的備選句子為所述文字序列。最後，選擇所述文字序列概率中最大者所對應的文字序列，以做為語音信號的辨識結果。

基於上述，當電子裝置進行語音信號的語音辨識時，可根據聲學模型獲得符合真實發音的多個音標，以及在音節聲學詞典中獲得符合音標的拼音。並且，電子裝置會依據每個拼音，自語音模型中找出符合這些拼音的文字序列與文字序列概率，並從這些文字序列概率中最大者所對應的文字序列，來做為辨識結果。如此一來，本發明可依據語音輸入的真實發音所對應的拼音來進行拼音到文字的辨識，藉以消除語音映射到文字所產生的歧義性，而保留原始語音輸入的信息，使得語音辨識更加精準。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

100‧‧‧電子裝置

110‧‧‧處理單元

120‧‧‧儲存單元

130‧‧‧輸入單元

140‧‧‧輸出單元

21、41‧‧‧語音資料庫

22、42‧‧‧語料庫

200、400‧‧‧語音辨識模組

210、410‧‧‧聲學模型

220‧‧‧聲學詞典

230、430‧‧‧語言模型

240、440‧‧‧解碼器

420‧‧‧音節聲學詞典

S1、S2‧‧‧語音信號

S310、S320、S330、S340、S350、S510、S520、S530、S540、S550、S610、S620、S630、S640、S650‧‧‧本發明語音辨識方法的各步驟

圖1是依照本發明一實施例的電子裝置的方塊圖。

圖2是依照本發明一實施例的語音辨識模組的示意圖。

圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。

圖4是依照本發明一實施例的語音辨識模組的示意圖。

圖5是依照本發明一實施例所繪示的語音辨識方法的流程圖。

圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。

在傳統語音辨識方法中，普遍存在底下問題，即，由於在不同地區的方言中的模糊音、使用者發音習慣的不同、或是不同的語言，會導致辨識率的精準度受到影響。此外，由於現有技術中的語音辨識一般是以文字輸出，因而丟失了很多語音信息，例如隨音調而異的語義表達。再者，在發音到文字的映射過程中，現有技術一般使用的概率是某個音是某個詞的概率，因此相同的音會被映射到所有的同音字，而導致發音轉文字時的錯誤率上升。為此，本發明提出一種語言模型的建立方法、語音辨識方法及其電子裝置，可在原有語音識別的基礎上，改進辨識率的精準度。為了使本發明之內容更為明瞭，以下特舉諸實施例作為本發明確實能夠據以實施的範例。

圖1是依照本發明一實施例的電子裝置的方塊圖。請參照圖1，電子裝置100包括處理單元110、儲存單元120以及輸入單元130，也可包括輸出單元140。

電子裝置100例如是行動電話(Cell phone)、個人數位助理(Personal Digital Assistant，PDA)手機、智慧型手機(Smart phone)、掌上型電腦(Pocket PC)、平板型電腦(Tablet PC)、筆記型電腦、個人電腦，車用電腦等具有運算功能的裝置，在此並不限制其範圍。

處理單元110耦接至儲存單元120及輸入單元130。處理單元110為具備運算能力的硬體(例如晶片組、處理器等)，用以執行電子裝置100中的硬體、韌體以及處理軟體中的資料。在本實施例中，處理單元110例如是中央處理單元(Central Processing Unit，CPU)，或是其他可程式化之微處理器(Microprocessor)、數位訊號處理器(Digital Signal Processor，DSP)、可程式化控制器、特殊應用積體電路(Application Specific Integrated Circuits，ASIC)、可程式化邏輯裝置(Programmable Logic Device，PLD)或其他類似裝置。

儲存單元120可儲存一個或多個用來執行語音辨識方法的程式碼以及資料(例如，使用者所輸入的語音信號、執行語音辨識所需的聲學模型(acoustic model)、音節聲學詞典(acoustic lexicon)、語言模型(language model)及語料庫等)等等。在本實施例中，儲存單元120例如為非揮發性記憶體(Non-volatile memory，NVM)、動態隨機存取記憶體(Dynamic Random Access Memory，DRAM)或靜態隨機存取記憶體(Static Random Access Memory，SRAM)等。

輸入單元130例如為麥克風，用以接收使用者的聲音，而將使用者的聲音轉換為語音信號。

在此，本實施例可以程式碼來實現電子裝置100的語音辨識方法。具體而言，儲存單元120中可儲存有多個程式碼片段，而上述程式碼片段在被安裝後，處理單元110會透過這些程式碼片段來執行多個指令，藉以實現本實施例的聲學模型的建立方法以及語音辨識方法。更進一步地說，處理單元110會藉由執行程式碼片段中的多個指令，來建立聲學模型、音節聲學詞典以及語言模型，並透過上述程式碼片段來驅動語音辨識模組，以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例之語音辨識方法。其中，所述語音辨識模組可以是以電腦程式碼來實作，或者在本發明另一實施例中，所述語音辨識模組可由一個或數個邏輯閘組合而成的硬體電路來實作。據此，本實施例的處理單元110會將輸入單元130所接收的語音信號透過上述語音辨識模組來進行語音辨識，以利用聲學模型、音節聲學詞典以及語言模型而獲得多個字串概率及多個字串。並且，處理單元110會選出字串概率中最大者所對應的字串，以做為語音信號的辨識結果。

另外，本實施例還可包括輸出單元140，以輸出語音信號的辨識結果。輸出單元140例如為陰極射線管(Cathode Ray Tube，CRT)顯示器、液晶顯示器(Liquid Crystal Display，LCD)、電漿顯示器(Plasma Display)、觸控顯示器(Touch Display)等顯示單元，以顯示所獲得的字串概率中最大者所對應的候選字串。或者，輸出單元140亦可以是揚聲器，以播放所獲得的字串概率中最大者所對應的候選字串。

需說明的是，本實施例的處理單元110會針對不同的語言、方言或發音習慣，分別建立上述聲學模型、音節聲學詞典與語言模型，並將這些模型與詞典存放於儲存單元120。

詳細而言，聲學模型例如是一個統計分類器，其可利用混合高斯模型，以將所接收到的語音信號，解析成基本的音素(Phone)，並將各音素分類至對應的基本音標。其中，聲學模型可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。音節聲學詞典通常是由被識別語言的單詞組成，一般可採用隱藏式馬可夫模型(Hidden Markov Model，HMM)將聲學模型輸出的音組成單詞，其中對於單音節語言(例如中文)，通常可藉由音節聲學詞典以將聲學模型所輸出的音標轉換成對應的詞彙。語言模型(language model)主要是利用機率統計的方法來揭示語言單位內在的統計規律，其中N元語法(N-Gram)簡單有效而被廣泛使用。

底下舉一實施例來說明。

圖2是依照本發明一實施例的語音辨識模組的示意圖。請參照圖2，語音辨識模組200主要包括聲學模型210、音節聲學詞典220、語言模型230以及解碼器240。其中，聲學模型210與音節聲學詞典是由語音資料庫21經訓練而獲得，語言模型230是由語料庫(text corpus)22經訓練而獲得。在本實施例中，語音資料庫21以及語料庫22具有多個語音信號，而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入。

請同時參照圖1與圖2，聲學模型210用以辨識來自不同語言、方言或發音習慣的語音信號，以識別出與語音信號的發音相符合的多個音標。在本實施例中，處理單元110會基於不同語言、方言或不同發音習慣的語音信號，經由訓練而獲得聲學模型210。詳言之，處理單元110可自語音資料庫21接收多個語音信號，以及接收與語音信號中發音相符合的多個音標，其中對應於各音標的發音具有多個音素。並且，處理單元110會依據語音信號與音標進行訓練，而獲得聲學模型210中與音標相對應的多個音素的資料。更具體而言，處理單元110可從語音資料庫21中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號，解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後，再利用這些特徵參數與已標註對應音標的語音信號進行訓練，而獲得語音信號的特徵參數與音標相符合的關係，進而建立聲學模型210。

音節聲學詞典220具有多個詞彙，以及各音標與各詞彙匹配的模糊音概率。在此，處理單元110可透過音節聲學詞典220而查詢出與各音標相符的多個詞彙，以及每一個詞彙與其相匹配的音標之間的模糊音概率。在本實施例中，處理單元110會基於不同語言、方言或不同發音習慣的語音信號，經由訓練而獲得音節聲學詞典。詳言之，處理單元110可根據語音信號的音標與語音信號分別對應的詞彙進行訓練，而獲得各音標與各詞彙匹配的模糊音概率。值得一提的是，處理單元110亦會對語音信號中的每一音標標註對應的編碼。也就是說，對於每一具有發音相異而字形相同的詞彙(即多音字)而言，此詞彙對應於每一種發音具有不同的音標，並且，此詞彙具有至少一編碼，而每一編碼對應於這些相異音標的其中之一。如此一來，本實施例之音節聲學詞典220可包括來自不同發音的語音輸入的音標所對應的詞彙，以及各音標所對應的編碼。

語言模型230是基於歷史資訊的模型(History-based Model)的設計理念，即，根據經驗法則，統計先前已出現的一連串事件與下一個出現的事件之間的關係。在此，語言模型230用以依據不同詞彙的編碼，以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。在本實施例中，處理單元110會基於不同語言、方言或不同發音習慣的多個語料，經由訓練而獲得語言模型230，其中所述語料具有多個發音的語音輸入以及此語音輸入對應的字串。在此，處理單元110會自語料庫22獲得字串，並且將字串與字串的詞彙所分別對應的編碼進行訓練，而獲得編碼與各字串匹配的資料。

解碼器240是語音辨識模組200的核心之一，其任務是對輸入的語音信號，根據聲學模型210、音節聲學詞典220以及語言模型230，尋找能夠以最大概率輸出的字串。舉例來說，利用聲學模型210獲得對應的音素(phone)或音節(syllable)，再由音節聲學詞典220來獲得對應的字或詞，之後由語言模型230來判斷一連串的字成為句子的概率。

以下即搭配上述電子裝置100與語音辨識模組200來說明本發明的語音辨識方法。圖3是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖2與圖3，本實施例中的語音辨識方法，適於透過電子裝置100來對語音信號進行語音辨識。其中，處理單元110能針對不同的語言、方言或發音習慣，利用聲學模型210、音節聲學詞典220、語言模型230以及解碼器240以自動地辨識出語音信號所對應的語言。

於步驟S310中，輸入單元130接收語音信號S1，其中語音信號S1例如是來自使用者的語音輸入。更具體而言，語音信號S1例如為單音節語言的語音輸入，而單音節語言例如為中文。

於步驟S320中，處理單元110會根據聲學模型210獲得語音信號S1的多個音標，其中音標包括多個音素。在此，對於單音節語言來說，語音信號S1中的各音節具有多個音素，而音節會對應於的一個音標。舉例來說，以「前進」這兩單詞而言，它的音節為「前」與「進」，以及具有「ㄑ」、「一ㄢ」、「ˊ」、「ㄐ」、「一ㄣ」及「ˋ」這些音素。其中，「ㄑ」、「一ㄢ」及「ˊ」可對應於音標「qián」，而「ㄐ」、「一ㄣ」及「ˋ」可對應於音標「jìn」。

在本實施例中，處理單元110可根據預先設定，從聲學模型210中選擇訓練資料，而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。在此，處理單元110可利用聲學模型210，並選擇訓練資料中的語音信號以及這些語音信號所對應的基本音標，來查詢出符合語音信號S1的多個音標。

詳言之，上述預先設定指的是電子裝置100被設定為依據哪一種發音來進行語音辨識。舉例來說，假設電子裝置100被設定為依據北方人的發音習慣來進行語音辨識，則處理單元110會在聲學模型210中，選擇由北方人的發音習慣所訓練而成的訓練資料。類似地，假設電子裝置100被設定為進行閩南語的語音辨識，則處理單元110會在聲學模型210中選擇由閩南語所訓練而成的訓練資料。上述所列舉的預先設定為舉例說明，於其他實施例中，電子裝置100亦可被設定為依據其他語言、方言或發音習慣來進行語音辨識。

進一步而言，處理單元110會根據所選擇的聲學模型210以及語音信號S1中的音素，計算語音信號S1中的音素與每一個基本音標相符的音標匹配概率。爾後，處理單元110會從所計算出的這些音標匹配概率中，選擇音標匹配概率中最大者所對應的各基本音標，以做為語音信號S1的音標。更具體來說，處理單元110可將所接收到語音信號S1切割為多個音框，而這些音框中的兩相鄰因框之間可以有一段重疊區域。之後，再從每個音框中取出特徵參數而獲得一特徵向量。例如，可利用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients，MFCC)自音框中取出36 個特徵參數，而獲得一個36維的特徵向量。在此，處理單元110可將語音信號S1的特徵參數與聲學模型210所具有的音素的資料進行匹配，以計算出語音信號S1中的各音素與相符的各基本音標之間的音標匹配概率。如此一來，處理單元110可在這些音標匹配概選擇最大者所對應的各基本音標，以做為語音信號S1的音標。

於步驟S330中，處理單元110會根據各音標以及音節聲學詞典220，獲得符合音標的多個詞彙。其中，音節聲學詞典220具有音標對應的詞彙，而各詞彙具有至少一編碼，且對應於具有相異音標而字型相同的詞彙(即多音字)而言，此詞彙的各編碼分別對應於詞彙的其中之一音標。

在此，處理單元110亦可根據預先設定，從音節聲學詞典220中選擇訓練資料，而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。並且，處理單元110會依據自音節聲學詞典220中所選擇的訓練資料與語音信號S1的各音標，而獲得音標與各詞彙匹配的模糊音概率。需說明的是，由於多音字可因不同語言、方言或發音習慣而具有不同的音標，因此在音節聲學詞典220中，每一種音標所對應於的詞彙皆會具有模糊音概率，其中模糊音概率會因不同語言、方言或發音習慣而改變。換言之，經由不同語言、方言或發音習慣所訓練的訓練資料，音節聲學詞典220中的各種音標與對應的詞彙會具有不同的模糊音概率。

舉例來說，當預先設定為選擇音節聲學詞典220中，以北方人的發音訓練而成的訓練資料時，則對於音標為「fú」而言，其對應的詞彙有較大的模糊音概率為「福」、「符」、「芙」等字，而「fú」對應的詞彙則有較低的模糊音概率為「胡」、「湖」、「壺」等字。又例如，當預先設定為選擇音節聲學詞典220中，以大多數人習慣的發音訓練而成的訓練資料時，則對於音標為「hè」而言，其對應的詞彙有較大的模糊音概率為「賀」、「賀」以及「貉」等字。值得一提的是，由於大多數人習慣將「一丘之『貉』」中的『貉(ㄏㄜˋ)』這個詞彙的發音唸成「ㄏㄜˋ」，因此，在「hè」對應至「貉」的模糊音概率仍會較高。如此一來，藉由選擇模糊音概率中最大者所對應的詞彙，處理單元110可依據特定的語言、方言或發音習慣，獲得語音信號S1中的各音標相匹配的詞彙。

另一方面，由於具有不同發音的多音字，其依據不同的發音會有不同的涵義，因此在本實施例中，對應於具有相異音標而字型相同的多音字而言，處理單元110可取得每一詞彙的編碼，藉以區別每一詞彙的不同發音。以多音字「長」這個詞彙為例，其漢語發音的音標可例如為「cháng」、「zh ng」，而對於不同方言或發音習慣來說，「長」的音標亦可例如是「cêng」、「zêng」(粵音)。因此，對於上述「長」的音標，則音節聲學詞典會將這些音標對應至四種編碼，例如「c502」、「c504」、「c506」以及「c508」。此處所指的編碼僅為舉例說明，其編碼亦可以其他形式(如數值、字母或符號其中之一或其組合)來呈現。換言之，本實施例之音節聲學詞典220可將多音字視為不同的詞彙，藉以使得多音字在語言模型230中可對應到具有不同涵義的字串。如此一來，當處理單元110利用音節聲學詞典220以獲得具有不同音標的多音字時，由於此多音字所具有的不同音標會對應到不同的編碼，因此處理單元110可區別出此多音字的不同發音，藉以保留此多音字於不同發音時的歧異性。

於步驟S340中，處理單元110會依據各詞彙的編碼，自語言模型230中獲得多個字串及多個字串概率。詳細而言，語言模型230用以依據不同詞彙的編碼，以辨識出與此編碼相符合的字串以及此編碼與此字串相符合的字串概率。因此，處理單元110可依據自音節聲學詞典220所獲得的詞彙的編碼，透過語言模型230來計算此編碼符合各字串的字串概率。其中，倘若處理單元110計算出的字串概率較低，則表示此編碼所對應的音標用於這個字串的機率甚低。反之，倘若處理單元110計算出的字串概率較高，則表示此編碼所對應的音標有很大的機率是對應於這個字串。

同樣以多音字「長」這個詞彙為例，其音標(例如「cháng」、「zhng」、「cêng」及「zêng」等)所對應的編碼可例如為「c502」、「c504」、「c506」以及「c508」等。在此，假設南京的市長的名字為江大橋，若音標為「zhng」所對應的編碼「c504」於「…南京市『長(ㄓㄤˇ)』江大橋…」這個字串中的字串概率很高，則處理單元110會判斷音標為「zhng」的「長」這個詞彙，在「南京市『長』江大橋」中出現的概率很大，且「長」前面所接的詞彙為「市」的概率亦高。並且，此時處理單元110會判斷出音標「zhng」所對應的編碼「c504」於「南京是『長(ㄔㄤˊ)』江大橋的…」這個字串中的字串概率較低。

從另一觀點看，若音標為「cháng」所對應的編碼「c502」於「南京是『長(ㄔㄤˊ)』江大橋的…」這個字串中的字串概率較高時，則處理單元110會判斷音標為「cháng」的「長」這個詞彙，在「南京是『長』江大橋的…」中出現的概率很大，且「長」前面所接的詞彙為「是」的概率亦高。此時，處理單元110便會判斷音標「cháng」所對應的編碼「c502」於「南京市『長(ㄓㄤˇ)』江大橋」這個字串中的字串概率會較低。

再舉一例，對於「長」這個詞彙而言，其音標可為「cháng」或「zhng」等。雖然一般來說，當「長」這個詞彙前面接「市」這個詞彙時，「長」通常是以音標「zhng」來發音，但也有可能是以音標「cháng」來發音。例如，「南京市長江大橋」可以指的是「『南京市』-『長(ㄔㄤˊ)江大橋』」，亦可指的是「『南京』-『市長(ㄓㄤˇ)』-『江大橋』」。因此，處理單元110會依據音標「cháng」所對應的編碼「c502」，以及音標「zhng」所對應的編碼「c504」，根據語言模型230來計算編碼「c502」與「c504」在「南京市長江大橋」這個字串中的字串概率。

舉例來說，倘若對應於音標「cháng」的編碼「c502」在「南京市長江大橋」這個字串中的字串概率較高，則表示音標為「cháng」的「長」這個詞彙在「『南京市』-『長(ㄔㄤˊ)江大橋』」的概率亦較高。或者，倘若對應於音標「zhng」的編碼「c504」在「南京市長江大橋」這個字串中的字串概率較高，則表示音標為「zhng」的「長」這個詞彙在「『南京』-『市長(ㄓㄤ^ˇ)』-『江大橋』」的概率亦會較高。

接後，於步驟S350中，處理單元110會選擇字串概率中最大者所對應的字串，以做為語音信號S1的辨識結果S2。舉例來說，處理單元110例如是計算每一來自音節聲學詞典220的模糊音概率與來自語言模型230的字串概率之乘積為聯合概率，以選擇模糊音概率與字串概率的聯合概率中最大者所對應的字串，來做為語音信號S1的辨識結果S2。也就是說，處理單元110不限於從音節聲學詞典220中選擇與音標最相符的詞彙，而是處理單元110可依據從音節聲學詞典220所獲得之與音標相符合的多個詞彙以及其編碼，並在語言模型230中選擇字串概率最大者來做為辨識結果S2。當然，本實施例之處理單元110亦可分別在音節聲學詞典220中選擇模糊音概率中最大者所對應的詞彙，以做為語音信號的各音標所匹配的詞彙，並且根據所述匹配的詞彙的編碼來計算各編碼於語言模型230中所獲得的字串概率，來計算模糊音概率與字串概率之乘積為聯合概率，藉以從聯合概率中選出最大者所對應的字串。

具體而言，同樣以多音字「長」這個詞彙以及「南京市長江大橋」這個詞彙為例，其中「長」的音標例如為「cháng」、「zhng」、「cêng」及「zêng」等，且其音標所分別對應的編碼例如為「c502」、「c504」、「c506」以及「c508」等。在此，當音標「cháng」經音節聲學詞典220所獲得的詞彙為「長」的模糊音概率較高時，處理單元110會依據「長」以及音標「cháng」所對應的編碼「c502」，在語言模型230中選擇字串概率最高者所對應的字串為辨識結果。舉例來說，倘若「長」的編碼「c502」在「南京是『長(ㄔㄤˊ)』江大橋的…」中出現的字串概率為最大時，則處理單元110可獲得「南京是『長』江大橋的…」這個字串為辨識結果。然而，倘若「長」的編碼「c502」在「『南京市』-『長(ㄔㄤˊ)江大橋』」中出現的字串概率為最大時，則處理單元110可獲得「『南京市』-『長(ㄔㄤˊ)江大橋』」這個字串為辨識結果。或者，當音標「zhng」經音節聲學詞典220所獲得的詞彙為「長」的模糊音概率較高時，處理單元110會依據「長」以及音標「zhng」所對應的編碼「c504」，在語言模型230中選擇字串概率最高者所對應的字串為辨識結果。舉例來說，倘若「長」的編碼「c504」在是「『南京』-『市長』-『江大橋』」中出現的字串概率為最大時，則處理單元110可獲得是「『南京』-『市長』-『江大橋』」個字串為辨識結果。如此一來，電子裝置100不僅可依序到音標和音標所對應的詞彙輸出，同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率。並且根據此詞彙的編碼，電子裝置100可獲得此詞彙套用在不同字串中的字串概率，藉以更能準確地辨識出與語音信號S1相符的字串，而提高語音辨識的準確率。

綜上所述，在本實施例之聲學模型的建立方法、語音辨識方法及電子裝置中，電子裝置會基於不同語言、方言或不同發音習慣的語音信號，經由訓練來建立聲學模型、音節聲學詞典以及語言模型。並且，對於具有一個發音以上的多音字，電子裝置會依據多音字的各音標，分別賦予不同的編碼，藉以在語言模型中保留多音字的歧異性。因此，當電子裝置進行語音信號的語音辨識時，可根據聲學模型中所獲得的多個音標，在音節聲學詞典中獲得符合真實發音的詞彙。特別是，由於在音節聲學詞典中，具有一個或多個音標的詞彙具有對應於各音標的各編碼，因此電子裝置能依據每一個編碼，自語言模型中獲得相符合的字串及其字串概率。藉此，電子裝置即可選擇出字串概率最大者所對應的字串，以做為語音信號的辨識結果。

如此一來，本發明可依據來自不同語言、方言或發音習慣的語音輸入，在聲學模型、音節聲學詞典和語言模型中進行解碼，且解碼結果不僅可依序到音標和音標所對應的詞彙輸出，同時也能得到這個音標在不同語言、方言或發音習慣的情況下與詞彙匹配的模糊音概率，以及此詞彙套用在不同字串中的字串概率，據以選出概率最大的輸出，作為語音信號的辨識結果。相比於傳統方法，本發明不僅可以準確地進行聲音至文字的轉換，同時還可知道語言、方言或發音習慣的類型。這對後續的機器語音對話會有幫助，例如對粵語發音的輸入直接用粵語回答。另外，本發明還可將區別多音字的各發音的涵義，使得語音信號的辨識結果更可符合語音信號對應的意思。

值得一提的是，為了避免在發音與文字的映射過程中，丟失了很多語音信息，例如隨音調而異的語義表達，在本發明的語音辨識方法中所得到的解碼結果，還可依序得到音標序列和音標序列所對應的音節序列輸出，同時也能得到這個音標序列在不同語言、方言或發音習慣的情況下與音節序列匹配的概率，以及此音節序列套用在不同文字序列中的概率，據以選出概率最大的輸出作為語音信號的辨識結果。如此一來，在原有語音識別的基礎上，本發明更可提高語音辨識的準確率。為了使本發明之內容更為明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例。

本實施例仍搭配圖1的電子裝置的方塊圖來進行說明。本實施例亦可以程式碼來實現電子裝置100的語音辨識方法。具體而言，儲存單元120中可儲存有多個程式碼片段，而上述程式碼片段在被安裝後，處理單元110會透過這些程式碼片段來執行多個指令，藉以實現本實施例的語音辨識方法。更進一步地說，處理單元110會藉由執行程式碼片段中的多個指令，來建立語音辨識模組，其中包括聲學模型、音節聲學詞典以及語言模型。並且，處理單元110可透過上述程式碼片段來驅動語音辨識模組，以利用聲學模型、音節聲學詞典以及語言模型來執行本實施例之語音辨識方法。據此，本實施例的處理單元110會將輸入單元130所接收的語音信號透過上述語音辨識模組來進行語音辨識，以利用聲學模型、音節聲學詞典以及語言模型而獲得多個音節序列概率及多個音節序列。並且，處理單元110會選出拼音序列概率中最大者所對應的音節序列或文字序列，以做為語音信號的辨識結果。

當然，本實施例亦可包括輸出單元140，用以輸出語音信號的辨識結果，例如透過輸出單元140顯示所獲得的拼音序列概率中最大者所對應的拼音序列或此拼音序列所對應的字串。或者，輸出單元140亦可以是揚聲器，以透過語音方式來播放所述拼音序列。此外，關於本實施例語音辨識方法所適用的電子裝置100的詳細說明，可參考前述實施例，在此不再重複贅述。

底下再舉一實施例來說明本實施例的語音辨識方法，其中仍搭配圖1的電子裝置100。

圖4是依照本發明一實施例的語音辨識模組的示意圖。請參照圖1與圖4，語音辨識模組400主要包括聲學模型410、音節聲學詞典420、語言模型430以及解碼器440。聲學模型410與音節聲學詞典是由語音資料庫41經訓練而獲得，語言模型430是由語料庫(text corpus)42經訓練而獲得。其中，語音資料庫41以及語料庫42具有多個語音信號，而這些語音信號例如是來自不同語言、方言或發音習慣的語音輸入，且語料庫42更具有這些語音信號所對應的拼音。在本實施例中，處理單元110可針對不同的語言、方言或發音習慣進行語音辨識的訓練，而分別建立聲學模型410、音節聲學詞典420、語言模型430，並將這些模型與詞典存放於儲存單元120，以用於本實施例的語音辨識方法中。

詳細而言，聲學模型410用以辨識來自不同語言、方言或發音習慣的語音信號，以識別出與語音信號的發音相符合的多個音標。進一步地說，聲學模型410例如是一個統計分類器，其可利用混合高斯模型，以將所接收到的語音信號，解析成基本的音素(Phone)，並將各音素分類至對應的基本音標。其中，聲學模型410可包括用來識別不同語言、方言或發音習慣的語音輸入所對應的基本音標、音間過渡以及一些非語音的音素(例如咳嗽聲等)。在本實施例中，處理單元110會基於不同語言、方言或不同發音習慣的語音信號，經由訓練而獲得聲學模型410。詳言之，處理單元110可自語音資料庫41接收多個語音信號，以及接收與語音信號中發音相符合的多個音標，其中對應於各音標的發音具有多個音素。並且，處理單元110會依據語音信號與音標進行訓練，而獲得聲學模型410中與音標相對應的多個音素的資料。更具體而言，處理單元110可從語音資料庫41中取得不同語言、方言或發音習慣的語音輸入所對應的語音信號，解析出各語音信號的音素以獲得對應於各語音信號的特徵參數。之後，再利用這些特徵參數與已標註對應音標的語音信號進行訓練，而獲得語音信號的特徵參數與音標相符合的關係，進而建立聲學模型410。

處理單元110可透過音節聲學詞典420，以將聲學模型410所輸出的多個音標映射成對應的音節。其中，音節聲學詞典420具有多個音標序列以及各音標序列所映射的音節。需說明的是，每一個音節都有一個音調，其中音調例如是指陰、陽、上、去及輕聲等，而對於方言來說，音標亦可包括其它音調。為了保留使用者所發出的發音及音調，處理單元110會根據聲學模型410所輸出的多個音標，將這些音標映射成對應的帶音調的音節。

具體來說，處理單元110可透過音節聲學詞典420，而將多個音標轉換成音節。進一步而言，根據聲學模型210所輸出的音標，處理單元110會自音節聲學詞典420輸出帶音調的音節，計算出與聲學模型410所輸出的音標匹配的多個音節序列概率，再從這些音節序列概率中選取最大者所對應的音節序列，來做為這些音標對應的拼音。舉例來說，假設聲學模型410所輸出的音標為「b」)以及「a」，則處理單元110可透過音節聲學詞典420而獲得拼音及其音調為ba(上聲)。

語言模型430用以依據不同詞彙的拼音以及此拼音對應的音調資訊，來辨識出與此拼音相符合的拼音序列，並獲得此拼音與此拼音序列相符合的拼音序列概率，其中拼音序列例如表示相關詞彙的拼音。詳細而言，語言模型430是基於歷史資訊的模型(History-based Model)的設計理念，即，根據經驗法則，統計先前已出現的一連串事件與下一個出現的事件之間的關係。例如，語言模型430可利用機率統計的方法來揭示語言單位內在的統計規律，其中N元語法(N-Gram)簡單有效而被廣泛使用。在本實施例中，處理單元110會基於不同語言、方言或不同發音習慣的多個語料，經由訓練而獲得語言模型430，其中所述語料具有多個發音的語音輸入以及此語音輸入對應的拼音序列。在此，處理單元110會自語料庫42獲得拼音序列，並且將拼音序列與其對應的音調進行訓練，而獲得不同音調的拼音與各拼音序列匹配的資料，例如各拼音與音調資訊匹配於各拼音序列的拼音序列概率。

解碼器440是語音辨識模組400的核心之一，其任務是對輸入的語音信號，根據聲學模型410、音節聲學詞典420以及語言模型430，尋找能夠以最大概率輸出的拼音序列。舉例來說，利用聲學模型410獲得對應的音標(phonetic transcription)，再由音節聲學詞典420來獲得對應的拼音(phonetic spelling)，之後由語言模型430來判斷出一連串的拼音序列成為語音信號所欲表達之語義的概率。

以下即搭配上述圖1的電子裝置100與上述語音辨識模組400來說明本發明的語音辨識方法。圖5是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖4與圖5，本實施例中的語音辨識方法，適於透過電子裝置100來對語音信號進行語音辨識。其中，處理單元110能針對不同的語言、方言或發音習慣，利用聲學模型410、音節聲學詞典420、語言模型430以及解碼器440以自動地辨識出語音信號所對應的語義。

於步驟S510中，輸入單元130接收語音信號S1，其中語音信號S1例如是來自使用者的語音輸入。更具體而言，語音信號S1例如為單音節語言的語音輸入，而單音節語言例如為中文。

於步驟S520中，處理單元110會根據聲學模型410獲得語音信號S1的多個音標，其中音標包括多個音素。在此，對於單音節語言來說，語音信號S1中具有多個音素，而用來表示這些音素之發音的符號為所謂的音標，亦即每個音標代表一個音素。舉例來說，對於「福」這個字而言，其依據不同語言或方言會具有不同的發音。例如，以國語來說，「福」的音標例如是「fú」，而以潮汕話來說，「福」的音標例如是「hog4」。又例如，對於「人」這個字而言，以國語來說，「人」的音標例如是「rén」。以粵語來說，「人」的音標例如是「jan4」。以閩南語來說，「人」的音標例如是「lang2」。以廣的來說，「人」的音標例如是「nin」。換言之，處理單元110從聲學模型410所獲得各音標，是直接映射到語音信號S1的發音。

為了提高語音信號S1的發音映射至音標時的準確度，本實施例的處理單元110可根據預先設定，從聲學模型410中選擇訓練資料，而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。藉此，處理單元110可利用聲學模型410，並選擇訓練資料中的語音信號以及這些語音信號所對應的基本音標，來查詢出符合語音信號S1的多個音標。

詳言之，上述預先設定指的是電子裝置100被設定為依據哪一種發音來進行語音辨識。舉例來說，假設電子裝置100被設定為依據北方人的發音習慣來進行語音辨識，則處理單元110會在聲學模型410中，選擇由北方人的發音習慣所訓練而成的訓練資料。類似地，假設電子裝置100被設定為進行閩南語的語音辨識，則處理單元110會在聲學模型410中選擇由閩南語所訓練而成的訓練資料。上述所列舉的預先設定為舉例說明，於其他實施例中，電子裝置100亦可被設定為依據其他語言、方言或發音習慣來進行語音辨識。

進一步而言，處理單元110會根據所選擇的聲學模型210以及語音信號S1中的音素，計算語音信號S1中的音素與每一個基本音標相符的音標匹配概率。爾後，處理單元110會從所計算出的這些音標匹配概率中，選擇音標匹配概率中最大者所對應的各基本音標，以做為語音信號S1的音標。更具體來說，處理單元110可將所接收到語音信號S1切割為多個音框，而這些音框中的兩相鄰因框之間可以有一段重疊區域。之後，再從每個音框中取出特徵參數而獲得一特徵向量。例如，可利用梅爾倒頻譜係數(Mel-frequency Cepstral Coefficients，MFCC)自音框中取出36個特徵參數，而獲得一個36維的特徵向量。在此，處理單元110可將語音信號S1的特徵參數與聲學模型410所具有的音素的資料進行匹配，以計算出語音信號S1中的各音素與相符的各基本音標之間的音標匹配概率。如此一來，處理單元110可在這些音標匹配概選擇最大者所對應的各基本音標，以做為語音信號S1的音標。

於步驟S530中，處理單元110會根據各音標以及音節聲學詞典420，獲得符合音標的多個拼音以及這些拼音所分別對應的音調資訊。其中，音節聲學詞典420具有符合各音標的多個拼音，以及發音為此音標時，針對不同語義所伴隨之可能的音調。在本實施例中，處理單元110也可根據預先設定，從音節聲學詞典420中選擇訓練資料，而此訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一。並且，處理單元110會依據自音節聲學詞典420中所選擇的訓練資料與語音信號S1的各音標，而獲得音標與各拼音匹配的拼音匹配概率。需說明的是，由於每一個詞彙可因不同語言、方言或發音習慣而具有不同的音標，且每一個詞彙也可依據不同的語義而具有不同音調的發音，因此在音節聲學詞典420中，每一種音標所對應於的拼音皆會具有拼音匹配概率，其中拼音匹配概率會因不同語言、方言或發音習慣而改變。換言之，經由不同語言、方言或發音習慣所訓練的訓練資料，音節聲學詞典420中的各種音標與對應的拼音會具有不同的拼音匹配概率。

舉例來說，當預先設定為選擇音節聲學詞典420中，以北方人的發音訓練而成的訓練資料時，則對於發音為「fú」這個音標而言，其對應的拼音有較大的拼音匹配概率為「Fú」，而有較低的拼音匹配概率為「Hú」。具體來說，當北方人說「福」這個詞彙的時候，處理單元110可自聲學模型410獲得「fú」這個音標，並從音節聲學詞典420中，獲得「Fú」為具有較大拼音匹配概率的拼音，而獲得「Hú」為具有較小拼音匹配概率的拼音。在此，「fú」這個音標所對應的拼音，會因不同地區的方音習慣而有不同的拼音匹配概率。

在另一例中，當預先設定為選擇音節聲學詞典420中，以大多數人之發音習慣所訓練而成的訓練資料時，則對於發音為「yíng」這個音標而言，其對應的拼音有較大的拼音匹配概率為「Yíng」，而有較低的拼音匹配概率為「Xing」。具體來說，通常用戶說「『影』響」這個詞彙的時候，處理單元110可自聲學模型410獲得「yíng」這個音標，並從音節聲學詞典420中，獲得「Xing」以及「Yíng」這些拼音所分別對應的拼音匹配概率。在此，「yíng」這個音標所對應的拼音，會隨者不同的語義而有不同的拼音匹配概率。

值得一提的是，由於相同文字所組成的語音輸入，可根據不同語義或意圖而具有不同音調的語音信號，因此處理單元110可根據音節聲學詞典420中的拼音與音調資訊，而獲得與音調相符的拼音，藉以對不同語義的拼音進行區分。舉例來說，對於「今天很好」這句話所對應的語音輸入來說，其表達的語義可以是疑問句，或者是肯定句。亦即，「今天很好？」中的「好」所對應的音調較高，而「今天很好。」中的「好」所對應的音調會較低。因此，對於發音為「ho」這個音標而言，處理單元110可從音節聲學詞典420中，獲得「háo」以及「ho」這些拼音所分別對應的拼音匹配概率。

換言之，處理單元110可根據音節聲學詞典420中的音調，而識別出具有相同拼音而不同音調的語音輸入，使得這些具有不同音調的拼音在語言模型430中可對應到具有不同含意的拼音序列。如此一來，當處理單元110利用音節聲學詞典420以獲得拼音時，同時可獲得發此拼音時的音調資訊，因此處理單元110可辨識具有不同語義的語音輸入。

於步驟S540中，處理單元110會依據各拼音與音調資訊，自語言模型430中獲得多個拼音序列及多個拼音序列概率。在此，由於不同的音調資訊在語言模型430可被區分為不同的語義，而這些語義會對應於不同的拼音序列，因此處理單元110可依據自音節聲學詞典420所獲得的拼音以及音調資訊，透過語言模型430來計算此拼音以及音調資訊符合各拼音序列的拼音序列概率，進而找出符合此音調資訊的拼音序列。

更具體而言，本實施例的語言模型430中更具有多個關鍵字所對應的拼音序列，其中關鍵字例如是地名、人名等名詞或其他固定用語或慣用語等等。例如，語言模型430具有對應於「長江大橋」這個關鍵字的拼音序列「Cháng-Jing-Dà-Qiáo」。因此，當處理單元110依據自音節聲學詞典420所獲得的拼音以及音調資訊與語言模型430中的拼音序列進行匹配時，可比較這個拼音是否符合語言模型430中的各關鍵字所對應的拼音序列，而若是這個拼音較符合關鍵字所對應的拼音序列，則處理單元110可獲得較高的拼音序列概率。如此一來，倘若處理單元110計算出的拼音序列概率較低，則表示此拼音所對應的音調資訊用於這個拼音序列的機率甚低。反之，倘若處理單元110計算出的拼音序列概率較高，則表示此拼音所對應的音調資訊有很大的機率是對應於這個拼音序列。

接後，於步驟S550中，處理單元110會選擇拼音序列概率中最大者所對應的拼音序列，以做為語音信號S1的辨識結果 S2。舉例來說，處理單元110例如是計算每一來自音節聲學詞典420的拼音匹配概率與來自語言模型430的拼音序列概率之乘積為聯合概率，再從拼音匹配概率與拼音序列概率的聯合概率中選擇最大者所對應的拼音序列，來做為語音信號S1的辨識結果S2。也就是說，處理單元110不限於從音節聲學詞典420中選擇與音標最相符的拼音以及音調資訊，而是處理單元110可依據從音節聲學詞典420所獲得之與音標相符合的多個拼音以及音調資訊，並在語言模型430中選擇拼音序列概率最大者的拼音序列來做為辨識結果S2。當然，本實施例之處理單元110亦可分別在音節聲學詞典420中選擇拼音匹配概率中最大者所對應的拼音以及音調資訊，以做為語音信號的各音標所匹配的拼音，並且根據所述匹配的拼音的來計算各拼音於語言模型430中所獲得的拼音序列概率，再來計算拼音匹配概率與拼音序列概率之乘積為聯合概率，藉以從聯合概率中選出最大者所對應的拼音。

值得一提的是，處理單元110自上述所獲得的拼音序列，還可透過語義識別模組(未繪示)以將拼音序列轉換成對應的文字序列，其中語義識別模組可根據以拼音為基礎的識別資料庫(未繪示)，查詢拼音序列對應的文字。具體來說，識別資料庫具有拼音序列與文字序列對應的資料，因此處理單元110透過語義識別模組以及識別資料庫，可進一步將拼音序列轉換成文字序列，再透過輸出單元140顯示予用戶。

底下再舉一實施例來說明本實施例的語音辨識方法，其中假設來自用戶的語音輸入S1為對應於「南京市長江大橋」這個問句。在此，輸入單元130接收語音信號S1，而處理單元110會根據聲學模型410獲得語音信號S1的多個音標，即「『nán』『jng』『shì』『cháng』『jing』『dà』『qiáo』」。接著，處理單元110會根據這些音標以及音節聲學詞典420，獲得符合音標的多個拼音以及這些拼音所分別對應的音調資訊，而這些拼音以及對應的音調資訊分別有部分的拼音匹配概率為「『Nán』『Jng』『Shì』『Cháng』『Jing』『Dà』『Qiáo』」，或者有部分的拼音匹配概率為「『Nán』『Jng』『Shì』『Zhng』『Jing』『Dà』『Qiáo』」。在此，假設「『nán』『jng』『shì』『cháng』『jing』『dà』『qiáo』」這些音標對應到「『Nán』『Jng』『Shì』『Cháng』『Jing』『Dà』『Qiáo』」這些拼音時，分別具有較高的拼音匹配概率。

之後，處理單元110會依據「Nán」、「Jng」、「Shì」、「Cháng」、「Jing」、「Dà」、「Qiáo」這些拼音以及「Nán」、「Jng」、「Shì」、「Zhng」、「Jing」、「Dà」、「Qiáo」這些拼音，分別自語言模型230中獲得多個拼音序列及多個拼音序列概率。此時，假設「Cháng」、「Jing」、「Dà」、「Qiáo」可在語言模型430中匹配到「長江大橋」這個關鍵字的拼音序列「Cháng-Jing-Dà-Qiáo」，因而「Nán-Jng-Shì-Cháng-Jing-Dà-Qiáo」會有較大的拼音序列概率。如此一來，處理單元110即會以「Nán-Jng-Shì-Cháng-Jing-Dà-Qiáo」做為輸出的拼音序列。

綜上所述，在本實施例的語音辨識方法及電子裝置中，電子裝置會基於不同語言、方言或不同發音習慣的語音信號，經由訓練來建立聲學模型、音節聲學詞典以及語言模型。因此，當電子裝置進行語音信號的語音辨識時，可根據聲學模型獲得符合真實發音的多個音標，以及在音節聲學詞典中獲得符合音標的拼音。特別是，由於音節聲學詞典具有各拼音用於不同語義時的音調資訊，因此電子裝置能依據音調資訊，自語言模型中獲得與拼音相符合的拼音序列及其拼音序列概率。藉此，電子裝置即可選擇出拼音序列概率最大者所對應的拼音序列，以做為語音信號的辨識結果。

如此一來，本發明可依據來自不同語言、方言或發音習慣的語音輸入，在聲學模型、音節聲學詞典和語言模型中進行解碼。並且，解碼結果不僅可依據音標所對應的拼音輸出，同時也能得到這個音標在不同語言、方言或發音習慣的情況下與拼音匹配的拼音匹配概率，以及各拼音套用在不同拼音序列中的拼音序列概率。最後，本發明會選出上述概率最大的輸出，作為語音信號的辨識結果。相比於傳統方法，本發明可獲得語音輸入的真實發音所對應的拼音序列，因此可保留原始語音輸入的信息，例如保留多音字在不同發音時的信息。此外，本發明還可依據語言、方言或發音習慣的類型，來將語音輸入的真實發音轉換成對應的拼音序列。這對後續的機器語音對話會有幫助，例如對粵語(或其他方言/語言)發音的輸入直接用粵語(或其他方言/語言)回答。另外，本發明還可依據真實發音中的音調資訊，區別各拼音的涵義，使得語音信號的辨識結果更可符合語音信號對應的意思。如此一來，本發明的語音辨識方法及電子裝置，可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語言以及語義，使得語音辨識更加精準。

值得一提的是，上述處理單元110在透過語言模型430而獲得拼音序列及拼音序列概率的過程中，是獲得某個拼音映射到某個詞彙的拼音序列的概率，在此定義為正向概率。本實施例的語音辨識方法，還可透過反向概率來達到更高的語音辨識準確率，進一步地判斷出相同的發音所分別對應的不同文字。也就是說，處理單元110會透過語言模型430進一步處理拼音到所對應的文字的映射。其中，處理單元110會查詢各個備選句子中的每一個單詞與所述單詞可能的發音之間相匹配的概率，以獲得匹配於上述拼音所對應的多個文字，以及此拼音匹配各文字的概率，最後再從這些概率中選取最大者來做為語音辨識結果，即語音訊號所對應的文字序列。如此一來，對於同音字或不同習慣性的變音(如方言口音導致的發音)，本實施例的語音辨識方法可直接依據這些發音，更準確地獲得對應於這些發音的文字，大大地提高識別的準確率。為了使本發明之內容更為明瞭，以下特舉實施例作為本發明確實能夠據以實施的範例，其中仍搭配上述圖1的電子裝置100與上述語音辨識模組400來說明本發明的語音辨識方法。

本實施例與前述實施例相似，其不同之處在於：本實施例的處理單元110會將輸入單元130所接收的語音信號S1，透過聲學模型410、音節聲學詞典420以及語言模型430而獲得多個文字序列概率及多個文字序列。並且，處理單元110會選出文字序列概率中最大者所對應的文字序列，以做為語音信號的辨識結果S2。

圖6是依照本發明一實施例所繪示的語音辨識方法的流程圖。請同時參照圖1、圖4與圖6，於步驟S610中，輸入單元130接收語音信號S1，其中語音信號S1例如是來自使用者的語音輸入。於步驟S620中，處理單元110會根據聲學模型410獲得語音信號S1的多個音標，其中這些音標包括多個音素。於步驟S630中，處理單元110會依據各音標以及音節聲學詞典420，獲得符合音標的多個拼音。上述步驟S610至步驟S630與步驟S510至步驟S530相似，故可參考前述相關段落的說明。

於步驟S640中，處理單元110會依據各拼音，自語言模型430中獲得多個文字序列及多個文字序列概率。在此，處理單元110會將各拼音與備選句子列表進行匹配，其中備選句子列表記錄有多個備選句子，且記錄有備選句子中的各單詞所符合的拼音以及各單詞與各拼音之間的單詞拼音概率。因此，處理單元110可透過備選句子列表而獲得各拼音與多個備選句子中的各單詞對應的單詞拼音概率。並且，處理單元110會計算這些拼音所對應的這些單詞拼音概率，而獲得所述文字序列概率，其中對應於文字序列概率的這個備選句子為所述文字序列。

詳言之，處理單元110可預先產生上述的備選句子列表，以建立語言模型430。其中，處理單元110會接收多個備選句子，並且根據語料庫42，獲得與各備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得備選句子所對應的備選句子列表。具體而言，處理單元110可透過輸入單元130以接收多個語音信號，並且基於不同語言、方言或不同發音習慣的語音信號，經由訓練而獲得語料庫42。在此，處理單元110會根據這些用來訓練的語音信號中所對應的多個單詞，接收與各單詞發音相符合的拼音，據以依據各單詞與這些拼音來進行訓練，而獲得語料庫42中各單詞對應於各拼音的單詞拼音概率。

舉例來說，處理單元110會輸入單元130接收來自不同語言、方言或不同發音習慣所發出的「你好」這個語音信號。由於不同語言、方言或不同發音習慣的發音不盡相同，因此「你好」這個語音信號所對應的發音，其拼音可以是「n-ho」(對應於北方人的發音)、「ni-hu」或「nhij-ho」(對應於南方人的發音)等或其他不同的拼音。此時，處理單元110會依據「你好」這個語音信號與其所對應的「n-ho」、「ni-hu」或「nhij-ho」等這些拼音來進行訓練，以分別計算出「你」與「好」所對應的可能拼音有哪些，以及對應的概率(即單詞拼音概率)是多少。例如，對於北方人的發音而言，「你」這個語音信號對應到「n」、「ni」與「nhij」的單詞拼音概率依序是90%、8%以及2%，而「好」這個語音信號對應到「ho」、hu」與「ho」的單詞拼音概率依序是82%、10%以及8%。換言之，處理單元110所獲得的備選句子列表記錄有各單詞與其可能的發音之間的關係，其中每個可能的發音是以拼音來標註，且當各單詞越有機會對應到某一個拼音時，則單詞拼音概率越高。藉此，在語言模型430中，處理單元110便可依據各拼音而獲得這個拼音可能的單詞。

更進一步而言，處理單元110在計算這些拼音所對應的這些單詞拼音概率時，會將對應於語音信號S1中的每一個拼音的單詞拼音概率相乘，而獲得對應於這個語音信號S1的概率乘積來做為文字序列概率，同時獲得這些拼音所對應的單詞所組成的備選句子來做為文字序列。舉例來說，假設處理單元110自音節聲學詞典420所獲得的拼音為「ni-hu」，則依據備選句子列表，處理單元110可將「ni」這個拼音對應到「你」這個單詞，將「hu」這個拼音對應到「好」這個單詞，且處理單元110會將「ni」所對應的單詞拼音概率以及「hu」所對應的單詞拼音概率相乘，而獲得對應於「你好」這個備選句子做為文字序列，以及此時的文字序列概率。當然，此時處理單元110也有機會將「ni-hu」這些拼音對應到其他的單詞(例如對應到「內訌」這個文字序列)，而獲得其他的文字序列概率(例如對應到「內訌」這個文字序列的概率)。

於步驟S650中，處理單元110會選擇文字序列概率中最大者所對應的文字序列，以做為語音信號的辨識結果S2。舉例來說，假設對於「ni-hu」這些拼音而言，處理單元110獲得對應於「你好」這個文字序列的文字序列概率為P1，獲得對應於「內訌」這個文字序列的文字序列概率為P2，且獲得對應於「泥濠」這個文字序列的文字序列概率為P3，其中P1大於P2，且P1大於P3，則處理單元110會選擇文字序列概率為P1所對應的「你好」這個文字序列來做為辨識結果S2。當然，處理單元110亦可透過輸出單元140來顯示所獲得的文字序列概率中最大者所對應的文字序列或者其他可能的文字序列，以讓使用者直覺地辨識這個辨識結果S2。

另外需說明的是，上述處理單元110在獲得文字序列以及計算對應的文字序列概率的步驟中，還可依據不同的門檻值來篩選出較高概率的結果(即，處理單元110自聲學模型410所獲得的各音標及音標匹配概率，自音節聲學詞典420所獲得的各個拼音及拼音匹配概率，及自語言模型430所獲得的各拼音所對應的單詞及單詞拼音概率)，並據以在不同的模型中計算。具體而言，處理單元110可依據第一門檻值，來篩選出音標匹配概率大於第一門檻值的音標，並依據這些音標在音節聲學詞典420來產生對應的拼音。此時，處理單元110可依據第二門檻值，來篩選出拼音匹配概率大於第二門檻值的拼音，並依據這些拼音在語言模型430來產生對應的文字序列與文字序列概率。也就是說，處理單元110所計算出的文字序列概率為上述音標匹配概率、拼音匹配概率以及單詞拼音概率的乘積，故處理單元110可選擇音標匹配概率、拼音匹配概率以及單詞拼音概率的聯合概率中最大者所對應的文字序列，以做為語音信號的辨識結果S2。如此一來，本實施例的語音辨識方法，可精準地依據使用者的發音而獲得符合這個發音的文字序列，藉以消除語音映射到文字所產生的大量歧義性，而大大地提升語音辨識的準確率。

綜上所述，在本實施例的語言模型的建立方法、語音辨識方法及電子裝置中，當電子裝置進行語音信號的語音辨識時，可根據聲學模型獲得符合真實發音的多個音標，以及在音節聲學詞典中獲得符合音標的拼音。特別是，電子裝置會依據每個拼音，自語音模型中找出符合這個拼音的單詞以及單詞拼音概率。最後，電子裝置可經由計算這些拼音對應到這些單詞的單詞拼音概率而獲得文字序列概率，並從這些文字序列概率中最大者所對應的文字序列，來做為辨識結果。相比於傳統方法，由於本發明可依據語音輸入的真實發音所對應的拼音，來進行拼音到文字的辨識，因此可消除語音映射到文字所產生的歧義性，藉以保留原始語音輸入的信息，例如保留多音字在不同發音時的信息。如此一來，本發明的語言模型的建立方法、語音辨識方法及電子裝置，可準確地辨識來自不同語言、方言或不同發音習慣的語音信號所對應的語義，使得語音辨識更加精準。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

S610、S620、S630、S640、S650‧‧‧本發明語音辨識方法的各步驟

Claims

一種語言模型的建立方法，用於一電子裝置，該方法包括：接收多個備選句子；以及根據一語料庫，獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得該些備選句子所對應的一備選句子列表。
如申請專利範圍第1項所述的語言模型的建立方法，更包括：基於不同語言、方言或不同發音習慣的多個語音信號，經由訓練而獲得該語料庫。
如申請專利範圍第2項所述的語言模型的建立方法，其中在基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫的步驟包括：根據該些語音信號中所對應的該些單詞，接收與各該單詞發音相符合的該些拼音；以及依據各該單詞與該些拼音進行訓練，而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
一種語音辨識方法，用於一電子裝置，該方法包括：根據一聲學模型獲得一語音信號的一音標序列，該音標序列包括多個音素；依據該音標序列以及一音節聲學詞典，獲得符合該音標序列的多個拼音；依據該些拼音，自一語言模型中獲得多個文字序列及多個文字序列概率，包括：將各該拼音與一備選句子列表進行匹配，而獲得各該拼音與多個備選句子中的各單詞對應的一單詞拼音概率；以及計算該些拼音所對應的該些單詞拼音概率，而獲得該些文字序列概率，其中對應於該些文字序列概率的該些備選句子為該些文字序列；以及選擇該些文字序列概率中最大者所對應的該文字序列，以做為該語音信號的辨識結果。
如申請專利範圍第4項所述的語音辨識方法，更包括：基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該聲學模型。
如申請專利範圍第5項所述的語音辨識方法，其中在基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該聲學模型的步驟包括：接收與該些語音信號中發音相符合的該些音標序列；以及依據該些語音信號與該些音標序列進行訓練，而獲得該聲學模型中與該些音標序列相對應的該些音素的資料。
如申請專利範圍第4項所述的語音辨識方法，其中在根據該聲學模型獲得該語音信號的該音標序列的步驟包括：根據一預先設定，從該聲學模型中選擇一訓練資料，其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一；根據所選擇的該訓練資料以及該語音信號的各該音素，計算該些音素符合該音標序列的一音標匹配概率；以及選擇該些音標匹配概率中最大者所對應的該音標序列，以做為該語音信號的該音標序列。
如申請專利範圍第4項所述的語音辨識方法，其中在依據該音標序列以及該音節聲學詞典，獲得符合該音標序列的該些拼音的步驟包括：依據該音標序列的一音調，獲得各該拼音對應的一音調資訊。
如申請專利範圍第4項所述的語音辨識方法，其中在依據該音標序列以及該音節聲學詞典，獲得符合該音標序列的該些拼音的步驟更包括：依據該音標序列以及該音節聲學詞典，獲得符合該音標序列的該些拼音，並獲得該音標序列與各該拼音匹配的一拼音匹配概率；以及選擇該些拼音匹配概率中最大者所對應的該拼音，以做為符合各該音標序列的該拼音。
如申請專利範圍第9項所述的語音辨識方法，更包括：選擇該些拼音匹配概率與該些文字序列概率的聯合概率中最大者所對應的該文字序列，以做為該語音信號的辨識結果。
如申請專利範圍第4項所述的語音辨識方法，更包括：接收多個備選句子；以及根據一語料庫，獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得該些備選句子所對應的該備選句子列表。
如申請專利範圍第11項所述的語音辨識方法，更包括：基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫。
如申請專利範圍第12項所述的語音辨識方法，其中在基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫的步驟包括：根據該些語音信號中所對應的該些單詞，接收與各該單詞發音相符合的該些拼音；以及依據各該單詞與該些拼音進行訓練，而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
如申請專利範圍第12項所述的語音辨識方法，其中在依據該些拼音，自該語言模型中獲得該些文字序列及該些文字序列概率的步驟包括：根據一預先設定，選擇該備選句子列表，其中該備選句子列表為對應於基於不同語言、方言或不同發音習慣的該些語音信號其中之一，經由訓練所獲得該語料庫。
一種電子裝置，包括：一儲存單元，儲存多個程式碼片段；以及一處理單元，耦接至該輸入單元以及該儲存單元，該處理單元透過該些程式碼片段來執行多個指令，該些指令包括：接收多個備選句子；以及根據一語料庫，獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得該些備選句子所對應的一備選句子列表。
如申請專利範圍第15項所述的電子裝置，更包括：一輸入單元，接收多個語音信號，且該些指令更包括：基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫。
如申請專利範圍第16項所述的電子裝置，其中該些指令在基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫的步驟包括：根據該些語音信號中所對應的該些單詞，接收與各該單詞發音相符合的該些拼音；以及依據各該單詞與該些拼音進行訓練，而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
一種電子裝置，包括：一輸入單元，接收一語音信號；一儲存單元，儲存多個程式碼片段；以及一處理單元，耦接至該輸入單元以及該儲存單元，該處理單元透過該些程式碼片段來執行多個指令，該些指令包括：根據一聲學模型獲得該語音信號的一音標序列，該音標序列包括多個音素；依據該音標序列以及一音節聲學詞典，獲得符合該音標序列的多個拼音；依據該些拼音，自一語言模型中獲得多個文字序列及多個文字序列概率，包括：將各該拼音與一備選句子列表進行匹配，而獲得各該拼音與多個備選句子中的各單詞對應的一單詞拼音概率；以及計算該些拼音所對應的該些單詞拼音概率，而獲得該些文字序列概率，其中對應於該些文字序列概率的該些備選句子為該些文字序列；以及選擇該些文字序列概率中最大者所對應的該文字序列，以做為該語音信號的辨識結果。
如申請專利範圍第18項所述的電子裝置，其中該些指令更包括：基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該聲學模型。
如申請專利範圍第19項所述的電子裝置，其中該些指令在基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該聲學模型的步驟包括：接收與該些語音信號中發音相符合的該些音標序列；以及依據該些語音信號與該些音標序列進行訓練，而獲得該聲學模型中與該些音標序列相對應的該些音素的資料。
如申請專利範圍第18項所述的電子裝置，其中該些指令在根據該聲學模型獲得該語音信號的該些音標序列的步驟包括：根據一預先設定，從該聲學模型中選擇一訓練資料，其中該訓練資料來自於不同語言、方言或不同發音習慣的訓練結果其中之一；根據所選擇的該訓練資料以及該語音信號的各該音素，計算該些音素符合該音標序列的一音標匹配概率；以及選擇該些音標匹配概率中最大者所對應的該音標序列，以做為該語音信號的該音標序列。
如申請專利範圍第18項所述的電子裝置，其中該些指令在依據該音標序列以及該音節聲學詞典，獲得符合該音標序列的該些拼音的步驟包括：依據該音標序列的一音調，獲得各該拼音對應的一音調資訊。
如申請專利範圍第18項所述的電子裝置，其中該些指令在依據該音標序列以及該音節聲學詞典，獲得符合該音標序列的該些拼音的步驟更包括：依據該音標序列以及該音節聲學詞典，獲得符合該音標序列的該些拼音，並獲得該音標序列與各該拼音匹配的一拼音匹配概率；以及選擇該些拼音匹配概率中最大者所對應的該拼音，以做為符合各該音標序列的該拼音。
如申請專利範圍第23項所述的電子裝置，其中該些指令更包括：選擇該些拼音匹配概率與該些文字序列概率的聯合概率中最大者所對應的該文字序列，以做為該語音信號的辨識結果。
如申請專利範圍第18項所述的電子裝置，其中該些指令更包括：接收多個備選句子；以及根據一語料庫，獲得與各該備選句子中的各單詞符合的多個拼音以及多個單詞拼音概率，藉以獲得該些備選句子所對應的該備選句子列表。
如申請專利範圍第25項所述的電子裝置，其中該些指令更包括：基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫。
如申請專利範圍第26項所述的電子裝置，其中該些指令在基於不同語言、方言或不同發音習慣的該些語音信號，經由訓練而獲得該語料庫的步驟包括：根據該些語音信號中所對應的該些單詞，接收與各該單詞發音相符合的該些拼音；以及依據各該單詞與該些拼音進行訓練，而獲得該語料庫中各單詞對應於各該拼音的該些單詞拼音概率。
如申請專利範圍第26項所述的電子裝置，其中該些指令在依據該些拼音，自該語言模型中獲得該些文字序列及該些文字序列概率的步驟包括：根據一預先設定，選擇該備選句子列表，其中該備選句子列表為對應於基於不同語言、方言或不同發音習慣的該些語音信號其中之一，經由訓練所獲得該語料庫。