TW202143215A

TW202143215A - 應用深度學習的語音增強系統

Info

Publication number: TW202143215A
Application number: TW109115334A
Authority: TW
Inventors: 方士豪; 曹昱; 洪志偉; 王緒翔; 莊富凱
Original assignee: 元智大學
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-11-16
Also published as: TWI749547B

Abstract

一種應用深度學習的語音增強系統包括語音轉換模組、語音擷取模組、語音增強子系統與語音還原模組。語音轉換模組接收第一語音訊號以轉換第一語音頻譜與訊號相位。語音擷取模組將第一語音頻譜串接以獲得第二語音頻譜。語音增強子系統包括語者特徵擷取模型接收第二語音頻譜並輸入第一深度神經網路以擷取語者特徵編碼，語音增強網路模型接收語者特徵編碼與第二語音頻譜，並輸入第二深度神經網路以估計增益函數，增益函數與第二語音頻譜進行頻譜回復以產生增強語音訊號頻譜。語音還原模組將增強語音訊號頻譜與訊號相位結合以輸出第二語音訊號。

Description

應用深度學習的語音增強系統

本發明涉及一種語音增強系統，特別是涉及一種應用深度學習的語音增強系統。

在真實環境中，經常會遇到在噪聲干擾下進行語音通訊的問題，例如在火車、捷運上使用手機時，環境的噪聲訊號會降低語音訊號的品質與可理解度，因此降低了人與人或人與機器間的通訊效率及音訊品質。為了解決這個問題，一些前端語音訊號處理的技術相應而生，它可以從帶有噪音的語音訊號中提取乾淨的語音訊號、減少語音訊號中的雜訊成份，從而提高訊雜比，並且可以增加語音訊號的品質與可被理解性，這個處理方式稱為語音增強演算法(speech enhancement)。語音增強演算法可以分為無監督式與監督式的語音增強演算法，以基於頻域處理為主。

無監督式語音增強演算法，優點是不需要事先準備輸入資料之標籤。目前應用廣泛的無監督式語音增強如基於短時頻譜恢復(spectral restoration)的方法，其常見的演算法例如譜減法(spectral subtraction)以及維納濾波器(wiener filtering)，皆是利用頻譜恢復的方法，而頻譜恢復是在頻譜中估計出訊號的增益函數(gain function)，以此增益函數實現語音增強。另有一些自適應頻譜恢復的方法，其方法則是需要先使用雜訊追蹤演算法找出語音訊號中的噪聲頻譜，後由該噪聲頻譜推得先驗訊雜比(a priori SNR)與後驗訊雜比(a posteriori SNR)如最小控制遞迴平均(minima controlled recursive averaging，MCRA)演算法，進而可計算出訊號的增益函數，並另用此增益函數實現語音增強。

監督式語音增強演算法，需要事前準備「訓練資料」訓練語音增強系統，以實現語音增強。近幾年來，大多數監督式語音增強演算法都是基於建構人工神經網路下的深度學習方式，因為這種方式展現了在回歸分析(regression analysis)上的強大優勢。監督式語音增強演算法，如深層去噪自編碼(deep denoising auto-encoder，DDAE)提出乾淨訊號與帶噪訊號之間的關係模型，並且利用深度神經網路實現語音增強，能有效的去除帶噪訊號中的雜訊。此外，結果顯示以各種不同噪聲條件下深度學習的語音增強模型，在未知的噪聲環境中有著良好的適應能力。

因此，由上述得知，存在一種需求，如何在未知的噪聲環境下，設計具有良好環境適應能力的語音增強系統。

本發明所要解決的技術問題在於，針對現有技術的不足提供一種語音增強系統，可以在未知的噪聲環境中有著良好的適應能力。

為瞭解決上述的技術問題，本發明所採用的其中一技術方案是提供一種應用深度學習的語音增強系統，其包括一語音轉換模組、一語音擷取模組、一語音增強子系統與一語音還原模組。語音轉換模組用於接收第一語音訊號，並應用短時傅立葉轉換將第一語音訊號轉換為對應多個音框的多個第一語音頻譜與多個訊號相位。語音擷取模組連接語音轉換模組，將相鄰的多個音框對應的多個第一語音頻譜進行串接處理以獲得一第二語音頻譜。語音增強子系統連接語音擷取模組，且包括一語者特徵擷取模型與一語音增強網路模型。語者特徵擷取模型連接語音擷取模組，經配置以接收第二語音頻譜並輸入一第一深度神經網路，以擷取第二語音頻譜的至少一語者特徵編碼。語音增強網路模型連接語音擷取模組及語者特徵擷取模型，經配置以接收至少一語者特徵編碼與第二語音頻譜，並輸入一第二深度神經網路，以通過第二深度神經網路估計出一增益函數，且將增益函數與第二語音頻譜進行一頻譜回復處理以產生一增強語音訊號頻譜。語音還原模組連接語音轉換模組及語音增強子系統，接收增強語音訊號頻譜及多個訊號相位，並將增強語音訊號頻譜與多個訊號相位結合，並以反短時傅立葉轉換以輸出增強後的一第二語音訊號。

本發明的其中一有益效果在於，本發明所提供的語者感知語音增強系統中，語者感知語音增強系統處理帶有噪聲的話語，具有明顯的降噪和語音質量和可懂度的提升，且其性能優於傳統非監督式及監督式語音增強。

為使能更進一步瞭解本發明的特徵及技術內容，請參閱以下有關本發明的詳細說明與圖式，然而所提供的圖式僅用於提供參考與說明，並非用來對本發明加以限制。

以下是通過特定的具體實施例來說明本發明所公開有關“應用深度學習的語音增強系統”的實施方式，本領域技術人員可由本說明書所公開的內容瞭解本發明的優點與效果。本發明可通過其他不同的具體實施例加以施行或應用，本說明書中的各項細節也可基於不同觀點與應用，在不背離本發明的構思下進行各種修改與變更。另外，本發明的附圖僅為簡單示意說明，並非依實際尺寸的描繪，事先聲明。以下的實施方式將進一步詳細說明本發明的相關技術內容，但所公開的內容並非用以限制本發明的保護範圍。另外，本文中所使用的術語“或”，應視實際情況可能包括相關聯的列出項目中的任一個或者多個的組合。

語音活動檢測又稱語音端點檢測、語音邊界檢驗，此技術的目的是從帶有噪聲的語音訊號中檢測語音的存在與否，並且定位出語音片段的起始點與終點，都是基於語音數據的原始處理。

語音活動檢測的應用廣泛，如聲音定位、語音編碼、語音辨識、語者辨識等，眾多的語音活動檢測演算法中，本發明使用以統計基礎為主(Statistical-based)的語音活動檢測法，此方法是觀察時域頻帶中之語音訊號的變化以及頻域中之語音訊號的平坦度，利用這些方法可判別出該語音訊號片段為語音或是非語音，進而可以將語音與非語音分離。

深度學習是機器學習中的一環，它是具有層次性的機器學習法，通常被認為是一種「比較深」的類神經網路，並搭配了各式各樣的類神經網路層，如卷積神經網路(convolutional Neural Networks，CNN)、遞迴神經網路(recurrent Neural Network，RNN)等。

類神經網路是一種用數學模型來模仿生物神經元(neuron)與神經系統中的傳導。在類神經網路中，通常會有數個層，每層中會有數十到數百個神經元，其中每個神經元的運作方式則是將上一層神經元的輸入加總後，輸出則是加入啟動函數(activation function)模擬神經傳導的運作方式。其中，每個神經元會跟下一層的神經元連接，使上一層神經元的輸出值經過權重計算後傳遞給下一層的神經元。

類神經網路的架構綜合來說，包含了層的數量、每層中的神經元數量、各層間的神經元連接方式與啟動函數的類型等設定。這些參數設定都是在使用類神經網路前需要由人力設定好的，參數設定的好壞也是大大影響到類神經網路的效能表現，而類神經網路的學習和訓練過程就是試著找到最佳的權重設定。其中隱藏層超過一層以上，而複數個隱藏層的神經網路通常被稱為深度神經網路。

圖1為本發明之應用深度學習的語音增強系統的方塊圖。如圖1所示，本發明的應用深度學習的語音增強系統10至少包括一語音轉換模組11、一語音擷取模組12、一語音增強子系統13以及一語音還原模組14。

語音轉換模組11用於接收第一語音訊號y，並應用短時傅立葉轉換(Short-Time Fourier Transform，STFT)將第一語音訊號y轉換為對應多個音框的多個第一語音頻譜

與多個訊號相位

，

表示y中的第i個音框的頻譜強度。語音擷取模組12連接語音轉換模組11，將相鄰的多個音框對應的多個第一語音頻譜進行串接處理以獲得一第二語音頻譜

。語音增強子系統13連接語音擷取模組12，且包括語者特徵擷取模型131與語音增強網路模型132。語者特徵擷取模型131連接語音擷取模組12，經配置以接收第二語音頻譜

並輸入一第一深度神經網路133，以擷取第二語音頻譜

的至少一語者特徵編碼

。語音增強網路模型132連接語音擷取模組12及語者特徵擷取模型131，經配置以接收至少一語者特徵編碼

與第二語音頻譜

，並輸入一第二深度神經網路134，以通過第二深度神經網路134估計出一增益函數G_i ，且將增益函數G_i 與第二語音頻譜

進行一頻譜回復處理以產生一增強語音訊號頻譜

。語音還原模組連接語音轉換模組11及語音增強子系統13，接收增強語音訊號頻譜

及多個訊號相位

，並將增強語音訊號頻譜

與多個訊號相位

結合，並以反短時傅立葉轉換以輸出增強後的一第二語音訊號

。

在第一實施例中，語音增強子系統13，在此又稱語者感知語音增強模型(Speaker-Aware Denoising Neural Network，SaDNN)主要是由兩個神經網路所組成，分別為語者特徵擷取模型(SpkFE)131及嵌入式語者特徵語音增強網路(SpE-DNN)132，其分別具有一個神經網路，與一般的語音增強系統基於深度神經網路之增益函數估計語音增強模型不同之處在於語者感知語音增強模型另外整合了語者特徵擷取模型產生之語者特徵編碼

。

短時傅立葉變換(STFT)是時頻域分析方法，所謂短時傅立葉變換，顧名思義就是對短時的訊號做傅立葉變換。短時的訊號是由長時的訊號乘短時的幀或稱作音框(frame)而來的。如此把一段長的訊號切開、乘上窗函數，再對每一音框做傅立葉變換，最後把每一音框的結果沿一個維度堆疊起來(frame overlap)，求得振幅成份，得到一幅三維訊號頻譜圖。

首先，定義第一語音訊號y在時域上為帶有雜訊之語音訊號，是由乾淨無噪聲的語音訊號x以及噪聲訊號v加總而得，因此可表示為一向量式：

，

將上式經傅立葉變換後，第m個帶有雜訊的語音訊號的音框可以表示為：

，

其中k對應頻率

：

，

在第一語音頻譜

中，

與

分別為頻域中的乾淨訊號及噪聲訊號，L為音框的長度，k為頻譜中之頻率間隔(frequency bin)。

雜訊追蹤部份，其目的是計算帶有噪聲語音訊號

的音功率譜密度(power spectrum density，PSD)，即可計算得到先驗訊雜比與後驗訊雜比。估計增益函數部份，根據先前計算出之先驗訊雜比與後驗訊雜比，即可估計出增益函數

。最後，增強後訊號

，是為

與

運算過後的結果。為了便於表示，後續的

、

、

及

都將以Y、S、V、G表示之。

通過將噪聲和乾淨語音的第一語音頻譜

分解成振幅與(訊號)相位，可得：

，

，

其中

與

皆為振福，

與

皆為相位，在本發明中訊號的振幅都將以下標a表示之。

為了從帶有雜訊之訊號Y重建出乾淨語音訊號X，在本發明中，估計乾淨語音訊號的相位如下式：

，

其中

的先驗密度通過均勻分佈得：

p(θ)=

，

在區間(−π,π)，依據上述的方程式可得：

；

其中，乾淨語音訊號之頻譜可以表示如下式：

，

頻譜恢復的目的是估計出一增益函數G。

因為語音訊號的頻譜是經由傅立葉變換得來，降低噪聲訊號追蹤所造成的誤差，對語音訊號功率頻譜

進行頻域以及時域上的平滑處理，取一個窗函數做平均，因而增加了相鄰視窗的關聯性，其方程式如下：

，

其中

為加權係數，而窗函數的長度為

。在時域中，對音框的位置採用一階遞迴平滑處理，其方程式如下：

，

其中

為語音訊號的平滑參數，

表示前一個所含噪聲音框的功率頻譜。接著追蹤平滑語音訊號功率頻譜中的最小值當作語音訊號存在的基準，同時估計出語音訊號存在機率，另外暫時儲存一個最小值做為下一段區間內的初始值：

，

，

每當讀取完L個(m=0, 1, …, L−1)音框時，將最小值與前暫存之最小值將被進行初始值更新，方程式如下，並追蹤上述的方程式之功率頻譜中的最小值。

，

，

判斷語音訊號中音框是否有語音存在，可藉由追蹤平滑語音訊號功率頻譜中的最小值來判斷，語音存在指標為：

，

其中

為1時表示語音訊號存在，

為0時表示語音訊號不存在。透過語音存在指標可以對觀測語音的語音存在機率進行追蹤：

，

基於下列兩個假設：語音和噪聲訊號都是隨機過程以及語音和噪聲訊號間獨立不相關，彼此之間具有可加性的，來推導出噪聲訊號的功率頻譜密度(power spectral density，PSD)以及增益函數(gain function)G。

先驗訊雜比(

)與後驗訊雜比(

)兩參數均為統計而來的訊雜比，定義為：

,

，

其中

=,

= E[

]分別為乾淨語音訊號X與噪聲訊號V的音功率譜密度。

假設乾淨語音訊號和噪聲訊號頻譜都是透過高斯分佈建構的，那麼條件概率密度函數(PDF)，p(Y|Xa,θ_X )可表示為：

)，

具有零平均值的複數高斯隨機變數中之振幅和相位在統計上是獨立的，因此p(

)可以表示為：

p(

) = p(

) · p(

)，

其中p(

)萊利分佈(rayleigh distribution)；

，

其中

為萊利分佈機率密度中之超參數。

最大後驗頻譜振幅演算法(Maximum A Posteriori Spectral Amplitude，MAPA)目標估計之頻譜幅度

，可表示為：

，

其中

為MAPA的損失函數，可以表示為：

，

接著上述方程式中的

微分，並令其等於零，即可得到基於MAPA的增益函數：

G_MAPA =

，

其中，

為先驗訊雜比()與

後驗訊雜比。

經過最大後驗頻譜振幅演算法增強後之語音訊號頻譜為：

。

維納濾波器(Frequency-Domain Wiener Filter)是由數學家諾伯特·維納(Norbert Wiener)提出的一種以最小均方誤差為最優準則的線性濾波器。維納濾波器是最經典的頻譜恢復方法之一，分為時域以及頻域維納濾波器。推導時域維納濾波器的方法，為使用預估的方式求得重建後之語音訊號x[n]的過程。首先令一長度為L之有限脈衝響應濾波器(finite impulse response)為h = [h₀ h₁ …h_L−1 ]^T ，再將y[n]與此濾波器之乘積可得

：

，

經過預估後得到的重建語音訊號與原始語音訊號之間存在著誤差值，此誤差值

為：

，

並取其最小均方誤差(minimum mean square error，MMSE)，

，

令最佳重建語音訊號為

與

相比，

則需要包含更少的雜訊，故

的最佳濾波器h₀ 即為時域維納濾波器，方程式如下：

以上為時域維納濾波的部分推導，皆是在時域進行推導，以下將轉換為頻域後繼續進行推導頻域維納濾波器。

在頻域中重複時域維納濾波的推導，並以H替代H[k]表示，可得：

其中，

，

對上式中之H取偏微分後，令該式等於零，即可推算出頻域維納濾波器：

，

其中

與

分別為X和Y的功率頻譜密度，因此，需計算出X和Y的功率頻譜密度方可建構出所需之濾波器，其中Y容易求得，再依據先前的假設，語音與噪聲訊號間獨立不相關，且彼此間具有可加性，即可計算出，如下式：

，

其中

為雜訊V的PSD，再由上述的H₀ 、

、

以及

的方程式即可推導出基於頻域維納濾波器的增益函數G_WIENER ：

。

基於深度神經網路之語音增強模型(Deep Neural Network Based Speech Enhancement，DNN-SE)的目的是，使用神經網路增強訊號y來重建乾淨訊號x，詳細系統的方塊圖如圖1所示。

依舊參閱圖1，語音擷取模組(feature extraction)12連接語音轉換模組11，將相鄰的多個音框對應的多個第一語音頻譜

進行串接處理以獲得一第二語音頻譜

，y經過短時傅立葉轉換得到第一語音頻譜

，

表示y中的第i個音框的頻譜強度，接著經過特徵擷取(feature extraction)後得到一個新的訊號

，其是由連接每個相鄰的音框並取對數成為一個連續的對數功率頻譜，可以表示為：

，方程式A，

其中符號「;」表示垂直連接的意思，第二語音頻譜

的長度為2I+1(在本發明中，假設I=5)。之後將每一個第二語音頻譜

經過基於深度神經網路的語音增強處理得到

，這個

是增強過後的對數功率頻譜，之後將對數功率頻譜經由頻譜回復(spectral restoration)轉換為原先的強度頻譜(magnitude spectrum)

，並與原始訊號y的訊號相位

合併得到新的頻譜

，最後

經過反短時傅立葉轉換得到增強過後的時域訊號

。

圖1中的深度神經網路方塊，其結構是為深度神經網路所組成，並且用來增強輸入訊號

。假設這裡的深度神經網路具有L層，其中任何一層l的輸入與輸出關係：

方程式B，

其中

與

分別為任一l 層的啟動函數與線性回歸函數，而輸入層與輸出層分別對應到的第一層與第L層。因此，可以從深度神經網路方塊中可以得到

=

和

=

。

關於訓練模型階段，首先準備訓練資料集，其是由帶噪語音訊號–乾淨語音訊號

所組成，訓練模型之參數方式是將模型的輸入設為第二語音頻譜

，計算並最小化模型的輸出

與目標輸出

間的損失函數，這裡使用回歸分析時常用的損失函數：均方誤差(mean square error)。

基於深度神經網路之增益函數估計語音增強模型(Deep Neural Network with Gain Estimation Based Speech Enhancement，DNN-Gain)

使用深度神經網路計算出先驗訊雜比與後驗訊雜比，詳細架構如圖2所示。

基於深度神經網路之語音增強模型(DNN-SE)中深度神經網路取代了以往非監督式雜訊追蹤的方法，以神經網路預測ξ與γ，即可計算增益函數G，並與原輸入訊號之對數功率頻譜Y運算後得到增強後之語音訊號頻譜

，可表示為：

。

語者特徵的平均向量(d-vector)，

舉例來說，如下所示之表1，輸入是語音的梅爾頻譜，接著將最後一層的隱藏層之輸出做L2正則化(L2 regularization)，隨後取得整段語音在深度神經網路的輸出，並求得一平均向量(d-vector)，在安靜與吵雜的環境下測試，平均向量(d-vector)語者驗證系統分別能降低14%與25%的錯誤率。

表1

為了增進一般語音增強系統在不同語者中的處理能力，本發明以基於深度神經網路之增益函數估計語音增強模型(DNN-Gain)2為基礎，建構出應用深度學習之語者感知的語音增強系統(speaker-aware denoising neural network，SaDNN)20，系統方塊圖如圖2所示。在第二實施例中的應用深度學習的語音增強系統20，同樣包括至少包括一語音轉換模組21、一語音擷取模組22、一語音增強子系統23以及一語音還原模組24。由於第二實施例的語音轉換模組11、語音擷取模組12與語音還原模組14和第一實施例的語音轉換模組21、語音擷取模組22與語音還原模組24相同，因此，有關第二實施例的語音轉換模組21、語音擷取模組22與語音還原模組24的敘述，在此不再贅述。

在第二實施例的語音增強子系統23同樣包括語者特徵擷取模型231與語音增強網路模型232，第二實施例的語者特徵擷取模組231同樣和第一實施例的語者特徵擷取模組131相同，其分別包括一第一深度神經網路233與一第二深度神經網路234，而第二實施例的語者增強子系統23進一步包括一噪聲特徵擷取模型235與一(嵌入式)語音增強模型236。噪聲特徵擷取模型235連接語音擷取模組22與語音增強網路模型232，噪聲特徵擷取模型235接收第二語音頻譜，以通過一第三深度神經網路237進行一噪聲特徵提取處理以產生至少一噪聲特徵編碼

。

嵌入式語音增強模型236連接語音擷取模組22、語音增強網路模型232及噪聲特徵擷取模型235，接收第二語音頻譜、至少一語者特徵編碼

及至少一噪聲特徵編碼

以輸入一第四深度神經網路238，以通過第四深度神經網路238估計增益函數G。

本發明的語者感知語音增強系統有效的整合不同語者間的特徵，研究結果顯示語音增強後的評估指標均優於基於深度神經網路之增益函數估計語音增強模型的語音增強系統。進一步考慮到語者所在的環境中有數種噪聲干擾(非人聲訊號)，因此以基於深度神經網路之增益函數估計語音增強模型為基礎，衍伸出一種兼具語者特徵以及噪聲特徵的環境感知語音增強系統(speaker and speaking environment-aware denoising neural network，SEaDNN)。環境感知語音增強系統結合了基於深度神經網路之語音增強系統、特定語者的個人化特徵以及語者所在環境的噪聲特徵。

類似於前面章節之第一實施例所提到的應用深度學習的語音增強系統10，在第二實施中，

模型之環境感知的語音增強系統20的輸入是由連接每個相鄰的音框並取對數成為一個連續的對數特徵頻譜(context feature)所組成，可表示如上述的方程式A。在本發明的第二實施例中，基於深度神經網路之語音增強系統20特別的地方是，是由三個深度神經網路(deep neural networks，DNNs)模型所組成，分別為語者特徵擷取模型(SpkFE module)231、環境的噪聲特徵擷取模型(NoeFE module)235以及嵌入式語音增強模型(例如如嵌入式環境整合語音增強神經網路模型(EE-DNN module)等)236。

圖3為(嵌入式語者特徵)語音增強網路模型的示意圖，如圖3所示，(嵌入式語者特徵)的語音增強網路模型132或232為結合帶噪聲語音之特徵

和語者特徵擷取模型產生的語者特徵編碼

的深度神經網路。帶噪聲語音之特徵

放置在輸入層(第1層)，語者特徵編碼

將與特定層(第l層)之輸出連接，因此輸入的特徵到下一層隱藏層30(第l+1層)可以表示為

。因此本發明的嵌入式語者特徵語音增強網路132或232相似於傳統的基於深度神經網路之增益函數估計語音增強網路模型，不同之處在於(嵌入式語者特徵)語音增強網路132或232在特定隱藏層加入了語者特徵。

訓練(嵌入式語者特徵)語音增強網路132或232之前，訓練資料集是由帶噪語音之特徵{

}、乾淨語音之特徵{

}以及語者特徵擷取模型產生之語者特徵{

}組建而成。訓練以輸入{

}和{

}並產生輸出為{

}之增益函數輸出。訓練方式如最小化損失函數之誤差等方式。

為了要從語者的資訊中擷取語者特徵，本發明提出的語音增強系統包括語者特徵擷取模型(SpkFE)131或231，如下所示之表2所示，其中

為語者特徵，p(spk_ij )為語者類別。

表2

建構語者特徵擷取模型(SpkFE)131或231的主要目的是擷取語音訊號中的語者特徵編碼

，作法為將如下所述。語音訊號

中的每個音框的特徵分類為該語者的類別p(spk_j )，因此語者的數量N決定了深度神經網路的輸出大小與維度，另外考慮到訓練資料集中的非語音之音框類別，因此深度神經網路的輸出類別有(N+1)種，故j=1, 2, ..., N+1。另外類別p(spk_j )為語音訊號

經過語音活性檢測(Voice Activity Detection，VAD)處理後得到的語者類別，將作為語者特徵擷取模型中深度神經網路的期望輸出。類別p(spk_j )為一有效編碼(One-Hot編碼)後的(N+1)維向量，其中非零元素對應到相應的語者。

圖4展示了語者特徵擷取模型131中的第一深度神經網路架構，網路中每一隱藏層40間的輸入與輸出關係可以表示如上述的方程式B，其輸出層之啟動函數設定為歸一化指數(softmax)函數，而輸入層與所有隱藏層之啟動函數設定為線性整流函數(rectified linear unit，ReLU)。當深度神經網路訓練完成，選取最後一層隱藏層之輸出(即倒數第二層)，並定義此輸出為語者特徵編碼

，表示輸入

中各音框之向量的語者特徵，因此語者特徵擷取模型有兩個輸出，而取得的

將被送入嵌入式環境整合語音增強神經網路模型132中進一步處理。值得注意的是，選取語者特徵編碼

的方式，對於那些未知的語者而言，語者特徵編碼

具有比輸出層的輸出更能夠表示語者資訊的概括能力，同時這個做法在初步的研究中提供了噪聲特徵的環境感知語音增強系統更好的語音增強性能。

基於深度神經網路的噪聲特徵擷取模型，目的是從語者所在的環境提取環境中的噪聲特徵編碼

，其示意下表3所示。

表3

噪聲特徵擷取模型將語音訊號

中的每個噪聲特徵分類為該噪聲的類別，因此噪聲的數量M決定了噪聲特徵擷取模型的輸出大小與維度，故k = 1, 2, ..., M。另外p(noe^k )為語音訊號

中的噪聲類別，將作為噪聲特徵擷取模型的期望輸出；p(noek)為One-Hot編碼後的M維向量，其中非零元素對應到相應的噪聲。

圖5為第三深度神經網路的示意圖，顯示了噪聲特徵擷取模型235的架構，其網路結構為具有一第三深度神經網路237，其中每一隱藏層50間的輸入與輸出關係可以表示如上所示的方程式B，其輸出層之啟動函數設定為歸一化指數(softmax)函數，而輸入層與所有隱藏層之啟動函數設定為線性整流函數(rectified linear unit，ReLU)。當深度神經網路訓練完成，選取最後一層隱藏層之輸出(即倒數第二層)，並定義此輸出為噪聲特徵編碼

，表示輸入的語音訊號

中各音框之向量的語者特徵，之後噪聲特徵編碼

與

都將被送入嵌入式環境整合語音增強神經網路模型(嵌入式語音增強模型236)中進一步處理。

比較噪聲特徵擷取模型235與語者特徵擷取模型231，目的均是提取特定語音訊號的特徵，用以增進嵌入式環境整合語音增強神經網路模型(嵌入式語音增強模型236)的系統效能，選取噪聲特徵編碼

的這個方式，對於那些未知的噪聲而言，噪聲特徵編碼

具有比最後的輸出層之輸出就有更能夠表示未知噪聲特徵的概括能力，同時這個做法在初步的實驗中提供了噪聲特徵的環境感知語音增強系統更好的語音增強性能。

在嵌入式環境整合語音增強神經網路(Environment Embedded Denoising Neural Network，EE-DNN)(嵌入式語音增強模型236)中，基於深度神經網路之增益函數估計語音增強模型系統使用帶噪語音之特徵頻譜做為輸入，而嵌入式環境整合語音增強神經網路236則另外加入了語者特徵擷取模型與噪聲特徵擷取模型產生之語者與噪聲特徵，此兩種特徵合稱環境特徵，嵌入式環境整合語音增強神經網路236的架構如圖6所示。

圖6為第四深度神經網路的示意圖，如圖6所示，嵌入式環境整合語音增強神經網路236的輸入包含了帶噪語音之特徵

、語者特徵

以及噪聲特徵編碼

。帶噪語音之特徵

放置在輸入層，而噪聲特徵編碼

和語者特徵

將分別與特定層(第l1與第l2層)之輸出連接，因此輸入的特徵到下一層隱藏層60(第l1+1)與(第l2+1)層可以表示為

與

。

因此嵌入式環境整合語音增強神經網路模型相似於傳統的DNN-Gain網路，不同之處在於嵌入式環境整合語音增強神經網路模型在特定隱藏層中加入了語者特徵與噪聲特徵。嵌入式環境整合語音增強神經網路模型之訓練資料集是由帶噪語音之特徵{

}、相關的乾淨語音之特徵{

}以及Sp語者特徵擷取模型kFE產生之特徵{

}與噪聲特徵擷取模型產生之特徵{

}建構而成。訓練嵌入式環境整合語音增強神經網路模型是以輸入{

}、{

}以及{

}並產生輸出為{

}之增益函數輸出。

圖7A為語者特徵編碼分布圖，圖7B為語者噪聲分布圖。首先將訓練資料分為帶有噪聲的資料集(簡稱Noisy)以及乾淨資料集(簡稱Clean)，帶有噪聲的資料集中有不相同的24位語者(24 × 8 = 192個音檔)，並將其混入3種不同訊雜比的4種噪聲，因此共有2304個音檔(192×3×4 = 2304)，而乾淨資料集中有不相同的24位語者(24 × 8 = 192個音檔)，另外測試資料為帶有噪聲的資料集與乾淨資料集的集合(2304 + 192 = 2496個音檔)。接著分別以帶有噪聲的資料集與乾淨資料集訓練SpkFE模型，得到的兩個模型分別簡稱為帶有噪聲的資料集的模型(Noisy model)與乾淨資料集的模型(Clean model)，最後使用測試資料測試兩個模型，得到兩種語者特徵編碼。

如圖7B所示的語者特徵不能有效區隔不同噪聲比(SNR)，因為這些特徵點多彼此交錯分佈。然而，從圖中仍能觀察到一些趨勢，在高噪聲比(SNR)的條件下，其分佈偏向外圍，反之，在低噪聲比(SNR)的比情況下，則偏向中心。這個結果表示語者的模型較容易受到噪聲比(SNR)的影響，相比於雜訊型態。

圖7C為原始帶有噪聲語音與經過本發明的應用深度學習的語音增強系統處理的柱狀圖。如圖7C所示，這些結果表明在本發明第一實施例或第二實施例中，語者特徵擷取模型以及噪聲特徵擷取模型的有效性，因此為整個語音增強過程呈現了對語音變化以及環境噪聲變化的強健性。

本發明提出了一種新穎的語者感知語音增強系統，減少話語中來自不同語者、不同環境的影響下的失真，進而增加了語音訊號的品質。語者感知語音增強系統是由三個深度神經網路(DNN)所組成，第一個取得每位語者的特徵，第二個取得了語者當時環境中的環境噪聲之特徵，而第三個運用了第一個及第二個DNN所擷取的語音訊號特徵，使得帶有噪聲之語音還原成接近原來乾淨語音。特別是，語者感知語音增強系統證明有效且很好地增強了未知的語者以及在未知的環境中所產生的話語。

[實施例的有益效果]

以上所公開的內容僅為本發明的優選可行實施例，並非因此侷限本發明的申請專利範圍，所以凡是運用本發明說明書及圖式內容所做的等效技術變化，均包含於本發明的申請專利範圍內。

10:語音增強系統 11:語音轉換模組 12:語音擷取模組 13:語音增強子系統 131:語者特徵擷取模型 132:語音增強網路模型 133:第一深度神經網路 134:第二深度神經網路 14:語音還原模組 y:第一語音訊號

:第一語音頻譜

:訊號相位

:第二語音頻譜

:語者特徵編碼

:增益函數

:增益函數

:噪聲特徵編碼

:噪聲特徵編碼

:增強語音訊號頻譜

:第二語音訊號 20:語音增強系統 21:語音轉換模組 22:語音擷取模組 23:語音增強子系統 231:語者特徵擷取模型 232:語音增強網路模型 233:第一深度神經網路 234:第二深度神經網路 235:噪聲特徵擷取模型 236:嵌入式語音增強模型 237:第三深度神經網路 238:四深度神經網路 24:語音還原模組 30:隱藏層 40:隱藏層 50:隱藏層 60:隱藏層 PESQ:語音品質

圖1為本發明第一實施例之應用深度學習的語音增強系統的方塊圖。

圖2為本發明第二實施例之應用深度學習的語音增強系統的方塊圖。

圖3為語音增強網路模型的示意圖。

圖4為語者特徵擷取模型中的第一深度神經網路架構的示意圖。

圖5為第三深度神經網路架構的示意圖。

圖6為第四深度神經網路架構的示意圖。

圖7A為語者特徵編碼分布圖。

圖7B為語者噪聲分布圖。

圖7C為原始帶有噪聲語音與經過本發明的應用深度學習的語音增強系統處理的柱狀圖。

10:語音增強系統

11:語音轉換模組

12:語音擷取模組

13:語音增強子系統

131:語者特徵擷取模型

132:語音增強網路模型

133:第一深度神經網路

134:第二深度神經網路

14:語音還原模組

y:第一語音訊號

Y_i :第一語音頻譜

∠Y _P :訊號相位

:第二語音頻譜

:語者特徵編碼

:增強語音訊號頻譜

:第二語音訊號

G_i :增益函數

Claims

一種應用深度學習的語音增強系統，其包括：一語音轉換模組，用於接收第一語音訊號，並應用短時傅立葉轉換將所述第一語音訊號轉換為對應多個音框的多個第一語音頻譜與多個訊號相位；一語音擷取模組，連接所述語音轉換模組，將相鄰的多個所述音框對應的多個所述第一語音頻譜進行串接處理以獲得一第二語音頻譜；一語音增強子系統，連接所述語音擷取模組，且包括：一語者特徵擷取模型，連接所述語音擷取模組，經配置以接收所述第二語音頻譜並輸入一第一深度神經網路，以擷取所述第二語音頻譜的至少一語者特徵編碼；及一語音增強網路模型，連接所述語音擷取模組及所述語者特徵擷取模型，經配置以接收所述至少一語者特徵編碼與所述第二語音頻譜，並輸入一第二深度神經網路，以通過所述第二深度神經網路估計出一增益函數，且將所述增益函數與所述第二語音頻譜進行一頻譜回復處理以產生一增強語音訊號頻譜；以及一語音還原模組，連接所述語音轉換模組及所述語音增強子系統，接收所述增強語音訊號頻譜及多個所述訊號相位，並將所述增強語音訊號頻譜與多個所述訊號相位結合，並以反短時傅立葉轉換以輸出增強後的一第二語音訊號。
如請求項1所述的應用深度學習的語音增強系統，其中，所述語者特徵擷取模型將從所述第二語音頻譜擷取的至少一語音特徵編碼以多個語者類別進行分類，根據語者的數量決定所述深度神經網路的隱藏層數量，並在最後一個所述隱藏層輸出所述語者特徵編碼。
如請求項2所述的應用深度學習的語音增強系統，其中，在所述語者特徵擷取模型中，所述深度神經網路的輸入與輸出關係為：
，其中
與
分別為任一所述隱藏層l 的啟動函數與線性回歸函數，而輸入層與輸出層分別對應到的第一個所述隱藏層層與第L個所述隱藏層，所述第二語音頻譜設置在所述輸入層，至少一所述語者特徵編碼設置在所述輸入層語所述輸出層以外的任一所述隱藏層。
如請求項2所述的應用深度學習的語音增強系統，其中，所述語音增強網路模型更包括：一噪聲特徵擷取模型，連接所述語音擷取模組與所述語音增強網路模型，所述噪聲特徵擷取模型接收所述第二語音頻譜，以通過一第三深度神經網路進行一噪聲特徵提取處理以產生至少一噪聲特徵編碼；一嵌入式語音增強模型，連接所述語音擷取模組、所述語音增強網路模型及所述噪聲特徵擷取模型，接收所述第二語音頻譜、所述至少一語者特徵編碼及所述至少一噪聲特徵編碼以輸入一第四深度神經網路，以通過所述第四深度神經網路估計所述增益函數。
如請求項4所述的應用深度學習的語音增強系統，其中，所述噪聲特徵擷取模型將所述第二語音頻譜中的噪聲特徵分類為噪聲類別，根據噪聲數量決定所述深度神經網路的所述隱藏層數量，並在最後一個所述隱藏層輸出所述噪聲特徵編碼。
如請求項5所述的應用深度學習的語音增強系統，其中，其中，在所述噪聲特徵擷取模型中，所述深度神經網路的輸入與輸出關係為：
，其中
與
分別為任一所述隱藏層l 的啟動函數與線性回歸函數，而輸入層與輸出層分別對應到的第一個所述隱藏層層與第L個所述隱藏層，且所述輸出層的激活函數設定為歸一化指數(softmax)函數，而所述輸入層與所有的所述隱藏層之啟動函數設定為線性整流函數(rectified linear unit，ReLU)，且所述第二語音頻譜設置在所述輸入層。
如請求項1所述的應用深度學習的語音增強系統，其中，所述增益函數是應用最大後驗頻譜振幅演算法(Maximum A Posteriori Spectral Amplitude，MAPA)或維納濾波器(Frequency-Domain Wiener Filter)，以計算出基於所述最大後驗頻譜振幅演算法或所述維納濾波器的所述增益函數。
如請求項1所述的應用深度學習的語音增強系統，更包含一頻譜回復模組，用以對數功率頻譜表示的所述第二語音頻譜與所述第一語音訊號的所述訊號相位合併得到新頻譜表示的所述第二語音頻譜，再將新頻譜表示的所述第二語音頻譜以反短時傅立葉轉換後，輸出增強後的一第二語音訊號。
如請求項1所述的應用深度學習的語音增強系統，其中，所述第一深度神經網路、所述第二深度神經網路、所述第三深度神經網路與所述第四深度神經網路為卷積神經網路或遞迴神經網路。
如請求項1所述的應用深度學習的語音增強系統，其中，所述第二語音頻譜是由連接每個相鄰的所述音框並取對數成為一個連續的對數功率頻譜。