TWI581255B

TWI581255B - 前端音頻處理系統

Info

Publication number: TWI581255B
Application number: TW105120417A
Authority: TW
Inventors: 施家琪; 劉鑫
Original assignee: 芋頭科技(杭州)有限公司
Priority date: 2015-06-30
Filing date: 2016-06-29
Publication date: 2017-05-01
Also published as: CN106328154B; HK1231622A1; TW201701275A; CN106328154A; WO2017000772A1

Description

前端音頻處理系統

本發明關於智能語音互動領域，特別是關於一種前端音頻處理系統。

隨著嵌入式技術和人工智慧技術的發展，在智慧機器人上，語音識別技術開始得到廣泛的應用，再次掀起了人機互動的革命。語音識別技術是一種讓機器通過識別和理解過程把自然語音訊號轉變為相應文字或命令的技術。語音識別技術的關鍵性能參考是識別率，如果識別率太低，那麼使用者會因為要多次朗讀語音命令而影響人機間通信的流暢性。音頻前端處理就是一系列以提高有效語音訊雜比為目標的從機器語音採集到演算法預處理過程的全稱。常見的語音前端處理技術包括環境噪音消除技術，自身音源消除技術以及增益自動控制技術。環境噪音消除技術用於降低真實世界中的穩態和非穩態噪音，一般環境消除技術都對穩態噪音有較好的效果，而對非穩態噪音，由於其具有能量大，規律性不強的特點，常見環境噪音消除效果較差。自身音源消除技術旨在減少機器人自身發聲對自身音頻收集的影響，比如一台閱讀報紙的機器人，報紙上的內容會通過TTS技術轉換成語音信息由機器人播放出來，此時播放出來的語音信息有可能會干擾機器人的語音識別系統，使機器人出現錯誤識別和識別率下降的問題。自動增益控制技術則旨在自動調節麥克風採集到音頻的增益，在麥克風一定的情況下，如果採集到的音頻能量過大，則會出現訊號截幅導致其頻譜變化從而出現識別率下降的問題。另外由於聲音能量隨距離而衰減，如果命令發出者距離機器人較遠，則需要提升有效音頻訊號的能量。

大多數智慧機器人採用的操作系統Linux或Android已經將上述技術以單獨演算法模組的形式集成在系統內部。比如在Android系統中，環境噪音消除技術和自身音源消除技術被抽象為音頻特效(Audio Effect)，這些音效以單獨演算法的形式構造成鏈式結構，通過設定檔由音頻服務在啟動時決定是否使用這些演算法，而增益自動控制則可選的實現在更底層的驅動抽象層或音頻服務當中。這些獨立存在於不同組件中的音頻前端處理演算法雖然能滿足常規的諸如手機或平板的智慧設備應用，但是由於模組之間相互獨立，很多場景需要演算法協同配合以及參考訊號採集困難的問題不能滿足複雜且使用場景靈活多變的智慧機器人。

由於目前智慧操作系統的前端音頻處理系統存在演算法設計和結構設計上的兩個問題。

首先這些演算法仍然是針對傳統平板或手機等傳統智能設備設計的。環境降噪演算法在傳統手機上的目標是降低穩態噪音，演算法參數配置上不注重對穩態噪音的消除。自身音源消除演算法則依賴於自身參考音源，傳統智慧操作系統的自身參考音樂來自自身的音頻輸出緩衝區，而緩衝區的不確定性這會導致自身參考音源訊號和接收到的音源訊號延時不固定，從而影響演算法的效果，基於上述原因針對手機或平板的自身音源消除演算法都比較保守，在有效語音和自身音源訊雜比較低的情況下，效果較差。由於傳統智慧操作系統多針對手機平板，這些智能設備多配備指向性麥克風，並且使用者使用麥克風時習慣性離設備很近，故傳統操作系統的自動增益控制並不是必須技術。

其次在結構設計上為當前智慧操作系統添加這些演算法模組並不能解決問題，這是因為智慧機器人所位於的真實場景十分複雜多變，原來各種相互獨立的前端音頻問題會互相關聯在一起。比如自動增益演算法如果參數不正確或調用順序不對會將本身細小的噪音放大然後干擾其他演算法。

鑒於上述問題，本發明提供一種前端音頻處理系統，應用於家庭智慧機器人，其中，包括：訊號分離單元，用以對一採集訊號進行分離處理以獲得有效訊號和參考訊號；第一處理單元，連接所述訊號分離單元，用以接收所述訊號分離單元輸出的所述有效訊號，並對所述有效訊號進行分析去除所述有效訊號中的低頻噪音訊號；第二處理單元，分別連接所述訊號分離單元和所述第一處理單元，分別接收所述訊號分離單元輸出的所述參考訊號和所述第一處理單元輸出的經過去除低頻噪音訊號處理的所述有效訊號，用以根據所述參考訊號按照預定的演算法去除所述有效訊號中的自噪音訊號形成純淨音頻訊號；比較單元，連接所述第二處理單元，用以接收經所述第二處理單元的所述純淨音頻訊號，並將所述純淨音頻訊號和所述有效訊號做比較，形成一比較結果；計算單元，於所述有效音頻訊號小於所述純淨音頻訊號一預設閾值的狀態下，對所述有效音頻訊號進行放大，於所述有效音頻訊號不小於所述純淨音頻訊號的所述預設閾值的狀態下，對所述有效音頻訊號進行減小。

於一較佳實施方式中，其中更包括：採集轉化單元，連接所述訊號分離單元，用以接收不同採集單元獲取的不同格式的採集訊號，並對所述採集訊號轉化成預定格式的採集訊號輸出至所述訊號分離單元。

於一較佳實施方式中，其中更包括：一麥克風，設置於所述音頻播放裝置的輸出端，用以採集所述音頻播放裝置輸出的音頻並形成所述參考訊號。

於另一較佳實施方式中，其中所述訊號分離單元將所述有效訊號和參考訊號分佈於複數個不同聲道中，並將每個所述聲道上的所述有效訊號和所述參考訊號進行分離。

於又一較佳實施方式中，其中所述純淨音頻訊號的獲取方法為回聲時延估計方法。

於另一較佳實施方式中，其中所述純淨音頻訊號的獲取方法為歸一化最小均方自適應演算法。

於另一較佳實施方式中，其中所述純淨音頻訊號的獲取方法為非線性濾波和舒適噪音產生方法。

於又一較佳實施方式中，其中應用單元，連接所述計算單元，用於將所述計算單元輸出的所述有效音頻訊號進行變換並輸出。

綜上所述，本發明設計的一種前端音頻處理系統，該系統填補了目前市面常見嵌入式操作系統在智慧機器人領域語音前端處理方面的缺失，該框架可以再不修改現有嵌入式操作系統代碼的基礎上為後端語音識別應用提供前端語音降噪功能，具有較高的系統可擴展性和靈活性。

參考所附附圖，以更加充分的描述本發明的實施例。然而，所附附圖僅用於說明和闡述，並不構成對本發明範圍的限制：圖1本發明系統框架示意圖。

為了使本發明的技術方案及優點更加易於理解，下面結合附圖作進一步詳細說明。應當說明，此處所描述的具體實施例僅用以解釋本發明，並並不用於限定本發明。

本發明的核心思想是：通過對採集到的音頻數據進行層層處理後得到家庭智慧機器人上的應用所需要的音頻訊號，在不修改現有嵌入式操作系統代碼的基礎上為後端語音識別應用提供前端語音降噪功能，具有較高的系統可擴展性和靈活性。

所以本發明涉及一種前端音頻處理系統，該系統應用於家庭智慧機器人中，包括有：採集轉化單元，該單元採集音頻並進行預處理，由於目前不同的操作系統對音頻數據的採集方式不同，所以需要採集轉化單元來抽象音頻訊號的數據採集；訊號分離單元，與採集轉化單元連接，並用來採集參考訊號資訊，該訊號分離單元通過硬體參考訊號採集法在家庭智慧機器人的音頻模擬訊號輸出端進行訊號採集，然後將採集到的訊號合成複數不同聲道，並將每個聲道上的有效訊號和參考訊號進行分離；第一處理單元，與訊號分離單元連接，用以接收訊號分離單元輸出的有效訊號，並對有效訊號進行分析去除有效訊號中的低頻噪音訊號；第二處理單元，分別連接所述訊號分離單元和所述第一處理單元，分別接收所述訊號分離單元輸出的所述參考訊號和所述第一處理單元輸出的經過去除低頻噪音訊號處理的所述有效訊號，用以根據所述參考訊號按照預定的演算法去除所述有效訊號中的自噪音訊號形成純淨音頻訊號；比較單元，連接所述第二處理單元，用以接收經所述第二處理單元的所述純淨音頻訊號，並將所述純淨音頻訊號和所述有效訊號做比較，形成一比較結果；計算單元，於所述有效音頻訊號小於所述純淨音頻訊號一預設閾值的狀態下，對所述有效音頻訊號進行放大，於所述有效音頻訊號不小於所述純淨音頻訊號的所述預設閾值的狀態下，對所述有效音頻訊號進行減小。

應用介面，與計算單元連接，將有效音頻訊號根據家庭智慧機器人的應用需要的聲道進行轉換並傳輸給家庭智能機器人的應用。

下面將結合具體實施例進行說明：如圖1所示，本發明針對目前家庭智慧機器人前端音頻處理問題，設計一種應用於家庭智能機器人的前端音頻處理系統，該系統主要包括有：採集轉化單元，訊號分離單元，第一處理單元，第二處理單元，比較單元和計算單元，以及應用介面；採集轉化單元是用於面向不同操作系統設計的音頻採集預處理模組，由於不同操作系統間對音頻數據的採集數據方式不同，需要一個採集轉化單元將不同數據格式轉化為訊號分離單元可識別的數據格式輸出。

訊號分離單元用於將採集訊號進行分離從而獲得有效訊號和參考訊號，本方案中採用透過設置一硬體電路獲取參考訊號，例如採用一個麥克風設置在音頻播放裝置的輸出端，麥克風採集音頻播放裝置輸出的音頻訊號並形成參考訊號，所述訊號分離單元將所述有效訊號和參考訊號分佈於複數個不同聲道中，並將每個所述聲道上的所述有效訊號和所述參考訊號進行分離。

第一處理單元用於給有效音頻訊號進行降噪處理，本方案採用基於改進的維納濾波器設計的環境音降噪演算法，該層僅對有效音頻訊號進行降噪處理，參考訊號不經過處理直接送往上層。

第二處理單元根據參考訊號消除採集轉化單元採集到的來自自身的干擾音頻訊號，該單元需要來自訊號分離單元的參考訊號和來自第一處理單元降噪後有效音頻訊號作為輸入訊號，用以根據所述參考訊號按照預定的演算法去除所述有效訊號中的自噪音訊號形成純淨音頻訊號；其中，純淨音頻訊號的獲取方法可採用下述的任一種或幾種結合：回聲時延估計、歸一化最小均方自適應演算法、非線性濾波、舒適噪音產生。

比較單元和計算單元用於根據當前純淨音頻訊號的平均能量值對當前音頻訊號進行處理，如果當前音頻訊號能量值小於預設閾值則放大當前音頻訊號能量，如果大於則減小當前音頻訊號能量。

應用介面針對家庭智慧機器人的應用需要的聲道數，採樣並進行最後轉換工作，然後將需要的音頻訊號導出給家庭智慧機器人的語音應用。

在結構整個處理過程採用流水線式設計，每個單元都有工作線程來處理本單元的內容，然後單元間通過一個無鎖循環緩衝區進行數據通信，這樣可以提升數據的輸送量，儘量減少音頻處理帶來的延遲，除此之外，工作線程僅執行自己模組有助於在某些處理器上提高分支預測命中率。

當上述系統應用到家庭智慧機器人當中，在一個基於Android嵌入式智慧操作系統的基於語音互動的家庭智慧機器人中，實現本發明前端音頻處理系統來保證家庭智慧機器人語音識別功能在多個場景下的正常使用。首先系統的操作系統音頻介面對Android的音頻庫tinyalsa進行再封裝，然後在封裝基礎上接入採集轉化單元，這裏封裝了tinyalsa的pcm_open(用於打開一個PCM音頻流)，pcm_close(用於關閉一個PCM音頻流)，pcm_frames_to_bytes(用於將音頻幀數值轉換成字節值)，pcm_get_buffer_size(獲得緩衝區大小)，pcm_read(從tinyalsa中讀取音頻數據)等函數。訊號分離單元通過採集轉化單元提供的xread函數來讀取來音頻數據，此時系統的模擬參考音頻訊號和採集到音頻訊號混合成了一個雙聲道數據，其中第一個聲道為採集到的音頻訊號，第二個聲道為來自系統自身的參考音頻訊號。訊號分離單元將訊號的左右聲道進行分離，一路提交給第二處理單元，一路提交給第一處理單元。第一處理單元對麥克風採集的音頻訊號進行降噪處理，然後記錄環境音降噪的演算法所消耗的時間，將時間和經過處理的音頻訊號提交給第二處理單元。第二處理單元根據音頻參考訊號，採集的音頻訊號，參考延遲時間進行降噪處理，並將結果提交到比較單元和計算單元。比較單元和計算單元根據當前音頻訊號的平均能量對音頻訊號進行增益調整，最後提交給應用介面的緩衝區。

本發明設計的一種前端音頻處理系統，該系統填補了目前市面常見嵌入式操作系統在智慧機器人領域語音前端處理方面的缺失，該框架可以再不修改現有嵌入式操作系統代碼的基礎上為後端語音識別應用提供前端語音降噪功能，具有較高的系統可擴展性和靈活性。

通過說明和附圖，給出了具體實施方式的特定結構的典型實施例，基於本發明精神，還可作其他的轉換。儘管上述發明提出了現有的較佳實施例，然而，這些內容並不作為局限。

對於本領域的技術人員而言，閱讀上述說明後，各種變化和修正無疑將顯而易見。因此，所附的權利要求書應看作是涵蓋本發明的真實意圖和範圍的全部變化和修正。在權利要求書範圍內任何和所有等價的範圍與內容，都應認為仍屬本發明的意圖和範圍內。

Claims

一種前端音頻處理系統，應用於家庭智慧機器人，包括：訊號分離單元，用以對一採集訊號進行分離處理以獲得有效訊號和參考訊號；第一處理單元，連接所述訊號分離單元，用以接收所述訊號分離單元輸出的所述有效訊號，並對所述有效訊號進行分析去除所述有效訊號中的低頻噪音訊號；第二處理單元，分別連接所述訊號分離單元和所述第一處理單元，分別接收所述訊號分離單元輸出的所述參考訊號和所述第一處理單元輸出的經過去除低頻噪音訊號處理的所述有效訊號，用以根據所述參考訊號按照預定的演算法去除所述有效訊號中的自噪音訊號形成純淨音頻訊號；比較單元，連接所述第二處理單元，用以接收經所述第二處理單元的所述純淨音頻訊號，並將所述純淨音頻訊號和所述有效訊號做比較，形成一比較結果；計算單元，於所述有效音頻訊號小於所述純淨音頻訊號一預設閾值的狀態下，對所述有效音頻訊號進行放大，於所述有效音頻訊號不小於所述純淨音頻訊號的所述預設閾值的狀態下，對所述有效音頻訊號進行減小；採集轉化單元，連接所述訊號分離單元，用以接收不同採集單元獲取的不同格式的採集訊號，並對所述採集訊號轉化成預定格式的所述採集訊號輸出至所述訊號分離單元。
如申請專利範圍第1項所述之系統，其中更包括：一麥克風，設置於所述音頻播放裝置的輸出端，用以採集所述音頻播放裝置輸出的音頻並形成所述參考訊號。
如申請專利範圍第2項所述之系統，其中所述訊號分離單元將所述有效訊號和參考訊號分佈於複數個不同聲道中，並將每個所述聲道上的所述有效訊號和所述參考訊號進行分離。
如申請專利範圍第1項所述之系統，其中所述純淨音頻訊號的獲取方法為回聲時延估計方法。
如申請專利範圍第1項所述之系統，其中所述純淨音頻訊號的獲取方法為歸一化最小均方自適應演算法。
如申請專利範圍第1項所述之系統，其中所述純淨音頻訊號的獲取方法為非線性濾波和舒適噪音產生方法。
如申請專利範圍第1項所述之系統，其中還包括應用介面，連接所述計算單元，用於將所述計算單元輸出的所述有效音頻訊號進行變換並輸出。