TW202014992A

TW202014992A - 虛擬臉部模型之表情擬真系統及方法

Info

Publication number: TW202014992A
Application number: TW107135393A
Authority: TW
Inventors: 王榮陞; 何婉琦; 張曉珍
Original assignee: 財團法人資訊工業策進會
Priority date: 2018-10-08
Filing date: 2018-10-08
Publication date: 2020-04-16
Also published as: US10713471B2; US20200110925A1; CN111009028A

Abstract

一種虛擬臉部模型之表情擬真系統及方法。該表情擬真系統儲存複數個三維臉部模型，該等三維臉部模型一對一地對應至複數個預設情緒。該表情擬真系統根據一聲音訊號辨識出一當前情緒，且根據該當前情緒從該等三維臉部模型選取一選定模型，該選定模型所對應之該預設情緒與該當前情緒相同。該表情擬真系統根據一下半臉影像預測一上半臉影像，將之整合為一全臉影像，再藉由將該全臉影像之複數個臉部特徵與該選定模型之複數個臉部特徵匹配以獲得複數個特徵對應關係，俾一虛擬臉部模型根據該等特徵對應關係而改變以模擬一表情。

Description

虛擬臉部模型之表情擬真系統及方法

本發明係關於一種虛擬臉部模型之表情擬真系統及方法。更具體而言，本發明係關於一種利用影像預測及音訊來進行辨識之虛擬臉部模型之表情擬真系統及方法。

在虛擬實境(Virtual Reality；VR)的應用中，使虛擬人物具有擬真的表情變化以提升使用者在虛擬實境中的互動體驗為相當重要的議題。某些習知技術中，會利用影像來即時辨識使用者的即時臉部表情，再據以模擬虛擬人物的表情，但在虛擬實境的應用中使用者會配戴頭戴式顯示器(Head-Mounted Display；HMD)而遮蔽使用者的上半臉部，導致辨識不準確，進而導致模擬效果不佳。

為克服上半臉被遮蔽的問題，某些習知技術則在頭戴式顯示器中配置多個感測器(例如：三維感測器、紅外線感測器、肌電圖(Electromyogram；EMG)感測器、眼動圖(Electrooculogram；EOG)感測器等)以偵測被遮蔽的上半臉的肌肉變化等資訊，再依據肌肉變化模擬上半臉的表情。然而，配置大量的感測器將使得硬體的成本增加，且由感測器的數據所模擬出的上半臉表情與由即時臉部影像所模擬的下半臉表情可能會有衝突，或是無法整合。

有鑑於此，如何使虛擬人物在虛擬實境中具有擬真的臉部表情仍為業界亟需努力的目標。

本發明之一目的在於提供一種虛擬臉部模型之表情擬真系統。該表情擬真系統包含一儲存器及處理器，其中該處理器電性連接至該儲存器。該儲存器儲存複數個三維臉部模型，其中該等三維臉部模型一對一地對應至複數個預設情緒。該處理器根據一聲音訊號辨識出一當前情緒，且根據該當前情緒從該等三維臉部模型選取出一選定模型，其中該選定模型所對應之該預設情緒與該當前情緒相同。該處理器根據一下半臉影像預測出一上半臉影像，將該下半臉影像及該上半臉影像整合為一全臉影像，以及藉由將該全臉影像之複數個臉部特徵與該選定模型之複數個臉部特徵匹配以獲得複數個特徵對應關係，俾一虛擬臉部模型根據該等特徵對應關係而改變以模擬一表情。

本發明之又一目的在於提供一種虛擬臉部模型之表情擬真方法，其係適用於一電子計算裝置。該電子計算裝置儲存複數個三維臉部模型，其中該等三維臉部模型一對一地對應至複數個預設情緒。該虛擬臉部模型之表情擬真方法包含下列步驟：(a)根據一聲音訊號辨識出一當前情緒，(b)根據該當前情緒從該等三維臉部模型選取出一選定模型，其中該選定模型所對應之該預設情緒與該當前情緒相同，(c)根據一下半臉影像預測出一上半臉影像，(d)將該下半臉影像及該上半臉影像整合為一全臉影像，以及(e)藉由將該全臉影像之複數個臉部特徵與該選定模型之複數個臉部特徵匹配以獲得複數個特徵對應關係，俾一虛擬臉部模型根據該等特徵對應關係而改變以模擬一表情。

本發明所提供之虛擬臉部模型之表情擬真技術(包含表情擬真系統及其方法)根據使用者之聲音辨識出一當前情緒，再根據該當前情緒從該等三維臉部模型中選取出一選定模型，因此該選定模型所具有之表情確實符合使用者之當前情緒。本發明所提供之表情擬真技術還會根據使用者當前之一下半臉影像預測出一上半臉影像，且整合出使用者當前之一全臉影像。由於當前之全臉影像具有更即時、明確及細微之表情變化，因此藉由找出該全臉影像之複數個臉部特徵與該選定模型之複數個臉部特徵間之特徵對應關係，再據以改變使用者所對應之虛擬臉部模型，能使該虛擬臉部模型更精準地模擬使用者之表情。因此，本發明能在不額外地配置感測器之情況下，解決頭戴式顯示器遮蔽使用者部分臉部而無法使虛擬臉部模型具有擬真表情之問題。

以下結合圖式闡述本發明之詳細技術及實施方式，俾使本發明所屬技術領域中具有通常知識者能理解所請求保護之發明之技術特徵。

1‧‧‧虛擬臉部模型之表情擬真系統

11‧‧‧處理器

13‧‧‧儲存器

15‧‧‧收發介面

17‧‧‧聲音感測器

19‧‧‧紅外線攝影機

102a、102b、102c、102d、102e、102f、102g‧‧‧三維臉部模型

104‧‧‧聲音情緒判斷模型

106‧‧‧深度學習模型

120‧‧‧聲音訊號

122‧‧‧下半臉影像

2‧‧‧虛擬臉部模型之表情擬真系統

21‧‧‧深度攝影機

202a、202b、202c、202d、202e、202f、202g‧‧‧三維標準模板

S301~S309‧‧‧步驟

S311~S313‧‧‧步驟

S321~S325‧‧‧步驟

第1圖係描繪本發明之第一實施方式之虛擬臉部模型之表情擬真系統1之示意圖；第2圖係描繪本發明之第二實施方式之虛擬臉部模型之表情擬真系統2之示意圖；第3A圖係描繪本發明之第三實施方式之虛擬臉部模型之表情擬真方法之流程圖；第3B圖係描繪本發明某些實施方式所執行之模型建置流程；以及第3C圖係描繪本發明之某些實施方式所執行之模型建置流程。

以下將透過實施方式來解釋本發明所提供之虛擬臉部模型之表情擬真系統及方法。然而，該等實施方式並非用以限制本發明需在如該等實施方式所述之任何環境、應用或方式方能實施。因此，關於以下實施方式之說明僅在於闡釋本發明之目的，而非用以限制本發明之範圍。應理解，在以下實施方式及圖式中，與本發明非直接相關之元件已省略而未繪示，且圖式中各元件之尺寸以及元件間之尺寸比例僅為便於繪示及說明，而非用以限制本發明之範圍。

本發明之第一實施方式為虛擬臉部模型之表情擬真系統1，其示意圖係描繪於第1圖。表情擬真系統1包含一處理器11及一儲存器13，其中處理器11電性連接至儲存器13。儲存器13可為一硬碟(Hard Disk Drive；HDD)(例如：行動硬碟、雲端硬碟)、一通用串列匯流排(Universal Serial Bus；USB)碟、一光碟(Compact Disk；CD)或本發明所屬技術領域中具有通常知識者所知之任何其他具有相同功能之非暫態儲存媒體或裝置。處理器11可為各種處理器、中央處理單元(Central Processing Unit；CPU)、微處理器(Microprocessor Unit；MPU)、數位訊號處理器(Digital Signal Processor；DSP)或本發明所屬技術領域中具有通常知識者所知之任何其他具有相同功能之計算裝置。

表情擬真系統1可用於多種虛擬實境應用。當一使用者於一虛擬實境應用使用表情擬真系統1時，表情擬真系統1會依據該使用者實際的聲音及臉部表情來模擬該使用者於虛擬實境中之虛擬臉部模型之表情。需說明者，本發明未限制表情擬真系統1之具體實施態樣。舉例而言，表情擬真系統1可為虛擬實境應用之主機、可整合於頭戴式顯示器、可為雲端伺服器或其他具有類似計算能力之裝置。

於本實施方式中，儲存器13儲存七個三維臉部模型102a、102b、102c、102d、102e、102f、102g，其係一對一地對應至七種預設情緒(例如：中性、高興、生氣、傷心、害怕、驚訝、噁心)。需說明者，於本發明中，儲存器13需儲存至少二個三維臉部模型(例如：對應至中性情緒及高興情緒之三維臉部模型102a、102b)。

於本實施方式中，處理器11根據該使用者之一聲音訊號120辨識出一當前情緒(未繪示)，其中該當前情緒為前述七種預設情緒其中之一。需說明者，從聲音訊號120辨識出情緒之技術為本發明所屬技術領域中具有通常知識者所熟知，故不贅言。於某些實施方式中，儲存器13還可預先儲存一聲音情緒判斷模型104，處理器11可自聲音訊號120擷取複數個音訊特徵值，再利用聲音情緒判斷模型104將該等音訊特徵值辨識為對應至該當前情緒。

另需說明者，本發明未限制聲音訊號120之取得方式。於本實施方式中，表情擬真系統1可經由一外接的聲音感測器17來取得聲音訊號120，聲音感測器17可感測使用者所發出之聲音而產生聲音訊號120，表情擬真系統1透過一收發介面15自聲音感測器17接收聲音訊號120。舉例而言，聲音感測器17可為一麥克風、一體感機之麥克風、一耳機之麥克風、一頭戴式顯示器之麥克風或本發明所屬技術領域中具有通常知識者所知之任何其他具有相同功能之聲音感測裝置。於某些實施方式中，表情擬真系統1則可內建一聲音感測器17，由該聲音感測器17直接感測使用者所發出之聲音而產生聲音訊號120。

接著，處理器11根據該當前情緒，從儲存器13所儲存之七個三維臉部模型102a、102b、102c、102d、102e、102f、102g中選取出一選定模型(未繪示)，其中該選定模型所對應之預設情緒與當前情緒相同。舉例而言，若處理器11根據聲音訊號120所辨識出之該當前情緒為「高興」，則處理器11從儲存器13中選取出三維臉部模型102b(亦即，對應至「高興」之三維臉部模型)作為選定模型。

另外，處理器11會根據該使用者之一下半臉影像122預測出一上半臉影像(未繪示)(例如：被頭戴式顯示器遮蔽之部分臉部之影像)。於某些實施方式中，儲存器13可儲存一深度學習模型106，處理器11可利用深度學習模型106由下半臉影像122預測出該上半臉影像。本發明所屬技術領域中具有通常知識者皆瞭解如何訓練深度學習模型106以及如何利用深度學習模型106進行預測，故不贅言。之後，處理器11再將下半臉影像122及上半臉影像(未繪示)整合為一全臉影像(未繪示)。舉例而言，處理器11可利用特徵點匹配之技術來將下半臉影像122及上半臉影像整合為全臉影像，但不以此為限。

需說明者，在某些情況下，頭戴式顯示器會擋住部分光線，導致下半臉影像122有些失真。於某些實施方式中，為克服此一問題以獲得更佳的預測效果，處理器11可先對下半臉影像122進行亮度補償，再以亮度補償後的下半臉影像122預測出該上半臉影像。於某些實施方式中，為使後續的匹配(容後詳述)更為準確，處理器11可對整合後之該全臉影像進行亮度補償。

另需說明者，本發明未限制下半臉影像122之取得方式。於本實施方式中，表情擬真系統1可經由一外接的紅外線攝影機19取得下半臉影像122，紅外線攝影機19可掃描使用者之下半臉以產生之一二維影像，該二維影像即為使用者之下半臉影像122，表情擬真系統1則透過收發介面15(或另一收發介面)自該紅外線攝影機19接收下半臉影像122。於某些實施方式中，表情擬真系統1可內建一紅外線攝影機19，且由該紅外線攝影機19掃描使用者之下半臉所產生之一二維影像作為使用者之下半臉影像122。

在得到該全臉影像及該選定模型後，處理器11藉由將該全臉影像之複數個臉部特徵與該選定模型之複數個臉部特徵匹配以獲得複數個特徵對應關係。需說明者，該選定模型之各該臉部特徵為三維，而該全臉影像之各該臉部特徵為二維。於某些實施方式中，處理器11可採用一透視投影法先將該選定模型之該等臉部特徵由三維降維成為二維，再將該全臉影像之該等臉部特徵與降維後之該選定模型之該等臉部特徵匹配以獲得該等特徵對應關係。

獲得該等特徵對應關係後，便能使一虛擬臉部模型(未繪示)根據該等特徵對應關係而改變以模擬一表情。舉例而言，表情擬真系統1可透過一傳輸介面將該等對應關係傳送至執行虛擬實境應用之虛擬實境平台，該虛擬實境平台再根據該等特徵對應關係來改變虛擬臉部模型，藉此達到模擬表情的效果。

綜上所述，表情擬真系統1係基於使用者所發出之聲音辨識出使用者之當前情緒，再選取出符合該當前情緒之三維臉部模型作為後續要採用之選定模型，因此該選定模型所具有之表情確實符合使用者之當前情緒。此外，表情擬真系統1會依據使用者之下半臉影像122預測出上半臉影像，且將上半臉影像及下半臉影122像整合出全臉影像(例如：透過特徵點匹配之技術來整合)。由於表情擬真系統1係採用使用者當前之下半臉影像122，因此經由預測及整合所獲得之全臉影像可視為使用者當前之全臉影像。由於當前之全臉影像具有更即時、明確及細微之表情變化，因此藉由找出該全臉影像與該選定模型間之特徵對應關係再據以改變使用者所對應之虛擬臉部模型，能使該虛擬臉部模型更為精準地模擬該使用者之表情。因此，表情擬真系統1能在不額外地配置感測器之情況下，解決頭戴式顯示器遮蔽使用者上半臉而無法使虛擬臉部模型具有擬真表情之問題。

本發明之第二實施方式為虛擬臉部模型之表情擬真系統2，其示意圖係描繪於第2圖。表情擬真系統2包含處理器11及儲存器13。表情擬真系統2能執行第一實施方式之表情擬真系統1所能執行之所有運作，因而亦具有其所具有之功能，且能達到其所能達到之技術效果。相較於表情擬真系統1，表情擬真系統2還會執行各種模型之建置流程，以下敘述將著重於表情擬真系統2與表情擬真系統1相異之處。

於本實施方式中，在初始的建置階段，儲存器13儲存七個三維標準模板202a、202b、202c、202d、202e、202f、202g，其係一對一地對應至七種預設情緒(例如：中性、高興、生氣、傷心、害怕、驚訝、噁心)。需說明者，本發明未限制儲存器13所儲存之三維標準模板之數目(換言之，未限制預設情緒之數目)，亦未限制其所對應之預設情緒為何。於本實施方式中，處理器11會根據三維標準模板202a、202b、202c、202d、202e、202f、202g產生三維臉部模型102a、102b、102c、102d、102e、102f、102g以供虛擬臉部模型之表情擬真之用。

於本實施方式中，處理器11會先產生一種預設情緒之三維臉部模型，再產生其他幾種預設情緒之三維臉部模型。為便於說明，茲假設處理器11所先處理之預設情緒為中性情緒(但不以此為限)。

具體而言，表情擬真系統2外接一深度攝影機21(Depth Camera)，深度攝影機21掃描使用者所做出之一第一表情(亦即，對應至中性情緒之表情)而產生複數個第一深度值，各該第一深度值為深度攝影機21至使用者做出第一表情時之一臉部位置之一距離。表情擬真系統2透過收發介面15(或另一收發介面)自深度攝影機21接收該等第一深度值。表情擬真系統2接著要使用之一第一三維原始模型(未繪示)即包含該等第一深度值。

接著，處理器11將三維標準模板202a、202b、202c、202d、202e、202f、202g中之一第一三維標準模板(亦即，對應至中性情緒之三維標準模板202a)映射至該第一三維原始模型以產生一第一三維臉部模型(亦即，對應至中性情緒之三維臉部模型102a)。舉例而言，處理器11可將第一三維標準模板(亦即，三維標準模板202a)與第一三維原始模型進行特徵匹配(例如：找出眼睛、鼻子及嘴唇等特徵間之對應關係)，再利用徑向基底函數之形狀內插技術，對第一三維標準模板(亦即，三維標準模板202a)之網格拓樸進行形變，使之與第一三維原始模型之網格拓樸近似，如此即可得到第一三維臉部模型(亦即，對應至中性情緒之三維臉部模型102a)。

之後，處理器11根據第一三維臉部模型(亦即，三維臉部模型102a)與第一三維標準模板(亦即，三維標準模板202a)間之差異(例如：網路拓樸之座標差異)，以及第一三維標準模板(亦即，三維標準模板202a)與各該其他三維標準模板(亦即，三維標準模板202b、202c、202d、202e、202f、202g)間之差異(例如：網路拓樸之座標差異)，產生其他三維臉部模型(亦即，三維臉部模型102b、102c、102d、102e、102f、102g)。

於某些實施方式中，為達到更為精確之效果，處理器11則是先利用深度攝影機21掃描使用者的二種表情，藉此產生二種預設情緒之三維臉部模型，再根據該二個三維臉部模型產生其他幾種預設情緒之三維臉部模型。為便於說明，茲假設處理器11所先處理之二種預設情緒為中性情緒及高興情緒(但不以此為限)。

具體而言，於該等實施方式中，深度攝影機21掃描使用者做出一第一表情(亦即，對應至中性情緒之表情)而產生複數個第一深度值，各該第一深度值為深度攝影機21至使用者做出第一表情時之一臉部位置之一距離。此外，深度攝影機21掃描使用者做出一第二表情(亦即，對應至高興情緒之表情)而產生複數個第二深度值，各該第二深度值為深度攝影機21至使用者做出第二表情時之一臉部位置之一距離。表情擬真系統2透過收發介面15(或另一收發介面)自深度攝影機21接收該等第一深度值及該等第二深度值。表情擬真系統2後續要使用之一第一三維原始模型(未繪示)即包含該等第一深度值，而後續要使用之一第二三維原始模型(未繪示)則包含該等第二深度值。

類似的，處理器11將三維標準模板202a、202b、202c、202d、 202e、202f、202g中之一第一三維標準模板(亦即，對應至中性情緒之三維標準模板202a)映射至一第一三維原始模型以產生一第一三維臉部模型(亦即，對應至中性情緒之三維臉部模型102a)，且將三維標準模板202a、202b、202c、202d、202e、202f、202g中之一第二三維標準模板(亦即，對應至高興情緒之三維標準模板202b)映射至一第二三維原始模型以產生一第二三維臉部模型(亦即，對應至高興情緒之三維臉部模型102b)。

舉例而言，處理器11可將第一三維標準模板(亦即，三維標準模板202a)與第一三維原始模型進行特徵匹配(例如：找出眼睛、鼻子及嘴唇等特徵間之對應關係)，再利用徑向基底函數之形狀內插技術，對第一三維標準模板(亦即，三維標準模板202a)之網格拓樸進行形變，使之與第一三維原始模型之網格拓樸趨向近似，如此即可得到第一三維臉部模型(亦即，對應至中性情緒之三維臉部模型102a)。類似的，處理器11可將第二三維標準模板(亦即，三維標準模板202b)與第二三維原始模型進行特徵匹配(例如：找出眼睛、鼻子及嘴唇等特徵間之對應關係)，再利用徑向基底函數之形狀內插技術，對第二三維標準模板(亦即，三維標準模板202b)之網格拓樸進行形變，使之與第二三維原始模型之網格拓樸趨向近似，如此即可得到第二三維臉部模型(亦即，對應至中性情緒之三維臉部模型102b)。

之後，處理器11根據第一三維臉部模型(三維臉部模型102a)與第一三維標準模板(三維標準模板202a)間之差異(例如：網路拓樸之座標差異)，第二三維臉部模型(三維臉部模型102b)與第二三維標準模板(三維標準模板202b)間之(例如：網路拓樸之座標差異)，以及第一三維標準模板(三維標準模板202a)與各該其他三維標準模板(亦即，三維標準模板 202c、202d、202e、202f、202g)間之(例如：網路拓樸之座標差異)，產生其他三維臉部模型(亦即，三維臉部模型102c、102d、102e、102f、102g)。

於某些實施方式中，表情擬真系統2所執行之建置流程還包括訓練出前述用於辨識出使用者之上半臉影像之預測模型，例如：深度學習模型106或其他具有辨識功能之模型。深度學習模型106可為一卷積神經網路(Convolutional Neural Network；CNN)模型、一循環神經網路(Recurrent Neural Network；RNN)，但不以此為限。以深度學習模型106為例，處理器11利用複數張全臉影像進行一訓練流程。具體而言，處理器11找出各張全臉影像之表情特徵點，將之區分為下半臉之表情特徵點及上半臉之表情特徵點，以各張全臉影像之下半臉之表情特徵點作為一深度學習網路(例如：卷積神經網路或一循環神經網路)之輸入，將該深度學習網路訓練成能找出對應之上半臉之表情特徵點之模型作為深度學習模型106。

於某些實施方式中，儲存器13所儲存之聲音情緒判斷模型104為一泰爾情緒模型(Thayer's Emotion Model)，或是其他已知的情緒模型、自行建立的情緒模型等。於該等實施方式中，聲音情緒判斷模型104包含三階分類器。第一階具有一個分類器，用於將聲音訊號120之音訊特徵值進行喚起程度(Arousal)分類。第二階包含二個分類器，用於對第一階的分類結果進行評價(Valence)分類。第三階包含四個情緒分類器，用於對第二階的分類結果進行情緒辨識，以獲取使用者的當前情緒。於該等實施方式中，表情擬真系統2所執行之建置流程還包括訓練出前述用於從聲音訊號120中辨識出當前情緒之聲音情緒判斷模型104。本發明所屬技術領域中具有通常知識者皆熟知泰爾情緒模型之訓練方式，故不贅言。

綜上所述，表情擬真系統2提供複數個三維標準模板供使用者建置三維臉部模型之用。在建置過程，深度攝影機21掃描使用者所做出之一或多個表情而產生三維原始模型，再根據三維標準模板與三維原始模型間之各種關係，產生虛擬實境應用實際運行時所要使用之三維臉部模型。由於建置過程採用了使用者之三維原始模型，因此所產生之三維臉部模型將更為精準，因而能使該虛擬臉部模型的模擬的效果更加準確。

本發明之第三實施方式為一虛擬臉部模型之表情擬真方法，其流程圖係描繪於第3A圖。該表情擬真方法適用於一電子計算裝置，例如：前述實施方式中之表情擬真系統1、2。該電子計算裝置儲存複數個三維臉部模型，且該等三維臉部模型一對一地對應至複數個預設情緒。該表情擬真方法包含下列步驟S301至步驟S309。

於步驟S301，由該電子計算裝置根據一使用者之一聲音訊號辨識出一當前情緒。於某些實施方式中，該一電子計算裝置還儲存一聲音情緒判斷模型，步驟S301可自該聲音訊號擷取複數個音訊特徵值，再利用該聲音情緒判斷模型將該等音訊特徵值辨識為對應至該當前情緒。接著，於步驟S303，由該電子計算裝置根據該當前情緒從該等三維臉部模型中選取出一選定模型，其中該選定模型所對應之預設情緒與該當前情緒相同。

另外，於步驟S305，由該電子計算裝置根據該使用者之一下半臉影像預測出一上半臉影像。於某些實施方式中，步驟S305係利用一深度學習模型來從該下半臉影像預測出該上半臉影像。此外，於某些實施方式中，為獲得更佳的預測效果，該表情擬真方法可於步驟S305前先執行另一步驟以對下半臉影像進行亮度補償，步驟S305再以亮度補償後的下半臉影像預測出該上半臉影像。

需說明者，本發明未限制表情擬真方法如何取得該使用者之該下半臉影像。於某些實施方式中，該表情擬真方法可於步驟S305前執行另一步驟，由一紅外線攝影機掃描該使用者之下半臉以產生一二維影像，該二維影像即為使用者之下半臉影像。於某些實施方式中，該表情擬真方法則是於步驟S305前執行另一步驟，由該電子計算裝置從一外接的紅外線攝影機接收該下半臉影像。

於步驟S305後，該電子計算裝置執行步驟S307，將該下半臉影像及該上半臉影像整合為一全臉影像(例如：透過特徵點匹配之技術來整合)。於某些實施方式中，表情擬真方法還可於步驟S307後執行一步驟，由該電子計算裝置對該全臉影像進行亮度補償。

需說明者，於本實施方式中，表情擬真方法係以平行運算之方式處理前述與聲音有關之步驟(包含步驟S301、S303)以及前述與影像有關之步驟(包含步驟S305、S307)，如第3圖所示。然而，於某些實施方式中，表情擬真方法可先執行前述與聲音有關之步驟(包含步驟S301、S303)，再執行前述與影像有關之步驟(包含步驟S305、S307)。於某些實施方式中，表情擬真方法則可先執行前述與影像有關之步驟(包含步驟S305、S307)，再執行前述與聲音有關之步驟(包含步驟S301、S303)。

當取得該全臉影像及該選定模型後，於步驟S309，該電子計算裝置藉由將該全臉影像之複數個臉部特徵與該選定模型之複數個臉部特徵匹配以獲得複數個特徵對應關係。需說明者，該選定模型之各該臉部特徵為三維，而該全臉影像之各該臉部特徵為二維。因此，於某些實施方式中，步驟S309係以一透視投影法先將該選定模型之該等臉部特徵由三維降維成為二維，再將該全臉影像之該等臉部特徵與降維後之該選定模型之該等臉部特徵匹配以獲得該等臉部特徵對應關係。在獲得該等特徵對應關係後，該使用者於虛擬實境中之一虛擬臉部模型便能根據該等特徵對應關係而改變，藉此模擬使用者之表情。

於某些實施方式中，表情擬真方法還可在執行步驟S301至步驟S309前執行如第3B圖所示之一建置流程。於該等實施方式中，該電子計算裝置還儲存複數個三維標準模板，其係一對一地對應至複數個預設情緒。該建置流程包括步驟S311至步驟S313。

於步驟S311，該電子計算裝置將該等三維標準模板中之一第一三維標準模板映射至一第一三維原始模型以產生一第一三維臉部模型。於步驟S313，該電子計算裝置根據該第一三維臉部模型與該第一三維標準模板間之差異，以及該第一三維標準模板與各該其他三維標準模板間之差異，產生其他三維臉部模型。

需說明者，於某些實施方式中，表情擬真方法可於步驟S311之前執行另一步驟，由一深度攝影機掃描使用者所做出之第一表情以產生複數個第一深度值，再以該等第一深度值形成該第一三維原始模型。前述該等第一深度值為該深度攝影機至該使用者所做出之該第一表情時之一臉部位置之一距離。

於某些實施方式中，為達到更為精確之效果，表情擬真方法則可改為執行如第3C圖所示之一建置流程。該建置流程包含步驟S321至步驟S325。

於步驟S321，該電子計算裝置將該等三維標準模板中之一第一三維標準模板映射至一第一三維原始模型以產生一第一三維臉部模型。於步驟S323，該電子計算裝置將該等三維標準模板中之一第二三維標準模板映射至一第二三維原始模型以產生一第二三維臉部模型。於步驟S325，該電子計算裝置根據該第一三維臉部模型與該第一三維標準模板間之差異，該第二三維標準模板與該第二三維標準模板間之差異，以及該第一三維標準模板與各該其他三維標準模板間之差異，產生其他三維臉部模型。

類似的，於某些實施方式中，表情擬真方法可於步驟S321之前執行另一步驟，由一深度攝影機掃描使用者所做出之第一表情以產生複數個第一深度值，再以該等第一深度值形成該第一三維原始模型。表情擬真方法可於步驟S321之前再執行另一步驟，由該深度攝影機掃描使用者所做出之第二表情以產生複數個第二深度值，再以該等第二深度值形成該第二三維原始模型。需說明者，各該第一深度值為該深度攝影機至使用者做出該第一表情時之一臉部位置之一距離，而各該第二深度值為該深度攝影機至使用者做出該第二表情時之一臉部位置之一距離。

除了上述步驟，第三實施方式亦能執行第一及第二實施方式所描述之所有運作及步驟，具有同樣之功能，且達到同樣之技術效果。本發明所屬技術領域中具有通常知識者可直接瞭解第三實施方式如何基於上述第一及第二實施方式以執行此等運作及步驟，具有同樣之功能，並達到同樣之技術效果，故不贅述。

綜上所述，本發明所提供之虛擬臉部模型之表情擬真技術(至少包含系統及方法)應用於一虛擬實境應用時，會根據使用者所發出之聲音辨識出使用者之當前情緒，再選取出符合該當前情緒之三維臉部模型作為後續要採用之選定模型，因此該選定模型具有符合使用者當前情緒之表情。此外，本發明所提供之表情擬真技術會根據使用者之下半臉影像預測出上半臉影像，且將該下半臉影像及上半臉影像整合出全臉影像，藉此取得更精確、擬真之全臉影像。由於選定模型與全臉影像係分別基於使用者當前的聲音及下半臉影像所產生，因此藉由找出該全臉影像與該選定模型間之特徵對應關係再據以改變使用者所對應之虛擬臉部模型，能使該虛擬臉部模型更為精準地模擬該使用者之表情，達到更為擬真之效果。由此可知，本發明所提供之表情擬真技術能在不額外地配置感測器之情況下，解決頭戴式顯示器遮蔽使用者上半臉而無法使虛擬臉部模型具有擬真表情之問題。

另外，本發明所提供之表情擬真技術還可包括三維臉部模型之建置流程，其係基於使用者所做出之一或多個表情而建置，因此能產生出更為精確之三維臉部模型，使得該虛擬臉部模型的模擬效果更加準確，達到更為擬真之效果。

上述實施方式僅為例示性說明本發明之部分實施態樣，以及闡釋本發明之技術特徵，而非用來限制本發明之保護範疇及範圍。任何熟悉此技藝之人士可輕易完成之改變或均等性之安排均屬於本發明所主張之範圍，本發明之權利保護範圍應以申請專利範圍為準。