TWI454955B

TWI454955B - 使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體

Info

Publication number: TWI454955B
Application number: TW095150120A
Authority: TW
Inventors: Giant Tu
Original assignee: Nuance Communications Inc
Priority date: 2006-12-29
Filing date: 2006-12-29
Publication date: 2014-10-01
Also published as: US20080163074A1; US8782536B2; TW200828066A

Description

使用模型檔產生動畫的方法及電腦可讀取的訊號承載媒體

本發明係關於將本文轉成可視語音(text-to-visual speech,TTVS)的方法與系統，尤其是關於利用情緒以產生臉部影像之情緒(如喜、怒等等)的方法與系統。

隨著網際網路及其它網路環境的來臨，遠端之使用者能以各種不同形式諸如線上聊天(on-line chat，如聊天室chartroom)及電子郵件(e-mail)等互相通訊。線上聊天在許多場合尤其有用，因其允許多個使用者，在共同訊息視窗中透過網路藉由輸入文字訊息互相往返通訊。為使線上聊天討論更個人化，表情符號(emoticons)通常被鍵入以於訊息中暗指情緒且/或臉部表達。一般使用的表情符號包含〝：-)〞表示高興的臉；〝：-<〞表示悲傷；〝：-(〞表示不高興；〝>：-<〞表示生氣等等。然而，縱使表情符號使用廣泛，然線上聊天仍傾向不帶感情的，且需要使用者人工地讀且解譯每一個訊息。

今日線上聊天之即時訊息(Instant Message,IM)系統，如IBM SameTime,Microsoft MSN Messenger或Yahoo Messenger皆屬基於本文(text-based)之系統。如前述，當使用者說話時，他們僅能看到聊天對話盒內的本文(如圖6)。本文訊息不能良好地裝載情緒；因此所有IM系統皆於聊天時允許使用者提供表情符號(emoticon，如表生氣)。另一方面，行動裝置也越來越流行，於此種環境中使用基於本文是困難的，因螢幕太小，而不能良好顯示易讀取之訊息。

因此，依目前系統，若使用者想有視覺接觸，則需額外需求數位攝影機，且其將消耗許多網路頻寬且需求大量CPU的計算能力。

有本文轉成可視語音(TTVS)之系統，其利用鍵盤等輸入本文，而後轉換該本文為口語(spoken)訊息，且將該口語訊息與繪製的臉部影像(animated face image)一起送出。現存TTVS系統限制之一是訊息作者僅簡單地鍵入本文，其輸出(即繪製之臉部影像與口語訊息)缺少情緒及臉部表達。

此外，已有提供具情緒表達之繪製之臉部於對話盒中，如美國專利申請案公開號US 2002/0194006 A1。然其並無揭示利用本文至語音(text-to-speech)技術直接完成所需的情緒之臉部表達。

本發明目的在提供一基於影像(image-based)的IM系統，且其能提供更高級的線上通訊，其中情緒表達能容易的併入對話盒中。

本發明提供一可視語音系統，其中繪製之臉部上之情緒表達能由輸入之情緒字串建立。

依本發明之IM系統，其能依本文訊息產生帶有情緒表達之動畫，而不需要額外硬體。且因僅依輸入之情緒字串建立臉部之情緒表達，故於聊天時仍僅有本文傳送，而不消耗額外的頻寬。基於影像之IM系統，使用者可感覺像與一真人溝通，而更人性化。

此外，本發明之IM系統，也能適用於行動裝置上，以提供更佳的聊天用途。依本發明之IM系統，當產生動畫時，能改變背景顏色，臉部顏色或加某些臉部/嘴唇動作以表達更真實自然的感覺(如圖5)。此外，習知IM系統之記錄因只是一RTF檔或純文字檔，故是靜態的將聊天過程的結果存檔。而本發明IM系統之聊天記錄不僅是本文檔，而為動態的，使用者能於任何時刻重播整個聊天過程。

以下詳細說明本發明實施例。揭露的實施例只是用來解說，因為熟悉此技藝人士應明白其中有許多修改及變化。參考圖式時，相同號碼代表所有圖式中相同的部分。

用語表：

音位(phonemes)：係聲音領域中語音的基本單位。

視位(viseme)：係指與某一音位相對應之視覺領域語音 (可視語音)的基本單位。音位與視位並非一對一。通常，幾個音位共享相同視位，即幾個音位當發聲時臉部看起來相同，例如音位為/k/,/g/,//，其對應同一視位/k/，或音位為/tʃ/,/ʃ/,/d/,//，其對應同一視位/ch/。相反地，有些聲音很難區別，但卻可由臉部清楚地區別，如/p/,/m/,/b/等音位，其發音時嘴型有較大的差別。

音位雙連表(phoneme bigram table)：係一二維矩陣，包含所有音位之雙連資訊值。此代表音位組合(目前音位與下一音位)之通用程度(frequency)。要產生此表，一般藉由大量素材(corpus)分析完成。最通用之音位組合，其值界定為1。值的範圍則由0.1至1。此值代表何種組合最通用，且可使用此資訊來最佳化臉部/嘴唇動畫之平順性(smoothness)。

本發明需要3個組件，即本文轉為語音(TTS)引擎，IM系統及動畫產生模組。TTS引擎用來產生每一收到訊息之波形資料，且獲得音位資料，其中波形資料供聲音輸出，而音位資料係供產生動畫。要建立動畫，動畫產生模組需使用3個檔案，如圖2所示分別為映射表(mapping table)261，音位雙連表(phoneme bigram table)263及模型檔(model file)262。其中映射表261係用來對映音位與視位(視位係音位之可視對等物)。使用映射表對使用不同TTS引擎之系統，其動畫產生程序皆相同。唯一差異係修正該映射表之內容。

該動畫產生模組請參照圖1、2及4的詳細說明。

圖1說明本發明於2個使用者在聊天時，整個基於影像的聊天程序流程圖。依本發明於一使用者每一次取得一訊息時，使用者裝置上具本發明動畫產生模組之IM系統將產生動畫，即動畫係產生在接收端，而非發送側。因此使用者可使用此新的IM系統與任何人說話，不論其他端使用的是何種IM系統(基於影像或基於本文)。於步驟110，載入一預設模型檔262。模型檔262儲存每一視位之所有嘴唇/臉部圖框。當有視位資料時，系統將依模型檔262中相關圖框產生所要的動畫。基本上，模型檔262中每一視位有16個臉部/嘴唇圖框，其是基於人類視覺暫留時間約1/16秒的原因。故此框數是不限於只16個。

要支援不同情緒，需要對不同情緒加入額外的框。例如假定有20個視位，且計劃支援2種情緒：生氣及哭泣，則在模型檔中應有(20 x 16 x 3)個圖框，其中第一個(20 x 16)圖框用來產生預設表情，下一個(20 x 16)圖框用來產生生氣情緒，而最後一個(20 x 16)圖框則給哭泣情緒使用。接著，便等待訊息輸入(步驟120)。於步驟(130)，再依輸入的訊息產生動畫。其進一步說明將揭示在圖2中。於步驟(140)，播放該動畫。

圖2說明圖1中步驟130之產生動畫的流程圖。於步驟 210，首先將收到的本文訊息送至一習知的本文轉為語音(TTS)引擎。習知TTS如CSTR University of Edinburgh之Festival、IBM ViaVoice TTS或Microsoft Research之Whistler等等。TTS引擎產生語音波形資料(步驟220)。步驟230將判斷並記錄3個TTS事件：音位事件(phoneme event)、波形事件(wave event)及指標事件(index event)。

當TTS引擎處理過程中，出現音位事件，則儲存音位資料供後續處理(步驟241)；當出現波形事件，則儲存波形資料(步驟243)。當出現指標事件，則儲存情緒狀態，其用來判斷是否情緒狀態被改變(步驟242)。使用者於鍵入訊息中需要指明情緒識別符(或情緒字串)。當訊息被送入TTS引擎中，該識別符將由一指標取代。因而系統可知道情緒之改變。例如，當使用者鍵入訊息〝<angry>I am angry！</angry>〞，則本發明將在<angry>及</angry>插入指標以指示情緒改變。其結果請參見圖5。

系統將重覆步驟220至步驟243，直到訊息本文處理完。給合此三事件，可精確獲得音位及其波形資料，其中波形資料供聲音輸出，而音位資料係供產生動畫。

當TTS引擎完成該訊息整個波形資料之產生，則將開始進行動畫之建立。於步驟250，對每一獲得之音位進行處理。而於步驟260，依前述之指標事件判別情緒是否改變。若改變，則依模型檔262而放入新的背景影像(步驟270)。最後，建立嘴唇/臉部圖框(步驟280)，其進一步說明將在圖4中陳明。系統將重覆執行步驟250至280直到所有音位處理完畢。

圖3說明一般TTS引擎之流程圖。首先，步驟310將先剖析送入之訊息本文，而後找到每一字元之音位資料(步驟320)。於步驟330中進行語調(intonation)的調整。接著產生語音波形(步驟340)。此時指標事件、波形事件、音位事件送出供記錄並處理。最後，整個訊息本文處理完畢，TTS引擎送出最後整個波形。

圖4說明圖2中每一音位臉部/嘴唇圖框產生步驟280。步驟410，由音位雙連表263中取得一音位及其下一音位之雙連資訊值。接著取得該音位之波形資料長度(步驟420)。於步驟430，依波形資料長度計算所需臉部/嘴唇圖框數目；接著由映射表261取得該音位之相對應的視位(步驟440)。於下一步驟450，再由模型檔262依視位及指標事件擷取該視位所需臉部/嘴唇圖框數目之臉部/嘴唇圖框。最後，再合成該臉部/嘴唇圖框及波形資料，以產生動畫(步驟460)，其中該波形資料供聲音輸出，而該臉部/嘴唇圖框係供產生動畫。

事實上不需要擷取模型檔262中每一視位之所有臉部/嘴唇圖框供產生動畫。故依本發明揭露的實施例，產生所需嘴唇/臉部圖框，如圖4所示者，需要二個因素以計算需要多少圖框：即目前音位之波形資料的長度，和目前音位及下一音位之雙連資訊值。如前述，由於人類視覺暫留時間約1/16秒，每一視位規劃為有16個臉部/嘴唇圖框，故依此來計算每一音位相應之視位實際上僅需要多少圖框。

公式=16 x(目前音位之波形長度(單位為秒))x(目前音位及下一音位之雙連資訊的值)

因音位之波形長度皆小於1秒，且如前述雙連資訊值範圍為(0.1,1)，因此，該公式之值的範圍將限定為(1,16)間之整數。

臉部/嘴唇圖框可透過音位/視位映射表261及模型檔262而取得。如前述，一視位可界定為有16圖框。若由前述公式所得為8，代表此視位僅需要8個圖框。則可由該視位之16圖框中均等地擷取8個框，即將16圖框分為8組，每組2個圖框，再由每一組中擷取第一者配合TTS取得之聲音波形資料來形成動畫。如前述步驟250至280可重複執行至所有音位處理完畢。

前述音位雙連表事實上並非必要，因其目的意在縮減動畫所需圖框數目之大小，並最佳化嘴唇或臉部動畫之平順性，以利在行動裝置上使用。

要注意的是，熟悉此技藝者應該可以了解，本發明的處理程序可用儲存於電腦可讀媒體或其他各種格式的指令，加以分送，而與實際用以實施分送之承載信號的特殊媒體類型無關。電腦可讀媒體的例子包含以下媒體：可抹除程式化唯讀記憶體(EPROM)、唯讀記憶體(ROM)、磁帶(tape)、紙張、軟碟、硬碟、隨機存取記憶體(RAM)，以及CD-ROM，還包含傳輸型態媒體，像是數位與類比的通訊連結。

上述之本發明實施例係用於說明與描述本發明，而並非是用於限定本發明。依所揭示之方式可以有相當多的修正及變化。本發明的範圍並非以先前的細部描述來加以限定，而是以其後所附之申請範圍來決定。上述的說明、範例、及資料提供了一完整製造及使用本發明的組合。因其他很多的實施例可在未脫離本發明所揭示之精神下完成等效改變或修飾，本發明申請範圍歸屬於申請專利範圍中所述之範圍。

261‧‧‧映射表(mapping table)

262‧‧‧模型檔(model file)

263‧‧‧音位雙連表(phoneme bigram table)

為使本發明及優點能更明瞭，本發明說明將伴隨下述相關圖式來說明：圖1說明本發明於2個使用者在聊天時，整個基於影像的聊天程序流程圖；圖2說明本發明圖1中步驟130之產生動畫的流程圖；圖3說明一般TTS引擎之流程圖；圖4說明本發明圖2中臉部/嘴唇圖框產生步驟280；圖5說明本發明當產生動畫時，能改變背景顏色，臉部顏色或加某些臉部/嘴唇動作以表達更真實自然的感覺的實例；以及圖6說明習知基於本文之IM系統的實例。

261‧‧‧映射表(mapping table)

262‧‧‧模型檔(model file)

263‧‧‧音位雙連表(phoneme bigram table)

Claims

一種使用至少一模型檔產生動畫的方法，該至少一模型檔包含儲存之臉部/嘴唇圖框用以表達與一本文訊息相關的情緒，該些儲存之臉部/嘴唇圖框至少包含一第一組圖框與一第二組圖框分別對應於一第一情緒與一第二情緒，該方法包含：藉由一本文至語音(TTS)引擎依該本文訊息之內容產生音位資料及波形資料；依識別該第一情緒之資訊，將該產生之音位資料映射至代表一特別情緒的視位資料，其中該資訊與該本文訊息相關；依該產生之波形資料的一長度，計算所需之與該視位資料相關的該儲存之臉部/嘴唇圖框數目；及從該至少一模型檔擷取該所需之數目的該些儲存之臉部/嘴唇圖框，以產生與該產生之波形資料相關的動畫，其中該擷取之臉部/嘴唇圖框包含該第一組圖框中對應於該第一情緒的圖框。
如申請專利範圍第1項所述之方法，進一步包含依該波形資料播放聲音及依該臉部/嘴唇圖框播放動畫的步驟。
如申請專利範圍第2項所述之方法，更包含：產生一指標資料，以供判別情緒是否改變。
如申請專利範圍第3項所述之方法，其中該擷取所需之臉部/嘴唇圖框數目之臉部/嘴唇圖框供輸出之步驟，係進一步依該指標資料擷取。
一種使用至少一模型檔產生動畫的方法，該至少一模型檔包含儲存之臉部/嘴唇圖框用以表達與一本文訊息相關的情緒，該些儲存之臉部/嘴唇圖框至少包含一第一組圖框與一第二組圖框分別對應於一第一情緒與一第二情緒，該方法包含：轉換本文訊息為語音，該本文訊息包含至少一本文字串及至少一情緒識別符識別該第一情緒，而該語音包含音位資料及波形資料；依波形資料的一長度，計算所需之該些儲存之臉部/嘴唇圖框數目；至少部分依該至少一情緒識別符，取得該音位資料相應的視位資料；及依該視位資料，從該至少一模型檔擷取該所需之數目的該些儲存之臉部/嘴唇圖框，以產生與該波形資料相關的動畫，其中該擷取之臉部/嘴唇圖框包含該第一組圖框中對應於該第一情緒的圖框。
如申請專利範圍第5項所述之方法，進一步包含依該波形資料播放聲音及依該擷取之臉部/嘴唇圖框播放動畫的步驟。
如申請專利範圍第6項所述之方法，更包含依該至少一情緒識別符產生一指標資料，其中該至少一情緒識別符供判別情緒是否改變。
如申請專利範圍第7項所述之方法，其中該擷取所需之臉部/嘴唇圖框數目之臉部/嘴唇圖框供輸出之步驟，係進一步依該指標資料擷取。
如申請專利範圍第5項所述之方法，其中該轉換本文訊息為語音的步驟，係由一本文轉為語音(TTS)引擎執行，該本文轉為語音引擎可為CSTR University of Edinburgh之Festival、IBM ViaVoice TTS或Microsoft Research之Whistler。
如申請專利範圍第5項所述之方法，其中該取得該音位資料相應的視位資料之步驟，係利用一音位至視位映射表取得。
如申請專利範圍第5項所述之方法，其中該模型檔係儲存每一視位之所有嘴唇/臉部圖框。
一種使用至少一模型檔產生動畫的方法，該至少一模型檔包含儲存之臉部/嘴唇圖框用以表達與一本文訊息相關的情緒，該些儲存之臉部/嘴唇圖框至少包含一第一組圖框與一第二組圖框分別對應於一第一情緒與一第二情緒，該方法包含：藉由一本文至語音(TTS)引擎轉換本文訊息為語音，該本文訊息包含至少一本文字串及至少一情緒識別符識別該第一情緒，而該語音包含音位資料、波形資料及/或指標資料，該指標資料係供判別情緒是否改變；依波形資料的一長度，計算所需之該儲存之臉部/嘴唇圖框數目；依一音位至視位映射表以及該至少一情緒識別符，取得該音位資料相應的視位資料；及依該視位資料及該指標資料，從該至少一模型檔擷取該所需之數目的該些儲存之臉部/嘴唇圖框，以產生與該波形資料相關的動畫，其中該擷取之臉部/嘴唇圖框包含該第一組圖框中對應於該第一情緒的圖框。
如申請專利範圍第12項所述之方法，進一步包含依該波形資料播放聲音及依該臉部/嘴唇圖框播放動畫的步驟。
一種電腦可讀取的訊號承載媒體，包含程式碼，使一資料處理系統執行如申請專利範圍第1至13項中任一項所述之依本文訊息提供情緒動畫影像的方法。