[go: up one dir, main page]

JP2002197488A - リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法 - Google Patents

リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法

Info

Publication number
JP2002197488A
JP2002197488A JP2000398922A JP2000398922A JP2002197488A JP 2002197488 A JP2002197488 A JP 2002197488A JP 2000398922 A JP2000398922 A JP 2000398922A JP 2000398922 A JP2000398922 A JP 2000398922A JP 2002197488 A JP2002197488 A JP 2002197488A
Authority
JP
Japan
Prior art keywords
data
lip
phrase
timing
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000398922A
Other languages
English (en)
Inventor
Shusuke Onishi
秀典 大西
Toshiyuki Mizoguchi
稔幸 溝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Computer Entertainment Co Ltd
Konami Computer Entertainment Tokyo Inc
Original Assignee
Konami Computer Entertainment Co Ltd
Konami Computer Entertainment Tokyo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konami Computer Entertainment Co Ltd, Konami Computer Entertainment Tokyo Inc filed Critical Konami Computer Entertainment Co Ltd
Priority to JP2000398922A priority Critical patent/JP2002197488A/ja
Publication of JP2002197488A publication Critical patent/JP2002197488A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 リアルなリップシンクを低コストで実現す
る。 【解決手段】 インポートボタン10を押下して文字列
データファイルと音声データファイルを指定し、音声デ
ータファイルを解析して該音声データファイルに含まれ
るフレーズ数及び各フレーズの開始並びに終了タイミン
グを取得する。また、そのフレーズ数に文字列データフ
ァイルを分割する。文字列データファイルは変換ボタン
38によって口唇形状データ列に変換される。口唇形状
データ列は口唇形状データ列編集欄34に表示される。
その後、エキスポートボタン26を押下すると、各フレ
ーズに対応する口唇形状データ及びそのフレーズの開始
並びに終了タイミングに基づき、リップシンクデータが
生成出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はリップシンクデータ
生成装置並びに方法、情報記憶媒体、及び情報記憶媒体
の製造方法に関し、特にリアルなリップシンク(キャラ
クタの発声と口唇の動きとの同期)を低コストで実現可
能なリップシンクデータを生成するための技術に関す
る。
【0002】
【従来の技術】近年、ゲーム、テレビ放送、或いは映画
等の各種映像分野で、3Dアニメーションが利用されて
いる。かかる3Dアニメーションは、メモリ上に構築し
た仮想3次元空間にゲームキャラクタ等のオブジェクト
を配置し、それを任意の視点から見た画像を生成するこ
とによって作成される。
【0003】
【発明が解決しようとする課題】しかしながら、3Dア
ニメーションを作成するには多くの時間と労力を必要と
し、特に3Dアニメーションにおいて人間等のキャラク
タが喋る様子をリアルに再現するには、キャラクタの口
唇の動きを音声出力に同期させなければならず、大変な
時間と労力を必要とする。
【0004】本発明は上記課題に鑑みてなされたもので
あって、その目的は、リアルなリップシンクを低コスト
で実現可能なリップシンクデータ生成装置、リップシン
クデータ生成方法、リップシンクデータを生成するため
の情報記憶媒体、及び音声データに同期して口唇形状を
変化させるキャラクタを画像表示するためのデータを記
憶した情報記憶媒体を低コストで製造する方法を提供す
ることにある。
【0005】
【課題を解決するための手段】上記課題を解決するため
に、本発明に係るリップシンクデータ生成装置は、音声
データに同期して口唇形状を変化させるキャラクタを画
像表示するためのリップシンクデータを生成するリップ
シンクデータ生成装置において、前記音声データを取得
する音声データ取得手段と、前記音声データに対応する
文字列データを取得する文字列データ取得手段と、前記
文字列データを口唇形状データ列に変換するデータ変換
手段と、前記音声データに基づき、前記口唇形状データ
列に含まれる口唇形状データのうち少なくとも1つによ
って特定される口唇形状を前記キャラクタに与えるべき
タイミングを取得するタイミング取得手段と、前記タイ
ミング取得手段によって取得される前記タイミングと前
記データ変換手段によって取得される前記口唇形状デー
タ列とに基づき、前記リップシンクデータを生成するリ
ップシンクデータ生成手段と、を含むことを特徴とす
る。
【0006】また、本発明に係るリップシンクデータ生
成方法は、音声データに同期して口唇形状を変化させる
キャラクタを画像表示するためのリップシンクデータを
生成するリップシンクデータ生成方法において、前記音
声データを取得する音声データ取得ステップと、前記音
声データに対応する文字列データを取得する文字列デー
タ取得ステップと、前記文字列データを口唇形状データ
列に変換するデータ変換ステップと、前記音声データに
基づき、前記口唇形状データ列に含まれる口唇形状デー
タのうち少なくとも1つによって特定される口唇形状を
前記キャラクタに与えるべきタイミングを取得するタイ
ミング取得ステップと、前記タイミング取得ステップで
取得される前記タイミングと前記データ変換ステップで
取得される前記口唇形状データ列とに基づき、前記リッ
プシンクデータを生成するリップシンクデータ生成ステ
ップと、を含むことを特徴とする。
【0007】また、本発明に係る情報記憶媒体は、音声
データに同期して口唇形状を変化させるキャラクタを画
像表示するためのリップシンクデータを生成するプログ
ラムを記憶した情報記憶媒体であって、前記音声データ
を取得する音声データ取得ステップと、前記音声データ
に対応する文字列データを取得する文字列データ取得ス
テップと、前記文字列データを口唇形状データ列に変換
するデータ変換ステップと、前記音声データに基づき、
前記口唇形状データ列に含まれる口唇形状データのうち
少なくとも1つによって特定される口唇形状を前記キャ
ラクタに与えるべきタイミングを取得するタイミング取
得ステップと、前記タイミング取得ステップで取得され
る前記タイミングと前記データ変換ステップで取得され
る前記口唇形状データ列とに基づき、前記リップシンク
データを生成するリップシンクデータ生成ステップと、
をコンピュータに実行させるためのプログラムを記憶し
たものである。
【0008】本発明では、音声データに対応する文字列
データを取得し、該文字列データを口唇形状データ列に
変換している。口唇形状データはキャラクタの口唇形状
を表すものである。そして、口唇形状データ列に含まれ
る口唇形状データのうち少なくとも1つによって特定さ
れる口唇形状を前記キャラクタに付与すべきタイミング
を前記音声データに基づいて取得する。その後、そのタ
イミングと口唇形状データ列とに基づいてリップシンク
データを生成する。本発明によれば、音声データに対応
する文字列データを用いてリップシンクデータを生成す
るため、リアルなリップシンクが実現可能なリップシン
クデータを比較的低コストで生成することができるよう
になる。
【0009】なお、本発明の一態様においては、前記タ
イミング取得手段は、前記音声データから少なくとも1
つのフレーズの開始又は終了タイミングのうち少なくと
も一方を取得するフレーズタイミング取得手段と、前記
口唇形状データ列から前記少なくとも1つのフレーズの
開始又は終了タイミングにおける口唇形状データを取得
する口唇形状データ取得手段と、を含み、前記リップシ
ンクデータ生成手段は、前記口唇形状データ取得手段に
よって取得される口唇形状データと前記フレーズタイミ
ング取得手段によって取得される前記少なくとも1つの
フレーズの開始又は終了タイミングのうち少なくとも一
方を対応づけてなるリップシンクデータを生成する。こ
うすれば、前記少なくとも1つのフレーズの開始又は終
了タイミングにおいてキャラクタが正しい口唇形状をす
るようにできる。なお、フレーズとは音声データのうち
実際に声が録音されている区間を意味する。
【0010】また、この態様においては、前記フレーズ
タイミング取得手段は、前記音声データから少なくとも
1つのフレーズの開始及び終了タイミングを取得し、前
記口唇形状データ取得手段は、前記口唇形状データ列か
ら前記少なくとも1つのフレーズの開始及び終了タイミ
ングにおける口唇形状データを取得し、前記リップシン
クデータ生成手段は、前記口唇形状データ取得手段によ
って取得される口唇形状データと前記フレーズタイミン
グ取得手段によって取得されるタイミングを対応づける
とともに、他の少なくとも1つの口唇形状データに前記
フレーズタイミングに基づいて生成される少なくとも1
つのタイミングを対応づけてなるリップシンクデータを
生成するようにしてもよい。こうすれば、前記少なくと
も1つのフレーズの開始及び終了タイミングにおいてキ
ャラクタが正しい口唇形状をするようにできる。
【0011】また、本発明の一態様においては、前記音
声データに基づいて音量を取得する音量取得手段をさら
に含み、前記前記リップシンクデータ生成手段は、前記
音量取得手段によって取得される音量にさらに基づいて
リップシンクデータを生成する。こうすれば、音量に応
じてキャラクタの口唇形状が異なるようにリップシンク
データを生成することができる。
【0012】また、本発明の一態様においては、前記文
字列データは台本データであり、前記音声データは該台
本データに対応する台本を読み上げた音声を記録するも
のである。音声データは通常台本データに対応する台本
を読み上げた音声を記録したものであるため、リップシ
ンクデータの生成手順を合理化できる。
【0013】また、本発明に係る情報記憶媒体の製造方
法は、音声データに同期して口唇形状を変化させるキャ
ラクタを画像表示するためのデータを記憶した情報記憶
媒体を製造する方法であって、前記音声データを取得す
る音声データ取得ステップと、前記音声データに対応す
る文字列データを取得する文字列データ取得ステップ
と、前記文字列データを口唇形状データ列に変換するデ
ータ変換ステップと、前記音声データに基づき、前記口
唇形状データ列に含まれる口唇形状データのうち少なく
とも1つによって特定される口唇形状を前記キャラクタ
に与えるべきタイミングを取得するタイミング取得ステ
ップと、前記タイミング取得ステップで取得される前記
タイミングと前記データ変換ステップで取得される前記
口唇形状データ列とに基づき、前記リップシンクデータ
を生成するリップシンクデータ生成ステップと、該リッ
プシンクデータ生成ステップで生成されるリップシンク
データに基づいて前記口唇形状を変化させるキャラクタ
を画像表示するためのデータを生成し、前記情報記憶媒
体に記憶するデータ生成記憶ステップと、を含むことを
特徴とする。
【0014】本発明によれば、リアルにリップシンクす
るキャラクタを画像表示するための情報記憶媒体を低コ
ストで製造することができる。
【0015】また、本発明に係るリップシンクデータ生
成装置は、音声データに同期して口唇形状を変化させる
キャラクタを画像表示するためのリップシンクデータを
生成するリップシンクデータ生成装置において、前記音
声データを取得する音声データ取得手段と、前記音声デ
ータに対応する文字列データを取得する文字列データ取
得手段と、前記音声データからフレーズデータを抽出す
るフレーズデータ抽出手段と、前記文字列データから前
記フレーズデータに対応するフレーズ文字列データを抽
出するフレーズ文字列データ抽出手段と、前記フレーズ
文字列データを口唇形状データ列に変換するデータ変換
手段と、前記フレーズデータの少なくとも開始タイミン
グを取得するタイミング取得手段と、前記タイミング取
得手段によって取得される前記開始タイミングと前記デ
ータ変換手段によって取得される前記口唇形状データ列
とに基づき、前記リップシンクデータを生成するリップ
シンクデータ生成手段と、前記タイミング取得手段によ
って取得される前記開始タイミングと前記フレーズ文字
列データとに基づき、字幕データを生成する字幕データ
生成手段と、を含むことを特徴とする。
【0016】また、本発明に係るリップシンクデータ生
成方法は、音声データに同期して口唇形状を変化させる
キャラクタを画像表示するためのリップシンクデータを
生成するリップシンクデータ生成方法において、前記音
声データを取得する音声データ取得ステップと、前記音
声データに対応する文字列データを取得する文字列デー
タ取得ステップと、前記音声データからフレーズデータ
を抽出するフレーズデータ抽出ステップと、前記文字列
データから前記フレーズデータに対応するフレーズ文字
列データを抽出するフレーズ文字列データ抽出ステップ
と、前記フレーズ文字列データを口唇形状データ列に変
換するデータ変換ステップと、前記フレーズデータの少
なくとも開始タイミングを取得するタイミング取得ステ
ップと、前記タイミング取得ステップで取得される前記
開始タイミングと前記データ変換ステップで取得される
前記口唇形状データ列とに基づき、前記リップシンクデ
ータを生成するリップシンクデータ生成ステップと、前
記タイミング取得ステップで取得される前記開始タイミ
ングと前記フレーズ文字列データとに基づき、字幕デー
タを生成する字幕データ生成ステップと、を含むことを
特徴とする。
【0017】また、本発明に係る情報記憶媒体は、音声
データに同期して口唇形状を変化させるキャラクタを画
像表示するためのリップシンクデータを生成するプログ
ラムを記憶した情報記憶媒体であって、前記音声データ
を取得する音声データ取得ステップと、前記音声データ
に対応する文字列データを取得する文字列データ取得ス
テップと、前記音声データからフレーズデータを抽出す
るフレーズデータ抽出ステップと、前記文字列データか
ら前記フレーズデータに対応するフレーズ文字列データ
を抽出するフレーズ文字列データ抽出ステップと、前記
フレーズ文字列データを口唇形状データ列に変換するデ
ータ変換ステップと、前記フレーズデータの少なくとも
開始タイミングを取得するタイミング取得ステップと、
前記タイミング取得ステップで取得される前記開始タイ
ミングと前記データ変換ステップで取得される前記口唇
形状データ列とに基づき、前記リップシンクデータを生
成するリップシンクデータ生成ステップと、前記タイミ
ング取得ステップで取得される前記開始タイミングと前
記フレーズ文字列データとに基づき、字幕データを生成
する字幕データ生成ステップと、をコンピュータに実行
させるためのプログラムを記憶したものである。
【0018】本発明によれば、音声データからフレーズ
データを抽出するとともに、文字列データからフレーズ
文字列データを抽出し、フレーズデータの開始タイミン
グとフレーズ文字列データとに基づき、字幕データを生
成している。このため、リアルなリップシンクが実現可
能なリップシンクデータを低コストで生成しつつ、さら
に字幕データまで生成することができる。なお、フレー
ズデータは音声データのうち実際に声が含まれている音
声区間を表すデータを意味する。
【0019】また、本発明に係る情報記憶媒体の製造方
法は、音声データに同期して口唇形状を変化させるキャ
ラクタを画像表示するためのデータを記憶した情報記憶
媒体を製造する方法であって、前記音声データを取得す
る音声データ取得ステップと、前記音声データに対応す
る文字列データを取得する文字列データ取得ステップ
と、前記音声データからフレーズデータを抽出するフレ
ーズデータ抽出ステップと、前記文字列データから前記
フレーズデータに対応するフレーズ文字列データを抽出
するフレーズ文字列データ抽出ステップと、前記フレー
ズ文字列データを口唇形状データ列に変換するデータ変
換ステップと、前記フレーズデータの少なくとも開始タ
イミングを取得するタイミング取得ステップと、前記タ
イミング取得ステップで取得される前記開始タイミング
と前記データ変換ステップで取得される前記口唇形状デ
ータ列とに基づき、前記リップシンクデータを生成する
リップシンクデータ生成ステップと、前記タイミング取
得ステップで取得される前記開始タイミングと前記フレ
ーズ文字列データとに基づき、字幕データを生成する字
幕データ生成ステップと、該リップシンクデータ生成ス
テップで生成されるリップシンクデータに基づいて前記
口唇形状を変化させるキャラクタを画像表示するための
データを生成し、該データ及び前記字幕データを前記情
報記憶媒体に記憶するデータ生成記憶ステップと、を含
むことを特徴とする。
【0020】本発明によれば、リアルにリップシンクす
るキャラクタを画像表示するとともに、そのキャラクタ
の発声に対する字幕を表示するための情報記憶媒体を低
コストで製造することができる。
【0021】
【発明の実施の形態】以下、本発明の好適な実施の形態
について図面に基づき詳細に説明する。
【0022】本実施の形態に係るリップシンクデータ生
成装置は、図1に一例として示すようにモニタ1、本体
2、キーボード3及びマウス4を含む、周知のコンピュ
ータ(パーソナルコンピュータやワークステーション
等)にリップシンクデータを生成するためのプログラム
をインストールすることにより実現される。このプログ
ラムは例えばCD−ROM等の情報記憶媒体からコンピ
ュータにインストールされる。その他、インターネット
等のデータ通信ネットワークからコンピュータにリップ
シンクデータを生成するためのプログラムをダウンロー
ドするようにしてもよい。
【0023】図2は本発明の実施の形態に係るリップシ
ンクデータ生成装置の操作画面を示す図である。同図に
示す操作画面は上記コンピュータのディスプレイに表示
されるものであり、GUIを採用した周知のオペレーテ
ィングシステムを利用することにより実現されている。
この画面においては、左上に音声データのファイル名を
表示するための音声データファイル名表示欄12と文字
列データのファイル名を表示するための文字列データフ
ァイル名表示欄14とが設けられている。音声データは
リップシンクの対象となる音声、すなわちキャラクタが
発する音声を、例えばWAVEデータの形式で収録した
ものである。この音声データは、例えば声優が台本を読
み上げ、それを録音することによって得られるものであ
る。ここでは英語の台本を読み上げて得られる音声デー
タを取り上げるが、その他の言語、例えば日本語の台本
を読み上げて得られる音声データであっても本発明は同
様に適用可能である。一方、文字列データは音声データ
の元となった台本をテキストデータ化したものである。
音声データファイルと文字列データファイルはコンピュ
ータの所定記憶領域に予め記憶しておく。
【0024】文字列データファイル名表示欄14の下側
にはインポートボタン10が表示されており、このイン
ポートボタン10をマウス等のポインティングデバイス
でクリックすると、ファイル名一覧が図示しない別ウィ
ンドウに表示される。ユーザがそこから1つのファイル
を選択すると、そのファイルの種類に応じて音声データ
ファイル又は文字列データファイルとして登録される。
そして、音声データファイルであれば音声データファイ
ル名表示欄12にファイル名が表示され、文字列データ
ファイルであれば文字列データファイル名表示欄14に
ファイル名が表示されるとともに、その内容が文字列デ
ータ編集欄32に表示される。
【0025】音声データファイル名表示欄12及び文字
列データファイル名表示欄14の右側にはフレーズ数表
示欄16及び音声データ再生ボタン18が設けられてい
る。音声データ再生ボタン18は音声データファイル名
表示欄12にファイル名が表示されている音声データフ
ァイルを再生出力する。このとき音声は上記コンピュー
タに備えられたスピーカから出力される。また、音声デ
ータファイルを再生しながら、上記コンピュータはプロ
グラムに従い、音声データに含まれるフレーズ数をカウ
ントするとともに、各フレーズの開始タイミング及び終
了タイミングを読み出す。なお、音声データが再生され
るときは、音声区間ライト15が点滅するようになって
いる。また、各フレーズにおける音量推移も取得する。
ここで、フレーズ(文節)とは、図3に示すように、音
声データに収録された音声のうち肉声が連続して収録さ
れた区間をいう。上記コンピュータはプログラムに従
い、例えば音声データにローパスフィルタ等によってノ
イズ除去を施した後、所定時間、例えば0.5秒以上の
無音区間があるとき、そこをフレーズとフレーズの区切
りと判断する。なお、各フレーズの開始タイミング及び
終了タイミング、並びに各フレーズにおける音量推移の
データは、例えば図4に示すようにしてテーブル化され
て、上記コンピュータの一時記憶領域に保存される。
【0026】また、図2に示す操作画面において、音声
データ再生ボタン18の下には最適化ボタン36、変換
ボタン38及び文字列データ読み上げボタン40が設け
られている。最適化ボタン36は文字列データに対し、
フレーズ毎にセミコロン(;)及び改行コードを付与
し、複数フレーズに分割するためのボタンである。ユー
ザが同最適化ボタン36を押下すると、同図に示すよう
に、文字列データ編集欄32に最適化後の文字列データ
が表示される。最適化ボタン36によって文字列データ
をフレーズ分割するとき、上記コンピュータは、例えば
音声データから把握される各フレーズの長さを参考に文
字列データの区切りを判断するようにすればよい。その
他、音声データに音声認識処理を施し、認識結果と文字
列データとを比較することによってフレーズの区切りを
判断するようにしてもよい。或いは、文字列データに文
法解析を施し、フレーズの区切りを判断するようにして
もよい。
【0027】なお、文字列データ編集欄32はキーボー
ド等によって直接編集可能となっており、最適化ボタン
36による最適化が不十分又は不適切である場合、ユー
ザは手直しできるようになっている。また、文字列デー
タファイルの内容を同欄に直接カット&ペーストするこ
ともできる。さらに、文字列データ編集欄32には右端
にスクロールバー28が設けられており、フレーズ文字
列データが多数に上る場合、スクロールして表示範囲を
変えることができるようになっている。
【0028】また、変換ボタン38は、文字列データ編
集欄32に表示されている最適化後の文字列データを口
唇形状データ列に変換するためのボタンである。変換は
フレーズ毎に行われる。また、口唇形状データは口唇形
状、すなわちキャラクタの口及び唇の形状を特定するデ
ータであり、例えば「#」は口を開けた状態、「*」は
口を閉じた状態、「p」は“pipe”の先頭の“p”
を発音するときの口唇形状を表す。その他、多数の口唇
形状に対して口唇形状データが割り当てられている。上
記コンピュータは、変換ボタン38がマウス等でクリッ
クされると、文字列データを発音記号データベースを参
照しつつ発音記号列に置き換え、さらに発音記号を口唇
形状データ列に置き換える。文字列データを発音記号列
に置き換える機能には、公知技術を採用すればよい。
【0029】変換ボタン38によって文字列データが口
唇形状データ列に変換されると、その内容は口唇形状デ
ータ列編集欄34に表示される。このとき、文字列デー
タ編集欄32において最適化後の文字列データは1行に
1フレーズずつ表示されている。そして、口唇形状デー
タ列編集欄34においても、1行に1フレーズ分の口唇
形状データ列(フレーズ口唇形状データ列)が表示され
ている。各行の口唇形状データ列は文字列データ編集欄
32における同じ行の文字列データ(フレーズ文字列デ
ータ)に対応している。
【0030】なお、口唇形状データ列編集欄34はキー
ボード等によって直接編集可能となっており、変換ボタ
ン38による変換が不適切である場合、ユーザは手直し
できるようになっている。また、口唇形状データ列編集
欄34にも右端にスクロールバー30が設けられてお
り、フレーズ文字列データが多数に上る場合、すなわち
フレーズ口唇形状データ列が多数に上る場合、スクロー
ルして表示範囲を変えることができるようになってい
る。
【0031】文字列データ読み上げボタン40は文字列
データ編集欄32に表示されているフレーズ文字列デー
タを順に読み上げる。このときの発音は、変換ボタン3
8によるデータ変換で用いる発音記号データベースに従
う。このため、文字列データ読み上げボタン40を押下
することにより、ユーザは変換ボタン38による自動変
換が所望のものであるかを耳で確認することができる。
【0032】また、図2に示す操作画面において、右上
隅にはプレビュー画像20、口唇形状データ表示欄22
及びプレビューボタン24が設けられている。プレビュ
ーボタン24は口唇形状データ列編集欄34に表示され
ているフレーズ口唇形状データ列と図4に示すテーブル
とに基づいてリップシンクデータを生成し、それに基づ
いてキャラクタの口元の動画像をプレビュー画像20と
して表示する。このとき、音声データを合わせて再生す
るとともに、プレビュー画像20に表示している口唇形
状を特定する口唇形状データ(「*」や「#」等の記
号)を口唇形状データ表示欄22に順次表示する。プレ
ビュー画像20では、口唇形状データによって特定され
る口唇形状をした口元画像が同一フレーズ内において所
定時間間隔で表示されるとともに、その間が補完画像で
埋められる。こうして生成されるプレビュー画面20を
見て、そこに表示されたキャラクタの口元の動画像がユ
ーザの求めるレベルに達していれば、エキスポートボタ
ン26を押下すことにより、ユーザはリップシンクデー
タをファイル出力することができる。さらに、エキスポ
ートボタン26を押下すると、字幕データも出力され
る。字幕データは、例えば文字列データ編集欄32に表
示されているフレーズ文字列データと、対応する音声デ
ータのファイル名と、各フレーズの開始タイミング及び
終了タイミングと、を含むものである。ゲーム画像に字
幕を加える際には、現在再生中の、或いはすぐ後に再生
されようとしている音声に対応するフレーズ文字列が、
前記音声データのファイル名と前記各フレーズの開始タ
イミング及び終了タイミングとに基づいて、前記フレー
ズ文字列データから抽出され、そのフレーズ文字列がゲ
ーム画像に重畳表示される。
【0033】なお、リップシンクデータは次のようにし
て生成される。リップシンクデータは、キャラクタの口
唇形状の推移及びキャラクタが各口唇形状をとる時間
(タイミング)を記録したデータであり、各フレーズの
開始タイミングには対応するフレーズ口唇形状データ列
の先頭の口唇形状データが対応づけられる。また、終了
タイミングには最後尾の口唇形状データが対応づけられ
る。さらに、その中間の口唇形状データは開始タイミン
グと終了タイミングとの間に等しい時間間隔で配置され
る。また、各口唇形状データはフレーム内での音量推移
に従って補正が加えられる。例えば、ある口唇形状デー
タに対応づけられた時間において、音声データの音量が
大きい場合には、その口唇形状データはリップシンクデ
ータにおいて比較的大きく口を開けた状態を示す口唇形
状データに差し替えられる。こうして、各フレーズにお
ける音量推移をリップシンクデータに反映させることが
でき、よりリアルなリップシンクを実現することができ
る。
【0034】ここで、リップシンクデータ及び字幕デー
タを生成する基本手順をフロー図に基づいて説明する。
図5に示すように、リップシンクデータ及び字幕データ
を生成するに先立ち、まずインポートボタン10を押下
して音声データファイルを指定する(S101)。さら
に、インポートボタン10を押下して文字列データファ
イルを指定する(S102)。そして、音声データ再生
ボタン18を押下して音声データファイルを再生し、そ
こからフレーズ数、各フレーズの開始及び終了タイミン
グ、各フレーズの音量推移を取得する(S103)。さ
らに、最適化ボタン36を押下して文字列データをフレ
ーズに分割し、フレーズ文字列データを生成する(S1
04)。また、変換ボタン38を押下してフレーズ文字
列データを口唇形状データ列に変換する(S105)。
【0035】その後、プレビューボタン24を押下し
て、プレビュー画像20を見ながらフレーズ文字列デー
タや口唇形状データ列が適切に生成されているかを確認
する(S106)。そして、適宜文字列データ編集欄3
2や口唇形状列編集欄34においてフレーズ文字列デー
タや口唇形状データ列に修正を加える(S107)。そ
して、最後にエキスポートボタン26を押下してリップ
シンクデータと字幕データとを出力する(S108)。
なお、S106とS107の作業は必要に応じて繰り返
される。
【0036】
【発明の効果】以上説明したように、本発明によれば、
音声データに対応する文字列データを用いてリップシン
クデータを生成するため、リアルなリップシンクが実現
可能なリップシンクデータを比較的低コストで生成する
ことができる。また、リアルなリップシンクが実現可能
なリップシンクデータを低コストで生成しつつ、さらに
字幕データまで生成することができる。
【図面の簡単な説明】
【図1】 周知のコンピュータシステムの外観を示す図
である。
【図2】 本発明の実施の形態に係るリップシンクデー
タ生成装置の操作画面を示す図である。
【図3】 文字列データから口唇形状データに変換する
例を示す図である。
【図4】 音声データから取得される中間生成データを
テーブル化したものを示す図である。
【図5】 リップシンクデータ及び字幕データを生成す
る手順を説明するフロー図である。
【符号の説明】 10 ファイルインポートボタン、11 インジケー
タ、12 音声データファイル名表示欄、14 文字列
データファイル名表示欄、16 フレーズ数表示欄、1
8 音声データ再生ボタン、20 プレビュー画像、2
2 口唇形状データ表示欄、24 プレビューボタン、
26 エキスポートボタン、28,30スクロールバ
ー、32 文字列データ編集欄、34 口唇形状データ
編集欄、36 最適化ボタン、38 変換ボタン、40
文字列データ読み上げボタン。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 2C001 BA02 BA07 BC05 BC08 CA07 5B050 AA08 BA07 BA08 BA09 BA12 EA24 FA02 FA10 FA13 5D045 AA20 AB11

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 音声データに同期して口唇形状を変化さ
    せるキャラクタを画像表示するためのリップシンクデー
    タを生成するリップシンクデータ生成装置において、 前記音声データを取得する音声データ取得手段と、 前記音声データに対応する文字列データを取得する文字
    列データ取得手段と、 前記文字列データを口唇形状データ列に変換するデータ
    変換手段と、 前記音声データに基づき、前記口唇形状データ列に含ま
    れる口唇形状データのうち少なくとも1つによって特定
    される口唇形状を前記キャラクタに与えるべきタイミン
    グを取得するタイミング取得手段と、 前記タイミング取得手段によって取得される前記タイミ
    ングと前記データ変換手段によって取得される前記口唇
    形状データ列とに基づき、前記リップシンクデータを生
    成するリップシンクデータ生成手段と、 を含むことを特徴とするリップシンクデータ生成装置。
  2. 【請求項2】 請求項1に記載のリップシンクデータ生
    成装置において、 前記タイミング取得手段は、 前記音声データから少なくとも1つのフレーズの開始又
    は終了タイミングのうち少なくとも一方を取得するフレ
    ーズタイミング取得手段と、 前記口唇形状データ列から前記少なくとも1つのフレー
    ズの開始又は終了タイミングにおける口唇形状データを
    取得する口唇形状データ取得手段と、 を含み、 前記リップシンクデータ生成手段は、 前記口唇形状データ取得手段によって取得される口唇形
    状データと前記フレーズタイミング取得手段によって取
    得される前記少なくとも1つのフレーズの開始又は終了
    タイミングのうち少なくとも一方を対応づけてなるリッ
    プシンクデータを生成する、 ことを特徴とするリップシンクデータ装置。
  3. 【請求項3】 請求項2に記載のリップシンクデータ生
    成装置において、 前記フレーズタイミング取得手段は、前記音声データか
    ら少なくとも1つのフレーズの開始及び終了タイミング
    を取得し、 前記口唇形状データ取得手段は、前記口唇形状データ列
    から前記少なくとも1つのフレーズの開始及び終了タイ
    ミングにおける口唇形状データを取得し、 前記リップシンクデータ生成手段は、前記口唇形状デー
    タ取得手段によって取得される口唇形状データと前記フ
    レーズタイミング取得手段によって取得されるタイミン
    グを対応づけるとともに、他の少なくとも1つの口唇形
    状データに前記フレーズタイミングに基づいて生成され
    る少なくとも1つのタイミングを対応づけてなるリップ
    シンクデータを生成する、 ことを特徴とするリップシンクデータ生成装置。
  4. 【請求項4】 請求項1乃至3のいずれかに記載のリッ
    プシンクデータ生成装置において、 前記音声データに基づいて音量を取得する音量取得手段
    をさらに含み、 前記前記リップシンクデータ生成手段は、前記音量取得
    手段によって取得される音量にさらに基づいてリップシ
    ンクデータを生成することを特徴とするリップシンクデ
    ータ生成装置。
  5. 【請求項5】 請求項1乃至4のいずれかに記載のリッ
    プシンクデータ生成装置において、 前記文字列データは台本データであり、前記音声データ
    は該台本データに対応する台本を読み上げた音声を記録
    するものである、ことを特徴とするリップシンクデータ
    生成装置。
  6. 【請求項6】 音声データに同期して口唇形状を変化さ
    せるキャラクタを画像表示するためのリップシンクデー
    タを生成するリップシンクデータ生成方法において、 前記音声データを取得する音声データ取得ステップと、 前記音声データに対応する文字列データを取得する文字
    列データ取得ステップと、 前記文字列データを口唇形状データ列に変換するデータ
    変換ステップと、 前記音声データに基づき、前記口唇形状データ列に含ま
    れる口唇形状データのうち少なくとも1つによって特定
    される口唇形状を前記キャラクタに与えるべきタイミン
    グを取得するタイミング取得ステップと、 前記タイミング取得ステップで取得される前記タイミン
    グと前記データ変換ステップで取得される前記口唇形状
    データ列とに基づき、前記リップシンクデータを生成す
    るリップシンクデータ生成ステップと、 を含むことを特徴とするリップシンクデータ生成方法。
  7. 【請求項7】 音声データに同期して口唇形状を変化さ
    せるキャラクタを画像表示するためのリップシンクデー
    タを生成するプログラムを記憶した情報記憶媒体であっ
    て、 前記音声データを取得する音声データ取得ステップと、 前記音声データに対応する文字列データを取得する文字
    列データ取得ステップと、 前記文字列データを口唇形状データ列に変換するデータ
    変換ステップと、 前記音声データに基づき、前記口唇形状データ列に含ま
    れる口唇形状データのうち少なくとも1つによって特定
    される口唇形状を前記キャラクタに与えるべきタイミン
    グを取得するタイミング取得ステップと、 前記タイミング取得ステップで取得される前記タイミン
    グと前記データ変換ステップで取得される前記口唇形状
    データ列とに基づき、前記リップシンクデータを生成す
    るリップシンクデータ生成ステップと、 をコンピュータに実行させるためのプログラムを記憶し
    た情報記憶媒体。
  8. 【請求項8】 音声データに同期して口唇形状を変化さ
    せるキャラクタを画像表示するためのデータを記憶した
    情報記憶媒体を製造する方法であって、 前記音声データを取得する音声データ取得ステップと、 前記音声データに対応する文字列データを取得する文字
    列データ取得ステップと、 前記文字列データを口唇形状データ列に変換するデータ
    変換ステップと、 前記音声データに基づき、前記口唇形状データ列に含ま
    れる口唇形状データのうち少なくとも1つによって特定
    される口唇形状を前記キャラクタに与えるべきタイミン
    グを取得するタイミング取得ステップと、 前記タイミング取得ステップで取得される前記タイミン
    グと前記データ変換ステップで取得される前記口唇形状
    データ列とに基づき、前記リップシンクデータを生成す
    るリップシンクデータ生成ステップと、 該リップシンクデータ生成ステップで生成されるリップ
    シンクデータに基づいて前記口唇形状を変化させるキャ
    ラクタを画像表示するためのデータを生成し、前記情報
    記憶媒体に記憶するデータ生成記憶ステップと、 を含むことを特徴とする方法。
  9. 【請求項9】 音声データに同期して口唇形状を変化さ
    せるキャラクタを画像表示するためのリップシンクデー
    タを生成するリップシンクデータ生成装置において、 前記音声データを取得する音声データ取得手段と、 前記音声データに対応する文字列データを取得する文字
    列データ取得手段と、 前記音声データからフレーズデータを抽出するフレーズ
    データ抽出手段と、 前記文字列データから前記フレーズデータに対応するフ
    レーズ文字列データを抽出するフレーズ文字列データ抽
    出手段と、 前記フレーズ文字列データを口唇形状データ列に変換す
    るデータ変換手段と、 前記フレーズデータの少なくとも開始タイミングを取得
    するタイミング取得手段と、 前記タイミング取得手段によって取得される前記開始タ
    イミングと前記データ変換手段によって取得される前記
    口唇形状データ列とに基づき、前記リップシンクデータ
    を生成するリップシンクデータ生成手段と、 前記タイミング取得手段によって取得される前記開始タ
    イミングと前記フレーズ文字列データとに基づき、字幕
    データを生成する字幕データ生成手段と、 を含むことを特徴とするリップシンクデータ生成装置。
  10. 【請求項10】 音声データに同期して口唇形状を変化
    させるキャラクタを画像表示するためのリップシンクデ
    ータを生成するリップシンクデータ生成方法において、 前記音声データを取得する音声データ取得ステップと、 前記音声データに対応する文字列データを取得する文字
    列データ取得ステップと、 前記音声データからフレーズデータを抽出するフレーズ
    データ抽出ステップと、 前記文字列データから前記フレーズデータに対応するフ
    レーズ文字列データを抽出するフレーズ文字列データ抽
    出ステップと、 前記フレーズ文字列データを口唇形状データ列に変換す
    るデータ変換ステップと、 前記フレーズデータの少なくとも開始タイミングを取得
    するタイミング取得ステップと、 前記タイミング取得ステップで取得される前記開始タイ
    ミングと前記データ変換ステップで取得される前記口唇
    形状データ列とに基づき、前記リップシンクデータを生
    成するリップシンクデータ生成ステップと、 前記タイミング取得ステップで取得される前記開始タイ
    ミングと前記フレーズ文字列データとに基づき、字幕デ
    ータを生成する字幕データ生成ステップと、 を含むことを特徴とするリップシンクデータ生成方法。
  11. 【請求項11】 音声データに同期して口唇形状を変化
    させるキャラクタを画像表示するためのリップシンクデ
    ータを生成するプログラムを記憶した情報記憶媒体であ
    って、 前記音声データを取得する音声データ取得ステップと、 前記音声データに対応する文字列データを取得する文字
    列データ取得ステップと、 前記音声データからフレーズデータを抽出するフレーズ
    データ抽出ステップと、 前記文字列データから前記フレーズデータに対応するフ
    レーズ文字列データを抽出するフレーズ文字列データ抽
    出ステップと、 前記フレーズ文字列データを口唇形状データ列に変換す
    るデータ変換ステップと、 前記フレーズデータの少なくとも開始タイミングを取得
    するタイミング取得ステップと、 前記タイミング取得ステップで取得される前記開始タイ
    ミングと前記データ変換ステップで取得される前記口唇
    形状データ列とに基づき、前記リップシンクデータを生
    成するリップシンクデータ生成ステップと、 前記タイミング取得ステップで取得される前記開始タイ
    ミングと前記フレーズ文字列データとに基づき、字幕デ
    ータを生成する字幕データ生成ステップと、 をコンピュータに実行させるためのプログラムを記憶し
    た情報記憶媒体。
  12. 【請求項12】 音声データに同期して口唇形状を変化
    させるキャラクタを画像表示するためのデータを記憶し
    た情報記憶媒体を製造する方法であって、 前記音声データを取得する音声データ取得ステップと、 前記音声データに対応する文字列データを取得する文字
    列データ取得ステップと、 前記音声データからフレーズデータを抽出するフレーズ
    データ抽出ステップと、 前記文字列データから前記フレーズデータに対応するフ
    レーズ文字列データを抽出するフレーズ文字列データ抽
    出ステップと、 前記フレーズ文字列データを口唇形状データ列に変換す
    るデータ変換ステップと、 前記フレーズデータの少なくとも開始タイミングを取得
    するタイミング取得ステップと、 前記タイミング取得ステップで取得される前記開始タイ
    ミングと前記データ変換ステップで取得される前記口唇
    形状データ列とに基づき、前記リップシンクデータを生
    成するリップシンクデータ生成ステップと、 前記タイミング取得ステップで取得される前記開始タイ
    ミングと前記フレーズ文字列データとに基づき、字幕デ
    ータを生成する字幕データ生成ステップと、 該リップシンクデータ生成ステップで生成されるリップ
    シンクデータに基づいて前記口唇形状を変化させるキャ
    ラクタを画像表示するためのデータを生成し、該データ
    及び前記字幕データを前記情報記憶媒体に記憶するデー
    タ生成記憶ステップと、 を含むことを特徴とする方法。
JP2000398922A 2000-12-27 2000-12-27 リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法 Pending JP2002197488A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000398922A JP2002197488A (ja) 2000-12-27 2000-12-27 リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000398922A JP2002197488A (ja) 2000-12-27 2000-12-27 リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法

Publications (1)

Publication Number Publication Date
JP2002197488A true JP2002197488A (ja) 2002-07-12

Family

ID=18863791

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000398922A Pending JP2002197488A (ja) 2000-12-27 2000-12-27 リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法

Country Status (1)

Country Link
JP (1) JP2002197488A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015125613A (ja) * 2013-12-26 2015-07-06 Kddi株式会社 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム
JP2015176592A (ja) * 2014-03-18 2015-10-05 Kddi株式会社 アニメーション生成装置、アニメーション生成方法およびプログラム
JP2022537011A (ja) * 2019-08-29 2022-08-23 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
CN116863046A (zh) * 2023-07-07 2023-10-10 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015125613A (ja) * 2013-12-26 2015-07-06 Kddi株式会社 アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム
JP2015176592A (ja) * 2014-03-18 2015-10-05 Kddi株式会社 アニメーション生成装置、アニメーション生成方法およびプログラム
JP2022537011A (ja) * 2019-08-29 2022-08-23 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
JP7312853B2 (ja) 2019-08-29 2023-07-21 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 人工知能に基づく音声駆動アニメーション方法及び装置、デバイス及びコンピュータプログラム
US12002138B2 (en) 2019-08-29 2024-06-04 Tencent Technology (Shenzhen) Company Limited Speech-driven animation method and apparatus based on artificial intelligence
CN116863046A (zh) * 2023-07-07 2023-10-10 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质
CN116863046B (zh) * 2023-07-07 2024-03-19 广东明星创意动画有限公司 一种虚拟口型生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
JP4430036B2 (ja) 拡張型字幕ファイルを用いて付加情報を提供する装置及び方法
JP4127668B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US10034028B2 (en) Caption and/or metadata synchronization for replay of previously or simultaneously recorded live programs
JPH11162107A (ja) デジタルビデオ情報及びオーディオ情報を編集するためのシステム
US20180226101A1 (en) Methods and systems for interactive multimedia creation
JP3615195B2 (ja) コンテンツ記録再生装置およびコンテンツ編集方法
US20060136226A1 (en) System and method for creating artificial TV news programs
JP6641045B1 (ja) コンテンツ生成システム、及びコンテンツ生成方法
JP2002374494A (ja) ビデオコンテンツファイル生成システムおよびビデオコンテンツファイル検索方法。
US20140019132A1 (en) Information processing apparatus, information processing method, display control apparatus, and display control method
WO2010070519A1 (en) Method and apparatus for synthesizing speech
KR101944365B1 (ko) 콘텐츠 싱크 생성 방법, 그 장치 및 이를 위한 인터페이스 모듈
KR101618777B1 (ko) 파일 업로드 후 텍스트를 추출하여 영상 또는 음성간 동기화시키는 서버 및 그 방법
JP2006528864A (ja) シナリオを記録した情報記録媒体、記録装置及び記録方法、その情報記録媒体の再生装置及びシナリオの検索方法
JP4210723B2 (ja) 自動字幕番組制作システム
KR20050012101A (ko) 시나리오를 기록한 정보저장매체, 기록장치 및 기록방법,그 정보저장매체의 재생장치 및 시나리오의 검색방법
JP2002197488A (ja) リップシンクデータ生成装置並びに方法、情報記憶媒体、及び情報記憶媒体の製造方法
JP2002008052A (ja) プレゼンテーションシステムおよび記録媒体
KR101709053B1 (ko) 음원의 음성 정보와 자막을 음절 단위로 동기화하기 위한 자막 파일 구조 및 자막 재생 장치
JP4500957B2 (ja) 字幕制作システム
JP2009171480A (ja) 映像記録再生装置及び映像再生装置
JP2009152782A (ja) コンテンツ再生装置及びコンテンツ再生方法
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP2005285076A (ja) 映像情報制作方法
JP7179387B1 (ja) ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041015

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041116