JP3599549B2

JP3599549B2 - 動映像と合成音を同期化するテキスト／音声変換器、および、動映像と合成音を同期化する方法

Info

Publication number: JP3599549B2
Application number: JP35042797A
Authority: JP
Inventors: 政哲李; 敏洙韓; 恒燮李; 在宇梁; 永稷李
Original assignee: Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics and Telecommunications Research Institute ETRI
Priority date: 1997-05-08
Filing date: 1997-12-19
Publication date: 2004-12-08
Anticipated expiration: 2017-12-19
Also published as: USRE42647E1; KR100240637B1; JPH10320170A; DE19753454C2; JP2004361965A; JP4344658B2; US6088673A; KR19980082608A; DE19753454A1

Description

【０００１】
【発明の属する技術分野】
本発明は、動映像と合成音を同期化するためのテキスト／音声変換器（ｔｅｘｔ−ｔｏ−ｓｐｅｅｃｈｃｏｎｖｅｒｓｉｏｎｓｙｓｔｅｍ：ＴＴＳ）及びその入力データ構造化方法に関し、特に、テキスト以外の付加的韻律情報、多重媒体との連動に必要な情報、および、これら情報とＴＴＳとの間のインターフェースを定義して、ＴＴＳでの合成音生成に使用することにより、合成音の自然性向上と、多重媒体情報及びＴＴＳ間の同期化とを図ることができる動映像と合成音を同期化するためのテキスト／音声変換器及びその入力データ構造化方法に関する。
【０００２】
【従来の技術】
一般的に、音声合成器の機能は、コンピュータが使用者である人間に多様な形態の情報を音声で提供することにある。このためには、音声合成器は、使用者によって与えられたテキストから高品質の音声合成サービスを提供できなければならない。同時に、動映像やアニメーション等の多重媒体環境において製作されたデータベース、あるいは、対話相手から提供される多様なメデイアと連動するためには、これらと同期化するように合成音の生成がされなければならない。特に、多重媒体情報及びＴＴＳ間の同期化は、使用者に高品質のサービスを提供する上で必須的である。
【０００３】
既存のＴＴＳは、一般的に、図１に図示すように、入力されたテキストから合成音を生成するまでに、３段階の過程を経ることになる。
【０００４】
１段階の言語処理部１においては、入力されたテキストを音素列に変換し、これから韻律情報を推定してシンボル化する。韻律情報の推定は、構文構造分析結果を利用した句・節境界、単語内アクセント位置、文型等に基づいて行う。
【０００５】
２段階の韻律処理部２は、シンボル化された韻律情報から、規則及びテーブルを利用して、韻律制御パラメータの値を計算する。韻律制御パラメータには、音素の持続時間、ピッチ形態（ｃｏｎｔｏｕｒ）、エネルギ形態（ｃｏｎｔｏｕｒ）、休み区間情報がある。
【０００６】
３段階の信号処理部３は、合成単位データベース４と韻律制御パラメータとを利用して合成音を生成する。即ち、既存の合成器は、自然性、発声速度に関連する情報を単に入力テキストだけで推定しなければならないことを意味する。
【０００７】
さらに、既存のＴＴＳは、文章単位で入力されたデータを合成音として出力する単純な機能を持っている。したがって、ファイル内に貯蔵された文章、あるいは通信網を通じて入力された文章を、連続した合成音として出力するためには、入力データから文章を読み出してＴＴＳの入力に伝達する主制御プログラムが必要である。このような主制御プログラムには、入力されたデータからテキストを分離して単に初めから終わりまで１回合成音を出力する方法や、テキスト編集器に連動して合成音を生成する方法、あるいはグラフィックインターフェースを利用して文章を検索し合成音を生成する方法等があるが、その対象はテキストに限定されている。
【０００８】
【発明が解決しようとする課題】
現在、ＴＴＳに対する研究が、多くの国で自国語を対象として行われている。一部では、商用化されているものもある。しかし、いまだに入力されたテキストから音声を合成する用途としてのみ考慮されているのが現状である。ＴＴＳを利用して動映像をダビングしようとする場合、あるいはアニメーションのような多重媒体と合成音との間の自然な連動を具現する場合に、必要な同期化情報を単にテキストから推定することは不可能である。このため、従来の構造では、これらの機能を具現する方法はない。さらに、合成音の自然性向上のための付加データの使用や、これらデータの構造化に対する研究は、ほとんどされていないのが実状である。
【０００９】
そこで、本発明の目的は、ＴＴＳにおいてテキスト以外の付加的韻律情報、多重媒体情報との連動に必要な情報、およびこれらの情報とＴＴＳとの間のインターフェースを定義し、これらを合成音生成に使用することにより、合成音の自然性向上と多重媒体及びＴＴＳ間の同期化とを図ることができる動映像と合成音を同期化するためのテキスト／音声変換器、および入力データ構造化方法を提供することにある。
【００１０】
【課題を解決するための手段】
上記目的を達成するために、本発明の、動映像と合成音を同期化するためのテキスト／音声変換器は、
テキスト、韻律、多重媒体、および多重媒体とテキスト／音声変換との同期化に必要な時間情報、唇形情報、個人性情報などの同期化情報を構造化させた多重媒体情報を入力する多重媒体情報入力部と、
前記多重媒体情報入力部に入力された多重媒体情報を媒体別情報に分離する媒体別データ分配器と、
前記媒体別データ分配器から分配されたテキストを音素別に変換し、韻律情報を推定して、これをシンボル化する言語処理部と、
前記シンボル化された韻律情報から規則及びテーブルを利用して韻律制御パラメータの値を計算する韻律処理部と、
前記媒体別データ分配器から分配された同期化情報を利用して音素の持続時間を調節する同期調整部と、
前記韻律制御パラメータと合成単位データベース内のデータを利用して合成音を生成する信号処理部と、
前記媒体別データ分配器から分配された多重媒体を画面に出力する映像出力部と、
により構成されることを特徴とする。
【００１１】
ここで、多重媒体（マルチメディア）とは、動画像、アニメーション、音響信号などを意味する。また、構造化とは、エンコーディング（ｅｎｃｏｄｉｎｇ）／デコーディング（ｄｅｃｏｄｉｎｇ）の観点から、テキスト、韻律、多重媒体および同期化情報を順序化、体系化することを意味している。
【００１２】
また、韻律制御パラメータは、発話での区切り読み位置、音素持続時間の長短、音の高低（抑揚）、音の強さ（エネルギコンツア（ｅｎｅｒｇｙｃｏｎｔｏｕｒ））の４種の形態がある。ここで、シンボル化された韻律情報から規則及びテーブルを利用して韻律制御パラメータの値を計算するとは、具体的には、以下の（１）〜（４）の処理により行われる。
【００１３】
（１）区切り読み位置の推定：
言語処理結果（シンボル化された韻律情報）を受けて、節境界、相関度が低い句の境界、および一息で発話できる自然な音節数を考慮する段階と、作成された区切り読み規則を用いて文章内の区切り読み位置と長さとを推定する段階、そして、この結果を言語処理結果に追加して音素別持統時間モジュールに送る段階と、からなる。
【００１４】
（２）音素別持続時間の調整：
区切り読み位置の推定結果を受けて、音素の固有持続時間テーブル、周辺音韻環境、構文構造、品詞情報、文章内の位置を考慮して作成した音素の持続時間計算規則を用いて音素別持続時間を推定し、この結果を区切り読みの推定結果に追加してピッチコンツア生成モジュールに送る段階からなる。
【００１５】
（３）ピッチコンツアの生成：
単語間修飾構造、単語を構成する音素列の調音特性と持続時間、文章内の単語位置、および単語間区切り読み情報を用いて文章のピッチコンツアを合成し、計算されたデータを音素別持続時間推定結果に追加してエネルギ値モジュールに送る段階からなる。
【００１６】
（４）エネルギ値の推定：
文章内の単語位置、単語を構成する音素列の資質、音節内の音素間調音結合特性、対象単語と左右単語の平均ピッチ値、および対象単語の前後に位置する区切り読み長さ情報を基準として作成したエネルギ値計算規則を用いて、音素単位のエネルギコンツアを作成する段階からなる。
【００１７】
ところで、合成音を生成するため一般に用いられる方法には、Ｄｅｃｔａｌｋのｆｏｒｍａｔ合成器のように、合成に必要な各音素別励起信号および声道関連情報をテーブルと規則とを用いて生成する方法と、実際の音声から抽出したｐｈｏｎｅｍｅ，ｄｉｐｈｏｎｅ，ｄｅｍｉｓｙｌｌａｂｌｅ，ｔｒｉｐｈｏｎｅ，ｓｙｌｌａｂｌｅのような基本音片を編集して合成する方法とがある。
【００１８】
本発明の合成単位データべースは、前者の場合、音素別励起信号および声道関連情報を貯蔵しているテーブルと規則とを意味し、後者の場合は、基本音片を貯蔵した音声データべースを意味する。信号処理部では、韻律制御パラメータ、すなわち音素の持続時間、ピッチ、エネルギ情報を用いて、既存の音片あるいは励起信号／声道情報の持続時間を伸縮させ、音の高低と強さとを目標値に合わせた後、音片を接合させることにより所望する合成音を生成する。
【００１９】
また、本発明の、多重媒体との連動のためのテキスト／音声変換器の入力データ構造化方法は、
多重媒体情報入力部により、合成音の自然性向上と、多重媒体及びテキスト／音声変換器間の同期化具現とのために構造化された多重媒体入力情報の構成を、テキスト、韻律、動画像との同期化情報、唇形、および個人性情報とに区分する段階と、
前記多重媒体情報入力部にて区分された情報各々を、媒体別データ分配器により分配する段階と、
前記媒体別データ分配器にて分配されたテキストを、言語処理部により、音素列に変換して韻律情報を推定し、これをシンボル化する段階と、
韻律処理部において、前記韻律情報から、多重媒体情報に包含されている韻律制御パラメータ以外の韻律制御パラメータの値を計算する段階と、
同期調整器において、前記韻律処理部の処理結果と同期化情報の入力とにより、映像信号との同期を合わせるため音素別持続時間を調整する段階と、
信号処理部において、音声単位データベースを利用して、前記媒体別データ分配器からの韻律情報及び前記同期調整器の処理結果から、合成音を生成する段階と、
前記媒体別データ分配器から分配された映像情報を映像出力装置により画面に出力する段階と、
によりなることを特徴とする。
【００２０】
【発明の実施の形態】
以下、添付した図面を参照して本発明の一実施形態を詳細に説明する。
【００２１】
図２は、本発明の一実施形態が適用されるハードウエアの構成図である。
【００２２】
多重データ入力装置５、中央処理装置６、合成データベース７、デジタル／アナログ（Ｄ／Ａ）変換装置８、および映像出力装置９により構成される。
【００２３】
多重データ入力装置５は、映像やテキスト等の多重媒体により構成されたデータ（多重データ）の入力を受け付け、それを中央処理装置６に出力する。
【００２４】
中央処理装置６は、入力された多重データを分配して同期を調整し合成音を生成するアルゴリズムを遂行する。
【００２５】
合成データベース７は、合成音生成のためのアルゴリズムに使用される合成データベースとして、記憶装置に貯蔵されており、中央処理装置６に必要なデータを伝送する。
【００２６】
Ｄ／Ａ変換装置８は、合成を終えたデジタルデータをアナログ信号に変換して外部に出力する。
【００２７】
映像出力装置（９）は入力された映像情報を画面に出力する。
【００２８】
表１及び表２は、本実施形態に適用される構造化された多重媒体入力情報のデータ構造を示している。テキスト、韻律情報、多重媒体（動画像やアニメーションなど）、多重媒体との同期化情報（時間情報等、唇形情報）、個人性情報からなる。この多重媒体入力情報は、データ入力装置５に入力され、ＴＴＳが多重媒体と連動して動作することに必要な情報を提供する。なお、表１および表２では、Ｃ言語で表記している。
【００２９】
【表１】

【００３０】
ここで、ＴＴＳ＿Ｓｅｑｕｅｎｃｅ＿Ｓｔａｒｔ＿Ｃｏｄｅは、ＨｅｘａｄｅｃｉｍａｌＸＸＸＸＸで表示されたｂｉｔｓｔｒｉｎｇであり、ＴＴＳデータ列の初めを意味する。
【００３１】
ＴＴＳ＿Ｓｅｎｔｅｎｃｅ＿ＩＤは、１０−ｂｉｔＩＤであり各ＴＴＳデータ列の固有番号を表す。
【００３２】
Ｌａｎｇｕａｇｅ＿Ｃｏｄｅは、韓国語、英語、ドイツ語、日本語、フランス語等のように合成しようとする対象言語を表す。
【００３３】
Ｐｒｏｓｏｄｙ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇであり原音の韻律データが多重媒体入力情報に包含されると１の値を有する。
【００３４】
Ｖｉｄｅｏ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇでありＴＴＳが動映像と連動されるとき１の値を有する。
【００３５】
Ｌｉｐ＿Ｓｈａｐｅ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇであり唇形データが多重媒体入力情報に包含されると１の値を有する。
【００３６】
Ｔｒｉｃｋ＿Ｍｏｄｅ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇでありｓｔｏｐ，ｒｅｓｔａｒｔ，ｆｏｒｗａｒｄ，ｂａｃｋｗａｒｄのようなｔｒｉｃｋｍｏｄｅを支援するようにデータが構造化されると１の値を有する。
【００３７】
【表２】

【００３８】
ここで、ＴＴＳ＿Ｓｅｎｔｅｎｃｅ＿Ｓｔａｒｔ＿Ｃｏｄｅは、ＨｅｘａｄｅｃｉｍａｌＸＸＸＸＸで表示されたｂｉｔｓｔｒｉｎｇであり、ＴＴＳ文章の初めを意味し、１０−ｂｉｔＩＤであり、各ＴＴＳデータ列の固有番号を表す。
【００３９】
ＴＴＳ＿Ｓｅｎｔｅｎｃｅ＿ＩＤは、１０−ｂｉｔＩＤであり、ＴＴＳ列内の各ＴＴＳ文章の固有番号を表す。
【００４０】
Ｓｉｌｅｎｃｅは、１−ｂｉｔｆｌａｇであり、現在の入力フレ−ムが無音区間のとき１になる。
【００４１】
Ｓｉｌｅｎｃｅ＿Ｄｕｒａｔｉｏｎは、現無音区間の持続時間をｍｉｌｌｉｓｅｃｏｎｄｓで表す。
【００４２】
Ｇｅｎｄｅｒは、１−ｂｉｔであり男女性別を区分する。
【００４３】
Ａｇｅは、合成音の年を幼児、青少年、中年、老年に区分する。
【００４４】
Ｓｐｅｅｃｈ＿Ｒａｔｅは、合成音の発声速度を表す。
【００４５】
Ｌｅｎｇｔｈ＿ｏｆ＿Ｔｅｘｔは入力テキストの文章の長さをｂｙｔｅで表す。
【００４６】
ＴＴＳ＿Ｔｅｘｔは、任意の長さの文章テキストを表す。
【００４７】
Ｄｕｒ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇであり、各音素の持続時間情報が多重媒体入力情報に包含されるとき１になる。
【００４８】
ＦＯ＿Ｃｏｎｔｏｕｒ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇであり、各音
素のピッチ情報が多重媒体入力情報に包含されるとき１になる。
【００４９】
Ｅｎｅｒｙ＿Ｃｏｎｔｏｕｒ＿Ｅｎａｂｌｅは、１−ｂｉｔｆｌａｇであり
、各音素のエネルギ情報が多重媒体入力情報に包含されるとき１になる。
【００５０】
Ｎｕｍｂｅｒ＿ｏｆ＿Ｐｈｏｎｅｍｅｓは文章の合成に必要な音素の数を表す。
【００５１】
Ｓｙｍｂｏｌ＿ｅａｃｈ＿ｐｈｏｎｅｍｅは、ＩＰＡのような各音素を表すシンボルを表示する。
【００５２】
Ｄｕｒ＿ｅａｃｈ＿ｐｈｏｎｅｍｅは、音素の持続時間を表示する。
【００５３】
ＦＯ＿Ｃｏｎｔｏｕｒ＿ｅａｃｈ＿ｐｈｏｎｅｍｅは、音素のピッチパターンであり、音素の始点、中間、終点におけるピッチ値を表す。
【００５４】
Ｅｎｅｒｇｙ＿ｃｏｎｔｏｕｒ＿ｅａｃｈ＿ｐｈｏｎｅｍｅは、音素のエネルギパターンを表すものであり、音素の始点、中間、終点におけるエネルギ値をｄＢで表示する。
【００５５】
Ｓｅｎｔｅｎｃｅ＿Ｄｕｒａｔｉｏｎは、文章に対する合成音の全体持続時間を表す。
【００５６】
Ｐｏｓｉｔｉｏｎ＿ｉｎ＿Ｓｅｎｔｅｎｃｅは、現在のフレ−ムの文章内位置を表す。
【００５７】
Ｏｆｆｓｅｔは、動映像と連動する場合、ＧＯＰ（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅｓ）内に文章の始点がある場合ＧＯＰ始点から文章の始点までの遅延時間を表す。
【００５８】
Ｎｕｍｂｅｒ＿ｏｆ＿Ｌｉｐ＿Ｅｖｅｎｔは、文章内唇形変化点の個数を表す。
【００５９】
Ｌｉｐ＿ｉｎ＿Ｓｅｎｔｅｎｃｅは、文章内唇形変化点の位置を表す。
【００６０】
Ｌｉｐ＿ｓｈａｐｅは、文章内唇形変化点において唇形を表す。
【００６１】
テキスト情報は、使用言語に対する分類コ−ド、文章テキストを包含する。韻律情報には、文章内音素の数、音素列情報、音素別持続時間、音素のピッチパターン、音素のエネルギパターン等があり、合成音の自然性を向上させるため使用される。動画像と合成音の同期化情報は、ダビングの概念からみて、３通りの方法により具現される。
【００６２】
１番目の方法は、文章単位で動画像と合成音とを同期化させる方法である。文章の始点、持続時間、始点遅延時間情報を利用して、合成音の持続時間を調節する。各文章の始点は、動映像内において、各文章に対する合成音の出力が始まる場面の位置を表し、文章の持続時間は、各文章に対する合成音が持続される場面の数を表す。さらに、グル−プ映像（ＧｒｏｕｐｏｆＰｉｃｔｕｒｅ：ＧＯＰ）概念が利用されるＭＰＥＧ−２やＭＰＥＧ−４などの映像圧縮方式の動画像は、再生時に任意の場面から始まることができないため、必ずグル−プ映像内の始点から再生されるようになっている。このため、始点の遅延時間は、グル−プ映像とＴＴＳとが同期を合わせるための必要な情報であり、グル−プ映像内の始まる場面と発声の始点との間の遅延時間を現す。この方法は、具現が容易であり付加的努力が最小化されるという長所があるが、自然な同期化にはいまだに程遠い。
【００６３】
２番目の方法は、動映像において、音声信号に関連する区間では音素毎に始点、終点情報と音素情報とを表記して、これらの情報を合成音生成に利用する方法である。この方法は、音素単位に動画像と合成音との同期を合わせることができるため、正確度が高いという長所がある。しかし、動画像の音声区間において、音素単位に持続時間情報を検出して記録するための付加的努力が非常に大きくなるるという短所がある。
【００６４】
３番目の方法は、音声の始点、終点、唇形、唇形の変化時点を基準として、同期化情報を記録する方法である。唇形は、唇上下間の距離（開き程度）、唇左右終点間の距離（開き程度）、および唇の突き出し程度を数値化する。そして、弁別的特性が高いパターンを、音素の調音位置、調音方法によって唇形が定量化、定期化されたパターンに定義する。この方法は、同期化のための情報製作の付加的努力を最小化しながら同期化効率を高める方法である。
【００６５】
本実施形態に適用される構造化された多重媒体入力情報は、以上の３種の同期化方式を情報提供者が任意に選択して具現することができるようにする。さらに、唇アニメーションを具現する方法にも、構造化された入力情報を利用する。入力されたテキストからＴＴＳにおいて作成した音素列と音素別持続時間、あるいは入力情報において分配された音素列と音素別持続時間を利用して唇アニメーションの具現を可能にし、また入力情報に包含された情報を利用してアニメーションを具現することもできる。
【００６６】
個人性情報は、合成音の性別、年齢、合成音発声速度の変化等を可能とする。性別は男、女、年齢別は６−７才、１８才、４０才、６５才程度の４種に分類する。発声速度の変化は、標準速度の０．７倍から１．６倍の１０段階の変化を与える。このような情報を利用して合成音の音質を多様化する。
【００６７】
図３は、本実施形態によるテキスト／音声変換器の機能構成図である。
【００６８】
多重媒体情報入力部１０、媒体別データ分配器１１、標準化された言語処理部１２、韻律処理部１３、同期調整器１４、信号処理部１５、合成単位データベース１６及び映像出力装置１７とからなる。
【００６９】
なお、図３において、多重媒体情報入力部１０は図２のデータ入力装置５に対応し、媒体別データ分配器１１、標準化された言語処理部１２、韻律処理部１３、同期調整器１４、および信号処理部１５は図２の中央処理装置６に対応し、合成単位データベース１６は図２の合成データベース７に対応し、映像出力装置１７は映像出力装置９に対応する。
【００７０】
多重媒体情報入力部１０は、表１及び表２の形式で構成されテキスト、動画像、韻律情報、動画像との同期化情報（唇形情報等）、個人情報が入力される。このうち必須の情報はテキストであり、その他の情報は個人性、自然性向上、および多重媒体とＴＴＳとの同期化のための選択仕様である。情報提供者が選択的に提供することができ、必要に応じてＴＴＳ使用者が文字入力装置、あるいはマウスを利用して修正が可能である。これら情報は、多重媒体分配器１１に伝達される。
【００７１】
多重媒体分配器１１は、多重媒体情報の伝達を受ける。そして、この情報を媒体別に分離し、映像情報は映像出力装置１７に、テキストは言語処理部１２に、さらに同期化情報は同期調整器１４に、各々使用可能なデータ構造に変換して伝達する。また、入力された多重媒体情報内に韻律情報があれば、使用できるデータ構造に変換して、韻律処理部１３に伝達する。個人性情報があれば、使用できるデータ構造に変換して、合成単位データベース１６に伝達する。
【００７２】
言語処理部１２は、受け付けたテキストを音素別に変換し、韻律情報を推定してこれをシンボル化する。その後、韻律処理部１３に伝送する。韻律情報は、構文構造分析結果を利用した句・節境界、単語内アクセント位置、文型等から推定される。
【００７３】
韻律処理部１３は、言語処理部１２の処理結果を受けて、多重媒体情報に包含されている韻律制御パラメータ以外の韻律制御パラメータの値を計算する。韻律制御パラメータには、音素の持続時間、ピッチ形態（ｃｏｎｔｏｕｒ）、エネルギ（ｃｏｎｔｏｕｒ）、休み位置、および長さがある。計算された結果は、同期調整器１５に伝達される。
【００７４】
同期調整器１４は、韻律処理部１３の処理結果を受けて、合成音を映像信号（例えば動画像）との同期に合わせるため音素別持続時間を調整する。音素別持続時間の調整は、媒体別データ分配器１１から分配された同期化情報を利用する。先ず、各音素別調音場所、調音方法により唇形を各音素に割り当て、これを基に同期化情報にある唇形と比較して音素列を同期化情報に記録されている唇形個数だけ小グループに分離する。次に、小グループ内の音素持続時間は、同期化情報に包含されている唇形の持続時間情報を利用して再び計算する。調整された持続時間情報を韻律処理部の結果に包含させて信号処理部１５に伝達する。
【００７５】
信号処理部１５は、媒体別データ分配器１１から韻律情報を受けるか、あるいは同期調整器１４の処理結果を受けて、合成単位データベース１６を利用して合成音を生成して出力する。
【００７６】
合成単位データベース１６は、媒体別データ分配器１１から個人性情報を受けて、性、年齢に適合する合成単位を選定する。その後、信号処理部１５の要求を受けて、合成に必要なデータを信号処理部１５に伝送する。
【００７７】
【発明の効果】
上述したように、本発明は、実際の音声データを分析して推定された個人性、韻律情報をテキスト情報と一緒に多段階情報に構成し、合成音生成に直接利用することにより、合成音の個人性を具現するとともに自然性を向上させることができる。
【００７８】
また、実際音声データと動映像の唇形とを分析して推定された唇形情報とテキスト情報とを合成音生成に直接利用する方式を通じて、合成音と動映像との同期化を具現することにより、外画等に韓国語ダビングを可能にし、多重媒体環境において映像情報とＴＴＳとの同期化を可能にすることができる。
【００７９】
これにより、通信サービス、事務自動化、教育等の各分野に応用できる卓越した効果がある。
【図面の簡単な説明】
【図１】従来のテキスト／音声変換器の構成図である。
【図２】本発明の一実施形態が適用されたテキスト／音声変換器のハ−ドウエア構成図。
【図３】図２に示すテキスト／音声変換器の機能構成図である。
【符号の説明】
１言語処理部
２韻律処理部
３信号処理部
４合成単位データベース
５データ入力装置
６中央処理装置
７合成データベース
８Ｄ／Ａ変換装置
９映像出力装置
１０多重媒体入力情報
１１媒体別データ分配器
１２言語処理部
１３韻律処理部
１４同期調整器
１５信号処理部
１６合成単位データベース
１７映像出力装置

Claims

テキストを音素列に変換し、前記音素列から韻律情報を推定する言語処理部と、既に定義された規則を用いて前記韻律情報から前記音素列の各音素の持続時間を含む韻律制御パラメータを計算する韻律処理部と、合成音の生成に必要な合成データが保存された合成単位データベースと、前記韻律制御パラメータおよび前記合成データを用いて合成音を生成する信号処理部とを備え、映像出力装置に出力する動映像と前記合成音とを同期化するテキスト／音声変換器において、
動映像と、テキストと、前記動映像および前記テキストから生成される合成音間の同期化を図るための、前記テキストの唇形変化点情報および唇形変化点での唇形の情報を含む同期化情報と、を含む多重媒体情報を入力する多重媒体情報入力部と、
前記動映像と前記合成音との同期化のために、前記同期化情報に含まれている前記テキストの唇形変化点情報および唇形変化点での唇形の情報を用いて、前記韻律制御パラメータに含まれている前記音素列の各音素の持続時間を調節する同期調整部と、
前記多重媒体情報を前記動映像、前記テキストおよび前記同期化情報に分類し、それぞれ、前記映像出力装置、前記言語処理部および前記同期調整部に出力するデータ分配器と、を有すること
を特徴とするテキスト／音声変換器。
前記唇形変化点情報は、前記テキストでの唇形変化点の個数および各唇形変化点の位置を含むことを特徴とする請求項１記載のテキスト／音声変換器。
前記多重媒体情報は、合成音の性別、年齢の情報を含む個人性情報をさらに含むことを特徴とする請求項１記載のテキスト／音声変換器。
前記韻律処理部は、前記多重媒体情報に包含されている韻律制御パラメータ以外の韻律制御パラメータ値を計算することを特徴とする請求項１記載のテキスト／音声変換器。
前記韻律制御パラメータは、前記音素列の各音素の数、持続時間、ピッチパターンおよびエネルギパターンの情報を含むことを特徴とする請求項４記載のテキスト／音声変換器。
前記各音素のピッチパターンは、各音素の始点、中間、終点におけるピッチ値で表されていることを特徴とする請求項５記載のテキスト／音声変換器。
前記各音素のエネルギパターンは、各音素の始点、中間、終点におけるエネルギ値をｄＢで表されていることを特徴とする請求項５記載ののテキスト／音声変換器。
ＴＴＳ（Text-To-Speech conversion system）で生成される合成音と前記ＴＴＳに接続された映像出力装置に出力される動映像とを同期化する方法において、
動映像と、テキストと、前記動映像および前記テキストから生成される合成音間の同期化を図るための、前記テキストの唇形変化点情報および唇形変化点での唇形の情報を含む同期化情報と、を含む多重媒体情報を受信するステップと、
受信した前記多重媒体情報を前記動映像、前記テキストおよび前記同期化情報に分類するステップと、
分類された前記テキストを音素列に変換し、前記音素列から韻律情報を推定するステップと、
推定された前記韻律情報から前記音素列の各音素の持続時間を含む韻律制御パラメータを計算するステップと、
合成音と分類された前記動映像との同期化のために、分類された前記同期化情報に含まれている前記テキストの唇形変化点情報および唇形変化点での唇形の情報を用いて、計算された前記韻律制御パラメータに含まれている前記音素列の各音素の持続時間を調節するステップと、
合成単位データベースに保存されている合成音の生成に必要な合成データと、調節された前記韻律制御パラメータとを用いて、合成音を生成して出力するステップと、を有すること
を特徴とする動映像と合成音を同期化する方法。
前記韻律制御パラメータは、前記音素列の各音素の数、持続時間、ピッチパターンおよびエネルギパターンの情報を含むことを特徴とする請求項８記載の動映像と合成音を同期化する方法。
前記各音素のピッチパターンは、各音素の始点、中間、終点におけるピッチ値で表されていることを特徴とする請求項９記載の動映像と合成音を同期化する方法。
前記各音素のエネルギパターンは、各音素の始点、中間、終点におけるエネルギ値をｄＢで表されていることを特徴とする請求項９記載の動映像と合成音を同期化する方法。
前記唇形変化点情報は、前記テキストでの唇形変化点の個数および各唇形変化点の位置を含むことを特徴とする請求項８記載の動映像と合成音を同期化する方法。
受信された前記多重媒体情報は、合成音の性別、年齢の情報を含む個人性情報をさらに含むことを特徴とする請求項８記載の動映像と合成音を同期化する方法。
ＴＴＳ（Text-To-Speech conversion system）で生成される合成音と前記ＴＴＳに接続された映像出力装置に出力される動映像とを同期化する方法において、
動映像と、テキストが表す音素列の各音素の持続時間を含む韻律制御パラメータと、前記動映像および前記テキストから生成される合成音間の同期化を図るための、前記テキストの唇形変化点情報および唇形変化点での唇形の情報を含む同期化情報と、を含む多重媒体情報を受信するステップと、
受信した前記多重媒体情報を前記動映像、前記韻律制御パラメータおよび前記同期化情報に分類するステップと、
合成音と分類された前記動映像との同期化のために、分類された前記同期化情報に含まれている前記テキストの唇形変化点情報および唇形変化点での唇形の情報を用いて、分類された前記韻律制御パラメータに含まれている前記音素列の各音素の持続時間を調節するステップと、
合成単位データベースに保存されている合成音の生成に必要な合成データと、調節された前記韻律制御パラメータとを用いて、合成音を生成して出力するステップと、を有すること
を特徴とする動映像と合成音を同期化する方法。
関連する動映像と同期化した合成音を生成する方法において、
動映像と、テキストと、前記動映像および前記テキストから生成される合成音間の同期化を図るための、前記テキストの唇形変化点情報および唇形変化点での唇形の情報を含む同期化情報とを含む多重媒体情報を受信するステップと、
受信した多重媒体情報に含まれている前記テキストおよび前記同期化情報を用いて、受信した多重媒体情報に含まれている動映像と同期化した音声を合成するステップと、を有すること
を特徴とする動映像と同期化した合成音を生成する方法。
ＴＴＳ（Text-To-Speech conversion system）で生成される合成音と前記ＴＴＳに接続された映像出力装置に出力される動映像とを同期化する音声合成器において、
音素列の各音素の持続時間を含む韻律制御パラメータと、動映像と、前記動映像および前記テキストから生成される合成音間の同期化を図るための、前記テキストの唇形変化点情報および唇形変化点での唇形の情報を含む同期化情報とを受信する手段と、
受信した前記同期化情報に含まれている前記テキストの唇形変化点情報および唇形変化点での唇形の情報を用いて、受信した前記韻律制御パラメータに含まれている音素列の各音素の持続時間を調節する手段と、
合成単位データベースに保存されている合成音の生成に必要な合成データと、調節された前記韻律制御パラメータとを用いて、前記動映像に同期化した合成音を生成する手段と、を有すること
を特徴とする音声合成器。
前記唇形の情報は、唇上下間の距離、唇左右終点間の距離および唇突出程度の数値を含むことを特徴とする請求項１記載のテキスト／音声変換器。
前記唇形の情報は、唇上下間の距離、唇左右終点間の距離および唇突出程度の数値を含むことを特徴とする請求項８記載の動映像と合成音を同期化する方法。