JP4025355B2

JP4025355B2 - 音声合成装置及び音声合成方法

Info

Publication number: JP4025355B2
Application number: JP2006540860A
Authority: JP
Inventors: 良文廣瀬; 夏樹齋藤; 孝浩釜井
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-10-13
Filing date: 2005-09-20
Publication date: 2007-12-19
Anticipated expiration: 2025-09-20
Also published as: CN1842702A; CN1842702B; US20060136213A1; JPWO2006040908A1; US7349847B2; WO2006040908A1

Description

本発明は、音声素片を用いて音声を合成する音声合成装置及び音声合成方法であって、特に、声質を変換する音声合成装置及び音声合成方法に関する。

従来より、声質を変換する音声合成装置が提案されている（例えば、特許文献１〜特許文献３参照。）。

上記特許文献１の音声合成装置は、声質の異なる複数の音声素片群を保持し、その音声素片群を切り換えて用いることにより、声質の変換を行う。

図１は、上記特許文献１の音声合成装置の構成を示す構成図である。

この音声合成装置は、合成単位データ情報テーブル９０１と、個人コードブック格納部９０２と、尤度計算部９０３と、複数の個人別合成単位データベース９０４と、声質変換部９０５とを備える。

合成単位データ情報テーブル９０１は、音声合成の対象となる合成単位に関するデータ（合成単位データ）を保持している。これらの合成単位データには、それぞれを識別するための合成単位データＩＤが割り当てられている。個人コードブック格納部９０２は、全ての話者の識別子（個人識別ＩＤ）とその声質の特徴を表した情報を記憶している。尤度計算部９０３は、基準パラメータ情報や、合成単位名、音韻的環境情報、目的声質情報に基づいて、合成単位データ情報テーブル９０１及び個人コードブック格納部９０２を参照して、合成単位データＩＤと個人識別ＩＤを選択する。

複数の個人別合成単位データベース９０４は、それぞれ互いに声質の異なる音声素片群を保持している。そして、各個人別合成単位データベース９０４は、個人識別ＩＤに対応付けられている。

声質変換部９０５は、尤度計算部９０３により選択された合成単位データＩＤと個人識別ＩＤとを取得する。そして声質変換部９０５は、その合成単位データＩＤの示す合成単位データに対応する音声素片を、その個人識別ＩＤの示す個人別合成単位データベース９０４より取得して音声波形を生成する。

一方、上記特許文献２の音声合成装置は、声質変換を行うための変換関数を用いることで通常の合成音の声質を変換する。

図２は、上記特許文献２の音声合成装置の構成を示す構成図である。

この音声合成装置は、テキスト入力部９１１と、素片記憶部９１２と、素片選択部９１３と、声質変換部９１４と、波形合成部９１５と、声質変換パラメータ入力部９１６とを備える。

テキスト入力部９１１は、合成したい言葉の内容を示すテキスト情報或いは音素情報と、アクセントや発話全体の抑揚を示す韻律情報とを取得する。素片記憶部９１２は、一群の音声素片（合成音声単位）を記憶している。素片選択部９１３は、テキスト入力部９１１に取得された音素情報や韻律情報に基づいて、複数の最適な音声素片を素片記憶部９１２から選択し、その選択した複数の音声素片を出力する。声質変換パラメータ入力部９１６は、声質に関するパラメータを示す声質パラメータを取得する。

声質変換部９１４は、素片選択部９１３によって選択された音声素片を、声質変換パラメータ入力部９１６により取得された声質パラメータに基づいて声質変換を行う。これにより、その音声素片に対して、線形あるいは非線形な周波数変換が行われる。波形合成部９１５は、声質変換部９１４により声質変換された音声素片に基づいて音声波形を生成する。

図３は、上記特許文献２の声質変換部９１４において音声素片の声質変換に用いられる変換関数を説明するための説明図である。ここで、図３の横軸（Ｆｉ）は、声質変換部９１４に入力される音声素片の入力周波数を示し、図３の縦軸（Ｆｏ）は、声質変換部９１４が出力する音声素片の出力周波数を示す。

声質変換部９１４は、声質パラメータとして変換関数ｆ１０１を用いる場合には、素片選択部９１３によって選択された音声素片を、声質変換することなく出力する。また、声質変換部９１４は、声質パラメータとして変換関数ｆ１０２を用いる場合には、素片選択部９１３によって選択された音声素片の入力周波数を、線形的に変換して出力し、声質パラメータとして変換関数ｆ１０３を用いる場合には、素片選択部９１３によって選択された音声素片の入力周波数を、非線形的に変換して出力する。

また、特許文献３の音声合成装置（声質変換装置）は、声質変換対象の音素の音響的特徴に基づいてその音素の属するグループを判断する。そして、この音声合成装置は、その音素の属するグループに対して設定された変換関数を用いてその音素の声質を変換する。
特開平７−３１９４９５号公報（段落００１４から段落００１９まで）特開２００３−６６９８２号公報（段落００３５から段落００５３まで）特開２００２−２１５１９８号公報

しかしながら、上記特許文献１〜特許文献３の音声合成装置では、適切な声質に変換することができないという問題がある。

即ち、上記特許文献１の音声合成装置は、個人別合成単位データベース９０４を切り換えて合成音の声質を変換するため、連続的な声質の変換や、各個人別合成単位データベース９０４にない声質の音声波形を生成することができない。

また、上記特許文献２の音声合成装置は、テキスト情報の示す入力文全体に対して声質変換を行うため、各音韻に対して最適な変換を行うことができない。また、特許文献２の音声合成装置は、音声素片の選択と声質変換とを直列的に且つ独立に行うため、図３に示すように、変換関数ｆ１０２によりフォルマント周波数（出力周波数Ｆｏ）がナイキスト周波数ｆｎを超えるような場合がある。このような場合、特許文献２の音声合成装置は、フォルマント周波数を無理に補正してナイキスト周波数ｆｎ以下に抑える。その結果、適切な声質に変換することができないのである。

さらに、上記特許文献３の音声合成装置は、グループに属する全ての音素に対して同じ変換関数を適用するため、変換後の音声に歪みが生じることがある。即ち、各音素に対するグループ分けは、各音素の音響的特徴が各グループに設定された閾値を満たすか否かに基づいて行なわれる。このような場合に、あるグループの閾値を十分満たす音素に対して、そのグループの変換関数が適用されると、その音素の声質は適切に変換される。しかし、あるグループの閾値付近に音響的特徴があるような音素に対して、そのグループの変換関数が適用されると、その音素の変換後の声質には歪みが生じるのである。

そこで、本発明は、かかる問題に鑑みてなされたものであって、声質を適切に変換可能な音声合成装置及び音声合成方法を提供することを目的とする。

上記目的を達成するために、本発明に係る音声合成装置は、声質を変換するように音声素片を用いて音声を合成する音声合成装置であって、複数の音声素片を格納している素片格納手段と、音声素片の声質を変換するための複数の変換関数を格納している関数格納手段と、ユーザから指定された声質情報を取得する声質指定手段と、入力されたテキストから韻律情報を生成する韻律生成手段と、前記素片格納手段に格納されている音声素片の示す音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴とを比較して類似度を導出する類似度導出手段と、前記韻律生成手段によって生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択し、選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を前記類似度導出手段に対して導出させ、導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する選択手段と、選択された前記変換関数を、選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換手段とを備えることを特徴とする。例えば、前記類似度導出手段は、前記素片格納手段に格納されている音声素片の音的特徴と、前記変換関数を作成する際に使用した音声素片の音的特徴とが類似するほど高い類似度を導出し、前記選択手段は、選択された前記音声素片に対して、前記類似度の最も高い音声素片を使用して作成された変換関数を選択する。また、前記音的特徴は、ケプストラム距離、フォルマント周波数、基本周波数、継続時間長、及びパワーのうち少なくとも１つである。

これにより、変換関数を用いて声質を変換するため、連続的に声質を変換することができるとともに、類似度に基づいて音声素片ごとに変換関数が適用されるため、各音声素片に対して最適な変換を行うことができる。さらに、従来例のように変換後にフォルマント周波数を所定範囲内に抑えるための無理な補正を行うことがなく、声質を適切に変換することができる。
また、まず韻律情報に応じた音声素片が選択されて、その音声素片に対して変換関数が類似度に基づいて選択されるため、例えば、素片格納手段に格納されている音声素片の数が少なくても、関数格納手段に格納されている変換関数の数が多ければ、声質を適切に変換することができる。また、ユーザから指定された声質に変換するための変換関数が選択されるため、所望の声質に適切に変換することができる。

ここで、前記類似度導出手段は、選択された前記音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴と、前記変換関数を作成する際に使用した音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴との類似度に基づいて、動的な前記類似度を導出することを特徴としても良い。

これにより、選択された系列全体の示す音響的特徴に類似する系列を使用して作成された変換関数が、その選択された系列に含まれる音声素片に適用されるため、その系列全体の声質の調和を保つことができる。

また、前記素片格納手段は、第１声質の音声を構成する複数の音声素片を格納しており、前記関数格納手段は、第１声質の音声の音声素片ごとに、当該音声素片、当該音声素片の音響的特徴を示す基準代表値、および前記基準代表値に対する変換関数を、それぞれ関連付けて格納しており、前記音声合成装置は、さらに、前記素片格納手段に格納されている第１声質の音声の音声素片ごとに、当該音声素片の音響的特徴を示す代表値を特定する代表値特定手段を備え、前記類似度導出手段は、前記素片格納手段に格納されている音声素片の示す前記代表値と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の前記基準代表値とを比較して類似度を導出し、前記選択手段は、選択された前記音声素片に対して、当該音声素片と同一の音声素片に関連付けて前記関数格納手段に格納されている変換関数のうち、当該音声素片の代表値と最も類似度の高い基準代表値に関連付けられた変換関数を選択し、前記変換手段は、前記選択手段によって選択された前記音声素片に対して、選択された変換関数を適用することにより、前記第１声質の音声を第２声質の音声に変換することを特徴とする。例えば、前記音声素片は音素である。

これにより、第１声質の音声の音素に対して変換関数が選択されるときには、従来例のようにその音素の音響的特徴に関わりなくその音素に対して予め設定された変換関数が選択されることなく、その音素の音響的特徴を示す代表値に最も近い基準代表値に関連付けられた変換関数が選択される。したがって、同一音素であってもそのスペクトル（音響的特徴）はコンテキストや感情によって変動するが、本発明では、そのスペクトルを有する音素に対して常に最適な変換関数を用いた声質変換を行うことができ、声質を適切に変換することができる。即ち、変換後のスペクトルの妥当性が保証されるために高品質な声質変換音声を得ることができる。

また、本発明では、音響的特徴を代表値及び基準代表値でコンパクトに示しているため、関数格納手段から変換関数を選択するときに、複雑な演算処理を行うことなく簡単かつ迅速に適切な変換関数を選択することができる。例えば、音響的特徴をスペクトルで表した場合には、第１声質の音素のスペクトルと、関数格納手段の音素のスペクトルとをパターンマッチングなどの複雑な処理により比較しなければならないが、本発明では、そのような処理負担を軽減することができる。また、関数格納手段には音響的特徴として基準代表値が記憶されているため、音響的特徴としてスペクトルが記憶されている場合と比べて、関数格納手段の記憶容量を小さくすることができる。

ここで、前記音声合成装置は、さらに、テキストデータを取得し、前記テキストデータと同一の内容を示す前記複数の音声素片を生成して前記素片格納手段に格納する音声合成手段を備えることを特徴としてもよい。

この場合、前記音声合成手段は、前記第１声質の音声を構成する各音声素片と、前記各音声素片の音響的特徴を示す代表値とを関連付けて記憶している素片代表値記憶手段と、前記テキストデータを取得して解析する解析手段と、前記解析手段による解析結果に基づいて、前記テキストデータに応じた音声素片を前記素片代表値記憶手段から選択して、選択した音声素片と、当該音声素片の代表値とを前記素片格納手段に関連付けて格納する選択格納手段とを備え、前記代表値特定手段は、前記素片格納手段に格納されている音声素片ごとに、当該音声素片に関連付けて格納されている代表値を特定する。

これにより、テキストデータを第１声質の音声を介して第２声質の音声に適切に変換することができる。

また、前記音声合成装置は、さらに、前記第１声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す基準代表値とを記憶している基準代表値記憶手段と、前記第２声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す目標代表値とを記憶している目標代表値記憶手段と、前記基準代表値記憶手段および目標代表値記憶手段に記憶されている同一の音声素片に対応する基準代表値および目標代表値に基づいて、前記基準代表値に対する前記変換関数を生成する変換関数生成手段とを備えることを特徴としてもよい。

これにより、変換関数は、第１声質の音響的特徴を示す基準代表値と、第２声質の音響的特徴を示す目標代表値とに基づいて生成されるため、無理な声質変換による声質の破綻を防いで、第１声質を第２声質に確実に変換することができる。

ここで、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素の時間中心におけるフォルマント周波数の値であることを特徴としてもよい。

特に母音の時間中心ではフォルマント周波数が安定しているため、第１声質を第２声質に適切に変換することができる。

また、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素のフォルマント周波数の平均値であることを特徴としてもよい。

特に無声子音ではフォルマント周波数の平均値が音響的特徴を適切に示しているため、第１声質を第２声質に適切に変換することができる。

なお、本発明は、このような音声合成装置として実現することができるだけでなく、音声を合成する方法や、その方法に基づいて音声を合成するようにコンピュータを実行させるプログラム、そのプログラムを格納する記憶媒体としても実現することができる。

本発明の音声合成装置は、声質を適切に変換することができるという作用効果を奏する。

以下、本発明の実施の形態について、図面を参照しながら説明する。

（実施の形態１）
図４は、本発明の第１の実施の形態における音声合成装置の構成を示す構成図である。

本実施の形態の音声合成装置は、声質を適切に変換することができるものであて、韻律推定部１０１と、素片記憶部１０２と、選択部１０３と、関数記憶部１０４と、適合度判定部１０５と、声質変換部１０６と、声質指定部１０７と、波形合成部１０８とを備えている。

素片記憶部１０２は、素片格納手段として構成され、複数種の音声素片を示す情報を保持する。この音声素片は、予め収録された音声に基づいて、音素や、音節、モーラなどの単位で保持される。なお、素片記憶部１０２は、音声素片を音声波形や分析パラメータとして保持しても良い。

関数記憶部１０４は、関数格納手段として構成され、素片記憶部１０２に保持されている音声素片に対して声質変換を行うための複数の変換関数を保持する。

これらの複数の変換関数は、当該変換関数によって変換可能な声質と関連付けられている。例えば、変換関数は、「怒り」や、「喜び」、「悲しみ」などの感情を示す声質と関連付けられる。また、変換関数は、例えば「ＤＪ風」や「アナウンサー風」などの発話スタイルなどを示す声質と関連付けられる。

変換関数の適用単位は、例えば、音声素片や、音素、音節、モーラ、アクセント句などである。

変換関数は、例えば、フォルマント周波数の変形率又は差分値や、パワーの変形率や差分値、基本周波数の変形率や差分値などを利用して作成されている。また、変換関数は、フォルマントや、パワー、基本周波数などをそれぞれ同時に変更するような関数としても良い。

また、変換関数には、当該関数が適用可能な音声素片の範囲が設定されている。例えば、所定の音声素片に対して変換関数が適用されると、その適用結果が学習されて、その所定の音声素片が変換関数の適用範囲に含まれるように設定される。

また、「怒り」などの感情を示す声質の変換関数に対して、変数を変化させることにより、声質を補完して連続的な声質変換を実現することができる。

韻律推定部１０１は、生成手段として構成され、例えばユーザによる操作に基づいて作成されたテキストデータを取得する。そして、韻律推定部１０１は、そのテキストデータに含まれる各音素を示す音素情報に基づいて、音韻環境や、基本周波数、継続時間長、パワーなどの韻律的特徴（韻律）を音素ごとに推定し、音素とその韻律とを示す韻律情報を生成する。この韻律情報は、最終的に出力される合成音声の目標として扱われる。韻律推定部１０１は、この韻律情報を選択部１０３に出力する。なお、韻律推定部１０１は、音素情報以外にも、形態素情報や、アクセント情報、構文情報を取得しても良い。

適合度判定部１０５は、類似度導出手段として構成され、素片記憶部１０２に記憶されている音声素片と、関数記憶部１０４に記憶されている変換関数との適合度を判定する。

声質指定部１０７は、声質指定手段として構成され、ユーザが指定する合成音声の声質を取得して、その声質を示す声質情報を出力する。その声質は、例えば、「怒り」や、「喜び」、「悲しみ」などの感情や、「ＤＪ風」、「アナウンサー風」などの発話スタイルなどを示す。

選択部１０３は、選択手段として構成され、韻律推定部１０１から出力された韻律情報と、声質指定部１０７から出力された声質と、適合度判定部１０５により判定される適合度とに基づいて、素片記憶部１０２から最適な音声素片を選択するとともに、関数記憶部１０４から最適な変換関数を選択する。即ち、選択部１０３は、適合度に基づいて最適な音声素片と変換関数とを相補的に選択する。

声質変換部１０６は、適用手段として構成され、選択部１０３によって選択された音声素片に対して、選択部１０３によって選択された変換関数を適用させる。即ち、声質変換部１０６は、その変換関数を用いて音声素片を変換することで、声質指定部１０７により指定された声質の音声素片を生成する。本実施の形態では、この声質変換部１０６および選択部１０３から変換手段が構成されている。

波形合成部１０８は、声質変換部１０６によって変換された音声素片から音声波形を生成して出力する。例えば、波形合成部１０８は、波形接続型の音声合成方法や、分析合成型の音声合成方法により音声波形を生成する。

このような音声合成装置では、テキストデータに含まれる音素情報が一連の音素及び韻律を示すときには、選択部１０３は素片記憶部１０２からその音素情報に応じた一連の音声素片（音声素片系列）を選択するとともに、関数記憶部１０４からその音素情報に応じた一連の変換関数（変換関数系列）を選択する。そして、声質変換部１０６は、選択部１０３で選択された音声素片系列及び変換関数系列のそれぞれに含まれる音声素片と変換関数とを各別に処理する。また、波形合成部１０８は、声質変換部１０６によって変換された一連の音声素片から音声波形を生成して出力する。

図５は、選択部１０３の構成を示す構成図である。

選択部１０３は、素片ラティス特定部２０１と、関数ラティス特定部２０２と、素片コスト判定部２０３と、コスト統合部２０４と、探索部２０５とを備えている。

素片ラティス特定部２０１は、韻律推定部１０１によって出力された韻律情報に基づいて、素片記憶部１０２に記憶されている複数の音声素片の中から、最終的に選択されるべき音声素片の幾つかの候補を特定する。

例えば、素片ラティス特定部２０１は、韻律情報に含まれる音素と同じ音素を示す音声素片を全て候補として特定する。または、素片ラティス特定部２０１は、韻律情報に含まれる音素及び韻律との類似度が所定のしきい値以内（例えば、基本周波数の差分が２０Ｈｚ以内である等）となる音声素片を候補として特定する。

関数ラティス特定部２０２は、韻律情報と、声質指定部１０７から出力された声質情報とに基づいて、関数記憶部１０４に記憶されている複数の変換関数の中から、最終的に選択さされるべき変換関数の幾つかの候補を特定する。

例えば、関数ラティス特定部２０２は、韻律情報に含まれる音素を適用対象とし、声質情報により示される声質（例えば「怒り」の声質）に変換可能な変換関数を候補として特定する。

素片コスト判定部２０３は、素片ラティス特定部２０１により特定された音声素片候補と韻律情報との素片コストを判定する。

例えば、素片コスト判定部２０３は、韻律推定部１０１により推定された韻律と音声素片候補の韻律の類似度や、音声素片を接続した場合の接続境界付近の滑らかさを尤もらしさとして使用して素片コストを判定する。

コスト統合部２０４は、適合度判定部１０５により判定された適合度と、素片コスト判定部２０３により判定された素片コストとを統合する。

探索部２０５は、素片ラティス特定部２０１により特定された音声素片候補と、関数ラティス特定部２０２により特定された変換関数候補の中から、コスト統合部２０４によって算出されたコストの値が最小となる音声素片と変換関数を選択する。

以下、具体的に選択部１０３及び適合度判定部１０５について説明する。

図６は、素片ラティス特定部２０１及び関数ラティス特定部２０２の動作を説明するための説明図である。

例えば、韻律推定部１０１は、「赤い」というテキストデータ（音素情報）を取得して、その音素情報に含まれる各音素と各韻律とを含む韻律情報群１１を出力する。この韻律情報群１１は、音素ａ及びこれに対応する韻律を示す韻律情報ｔ₁と、音素ｋ及びこれに対応する韻律を示す韻律情報ｔ₂と、音素ａ及びこれに対応する韻律を示す韻律情報ｔ₃と、音素ｉ及びこれに対応する韻律を示す韻律情報ｔ₄とを含む。

素片ラティス特定部２０１は、その韻律情報群１１を取得して、音声素片候補群１２を特定する。この音声素片候補群１２は、音素ａに対する音声素片候補ｕ₁₁，ｕ₁₂，ｕ₁₃と、音素ｋに対する音声素片候補ｕ₂₁，ｕ₂₂と、音素ａに対する音声素片候補ｕ₃₁，ｕ₃₂，ｕ₃₃と、音素ｉに対する音声素片候補ｕ₄₁，ｕ₄₂，ｕ₄₃，ｕ₄₄とを含む。

関数ラティス特定部２０２は、上述の韻律情報群１１及び声質情報を取得して、例えば「怒り」の声質に対応付けられた変換関数候補群１３を特定する。この変換関数候補群１３は、音素ａに対する変換関数候補ｆ₁₁，ｆ₁₂，ｆ₁₃と、音素ｋに対する変換関数候補ｆ₂₁，ｆ₂₂，ｆ₂₃と、音素ａに対する変換関数候補ｆ₃₁，ｆ₃₂，ｆ₃₃，ｆ₃₄と、音素ｉに対する変換関数候補ｆ₄₁，ｆ₄₂とを含む。

素片コスト判定部２０３は、素片ラティス特定部２０１により特定された音声素片候補の尤もらしさを示す素片コストucost（ｔ_i，ｕ_ij）を算出する。この素片コストucost（ｔ_i，ｕ_ij）は、韻律推定部１０１により推定された音素が持つべき韻律情報ｔ_iと音声素片候補ｕ_ijとの類似度により判断されるコストである。

ここで、韻律情報ｔ_iは、韻律推定部１０１により推定された音素情報のｉ番目の音素に対する音韻環境、基本周波数、継続時間長、及びパワーなどを示す。また、音声素片候補ｕ_ijは、ｉ番目の音素に対するｊ番目の音声素片候補である。

例えば、素片コスト判定部２０３は、音韻環境の一致度、基本周波数の誤差、継続時間長の誤差、パワーの誤差、及び音声素片を接続した時の接続歪みなどを総合した素片コストを算出する。

適合度判定部１０５は、音声素片候補ｕ_ijと変換関数候補ｆ_ikとの適合度fcost（ｕ_ij，ｆ_ik）を算出する。ここで、変換関数候補ｆ_ikは、ｉ番目の音素に対するｋ番目の変換関数候補である。この適合度fcost（ｕ_ij，ｆ_ik）は、式１により定義される。

ここで、static_cost（ｕ_ij，ｆ_ik）は、音声素片候補ｕ_ij（音声素片候補ｕ_ijの音響的特徴）と、変換関数候補ｆ_ik（変換関数候補ｆ_ikを作成する際に使用した音声素片の音響的特徴）の静的な適合度（類似度）である。このような静的適合度は、例えば、変換関数候補を作成する際に使用した音声素片の音響的特徴、即ち変換関数を適切に適用可能と想定されている音響的特徴（例えば、フォルマント周波数、基本周波数、パワー、ケプストラム係数など）と、音声素片候補の音響的特徴との類似度によって示される。

なお、静的適合度は、これらに限定されるものではなく、音声素片と変換関数との何らかの類似度を利用していれば良い。また、全ての音声素片と変換関数についてオフラインで静的適合度を予め計算し、各音声素片に対して適合度が上位の変換関数を対応付けておき、静的適合度を算出するときには、その音声素片に対応付けられた変換関数のみを対象にしても良い。

一方、dynamic_cost（ｕ_(i-1)j，ｕ_ij，ｕ_(i+1)j，ｆ_ik）は動的適合度であり、対象の変換関数候補ｆ_ikと音声素片候補ｕ_ijの前後環境との適合度である。

図７は、動的適合度を説明するための説明図である。

動的適合度は、例えば学習データに基づいて算出される。

変換関数は、通常発声の音声素片と、感情や発話スタイルに基づいて発声された音声素片との差分値により学習（作成）される。

例えば図７の（ｂ）に示すように、学習データは、一連の音声素片候補（系列）ｕ₁₁，ｕ₁₂，ｕ₁₃のうちの音声素片候補ｕ₁₂に対して基本周波数Ｆ₀を上昇させるという変換関数Ｆ₁₂が学習されたことを示す。また、図７の（ｃ）に示すように、学習データは、一連の音声素片候補（系列）ｕ₂₁，ｕ₂₂，ｕ₂₃のうちの音声素片候補ｕ₂₂に対して基本周波数Ｆ₀を上昇させるという変換関数Ｆ₂₂が学習されたことを示す。

適合度判定部１０５は、図７の（ａ）に示す音声素片候補ｕ₃₂に対して変換関数を選択する際には、ｕ₃₂を含む前後の音声素片の環境（ｕ₃₁，ｕ₃₂，ｕ₃₃）と、変換関数候補（ｆ₁₂，ｆ₂₂）の学習データの環境（ｕ₁₁，ｕ₁₂，ｕ₁₃と、ｕ₂₁，ｕ₂₂，ｕ₂₃）との一致度（類似度）に基づいて適合度を判定する。

図７に示すような場合、（ａ）の学習データが示す環境は時間ｔとともに基本周波数Ｆ₀が増加する環境であるので、適合度判定部１０５は、（ｃ）の学習データが示すように、基本周波数Ｆ₀が増加している環境で学習（作成）された変換関数ｆ₂₂の方が、動的適合度が高い（dynamic_costの値が小さい）と判断する。

すなわち、図７の（ａ）に示す音声素片候補ｕ₃₂は時間ｔの経過とともに基本周波数Ｆ₀が増加する環境にあるため、適合度判定部１０５は、（ｂ）に示すように基本周波数Ｆ₀が減少している環境から学習された変換関数ｆ₁₂の動的適合度を低く計算し、（ｃ）に示すように基本周波数Ｆ₀が増加している環境から学習された変換関数ｆ₂₂の動的適合度を高く計算する。

言い換えれば、適合度判定部１０５は、前後環境の基本周波数Ｆ₀の減少を抑えようとする変換関数ｆ₁₂よりも、前後環境の基本周波数Ｆ₀の増加をさらに促そうとする変換関数ｆ₂₂の方が、図７の（ａ）に示す前後環境との適合度が高いと判断する。即ち、適合度判定部１０５は、音声素片候補ｕ₃₂に対しては変換関数候補ｆ₂₂が選択されるべきと判断する。逆に、変換関数ｆ₁₂が選択されると、変換関数ｆ₂₂が有する変換特性を音声素片候補ｕ₃₂に反映することができなくなる。また、動的適合度は、変換関数候補ｆ_ikが適用されるべき一連の音声素片（変換関数候補ｆ_ikを作成する際に使用された一連の音声素片）の動的特性と、一連の音声素片候補ｕ_ijの動的特性との類似度であると言える。

なお、図７では基本周波数Ｆ₀の動的特性を用いているが、本発明はこれに限定するものではなく、例えば、パワーや、継続時間長、フォルマント周波数、ケプストラム係数などを用いても良い。また、上記パワーなどの単体ではなく、基本周波数、パワー、継続時間長、フォルマント周波数、ケプストラム係数などを組み合わせて動的適合度を算出しても良い。

コスト統合部２０４は、統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik）を算出する。この統合コストは、式２により定義される。

なお、式２では、素片コストucost（ｔ_i，ｕ_ij）と適合度fcost（ｕ_ij，ｆ_ik）とをそれぞれ均等に足し合わせたが、それぞれに重みを付けて足し合わせてもよい。

探索部２０５は、素片ラティス特定部２０１及び関数ラティス特定部２０２により特定された音声素片候補及び変換関数候補の中から、コスト統合部２０４により計算された統合コストの積算値が最小になるような音声素片系列Ｕと変換関数系列Ｆを選択する。例えば、探索部２０５は図６に示すように、音声素片系列Ｕ（ｕ₁₁，ｕ₂₁，ｕ₃₂，ｕ₄₄）と、変換関数系列Ｆ（ｆ₁₃，ｆ₂₂，ｆ₃₂，ｆ₄₁）とを選択する。

具体的に、探索部２０５は、式３に基づいて上述の音声素片系列Ｕと変換関数系列Ｆとを選択する。なお、ｎは音素情報に含まれる音素の数を示す。

図８は、上述の選択部１０３の動作を示すフロー図である。

まず、選択部１０３は、幾つかの音声素片候補及び変換関数候補を特定する（ステップＳ１００）。次に、選択部１０３は、ｎ個の韻律情報ｔ_iと、各韻律情報ｔ_iに対するｎ’個の音声素片候補と、各韻律情報ｔ_iに対するｎ”個の変換関数候補とのそれぞれの組み合わせに対して、統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik）を算出する（ステップＳ１０２〜Ｓ１０６）。

選択部１０３は、統合コストを算出するために、まず素片コストucost（ｔ_i，ｕ_ij）を算出するとともに（ステップＳ１０２）、適合度fcost（ｕ_ij，ｆ_ik）を算出する（ステップＳ１０４）。そして、選択部１０３は、ステップＳ１０２，Ｓ１０４で算出された素片コストucost（ｔ_i，ｕ_ij）及び適合度fcost（ｕ_ij，ｆ_ik）を合算することにより、統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik）を算出する。このような統合コストの算出は、選択部１０３の探索部２０５が素片コスト判定部２０３及び適合度判定部１０５に対してｉ，ｊ，ｋを変化させるように指示することにより、各ｉ，ｊ，ｋの各組み合わせに対して行われる。

次に、選択部１０３は、個数ｎ’，ｎ”の範囲でｊ，ｋを変化させてｉ＝１〜ｎに対する各統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik）を積算する（ステップＳ１０８）。そして、選択部１０３は、その積算値が最小となる音声素片系列Ｕと変換関数系列Ｆを選択する（ステップＳ１１０）。

なお、図８では、予めコスト値を計算した後に、積算値が最小となる音声素片系列Ｕと変換関数系列Ｆとを選択したが、探索問題において使用されるＶｉｔｅｒｂｉアルゴリズムを用いて音声素片系列Ｕと変換関数系列Ｆを選択するようにしても良い。

図９は、本実施の形態の音声合成装置の動作を示すフロー図である。

音声合成装置の韻律推定部１０１は、音素情報を含むテキストデータを取得して、その音素情報に基づいて、各音素が持つべき基本周波数や、継続時間長、パワーなどの韻律的特徴（韻律）を推定する（ステップＳ２００）。例えば、韻律推定部１０１は、数量化Ｉ類を用いた方法で推定する。

次に、音声合成装置の声質指定部１０７は、ユーザが指定する合成音声の声質、例えば「怒り」の声質を取得する（ステップＳ２０２）。

音声合成装置の選択部１０３は、韻律推定部１０１の推定結果を示す韻律情報と、声質指定部１０７で取得された声質とに基づいて、素片記憶部１０２から音声素片候補を特定するとともに（ステップＳ２０４）、関数記憶部１０４から「怒り」の声質を示す変換関数候補を特定する（ステップＳ２０６）。そして、選択部１０３は、特定された音声素片候補及び変換関数候補から、統合コストが最小となる音声素片及び変換関数を選択する（ステップＳ２０８）。即ち、音素情報が一連の音素を示す場合には、選択部１０３は、統合コストの積算値が最小となる音声素片系列Ｕ及び変換関数系列Ｆを選択する。

次に、音声合成装置の声質変換部１０６は、ステップＳ２０８で選択された音声素片系列Ｕに対して変換関数系列Ｆを適用して声質変換を行う（ステップＳ２１０）。音声合成装置の波形合成部１０８は、声質変換部１０６によって声質変換された音声素片系列Ｕから音声波形を生成して出力する（ステップＳ２１２）。

このように本実施の形態では、音声素片ごとに最適な変換関数が適用されるため、声質を適切に変換することができる。

ここで、本実施の形態を従来技術（特開２００２−２１５１９８号公報）と比較して本実施の形態における効果を詳細に説明する。

上記従来技術の音声合成装置は、スペクトル包絡変換テーブル（変換関数）を母音や子音などのカテゴリごとに作成し、あるカテゴリに属する音声素片には、そのカテゴリに設定されたスペクトル包絡変換テーブルを適用する。

ところが、カテゴリに代表されるスペクトル包絡変換テーブルを、カテゴリ内の全ての音声素片に適用すると、例えば、変換後の音声において複数のフォルマント周波数が近づきすぎたり、変換後の音声の周波数がナイキスト周波数を超えてしまうという課題が生じる。

具体的に、図１０および図１１を用いて上記課題について説明する。

図１０は、母音／ｉ／の音声のスペクトルを示す図である。

図１０中のＡ１０１、Ａ１０２およびＡ１０３は、スペクトの強度の高い部分（スペクトルのピーク）を示す。

図１１は、母音／ｉ／の他の音声のスペクトルを示す図である。

図１０と同様、図１１中のＢ１０１、Ｂ１０２およびＢ１０３は、スペクトルの強度の高い部分を示す。

このような図１０および図１１によって示されるように、同一の母音／ｉ／であっても、スペクトルの形状が大きく異なることがある。したがって、カテゴリを代表する音声（音声素片）を元にスペクトル包絡変換テーブルを作成した場合に、代表音声素片のスペクトルと大きく異なる音声素片にそのスペクトル包絡変換テーブルを適用すると、予め想定した声質変換効果が得られないという場合が存在する。

より具体的な例について図１２Ａおよび図１２Ｂを用いて説明する。

図１２Ａは、母音／ｉ／のスペクトルに対して変換関数が適用される例を示す図である。

変換関数Ａ２０２は、図１０に示す母音／ｉ／の音声に対して作成されたスペクトル包絡変換テーブルである。スペクトルＡ２０１は、カテゴリを代表する音声素片（例えば図１０に示す母音／ｉ／）のスペクトルを示す。

例えば、スペクトルＡ２０１に対して変換関数Ａ２０２が適用されると、スペクトルＡ２０１はスペクトルＡ２０３に変換する。この変換関数Ａ２０２は、中域の周波数を高域に引き上げる変換を行う。

しかしながら、図１０及び図１１に示すように、２つの音声素片が同じ母音／ｉ／であっても、それらのスペクトルが大きく異なることがある。

図１２Ｂは、母音／ｉ／の他のスペクトルに対して変換関数が適用される例を示す図である。

スペクトルＢ２０１は、例えば図１１に示す母音／ｉ／のスペクトルであって、図１２ＡのスペクトルＡ２０１とは大きく異なる。

このスペクトルＢ２０１に対して変換関数Ａ２０２が適用されると、スペクトルＢ１０２はスペクトルＢ２０３に変換する。すなわち、スペクトルＢ２０３では、そのスペクトルの第２のピークと第３のピークとが著しく接近して、１つのピークを形成している。このように、スペクトルＢ２０１に対して変換関数Ａ２０２が適用されると、スペクトルＡ２０１に変換関数Ａ２０２を適用した場合の声質変換と同様の声質変換効果が得られない。さらに、上記従来技術では、変換後のスペクトルＢ２０３において２つのピークが近づきすぎてピークが１つになってしまい、母音／ｉ／の音韻性を崩すという課題が存在する。

一方、本発明の実施の形態における音声合成装置では、音声素片の音響的特徴と、変換関数の元データとなった音声素片の音響的特徴とを比較し、両音声素片の音響的特徴が最も近い音声素片と変換関数とを対応づける。そして、本発明の音声合成装置は、音声素片の声質を、その音声素片に対応付けられた変換関数を用いて変換する。

即ち、本発明の音声合成装置は、母音／ｉ／に対する変換関数候補を複数保持し、変換関数を作成する時に使用した音声素片の音的特徴に基づいて、変換対象となる音声素片に最適な変換関数を選択し、その選択した変換関数を音声素片に適用する。

図１３は、本実施の形態における音声合成装置が適切に変換関数を選択することを説明するための説明図である。なお、図１３の（ａ）は、変換関数（変換関数候補）ｎと、その変換関数候補ｎを作成するときに使用された音声素片の音響的特徴を示し、図１３の（ｂ）は、変換関数（変換関数候補）ｍと、その変換関数候補ｍを作成するときに使用された音声素片の音響的特徴を示す。また、図１３の（ｃ）は、変換対象の音声素片の音響的特徴を示す。ここで、（ａ）、（ｂ）および（ｃ）では、第１フォルマントＦ１、第２フォルマントＦ２および第３フォルマントＦ３を用いて音響的特徴がグラフで表され、そのグラフの横軸は時間を示し、そのグラフの縦軸は周波数を示す。

本実施の形態における音声合成装置は、例えば、（ａ）に示す変換関数候補ｎおよび（ｂ）に示す変換関数候補ｍから、（ｃ）に示す変換対象の音声素片と音的特徴が類似している変換関数候補を変換関数として選択する。

ここで、（ａ）に示す変換関数候補ｎは、第２フォルマントＦ２を１００Ｈｚだけ引き下げ、第３フォルマントＦ３を１００Ｈｚだけ引き下げるという変換を行う。一方、（ｂ）に示す変換関数候補ｍは、第２フォルマントＦ２を５００Ｈｚだけ引き上げて、第３フォルマントＦ３を５００Ｈｚだけ引き下げる。

このような場合、本実施の形態における音声合成装置は、（ｃ）に示す変換対象の音声素片の音響的特徴と、（ａ）に示す変換関数候補ｎを作成するために使用された音声素片の音響的特徴との類似度を計算するとともに、（ｃ）に示す変換対象の音声素片の音響的特徴と、（ｂ）に示す変換関数候補ｍを作成するために使用された音声素片の音響的特徴との類似度を計算する。その結果、本実施の形態における音声合成装置は、第２フォルマントＦ２および第３フォルマントＦ３の周波数において、変換関数候補ｎの音響的特徴の方が変換関数候補ｍの音響的特徴よりも、変換対象の音声素片の音響的特徴に類似していると判断できる。そのため、音声合成装置は、変換関数候補ｎを変換関数として選択し、その変換関数ｎを変換対象の音声素片に適用する。このとき、音声合成装置は、各フォルマントの移動量によりスペクトル包絡の変形を行う。

ここで、上記従来技術の音声合成装置のように、カテゴリ代表関数（例えば、図１３の（ｂ）に示す変換関数候補ｍ）を適用した場合には、第２フォルマントおよび第３フォルマントが交差して、声質変換効果を得られないばかりか、音韻性を確保できない。

ところが、本発明の音声合成装置では、類似度（適合度）を用いて変換関数を選択することにより、図１３の（ｃ）に示すような変換対象の音声素片に対して、その音声素片の音響的特徴に近い音声素片をもとに作成された変換関数を適用する。したがって、本実施の形態では、変換後の音声において、フォルマント周波数がそれぞれ近づきすぎたり、その音声の周波数がナイキスト周波数を超えてしまうという問題を解消することができる。さらに、本実施の形態では、変換関数の作成元となる音声素片（例えば、図１３の（ａ）に示す音響的特徴を有する音声素片）と類似した音声素片（例えば、図１３の（ｃ）に示す音響的特徴を有する音声素片）に対して、その変換関数を適用するため、その変換関数を作成元の音声素片に適用したときに得られる声質変換効果と同様の効果を得ることができる。

このように本実施の形態では、上記従来の音声合成装置のように音声素片のカテゴリなどには左右されず、各音声素片のそれぞれに最も適した変換関数を選択することができ、声質変換によるひずみを最小限に抑えることができる。

また、本実施の形態では、変換関数を用いて声質を変換するため、連続的に声質を変換することができるとともに、データベース（素片記憶部１０２）にない声質の音声波形を生成することができる。さらに、本実施の形態では、上述のように音声素片ごとに最適な変換関数が適用されるため、無理な補正を行うことなく音声波形のフォルマント周波数を適切な範囲に抑えることができる。

また、本実施の形態では、テキストデータと声質指定部１０７で指定された声質とを実現するための音声素片及び変換関数が、素片記憶部１０２及び関数記憶部１０４から同時に相補的に選択される。つまり、音声素片に対応する変換関数が見つからない場合には、異なる音声素片に変更される。また、変換関数に対応する音声素片が見つからない場合には、異なる変換関数に変更される。これにより、そのテキストデータに対応する合成音声の品質と、声質指定部１０７で指定された声質への変換に対する品質とを、同時に最適化することが可能となり、高音質で且つ所望の声質の合成音声を得ることができる。

なお、本実施の形態では、選択部１０３は、統合コストの結果に基づいて音声素片及び変換関数を選択したが、適合度判定部１０５によって算出される静的適合度、動的適合度、又はこれらの組み合わせによる適合度が所定のしきい値以上となる音声素片及び変換関数を選択しても良い。

（変形例）
上記実施の形態１の音声合成装置は、指定された１つの声質に基づいて、音声素片系列Ｕ及び変換関数系列Ｆ（音声素片及び変換関数）を選択した。

本変形例に係る音声合成装置は、複数の声質の指定を受け付けて、その複数の声質に基づいて、音声素片系列Ｕ及び変換関数系列Ｆを選択する。

図１４は、本変形例に係る素片ラティス特定部２０１及び関数ラティス特定部２０２の動作を説明するための説明図である。

関数ラティス特定部２０２は、関数記憶部１０４から指定された複数の声質を実現する変換関数候補を特定する。例えば、声質指定部１０７によって、「怒り」と「喜び」の声質の指定が受け付けられた場合、関数ラティス特定部２０２は、関数記憶部１０４から、「怒り」と「喜び」のそれぞれの声質に対応する変換関数候補を特定する。

例えば、図１４に示すように、関数ラティス特定部２０２は、変換関数候補群１３を特定する。この変換関数候補群１３には、「怒り」の声質に対応する変換関数候補群１４と、「喜び」の声質に対応する変換関数候補群１５とが含まれる。変換関数候補群１４は、音素ａに対する変換関数候補ｆ₁₁，ｆ₁₂，ｆ₁₃と、音素ｋに対する変換関数候補ｆ₂₁，ｆ₂₂，ｆ₂₃と、音素ａに対する変換関数候補ｆ₃₁，ｆ₃₂，ｆ₃₃，ｆ₃₄と、音素ｉに対する変換関数候補ｆ₄₁，ｆ₄₂とを含む。変換関数候補群１５は、音素ａに対する変換関数候補ｇ₁₁，ｇ₁₂と、音素ｋに対する変換関数候補ｇ₂₁，ｇ₂₂，ｇ₂₃と、音素ａに対する変換関数候補ｇ₃₁，ｇ₃₂，ｇ₃₃と、音素ｉに対する変換関数候補ｇ₄₁，ｇ₄₂，ｇ₄₃とを含む。

適合度判定部１０５は、音声素片候補ｕ_ijと変換関数候補ｆ_ikと変換関数候補ｇ_ihとの適合度fcost（ｕ_ij，ｆ_ik，ｇ_ih）を算出する。ここで、変換関数候補ｇ_ihは、ｉ番目の音素に対するｈ番目の変換関数候補である。

この適合度fcost（ｕ_ij，ｆ_ik，ｇ_ih）は、式４により算出される。

ここで、式４に示すｕ_ij＊ｆ_ikは、素片ｕ_ijに対して変換関数ｆ_ikを適用した後の音声素片を示す。

コスト統合部２０４は、素片選択コストucost（ｔ_i，ｕ_ij）と、適合度fcost（ｕ_ij，ｆ_ik，ｇ_ih）とを用いて、統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik，ｇ_ih）を計算する。この統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik，ｇ_ih）は、式５により算出される。

探索部２０５は、式６により、音声素片系列Ｕ及び変換関数系列Ｆ，Ｇを選択する。

例えば、図１４に示すように、選択部１０３は、音声素片系列Ｕ（ｕ₁₁，ｕ₂₁，ｕ₃₂，ｕ₄₄）と、変換関数系列Ｆ（ｆ₁₃，ｆ₂₂，ｆ₃₂，ｆ₄₁）と、変換関数系列Ｇ（ｇ₁₂，ｇ₂₂，ｇ₃₂，ｇ₄₁）とを選択する。

このように本変形例では、声質指定部１０７が複数の声質の指定を受け付けて、これらの声質に基づく適合度及び統合コストが算出されるため、テキストデータに対応する合成音声の品質と、上記複数の声質への変換に対する品質とを、同時に最適化することができる。

なお、本変形例では、適合度判定部１０５が適合度fcost（ｕ_ij，ｆ_ik）に適合度fcost（ｕ_ij＊ｆ_ik，ｇ_ih）を足して最終的な適合度fcost（ｕ_ij，ｆ_ik，ｇ_ih）を算出したが、適合度fcost（ｕ_ij，ｆ_ik）に適合度fcost（ｕ_ij，ｇ_ih）を足して最終的な適合度fcost（ｕ_ij，ｆ_ik，ｇ_ih）を算出しても良い。

また、本変形例では、声質指定部１０７が２つの声質の指定を受け付けたが、３つ以上の声質の指定を受け付けても良い。このような場合でも、本変形例では、適合度判定部１０５が上述と同様の方法で適合度を算出し、各声質に対応した変換関数を音声素片に適用する。

（実施の形態２）
図１５は、本発明の第２の実施の形態における音声合成装置の構成を示す構成図である。

本実施の形態の音声合成装置は、韻律推定部１０１と、素片記憶部１０２と、素片選択部３０３と、関数記憶部１０４と、適合度判定部３０２と、声質変換部１０６と、声質指定部１０７と、関数選択部３０１と、波形合成部１０８とを備えている。なお、本実施の形態の構成要素のうち、実施の形態１の音声合成装置の構成要素と同一のものに対しては、実施の形態１の構成要素と同一の符号を付して示し、詳細な説明を省略する。

ここで、本実施の形態の音声合成装置では、まず、声質指定部１０７で指定される声質及び韻律情報に基づいて関数選択部３０１が変換関数（変換関数系列）を選択し、その変換関数に基づいて素片選択部３０３が音声素片（音声素片系列）を選択する点が実施の形態１と異なる。

関数選択部３０１は、関数選択手段として構成され、韻律推定部１０１から出力される韻律情報と、声質指定部１０７から出力される声質情報とに基づいて、関数記憶部１０４から変換関数を選択する。

素片選択部３０３は、素片選択手段として構成され、韻律推定部１０１から出力された韻律情報に基づいて、素片記憶部１０２から音声素片の候補を幾つか特定する。さらに、素片選択部３０３は、その候補の中から、その韻律情報と、関数選択部３０１によって選択された変換関数とに最も適合する音声素片を選択する。

適合度判定部３０２は、実施の形態１の適合度判定部１０５と同様の手法により、関数選択部３０１によって既に選択された変換関数と、素片選択部３０３によって特定された幾つかの音声素片候補との適合度fcost（ｕ_ij，ｆ_ik）を判定する。

声質変換部１０６は、素片選択部３０３によって選択された音声素片に対して、関数選択部３０１によって選択された変換関数を適用させる。これにより、声質変換部１０６は、声質指定部１０７でユーザにより指定された声質の音声素片を生成する。本実施の形態では、この声質変換部１０６、関数選択部３０１、および素片選択部３０３から変換手段が構成されている。

波形合成部１０８は、声質変換部１０６によって変換された音声素片から音声波形を生成して出力する。

図１６は、関数選択部３０１の構成を示す構成図である。

関数選択部３０１は、関数ラティス特定部３１１と探索部３１２とを備えている。

関数ラティス特定部３１１は、関数記憶部１０４に記憶されている変換関数の中から、声質情報により示される声質（指定された声質）に変換するための変換関数の候補として、幾つかの変換関数を特定する。

例えば、声質指定部１０７で「怒り」の声質の指定が受け付けられた場合には、関数ラティス特定部３１１は、関数記憶部１０４に記憶されている変換関数の中から、「怒り」の声質に変換するための変換関数を候補として特定する。

探索部３１２は、関数ラティス特定部３１１によって特定された幾つかの変換関数候補の中から、韻律推定部１０１から出力された韻律情報に対して適切な変換関数を選択する。例えば、韻律情報には、音素系列、基本周波数、継続時間長、及びパワーなどが含まれる。

具体的に、探索部３１２は、一連の韻律情報ｔ_iと、一連の変換関数候補ｆ_ikとの適合度（変換関数候補ｆ_ikを学習する際に使用した音声素片の韻律的特徴と韻律情報ｔ_iとの類似度）が最大、即ち式７を満たすような一連の変換関数たる変換関数系列Ｆ（ｆ_1k，ｆ_2k，…，ｆ_nk）を選択する。

ここで本実施の形態では、式７に示すように、適合度を算出するときに使用する項目が、基本周波数、継続時間長、パワーなどの韻律情報ｔ_iのみである点が、実施の形態１の式１に示す適合度の場合と異なる。

そして、探索部３１２は、その選択した候補を、指定され声質に変換するための変換関数（変換関数系列）として出力する。

図１７は、素片選択部３０３の構成を示す構成図である。

素片選択部３０３は、素片ラティス特定部３２１と、素片コスト判定部３２３と、コスト統合部３２４と、探索部３２５とを備える。

このような素片選択部３０３は、韻律推定部１０１から出力された韻律情報と、関数選択部３０１から出力された変換関数に最も合致する音声素片を選択する。

素片ラティス特定部３２１は、実施の形態１の素片ラティス特定部２０１と同様、韻律推定部１０１によって出力された韻律情報に基づいて、素片記憶部１０２に記憶されている複数の音声素片の中から、幾つかの音声素片候補を特定する。

素片コスト判定部３２３は、実施の形態１の素片コスト判定部２０３と同様、素片ラティス特定部３２１により特定された音声素片候補と韻律情報との素片コストを判定する。即ち、素片コスト判定部３２３は、素片ラティス特定部３２１により特定された音声素片候補の尤もらしさを示す素片コストucost（ｔ_i，ｕ_ij）を算出する。

コスト統合部３２４は、実施の形態１のコスト統合部２０４と同様、適合度判定部３０２により判定された適合度と、素片コスト判定部３２３により判定された素片コストとを統合することで統合コストmanage_cost（ｔ_i，ｕ_ij，ｆ_ik）を算出する。

探索部３２５は、素片ラティス特定部３２１により特定された音声素片候補の中から、コスト統合部３２４により計算された統合コストの積算値が最小になるような音声素片系列Ｕを選択する。

具体的に、探索部３２５は、式８に基づいて上述の音声素片系列Ｕを選択する。

図１８は、本実施の形態における音声合成装置の動作を示すフロー図である。

音声合成装置の韻律推定部１０１は、音素情報を含むテキストデータを取得して、その音素情報に基づいて、各音素が持つべき基本周波数や、継続時間長、パワーなどの韻律的特徴（韻律）を推定する（ステップＳ３００）。例えば、韻律推定部１０１は、数量化Ｉ類を用いた方法で推定する。

次に、音声合成装置の声質指定部１０７は、ユーザが指定する合成音声の声質、例えば「怒り」の声質を取得する（ステップＳ３０２）。

音声合成装置の関数選択部３０１は、声質指定部１０７に取得された声質に基づいて、関数記憶部１０４から「怒り」の声質を示す変換関数候補を特定する（ステップＳ３０４）。さらに、関数選択部３０１は、その変換関数候補の中から、韻律推定部１０１の推定結果を示す韻律情報に最も適合する変換関数を選択する（ステップＳ３０６）。

音声合成装置の素片選択部３０３は、韻律情報に基づいて、素片記憶部１０２から音声素片の候補を幾つか特定する（ステップＳ３０８）。さらに、素片選択部３０３は、その候補の中から、その韻律情報と、関数選択部３０１によって選択された変換関数とに最も適合する音声素片を選択する（ステップＳ３１０）。

次に、音声合成装置の声質変換部１０６は、ステップＳ３０６で選択された変換関数を、ステップＳ３１０で選択された音声素片に対して適用して声質変換を行う（ステップＳ３１２）。音声合成装置の波形合成部１０８は、声質変換部１０６によって声質変換された音声素片から音声波形を生成して出力する（ステップＳ３１４）。

このように本実施の形態では、まず、声質情報及び韻律情報に基づいて変換関数が選択され、その選択された変換関数に最適な音声素片が選択される。この実施の形態に好適な状況として、変換関数が十分に確保できない場合がある。具体的には、様々な声質に対する変換関数を用意する場合に、個々の声質に対して多くの変換関数を用意することは、困難である。このような場合においても、つまり、関数記憶部１０４に記憶されている変換関数の数が少なくても、素片記憶部１０２に記憶されている音声素片の数が十分多ければ、テキストデータに対応する合成音声の品質と、声質指定部１０７で指定された声質への変換に対する品質とを、同時に最適化することが可能となる。

また、音声素片と変換関数を同時に選択する場合と比較して、計算量を少なくすることができる。

なお、本実施の形態では、素片選択部３０３は、統合コストの結果に基づいて音声素片を選択したが、適合度判定部３０２によって算出される静的適合度、動的適合度、又はこれらの組み合わせによる適合度が所定のしきい値以上となる音声素片を選択しても良い。

（実施の形態３）
図１９は、本発明の第３の実施の形態における音声合成装置の構成を示す構成図である。

本実施の形態の音声合成装置は、韻律推定部１０１と、素片記憶部１０２と、素片選択部４０３と、関数記憶部１０４と、適合度判定部４０２と、声質変換部１０６と、声質指定部１０７と、関数選択部４０１と、波形合成部１０８とを備えている。なお、本実施の形態の構成要素のうち、実施の形態１の音声合成装置の構成要素と同一のものに対しては、実施の形態１の構成要素と同一の符号を付して示し、詳細な説明を省略する。

ここで、本実施の形態の音声合成装置では、まず、韻律推定部１０１から出力される韻律情報に基づいて素片選択部４０３が音声素片（音声素片系列）を選択し、その音声素片に基づいて関数選択部４０１が変換関数（変換関数系列）を選択する点が実施の形態１と異なる。

素片選択部４０３は、韻律推定部１０１から出力された韻律情報に最も適合する音声素片を素片記憶部１０２から選択する。

関数選択部４０１は、声質情報及び韻律情報に基づいて、関数記憶部１０４から変換関数の候補を幾つか特定する。さらに、関数選択部４０１は、その候補の中から、素片選択部４０３によって選択された音声素片に適した変換関数を選択する。

適合度判定部４０２は、実施の形態１の適合度判定部１０５と同様の手法により、素片選択部４０３によって既に選択された音声素片と、関数選択部４０１によって特定された幾つかの変換関数候補との適合度fcost（ｕ_ij，ｆ_ik）を判定する。

声質変換部１０６は、素片選択部４０３によって選択された音声素片に対して、関数選択部４０１によって選択された変換関数を適用させる。これにより、声質変換部１０６は、声質指定部１０７で指定された声質の音声素片を生成する。

図２０は、素片選択部４０３の構成を示す構成図である。

素片選択部４０３は、素片ラティス特定部４１１と、素片コスト判定部４１２と、探索部４１３とを備えている。

素片ラティス特定部４１１は、実施の形態１の素片ラティス特定部２０１と同様、韻律推定部１０１から出力された韻律情報に基づいて、素片記憶部１０２に記憶されている複数の音声素片の中から、幾つかの音声素片候補を特定する。

素片コスト判定部４１２は、実施の形態１の素片コスト判定部２０３と同様、素片ラティス特定部４１１により特定された音声素片候補と韻律情報との素片コストを判定する。即ち、素片コスト判定部４１２は、素片ラティス特定部４１１により特定された音声素片候補の尤もらしさを示す素片コストucost（ｔ_i，ｕ_ij）を算出する。

探索部４１３は、素片ラティス特定部４１１により特定された音声素片候補の中から、素片コスト判定部４１２により計算された素片コストの積算値が最小になるような音声素片系列Ｕを選択する。

具体的に、探索部４１３は、式９に基づいて上述の音声素片系列Ｕを選択する。

図２１は、関数選択部４０１の構成を示す構成図である。

関数選択部４０１は、関数ラティス特定部４２１と探索部４２２とを備えている。

関数ラティス特定部４２１は、声質指定部１０７から出力された声質情報と、韻律推定部１０１から出力された韻律情報とに基づいて、関数記憶部１０４から変換関数の候補を幾つか特定する。

探索部４２２は、関数ラティス特定部４２１によって特定された幾つかの変換関数候補の中から、素片選択部４０３により既に選択されている音声素片ともっとも合致する変換関数を選択する。

具体的に、探索部４２２は、式１０に基づいて一連の変換関数たる変換関数系列Ｆ（ｆ_1k，ｆ_2k，…，ｆ_nk）を選択する。

図２２は、本実施の形態における音声合成装置の動作を示すフロー図である。

音声合成装置の韻律推定部１０１は、音素情報を含むテキストデータを取得して、その音素情報に基づいて、各音素が持つべき基本周波数や、継続時間長、パワーなどの韻律的特徴（韻律）を推定する（ステップＳ４００）。例えば、韻律推定部１０１は、数量化Ｉ類を用いた方法で推定する。

次に、音声合成装置の声質指定部１０７は、ユーザが指定する合成音声の声質、例えば「怒り」の声質を取得する（ステップＳ４０２）。

音声合成装置の素片選択部４０３は、韻律推定部１０１から出力された韻律情報に基づいて、素片記憶部１０２から幾つかの音声素片候補を特定する（ステップＳ４０４）。そして素片選択部４０３は、その音声素片候補の中から、その韻律情報に最も適合する音声素片を選択する（ステップＳ４０６）。

音声合成装置の関数選択部４０１は、声質情報及び韻律情報に基づいて、関数記憶部１０４から「怒り」の声質を示す変換関数候補を幾つか特定する（ステップＳ４０８）。さらに、関数選択部４０１は、その変換関数候補の中から、素片選択部４０３により既に選択されている音声素片ともっとも合致する変換関数を選択する（ステップＳ４１０）。

次に、音声合成装置の声質変換部１０６は、ステップＳ４１０で選択された変換関数を、ステップＳ４０６で選択された音声素片に対して適用して声質変換を行う（ステップＳ４１２）。音声合成装置の波形合成部１０８は、声質変換部１０６によって声質変換された音声素片から音声波形を生成して出力する（ステップＳ４１４）。

このように本実施の形態では、まず、韻律情報に基づいて音声素片が選択され、その選択された音声素片に最適な変換関数が選択される。この実施の形態に好適な状況として、たとえば、十分な分量の変換関数を確保できているが、新たな話者の声質を示す音声素片を十分な分量だけ確保できない場合などがある。具体的には、一般の多くの利用者の音声を音声素片として利用しようとしても、大量の音声を収録することは困難である。そのような場合にも、つまり、素片記憶部１０２に記憶されている音声素片の数が少なくても、本実施の形態のように、関数記憶部１０４に記憶されている変換関数の数が十分多ければ、テキストデータに対応する合成音声の品質と、声質指定部１０７で指定された声質への変換に対する品質とを、同時に最適化することが可能となる。

なお、本実施の形態では、関数選択部４０１は、統合コストの結果に基づいて音声素片を選択したが、適合度判定部４０２によって算出される静的適合度、動的適合度、又はこれらの組み合わせによる適合度が所定のしきい値以上となる変換関数を選択しても良い。

（実施の形態４）
以下、本発明の第４の実施の形態について図面を用いて詳細に説明する。

図２３は、本発明の実施の形態に係る声質変換装置（音声合成装置）の構成を示す構成図である。

本実施の形態の声質変換装置は、テキストデータ５０１から声質Ａの音声を示すＡ音声データ５０６を生成してその声質Ａを声質Ｂに適切に変換するものであって、テキスト解析部５０２、韻律生成部５０３、素片接続部５０４、素片選択部５０５、変換率指定部５０７、関数適用部５０９、Ａ素片データベース５１０、Ａ基点データベース５１１、Ｂ基点データベース５１２、関数抽出部５１３、変換関数データベース５１４、関数選択部５１５、第１バッファ５１７、第２バッファ５１８、および第３バッファ５１９を備えている。

なお、本実施の形態では、変換関数データベース５１４は、関数格納手段として構成されており、関数選択部５１５は、類似度導出手段、代表値特定手段および選択手段として構成されている。また、関数適用部５０９は、関数適用手段として構成されている。つまり、本実施の形態では、関数選択部５１５の選択手段としての機能と、関数適用部５０９の関数適用手段としての機能とから、変換手段が構成されている。さらに、テキスト解析部５０２は、解析手段として構成され、Ａ素片データベース５１０は、素片代表値記憶手段として構成され、素片選択部５０５は、選択格納手段として構成されている。つまり、これらのテキスト解析部５０２、素片選択部５０５、およびＡ素片データベース５１０は、音声合成手段を構成している。さらに、Ａ基点データベース５１１は、基準代表値記憶手段として構成され、Ｂ基点データベース５１２は、目標代表値記憶手段として構成され、関数抽出部５１３は、変換関数生成手段として構成されている。また、第１バッファ５０６は素片格納手段として構成されている。

テキスト解析部５０２は、読み上げ対象となるテキストデータ５０１を取得して言語的な解析を行い、仮名漢字交じり文から素片列（音素列）への変換や、形態素情報の抽出などを行う。

韻律生成部５０３は、この解析結果を元に、音声に付加するアクセントや各素片（音素）の継続時間長などを含む韻律情報を生成する。

Ａ素片データベース５１０は、声質Ａの音声に対応した複数の素片と、それぞれの素片に付されたその素片の音響的特徴を示す情報とを記憶している。以後、この情報を基点情報と呼ぶ。

素片選択部５０５は、生成された言語的解析結果と韻律情報に対応する最適な素片をＡ素片データベース５１０から選択する。

素片接続部５０４は、選択された素片を接続することによって、テキストデータ５０１の内容を声質Ａの音声として示すＡ音声データ５０６を生成する。そして、素片接続部５０４は、このＡ音声データ５０６を第１バッファ５１７に格納する。

Ａ音声データ５０６には、波形データの他に、使用された素片の基点情報と、波形データのラベル情報とが含まれる。Ａ音声データ５０６に含まれる基点情報は、素片選択部５０５が選択した各素片に付加されていたものであって、ラベル情報は、韻律生成部５０３の生成した各素片の継続時間長を元に素片接続部５０４によって生成されたものである。

Ａ基点データベース５１１は、声質Ａの音声に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶している。

Ｂ基点データベース５１２は、Ａ基点データベース５１１における声質Ａの音声に含まれる各素片に対応した、声質Ｂの音声に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶している。例えば、Ａ基点データベース５１１が声質Ａの音声「おめでとう」に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶していれば、Ｂ基点データベース５１２は、声質Ｂの音声「おめでとう」に含まれる素片ごとに、その素片のラベル情報と基点情報とを記憶している。

関数抽出部５１３は、Ａ基点データベース５１１とＢ基点データベース５１２のそれぞれに対応する素片間における、ラベル情報及び基点情報の差分を、各素片の声質を声質Ａから声質Ｂに変換するための変換関数として生成する。そして、関数抽出部５１３は、Ａ基点データベース５１１の素片ごとのラベル情報および基点情報と、上述のように生成した素片ごとの変換関数とをそれぞれ対応付けて変換関数データベース５１４に格納する。

関数選択部５１５は、Ａ音声データ５０６に含まれる素片部分ごとに、その素片部分の持つ基点情報に最も近い基点情報に対応付けられた変換関数を変換関数データベース５１４から選択する。これにより、Ａ音声データ５０６に含まれる各素片部分について、その素片部分の変換に最も適した変換関数を効率良く自動で選択することができる。そして、関数選択部５１５は、順次選択した全ての変換関数を変換関数データ５１６として生成して第３バッファ５１９に格納する。

変換率指定部５０７は、声質Ａの音声を声質Ｂの音声に近づける割合を示す変換率を、関数適用部５０９に対して指定する。

関数適用部５０９は、変換率指定部５０７により指定された変換率だけ、Ａ音声データ５０６の示す声質Ａの音声が声質Ｂの音声に近付くように、変換関数データ５１６を用いてそのＡ音声データ５０６を変換済音声データ５０８に変換する。そして、関数適用部５０９は、変換済音声データ５０８を第２バッファ５１８に格納する。このように格納された変換済音声データ５０８は、音声出力用デバイスや記録用デバイス、通信用デバイス等へ受け渡される。

なお、本実施の形態では、音声の構成単位たる素片（音声素片）を音素として説明するが、この素片は他の構成単位であってもよい。

図２４Ａおよび図２４Ｂは、本実施の形態における基点情報の例を示す概略図である。

基点情報は、音素に対する基点を示す情報であって、以下、この基点について説明する。

声質Ａの音声に含まれる所定の音素部分のスペクトルには、図２４Ａに示すように、音声の声質を特徴付ける２つのフォルマントの軌跡８０３が現れている。例えば、この音素に対する基点８０７は、２つのフォルマントの軌跡８０３の示す周波数のうち、その音素の継続時間長の中心８０５に対応する周波数として定義される。

上述と同様、声質Ｂの音声に含まれる所定の音素部分のスペクトルには、図２４Ｂに示すように、音声の声質を特徴付ける２つのフォルマントの軌跡８０４が現れている。例えば、この音素に対する基点８０８は、２つのフォルマントの軌跡８０４の示す周波数のうち、その音素の継続時間長の中心８０６に対応する周波数として定義される。

例えば、上記声質Ａの音声と上記声質Ｂの音声とは文章的（内容的）に同一であって、図２４Ａにより示される音素が、図２４Ｂに示される音素に対応している場合、本実施の形態の声質変換装置は、上述の基点８０７，８０８を用いてその音素の声質を変換する。即ち、本実施の形態の声質変換装置は、基点８０７によって示される声質Ａの音声スペクトルのフォルマント位置を、基点８０８によって示される声質Ｂの音声スペクトルのフォルマント位置に合わせ込むように、声質Ａの音素の音声スペクトルに対して、周波数軸上のスペクトル伸縮を行い、さらにその音素の継続時間長を合わせ込むように時間軸上でも伸縮を行う。これにより、声質Ａの音声を声質Ｂの音声に似せることができる。

なお、本実施の形態において、音素の中心位置のフォルマント周波数を基点として定義しているのは、母音の音声スペクトルが音素中心付近で最も安定しているためである。

図２５Ａおよび図２５Ｂは、Ａ基点データベース５１１およびＢ基点データベース５１２に記憶されている情報を説明するための説明図である。

Ａ基点データベース５１１には、図２５Ａに示すように、声質Ａの音声に含まれる音素列と、その音素列の各音素に対応するラベル情報および基点情報とが記憶されている。Ｂ基点データベース５１２には、図２５Ｂに示すように、声質Ｂの音声に含まれる音素列と、その音素列の各音素に対応するラベル情報および基点情報とが記憶されている。ラベル情報は、音声に含まれる各音素の発話のタイミングを示す情報であって、各音素の継続時間長（継続長）によって示される。即ち、所定の音素の発話のタイミングは、直前の音素までの各音素の継続長の総和によって示される。また、基点情報は、上述の各音素のスペクトルにより示される２つの基点（基点１および基点２）により示される。

例えば、Ａ基点データベース５１１には、図２５Ａに示すように、音素列「ｏｍｅ」が記憶されているとともに、音素「ｏ」に対して、継続長（８０ｍｓ）と、基点１（３０００Ｈｚ）と、基点２（４３００Ｈｚ）とが記憶されている。また、音素「ｍ」に対して、継続長（５０ｍｓ）と、基点１（２５００Ｈｚ）と、基点２（４２５０Ｈｚ）とが記憶されている。なお、音素「ｍ」の発話のタイミングは、音素「ｏ」から発話が開始されている場合には、その開始から８０ｍｓ経過したタイミングとなる。

一方、Ｂ基点データベース５１２には、図２５Ｂに示すように、上記Ａ基点データベース５１１に対応して音素列「ｏｍｅ」が記憶されているとともに、音素「ｏ」に対して、継続長（７０ｍｓ）と、基点１（３１００Ｈｚ）と、基点２（４４００Ｈｚ）とが記憶されている。また、音素「ｍ」に対して、継続長（４０ｍｓ）と、基点１（２４００Ｈｚ）と、基点２（４２００Ｈｚ）とが記憶されている。

関数抽出部５１３は、Ａ基点データベース５１１およびＢ基点データベース５１２に含まれる情報から、それぞれに対応する音素部分の基点及び継続長の比を計算する。そして、関数抽出部５１３は、その計算結果である比を変換関数とし、その変換関数と声質Ａの基点および継続長とをセットにして変換関数データベース５１４に保存する。

図２６は、本実施の形態における関数抽出部５１３の処理の例を示す概略図である。

関数抽出部５１３は、Ａ基点データベース５１１およびＢ基点データベース５１２から、それぞれに対応する音素ごとに、その音素の基点および継続長を取得する。そして、関数抽出部５１３は、音素ごとに声質Ａに対する声質Ｂの値の比を計算する。

例えば、関数抽出部５１３は、Ａ基点データベース５１１から音素「ｍ」の継続長（５０ｍｓ）と、基点１（２５００Ｈｚ）と、基点２（４２５０Ｈｚ）とを取得し、Ｂ基点データベース５１２から音素「ｍ」の継続長（４０ｍｓ）と、基点１（２４００Ｈｚ）と、基点２（４２００Ｈｚ）とを取得する。そして、関数抽出部５１３は、声質Ａに対する声質Ｂの継続長の比（継続長比）を、４０／５０＝０．８として計算し、声質Ａに対する声質Ｂの基点１の比（基点１比）を、２４００／２５００＝０．９６として計算し、声質Ａに対する声質Ｂの基点２の比（基点２比）を、４２００／４２５０＝０．９８８として計算する。

このように比を計算すると、関数抽出部５１３は、音素ごとに、声質Ａの継続長（Ａ継続長）、基点１（Ａ基点１）および基点２（Ａ基点２）と、計算した継続長比、基点１比および基点２比とをセットにして変換関数データベース５１４に保存する。

図２７は、本実施の形態における関数選択部５１５の処理の例を示す概略図である。

関数選択部５１５は、Ａ音声データ５０６に示される音素ごとに、その音素の基点１および基点２の組に最も近い周波数を示すＡ基点１およびＡ基点２の組を変換関数データベース５１４から検索する。そして、関数選択部５１５は、その組を見つけると、変換関数データベース５１４においてその組に対応付けられた継続長比、基点１比および基点２比を、その音素に対する変換関数として選択する。

例えば、関数選択部５１５は、Ａ音声データ５０６の示す音素「ｍ」の変換に最適な変換関数を変換関数データベース５１４から選択するときには、その音素「ｍ」の示す基点１（２５５０Ｈｚ）および基点２（４２００Ｈｚ）に最も近い周波数を示すＡ基点１およびＡ基点２の組を変換関数データベース５１４から検索する。つまり、変換関数データベース５１４に音素「ｍ」に対して２つの変換関数があるときには、関数選択部５１５は、Ａ音声データ５０６の音素「ｍ」の示す基点１および基点２（２５５０Ｈｚ，４２００Ｈｚ）と、変換関数データベース５１４の音素「ｍ」の示すＡ基点１およびＡ基点２（２５００Ｈｚ，４２５０Ｈｚ）との距離（類似度）を算出する。さらに、関数選択部５１５は、Ａ音声データ５０６の音素「ｍ」の示す基点１および基点２（２５５０Ｈｚ，４２００Ｈｚ）と、変換関数データベース５１４の音素「ｍ」の示す他のＡ基点１およびＡ基点２（２４００Ｈｚ，４３００Ｈｚ）との距離（類似度）を算出する。その結果、関数選択部５１５は、距離が最も短い、即ち類似度の最も高いＡ基点１および基点２（２５００Ｈｚ，４２５０Ｈｚ）に対応付けられた、継続長比（０．８）、基点１比（０．９６）および基点２比（０．９８８）を、Ａ音声データ５０６の音素「ｍ」に対する変換関数として選択する。

このように関数選択部５１５は、Ａ音声データ５０６に示される音素ごとに、その音素に最適な変換関数を選択する。つまり、この関数選択部５１５は、類似度導出手段を備え、素片格納手段たる第１バッファ５１７のＡ音声データ５０６に含まれる各音素に対して、その音素の音響的特徴（基点１および基点２）と、関数格納手段たる変換関数データベース５１４に格納されている変換関数を作成する際に使用した音素の音響的特徴（基点１および基点２）とを比較して類似度を導出する。そして関数選択部５１５は、Ａ音声データ５０６に含まれる音素のそれぞれに対して、その音素と類似度の最も高い音素を使用して作成された変換関数を選択する。そして、関数選択部５１５は、その選択した変換関数と、変換関数データベース５１４においてその変換関数に対応付けられていたＡ継続長、Ａ基点１およびＡ基点２とを含む変換関数データ５１６を生成する。

なお、基点の種類によって距離に重み付けを行うことで、ある特定の種類の基点の位置の近さを優先的に考慮するような計算を行っても良い。例えば、音韻性を左右する低次のフォルマントに対する重み付けを大きくすることによって、声質変換によって音韻性がくずれるリスクを低減できる。

図２８は、本実施の形態における関数適用部５０９の処理の例を示す概略図である。

関数適用部５０９は、Ａ音声データ５０６の各音素の示す継続長、基点１および基点２に対して、変換関数データ５１６の示す継続長比、基点１比および基点２比と、変換率指定部５０７により指定される変換率とを乗算することにより、そのＡ音声データ５０６の各音素の示す継続長、基点１および基点２を補正する。そして、関数適用部５０９は、その補正された継続長、基点１および基点２に合わせ込むように、Ａ音声データ５０６の示す波形データを変形する。即ち、本実施の形態における関数適用部５０９は、Ａ音声データ５０６に含まれる音素ごとに、関数選択部１１５によって選択された変換関数を適用して、その音素の声質を変換する。

例えば、関数適用部５０９は、Ａ音声データ５０６の音素「ｕ」の示す継続長（８０ｍｓ）、基点１（３０００Ｈｚ）および基点２（４３００Ｈｚ）に対して、変換関数データ５１６の示す継続長比（１．５）、基点１比（０．９５）および基点２比（１．０５）と、変換率指定部５０７により指定される変換率（１００％）とを乗算する。これにより、Ａ音声データ５０６の音素「ｕ」の示す継続長（８０ｍｓ）、基点１（３０００Ｈｚ）および基点２（４３００Ｈｚ）は、継続長（１２０ｍｓ）、基点１（２８５０Ｈｚ）および基点２（４５１５Ｈｚ）に補正される。そして、関数適用部５０９は、Ａ音声データ５０６の波形データの音素「ｕ」部分における継続長、基点１および基点２が、補正された継続長（１２０ｍｓ）、基点１（２８５０Ｈｚ）および基点２（４５１５Ｈｚ）となるように、その波形データを変形する。

図２９は、本実施の形態における声質変換装置の動作を示すフロー図である。

まず、声質変換装置は、テキストデータ５０１を取得する（ステップＳ５００）。声質変換装置は、その取得したテキストデータ５０１に対して言語解析や形態素解析などを行い、その解析結果に基づいて韻律を生成する（ステップＳ５０２）。

韻律が生成されると、声質変換装置は、その韻律に基づいてＡ素片データベース５１０から音素を選択して接続することにより、声質Ａの音声を示すＡ音声データ５０６を生成する（ステップＳ５０４）。

声質変換装置は、Ａ音声データに含まれる最初の音素の基点を特定し（ステップＳ５０６）、その基点に最も近い基点に基づいて生成された変換関数を、その音素に最適な変換関数として、変換関数データベース５１４から選択する（ステップＳ５０８）。

ここで、声質変換装置は、ステップＳ５０４で生成されたＡ音声データ５０６に含まれる全ての音素に対して変換関数が選択されたか否かを判別する（ステップＳ５１０）。選択されていないと判別したときには（ステップＳ５１０のＮ）、声質変換装置は、Ａ音声データ５０６に含まれる次の音素に対してステップＳ５０６からの処理を繰り返し実行する。一方、選択されたと判別したときには（ステップＳ５１０のＹ）、声質変換装置は、選択した変換関数をＡ音声データ５０６に対して適用することにより、そのＡ音声データ５０６を、声質Ｂの音声を示す変換済音声データ５０８に変換する（ステップＳ５１２）。

このように本実施の形態では、Ａ音声データ５０６の音素に対して、その音素の基点に最も近い基点に基づいて生成された変換関数を適用することにより、Ａ音声データ５０６の示す音声の声質を声質Ａから声質Ｂに変換する。したがって、本実施の形態では、例えばＡ音声データ５０６に同じ音素が複数個あって、それらの音素の音響的特徴が異なっているときには、従来例のように音響的特徴の違いに関わりなく同一の変換関数をそれらの音素に対して適用してしまうことなく、その音響的特徴に応じた変換関数を適用し、Ａ音声データ５０６の示す音声の声質を適切に変換することができる。

また、本実施の形態では、音響的特徴を基点という代表値でコンパクトに示しているため、変換関数データベース５１４から変換関数を選択するときに、複雑な演算処理を行うことなく簡単かつ迅速に適切な変換関数を選択することができる。

なお、以上の手法では、各音素内での各基点の位置や、各音素内での各基点位置に対する倍率を一定値としたが、それぞれが音素間でなめらかに補間されるようにしてもよい。例えば図２８において、音素「ｕ」の中心位置における基点１の位置は３０００Ｈｚ、音素「ｍ」の中心位置では２５５０Ｈｚであるが、その中間の時点では基点１の位置が（３０００＋２５５０）／２＝２７７５Ｈｚであると考え、さらに変換関数における基点１の位置の倍率も、（０．９５＋０．９６）／２＝０．９５５であるとして、音声の当該時点における短時間スペクトルの２７７５Ｈｚ付近が２７７５×０．９５５＝２６５０．１２５Ｈｚ付近に合わせ込まれるように変形を行っても良い。

なお、以上の手法では、音声のスペクトル形状を変形することによって声質変換を行ったが、モデルベース音声合成法のモデルパラメタ値を変換することによって声質変換を行うこともできる。この場合、基点の位置を音声スペクトル上に与える代わりに、各モデルパラメタの時系列変化グラフ上に与えればよい。

また、以上の手法では、全音素に対して共通の種類の基点が用いられることを前提としたが、音素の種類によって用いる基点の種類を変えることも可能である。例えば、母音においてはフォルマント周波数を元に基点情報を定義することが効果的だが、無声子音においてはフォルマントの定義自体に物理的な意味合いが希薄であるため、母音に適用しているフォルマント分析とは独立にスペクトル上の特徴点（ピークなど）を抽出し、基点情報とすることが有効であることも考えられる。この場合、母音部と無声子音部に設定する基点情報の個数（次元）が互いに異なることとなる。

（変形例１）
上記実施の形態の手法では声質変換を音素単位で行ったが、単語単位・アクセント句単位等のより長い単位で行ってもよい。特に韻律を決定付ける基本周波数や継続長の情報は音素単位の変形のみで処理を完結させることが難しいため、変換目標の声質で文全体についての韻律情報を決定し、変換元の声質での韻律情報との差し替えやモーフィングを行うことで変形を行っても良い。

即ち、本変形例における声質変換装置は、テキストデータ５０１を解析することにより、声質Ａを声質Ｂに近づけた中間的な声質に対応する韻律情報（中間韻律情報）を生成し、その中間韻律情報に対応する音素をＡ素片データベース５１０から選択してＡ音声データ５０６を生成する。

図３０は、本変形例に係る声質変換装置の構成を示す構成図である。

本変形例に係る声質変換装置は、上述の実施の形態における声質変換装置が備える韻律生成部５０３の代わりに、声質Ａから声質Ｂに近づけた声質に対応する中間韻律情報を生成する韻律生成部５０３ａを備えている。

この韻律生成部５０３ａは、Ａ韻律生成部６０１と、Ｂ韻律生成部６０２と、中間韻律生成部６０３とを備える。

Ａ韻律生成部６０１は、声質Ａの音声に付加するアクセントや各音素の継続長などを含むＡ韻律情報を生成する。

Ｂ韻律生成部６０２は、声質Ｂの音声に付加するアクセントや各音素の継続長などを含むＢ韻律情報を生成する。

中間韻律生成部６０３は、Ａ韻律生成部６０１およびＢ韻律生成部６０２のそれぞれで生成されたＡ韻律情報およびＢ韻律情報と、変換率指定部５０７により指定された変換率とに基づいて計算を行うことにより、その変換率だけ声質Ａを声質Ｂに近づけた声質に対応する中間韻律情報を生成する。なお、変換率指定部５０７は、関数適用部５０９に対して指定する変換率と同一の変換率を中間韻律生成部６０３に対して指定する。

具体的に、中間韻律生成部６０３は、変換率指定部５０７によって指定された変形率に従って、Ａ韻律情報およびＢ韻律情報のそれぞれに対応する音素について、継続長の中間値と、各時刻における基本周波数の中間値とを計算し、それらの計算結果を示す中間韻律情報を生成する。そして、中間韻律生成部６０３は、その生成した中間韻律情報を素片選択部５０５に出力する。

以上の構成によって、音素単位での変形が可能なフォルマント周波数等の変形と、文単位での変形が有効な韻律情報の変形とを組み合わせた声質変換処理が可能となる。

また、本変形例では、中間韻律情報に基づいて音素を選択してＡ音声データ５０６を生成しているため、関数適用部５０９がＡ音声データ５０６を変換済音声データ５０８に変換するときに、無理な声質の変換による声質の劣化を防ぐことができる。

（変形例２）
以上の手法では、各音素の中心位置において基点を定義することで各音素の音響的特徴を安定的に表現しようとしているが、音素内での各フォルマント周波数の平均値や、音素内での周波数帯域ごとのスペクトル強度の平均値や、これらの値の分散値等として基点を定義しても良い。即ち、音声認識技術で一般的に用いられるＨＭＭ音響モデルの形式で基点を定義しておき、素片側のモデルの各状態変数と、変換関数側のモデルの各状態変数の間の距離を計算することによって、最適な関数を選択するようにしてもよい。

上記実施の形態と比較して、この方法では基点情報がより多くの情報を含むためより適切な関数を選択できるという利点があるが、基点情報のサイズが大きくなるために選択処理の負荷が高くなり、基点情報を保持する各データベースのサイズも肥大するという欠点がある。ただし、ＨＭＭ音響モデルから音声を生成するＨＭＭ音声合成装置においては、素片データと基点情報を共通化できるという優れた効果がある。即ち、各変換関数の生成元音声の特徴を表すＨＭＭの各状態変数と、使用するＨＭＭ音響モデルの各状態変数を比較して最適な変換関数を選択すればよい。各変数の生成元音声の特徴を表すＨＭＭの各状態変数は、合成に使用するＨＭＭ音響モデルで生成元音声を認識させ、各音素内の各ＨＭＭ状態に当たる部分で音響特徴量の平均や分散値を計算すればよい。

（変形例３）
本実施の形態はテキストデータ５０１を入力として受け取って音声を出力する音声合成装置に声質変換機能を組み合わせたものであるが、音声を入力として受け取り、入力音声の自動ラベリングによってラベル情報を生成し、各音素中心でのスペクトルピーク点を抽出することで基点情報を自動で生成してもよい。これにより、本発明の技術をボイスチェンジャ装置として使用することも可能である。

図３１は、本変形例に係る声質変換装置の構成を示す構成図である。

本変形例に係る声質変換装置は、上記実施の形態の図２３に示すテキスト解析部５０２、韻律生成部５０３、素片接続部５０４、素片選択部５０５、およびＡ素片データベース５１０の代わりに、声質Ａの音声を入力音声として取得して、その入力音声に応じたＡ音声データ５０６を生成するＡ音声データ生成部７００を備えている。即ち、本変形例では、Ａ音声データ生成部７００が、Ａ音声データ５０６を生成する生成手段として構成されている。

Ａ音声データ生成部７００は、マイク７０５と、ラベリング部７０２と、音響特徴分析部７０３と、ラベリング用音響モデル７０４とを備えている。

マイク７０５は、入力音声を集音してその入力音声の波形を示すＡ入力音声波形データ７０１を生成する。

ラベリング部７０２は、ラベリング用音響モデル７０４を参照して、Ａ入力音声波形データ７０１に対して音素のラベリングを行う。これにより、そのＡ入力音声波形データ７０１に含まれる音素に対するラベル情報が生成される。

音響特徴分析部７０３は、ラベリング部７０２によってラベリングされた各音素の中心点（時間軸中心）におけるスペクトルピーク点（フォルマント周波数）を抽出することにより、基点情報を生成する。そして、音響特徴分析部７０３は、生成した基点情報と、ラベリング部７０２で生成されたラベル情報と、Ａ入力音声波形データ７０１とを含むＡ音声データ５０６を生成し、第１バッファ５１７に格納する。

これにより、本変形例では、入力された音声の声質を変換することが可能となる。

なお、本発明について実施の形態およびその変形例を用いて説明したが、本発明はこれらに限定されるものではない。

例えば、本実施の形態およびその変形例では、基点１および基点２のように、基点の数を２つとし、基点１比および基点２比のように、変換関数における基点比の数を２つとしたが、基点および基点比の数をそれぞれ１つにしてもよく、３つ以上にしてもよい。基点および基点比の数を増やすことによって、音素に対してより適切な変換関数を選択することができる。

本発明の音声合成装置は、声質を適切に変換することができるという効果を奏し、例えば、カーナビゲーションシステムや、家庭用電化製品などのエンターテイメント性の高い音声インタフェース、多様な声質を使い分けながら合成音による情報提供を行う装置、アプリケーションプログラムなどに利用でき、特に音声による感情表現が求められるメール文の読み上げや、話者性の表現が求められるエージェントアプリケーションプログラム等の用途に有用である。また、音声の自動ラベリング技術と組み合わせて使用することにより、所望の歌手の声質による歌唱を可能とするカラオケ装置や、プライバシー保護等を目的としたボイスチェンジャなどとしての応用も可能となる。

図１は、特許文献１の音声合成装置の構成を示す構成図である。図２は、特許文献２の音声合成装置の構成を示す構成図である。図３は、特許文献２の声質変換部において音声素片の声質変換に用いられる変換関数を説明するための説明図である。図４は、本発明の第１の実施の形態における音声合成装置の構成を示す構成図である。図５は、同上の選択部の構成を示す構成図である。図６は、同上の素片ラティス特定部及び関数ラティス特定部の動作を説明するための説明図である。図７は、同上の動的適合度を説明するための説明図である。図８は、同上の選択部の動作を示すフロー図である。図９は、同上の音声合成装置の動作を示すフロー図である。図１０は、母音／ｉ／の音声のスペクトルを示す図である。図１１は、母音／ｉ／の他の音声のスペクトルを示す図である。図１２Ａは、母音／ｉ／のスペクトルに対して変換関数が適用される例を示す図である。図１２Ｂは、母音／ｉ／の他のスペクトルに対して変換関数が適用される例を示す図である。図１３は、第１の実施の形態における音声合成装置が適切に変換関数を選択することを説明するための説明図である。図１４は、同上の変形例に係る素片ラティス特定部及び関数ラティス特定部の動作を説明するための説明図である。図１５は、本発明の第２の実施の形態における音声合成装置の構成を示す構成図である。図１６は、同上の関数選択部の構成を示す構成図である。図１７は、同上の素片選択部の構成を示す構成図である。図１８は、同上の音声合成装置の動作を示すフロー図である。図１９は、本発明の第３の実施の形態における音声合成装置の構成を示す構成図である。図２０は、同上の素片選択部の構成を示す構成図である。図２１は、同上の関数選択部の構成を示す構成図である。図２２は、同上の音声合成装置の動作を示すフロー図である。図２３は、本発明の第４の実施の形態の声質変換装置（音声合成装置）の構成を示す構成図である。図２４Ａは、同上の声質Ａの基点情報の例を示す概略図である。図２４Ｂは、同上の声質Ｂの基点情報の例を示す概略図である。図２５Ａは、同上のＡ基点データベースに記憶されている情報を説明するための説明図である。図２５Ｂは、同上のＢ基点データベースに記憶されている情報を説明するための説明図である。図２６は、同上の関数抽出部の処理例を示す概略図である。図２７は、同上の関数選択部の処理例を示す概略図である。図２８は、同上の関数適用部の処理例を示す概略図である。図２９は、同上の声質変換装置の動作を示すフロー図である。図３０は、同上の変形例１に係る声質変換装置の構成を示す構成図である。図３１は、同上の変形例３に係る声質変換装置の構成を示す構成図である。

符号の説明

１０１韻律推定部
１０２素片記憶部
１０３選択部
１０４関数記憶部
１０５適合度判定部
１０６声質変換部
１０７声質指定部
１０８波形合成部
２０１素片ラティス特定部
２０２関数ラティス特定部
２０３素片コスト判定部
２０４コスト統合部
２０５探索部
５０１テキストデータ
５０２テキスト解析部
５０３韻律生成部
５０４素片接続部
５０５素片選択部
５０６Ａ音声データ
５０７変換率指定部
５０８変換済音声データ
５０９関数適用部
５１０Ａ素片データベース
５１１Ａ基点データベース
５１２Ｂ基点データベース
５１３関数抽出部
５１４変換関数データベース
５１５関数選択部
５１６変換関数データ
５１７第１バッファ
５１８第２バッファ
５１９第３バッファ
８０３，８０４フォルマント軌跡
８０５，８０６音素中心位置
８０７，８０８基点
６０１Ａ韻律生成部
６０２Ｂ韻律生成部
６０３中間韻律生成部
７０１Ａ入力音声波形データ
７０２ラベリング部
７０３音響特徴分析部
７０４ラベリング用音響モデル
７０５マイク

Claims

声質を変換するように音声素片を用いて音声を合成する音声合成装置であって、
複数の音声素片を格納している素片格納手段と、
音声素片の声質を変換するための複数の変換関数を格納している関数格納手段と、
ユーザから指定された声質情報を取得する声質指定手段と、
入力されたテキストから韻律情報を生成する韻律生成手段と、
前記素片格納手段に格納されている音声素片の示す音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴とを比較して類似度を導出する類似度導出手段と、
前記韻律生成手段によって生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択し、選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を前記類似度導出手段に対して導出させ、導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する選択手段と、
選択された前記変換関数を、選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換手段と
を備えることを特徴とする音声合成装置。
前記類似度導出手段は、
前記素片格納手段に格納されている音声素片の音的特徴と、前記変換関数を作成する際に使用した音声素片の音的特徴とが類似するほど高い類似度を導出し、
前記選択手段は、
選択された前記音声素片に対して、前記類似度の最も高い音声素片を使用して作成された変換関数を選択する
ことを特徴とする請求項１記載の音声合成装置。
前記類似度導出手段は、
選択された前記音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴と、前記変換関数を作成する際に使用した音声素片及び当該音声素片の前後の音声素片からなる系列の音響的特徴との類似度に基づいて、動的な前記類似度を導出する
ことを特徴とする請求項２記載の音声合成装置。
前記類似度導出手段は、
選択された前記音声素片の音響的特徴と、前記変換関数を作成する際に使用した音声素片の音響的特徴との類似度に基づいて、静的な前記類似度を導出する
ことを特徴とする請求項２記載の音声合成装置。
前記選択手段は、
選択された前記音声素片に対して、前記類似度が所定のしきい値以上となるような音声素片を使用して作成された変換関数を選択する
ことを特徴とする請求項１記載の音声合成装置。
前記素片格納手段は、第１声質の音声を構成する複数の音声素片を格納しており、
前記関数格納手段は、第１声質の音声の音声素片ごとに、当該音声素片、当該音声素片の音響的特徴を示す基準代表値、および前記基準代表値に対する変換関数を、それぞれ関連付けて格納しており、
前記音声合成装置は、さらに、
前記素片格納手段に格納されている第１声質の音声の音声素片ごとに、当該音声素片の音響的特徴を示す代表値を特定する代表値特定手段を備え、
前記類似度導出手段は、
前記素片格納手段に格納されている音声素片の示す前記代表値と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の前記基準代表値とを比較して類似度を導出し、
前記選択手段は、
選択された前記音声素片に対して、当該音声素片と同一の音声素片に関連付けて前記関数格納手段に格納されている変換関数のうち、当該音声素片の代表値と最も類似度の高い基準代表値に関連付けられた変換関数を選択し、
前記変換手段は、
前記選択手段によって選択された前記音声素片に対して、選択された変換関数を適用することにより、前記第１声質の音声を第２声質の音声に変換する
ことを特徴とする請求項１記載の音声合成装置。
前記音声合成装置は、さらに、
テキストデータを取得し、前記テキストデータと同一の内容を示す前記複数の音声素片を生成して前記素片格納手段に格納する音声合成手段を備える
ことを特徴とする請求項６記載の音声合成装置。
前記音声合成手段は、
前記第１声質の音声を構成する各音声素片と、前記各音声素片の音響的特徴を示す代表値とを関連付けて記憶している素片代表値記憶手段と、
前記テキストデータを取得して解析する解析手段と、
前記解析手段による解析結果に基づいて、前記テキストデータに応じた音声素片を前記素片代表値記憶手段から選択して、選択した音声素片と、当該音声素片の代表値とを前記素片格納手段に関連付けて格納する選択格納手段とを備え、
前記代表値特定手段は、
前記素片格納手段に格納されている音声素片ごとに、当該音声素片に関連付けて格納されている代表値を特定する
ことを特徴とする請求項７記載の音声合成装置。
前記音声合成装置は、さらに、
前記第１声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す基準代表値とを記憶している基準代表値記憶手段と、
前記第２声質の音声の音声素片ごとに、当該音声素片と、当該音声素片の音響的特徴を示す目標代表値とを記憶している目標代表値記憶手段と、
前記基準代表値記憶手段および目標代表値記憶手段に記憶されている同一の音声素片に対応する基準代表値および目標代表値に基づいて、前記基準代表値に対する前記変換関数を生成する変換関数生成手段とを備える
ことを特徴とする請求項８記載の音声合成装置。
前記音声素片は音素であって、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素の時間中心におけるフォルマント周波数の値である
ことを特徴とする請求項９記載の音声合成装置。
前記音声素片は音素であって、前記音響的特徴を示す代表値および基準代表値はそれぞれ、音素のフォルマント周波数の平均値である
ことを特徴とする請求項９記載の音声合成装置。
声質を変換するように音声素片を用いて音声を合成する音声合成方法であって、
素片格納手段は複数の音声素片を格納しており、関数格納手段は音声素片の声質を変換するための複数の変換関数を格納しており、
前記音声合成方法は、
ユーザから指定された声質情報を取得する声質指定ステップと、
入力されたテキストから韻律情報を生成する韻律生成ステップと、
前記韻律生成ステップで生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択する素片選択ステップと、
前記素片選択ステップで選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を導出する類似度導出ステップと、
前記類似度導出ステップで導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する関数選択ステップと、
前記関数選択ステップで選択された前記変換関数を、前記素片選択ステップで選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換ステップと
を含むことを特徴とする音声合成方法。
声質を変換するように音声素片を用いて音声を合成するためのプログラムであって、
素片格納手段は複数の音声素片を格納しており、関数格納手段は音声素片の声質を変換するための複数の変換関数を格納しており、
前記プログラムは、
ユーザから指定された声質情報を取得する声質指定ステップと、
入力されたテキストから韻律情報を生成する韻律生成ステップと、
前記韻律生成ステップで生成された前記韻律情報の示す音声素片ごとに、当該音声素片に応じた音声素片を前記素片格納手段から選択する素片選択ステップと、
前記素片選択ステップで選択された前記音声素片の音響的特徴と、前記関数格納手段に格納されている変換関数を作成する際に使用した音声素片の音響的特徴との類似度を導出する類似度導出ステップと、
前記類似度導出ステップで導出された前記類似度と、ユーザから指定された前記声質情報とに基づいて、前記関数格納手段から変換関数を選択する関数選択ステップと、
前記関数選択ステップで選択された前記変換関数を、前記素片選択ステップで選択された前記音声素片に適用することで、当該音声素片の声質を変換する変換ステップと
をコンピュータに実行させることを特徴とするプログラム。