JP5457706B2

JP5457706B2 - 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法

Info

Publication number: JP5457706B2
Application number: JP2009083563A
Authority: JP
Inventors: ハビエルラトレ; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-30
Filing date: 2009-03-30
Publication date: 2014-04-02
Anticipated expiration: 2029-03-30
Also published as: WO2010116549A1; JP2010237323A; US20120065961A1

Description

本発明は、音声モデルを生成する音声モデル生成装置、音声モデルを用いて音声を合成する音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法に関する。

テキストから音声を生成する音声合成装置は、大別すると、テキスト解析部、韻律生成部及び音声信号生成部の３つの処理部から構成される。テキスト解析部では、言語辞書などを用いて入力されたテキスト（漢字かな混じり文）を解析し、漢字の読みやアクセントの位置、文節（アクセントの句）の区切りなどを定義した言語情報を出力する。韻律生成部では、言語情報に基づいて、声の高さ（基本周波数）の時間変化パターン（ピッチ包絡）と、各音韻の長さなどの音韻・韻律情報を出力する。音声信号生成部は、テキスト解析部からの音韻の系列と韻律生成部からの韻律情報に従って音声波形を生成するものであり、素片接続型合成方式とＨＭＭ合成方式の２方式が現在、主流となっている。

素片接続型合成方式では、音韻の系列に従って音声素片を選択し、韻律情報に従って音声素片のピッチと継続時間長を変形して接続することで、合成音声を出力する。この方式は録音した音声データの素片を接続して音声波形を作成しているため比較的自然な音質の合成音が得られる利点がある。しかしながら、素片を蓄積するためのメモリサイズが大きくなるという問題がある。

ＨＭＭ合成方式は、合成フィルタをパルス列または雑音で駆動するボコーダーと呼ばれる合成器に基づいて合成音声を生成するものであり、統計モデルに基づく音声合成方式の一つである。この方式では、合成器のパラメータを統計モデルで表現し、入力された文章に対して統計モデルの尤度が最大となるように合成器のパラメータを生成する。合成器のパラメータは、音声信号のスペクトルを表すＬＳＦやＦＭＣＣなど、合成フィルタのパラメータと駆動信号のパラメータであり、それらの時系列は音素毎にＨＭＭとガウス分布により統計的にモデル化される。学習用の音声データが与えられれば、統計モデルは音声データから自動的に学習することができ、メモリサイズも比較的小さくできる利点がある。

しかしながら、従来のＨＭＭ統計モデルに基づく音声合成方式では、スペクトルが統計的なモデル化により平均化されるため、生成される合成音の音質はメリハリのない篭った音質となるという問題がある。また、音素間でパラメータが不連続になり易く、異音が発生するという問題がある。

このようなパラメータの平均化や平滑化による音質の悪化を改善する方法として、文章全体にわたるスペクトルパラメータの分散を学習データから学習し、合成時に学習された分散を制約条件としてパラメータを生成、ダイナミクスを再生する手法が提案されている（非特許文献１）。

Ｔｏｄａ．Ｔ．ａｎｄＴｏｋｕｄａＫ．，２００５ "ＳｐｅｅｃｈＰａｒａｍｅｔｅｒＧｅｎｅｒａｔｉｏｎＡｌｇｏｒｉｔｈｍＣｏｎｓｉｄｅｒｉｎｇＧｌｏｂａｌＶａｒｉａｎｃｅｆｏｒＨＭＭ−ＢａｓｅｄＳｐｅｅｃｈＳｙｎｔｈｅｓｉｓ"．Ｐｒｏｃ．Ｉｎｔｅｒｓｐｅｅｃｈ２００５，Ｌｉｓｂｏｎ，Ｐｏｒｔｕｇａｌ，ｐｐ．２８０１−２８０４

しかしながら、非特許文献１に記載されている方法は、スペクトルのメリハリを回復させる効果があるものの、ＭＦＣＣパラメータとの組み合わせ以外においては効果が確認されておらず、生成される合成フィルタがしばしば不安定なフィルタとなって異音が発生するという問題がある。

本発明は、上記に鑑みてなされたものであって、滑らかに変化する自然なスペクトルを生成することのできる音声モデルを生成する音声モデル生成装置、この音声モデルを用いた音声合成装置、プログラムおよび方法を提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明の一形態は、音声モデル生成装置に係り、テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析部と、前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割部と、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化部と、複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部と、同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部とを備えることを特徴とする。

また、本発明の他の形態は、音声合成装置に係り、音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部と、前記音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択部と、前記選択部により選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成部とを備えることを特徴とする。

本発明によれば、複数フレームを含む言語区間単位でスペクトルモデルを学習するので、このスペクトルモデルを用いて音声合成を行うことにより、不連続点のない自然なスペクトルを得ることができるという効果を奏する。

本発明の実施の形態にかかる学習モデル生成装置１００の構成を示すブロック図である。言語区間を説明するための図である。決定木の一例を示す図である。学習モデル生成装置１００による学習モデル生成処理を示すフローチャートである。パラメータ化部１４０により得られたスペクトルパラメータを示す図である。ＨＭＭによりフレーム単位で得られたスペクトルパラメータを示す図である。音声合成装置２００の構成を示す図である。音声合成装置２００による音声合成処理を示すフローチャートである。学習モデル生成装置１００のハードウェア構成を示す図である。

以下に添付図面を参照して、この発明にかかる音声モデル生成装置、音声合成装置、プログラムおよび方法の最良な実施の形態を詳細に説明する。

（第１の実施の形態）
図１は、本発明の実施の形態にかかる学習モデル生成装置１００の構成を示すブロック図である。学習モデル生成装置１００は、テキスト解析部１１０と、スペクトル分析部１２０と、分割部１３０と、パラメータ化部１４０と、クラスタリング部１５０と、モデル学習部１６０と、モデル記憶部１７０とを備えている。学習モデル生成装置１００は、テキスト情報と、テキスト情報の内容を読み上げた音声信号とを学習データとして取得し、学習データに基づいて、音声合成のための学習モデルを生成する。

テキスト解析部１１０は、テキスト情報を取得する。テキスト解析部１１０は、取得したテキスト情報に対するテキスト解析により言語情報を生成する。ここで、言語情報は、言語レベルを単位とする言語区間の境界位置を示す区間情報、各言語区間の形態素、各言語区間の音素記号、各音素が有声音であるか無声音であるかを示す情報、各音素のアクセントの有無を示す情報、各言語区間の開始時間、終了時間、各言語区間の前後の言語区間の情報、各言語区間と前後の言語区間との言語的な関係を示す情報など言語の内容を示す情報である。言語情報はコンテキストと呼ばれ、クラスタリング部１５０において、スペクトルパラメータのコンテキストモデル作成に用いられる。なお、言語区間とは、複数フレームを含み、所定の言語レベルを単位とする区間である。言語レベルとしては、音素、音節、単語、句、呼気段階、発声全体などがある。

スペクトル分析部１２０は、音声信号を取得する。音声信号は、テキスト解析部１１０が取得したテキスト情報の内容を読み上げた発話についての音声の信号である。音声信号は、学習のための音声データを発話単位に分割したものである。

スペクトル分析部１２０は、取得した音声信号に対し、スペクトル分析を行う。すなわち、音声信号を１０ｍｓ程度のフレームに分割する。そして、フレーム毎に、フレームのスペクトルの形状を表す特徴パラメータとしてのメルケプストラム係数（ＭＦＣＣ）を算出し、各フレームの音声信号とＭＦＣＣの組を分割部１３０に出力する。

分割部１３０は、外部から区切り情報を取得する。区切り情報とは、音声信号の言語レベル単位での境界位置、すなわち言語区間の境界位置を示す情報である。区切り情報は、マニュアルまたは自動的なアライメントにより生成される。自動的なアライメントとしては、例えば、ＨＭＭで構成される音声認識モデルを用いて、入力された音声信号のフレームを音響モデルの状態に対応付け、この対応付けから言語区間の区切り情報を得る。区切り情報は、学習データとともに与えられるものとする。分割部１３０は、区切り情報に基づいて、音声信号の言語区間を特定し、スペクトル分析部１２０から取得したＭＦＣＣを言語区間に分割する。

図２に示すように、例えば[ｋａｉｒｏ]というテキスト情報に対応するＭＦＣＣ曲線は、音素単位では、／ｋ／，／ａｉ／，／ｒ／，／ｏ／の４つの音素の言語区間に区切られる。分割部１３０は、例えば音素、音節、単語、句、呼気段階および発声全体など複数の言語レベルにおいてＭＦＣＣを言語区間に分割する。

なお、これ以降で説明する処理においても、各言語レベルの言語区間それぞれに対して処理が施されるが、以下の説明においては、一例として、音素を言語レベルとする場合について述べる。

パラメータ化部１４０は、ＭＦＣＣを分割部１３０において区切られた単位、すなわち言語区間単位でベクトルとし、そのベクトルからスペクトルパラメータを算出する。なお、スペクトルパラメータは、基本パラメータと拡張パラメータとを有している。

パラメータ化部１４０は、言語区間に含まれるフレーム数をｋとした場合、複数フレームのＭＦＣＣから構成されるｋ次元ベクトルＭｅｌＣｅｐ_ｉ，ｓに対し、（式１）に示すように、ｋ次のＤＣＴを適用することにより、基本パラメータを算出する。このように、基本パラメータは、対象とする言語区間である対象区間のスペクトルパラメータであり、対象区間の特徴を示すパラメータである。

なお、ＭｅｌＣｅｐ_ｉ，ｓは、音素ｓのｉ次のＭＦＣＣ係数のｋ次元ベクトルである。Ｔ_ｉ，ｓは、音素ｓのフレーム数ｋに対応するｋ次のＤＣＴの変換行列である。ＤＣＴの次元は言語レベルの単位やフレーム長などに依存する。なお、基本フレームを算出する際には、ＤＣＴ以外の種々の線形変換を用いてもよい。例えば、逆変換可能な離散コサイン変換、フーリエ変換、ウェーブレット変換、テーラー展開および多項式展開を用いてもよい。

パラメータ化部１４０は、さらに拡張パラメータを算出する。拡張パラメータは、対象区間に隣接する言語区間のＭＦＣＣベクトルの傾きで構成される。なお、隣接する区間とは、対象区間の直前の言語区間である直前区間と、対象区間の直後の言語区間である直後区間である。直前区間の拡張パラメータ

および直後区間の拡張パラメータ

は、それぞれ（式２）および（式３）により算出される。ここで、αは傾きを計算するためのＷ次元重みベクトルである。また、カッコ内の負のインデックスはベクトルの最後の要素から数えた場合の要素を示している。

上記の拡張パラメータは、基本パラメータを用いて、それぞれ（式４）、（式５）のように書き換えることができる。すなわち、拡張パラメータを基本パラメータの関数として表すことができる。

なお、

および

は、それぞれ、（式６）、（式７）で表される。

パラメータ化部１４０は、分割部１３０により算出された基本パラメータおよび拡張パラメータを（式８）に示すように、１つのスペクトルパラメータＳＰ_ｉ，ｓに統合する。

クラスタリング部１５０は、パラメータ化部１４０により得られた各言語区間のスペクトルパラメータを、区切り情報およびテキスト解析部１１０により生成された言語情報に基づいてクラスタリングする。具体的には、クラスタリング部１５０は、言語情報、すなわちコンテキスト情報に関する質問を繰り返しながら分岐を繰り返す決定木に基づいて、スペクトルパラメータを複数のクラスターに分割する。例えば、図３に示すように、「対象区間は／ａ／か？」といった質問に対するＹｅｓ、Ｎｏの答えに応じてスペクトルパラメータはＹｅｓの子ノードとＮｏの子ノードに分割される。質問と、回答によるスペクトルパラメータの分割が繰り返されて、図３に示すように言語情報に関する条件が等しい複数のスペクトルパラメータが同一クラスターにグループ化される。

図３に示す例においては、対象区間、直前区間および直後区間の音素が等しい対象区間のスペクトルパラメータが同一のクラスターになるように分類されている。図３に示す例においては、対象区間としての音素／ａ／であっても、直前の音素と直後の音素との組が異なる[（ｋ）ａ（ｎ）]と、[（ｋ）ａ（ｍ）]はそれぞれ異なるクラスターに分類される。

なお、上記において説明したクラスターは一例であり、他の例としては、上述のように、対象区間、直前区間および直後区間の音素のほか、対象区間におけるアクセントの有無、直前区間、直後区間におけるアクセントの有無など、各区間の音素以外の言語情報を用いてより細かいクラスターに分類してもよい。

また、クラスタリングはＭＦＣＣの全次元の係数ベクトルに対応する基本パラメータと拡張パラメータを統合したスペクトルパラメータに対して行うこととしたが、他の例としては、ＭＦＣＣの次元ごとに行ってもよい。各次元でクラスタリングする場合は、クラスタリングするスペクトルパラメータの次元が統合したスペクトルパラメータの次元より小さくなる。このため、クラスタリングの精度を向上させることができる。同様に、統合したスペクトルパラメータの次元をＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：主成分分析）の手法を用いて次元圧縮した後に行ってもよい。

モデル学習部１６０は、各クラスターに分類された複数のスペクトルパラメータから、これら複数のスペクトルパラメータの分布を近似するガウス分布のパラメータを学習し、コンテキスト依存のスペクトルモデルとして出力する。具体的には、モデル学習部１６０は、ＳＰm_ｉ，ｓ、平均ベクトルm_ｉ，ｓおよび共分散行列Σ_ｉ，ｓの３つのパラメータをスペクトルモデルとして出力する。なお、クラスタリングの方法やガウス分布のパラメータ学習法としては、音声認識の分野でよく知られている方法を利用することができる。

モデル記憶部１７０は、モデル学習部１６０により出力された学習モデルを、学習モデルに共通する言語情報の条件に対応付けて記憶する。なお、言語情報の条件とは、クラスタリングにおいて質問に用いた言語情報である。

図４は、学習モデル生成装置１００による学習モデル生成処理を示すフローチャートである。学習モデル生成処理においては、まず学習モデル生成装置１００は学習データとしてテキスト情報、テキストの区切り位置を示す区切り情報およびテキストに対応する音声信号を取得する（ステップＳ１００）。具体的には、テキスト情報はテキスト解析部１１０、音声信号はスペクトル分析部１２０、区切り情報は、分割部１３０およびクラスタリング部１５０に入力される。

次に、テキスト解析部１１０は、テキスト情報に基づいて、言語情報を生成する（ステップＳ１０２）。スペクトル分析部１２０は、音声信号の各フレームの特徴パラメータＭＦＣＣを算出する（ステップＳ１０４）。なお、テキスト解析部１１０による言語情報の生成およびスペクトル分析部１２０による特徴パラメータ算出の処理は独立に行われるので、両者の処理順番は問わない。

次に、分割部１３０は、区切り情報に基づいて、音声信号の言語区間を特定する（ステップＳ１０６）。次に、パラメータ化部１４０は、言語区間に含まれる複数のフレームそれぞれのＭＦＣＣから言語区間のスペクトルパラメータを算出する（ステップＳ１０８）。パラメータ化部１４０はより詳しくは、対象区間だけでなく、対象区間の直前区間、直後区間それぞれに含まれる複数フレームのＭＦＣＣに基づいて、基本パラメータおよび拡張パラメータを要素とするスペクトルパラメータＳＰ_ｉ，ｓを算出する。

次に、クラスタリング部１５０は、パラメータ化部１４０によりテキスト情報の各言語区間に対して得られた複数のスペクトルパラメータを、区切り情報および言語情報に基づいてクラスタリングする（ステップＳ１１０）。次に、モデル学習部１６０は、各クラスターに属する複数のスペクトルパラメータから学習モデルとしてのスペクトルモデルを生成する（ステップＳ１１２）。次に、モデル学習部１６０は、スペクトルモデルを、対応するテキスト情報および言語情報（言語情報の条件）に対応付けてモデル記憶部１７０に記憶する（ステップＳ１１４）。以上で、学習モデル生成装置１００による学習モデル生成処理が完了する。

図５および図６からわかるように、本実施の形態にかかる学習モデル生成装置１００は、ＨＭＭによるスペクトルパラメータに比べて、より実際のスペクトルに近いスペクトルパラメータを得ることができる。学習モデル生成装置１００は、複数フレームに対応する言語区間を単位とするスペクトルパラメータからスペクトルモデルを学習するので、より自然なスペクトルモデルを得ることができる。さらに、このスペクトルモデルを利用することにより、より自然なスペクトルパターンを生成することができる。

また、学習モデル生成装置１００は、対象区間に対応する基本パラメータだけでなく、直前区間および直後区間に対応する拡張パラメータを考慮することにより、不連続点が生じることなく滑らかに変化するスペクトルモデルを学習することができる。

さらに、学習モデル生成装置１００は、複数の言語レベルそれぞれに対するスペクトルモデルを学習するので、これらのスペクトルモデルを利用して、総合的なスペクトルパターンを生成することができる。

図７は、音声合成装置２００の構成を示す図である。音声合成装置２００は、音声合成の対象となるテキスト情報を取得し、学習モデル生成装置１００により生成されたスペクトルモデルに基づいて、音声合成を行う。音声合成装置２００は、モデル記憶部２１０と、テキスト解析部２２０と、モデル選択部２３０と、継続時間長算出部２４０と、スペクトルパラメータ生成部２５０と、Ｆ０生成部２６０と、駆動信号生成部２７０と、合成フィルタ２８０とを備えている。

モデル記憶部２１０は、学習モデル生成装置１００において生成された学習モデルを言語情報の条件に対応付けて記憶している。なお、モデル記憶部２１０は、学習モデル生成装置１００のモデル記憶部１７０と同様である。テキスト解析部２２０は、外部から音声合成の対象となるテキスト情報を取得する。テキスト解析部２２０は、テキスト情報に対し、テキスト解析部１１０と同様の処理を行う。すなわち、取得したテキスト情報に対応する言語情報を生成する。モデル選択部２３０は、言語情報に基づいて、テキスト解析部２２０に入力されたテキスト情報に含まれる複数の言語区間それぞれに対応する、コンテキスト依存のスペクトルモデルをモデル記憶部２１０から選択する。モデル選択部２３０は、テキスト情報に含まれる複数の言語区間それぞれに対して選択されたスペクトルモデルを接続し、これをテキスト情報全体に対応するモデル系列として出力する。

継続時間長算出部２４０は、テキスト解析部２２０から言語情報を取得し、言語情報に定義された各言語区間の開始時間と終了時間とに基づいて、各言語区間の継続時間長を算出する。

スペクトルパラメータ生成部２５０は、モデル選択部２３０により選択された言語区間のモデル系列と、継続時間長算出部２４０により各言語区間に対して算出された継続時間長を接続した継続時間長系列とを入力とし、入力されたテキスト全体に対応するスペクトルパラメータを算出する。具体的には、モデル系列と継続時間長系列とに基づいて、スペクトルパラメータＳＰ_ｉ，ｓの対数尤度（尤度関数）を総目的関数Ｆとし、目的関数が最大となるようなスペクトルパラメータを算出する。総目的関数Ｆは、（式９）で表される。

ここで、ｓは、単位区間の集合である。スペクトルパラメータはガウス分布でモデル化されているので、その確率は（式１０）に示すように、ガウス分布の確率密度で与えられる。

スペクトルパラメータを求めるべく、この総目的関数Ｆを基準となる言語レベル（音素）でのスペクトルパラメータＸ_ｉ，ｓについて最大化する。パラメータの最大化は、勾配法などの公知の技術を用いるものとする。このように、目的関数を最大化することにより、適切なスペクトルパラメータを算出することができる。

他の例としては、スペクトルパラメータ生成部２５０は、スペクトルのグローバル分散も考慮に入れて目的関数を最大化することとしてもよい。これにより、生成されるスペクトルのパターンが自然音声のスペクトルパターンの変化幅と同様に変化し、より自然な音声を得ることができる。

スペクトルパラメータ生成部２５０は、目的関数の最大化で導出されたスペクトルの基本パラメータＸ_ｉ，ｓを逆変換することで、音素に含まれる複数フレームのＭＦＣＣ係数を生成する。なお、逆変換は、言語区間に含まれる複数のフレームに渡って行う。

Ｆ０生成部２６０は、テキスト解析部２２０から言語情報を取得し、継続時間長算出部２４０から各言語区間の継続時間長を取得する。Ｆ０生成部２６０は、言語情報に含まれるアクセントの有無などの情報および各言語区間の継続時間長に基づいて、ピッチの基本周波数（Ｆ０）を生成する。

駆動信号生成部２７０は、Ｆ０生成部２６０から基本周波数（Ｆ０）を取得し、基本周波数（Ｆ０）から駆動信号を生成する。具体的には、対象区間が有声音である場合には、基本周波数（Ｆ０）の逆数であるピッチ周期のパルス列を駆動信号として生成する。また、対象区間が無声音である場合、白色雑音を駆動信号として生成する。

合成フィルタ２８０は、スペクトルパラメータ生成部２５０により得られたスペクトルパラメータおよび駆動信号生成部２７０により生成された駆動信号から合成フィルタを用いて合成音声を生成し出力する。具体的には、まずスペクトルパラメータであるＭＦＣＣパラメータをＬＰＣパラメータに変換する。そして、ＬＰＣパラメータを有する全極フィルタを適用する。ＬＰＣパラメータをα_ｉ(ｉ＝１，２，３・・・，ｐ)とした場合、合成フィルタとしての全極フィルタの伝達関数Ｈ（ｚ）は、（式１１）で表される。ここで、ｐは合成フィルタの次数である。

また、全極フィルタへの入力信号である駆動信号をｅ（ｎ）、全極フィルタの出力をｙ（ｎ）とした場合、合成フィルタの動作は（式１２）の差分方程式で表される。

図８は、音声合成装置２００による音声合成処理を示すフローチャートである。音声合成処理において、まずテキスト解析部２２０は音声合成の対象となるテキスト情報を取得する（ステップＳ２００）。次に、テキスト解析部２２０は、取得したテキスト情報に基づいて、言語情報を生成する（ステップＳ２０２）。次に、モデル選択部２３０は、テキスト解析部２２０が生成した言語情報に基づいて、モデル記憶部２１０からテキスト情報に含まれる各言語区間に対するスペクトルモデルを選択し、これらを接続したモデル系列を得る（ステップＳ２０４）。次に、継続時間長算出部２４０は、言語情報に含まれる各言語区間の開始時間および終了時間に基づいて、各言語区間の継続時間長を算出する（ステップＳ２０６）。なお、モデル選択部２３０によるモデル選択処理および継続時間長算出部２４０による継続時間長算出処理は独立した処理であり、これらの処理順番は特に限定されるものではない。

次に、スペクトルパラメータ生成部２５０は、モデル系列および継続時間長系列に基づいて、テキスト情報に対応するスペクトルパラメータを算出する（ステップＳ２０８）。次に、Ｆ０生成部２６０は、言語情報および継続時間長に基づいて、ピッチの基本周波数（Ｆ０）を生成する（ステップＳ２１０）。次に、駆動信号生成部２７０は、駆動信号を生成する（ステップＳ２１２）。次に、合成フィルタ２８０により合成音声信号が生成され外部に出力されて（ステップＳ２１４）、音声合成処理が完了する。

このように、本実施の形態にかかる音声合成装置２００は、学習モデル生成装置１００により生成された、ＤＣＴ係数で表現されたスペクトルモデルを利用して音声合成を行うので、滑らかに変化する自然なスペクトルを生成することができる。

図９は、学習モデル生成装置１００のハードウェア構成を示す図である。学習モデル生成装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１と、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１３と、記憶部１４と、表示部１５と、操作部１６と、通信部１７とを備え、各部はバス１８を介して接続されている。

ＣＰＵ１１は、ＲＡＭ１３を作業領域として、ＲＯＭ１２又は記憶部１４に記憶されたプログラムとの協働により各種処理を実行し、学習モデル生成装置１００の動作を統括的に制御する。また、ＣＰＵ１１は、ＲＯＭ１２又は記憶部１４に記憶されたプログラムとの協働により、上述の各機能部を実現させる。

ＲＯＭ１２は、学習モデル生成装置１００の制御にかかるプログラムや各種設定情報などを書き換え不可能に記憶する。ＲＡＭ１３は、ＳＤＲＡＭやＤＤＲメモリなどの揮発性メモリであって、ＣＰＵ１１の作業エリアとして機能する。

記憶部１４は、磁気的又は光学的に記録可能な記憶媒体を有し、学習モデル生成装置１００の制御にかかるプログラムや各種情報を書き換え可能に記憶する。また、記憶部１４は、上述のモデル学習部１６０により生成されるスペクトルモデルなどを記憶する。表示部１５は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）などの表示デバイスから構成され、ＣＰＵ１１の制御の下、文字や画像などを表示する。操作部１６は、マウスやキーボードなどの入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、ＣＰＵ１１に出力する。通信部１７は、外部装置との間で通信を行うインターフェイスであって、外部装置から受信した各種情報をＣＰＵ１１に出力する。また、通信部１７は、ＣＰＵ１１の制御の下、各種情報を外部装置に送信する。なお、音声合成装置２００のハードウェア構成は、学習モデル生成装置１００のハードウェア構成と同様である。

本実施の形態にかかる学習モデル生成装置１００および音声合成装置２００において実行される学習モデル生成プログラムおよび音声合成プログラムは、ＲＯＭ等に予め組み込まれて提供される。

本実施の形態の学習モデル生成装置１００および音声合成装置２００で実行される学習モデル生成プログラムおよび音声合成プログラムプログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。

さらに、本実施の形態の学習モデル生成装置１００および音声合成装置２００で実行される学習モデル生成プログラムおよび音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の学習モデル生成装置１００および音声合成装置２００で実行される学習モデル生成プログラムおよび音声合成プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。

本実施の形態の学習モデル生成装置１００および音声合成装置２００で実行される学習モデル生成プログラムおよび音声合成プログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ（プロセッサ）が上記ＲＯＭから学習モデル生成プログラムおよび音声合成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。

１００学習モデル生成装置
１２０スペクトル分析部
１３０分割部
１４０パラメータ化部
１５０クラスタリング部
１６０モデル学習部

Claims

テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析部と、
前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割部と、
対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化部と、
複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部と、
同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部と
を備えることを特徴とする音声モデル生成装置。
前記モデル学習部は、前記対象区間、前記対象区間の直前および直後の前記言語区間により、前記対象区間を複数のクラスターにクラスタリングすることを特徴とする請求項１に記載の音声モデル生成装置。
音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部と、
音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択部と、
前記選択部により選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成部と
を備えることを特徴とする音声合成装置。
前記生成部は、前記選択部により選択された前記スペクトルモデルの目的関数を生成し、前記目的関数を最大化することにより、前記言語区間に対するスペクトルパラメータを生成することを特徴とする請求項３に記載の音声合成装置。
音声モデル生成処理をコンピュータに実行させるための音声モデル生成プログラムであって、
前記コンピュータを、
テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析部と、
前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割部と、
対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化部と、
複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部と、
同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部と
して機能させるためのプログラム。
音声合成処理をコンピュータに実行させるための音声合成プログラムであって、
前記コンピュータを、
音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部と、
前記音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択部と、
前記選択部により選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成部と
して機能させるためのプログラム。
テキスト解析部が、テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析ステップと、
スペクトル分析部が、前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析ステップと、
分割部が、前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割ステップと、
パラメータ化部が、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化ステップと、
クラスタリング部が、複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリングステップと、
モデル学習部が、同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習する学習ステップと
を有することを特徴とする音声モデル生成方法。
テキスト解析部が、音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析ステップと、
選択部が、音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部を参照するステップと、
選択部が、前記音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択ステップと、
生成部が、前記選択ステップで選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成ステップと
を有することを特徴とする音声合成方法。