JP4533255B2

JP4533255B2 - 音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体

Info

Publication number: JP4533255B2
Application number: JP2005186454A
Authority: JP
Inventors: 光昭磯貝; 秀之水野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-06-27
Filing date: 2005-06-27
Publication date: 2010-09-01
Anticipated expiration: 2025-06-27
Also published as: JP2007004011A

Description

本発明は、テキストを入力し、そのテキストに対応した音声を出力する音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体に関し、より詳しくは、音声波形データを選択して接続することで音声合成する波形接続型の音声合成技術に関する。

近年の音声合成技術では、数十分から数十時間の大量の肉声データから音声波形データベースを構成し、入力されたテキストに応じて、適切な基準で音声波形データベースから適切な長さの音声波形を選択し、それらを接続して合成音声を作成する波形接続型音声合成方法が提案されている（特許文献１参照）。

このような波形接続型音声合成方法における音声合成装置の構成例を図１に示す。
音声合成装置（１）は、ハードディスクなどの外部記憶装置（２）、テキスト解析部（１０）、韻律生成部（１１）、音声波形選択部（１２）、音声合成部（１３）から構成されている。

より詳細に叙述する。音声合成装置（１）は、テキストを入力とし、合成音声を出力する音声合成装置である。外部記憶装置（２）は、音声波形データベース（３）および音声情報データベース（４）を記憶している。音声波形データベース（３）は、単語や文章を読み上げた音声データに対して公知のＡ／Ｄ変換を行い、合成音声を組み立てる上で適切な合成単位（例えば音素）で切出したもの（音声波形素片としての音声波形データ）の集合であり、外部記憶装置（２）の記憶領域に格納される。

音声情報データベース（４）は、例えば図２のように、合成音声を組み立てる上で適切な単位（合成単位）を音素として、これに諸情報が対応付けられたエントリーからなるデータ構造（テーブル）となっており、外部記憶装置（２）の記憶領域に格納される。図２に示す音声情報データベース（４）の各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高の時間推移を表したＦ_０パターン情報、音声波形データベース（３）の中での音声波形データの位置を示す情報（以下、音声波形データ位置情報という。）から構成される。
音声情報データベース（４）のエントリーと音声波形データベース（３）における（音声波形素片としての）各音声波形データとは、音声情報データベース（４）における音声波形データ位置情報によって対応付けられる。
各エントリーのＦ_０パターン微細情報は、肉声の有するＦ_０パターンの微細変動をそのまま保持したＦ_０パターンを表している。

テキスト解析部（１０）は、入力されたテキストを形態素解析し、入力されたテキストに対応した音素列とアクセント型を出力する。

韻律生成部（１１）は、テキスト解析部（１０）が出力した情報を入力として、音素ごとの音声のＦ_０パターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)を推定し、これを出力する。ここで、「推定」とは、音声合成のために必要となる情報（Ｆ_０パターン、音素継続時間長、パワー情報）として、ある特定のものに決定することを意味する。

音声波形選択部（１２）は、テキスト解析部（１０）が出力した音素列の並びに従い、韻律生成部（１１）で出力した、音素ごとの音声のＦ_０パターン、音素継続時間長、パワー情報をターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ（最適音声波形素片列）を、音声情報データベース（４）から選択して、最適音声波形素片列の各音声波形素片番号（テキスト解析部（１０）が出力した音素列の並びに対応している。）を出力する。最適音声波形素片列の決定には動的計画法などを用いる。

音声合成部（１３）は、音声波形選択部（１２）で選択された最適音声波形素片列の各音声波形素片番号を入力として、この最適音声波形素片列の各音声波形素片番号に対応した音声波形データを（音声波形データ位置情報を参照して）音声波形データベース（３）から読み込み、それら音声波形データを順次接続して連続した音声を生成し、これを合成音声として出力する。
特許２７６１５５２号公報

音声波形データベースに格納された音声波形データは肉声である。肉声のＦ_０パターンは微細な変動をし、図３に示した模式図のように、特に子音部分（図３では/Ｒ/の部分に相当する。）においてＦ_０パターン（図３の符号１０１で示す。）が落ち込むような微細な構造を有することが多い。

一方、上記韻律生成部で求められるターゲットのＦ_０パターンは、肉声のＦ_０パターンにおける微細変動を反映したものではないため、音声波形選択部１２における音声波形素片の選択過程において、ターゲットのＦ_０パターン（肉声のＦ_０パターンにおける微細変動を反映したものではない。）と選択された音声波形素片のＦ_０パターン（肉声のＦ_０パターンにおける微細変動を反映している。）との間に不一致が生じうる。

そのためイントネーションの不自然さや音声波形素片間の接続箇所におけるＦ_０パターンのギャップ等に起因する音質劣化を引き起こし、聴感上適したイントネーションを有する合成音声が生成されないという問題があった。

この典型的な例を、模式図である図４および図５を参照して説明する。図４および図５において符号１０２はターゲットのＦ_０パターンである。ここでは図４に示すような、連続性のあるＦ_０パターンを有する音声波形素片（符号１０３ａ、１０３ｂ、１０３ｃ）が選択されるのが望ましい。なぜなら、接続ギャップが無く滑らか、かつ、肉声に則した微細な構造を有するＦ_０パターンを再現した、自然なイントネーションを有する音声が合成可能だと考えられるからである。しかしながら、従来的な音声合成手法によると、ターゲットのＦ_０パターンは、肉声のＦ_０パターンにおける微細変動を反映したものではないため、子音部分での（肉声の）Ｆ_０パターンとの距離が大きくなるため、図５に示すような、Ｆ_０パターンの歪みが小さい反面、Ｆ_０パターンが不連続な音声波形素片（符号１０４ａ、１０４ｂ、１０４ｃ）が選択されてしまう。

上記の問題に鑑みて、本発明は、自然なイントネーションを有する合成音声を得る波形接続型の音声合成装置、音声合成方法、音声合成プログラムおよびその記録媒体を提供することを目的とする。

上記課題を解決するために、本発明は、音声波形データを集めた音声波形データベースおよび、音声のＦ_０パターン情報（肉声のＦ_０パターンの微細変動を保持したＦ_０パターン微細情報と、Ｆ_０パターン微細情報における微細変動部分を補正したＦ_０パターン概形情報とから構成される。）を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶手段に記憶しておき、入力されたテキストを解析して音韻系列を生成し、この音韻系列から合成単位ごとの音声のＦ_０パターン情報を含む韻律情報Ａを生成し、次いで、音韻系列に従って、韻律情報Ａと音声情報データベースにおけるエントリーの韻律情報Ｂとの距離尺度（コスト）を演算し（韻律情報ＡにおけるＦ_０パターン情報と、韻律情報ＢにおけるＦ_０パターン概形情報とのコストの演算を含む。）、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択し、この選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成するものとする。

また、予めＦ_０パターン概形情報を生成しておくのではなく、テキストから合成音声を生成する音声合成処理のたびに、Ｆ_０パターン概形情報を生成するようにしてもよい。

さらには、韻律情報Ａと韻律情報Ｂとのコストに加え、各エントリー間のコストを演算し（各エントリー間のコストの演算には、少なくとも各エントリーにおけるＦ_０パターン微細情報間のコストの演算を含む。）、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するとしてもよい。

本発明の音声合成装置をコンピュータ上で機能させる音声合成プログラムによって、コンピュータを音声合成装置として作動処理させることができる。そして、この音声合成プログラムを記録した、コンピュータ読み取り可能なプログラム記録媒体によって、他のコンピュータを音声合成装置として機能させることや、音声合成プログラムを流通させることなどが可能になる。

本発明によれば、テキスト解析で得られた音韻系列から生成された韻律情報Ａと音声情報データベースにおけるエントリーの韻律情報Ｂとの距離尺度（コスト）の演算において、韻律情報ＡにおけるＦ_０パターン情報と、韻律情報ＢにおけるＦ_０パターン概形情報とのコストの演算を含むことによって、ターゲットのＦ_０パターンと選択される音声波形素片のＦ_０パターンとの間のＦ_０パターン形状のミスマッチを避けることができるので、イントネーション、特にアクセント型の不自然さに起因する音質劣化が低減された、自然なイントネーションを有する合成音声を得ることが可能となる。

また、韻律情報Ａと韻律情報Ｂとのコストに加え、各エントリー間のコストを演算し、この各エントリー間のコストの演算において、各エントリーにおけるＦ_０パターン微細情報間のコストの演算を含めることで、音声波形素片間の接続箇所のＦ_０ギャップを避けることができるため、Ｆ_０パターンの不連続に起因する音質劣化が低減された、自然なイントネーションを有する合成音声を得ることが可能となる。

＜第１実施形態＞
以下、本発明である音声合成装置・方法等の第１実施形態を説明する。
図６は、第１実施形態に係わる音声合成装置のハードウェア構成を例示したハードウェア構成図である。
図７は、第１実施形態に係わる音声合成装置の機能構成を例示した機能構成図である。
図８は、第１実施形態に係わる音声合成の処理フローを示す図である。
図９は、第１実施形態に係わる音声情報データベースのデータ構成を示す図である。
図１０は、Ｆ_０パターン概形情報の生成方法の一例を示す図（その１）である。
図１１は、Ｆ_０パターン概形情報の生成方法の一例を示す図（その２）である。
図１２は、Ｆ_０パターン概形情報の生成方法の一例を示す図（その３）である。

図６に例示するように、音声合成装置（５００）は、キーボードなどが接続可能な入力部（５１）、液晶ディスプレイなどが接続可能な出力部（５２）、音声合成装置（５００）外部に通信可能な通信装置（例えば通信ケーブル）が接続可能な通信部（５３）、ＣＰＵ（Central Processing Unit）（５４）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（５５）、ＲＯＭ（５６）やハードディスクである外部記憶装置（５７）並びにこれらの入力部（５１）、出力部（５２）、通信部（５３）、ＣＰＵ（５４）、ＲＡＭ（５５）、ＲＯＭ（５６）、外部記憶装置（５７）間のデータのやり取りが可能なように接続するバス（５８）を有している。また必要に応じて、音声合成装置（５００）に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。

音声合成装置（５００）に入力されるテキストは、入力部（５１）から入力されるものとしてもよいが、この実施形態では、予めテキストが外部記憶装置（５７）に記憶されているものとする。また、本発明においてテキストの種類などに格別の限定はなく、この実施形態では、漢字かな混合の日本語テキストとする。

音声合成装置（５００）の外部記憶装置（５７）には、音声合成のためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭや外部記憶装置などに適宜に保存記憶される。

より具体的に説明すると、外部記憶装置（５７）の所定の記憶領域には、プログラムの処理において必要となるデータとして、合成単位（この実施形態では音素とする。その他、例えば音声のピッチやＣＶ音節などを単位とすることも可能である。）ごとの音声波形データを集めた音声波形データベース（５７１）および、音素ごとの音声のＦ_０パターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベース（５７２）が記憶されている。

音声波形データベース（５７１）における（音声波形素片としての）音声波形データは、単語や文章を読み上げた肉声の音声データに対して公知のＡ／Ｄ変換を行い、適宜に窓関数をかけることなどによって音素単位で切出したものである。

音声情報データベース（５７２）は、例えば図９のように、音素を単位として諸情報が対応付けられたエントリーからなるデータ構造（テーブル）となっている。図９に示す音声情報データベース（５７２）における各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、当該音素区間の平均パワーを正規化して得たパワー情報、音素の音高（周波数）の時間推移を表したＦ_０パターン情報、音声波形データベース（５７１）の中での音声波形データの位置を示す情報（以下、音声波形データ位置情報という。）から構成されている。音声情報データベース（５７２）のエントリーと音声波形データベース（５７１）における（音声波形素片としての）各音声波形データとは、音声情報データベース（５７２）における音声波形データ位置情報によって対応付けられる。

音声情報データベース（５７２）における各エントリーのＦ_０パターン情報は、Ｆ_０パターン微細情報およびＦ_０パターン概形情報から構成される。Ｆ_０パターン微細情報は、肉声の有するＦ_０パターンの微細変動をそのまま保持したＦ_０パターンを表す。一方、Ｆ_０パターン概形情報は、Ｆ_０パターン微細情報におけるＦ_０パターンの微細変動部分を補正したＦ_０パターンを表す。

ここで、Ｆ_０パターン概形情報の生成方法の一例を図１０、１１、１２を参照して説明する。Ｆ_０パターン概形情報は、Ｆ_０パターン微細情報におけるＦ_０パターンの微細変動部分を補正して生成するが、より具体的には、Ｆ_０パターン微細情報におけるＦ_０パターンの子音に関わるＦ_０パターンの微細変動部分を補正することによって生成する。

以下に、一例として、子音区間（ここでは/Ｒ/の区間）のＦ_０パターンの変微細動を除去することによって、Ｆ_０パターン概形情報におけるＦ_０パターンを得る処理について説明する。図１０の符号２０１は、ある音声の音素/Ａ//Ｒ//Ｕ/のＦ_０パターンを示している。

まず、子音区間の両側の各母音区間（ここでは/Ａ/および/Ｕ/の区間）内で最も高いＦ_０パターンの値を示すピーク点を求める。このピーク点は、エントリーにおけるＦ_０パターン微細情報および音素継続時間長を参照することによって求めることができる。図１１において、/Ａ/の区間では符号２０２に示す点が、/Ｕ/の区間では符号２０３に示す点が、各母音区間で最も高いＦ_０パターンの値のピーク点である。

次に、各母音区間で求めたピーク点とピーク点との間の直線補間を行う。この例では、図１１の符号２０４に示す破線が、直線補間を行うことによって得られるＦ_０パターンを示している。なお、補正方法を直線補間としたが、これに限定することなく、例えばスプライン補間などによって補正するものでもよい。以上の処理によって、図１２に示すようなＦ_０パターン（符号２０５ａ、２０５ｂ、２０５ｃ）を得ることができる。ここで得られたＦ_０パターン（符号２０５ａ、２０５ｂ、２０５ｃ）が、それぞれの音素のＦ_０パターン概形情報である。

なお、以上の説明からも明らかなとおり、補正されるＦ_０パターンは、子音部分のＦ_０パターンだけなのではなく、母音部分のＦ_０パターンの一部（上記例で云えば、/Ａ/のピーク点から終点にかけてのＦ_０パターン部分、/Ｕ/の始点からピーク点にかけてのＦ_０パターン部分）も補正される場合があることに留意しなければならない。

また、音声合成装置（１）の外部記憶装置（５７）には、入力されたテキストを解析して音韻系列を生成するテキスト解析部を実現するためのプログラム、音韻系列から、少なくとも音素ごとの音声のＦ_０パターン情報を含む韻律情報を生成する韻律生成部を実現するためのプログラム、韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから順次選択する音声波形選択部を実現するためのプログラム、順次選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成部を実現するためのプログラムなどが保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。

第１実施形態に係る音声合成装置（５００）では、外部記憶装置（５７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（５５）に読み込まれて、ＣＰＵ（５４）で解釈実行・処理される。その結果、ＣＰＵ（５４）が所定の機能（テキスト解析部、韻律生成部、音声波形選択部、音声合成部）を実現することで、音声合成が実現される。

そこで次に、図７、図８を参照して、音声合成装置（５００）における音声合成の流れを順次説明する。
第１実施形態の音声合成装置（５００）は、テキスト解析部（５４１）、韻律生成部（５４２）、音声波形選択部（５４３）、音声合成部（５４４）から構成される（図７参照）。

まず、テキスト解析部（５４１）は、外部記憶装置（５７）に記憶されるテキストを読み込み、この読み込んだテキストを形態素解析して、テキストに対応した音素列、アクセント型、呼気段落（フレーズ）位置などを表す音韻系列を出力する（ステップＳ１）。

形態素解析の概要について説明すると、テキスト解析部（５４１）は、単語モデル、漢字かな変換モデル、かな音素変換モデルなど（これらも必要に応じて外部記憶装置（５７）に記憶しておく。）を参照して、テキストを音素列に変換する。また、テキストが日本語の場合、複数の単語が集まって文節などを構成すると、アクセントが移動・消失するなどの現象が起こるので、予めこれらの規則（アクセント結合規則）をデータとして例えば外部記憶装置（５７）に記憶しておき、テキスト解析部（５４１）は、このアクセント結合規則に従って、テキストのアクセント型を決定する。さらに、テキストが日本語の場合、意味的ないし文法的なまとまり毎にアクセントが１つ付く特徴的傾向があるので、予めこれらの規則（フレーズ規則）をデータとして例えば外部記憶装置（５７）に記憶しておき、テキスト解析部（５４１）は、このフレーズ規則に従って、アクセントの１つ付いたまとまりがいくつか接続したものを呼気段落として決定する。
なお、ここで説明した形態素解析の概要は、形態素解析の一例であって、その他の形態素解析手法を排除する趣旨のものではない。本発明の音声合成装置・方法では、種々の形態素解析を用いることができるが、これらは公知技術によって達成されるので、その詳細を省略する。

韻律生成部（５４２）は、テキスト解析部（５４１）が出力した情報（音韻系列）を入力として、音素ごとの音声のＦ_０パターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)を推定し、これを出力する（ステップＳ２）。音素継続時間長およびパワー情報は、予め規則化された、呼気段落内における音素の位置、発声速度、当該音素の前後の音素環境などに従って適宜に設定する。また、Ｆ_０パターンについては、いわゆる藤崎モデルなどによって求める。なお、「推定」とは既述のとおり、音声合成のために必要となる情報（Ｆ_０パターン、音素継続時間長、パワー情報）として、ある特定のものに決定することを意味する。本発明の音声合成装置・方法では、韻律情報の生成には、公知の韻律情報生成手法を用いることができるので、その詳細を省略する。

音声波形選択部（５４３）は、テキスト解析部（５４１）が出力した音素列の並び順に従って、韻律生成部（５４２）によって出力された、音素ごとの音声のＦ_０パターン、音素継続時間長、パワー情報をターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片同士を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ（最適音声波形素片列）を、音声情報データベース（５７２）から選択し、最適音声波形素片列の各音声波形番号（テキスト解析部（５４１）が出力した音素列の並び順に対応している。）を出力する（ステップＳ３）。以下、歪みから定義される距離尺度をコストと呼ぶ。コスト最小の最適音声波形素片列の決定には動的計画法などを用いる。

音声波形選択部（５４３）における最適音声波形素片列の選択について、更に詳細を説明する。ここでは、音素単位で最適音声波形素片列の選択をする場合について説明する。また、音声波形選択部（５４３）には、テキスト解析部（５４１）によって出力された（テキストに対する）音素列全てではなく、１つの呼気段落に対応する音素列ごとに入力していくとする。これは、ある呼気段落の終点音素と、この呼気段落に接続する次の呼気段落の始点音素との間の接続を考えなくてよいからである。勿論、テキストの長さなどによっては、テキスト解析部（５４１）によって出力された（テキストに対する）音素列全てを、音声波形選択部（５４３）の入力としてもよい。

以下、音声波形選択部（５４３）に入力される音素列（以下、これをターゲット音素列と呼ぶ。）のうち、ｉ番目のターゲット音素をｔ_ｉと表し、音声情報データベース（５７２）から読み込んだエントリーの音声波形素片列（以下、これを候補素片列と呼ぶ。）のうち、ｉ番目の候補素片をｕ_ｉと表す。なお、音声情報データベース（５７２）から読み込む候補素片ｕ_ｉは、音声情報データベース（５７２）の音素ラベルの項目を参照して、ターゲット音素ｔ_ｉの音素と同じ音素を有するものとする。

音声波形選択部（５４３）は、１つの呼気段落全体で、前記ターゲット音素列と候補素片列との歪みおよび接続する候補素片同士での接続歪みが最小になるような候補素片の組み合わせ（最適候補素片列）を決定するために、音素ごとに、ターゲット音素ｔ_ｉと候補素片ｕ_ｉの歪みを表す距離尺度をコストＣ（ｔ_ｉ，ｕ_ｉ）として求める。

一例として、コストＣ（ｔ_ｉ，ｕ_ｉ）を、後述する各種サブコストの重みつき和として、Ｃ（ｔ_ｉ，ｕ_ｉ）＝Ｗｔｆ・Sｔｆ（ｔ_ｉ，ｕ_ｉ）＋Ｗｔｄｕｒ・Ｓｔｄｕｒ（ｔ_ｉ，ｕ_ｉ）＋Ｗｔｐｏｗ・Ｓｔｐｏｗ（ｔ_ｉ，ｕ_ｉ）＋Ｗｃｆ・Ｓｃｆ（ｕ_ｉ−１，ｕ_ｉ）＋Ｗｃｐｏｗ・Ｓｃｐｏｗ（ｕ_ｉ−１，ｕ_ｉ）＋Ｗｃｅｎｖ・Ｓｃｅｎｖ（ｕ_ｉ−１，ｕ_ｉ）・・・（１）と定義する。

Ｓｔｆ（ｔ_ｉ，ｕ_ｉ）はターゲット音素ｔ_ｉのＦ_０パターンおよび候補素片ｕ_ｉのＦ_０パターン概形情報におけるＦ_０パターン間の歪みを表し、ｔ_ｉのＦ_０パターンをＦｔ（ｔ_ｉ）、ｕ_ｉの（Ｆ_０パターン概形情報における）Ｆ_０パターンをＦｕ（ｕ_ｉ）としたとき、Ｆｔ（ｔ_ｉ）とＦｕ（ｕ_ｉ）の差の二乗Ｓｔｆ（ｔ_ｉ，ｕ_ｉ）＝｛Ｆｔ（ｔ_ｉ）−Ｆｕ（ｕ_ｉ）｝^２とする。以下これを、ターゲットＦ_０サブコストと呼ぶ。
なお、従来においては、Ｆｕ（ｕ_ｉ）は、ｕ_ｉのＦ_０パターン微細情報におけるＦ_０パターンであり、本発明では、ｕ_ｉのＦ_０パターン概形情報におけるＦ_０パターンであることに留意する。

Ｓｔｄｕｒ（ｔ_ｉ，ｕ_ｉ）はターゲット音素ｔ_ｉと候補素片ｕ_ｉの間での継続時間長の歪みを表し、ｔ_ｉの継続時間長をＤＵＲｔ（ｔ_ｉ）、ｕ_ｉの継続時間長をＤＵＲｕ（ｕ_ｉ）としたとき、ＤＵＲｔ（ｔ_ｉ）とＤＵＲｕ（ｕ_ｉ）の差の二乗Ｓｔｄｕｒ（ｔ_ｉ，ｕ_ｉ）＝｛ＤＵＲｔ（ｔ_ｉ）−ＤＵＲｕ（ｕ_ｉ）｝^２とする。以下これを、ターゲット継続時間長サブコストと呼ぶ。

Ｓｔｐｏｗ（ｔ_ｉ，ｕ_ｉ）はターゲット音素ｔ_ｉと候補素片ｕ_ｉの間でのパワーの歪みを表し、ｔ_ｉのパワーをＰＯＷｔ（ｔ_ｉ）、ｕ_ｉのパワーをＰＯＷｕ（ｕ_ｉ)としたとき、ＰＯＷｔ（ｔ_ｉ）とＰＯＷｕ（ｕ_ｉ）の差の二乗Ｓｔｐｏｗ（ｔ_ｉ，ｕ_ｉ）＝｛ＰＯＷｔ（ｔ_ｉ）−ＰＯＷｕ（ｕ_ｉ）｝^２とする。以下これを、ターゲットパワーサブコストと呼ぶ。

Ｓｃｆ（ｕ_ｉ−１，ｕ_ｉ）は候補素片ｕ_ｉと先行する候補素片ｕ_ｉ−１との接続点での（それぞれＦ_０パターン微細情報における）Ｆ_０パターンの歪みを表し、ｕ_ｉの始点のＦ_０パターンの値をＦＳｕ（ｕ_ｉ）、ｕ_ｉ−１の終点のＦ_０パターンの値をＦＥｕ（ｕ_ｉ−１）としたとき、ＦＳｕ（ｕ_ｉ）とＦＥｕ（ｕ_ｉ−１）の差の二乗Ｓｃｆ（ｕ_ｉ−１，ｕ_ｉ）＝｛ＦＳｕ（ｕ_ｉ）−ＦＥｕ（ｕ_ｉ−１）｝^２とする。以下これを、接続Ｆ_０サブコストと呼ぶ。
なお、この接続Ｆ_０サブコストにおけるＦ_０パターンは、Ｆ_０パターン微細情報におけるＦ_０パターンであることに留意する。

Ｓｃｐｏｗ（ｕ_ｉ−１，ｕ_ｉ）は候補素片ｕ_ｉと、先行する候補素片ｕ_ｉ−１の接続点でのパワーの歪みを表し、ｕ_ｉの始点のパワーをＰＯＷＳｕ（ｕ_ｉ）、ｕ_ｉ−１の終点のパワーをＰＯＷＥｕ（ｕ_ｉ−１）としたとき、ＰＯＷＳｕ（ｕ_ｉ）とＰＯＷＥｕ（ｕ_ｉ−１）の差の二乗Ｓｃｐｏｗ（ｕ_ｉ−１，ｕ_ｉ）＝｛ＰＯＷＳｕ（ｕｉ）−ＰＯＷＥｕ（ｕ_ｉ−１）｝^２とする。以下これを、接続パワーサブコストと呼ぶ。

Ｓｃｅｎｖ（ｕ_ｉ−１，ｕ_ｉ）は候補素片ｕ_ｉと、先行する候補素片ｕ_ｉ−１の音素環境の違いを表し、ｕ_ｉの先行音素とｕ_ｉ−１の後続音素との音響的類似度（例えばスペクトルの類似度）から定義される。以下これを、接続音素環境サブコストと呼ぶ。例えば、ｕ_ｉの先行音素とｕ_ｉ−１の後続音素とが一致すれば、Ｓｃｅｎｖ（ｕ_ｉ−１，ｕ_ｉ）＝０である。例えば、これらの値は音響的類似度データベースとして予め規則化しておき、必要に応じて、この音響的類似度データベースから、ｕ_ｉの先行音素とｕ_ｉ−１の後続音素との音響的類似度に対応した値を読み込むようにしておく。

また、ＷｔｆはＳｔｆ（ｔ_ｉ，ｕ_ｉ）に対する重み、ＷｔｄｕｒはＳｔｄｕｒ（ｔ_ｉ，ｕ_ｉ）に対する重み、ＷｔｐｏｗはＳｔｐｏｗ（ｔ_ｉ，ｕ_ｉ）に対する重み、ＷｃｆはＳｃｆ（ｕ_ｉ−１，ｕ_ｉ）に対する重み、ＷｃｐｏｗはＳｃｐｏｗ（ｕ_ｉ−１，ｕ_ｉ）に対する重み、ＷｃｅｎｖはＳｃｅｎｖ（ｕ_ｉ−１，ｕ_ｉ）に対する重みである。

上記各サブコストのうち、Ｓｔｆ（ｔ_ｉ，ｕ_ｉ）、Ｓｔｄｕｒ（ｔ_ｉ，ｕ_ｉ）、Ｓｔｐｏｗ（ｔ_ｉ，ｕ_ｉ）が、韻律生成部（５４２）で求めたターゲット情報（Ｆ_０パターン、音素継続時間長、パワー情報）と、候補素片ｕ_ｉの有するＦ_０パターン、音素継続時間長、パワー情報との差から求められるサブコストである。

また、Ｓｃｆ（ｕ_ｉ−１，ｕ_ｉ）、Ｓｃｐｏｗ（ｕ_ｉ−１，ｕ_ｉ）、Ｓｃｅｎｖ（ｕ_ｉ−１，ｕ_ｉ）が、候補素片間でのＦ_０パターン、パワー情報、音素環境の違いから求められるサブコストである。

上記各サブコストの計算に必要な候補素片ｕ_ｉのＦ_０パターン、継続時間長、パワー情報は、音声情報データベース（５７２）から得ることができる。そして、１つの呼気段落全体の音素列に対するコストＣを式（２）によって求める。ここで、Ｎは１つの呼気段落の音素数を表す。

音声波形選択部（５４３）は、Ｃが最小となる最適候補素片列を動的計画法などの手法により求めることで、１つの呼気段落のターゲットに対して最適な音声波形素片列を選択し、この最適な音声波形素片列の各音声波形素片番号（音声波形選択部（５４３）に入力される音素列の並び順に対応している。）を得る。そして、音声波形選択部（５４３）は、全ての呼気段落（即ち、テキストに対する全ての音素列）について同様の処理を行い、全ての音素列に対応する最適な音声波形素片列（最適音声波形素片列）の各音声波形素片番号を出力する。

音声合成部（５４４）は、音声波形選択部（５４３）で選択された最適音声波形素片列の音声波形素片番号列を入力として、この各番号に対応した音声波形データを（各番号で特定されるエントリーの音声波形データ位置情報を参照して）音声波形データベース（５７１）から読み込み、それら音声波形データを順次接続して連続した音声を生成し、これを合成音声として出力する（ステップＳ）。音声合成部（５４４）における音声合成方法は、例えば波形重畳法などの公知技術によって実現される。

音声波形選択部（５４３）によるコスト演算のターゲットＦ_０サブコストに、候補素片のＦ_０パターン概形情報におけるＦ_０パターンを用いることによって、図１３および図１４の模式図に示すように、ターゲットのＦ_０パターン（図１３の符号３０１）に近いＦ_０パターン概形情報におけるＦ_０パターン（図１４の符号３０２ａ、３０２ｂ、３０２ｃ）を有する音声波形素片が選択されやすくなる。

また、この実施形態のように、サブコストに応じてＦ_０パターン情報の種別を使い分ける（つまり、ターゲットＦ_０サブコストにはＦ_０パターン概形情報におけるＦ_０パターンを用い、接続Ｆ_０サブコストにはＦ_０パターン微細情報のＦ_０パターンを用いる。）ことの利点を、図１５および図１６を用いて説明する。図１５と図１６は、それぞれ、同一のターゲットのＦ_０パターンに対する音声波形素片の候補を表示したものである。また、図１５、図１６共に、４０１はターゲットのＦ_０パターンを示す。

図１５において符号４０２ａ、４０２ｂ、４０２ｃは、ある音声波形素片のＦ_０パターン微細情報におけるＦ_０パターンであり、符号４０３ａ、４０３ｂ、４０３ｃは、それぞれ、符号４０２ａ、４０２ｂ、４０２ｃのＦ_０パターン概形情報におけるＦ_０パターンである。また、図１６において符号４０４ａ、４０４ｂ、４０４ｃはある音声波形素片のＦ_０パターン微細情報におけるＦ_０パターンであり、符号４０５ａ、４０５ｂ、４０５ｃは、それぞれ、符号４０４ａ、４０４ｂ、４０４ｃのＦ_０パターン概形情報におけるＦ_０パターンである。

接続Ｆ_０サブコストにＦ_０パターン微細情報におけるＦ_０パターンを用いた場合は、符号４０２ａ、４０２ｂ、４０２ｃ、４０４ａ、４０４ｂ、４０４ｃに示すＦ_０パターンがサブコストの計算に用いられる。一方、接続Ｆ_０サブコストにＦ_０パターン概形情報におけるＦ_０パターンを用いた場合は、符号４０３ａ、４０３ｂ、４０３ｃ、４０５ａ、４０５ｂ、４０５ｃに示すＦ_０パターンがサブコストの演算に用いられることになる。

この例ではＦ_０パターン概形情報におけるＦ_０パターンを用いて接続Ｆ_０サブコストを求めた場合（図１５では符号４０３ａと符号４０３ｂとの接続点、および、符号４０３ｂと符号４０３ｃとの接続点。図１６では符号４０５ａと符号４０５ｂとの接続点、および、符号４０５ｂと符号４０５ｃとの接続点。）、図１５、図１６からわかるように、その値は同程度であるが、/Ｕ/部分のターゲットに対するＦ_０パターンの歪みは図１５に示した音声波形素片の方が小さいため、図１５に示したＦ_０パターン（符号４０３ａ、４０３ｂ、４０３ｃ）の音声波形素片が選択されてしまう可能性が高い。

そうすると、音声合成部は、符号４０３ａ、４０３ｂ、４０３ｃのＦ_０パターン（これは、Ｆ_０パターン概形情報におけるＦ_０パターンである。）をＦ_０パターン情報に有するエントリーに対応した音声波形データを読み込んで接続することになる。ところが、これら音声波形データは、符号４０２ａ、４０２ｂ、４０２ｃのＦ_０パターン（これは、Ｆ_０パターン微細情報におけるＦ_０パターンである。）に対応した性質を有するところ、/Ａ/および/Ｒ/の音素の間で著しい接続歪みが有り、このような音声波形データで合成された合成音声は、滑らかさを失った不自然なものとなってしまう。つまり、この場合、図１６に示した音声波形素片を選択した方が肉声のＦ_０パターンの接続点での差が小さいため、合成音声の品質（聴感上の滑らかさや自然さ）が高くなると考えられる。

従って、合成音声の聴感上の滑らかさや自然さを失わないようにするために、接続Ｆ_０サブコストには、Ｆ_０パターン微細情報におけるＦ_０パターンを用いることとするのである。

＜第２実施形態＞
第１実施形態では、Ｆ_０パターン概形情報は、予め音声情報データベース（５７２）の構成要素として記憶されているとした。これに対し、第２実施形態では、外部記憶装置の記憶容量を節約するなどの観点から、予めＦ_０パターン概形情報を生成しておくのではなく、テキストから合成音声を生成する音声合成処理のたびにＦ_０パターン概形情報を生成する。
第１実施形態と同じ機能・処理については同一の符号を当てて説明を省略し、第１実施形態と異なる点についてのみ説明を加える。

第２実施形態の音声情報データベース（６７２）における各エントリーのＦ_０パターン情報は、第１実施形態で説明したＦ_０パターン微細情報である。第２実施形態においては、第１実施形態で説明したＦ_０パターン概形情報は、各エントリーのＦ_０パターン情報の構成要素となっていない。即ち、第２実施形態の音声情報データベース（６７２）は、図２に示すようなデータ構成になっている。

第２実施形態に係わる音声合成装置（６００）の外部記憶装置（５７）には、第１実施形態で説明したプログラムに加え、各エントリーのＦ_０パターン微細情報におけるＦ_０パターンから、Ｆ_０パターン概形情報を得るためのプログラムも保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。

音声合成装置（６００）では、外部記憶装置（５７）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（５５）に読み込まれて、ＣＰＵ（５４）で解釈実行・処理される。その結果、ＣＰＵ（５４）が所定の機能（テキスト解析部、韻律生成部、概形情報生成部、音声波形選択部、音声合成部）を実現することで、音声合成が実現される。

そこで次に、図１７〜図１９を参照して、音声合成装置（６００）における音声合成の流れを順次説明する。
図１７は、第２実施形態に係わる音声合成装置の機能構成を例示した機能構成図である。
図１８は、第２実施形態に係わる音声合成の処理フローを示す図である。
図１９は、Ｆ_０パターン概形情報を生成する処理フローを示す図である。

第１実施形態の音声合成装置（６００）は、テキスト解析部（５４１）、韻律生成部（５４２）、概形情報生成部（６４５）、音声波形選択部（５４３）、音声合成部（５４４）から構成される（図１７参照）。

ステップＳ１およびステップＳ２の処理は第１実施形態と同様であるから説明を省略する。

ステップＳ２の処理の後、概形情報生成部（６４５）が、音声情報データベース（６７２）のエントリーのＦ_０パターン情報（Ｆ_０パターン微細情報）を読み込んで、このＦ_０パターン微細情報からＦ_０パターン概形情報を生成する（ステップＳ２ａ）。Ｆ_０パターン概形情報の生成は、第１実施形態において説明したとおりであるから、それに即して説明する（図１０、図１１、図１２参照）。

Ｆ_０パターン概形情報は、Ｆ_０パターン微細情報におけるＦ_０パターンの微細変動部分を補正して生成するが、より具体的には、Ｆ_０パターン微細情報におけるＦ_０パターンの子音に関わるＦ_０パターンの微細変動部分を補正することによって生成する。そこで一例として、子音区間（/Ｒ/の区間）のＦ_０パターンの変微細動を除去することによって、Ｆ_０パターン概形情報におけるＦ_０パターンを得る処理について説明する。

まず、子音区間（/Ｒ/の区間）の両側の各母音区間（/Ａ/および/Ｕ/の区間）内で最も高いＦ_０パターンの値を示すピーク点を求める（ステップＳ２ａ１）。このピーク点は、エントリーにおけるＦ_０パターン微細情報および音素継続時間長を参照することによって求めることができる。図１１において、/Ａ/の区間では符号２０２に示す点が、/Ｕ/の区間では符号２０３に示す点が、各母音区間で最も高いＦ_０パターンの値のピーク点である。

次に、求めた各母音区間それぞれのピーク点間の直線補間を行う（ステップＳ２ａ２）。なお、補正方法は直線補間に限定することなく、例えばスプライン補間などによって補正するものでもよい。図１１における符号２０４の破線は、各母音区間それぞれのピーク点間で、直線補間を行うことで得られるＦ_０パターンを示している。以上の処理によって、図１２に示すようなＦ_０パターン（符号２０５ａ、２０５ｂ、２０５ｃ）を得ることができる。ここで得られたＦ_０パターン（符号２０５ａ、２０５ｂ、２０５ｃ）が、それぞれの音素のＦ_０パターン概形情報である。

なお、以上の説明からも明らかなとおり、補正される（Ｆ_０パターン微細情報における）Ｆ_０パターンは、子音部分のＦ_０パターンだけなのではなく、母音部分のＦ_０パターンの一部（上記例で云えば、/Ａ/のピーク点から終点にかけてのＦ_０パターン部分、/Ｕ/の始点からピーク点にかけてのＦ_０パターン部分）も補正される場合があることに留意しなければならない。

概形情報生成部（６４５）は、生成したＦ_０パターン概形情報を、該当する音素のエントリーのＦ_０パターン情報に追加して記憶する（ステップＳ２ａ３）。
つまりこの時点で、エントリーのＦ_０パターン情報には、Ｆ_０パターン微細情報およびＦ_０パターン概形情報が含まれることになる（図９参照）。

なお、全てのエントリーのＦ_０パターン情報（Ｆ_０パターン微細情報）を読み込み、各エントリーについてＦ_０パターン微細情報からＦ_０パターン概形情報を生成するのであっては冗漫の場合もある。そこで、概形情報生成部（６４５）は、テキスト解析部（５４１）によって生成された音素列に含まれる音素について、音声情報データベース（５７２）の音素ラベルの項目を参照して、そのエントリーのＦ_０パターン情報（Ｆ_０パターン微細情報）を読み込み、各音素についてＦ_０パターン概形情報を生成するようにしてもよい。

ステップＳ３およびステップＳ４の処理は第１実施形態と同様であるから説明を省略する。

本発明である音声合成装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。例えば、音声波形選択部によるコスト演算におけるサブコストとして、ターゲットのＦ_０パターンと候補素片のＦ_０パターンとの傾きの一致度を示すサブコストも導入し（式（１）の右辺に加算する。）、そのサブコストの計算にＦ_０パターン概形情報におけるＦ_０パターンを用いるようにしてもよい。また、上記音声合成装置・方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記音声合成装置における処理機能をコンピュータによって実現する場合、音声合成装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記音声合成装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、音声合成装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明の音声合成装置・方法は、テキスト音声変換に有用である。

従来的な音声合成装置の機能構成例を示す図。音声情報データベースの一例を示す図。Ｆ_０パターン微細情報の一例を示す図。音声波形素片選択結果のＦ_０パターンの一例を示す図。音声波形素片選択結果のＦ_０パターンの一例を示す図。第１実施形態に係わる音声合成装置のハードウェア構成を例示したハードウェア構成図。第１実施形態に係わる音声合成装置の機能構成を例示した機能構成図。第１実施形態に係わる音声合成の処理フローを示す図。第１実施形態に係わる音声情報データベースのデータ構成を示す図。Ｆ_０パターン概形情報の生成方法の一例を示す図（その１）。Ｆ_０パターン概形情報の生成方法の一例を示す図（その２）。Ｆ_０パターン概形情報の生成方法の一例を示す図（その３）。ターゲットのＦ_０パターンの一例を示す図。音声波形素片選択結果のＦ_０パターンの一例を示す図。ターゲットのＦ_０パターンと音声波形素片選択結果のＦ_０パターンとの関係を示す図（その１）。ターゲットのＦ_０パターンと音声波形素片選択結果のＦ_０パターンとの関係を示す図（その２）。第２実施形態に係わる音声合成装置の機能構成を例示した機能構成図。第２実施形態に係わる音声合成の処理フローを示す図。Ｆ_０パターン概形情報を生成する処理フローを示す図。

符号の説明

１０１音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
１０２ターゲットのＦ_０パターン
１０３ａ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
１０３ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
１０３ｃ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
１０４ａ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
１０４ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
１０４ｃ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
２０１音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
２０１Ｆ_０パターン概形情報の生成方法の一例における、母音区間内でＦ_０パターンの値が最も高いピーク点
２０３Ｆ_０パターン概形情報の生成方法の一例における、母音区間内でＦ_０パターンの値が最も高いピーク点
２０４Ｆ_０パターン概形情報の生成方法の一例における直線補間結果
２０５ａ生成された音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
２０５ｂ生成された音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
２０５ｃ生成された音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
３０１ターゲットのＦ_０パターン
３０２ａ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
３０２ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
３０２ｃ音声演形素片のＦ_０パターン（Ｆ_０パターン概形情報）
４０１ターゲットのＦ_０パターン
４０２ａ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
４０２ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
４０２ｃ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
４０３ａ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
４０３ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
４０３ｃ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
４０４ａ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
４０４ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
４０４ｃ音声波形素片のＦ_０パターン（Ｆ_０パターン微細情報）
４０５ａ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
４０５ｂ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
４０５ｃ音声波形素片のＦ_０パターン（Ｆ_０パターン概形情報）
５００音声合成装置
５４１テキスト解析部
５４２韻律生成部
５４３音声波形選択部
５４４音声合成部
５７１音声波形データベース
５７２音声情報データベース
６００音声合成装置
６４５概形情報生成部
６７２音声情報データベース

Claims

入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位（合成単位）で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成装置であって、
入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析手段と、
テキスト解析手段によって生成された音韻系列から、少なくとも合成単位ごとの音声のＦ_０パターン情報を含む韻律情報を生成する韻律生成手段と、
合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のＦ_０パターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶する記憶手段と、
テキスト解析手段によって生成された音韻系列に従い、少なくとも、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択手段と、
音声波形選択手段によって選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成手段と
を備え、
音声情報データベースのエントリーにおける合成単位ごとの音声のＦ_０パターン情報は、
肉声のＦ_０パターンの微細変動を保持したＦ_０パターン微細情報および、Ｆ_０パターン微細情報における子音部分を挟む両側の母音部分それぞれのＦ _０パターン微細情報の最大値を示すピーク点間を補間することによって生成したＦ_０パターン概形情報から構成され、
音声波形選択手段におけるコストの演算には、少なくとも、韻律生成手段によって生成された韻律情報におけるＦ_０パターン情報と、音声情報データベースのエントリーにおけるＦ_０パターン概形情報とのコストの演算を含む
ことを特徴とする音声合成装置。
入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位（合成単位）で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成装置であって、
入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析手段と、
テキスト解析手段によって生成された音韻系列から、少なくとも合成単位ごとの音声のＦ_０パターン情報を含む韻律情報を生成する韻律生成手段と、
合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のＦ_０パターン微細情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶する記憶手段と、
音声情報データベースのエントリーにおける合成単位ごとの音声のＦ_０パターン微細情報における子音部分を挟む両側の母音部分それぞれのＦ _０パターン微細情報の最大値を示すピーク点間を補間することによってＦ _０パターン概形情報を生成する概形情報生成手段と、
テキスト解析手段によって生成された音韻系列に従い、少なくとも、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択手段と、
音声波形選択手段によって選択されたエントリーに従って音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成手段と
を備え、
音声波形選択手段におけるコストの演算には、少なくとも、韻律生成手段によって生成された韻律情報におけるＦ_０パターン情報と、概形情報生成手段によって生成されたＦ_０パターン概形情報とのコストの演算を含む
ことを特徴とする音声合成装置。
音声波形選択手段は、
テキスト解析手段によって生成された音韻系列に従い、韻律生成手段によって生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）および各エントリー間のコストを演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するものであり、
各エントリー間のコストの演算には、少なくとも各エントリーにおけるＦ_０パターン微細情報間のコストの演算を含む
ことを特徴とする請求項１または２に記載の音声合成装置。
入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位（合成単位）で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成方法であって、
記憶手段には、合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のＦ_０パターン情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶し、
テキスト解析手段が、入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析ステップと、
韻律生成手段が、テキスト解析ステップにおいて生成された音韻系列から、少なくとも合成単位ごとの音声のＦ_０パターン情報を含む韻律情報を生成する韻律生成ステップと、
音声波形選択手段が、テキスト解析ステップにおいて生成された音韻系列に従い、少なくとも、韻律生成ステップにおいて生成された韻律情報と、記憶手段に記憶される音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）を演算し、この演算結果が最小となる韻律情報を有するエントリーを記憶手段に記憶される音声情報データベースから選択する音声波形選択ステップと、
音声合成手段が、音声波形選択ステップにおいて選択されたエントリーに従って記憶手段に記憶される音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成ステップと
を有し、
記憶手段に記憶される音声情報データベースのエントリーにおける合成単位ごとの音声のＦ_０パターン情報は、
肉声のＦ_０パターンの微細変動を保持したＦ_０パターン微細情報および、Ｆ_０パターン微細情報における子音部分を挟む両側の母音部分それぞれのＦ _０パターン微細情報の最大値を示すピーク点間を補間することによって生成したＦ_０パターン概形情報から構成され、
音声波形選択ステップにおけるコストの演算には、少なくとも、韻律生成ステップにおいて生成された韻律情報におけるＦ_０パターン情報と、音声情報データベースのエントリーにおけるＦ_０パターン概形情報とのコストの演算を含む
ことを特徴とする音声合成方法。
入力されたテキストから当該テキストの音韻系列を生成し、合成音声を組み立てる上で適切な単位（合成単位）で、この音韻系列に対応する音声波形データを音声波形データベースから読み込み、これらの音声波形データを接続して音声を合成する音声合成方法であって、
記憶手段が、合成単位ごとの音声波形データを集めた音声波形データベースおよび、合成単位ごとの音声のＦ_０パターン微細情報を含む韻律情報と音声波形データベースにおける音声波形データとの対応を示すエントリーからなる音声情報データベースを記憶し、
テキスト解析手段が、入力されたテキストを解析して当該テキストの音韻系列を生成するテキスト解析ステップと、
韻律生成手段が、テキスト解析ステップにおいて生成された音韻系列から、少なくとも合成単位ごとの音声のＦ_０パターン情報を含む韻律情報を生成する韻律生成ステップと、
概形情報生成手段が、記憶手段に記憶される音声情報データベースのエントリーにおける合成単位ごとの音声のＦ_０パターン微細情報における子音部分を挟む両側の母音部分それぞれのＦ _０パターン微細情報の最大値を示すピーク点間を補間することによってＦ _０パターン概形情報を生成する概形情報生成ステップと、
音声波形選択手段が、テキスト解析ステップにおいて生成された音韻系列に従い、少なくとも、韻律生成ステップにおいて生成された韻律情報と、記憶手段に記憶される音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）を演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択する音声波形選択ステップと、
音声合成手段が、音声波形選択ステップにおいて選択されたエントリーに従って記憶手段に記憶される音声波形データベースから音声波形データを読み込み、これら音声波形データを接続して音声を合成する音声合成ステップと
を有し、
音声波形選択ステップにおけるコストの演算には、少なくとも、韻律生成ステップにおいて生成された韻律情報におけるＦ_０パターン情報と、概形情報生成ステップにおいて生成されたＦ_０パターン概形情報とのコストの演算を含む
ことを特徴とする音声合成方法。
音声波形選択ステップは、
テキスト解析ステップにおいて生成された音韻系列に従い、韻律生成ステップにおいて生成された韻律情報と音声情報データベースにおけるエントリーの韻律情報との距離尺度（コスト）および各エントリー間のコストを演算し、この演算結果が最小となる韻律情報を有するエントリーを音声情報データベースから選択するものであり、
各エントリー間のコストの演算には、少なくとも各エントリーにおけるＦ_０パターン微細情報間のコストの演算を含む
ことを特徴とする請求項４または５に記載の音声合成方法。
請求項１から請求項３のいずれかに記載された音声合成装置としてコンピュータを機能させるための音声合成プログラム。
請求項７に記載の音声合成プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体。