JP4559950B2

JP4559950B2 - 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム

Info

Publication number: JP4559950B2
Application number: JP2005306086A
Authority: JP
Inventors: 大威徐
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2005-10-20
Filing date: 2005-10-20
Publication date: 2010-10-13
Anticipated expiration: 2025-10-20
Also published as: CN1971708A; US7761301B2; US20070094030A1; JP2007114507A

Description

本発明は、音声合成に関する。

従来のテキスト音声合成装置には、テキストから韻律制御の手掛かり情報を得るために、テキストの係り受け関係を分析するという構文解析を行うことが多い。１文の係り受け関係を完全に分析するための構文解析は一般的に計算量が多い。そこで、少ない計算量でテキストの係り受け情報を得るために、例えば、特許文献１には、予め規定された韻律語種類間の依存強度に基づいて構文解析を行い、韻律句境界強度を決定する方法が開示されている。音声合成装置はテキストから得られた韻律句境界強度を加味してテキスト情報の韻律情報を生成することを特徴とする韻律情報生成手段を用いて韻律制御を行う。
特開平１０−８３１９２号公報

上記特許文献１は、韻律語種類間の依存強度を規定するに当たって、高度な専門知識が必要であるため、TTSシステムの新規開発や既存TTSシステムの保守に手間が掛かる問題があった。また、計算量の多い構文解析を避けることはできなかったため、計算能力の比較的低い組込システムに応用しにくい問題があった。

そこで、本発明は、上記従来技術の問題点に鑑み、テキストの構文解析を行うことなく、人の発声に近い合成音声を生成することのできる韻律制御規則を容易に生成することができる韻律制御規則生成方法及び装置、当該韻律制御規則生成方法を用いて生成された韻律制御規則を用いて、人の発声に近い合成音声を容易に生成することができる音声合成装置を提供することを目的とする。

（１）入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、前記入力テキスト中の言語単位間の前記句読点生起率を含む、韻律に関する複数の学習データを基に、言語単位間の前記句読点生起率に対する条件を含む音声合成のための韻律制御規則を生成する。

（２）入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する。

さらに、前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する。

（３）入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、言語単位間の句読点生起率を基に、音声合成のための韻律制御規則を選択し、選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する。

（４）入力テキスト中の言語単位間の境界における句読点生起率を、当該境界近傍の複数の言語単位の属性を基に求め、言語単位間の句読点生起率を基に当該言語単位間の韻律境界の種類を決定し、決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択し、選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する。

人の発声に近い合成音声を生成することのできる韻律制御規則を容易に生成することができる。

また、人の発声に近い合成音声を容易に生成することができる。

以下、本発明の実施形態について図面を参照して説明する。

（第１の実施形態）
図１は、本発明の第１の実施形態に係る、音声合成のための韻律制御規則生成装置の構成例を示すブロック図である。

図１の韻律制御規則生成装置は、言語解析部１０１、句読点生起率データベース（句読点生起率ＤＢ）１０２、句読点生起率推定部１０３、接続強度計算部１０４、韻律制御規則生成部１０５、韻律制御規則データベース（韻律制御規則ＤＢ）１０６を含む。

なお、言語解析部１０１、句読点生起率推定部１０３、接続強度計算部１０４、韻律制御規則生成部１０５の各機能は、プログラムをコンピュータに実行させることにより実現することができる。

この韻律制御規則生成装置では、自然言語の種類に応じて、適切な言語単位を用いて実装する。例えば、中国語の場合は、文字を言語単位にしても良いし、単語を言語単位にしても良い。日本語の場合は、形態素と仮名のいずれでも言語単位としてよい。以下は日本語を対象に、形態素を言語単位とする場合で説明する。

言語解析部１０１には、音声データベース（図示せず）に記憶されている各音声に対応する各テキスト（読み上げ用のテキスト）が入力され、当該入力テキストの言語解析を行い、当該入力テキストを、言語単位（例えば、ここでは形態素単位）に切り分けるとともに、各形態素の品詞や読みなど、当該形態素に属する情報（形態素情報）などを出力する。

句読点生起率ＤＢ１０２には、あらゆる品詞のうちの任意の２つの品詞からなる品詞系列について、その直前、当該２つの品詞の間、及び当該２つの品詞の直後のそれぞれにおいて句読点が生起する度合い、すなわち句読点生起率が予め記憶されている。

句読点生起率推定部１０３は、言語解析部１０１で入力テキストに対し行った言語解析の結果得られる、当該入力テキストに対応する形態素系列中の連続する２つの形態素の間（２つの形態素の境界）の句読点生起率を求める。すなわち、ここでは、当該入力テキストの先頭の形態素から数えて、「ｊ−１」番目と「ｊ」番目の２つの連続する形態素の間の句読点生起率、すなわち、「ｊ」番目の形態素の直前の形態素境界における句読点生起率として、以下に示すような「Ｉ＋１」個の句読点生起率を求める。なお、Ｉは「１」以上の任意の正の整数である。

（１）当該入力テキストの「ｊ」番目の形態素からＩ個の形態素で構成される形態素系列ｖ^（ｊ）における、「ｊ」番目の形態素の直前の形態素境界での句読点生起率Ｐ_０（ｖ^（ｊ））。これを第１の句読点生起率Ｐ_０（ｖ^（ｊ））とする。

（２）当該入力テキストの「ｊ−１」番目の形態素からＩ個の形態素で構成される形態素系列ｖ^{（ｊ−１）}における、「ｊ」番目の形態素の直前の形態素境界での句読点生起率Ｐ_１（ｖ^{（ｊ−１）}）。これを第２の句読点生起率Ｐ_１（ｖ^{（ｊ−１）}）とする。

（３）当該入力テキストの「ｊ−Ｉ」番目の形態素からＩ個の形態素で構成される形態素系列ｖ^{（ｊ−Ｉ）}と、「ｊ」番目の形態素との間の形態素境界での句読点生起率Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}）。これを第「Ｉ＋１」の句読点生起率Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}）とする。

そして、「Ｉ＋１」個の第１〜第「Ｉ＋１」の句読点生起率からなる句読点生起率ベクター（Ｐ_０（ｖ^（ｊ）），Ｐ_１（ｖ^{（ｊ−１）}），…，Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}））を出力する。

例えば、Ｉ＝２とすると、句読点生起率推定部１０３は、「ｊ−１」番目と「ｊ」番目の２つの連続する形態素の間の句読点生起率として、以下に示すような第１〜第３の句読点生起率を上記句読点生起率ＤＢ１０２から検索する。

（１）「ｊ」番目の形態素及びその次の「ｊ＋１」番目の形態素からなる形態素系列ｖ^（ｊ）の直前における句読点生起率。これを第１の句読点生起率Ｐ_０（ｖ^（ｊ））とする。

（２）「ｊ−１」番目の形態素及びその次の「ｊ」番目の形態素からなる形態素系列（ｖ^{（ｊ−１）}）の「ｊ−１」番目の形態素と「ｊ」番目の形態素の間における句読点生起率。これを第２の句読点生起率Ｐ_１（ｖ^{（ｊ−１）}）とする。

（３）「ｊ−２」番目の形態素及びその次の「ｊ−１」番目の形態素からなる形態素系列ｖ^{（ｊ−２）}の直後における句読点生起率。これを、第３の句読点生起率Ｐ_２（ｖ^{（ｊ−２）}）とする。

句読点生起率推定部１０３は、入力テキスト中の連続する２つの形態素毎に、この２つの形態素の間の句読点生起率として、上記第１〜第３の句読点生起率からなる句読点生起率ベクター（Ｐ_０（ｖ^（ｊ））、Ｐ_１（ｖ^{（ｊ−１）}）、Ｐ_２（ｖ^{（ｊ−２）}）を出力する。

接続強度計算部１０４は、入力テキスト中の連続する２つの形態素毎の上記句読点生起率ベクターから、当該連続する２つの形態素間の接続強度を算出する。言語単位間（ここでは形態素間）の接続強度は、後述するように、第１〜第Ｉの句読点生起率の加重平均値であり、当該言語単位間に句読点の生起する度合い、すなわち当該言語単位間の句読点生起率である。

韻律制御規則生成部１０５には、当該入力テキストに対応する韻律情報と、接続強度計算部１０４で算出された、当該入力テキストの上記連続する２つの形態素間の接続強度、各形態素の品詞や読みなどが入力される。そして、２つの形態素毎に、各形態素の品詞や、その間の接続強度などが得られるので、これらを基に、韻律に対する制御規則、すなわち、韻律制御規則を生成する。

韻律制御規則生成部１０５で生成された韻律制御規則は韻律制御規則ＤＢ１０６に記憶される。

なお、ここでいう句読点は、日本語で用いられる、いわゆる句点と読点に限った狭い意味ではなく、英語のpunctuation markに相当し、括弧や引用符なども含まれる広い意味である。

また、韻律制御規則生成部１０５では、入力テキストに対応する韻律情報は、当該入力テキストを人に読み上げてもらって得られた自然音声から予め求めたもので、例えば、基本周波数（ピッチ）、声の高さの変化パターンであるピッチパターン（Ｆ０パターン）、音韻継続時間長、ポーズの位置、などである。これら韻律情報は、上記音声データベースに記憶されている各音声から求めたものである。

句読点生起率ＤＢ１０２には、各品詞系列について、当該品詞系列の３つの品詞境界のそれぞれにおける句読点生起率Ｐ_ｉ（ｕ）、すなわち、当該品詞系列の直前における句読点生起率、当該品詞系列の真ん中（当該品詞系列は２つの品詞からなるので、当該２つの品詞の間）における句読点生起率、及び当該品詞系列の直後の句読点生起率が記憶されている。

例えば、図２に示すように、「副詞」と「体言」からなる品詞系列（副詞、体言）の場合、当該品詞系列の直前の句読点生起率Ｐ_０（副詞、体言）、「副詞」と「体言」の間の句読点生起率Ｐ_１（副詞、体言）、当該品詞系列の直後の句読点生起率Ｐ_２（副詞、体言）が、当該品詞系列中の品詞で索引を付けて記憶されている。

この各品詞系列についての３つの句読点生起率は、大量のテキストが記憶されているテキストデータベース（図示せず）に予め記憶されている多くのテキストから、当該品詞系列について、次式（１）を用いて算出したものである。

ここで、ｕは、言語単位の系列を表し、ここでは、例えば、２つの品詞からなる品詞系列（ｕ_１，ｕ_２）である。当該品詞系列の長さＩは、ここでは、当該品詞系列が２つの品詞からなるので、Ｉ＝２である。当該品詞系列に含まれる２つの品詞のそれぞれは、「１」からＩまでの番号を用いて、ｕ_１、ｕ_２と表す。

ｉは、品詞系列の品詞境界の位置、すなわち、当該品詞系列の直前、当該品詞系列の真ん中（ここでは、当該品詞系列が２つの品詞からなるので、当該２つの品詞の間）、及び当該品詞系列の直後のそれぞれを表す。従って、ｉは、「０」からＩまでの値、すなわちI＝２の場合、「０」、「１」、「２」を取る。

例えば、２つの品詞からなる品詞系列ｕの０番目の品詞境界（ｉ＝０）は、当該品詞系列の直前であり、この０番目の品詞境界の句読点生起率は、Ｐ_０（ｕ）と表す。当該品詞系列ｕの１番目の品詞境界（ｉ＝１）は、当該２つの品詞の間であり、この１番目の品詞境界の句読点生起率は、Ｐ_１（ｕ）と表す。当該品詞系列ｕの２番目の品詞境界（ｉ＝２）は、当該品詞系列の直後であり、この２番目の品詞境界の句読点生起率は、Ｐ_２（ｕ）と表す。

Ｃ（ｕ）は、品詞系列uが、テキストデータベース中のテキストに観察された回数である。

Ｃ_ｐｕｎｃ（ｕ，ｉ）は、ｉ番目の品詞境界に句読点が付いている品詞系列uが、テキストデータベース中のテキストに観察された回数である。

利用上の便宜を計るため、句読点生起率は自然対数軸上の正の値を取っている。従って、句読点生起率Ｐ_ｉ（ｕ）は、値が小さければ小さいほど、句読点生起位置における句読点が生じる度合い（確率）が高いという意味を持っている。

句読点生起率ＤＢ１０２には、例えば、図３に示すように、副詞と体言からなる品詞系列（副詞、体言）の０番目の句読点生起率として、Ｐ_０（副詞，体言）＝４５．２、格助詞と副詞からなる品詞系列（格助詞、副詞）の１番目の句読点生起率として、Ｐ_１（格助詞，副詞）＝２６．２、同様に、品詞系列（体言，格助詞）の２番目の句読点生起率としてＰ_２（体言，格助詞）＝１５．０、などが記憶されている。

Ｉ＝２の場合、句読点生起率推定部１０３は、入力テキストの先頭の形態素から数えて、「ｊ−１」番目と「ｊ」番目の２つの連続する形態素の間の句読点生起率として、図４に示すように、第１〜第３の句読点生起率を、当該２つの連続する形態素の間の境界近傍の（関連する）形態素の属性（例えば、ここでは品詞）を通して、上記句読点生起率ＤＢ１０２から検索する。

なお、ここでは、言語単位を形態素としているが、この場合には、句読点生起率の推定は、上述したように、当該言語単位の属性として、例えば品詞を用いる。一方、形態素より小さい単位の１文字を言語単位とする場合、句読点生起率の推定は、当該言語単位の属性として品詞ではなく文字の見出しを用いる。

（１）「ｊ」番目の形態素の品詞及びその次の「ｊ＋１」番目の形態素の品詞からなる品詞系列ｕ［１］について、その直前の句読点生起率Ｐ_０（ｕ［１］）を、句読点生起率ＤＢ１０２から検索する。検索された句読点生起率Ｐ_０（ｕ［１］）が、「ｊ−１」番目と「ｊ」番目の連続する２つの形態素の間の第１の句読点生起率Ｐ_０（ｖ^（ｊ））である。

（２）「ｊ−１」番目の形態素の品詞及びその次の「ｊ」番目の形態素の品詞からなる品詞系列ｕ［２］について、当該２つの品詞の間の句読点生起率Ｐ_１（ｕ［２］）を、句読点生起率ＤＢ１０２から検索する。検索された句読点生起率Ｐ_１（ｕ［２］）が、「ｊ−１」番目と「ｊ」番目の連続する２つの形態素の間の第２の句読点生起率Ｐ_１（ｖ^{（ｊ−１）}）である。

（３）「ｊ−２」番目の形態素の品詞及びその次の「ｊ−１」番目の形態素の品詞からなる品詞系列ｕ［３］について、その直後の句読点生起率Ｐ_２（ｕ［３］）を、句読点生起率ＤＢ１０２から検索する。検索された句読点生起率Ｐ_２（ｕ［３］）が、「ｊ−１」番目と「ｊ」番目の連続する２つの形態素の間の第３の句読点生起率Ｐ_２（ｖ^{（ｊ−２）}）である。

本実施形態では、句読点生起率推定部１０３で形態素の品詞を用いて、句読点生起率ＤＢ１０２を検索することで、入力テキスト中の連続する２つの形態素毎に、当該２つの形態素の間の３種類の句読点生起率を求めているが、この場合に限らない。例えば、テキストデータベース（図示せず）中のテキストと、上式（１）とを用いて、所望の品詞系列について句読点生起率を算出することにより、入力テキスト中の連続する２つの形態素毎に、当該２つの形態素の間の上記３種類の句読点生起率を求めるようにしてもよい。

接続強度計算部１０３は、入力テキスト中の連続する２つの形態素、すなわち、「ｊ−１」番目の形態素と「ｊ」番目の形態素の間の境界（「ｊ」番目の形態素の直前の形態素境界）に対して、句読点生起率推定部１０３で求めた句読点生起率Ｐ_０（ｖ^（ｊ）），Ｐ_１（ｖ^{（ｊ−１）}），…，Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}）を用いて、「ｊ」番目の形態素の直前の形態素境界の接続強度Ｄ_ｊを次式（２）を用いて計算する。

ａ_０、ａ_１、…ａ_Ｉは、第１〜第Ｉの句読点生起率のそれぞれに対応する１次線形係数である。

例えば、Ｉ＝２の場合、上述したように、第１〜第３の句読点生起率（句読点生起率ベクター（Ｐ_０（ｖ^（０））、Ｐ_１（ｖ^（−１））、Ｐ_２（ｖ^（−２）））が得られるから、これらを用いて、「ｊ」番目の形態素の直前の形態素境界の接続強度Ｄ_ｊを式（２）を用いて計算する。この場合、次式（３）により、「ｊ」番目の形態素の直前の形態素境界の接続強度Ｄ_ｊを計算することができる。

Ｄ_ｊ＝ａ_０Ｐ_０（ｖ^（ｊ））＋ａ_１Ｐ_１（ｖ^{（ｊ−１）}）＋ａ_２Ｐ_２（ｖ^{（ｊ−２）}）
…（３）
ここで、ａ_０、ａ_１、ａ_２は、第１〜第３の句読点生起率のそれぞれに対応する１次線形係数であり、ａ_０＝ａ_１＝ａ_２＝１／３でも良いし、最良のパフォーマンスを出すために最適化された値をそれぞれ用いても良い。

接続強度Ｄ_ｊは、値が大きければ大きいほど、「ｊ−１」番目の形態素と「ｊ」番目の形態素との間に句読点が生起する度合いが低い、すなわち、「ｊ−１」番目の形態素と「ｊ」番目の形態素との間の接続強度が強いという意味を持っている。

韻律制御規則生成部１０５は、形態素境界の接続強度とその他の形態素情報に基づいて、例えば、機械学習ツールｃ４．５を用いて、ピッチパターン情報や、ポーズ情報を分析して、ピッチパターン選択の規則やポーズ推定規則を生成する。機械学習方法は回帰木ツールCARTや、ニューラルネットワークを用いた方法を使っても良い。

次に、図１の韻律制御規則生成装置で韻律制御規則を生成する手順を、より具体的に説明する。ここでは、言語解析部１０１に入力されるテキストが「あらゆる現実をすべて自分の方へねじ曲げたのだ。」の場合を例にとり、図５に示すフローチャートを参照して説明する。

なお、ここでは、Ｉ＝２の場合について説明する。

言語解析部１０１に上記テキストが入力されると（ステップＳ１）、言語解析部１０１では、このテキストを、「あらゆる」、「現実」、「を」、「すべて」、「自分」、「の」、「方」、「へ」、「ねじ曲げた」、「の」、「だ」と、形態素に分けたうえ、各形態素について、「連体詞」、「体言」、「格助詞」、「副詞」などの品詞や、読み、アクセント型情報などを出力する（ステップＳ２）。

ここでは、例えば、ｊの初期値を「３」と設定し（ステップＳ３）、句読点生起率推定部１０３は、上記入力テキストの先頭から３番目の形態素から順に、当該形態素と、その直前の形態素との間の形態素境界に対して、第１〜第３の句読点生起率を求める（ステップＳ４）。

ここでは、上記テキスト中の４番目（ｊ＝４）の形態素「すべて」と、その直前の３番目（ｊ−１＝３）の形態素「を」との間の形態素境界に対して、第１〜第３の句読点生起率を求める場合を例にとり説明する。

句読点生起率推定部１０３は、上記テキスト中の３番目の形態素「を」と、４番目の形態素「すべて」との間の形態素境界、すなわち、４番目の形態素の直前の形態素境界に対して、図４に示したように、第１〜第３の句読点生起率を句読点生起率ＤＢ１０２から求める。

（１）４番目の形態素「すべて」と５番目の形態素「自分」の品詞「副詞」、「体言」から、ｕ＝（副詞、体言）なる品詞系列の０番目の品詞境界（ｉ＝０）における句読点生起率Ｐ_０（副詞、体言）を、句読点生起率ＤＢ１０２から検索する。検索された句読点生起率Ｐ_０（副詞、体言）＝４５．２が、第１の句読点生起率である。

（２）３番目の形態素「を」と４番目の形態素「すべて」の品詞「格助詞」、「副詞」から、ｕ＝（格助詞、副詞）なる品詞系列の１番目の品詞境界（ｉ＝１）における句読点生起率Ｐ_１（格助詞、副詞）を、句読点生起率ＤＢ１０２から検索する。検索された句読点生起率Ｐ_１（格助詞、副詞）＝２６．２が、第２の句読点生起率である。

（３）２番目の形態素「現実」と３番目の形態素「を」の品詞「体言」、「格助詞」から、ｕ＝（体言、格助詞）なる品詞系列の２番目の品詞境界（ｉ）＝２における句読点生起率Ｐ_２（体言、格助詞）を、句読点生起率ＤＢ１０２から検索する。検索された句読点生起率Ｐ_２（体言、格助詞）＝１５．０が、第３の句読点生起率である。

結果として、（４５．２，２６．２，１５．０）という句読点生起率ベクターが得られる。

次に、接続強度計算部１０４は、上記式（３）に、句読点生起率推定部１０３で求めた第１〜第３の句読点生起率を代入して、「ｊ」番目の形態素と、その直前の「ｊ−１」番目の形態素との間の形態素境界の接続強度Ｄ_ｊを算出する（ステップＳ５）。

ここでは、上述の例の場合、上記テキスト中の３番目の形態素「を」と、４番目の形態素「すべて」との間の形態素境界に対して求めた第１〜第３の句読点生起率「４５．２」「２６．２」「１５．０」を上記式（３）に代入し、接続強度Ｄ_４を算出する。

式（３）において、ａ_０＝ａ_１＝ａ_２＝１／３であるとすると、接続強度Ｄ_４は、第１〜第３の句読点生起率の平均値となり、上記例の場合、「２８．８」と求まる。

次に、ｊの値を１つインクリメントし（ステップＳ６）、次の形態素に対する処理に移行する。当該次の形態素が当該入力テキスト中の最後の形態素ではない場合（ステップＳ７）、当該次の形態素について、上記ステップＳ４〜ステップＳ６を行う。一方、当該次の形態素が、当該入力テキスト中の最後の形態素の場合には（ステップＳ７で「ｙｅｓ」の場合）、ステップＳ８へ進む。ステップＳ８において、当該入力テキストが、音声データベース中の未処理の最後のテキストでない場合（ステップＳ８で「ｎｏ」の場合）、当該音声データベース中の未処理の新たなテキストを図１の音声合成用韻律制御規則生成装置に入力し、当該新たなテキストに対し、上記ステップＳ１〜ステップＳ７を繰り返す。当該入力テキストが音声データベース中の最後のテキストの場合（ステップＳ８で「ｙｅｓ」の場合）には、ここで、処理が終了し、次に、韻律制御規則生成部１０５の処理が実行される（ステップＳ９）。

韻律制御規則生成部１０５は、音声データベース中の全てのテキストから、図５に示したように算出された、形態素間の接続強度や、品詞や読みなどの各形態素に関する情報と、音声データベース中の各テキストから得られた韻律情報を用いて、韻律制御規則を生成する。

ここでは、「決定木」という分類木を生成する、例えば機械学習プログラム“C4.5”を使って、韻律制御規則を生成する幾つかの例を示す。

（基本周波数代表パターンの選択規則の生成）
日本語音声合成の基本周波数制御方式では、例えば、特開平１１−９５７８３号公報で開示されたような、アクセント句単位の基本周波数代表パターンから文章全体の基本周波数軌跡を生成する方式がある。この方式は、各アクセント句の属性に基づいてアクセント句の基本周波数代表パターンと基本周波数代表パターンに対する変形規則とを選択して、各アクセント句の基本周波数代表パターンを変形して繋げることで、文章全体の基本周波数軌跡を出力する方式である。この方式で利用することができる、代表パターン選択規則を生成する場合を、以下説明する。

ここでは、予め用意されたN個の基本周波数の代表パターンを選択する規則を音声データベースの内容から機械学習の手法で生成する。音声データベースに記憶されている音声に付随する各アクセント句の基本周波数パターンに対しては、最適な代表パターンは誤差最小法などの手法で事前に求めておき、得られた代表パターン及びその番号が音声データベースに格納されているとする。

本実施形態の韻律制御規則生成部１０５は、前述のように、音声データベースに記憶されている読み上げ用のテキストを用いて、接続強度計算部１０４で計算された、形態素間の接続強度、当該読み上げ用テキストに含まれる各アクセント句に関する情報などを用いて、まず、機械学習プログラムに与える学習データを作成する。

各学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる各アクセント句の属性情報である入力情報と、そのアクセント句に対応する基本周波数の代表パターンの番号である出力情報とを含む。

この学習データの入力情報には、各アクセント句の直前（先頭）と直後（末尾）の境界における（接続強度計算部１０４で計算された）接続強度をそのアクセント句の属性情報として含まれている。

例えば、属性情報が接続強度と品詞情報を含むとすると、あるアクセント句に対する学習データには、次のような情報が含まれている。

当該アクセント句の先頭境界における接続強度；
当該アクセント句の末尾境界における接続強度；
当該アクセント句の前のアクセント句の主要品詞；
当該アクセント句の主要品詞；
当該アクセント句の次のアクセント句の主要品詞；
当該アクセント句に対応する最適な代表パターンの番号。

前述の説明で用いた、「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「すべて」というアクセント句に対しては、次のような学習データが作成される。

「２８．８；３６．２；名詞；副詞；名詞；２」
ここで、「２８．８」は「を」と「すべて」との境界に対して計算された接続強度であり、「３６．２」は「すべて」と「自分」との境界に対して計算された接続強度である。「３６．２」の次にある「名詞」は前のアクセント句である「現実を」の主要品詞であり、その次の「副詞」は当該アクセント句の主要品詞であり、さらにその次の２個目の「名詞」は次のアクセント句である「自分の」の主要品詞である。最後の「２」は「すべて」というアクセント句に対して、事前に付けられた基本周波数の最適な代表パターンの番号である。

このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムＣ４．５に与える。Ｃ４．５で学習した結果として、入力された大量の学習データの中から、あるアクセント句に対し最適な代表パターンを選択するための、当該アクセント句と、その前後のアクセント句との間の品詞や接続強度に対する条件を含む代表パターンの選択規則が得られる。

「Ｉｆ（前のアクセント句の主要品詞＝名詞）
ａｎｄ（当該アクセント句の主要品詞＝副詞）
ａｎｄ（先頭境界における接続強度＜３０）
ａｎｄ（末尾境界における接続強度＞３０）
ｔｈｅｎ代表パターン番号＝２」
この代表パターンの選択規則は、「主要品詞が「副詞」であるアクセント句では、当該アクセント句の前に、主要品詞が「名詞」であるアクセント句が存在し、当該アクセント句と当該前のアクセント句との間の接続強度が「３０」より小さく、しかも、当該アクセント句とその次のアクセント句との間の接続強度が「３０」より大きい場合には、当該アクセント句に対応する最適な代表パターンの番号は「２」である」、というものである。

韻律制御規則生成部１０５で生成された、このような代表パターン選択規則が韻律制御規則ＤＢ１０６に記憶される。

基本周波数の代表パターンの選択規則を生成する場合と同様にして、他の韻律に対する制御規則、例えば、音韻継続時間長やポーズ挿入の推定規則なども生成することができる。

（音韻継続時間長の推定規則の生成）
音声データベースに記憶されている各音声に含まれる音韻継続時間長の分布特性に基づいて事前にいくつかの音韻継続時間長に分類しておくことにより、上記同様にして、音韻継続時間長を推定する規則を生成することができる。

ここでは、ある音韻の対する学習データの入力情報には、当該音韻について、少なくとも当該音韻を含む形態素と、その前後の形態素との間の接続強度が含まれる。また、当該学習データの出力情報には、当該音韻の継続時間長が含まれている。

韻律制御規則制御部１０５は、機械学習プログラムＣ４．５を用いて、このような大量の学習データから、ある音韻に対し最適な音韻継続時間長を選択するための当該音韻を含む形態素と、その前後の形態素との間の接続強度や品詞に対する条件を含む音韻継続時間長の推定規則を抽出する。

（ポーズ挿入の推定規則の生成）
形態素境界にポーズを挿入するかどうかを推定するための規則を生成する場合、学習データの入力情報には、例えばある形態素について、少なくともその直前（あるいは直後）の形態素との間の接続強度が含まれる。また、当該学習データの出力情報には、当該形態素の直前（あるいは直後）の他の形態素との間にポーズがあるか否かを示す情報が含まれている。

韻律制御規則制御部１０５は、機械学習プログラムＣ４．５を用いて、このような大量の学習データから、ある形態素に対し、その直前（あるいは直後）の他の形態素との間にポーズを挿入するか否かを判定するための、当該形態素と、その前後の形態素との間の接続強度や当該形態素の品詞に対する条件を含むポーズ挿入の推定規則を抽出する。

以上説明したように、上記第１の実施形態によれば、言語単位境界（例えば２つの形態素間の境界）の句読点生起率を求め、さらに、求めた句読点生起率を用いて当該言語単位境界の接続強度を計算し、得られた言語単位境界の接続強度と品詞情報などを含む学習データを用いて、韻律制御を機械学習することで、言語単位境界の接続強度に対する条件を含む、最適な韻律制御のための韻律制御規則を生成する。

（第２の実施形態）
図６は、本発明の第２の実施形態に係る、音声合成のための韻律制御規則生成装置の構成例を示すブロック図である。

なお、図６において、図１と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図６の韻律制御規則生成装置には、形態素間の接続強度と形態素情報などを用いて、まず韻律境界推定規則を生成する韻律境界推定規則生成部１１１と、韻律境界推定規則生成部１１１で生成された韻律境界推定規則を記憶する韻律境界推定規則データベース（韻律境界推定規則ＤＢ）１１２とが追加されている点、韻律制御規則生成部１０５は、さらに韻律境界情報を用いて韻律制御規則を生成する点が、図１の韻律制御規則生成装置と異なる。

韻律境界推定規則生成部１１１は、形態素間の接続強度、各形態素の品詞などを含む形態素情報、その他の情報に基づいて、音声データベースに記憶されている韻律境界情報を、機械学習プログラムＣ４．５を使って分析することで、韻律境界推定規則を生成する。生成された韻律境界推定規則は韻律境界推定規則ＤＢ１１２に記憶される。

韻律制御規則生成部１０５は、音声データベースに記憶されている韻律境界情報と形態素情報などを基に、基本周波数パターン情報や、音素持続時間長情報、ポーズ情報などの韻律情報を分析して、対応する韻律制御規則を生成する。生成された韻律境界推定規則は韻律境界推定規則ＤＢ１０６に記憶される。

韻律境界推定規則生成部１１１と、韻律制御規則生成部１０５で用いる機械学習方法は、回帰木ツールCARTや、ニューラルネットワークを用いた方法を使っても良い。

なお、言語解析部１０１、句読点生起率推定部１０３、接続強度計算部１０４、韻律制御規則生成部１０５、韻律境界推定規則生成部１１１等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。

ここでは、主に、図６の韻律制御規則生成装置の韻律境界推定規則生成部１１１と、韻律制御規則生成部１０５で、韻律境界推定規則や韻律制御規則を生成する手順をより具体的に説明する。

以下、言語解析部１０１に入力されるテキストが「あらゆる現実をすべて自分の方へねじ曲げたのだ。」の場合を例にとり説明する。

まず、韻律境界推定規則生成部１１１について説明する。

韻律境界は韻律語境界と韻律フレーズ境界と呼気段落境界の３種類とする。韻律語は1または複数の形態素で構成され、韻律フレーズは1または複数の韻律語で構成され、呼気段落は1または複数の韻律フレーズで構成される。上記入力テキストの場合では、韻律語は次の５つになる。

「あらゆる」
「現実を」
「すべて」
「自分の方へ」
「ねじ曲げたのだ」
この５つの韻律語の境界を韻律語境界という。また、韻律フレーズは次の３つになる。

「あらゆる現実を」
「すべて自分の方へ」
「ねじ曲げたのだ」
この３つの韻律フレーズの境界を韻律フレーズ境界という。韻律フレーズは韻律語を含むことから、韻律フレーズ境界は必ず韻律語境界であることになる。また、呼気段落は次の２つになる。

「あらゆる現実を」
「すべて自分の方へねじ曲げたのだ」
この２つの呼気段落の境界を呼気段落境界という。呼気段落は韻律フレーズと韻律語を含むことから、呼気段落境界は必ず韻律フレーズ境界であり、韻律語境界であることになる。

言語解析部１０１と、句読点生起率ＤＢ１０２と、句読点生起率推定部１０３と、接続強度計算部１０４の処理動作は、第1の実施形態と同様である（図５の説明参照）。

図５に示すようにして、音声データベースに記憶されている全ての読み上げ用のテキストから、接続強度計算部１０４や言語解析部１０１で、形態素間の接続強度と、各形態素の品詞や読みなどの形態素情報を求めた後、韻律境界推定規則生成部１１１は、これらの情報を用いて、音声データベースに記憶されている読み上げ用のテキストから求めた韻律語境界情報と韻律フレーズ境界情報と呼気段落境界情報をそれぞれ分析して、韻律語境界推定規則と韻律フレーズ境界推定規則と呼気段落境界推定規則を生成する。

ここでは、「決定木」という分類木を生成する機械学習プログラムＣ４．５を用いて、韻律語境界推定規則と韻律フレーズ境界推定規則と呼気段落境界推定規則をそれぞれ生成する。

（韻律語境界推定規則の生成）
ここでは、ある形態素について、その直前の形態素境界が韻律語境界であるか否かを判定するための推定規則を、音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースに記憶されている音声に対応する読み上げ用のテキストに対して、当該テキスト中の形態素境界が韻律語境界であるかどうかは人間の主観評価などによって決定される。音声データベースには、各読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であれば、例えば「1」、韻律境界でなければ「０」をつけて、音声データベースに記憶されていることとする。

韻律境界推定規則生成部１１１は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる形態素の属性情報である入力情報と、その形態素の直前にある形態素との境界が韻律語境界であるか否かを示す出力情報とを含む。

この学習データの入力情報には、当該形態素と、その直前の形態素との間の接続強度を、当該形態素の属性情報として含まれている。

例えば、形態素の属性情報が接続強度と品詞情報を含むとすると、ある形態素に対する学習データは、次のような情報が含まれている。

当該形態素と、その直前の形態素との間の接続強度；
当該形態素の直前の形態素の品詞；
当該形態素の品詞；
当該形態素の直後の形態素の品詞；
当該形態素と、その直前の形態素との境界が韻律語境界であるか場合には「Ｙｅｓ」、当該境界が韻律語境界でない場合には「Ｎｏ」。

「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「すべて」という形態素に対しては、次のような学習データが作れる。

「２８．８，名詞，副詞，名詞，Ｙｅｓ」
ここで、「２８．８」は「を」と「すべて」との境界に対して計算される接続強度である。「２８．８」の次にある１個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある２個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Ｙｅｓ」により、このような場合に、形態素「すべて」の直前の境界は韻律語境界であることを示している。

このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムＣ４．５に与える。Ｃ４．５で学習した結果として、入力された大量の学習データの中から、ある形態素に対し、その直前の他の形態素との間の境界が韻律後境界であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、次のような韻律語境界推定規則が得られる。

「Ｉｆ（当該形態素の直前の形態素の主要品詞＝名詞）
ａｎｄ（当該形態素の主要品詞＝副詞）
ａｎｄ（当該形態素とその直前の形態素との間の接続強度＜５０）
ｔｈｅｎ韻律語境界判定＝Ｙｅｓ」
この韻律語境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「５０」より小さい場合には、当該形態素と、その直前の形態素との間は韻律語境界である」というものである。

韻律語境界推定規則生成部１１１で生成された、このような韻律語境界推定規則が韻律語境界推定規則ＤＢ１１２に記憶される。

韻律語境界推定規則を生成する場合と同様にして、韻律フレーズ境界推定規則も生成することができる。

（韻律フレーズ境界推定規則の生成）
ここでは、ある韻律語について、その直前の境界が韻律フレーズ境界であるか否かを判定するための推定規則を音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースには、当該音声データベースに記憶されている音声に対応する読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であるか否かを示す記号とともに、韻律語境界の場合には、それが韻律フレーズ境界であるか否かを示す記号が記憶されている。例えば、ある形態素境界が韻律語境界でない場合には「０」、韻律語境界であるが、韻律フレーズ境界でない場合には「１」、韻律語境界であり、かつ韻律フレーズ境界である場合には「２」が記憶されている。

韻律境界推定規則生成部１１１は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる形態素の属性情報である入力情報と、その形態素の直前にある形態素との間の境界が韻律フレーズであるか否かを示す出力情報とが含まれている。

当該形態素と、その直前の形態素との間の接続強度；
当該形態素の直前の形態素の品詞；
当該形態素の品詞；
当該形態素の直後の形態素の品詞；
当該形態素と、その直前の形態素との境界が韻律フレーズ境界である場合には「Ｙｅｓ」、当該境界が韻律フレーズ境界でない場合には「Ｎｏ」。

「２８．８，名詞，副詞，名詞，Ｙｅｓ」
ここで、「２８．８」は「を」と「すべて」との境界に対して計算される接続強度である。「２８．８」の次にある１個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある２個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Ｙｅｓ」により、このような場合に、形態素「すべて」の直前の境界は韻律フレーズ境界であることを示している。

このような形式の大量の学習データを、音声データベースに記憶されている全データから作成して、機械学習プログラムＣ４．５に与える。Ｃ４．５で学習した結果として、入力された大量の学習データの中から、ある形態素に対し、その直前の他の形態素との間の境界が韻律フレーズ境界であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、次のような韻律フレーズ境界推定規則が得られる。

「Ｉｆ（当該形態素の直前の形態素の主要品詞＝名詞）
ａｎｄ（当該形態素の主要品詞＝副詞）
ａｎｄ（当該形態素とその直前の形態素との間の接続強度＜４０）
ｔｈｅｎ韻律フレーズ境界判定＝Ｙｅｓ」
これらの韻律フレーズ境界推定規則を韻律境界推定規則データベース２０６に格納する。

この韻律フレーズ境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「４０」より小さい場合には、当該形態素と、その直前の形態素との間は韻律フレーズ境界である」というものである。

韻律語境界推定規則を生成する場合と韻律フレーズ境界推定規則を生成する場合と同様にして、呼気段落境界推定規則も生成することができる。

（呼気段落境界推定規則の生成）
ここでは、ある韻律フレーズについて、その直前の境界が呼気段落境界であるか否かを判定するための推定規則を音声データベースに予め記憶されている情報を用いてら機械学習の手法で生成する。音声データベースには、当該音声データベースに記憶されている音声に対応する読み上げ用のテキスト中の各形態素境界に対して、当該形態素境界が韻律語境界であるか否かを示す記号とともに、韻律語境界の場合には、それが韻律フレーズ境界であるか否かを示す記号が記憶されている。さらに、韻律語フレーズ境界の場合には、それが呼気段落境界であるか否かを示す記号が記憶されている。例えば、ある形態素境界が韻律語境界でない場合には「０」、韻律語境界であるが、韻律フレーズ境界でない場合には「１」、韻律語境界であり、かつ韻律フレーズ境界である場合には「２」、韻律語境界かつ韻律フレーズ境界であり、さらに呼気段落境界である場合には「３」が記憶されている。

韻律境界推定規則生成部１１１は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる形態素の属性情報である入力情報と、その形態素の直前にある形態素との間の境界が呼気段落であるか否かを示す出力情報とが含まれている。

当該形態素と、その直前の形態素との間の接続強度；
当該形態素の直前の形態素の品詞；
当該形態素の品詞；
当該形態素の直後の形態素の品詞；
当該形態素と、その直前の形態素との境界が呼気段落境界である場合には「Ｙｅｓ」、当該境界が呼気段落境界でない場合には「Ｎｏ」。

「２８．８，名詞，副詞，名詞，Ｙｅｓ」
ここで、「２８．８」は「を」と「すべて」との境界に対して計算される接続強度である。「２８．８」の次にある１個目の「名詞」は、形態素「すべて」の直前にある形態素である「現実を」の品詞であり、次の「副詞」は、形態素「すべて」の品詞であり、さらに次にある２個目の「名詞」は、形態素「すべて」の直後の形態素である「自分」の品詞である。さらに、最後の「Ｙｅｓ」により、このような場合に、形態素「すべて」の直前の境界は呼気段落境界であることを示している。

「Ｉｆ（当該形態素の直前の形態素の主要品詞＝名詞）
ａｎｄ（当該形態素の主要品詞＝副詞）
ａｎｄ（当該形態素とその直前の形態素との間の接続強度＜３０）
ｔｈｅｎ呼気段落境界判定＝Ｙｅｓ」
これらの呼気段落境界推定規則を韻律境界推定規則データベース２０６に格納する。

この呼気段落境界推定規則は、「品詞が「副詞」である形態素では、その直前に品詞が「名詞」である形態素が存在し、当該「名詞」の形態素との間の接続強度が「３０」より小さい場合には、当該形態素と、その直前の形態素との間は呼気段落境界である」というものである。

次に、韻律制御規則生成部１０５について説明する。ここでは、韻律境界情報に基づいて、音韻継続時間長の代表値の推定規則を生成する場合を説明する。

音声データベースに記憶されている各音声に含まれる、子音と母音に分類された各音韻の継続時間長の分布に基づいて、音声データベースには、各音韻に対し、Ｄ（Ｄは任意の正の整数）個までの分類された代表値が記憶されている。ここでは、音声データベースに記憶されているデータを用いて、各音韻について、当該音韻が属する形態素の韻律境界情報から、その音韻の継続時間長の代表値を推定する規則を、機械学習プログラムＣ４．５用いて生成する。

韻律制御規則生成部１０５は、まず機械学習プログラムに与える学習データを生成する。学習データは、音声データベースに記憶されている読み上げ用のテキストに含まれる各音韻に対して、当該音韻が属する形態素の韻律境界情報である入力情報と、当該音韻の継続時間長の代表値である出力情報とが含まれている。

ある音韻に対する学習データの入力情報である韻律境界情報には、次のような情報が含まれている。

当該音韻を含む形態素と、その直前の形態素との境界における韻律境界の種類（例えば、「呼気段落境界」と、「韻律フレーズ境界」と、「韻律語境界」と、「呼気段落境界」や「韻律フレーズ境界」や「韻律語境界」でもない形態素間の境界を意味する「一般境界」とのうちのいずれか１つ）；
当該音韻を含む形態素と、その直後の形態素との境界における韻律境界の種類（例えば、「呼気段落境界」と、「韻律フレーズ境界」と、「韻律語境界」と、「一般境界」とのうちのいずれか１つ）；
当該音韻と、その直前の呼気段落境界との間のモーラ数；
当該音韻と、その直後の呼気段落境界との間のモーラ数；
当該音韻と、その直前の韻律フレーズ境界との間のモーラ数；
当該音韻と、その直後の韻律フレーズ境界との間のモーラ数；
当該音韻と、その直前の韻律語境界との間のモーラ数；
当該音韻と、その直後の韻律語境界との間のモーラ数；
「あらゆる現実をすべて自分の方へねじ曲げたのだ。」という入力テキストの場合、「を」の音韻に対しては、次のような学習データが作れる。

なお、モーラは、仮名に相当し、音節の数え方は「ん」や「っ」や長音の「う」などは1音節としない。例えば、「現実」の読みは「げんじつ」であるため、３音節４モーラになる。

「一般境界，呼気段落境界，８，０，８，０，
４，０，３００ｍｓ」
ここで、「一般境界」は、「を」とその直前の形態素との境界における韻律境界の種類であり、「呼気段落境界」は、「を」とその直後の形態素との境界における韻律境界の種類である。次の「８」は、「を」と、その直前の呼気段落境界との間のモーラ数であって、上記入力テキストの場合は、文頭からのモーラ数になる。次の「０」は、「を」と、その直後の呼気段落境界との間のモーラ数であって、上記入力テキストの場合、「を」の直後の境界が呼気段落境界になるから、「０」の値を取る。その次の「８」は、「を」と、その直前の韻律フレーズ境界との間のモーラ数であって、上記入力テキストの場合は、文頭からのモーラ数になる。さらにその次の「０」は、「を」と、その直後の韻律フレーズ境界との間のモーラ数であって、上記入力テキストの場合、「を」の直後の境界が韻律フレーズ境界でもあるから、「０」の値を取る。その次の「４」は、「を」と、その直前の韻律語境界との間のモーラ数であって、上記入力テキストの場合、「現実」の「ゲンジツ」という４モーラになる。さらにその次の「０」は、「を」と、その直後の韻律語境界との間のモーラ数であって、「を」の直後が韻律語境界でもあるから、「０」の値を取る。さらにその次の「３００ｍｓ」は、「を」の継続時間長の代表値である。

このような形式の大量の学習データを、音声データベースに記憶されている全ての音韻に対して作成して、機械学習プログラムＣ４．５に与える。Ｃ４．５で学習した結果として、入力された大量の学習データの中から、ある音韻に対し、その継続時間長を決定するための、当該音韻を含む形態素と、その直前／直後の形態素との境界における韻律境界の種類、その直前／直後の呼気段落境界／韻律フレーズ境界／韻律語境界との間のモーラ数に対する条件を含む、音韻継続時間長の代表値を推定する規則が得られる。例えば、「を」の音韻に対して、次のような音韻継続時間長の代表値を推定する規則が得られる。

「Ｉｆ（当該音韻を含む形態素と、その直前の形態素との境界における韻律境界の種類＝一般境界）
ａｎｄ（当該音韻を含む形態素と、その直後の形態素との境界における韻律境界の種類＝呼気段落境界）
ａｎｄ（当該音韻と、その直前の呼気段落境界との間のモーラ数＜１０）
ａｎｄ（当該音韻と、その直前の韻律フレーズ境界との間のモーラ数＞６）
ａｎｄ（当該音韻と、その直後の呼気段落境界との間のモーラ数＝０）
ａｎｄ（当該音韻と、その直前の韻律語境界との間のモーラ数＞２）
ｔｈｅｎ継続時間長の代表値＝３００ｍｓ」
このような音韻継続時間長の代表値推定規則は、韻律制御規則ＤＢ１０６に記憶される。

このように、上記第２の実施形態によれば、言語単位境界の句読点生起率を推定し、そこから言語単位境界の接続強度を計算し、接続強度と品詞情報などを用いて、ある形態素に対し、その直前の他の形態素との間の境界が、韻律語境界／韻律フレーズ境界／呼気段落であるか否かを判定するための、当該形態素と、その直前の形態素との間の品詞や接続強度に対する条件を含む、韻律境界推定規則を生成することができる。

また、形態素間の韻律境界の種類（例えば、「呼気段落境界」、「韻律フレーズ境界」、「韻律語境界」、「呼気段落境界」や「韻律フレーズ境界」や「韻律語境界」でもない形態素間の単なる境界を意味する「一般境界」など）と、形態素間の接続強度などを用いて、形態素間の韻律境界の種類や、韻律境界（呼気段落境界、韻律フレーズ境界、韻律語境界など）までのモーラ数などに対する条件を含む、音声合成のための韻律制御規則を生成することができる。

（第３の実施形態）
図３は、本発明の第３の実施形態に係わる音声合成装置を示すブロック図である。この音声合成装置は、第1の実施形態で説明した図１の韻律制御規則生成装置で生成される韻律制御規則を用いて、入力されたテキストに対応する音声合成を行う。なお、ここでは、形態素を言語単位とする。

第3の実施形態に係る音声合成装置は、大きく分けて、言語解析部３０１，韻律制御部３００、音声波形生成部３２１から構成されている。

言語解析部３０１は、テキストが入力されると、当該テキストを言語単位（例えば、ここでは形態素単位）に切り分けるととともに、各形態素の品詞や読みなどの形態素情報などを出力する。

韻律制御部３００は、言語解析部３０１から出力された各形態素の品詞や読みなどの情報や、図１の図１の韻律制御規則生成装置の韻律制御規則ＤＢ１０６に記憶された韻律制御規則を用いて、韻律情報を生成する。

音声波形生成部３２１は、上記韻律情報やテキストの読みを用いて、入力テキストに対応する合成音声の波形を生成する。

図１の音声合成装置の特徴は韻律制御部３００にある。韻律制御部３００は、句読点生起率データベース（句読点生起率ＤＢ）３１１、句読点生起率推定部３１２、接続強度計算部３１３、韻律制御規則適用部３１５、韻律制御規則データベース（韻律制御規則ＤＢ）１０６を含む。

なお、言語解析部３０１、句読点生起率推定部３１２、接続強度計算部３１３、韻律制御規則適用部３１５、音声波形生成部３２１等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。

句読点生起率ＤＢ３１１は、図１の句読点生起率ＤＢ１０２と同様に、あらゆる品詞のうちの任意の２つの品詞からなる品詞系列について、その直前、当該２つの品詞の間、及び当該２つの品詞の直後のそれぞれにおいて句読点が生起する度合い、すなわち句読点生起率が予め記憶されている。

句読点生起率推定部３１２は、図１の句読点生起率推定部１０３と同様に、言語解析部１０１で入力テキストに対し行った言語解析の結果得られる、当該入力テキストに対応する形態素系列中の連続する２つの形態素の間（２つの形態素の境界）の句読点生起率を求める。すなわち、ここでは、当該入力テキストの先頭の形態素から数えて、「ｊ−１」番目と「ｊ」番目の２つの連続する形態素の間の句読点生起率、すなわち、「ｊ」番目の形態素の直前の形態素境界における句読点生起率として、以下に示すような「Ｉ＋１」個の句読点生起率を求める。なお、Ｉは「１」以上の任意の正の整数である。

（３）当該入力テキストの「ｊ−Ｉ」番目の形態素からＩ個の形態素で構成される形態素系列ｖ^{（ｊ−Ｉ）}における、「ｊ」番目の形態素の直前の形態素境界での句読点生起率Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}）。これを第Ｉの句読点生起率Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}）とする。

そして、「Ｉ＋１」個の第１〜第Ｉの句読点生起率からなる句読点生起率ベクター（Ｐ_０（ｖ^（ｊ）），Ｐ_１（ｖ^{（ｊ−１）}），…，Ｐ_Ｉ（ｖ^{（ｊ−Ｉ）}））を出力する。

例えば、Ｉ＝２とすると、句読点生起率推定部３１２は、「ｊ−１」番目と「ｊ」番目の２つの連続する形態素の間の句読点生起率として、以下に示すような第１〜第３の句読点生起率を上記句読点生起率ＤＢ３１１から検索する。

句読点生起率推定部３１２は、入力テキスト中の連続する２つの形態素毎に、この２つの形態素の間の句読点生起率として、上記第１〜第３の句読点生起率からなる句読点生起率ベクター（Ｐ_０（ｖ^（ｊ））、Ｐ_１（ｖ^{（ｊ−１）}）、Ｐ_２（ｖ^{（ｊ−２）}）を出力する。

接続強度計算部３１３は、図１の接続強度計算部１０４と同様に、入力テキスト中の連続する２つの形態素毎の上記句読点生起率ベクターから、当該連続する２つの形態素間の接続強度を算出する。

韻律制御規則ＤＢ１０６は、図１の韻律制御規則生成装置で生成された韻律制御規則が記憶されている。

韻律制御規則適用部３１５は、言語解析部３０１で得られた形態素情報や、接続強度計算部３１３で得られた形態素間の接続強度などを用いて、韻律制御規則ＤＢ１０６に記憶されている韻律制御規則を選択して、韻律情報を生成する。

図８は、図７の音声合成装置の処理動作を説明するためのフローチャートである。なお図８において、図５と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図８において、テキストが入力され、当該入力テキストから、形態素間の接続強度を求めるまでの処理動作（ステップＳ１〜ステップＳ７）は、図５と同様である。

韻律制御規則適用部３１５は、ステップＳ１〜ステップＳ７の処理により、入力テキストから得られた形態素情報、形態素間の接続強度を用いて、韻律制御規則ＤＢ１０６に記憶されている韻律制御規則の中から、当該形態素情報や形態素間の接続強度などが条件にマッチする韻律制御規則を検索し、当該検索された韻律制御規則を用いて、韻律情報を生成する（ステップＳ１０）。

次に、ステップＳ１１へ進み、音声波形生成部３２１は、生成された韻律情報やテキストの読みを用いて、入力テキストに対応する合成音声の波形を生成する。

（第４の実施形態）
図９は、本発明の第４の実施形態に係る音声合成装置を示すブロック図である。この音声合成装置は、第２の実施形態で説明した図６の韻律制御規則生成装置で生成される韻律制御規則を用いて、入力されたテキストに対応する音声合成を行う。なお、ここでは、形態素を言語単位とする。

なお、図９において、図７と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図９のでは、韻律境界推定規則適用部３３１と、図６の韻律境界推定規則ＤＢ１１２とが追加されている。そして、韻律制御規則適用部３１５は、韻律制御規則適用部３１５で求めた、形態素間の韻律境界の種類や、言語解析部３０１で得られた形態素情報などを用いて、韻律制御規則ＤＢ１０６に記憶されている韻律制御規則を選択し、韻律情報を生成する。

なお、言語解析部３０１、句読点生起率推定部３１２、接続強度計算部３１３、韻律制御規則適用部３１５、音声波形生成部３２１、韻律境界推定規則適用部３３１等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。

韻律境界推定規則ＤＢ１１２には、図６の韻律制御規則生成装置で生成された韻律境界推定規則が記憶され、韻律制御規則ＤＢ１０６には、図６の韻律制御規則生成装置で生成された韻律制御規則が記憶されている。

図１０は、図９の音声合成装置の処理動作を説明するためのフローチャートである。なお図１０において、図５，図８と同一部分には同一符号を付し、異なる部分について説明する。すなわち、図１０において、テキストが入力され、当該入力テキストから、形態素間の接続強度を求めるまでの処理動作（ステップＳ１〜ステップＳ７）は、図５、図８と同様である。

韻律境界推定規則適用部３３１は、ステップＳ１〜ステップＳ７の処理により、入力テキストから得られた形態素情報、形態素間の接続強度などを用いて、韻律境界推定規則ＤＢ１１２に記憶されている韻律境界推定規則の中から、当該形態素情報や形態素間の接続強度などが条件にマッチする韻律境界推定規則を検索し、当該検索された韻律境界推定規則に含まれる判定結果が韻律境界（例えば、韻律語境界や韻律フレーズ境界や呼気段落境界など）である形態素境界を求める（ステップＳ１２）。

次に、ステップＳ１３へ進み、韻律制御規則適用部３１５は、言語解析部３０１で得られた形態素情報や、韻律境界推定規則適用部３３１で求めた韻律境界などを用いて、韻律制御規則ＤＢ１０６に記憶されている韻律制御規則のなかから、当該形態素情報や韻律境界などが条件にマッチする韻律制御規則を検索し、当該検索された韻律制御規則を用いて韻律情報を生成する。

さらにステップＳ１４へ進み、音声波形生成部３２１は、生成された韻律情報やテキストの読みを用いて、入力テキストに対応する合成音声の波形を生成する。

（第５の実施形態）
図５は、本発明の第５の実施形態に係る音声合成装置を示すブロック図である。なお、図１１において、図９と同一部分には同一符号を付している。なお、ここでも、形態素を言語単位として説明する。

図１１の音声合成装置は、第２の実施形態で説明した図６の韻律制御規則生成装置で生成された複数の（例えば、ここでは５つの）韻律境界推定規則ＤＢ１１２ａ〜１１２ｅを用いて韻律境界の種類を求める点が、図９と大きく異なる。そして、このために、図１１の音声合成装置では、複数の（例えば、ここでは５つの）韻律境界推定規則ＤＢ１１２ａ〜１１２ｅ、韻律境界候補解選択部３４１、韻律境界認定部３４２が追加されている。そして、図１０のステップＳ１２の処理が、図９の音声合成装置と異なる。

なお、言語解析部３０１、句読点生起率推定部３１２、接続強度計算部３１３、韻律制御規則適用部３１５、音声波形生成部３２１、韻律境界候補解選択部３４１、韻律境界認定部３４２等の各機能は、プログラムをコンピュータに実行させることにより実現することができる。

複数の韻律境界推定規則ＤＢ１１２ａ〜１１２ｅは、例えば異なる人物の音声データの韻律境界情報から図６の韻律制御規則生成装置で生成された韻律境界推定規則がそれぞれ記憶されている。

ステップＳ１２において、韻律境界候補解選択部３４１は、まず、これら複数の韻律境界推定規則ＤＢ１１２ａ〜１１２ｅのそれぞれから、入力テキストから得られた形態素情報、形態素間の接続強度などが条件にマッチする韻律境界推定規則を検索する。韻律境界推定規則ＤＢＤＢ１１２ａ〜１１２ｅのそれぞれから検索された複数の（ここでは、例えば５つの）韻律境界推定規則に含まれている韻律境界であるか否かの判定結果、あるいは、韻律語境界・韻律フレーズ境界・呼気段落境界、一般境界などの韻律境界の種類の判定結果を、候補解（１）〜（５）とする。

例えば、入力テキスト中の次のような条件を満たす形態素の場合、当該形態素とその直前の形態素との間の韻律境界の種類を推定する場合について説明する。

「（当該形態素の直前の形態素の主要品詞＝名詞）
ａｎｄ（当該形態素の主要品詞＝副詞）
ａｎｄ（当該形態素とその直前の形態素との間の接続強度＞２５）」
韻律境界候補解選択部３４１は、この条件にマッチする韻律境界推定規則を、韻律境界推定規則ＤＢＤＢ１１２ａ〜１１２ｅのそれぞれから検索する。

韻律境界推定規則ＤＢ１１２ａ、１１２ｂ、１１２ｃから、「ｔｈｅｎ」以下の判定結果が「韻律フレーズ境界」である韻律境界推定規則が得られ、韻律境界推定規則ＤＢＤＢ１１２ｄ、１１２ｅから、判定結果が「韻律語境界」である韻律境界推定規則が得られたとする。

次に、韻律境界認定部３４２は、得られた候補解（１）〜（５）の中に、予め定められた回数以上で、しかも最も数の多い判定結果を、当該境界における韻律境界の種類と決定する。

例えば、上記例の場合、「韻律フレーズ境界」という判定結果が３つ、「韻律語境界」という判定結果が２つであるから、多数決により、当該境界は「韻律フレーズ境界」と決定する。

このようにして、ステップＳ１２では、形態素間の境界の種別が決定すると、ステップＳ１３へ進み、韻律制御規則適用部３１５は、言語解析部３０１で得られた形態素情報や、韻律境界認定部３４２で求めた韻律境界などを用いて、韻律制御規則ＤＢ１０６に記憶されている韻律制御規則のなかから、当該形態素情報や韻律境界などが条件にマッチする韻律制御規則を検索し、当該検索された韻律制御規則を用いて韻律情報を生成する。

以上説明したように、上記第１乃至第２の実施形態によれば、大規模のテキストデータベースから求めた句読点生起率、あるいは、言語単位境界の接続強度を用いることで、小規模の音声データベースから韻律制御規則を機械学習の手法で容易に構築することができる。また、構文解析を用いることなく、自然性の高い韻律を出力できる韻律制御規則を生成できる。

句読点生起率は事前に計算してデータベース化することが出来る。そのため、上記第３〜第５の実施形態によれば、上記第１乃至第２の実施形態で生成された韻律制御規則を用いて音声合成の韻律制御を行うことにより、計算量を大幅に削減することができ、計算能力の比較的低い組込システムにも容易に適用する応用しやすい音声合成装置が得られる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る韻律制御規則生成装置の構成例を示す図。句読点生起率データベースに記憶されている情報を説明するための図。句読点生起率データベースに記憶されている情報を示す図。句読点生起率推定部で求める句読点生起率について説明するための図。図１の韻律制御規則生成装置の処理動作を説明するためのフローチャート。第２の実施形態に係る韻律制御規則生成装置の構成例を示す図。第３の実施形態に係る音声合成装置の構成例を示すブロック図。図７の音声合成装置の処理動作を説明するためのフローチャート。第４の実施形態に係る音声合成装置の構成例を示すブロック図。図９の音声合成装置の処理動作を説明するためのフローチャート。第５の実施形態に係る音声合成装置の構成例を示すブロック図。

符号の説明

１０１…言語解析部、１０２…句読点生起率データベース、１０３…句読点生起率推定部、１０４…接続強度計算部、１０５…韻律制御規則生成部、１０６…韻律制御規則データベース、１１１…韻律境界推定規則生成部、１１２…韻律境界推定規則データベース

Claims

入力テキストを言語単位に切り分ける第１のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第２のステップと、
前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第３のステップと、
を含むことを特徴とする韻律制御規則生成方法。
前記言語単位間の韻律境界の種類は、韻律語境界、韻律フレーズ境界、及び呼気段落境界のうち少なくとも１つと、これらのいずれでもない言語単位境界とを含むことを特徴とする請求項１記載の韻律制御規則生成方法。
前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第４のステップと、
をさらに含むことを特徴とする請求項１記載の韻律制御規則生成方法。
前記第２のステップは、前記入力テキストの先頭から「ｊ−１」（ｊは正の整数）番目の言語単位と「ｊ」番目の言語単位との間の境界における句読点生起率を、「ｊ−ｉ」（ｉ＝０，１，…Ｉ、Ｉは１以上の正の整数）番目の言語単位からＩ個の言語単位で構成される全部で「Ｉ＋１」個の言語単位系列のそれぞれから推定することを特徴とする請求項１記載の韻律制御規則生成方法。
「ｊ−１」番目の言語単位と「ｊ」番目の言語単位との間の境界における句読点生起率は、各言語単位系列の品詞の並びから推定される「ｊ−１」番目の言語単位と「ｊ」番目の言語単位との間の境界における第１乃至第「Ｉ＋１」の句読点生起率の加重平均値であることを特徴とする請求項４記載の韻律制御規則生成方法。
入力テキストを言語単位に切り分ける第１のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第２のステップと、
前記第２のステップで求めた言語単位間の句読点生起率を基に当該言語単位間の韻律境界の種類を決定する第３のステップと、
前記第３のステップで決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する第４のステップと、
選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する第５のステップと、
を含む音声合成方法。
前記第３のステップは、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則群のなかから、少なくとも前記第２のステップで求めた言語単位間の句読点生起率が前記条件を満たす韻律境界推定規則を選択し、当該選択された韻律境界推定規則から、当該言語単位間の韻律境界の種類を決定することを特徴とする請求項６記載の音声合成方法。
前記第４のステップは、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則群のなかから、少なくとも前記第３のステップで決定された言語単位間の韻律境界の種類が前記条件を満たす韻律制御規則を選択することを特徴とする請求項６記載の音声合成方法。
前記第３のステップは、言語単位間の句読点生起率を含む、言語単位間の韻律境界の種類を決定するための複数の韻律境界推定規則群から、少なくとも前記第２のステップで求めた言語単位間の句読点生起率が前記条件を満たす複数の韻律境界推定規則をそれぞれ選択し、当該選択された複数の韻律境界推定規則から、当該言語単位間の韻律境界の種類を多数決により決定することを特徴とする請求項６記載の音声合成方法。
前記韻律境界推定規則は、言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に生成されることを特徴とする請求項７または９記載の音声合成方法。
前記韻律制御規則は、言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に生成されることを特徴とする請求項８記載の音声合成方法。
入力テキストを言語単位に切り分ける手段と、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する推定手段と、
前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第１の生成手段と、
を具備したことを特徴とする韻律制御規則生成装置。
前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第２の生成手段と、
をさらに具備したことを特徴とする請求項１２記載の韻律制御規則生成装置。
入力テキストを言語単位に切り分ける手段と、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する推定手段と、
前記推定手段で求めた言語単位間の句読点生起率及び言語単位の属性を基に当該言語単位間の韻律境界の種類を決定する決定手段と、
前記決定手段で決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する選択手段と、
選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する手段と、
を具備したことを特徴とする音声合成装置。
言語単位間の境界に関する複数の学習データを基に生成された、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則群を記憶する第１の記憶手段をさらに具備し、
前記決定手段は、前記韻律境界推定規則群のなかから、少なくとも前記推定手段で求めた言語単位間の句読点生起率及び当該言語単位の品詞が前記条件を満たす韻律境界推定規則を選択し、当該選択された韻律境界推定規則から、当該言語単位間の韻律境界の種類を決定することを特徴とする請求項１４記載の音声合成装置。
韻律に関する複数の学習データを基に生成された、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則群を記憶するための第２の記憶手段をさらに具備し、
前記選択手段は、前記韻律制御規則群のなかから、少なくとも前記決定手段で決定された言語単位間の韻律境界の種類が前記条件を満たす韻律制御規則を選択することを特徴とする請求項１４記載の音声合成装置。
言語単位間の境界に関する複数の学習データを基に生成された、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための複数の韻律境界推定規則群を記憶する第１の記憶手段をさらに具備し、
前記決定手段は、前記複数の韻律境界推定規則群から、少なくとも前記推定手段で求めた言語単位間の句読点生起率が前記条件を満たす複数の韻律境界推定規則をそれぞれ選択し、当該選択された複数の韻律境界推定規則から、当該言語単位間の韻律境界の種類を多数決により決定することを特徴とする請求項１４記載の音声合成装置。
コンピュータに、
入力テキストを言語単位に切り分ける第１のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点生起率を、当該境界近傍の複数の言語単位の属性を基に推定する第２のステップと、
前記入力テキスト中の言語単位間の前記句読点生起率を含む、言語単位間の境界に関する複数の学習データを基に、言語単位間の句読点生起率に対する条件を含む、言語単位間の韻律境界の種類を決定するための韻律境界推定規則を生成する第３のステップと、
を実行させるための韻律制御規則生成プログラム。
前記入力テキスト中の言語単位間の韻律境界の種類を含む、韻律に関する複数の学習データを基に、言語単位間の韻律境界の種類に対する条件を含む、音声合成のための韻律制御規則を生成する第４のステップをさらに含むことを特徴とする請求項１８記載の韻律制御規則生成プログラム。
コンピュータに、
入力テキストを言語単位に切り分ける第１のステップと、
前記入力テキスト中の言語単位間の境界における句読点の生起する度合いを示す句読点積率を、当該境界近傍の複数の言語単位の属性を基に推定する第２のステップと、
前記第２のステップで求めた言語単位間の前記句読点生起率を基に当該言語単位間の韻律境界の種類を決定する第３のステップと、
前記第３のステップで決定された言語単位間の韻律境界の種類を基に、音声合成のための韻律制御規則を選択する第４のステップと、
選択された韻律制御規則を用いて、前記入力テキストに対応する音声を合成する第５のステップと、
を実行させるための音声合成プログラム。