JPH11259095A

JPH11259095A - 音声合成方法および装置および記憶媒体

Info

Publication number: JPH11259095A
Application number: JP10057900A
Authority: JP
Inventors: Mitsuru Otsuka; 充大塚
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-03-10
Filing date: 1998-03-10
Publication date: 1999-09-24
Anticipated expiration: 2018-03-10
Also published as: US20020107688A1; EP0942410B1; EP0942410A2; DE69917961T2; EP0942410A3; JP3854713B2; US6546367B2; DE69917961D1

Abstract

(57)【要約】【課題】指定した発声時間になるように音韻系列の音韻
時間長を設定することを可能とし、発声時間の長短によ
らず自然な音韻時間長を与える。【解決手段】ステップＳ２で格納された制御データに基
づいて音韻系列の発生時間Ｔを決定し、ステップＳ３で
生成された音韻系列の発声時間とする。ステップＳ４〜
ステップＳ８、Ｓ１０の繰り返しにより、音韻系列の音
韻時間長の和が該発声時間に等しくなるように設定さ
れ、合成音声の声の高さおよび前記音韻時間長に基づい
て音声素片を接続して音声波形が生成される。ここで、
各音韻の音韻時間長の設定においては、各音韻につい
て、平均値と前記標準偏差と前記最小値より決定される
音韻時間長の範囲に音韻時間長初期値を設定し（ステッ
プＳ５）、この音韻時間長初期値に基づいて音韻時間長
が設定される（ステップＳ６）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、規則合成方式によ
る音声合成方法および音声合成装置、および、音声合成
方法を実装した、コンピュータが読むことができるプロ
グラムを格納した記憶媒体に関する。

【０００２】

【従来の技術】従来の音声規則合成装置では、音韻時間
長を制御する方法として、音韻時間長に関する統計量か
ら導出した制御規則による方法（匂坂芳典、東倉洋一：
“規則による音声合成のための音韻時間長制御”、電子
通信学会論文誌、Vol.J67-A,No.7(1984)pp.629-636）、
重回帰分析の一手法である数量化Ｉ類を用いる方法（洒
寄哲也、佐々木昭一、北川博雄：“規則合成のための数
量化Ｉ類を用いた韻律制御”、音響学会講演論文集、3-
4-17(1986-10)）がある。

【０００３】

【発明が解決しようとする課題】しかしながら、上述し
た従来技術においては、音韻系列の発声時間を指定する
ことが難しいという問題がある。たとえば、制御規則に
よる方法では、指定された発声時間に対応した制御規則
の導出が難しい。また、制御規則による方法で例外的な
入力がある場合や数量化Ｉ類を用いる方法で良い推定値
が得られない場合に自然性を感じる音韻時間長に対する
誤差が大きくなる、という問題がある。

【０００４】制御規則を用いて音韻時間長を制御する場
合、統計量（平均値や標準偏差など）に対して前後の音
韻の組み合わせを考慮した重み付けや、伸縮係数の設定
などが必要になってくる。音韻の組み合わせの場合分け
や、重み付けや伸縮係数などのパラメータなど操作する
項目が多く、しかも、操作方法（制御規則）を経験則で
決めていかなければならない。音韻系列の発声時間が指
定されたときに、たとえ音韻の個数が同じでも、音韻の
組み合わせは膨大になる。どのような音韻の組み合わせ
でも、音韻時間長の和が指定された発声時間に近くなる
ような、制御規則の導出は困難である。

【０００５】本発明は上記の問題点に鑑みてなされたも
のであり、指定した発声時間になるように音韻系列の音
韻時間長を設定することを可能とし、発声時間の長短に
よらず自然な音韻時間長を与える音声合成方法および装
置および記憶媒体を提供することを目的とする。

【０００６】

【課題を解決するための手段】上記の目的を達成するた
めの本発明の一態様による音声合成装置は例えば以下の
構成を備える。すなわち、文字系列に対応する音韻系列
に従って音声素片を一定の規則に基づいて順次結合して
合成音声を出力する音声合成装置であって、音韻系列の
発声時間を決定して音韻系列の音韻時間長の和が該発声
時間に等しくなるように音韻時間長を設定する設定手段
と、合成音声の声の高さおよび前記音韻時間長に基づい
て音声素片を接続して音声波形を生成する生成手段とを
備える。

【０００７】また、本発明によれば、上記音声合成装置
で実行される音声合成方法が提供される。更に、本発明
によれば、上記音声合成方法をコンピュータに実現させ
るための制御プログラムを格納する記憶媒体が提供され
る。

【０００８】

【発明の実施の形態】以下、添付の図面を参照して本発
明の好適な実施形態を説明する。

【０００９】［第１の実施形態］図１は、第１の実施形
態の音声合成装置の構成を示すブロック図である。１０
１はＣＰＵであり、本音声規則合成装置における各種制
御を行なう。１０２はＲＯＭであり、各種パラメータや
ＣＰＵ１０１が実行する制御プログラムを格納する。１
０３はＲＡＭであり、ＣＰＵ１０１が実行する制御プロ
グラムを格納するとともに、ＣＰＵ１０１の作業領域を
提供する。１０４はハードディスク、フロッピーディス
ク、ＣＤ−ＲＯＭ等の外部記憶装置である。１０５は入
力部であり、キーボード、マウス等から構成される。１
０６はディスプレイであり、ＣＰＵ１０１の制御により
各種表示を行なう。６は音声合成部であり、合成音声を
生成する。１０７はスピーカであり、音声合成部６より
出力される音声信号（電気信号）を音声に変換して出力
する。

【００１０】図２は、第１の実施形態による音声合成装
置の機能構成を示すブロック図である。以下に示される
各機能は、ＲＯＭ１０２に格納された制御プログラムあ
るいは外部記憶装置１０４からＲＡＭ１０３にロードさ
れた制御プログラムをＣＰＵ１０１が実行することによ
って実現される。

【００１１】１は文字系列入力部であり、入力部１０５
より入力された合成すべき音声の文字系列、すなわち表
音テキストの入力処理を行なう。例えば合成すべき音声
が「音声」であるときには、「おんせい」というような
文字系列を入力する。また、この文字系列中には、発声
速度や声の高さなどを設定するための制御シーケンスな
どが含まれることもある。２は制御データ格納部であ
り、文字系列入力部１で制御シーケンスと判断された情
報や、ユーザインタフェースより入力される発声速度や
声の高さなどの制御データを内部レジスタに格納する。
３は音韻系列生成部であり、文字系列入力部１より入力
された文字系列を音韻系列へ変換する。例えば、「おん
せい」という文字系列は、「ｏ，Ｘ，ｓ，ｅ，ｉ」とい
う音韻系列へ変換される。４は音韻系列格納部であり、
音韻系列生成部３で生成された音韻系列を内部レジスタ
に格納する。なお、上述の各内部レジスタとしてはＲＡ
Ｍ１０３を用いることが可能である。

【００１２】５は音韻時間長設定部であり、制御データ
格納部２に格納された制御データの発声速度と音韻系列
格納部４に格納された音韻の種類より、音韻時間長を設
定する。６は音声合成部であり、音韻時間長設定部５で
音韻時間長の設定された音韻系列と制御データ格納部２
に格納された制御データの声の高さから、合成音声を生
成する。

【００１３】次に、音韻時間長設定部５で行なわれる音
韻時間長の設定について説明する。以下の説明におい
て、音韻集合をΩとする。Ωの例としては、 Ω＝｛a,e,i,o,u,X（撥音）,b,d,g,m,n,r,w,y,z,ch,f,
h,k,p,s,sh,t,ts,Q（促音）｝などを使用することができる。

【００１４】また、音韻時間長設定区間を呼気段落（ポ
ーズとポーズの間の区間）とする。さて、音韻時間長設
定区間の音韻系列αi（１≦ｉ≦Ｎ）を、制御データ格
納部２に格納された制御データの発声速度によって決定
される発声時間Ｔで発声するように、当該音韻系列の各
音韻αiの音韻時間長ｄiを決定する。すなわち、音韻系
列の各αi（式（１ａ））の音韻時間長ｄi（式（１
ｂ））を、式（１ｃ）を満足するように決定する。

【００１５】

【数１】

【００１６】ここで、音韻αiの音韻時間長初期値をｄ
αi0とする。また、音韻αiに関して、音韻時間長の平
均、標準偏差、最小値をそれぞれμαi，σαi，ｄαim
inとする。そして、これらの値を用いて、以下に示す式
（２）に従ってｄαiを決定し、これを新たな音韻時間
長初期値とする。すなわち、音韻時間長の平均値、標準
偏差値、最小値を音韻の種類毎（αi毎）に求め、これ
をメモリに格納しておき、これらの値を用いて音韻時間
長の初期値を決定しなおす。

【００１７】

【数２】

【００１８】こうして得られた音韻時間長初期値ｄαi
を用いて、音韻時間長ｄiを式（３ａ）に従って設定す
る。なお、得られたｄiが閾値θi（＞０）に対してｄi
＜θiとなるときは、式（３ｂ）に従って設定される。

【００１９】

【数３】

【００２０】すなわち、更新された音韻時間長の初期値
の和を設定された発声時間Ｔから差引き、これを音韻時
間長の標準偏差σαiの二乗和で割った値を係数ρと
し、この係数ρと標準偏差σαiの二乗との積を当該音
韻時間長の初期値ｄαiに加えた値を、音韻時間長ｄiと
する。

【００２１】以上の動作を、図３のフローチャートを参
照して説明する。

【００２２】まず、ステップＳ１で、文字系列入力部１
より表音テキストが入力される。ステップＳ２では、外
部入力された制御データ（発声速度、声の高さ）と入力
された表音テキスト中の制御データが制御データ格納部
２に格納される。ステップＳ３で、文字系列入力部１よ
り入力された表音テキストから音韻系列生成部３におい
て音韻系列が生成される。

【００２３】次に、ステップＳ４で、次の時間長設定区
間の音韻系列が音韻系列格納部４に取り込まれる。ステ
ップＳ５で、音韻時間長設定部５において、音韻αiの
種類に応じて音韻時間長初期値ｄαiが設定される（式
（２））。ステップＳ６では、まず、制御データ格納部
２に格納された制御データの発声速度から音韻時間長設
定区間の発声時間Ｔを設定する。そして、音韻時間長設
定区間の音韻系列の音韻時間長の和が音韻時間長設定区
間の発声時間Ｔに等しくなるように、上記式（３ａ）、
（３ｂ）を用いて、音韻時間長設定区間の音韻系列の各
音韻時間長を設定する。

【００２４】ステップＳ７で、音韻時間長設定部５で音
韻時間長の設定された音韻系列と制御データ格納部２に
格納された制御データの声の高さから、合成音声が生成
される。そして、ステップＳ８で、入力された文字列に
対する最後の音韻時間長設定区間であるか否かが判別さ
れ、最後の音韻時間長設定区間でない場合はステップＳ
１０で外部入力された制御データが制御データ格納部２
に格納されてステップＳ４に戻り、処理が続けられる。

【００２５】一方、ステップＳ８で最後の音韻時間長設
定区間であると判定された場合はステップＳ９に進み、
入力が終了したか否かが判別される。入力が終了してい
ない場合はステップＳ１に戻り、上記処理が繰り返され
る。

【００２６】なお、式（２）は、音韻時間長初期値が現
実にはあり得ないような値や出現確率の低い値に設定さ
れるのを防ぐためのものである。音韻時間長の確率密度
が正規分布であると仮定したときに、平均値から標準偏
差の±３倍以内に入る確率は０．９９６となる。更に、
音韻時間長が短くなりすぎるのを防ぐために、標本集団
の最小値未満にはならないようにしている。

【００２７】式（３ａ）は、式（２）で設定された音韻
時間長初期値を平均値とする正規分布が各音韻時間長の
確率密度関数であると仮定して、式（１ｃ）の制約条件
のもとで最尤推定（maximum likelihood estimation）
を行った結果である。本例の最尤推定について説明する
と次のとおりである。

【００２８】音韻αiの音韻時間長の標準偏差をσαiと
する。音韻時間長の確率密度分布が正規分布であると仮
定する（式（４ａ））。このとき、音韻時間長の対数尤
度は式（４ｂ）のようになる。ここで、対数尤度を最大
にするのは、式（４ｃ）のＫを最小にするのと同値であ
る。そこで、音韻時間長の対数尤度が最大になるように
上述の式（１ｃ）を満たすｄiを決定する。

【００２９】

【数４】

【００３０】今、式（５ａ）のように変数変換を行う
と、式（４ｃ）及び式（１ｃ）は式（５ｂ）及び（５
ｃ）のようになる。Ｋが最小となるのは、球（式５
ｂ））が平面（式（５ｃ））に接するときであり、式
（５ｄ）の場合である。この結果、式（３ａ）が導かれ
る。

【００３１】

【数５】

【００３２】式（２）と式（３ａ）、（３ｂ）を総合し
て、自然発声の標本集団から求めた統計量（平均値、標
準偏差、最小値）を用いて、所望の発声時間（（１ｃ）
式）を満たす最も確からしい（尤度が最大になる）値に
音韻時間長が設定される。したがって、所望の発声時間
（（１ｃ）式）を満たすように自然発声したときに得ら
れる音韻時間長に対する誤差が小さい、という意味で自
然な音韻時間長が得られる。

【００３３】［第２の実施形態］第１の実施形態では、
発声速度（発声時間）や音韻のカテゴリにかかわらず、
各音韻αiの音韻時間長ｄiを同一の規則で決定した。第
２の実施形態では、発声速度や音韻のカテゴリに応じて
音韻時間長ｄiの決定規則を変化させ、より自然な音声
合成を可能とする。なお、第２の実施形態によるハード
ウエア構成、機能構成は第１の実施形態（図１、図２）
と同様である。

【００３４】音韻αiに関して、発声速度でカテゴリー
を分けて音韻時間長の平均値、標準偏差、最小値を求め
る。例えば、発声速度のカテゴリーを呼気段落の平均モ
ーラ時間長で表すとして、１：１２０ミリ秒未満、２：１２０ミリ秒以上１４０ミリ秒未満、３：１４０ミリ秒以上１６０ミリ秒未満、４：１６０ミリ秒以上１８０ミリ秒未満、５：１８０ミリ秒以上とする。なお、上述した項目の先頭の数字を発声速度に
対応するカテゴリーのインデックスとする。発声速度に
対応するカテゴリーのインデックスをｎとして音韻時間
長の平均値、標準偏差、最小値を求め、それぞれμαi
(ｎ)，σαi(ｎ)，ｄαimin(ｎ)とする。

【００３５】音韻αiの音韻時間長初期値をｄαi0とす
る。音韻時間長初期値ｄαi0を平均値によって決定する
音韻の集合をΩa、重回帰分析の一手法である数量化Ｉ
類（質的なデータから量的に測定される外的基準を予測
したり、説明したりするための手法）によって決定する
音韻の集合をΩrとする。ここで、Ωの要素で、Ωa，Ω
rのどちらにも含まれない要素や、両者に含まれる要素
は存在しないようにする。すなわち、以下の式（６）を
満たすようにする。

【００３６】

【数６】

【００３７】αi∈Ωaのとき、すなわちαiがΩaに属す
るときは、平均値によって音韻時間長初期値を決定す
る。すなわち、音声速度に対応するカテゴリーのインデ
ックスｎを求めて、以下の式（７）によって音韻時間長
初期値を決定する。

【００３８】

【数７】

【００３９】一方、αi∈Ωrのとき、すなわちαiがΩ
ｒに属するときは、数量化Ｉ類によって音韻時間長初期
値を決定する。ここで、要因のインデックスをｊ(１≦
ｊ≦ｊ)，各要因に対応するカテゴリーのインデックス
をｋ(１≦ｋ≦Ｋ(ｊ))として、(ｊ，ｋ)に対応する数量
化Ｉ類の係数を、ａjk とする。

【００４０】要因の一例として、１：当該音韻の２つ前の先行音韻、２：当該音韻の１つ前の先行音韻、３：当該音韻、４：当該音韻の１つ後の後続音韻、５：当該音韻の２つ後の後続音韻、６：呼気段落の平均モーラ時間長、７：呼気段落内モーラ位置、８：当該音韻を含む単語の品詞などを使用することができる。上述した項目の先頭の数
字が要因のインデックスｊに対応する。

【００４１】さらに、各要因に対応するカテゴリーの例
を述べる。音韻のカテゴリーは、１：ａ、２：ｅ、３：ｉ、４：ｏ、５：ｕ、６：Ｘ、
７：ｂ、８：ｄ、９：ｇ、10：ｍ、11：ｎ、12：ｒ、1
3：ｗ、14：ｙ、15：ｚ、16：＋、17：ｃ、18：ｆ、1
9：ｈ、20：ｋ、21：ｐ、22：ｓ、23：ｓｈ、24：ｔ、2
5：ｔｓ、26：Ｑ、27：ポーズ、とし、当該音韻のみ
“ポーズ”をはずす。実施形態において、呼気段落を音
韻時間長設定区間としているが、呼気段落はポーズを含
まないので、当該音韻からポーズをはずす。なお、呼気
段落という用語は、ポーズ（または文頭）とポーズ（ま
たは文末）の間の区間で、途中にポーズを含まないもの
という意味で使用している。

【００４２】また、呼気段落内の平均モーラ時間長のカ
テゴリは、１：１２０ミリ秒未満２：１２０ミリ秒以上１４０ミリ秒未満３：１４０ミリ秒以上１６０ミリ秒未満４：１６０ミリ秒以上１８０ミリ秒未満５：１８０ミリ秒以上とする。

【００４３】また、呼気段落内モーラ位置に関しては、１：第１モーラ２：第２モーラ３：第３モーラ以降最後から第３番目のモーラまで４：最後から２番目のモーラ５：最後のモーラとする。

【００４４】更に、品詞のカテゴリーを、１：名詞、
２：副詞的名詞、３：代名詞、４：固有名詞、５：数、
６：動詞、７：形容詞、８：形容動詞、９：副詞、10：
連体詞、11：接続詞、12：感動詞、13：助動詞、14：格
助詞、15：副助詞、16：並立助詞、17：準体助詞、18：
接続助詞、19：終助詞、20：接頭辞、21：接尾辞、22：
形動接尾、23：サ変接尾、24：形容詞接尾、25：動詞接
尾、26：助数詞とする。

【００４５】なお、要因（アイテムともいう）とは、数
量化Ｉ類での予測に使用する質的なデータの種類を意味
する。カテゴリーは、各要因毎に取りうる選択肢を意味
する。したがって、上記の例に即して説明すると、次の
ようになる。

【００４６】要因のインデックスｊ＝１：当該音韻の２
つ前の先行音韻インデックスｋ＝１に対応するカテゴリー：ａインデックスｋ＝２に対応するカテゴリー：ｅインデックスｋ＝３に対応するカテゴリー：ｉインデックスｋ＝４に対応するカテゴリー：ｏ（中略）インデックスｋ＝２６に対応するカテゴリー：Ｑインデックスｋ＝２７に対応するカテゴリー：ポーズ。

【００４７】要因のインデックスｊ＝２：当該音韻の１
つ前の先行音韻インデックスｋ＝１に対応するカテゴリー：ａインデックスｋ＝２に対応するカテゴリー：ｅインデックスｋ＝３に対応するカテゴリー：ｉインデックスｋ＝４に対応するカテゴリー：ｏ（中略）インデックスｋ＝２６に対応するカテゴリー：Ｑインデックスｋ＝２７に対応するカテゴリー：ポーズ。

【００４８】要因のインデックスｊ＝３：当該音韻インデックスｋ＝１に対応するカテゴリー：ａインデックスｋ＝２に対応するカテゴリー：ｅインデックスｋ＝３に対応するカテゴリー：ｉインデックスｋ＝４に対応するカテゴリー：ｏ（中略）インデックスｋ＝２６に対応するカテゴリー：Ｑインデックスｋ＝２７に対応するカテゴリー：ポーズ。

【００４９】要因のインデックスｊ＝４：当該音韻の１
つ後の後続音韻インデックスｋ＝１に対応するカテゴリー：ａインデックスｋ＝２に対応するカテゴリー：ｅインデックスｋ＝３に対応するカテゴリー：ｉインデックスｋ＝４に対応するカテゴリー：ｏ（中略）インデックスｋ＝２６に対応するカテゴリー：Ｑインデックスｋ＝２７に対応するカテゴリー：ポーズ。

【００５０】要因のインデックスｊ＝５：当該音韻の２
つ後の後続音韻インデックスｋ＝１に対応するカテゴリー：ａインデックスｋ＝２に対応するカテゴリー：ｅインデックスｋ＝３に対応するカテゴリー：ｉインデックスｋ＝４に対応するカテゴリー：ｏ（中略）インデックスｋ＝２６に対応するカテゴリー：Ｑインデックスｋ＝２７に対応するカテゴリー：ポーズ。

【００５１】要因のインデックスｊ＝６：呼気段落内の
平均モーラ時間長インデックスｋ＝１に対応するカテゴリー：120ミリ秒
未満インデックスｋ＝２に対応するカテゴリー：120ミリ秒
以上140ミリ秒未満インデックスｋ＝３に対応するカテゴリー：140ミリ秒
以上160ミリ秒未満インデックスｋ＝４に対応するカテゴリー：160ミリ秒
以上180ミリ秒未満インデックスｋ＝５に対応するカテゴリー：180ミリ秒
以上。

【００５２】要因のインデックスｊ＝７：呼気段落内モ
ーラ位置インデックスｋ＝１に対応するカテゴリー：第１モーラインデックスｋ＝２に対応するカテゴリー：第２モーラ（中略）インデックスｋ＝５に対応するカテゴリー：最後のモー
ラ。

【００５３】要因のインデックスｊ＝８：当該音韻を含
む単語の品詞インデックスｋ＝１に対応するカテゴリー：名詞インデックスｋ＝２に対応するカテゴリー：副詞的名詞（中略）インデックスｋ＝２６に対応するカテゴリー：助数詞となる。

【００５４】上述した項目の先頭の数字がカテゴリーの
インデックスｋに対応する。

【００５５】そして、各要因ごとに係数ａjkの平均が0
になるようにする。すなわち、式（８）を満足するよう
にする。

【００５６】

【数８】

【００５７】また、音韻αiのダミー変数を、以下のよ
うに設定する。

【００５８】

【数９】

【００５９】係数とダミー変数の積和に加える定数をｃ
0とする。このとき、音韻αiの音韻時間長の数量化Ｉ類
による推定値は、式（１０）となる。

【００６０】

【数１０】

【００６１】そして、この推定値を用いて音韻αiの音
韻時間長初期値を以下のように決定する。

【００６２】

【数１１】

【００６３】さらに、発声速度と対応するカテゴリーの
インデックスｎを求めて、当該カテゴリーの音韻時間長
の平均値、標準偏差、最小値を得て、これらを用いて音
韻時間長初期値ｄαi0を以下の式で更新する。こうして
得られたｄαiを改めて音韻時間長初期値として設定す
る。

【００６４】

【数１２】

【００６５】ここで、式中の標準偏差に掛ける係数のｒ
σは、例えば、ｒσ＝３とする。以上のようにして得ら
れた音韻時間長初期値を用いて、第１の実施形態と類似
の方法で音韻時間長を決定する。すなわち、以下の式
（１３ａ）を用いて音韻時間長ｄiを決定し、閾値θi
（＞０）に対してｄi＜θiとなるときは、式（１３ｂ）
により音韻時間長ｄiを決定する。

【００６６】

【数１３】

【００６７】以上の動作を、図３のフローチャートを流
用して説明する。ステップＳ１で、文字系列入力部１よ
り表音テキストが入力される。ステップＳ２で、外部入
力された制御データ(発声速度、音の高さ)と入力された
表音テキスト中の制御データが制御データ格納部２に格
納される。ステップＳ３で、文字系列入力部１より入力
された表音テキストから音韻系列生成部３において音韻
系列が生成される。ステップＳ４で、次の音韻時間長設
定区間の音韻系列が音韻系列格納部４に取り込まれる。

【００６８】ステップＳ５では、音韻時間長設定部５に
おいて、制御データ格納部２に格納された制御データの
発声速度、音韻時間長の平均値と標準偏差と最小値、お
よび、数量化Ｉ類による音韻時間長推定値を用いて、上
述した方法により、音韻の種類（カテゴリ）に応じて音
韻時間長初期値が設定される。

【００６９】ステップＳ６では、音韻時間長設定部５に
おいて、制御データ格納部２に格納された制御データの
発声速度から音韻時間長設定区間の発声時間を設定し、
音韻時間長設定区間の音韻系列の音韻時間長の和が音韻
時間長設定区間の発声時間に等しくなるように、音韻時
間長設定区間の音韻系列の音韻時間長を上述した方法に
より設定する。

【００７０】ステップＳ７で、音韻時間長設定部５で音
韻時間長の設定された音韻系列と制御データ格納部２に
格納された制御データの声の高さから、合成音声が生成
される。ステップＳ８で、入力された文字列に対する最
後の音韻時間長設定区間であるか否かが判別される。最
後の音韻時間長設定区間でない場合はステップＳ１０へ
進む。ステップＳ１０では、外部入力された制御データ
が制御データ格納部２に格納されてステップＳ４に戻
り、処理が続けられる。一方、最後の音韻時間長設定区
間である場合はステップＳ９に進み、入力が終了したか
否かが判別され、終了していない場合はステップＳ１に
戻り、処理が続けられる。

【００７１】なお、上記各実施形態における構成は本発
明の一実施形態を示したものであり、各種変形が可能で
ある。変形例を示せば以下の通りである。

【００７２】（１）上述した各実施形態において音韻集
合Ωは一例であり、それ以外の集合も使用でき、言語や
音韻の種類に応じて音韻集合の要素を決めることができ
る。また、本発明は日本語以外の言語にも適用可能であ
る。

【００７３】（２）上述した実施形態において、呼気段
落は音韻時間長設定区間の一例であり、他にも、単語、
形態素、文節、文などを音韻時間長設定区間とすること
ができる。なお、文を音韻時間長設定区間とするとき
は、当該音韻のポーズを考慮する必要がある。

【００７４】（３）上述した実施形態において、音韻時
間長の初期値として設定する値として、自然発声した音
声の音韻時間長を使用することができる。また、他の音
韻時間長制御規則によって決定した値や数量化Ｉ類を用
いて推定した値を使用することもできる。

【００７５】（４）上述した第２の実施形態において、
音韻時間長の平均値を求めるのに使用する発声速度のカ
テゴリーは一例を示すものであり、他のカテゴリーを用
いても良い。

【００７６】（５）上述した第２の実施形態において、
数量化Ｉ類の要因とカテゴリーは一例を示すものであ
り、他の要因やカテゴリーを用いても良い。

【００７７】（６）上述した実施形態において、音韻時
間長初期値の設定に使用する標準偏差に掛ける係数ｒσ
＝３は、一例を示すものであり、他の値を用いてもよ
い。

【００７８】また、本発明の目的は、前述した実施形態
の機能を実現するソフトウェアのプログラムコードを記
録した記憶媒体を、システムあるいは装置に供給し、そ
のシステムあるいは装置のコンピュータ（またはＣＰＵ
やＭＰＵ）が記憶媒体に格納されたプログラムコードを
読出し実行することによっても、達成されることは言う
までもない。

【００７９】この場合、記憶媒体から読出されたプログ
ラムコード自体が前述した実施形態の機能を実現するこ
とになり、そのプログラムコードを記憶した記憶媒体は
本発明を構成することになる。

【００８０】プログラムコードを供給するための記憶媒
体としては、例えば、フロッピディスク，ハードディス
ク，光ディスク，光磁気ディスク，ＣＤ−ＲＯＭ，ＣＤ
−Ｒ，磁気テープ，不揮発性のメモリカード，ＲＯＭな
どを用いることができる。

【００８１】また、コンピュータが読出したプログラム
コードを実行することにより、前述した実施形態の機能
が実現されるだけでなく、そのプログラムコードの指示
に基づき、コンピュータ上で稼働しているＯＳ（オペレ
ーティングシステム）などが実際の処理の一部または全
部を行い、その処理によって前述した実施形態の機能が
実現される場合も含まれることは言うまでもない。

【００８２】さらに、記憶媒体から読出されたプログラ
ムコードが、コンピュータに挿入された機能拡張ボード
やコンピュータに接続された機能拡張ユニットに備わる
メモリに書込まれた後、そのプログラムコードの指示に
基づき、その機能拡張ボードや機能拡張ユニットに備わ
るＣＰＵなどが実際の処理の一部または全部を行い、そ
の処理によって前述した実施形態の機能が実現される場
合も含まれることは言うまでもない。

【００８３】

【発明の効果】以上説明したように、本発明によれば、
指定した発声時間になるように音韻系列の音韻時間長を
設定することが可能となり、発声時間の長短によらず自
然な音韻時間長を与えることが可能である。

【００８４】

【図面の簡単な説明】

【図１】本発明の実施形態に係る音声合成装置の構成を
示すブロック図である。

【図２】本発明の実施形態に係る音声合成装置の機能構
成を示すブロック図である。

【図３】本発明の実施形態に係る音声合成手段を示すフ
ローチャートである。

【符合の説明】

１文字系列入力部２制御データ格納部３音韻系列生成部４音韻系列格納部５音韻時間長設定部６音声合成部

Claims

【特許請求の範囲】

【請求項１】文字系列に対応する音韻系列に従って音
声素片を一定の規則に基づいて順次結合して合成音声を
出力する音声合成装置であって、音韻系列の発声時間を決定して音韻系列の音韻時間長の
和が該発声時間に等しくなるように音韻時間長を設定す
る設定手段と、合成音声の声の高さおよび前記音韻時間長に基づいて音
声素片を接続して音声波形を生成する生成手段と、を備えることを特徴とする音声合成装置。
【請求項２】音韻時間長の平均値と標準偏差と最小値
を音韻の種類ごとに格納する格納手段を更に備え、前記設定手段は、前記格納手段に格納された値を用い
て、前記音韻系列の音韻時間長の和が前記発声時間に等
しくなるように、該音韻系列における各音韻の音韻時間
長を設定することを特徴とする請求項１に記載の音声合
成装置。
【請求項３】前記設定手段は、各音韻について、前記平均値と前記標準偏差と前記最小
値より決定される音韻時間長の範囲に音韻時間長初期値
を設定する第１設定手段と、前記音韻時間長初期値に基づいて音韻時間長を設定する
第２設定手段とを備えることを特徴とする請求項２に記
載の音声合成装置。
【請求項４】前記第２設定手段は、各音韻に対応する
前記音韻時間長初期値の和を発声時間から減じた値を、
各音韻に対応する標準偏差の二乗和で割った値を係数と
し、各音韻について、該係数と当該音韻の標準偏差の二
乗との積を当該音韻の音韻時間長初期値に加えた値を音
韻時間長として設定することを特徴とする請求項３に記
載の音声合成装置。
【請求項５】前記第１設定手段は、音韻の種類に応じ
て、前記平均値、または重回帰分析による音韻時間長推
定値のいずれかを用いて音韻時間長初期値を設定するこ
とを特徴とする請求項３に記載の音声合成装置。
【請求項６】前記設定手段で用いられる各音韻の平均
値、標準偏差、最小値は、発声速度に基づいた分類毎に
用意されることを特徴とする請求項５に記載の音声合成
装置。
【請求項７】文字系列に対応する音韻系列に従って音
声素片を一定の規則に基づいて順次結合して合成音声を
出力する音声合成方法であって、音韻系列の発声時間を決定して音韻系列の音韻時間長の
和が該発声時間に等しくなるように音韻時間長を設定す
る設定工程と、合成音声の声の高さおよび前記音韻時間長に基づいて音
声素片を接続して音声波形を生成する生成工程と、を備えることを特徴とする音声合成方法。
【請求項８】前記設定工程は、音韻時間長の平均値と
標準偏差と最小値を音韻の種類ごとに格納する格納手段
に格納された各値を用いて、前記音韻系列の音韻時間長
の和が前記発声時間に等しくなるように、該音韻系列に
おける各音韻の音韻時間長を設定することを特徴とする
請求項７に記載の音声合成方法。
【請求項９】前記設定工程は、各音韻について、前記平均値と前記標準偏差と前記最小
値より決定される音韻時間長の範囲に音韻時間長初期値
を設定する第１設定工程と、前記音韻時間長初期値に基づいて音韻時間長を設定する
第２設定工程とを備えることを特徴とする請求項８に記
載の音声合成方法。
【請求項１０】前記第２設定工程は、各音韻に対応す
る前記音韻時間長初期値の和を発声時間から減じた値
を、各音韻に対応する標準偏差の二乗和で割った値を係
数とし、各音韻について、該係数と当該音韻の標準偏差
の二乗との積を当該音韻の音韻時間長初期値に加えた値
を音韻時間長として設定することを特徴とする請求項９
に記載の音声合成方法。
【請求項１１】前記第１設定工程は、音韻の種類に応
じて、前記平均値、または重回帰分析による音韻時間長
推定値のいずれかを用いて音韻時間長初期値を設定する
ことを特徴とする請求項９に記載の音声合成方法。
【請求項１２】前記設定工程で用いられる各音韻の平
均値、標準偏差、最小値は、発声速度に基づいた分類毎
に用意されることを特徴とする請求項１１に記載の音声
合成方法。
【請求項１３】文字系列に対応する音韻系列に従って
音声素片を一定の規則に基づいて順次結合して合成音声
を生成する処理をコンピュータに実現させるための制御
プログラムを格納する記憶媒体であって、該制御プログ
ラムが、音韻系列の発声時間を決定して音韻系列の音韻時間長の
和が該発声時間に等しくなるように音韻時間長を設定す
る設定工程のコードと、合成音声の声の高さおよび前記音韻時間長に基づいて音
声素片を接続して音声波形を生成する生成工程のコード
とを備えることを特徴とする記憶媒体。