JP3560590B2 - 韻律生成装置および韻律生成方法並びにプログラム - Google Patents
韻律生成装置および韻律生成方法並びにプログラム Download PDFInfo
- Publication number
- JP3560590B2 JP3560590B2 JP2002063640A JP2002063640A JP3560590B2 JP 3560590 B2 JP3560590 B2 JP 3560590B2 JP 2002063640 A JP2002063640 A JP 2002063640A JP 2002063640 A JP2002063640 A JP 2002063640A JP 3560590 B2 JP3560590 B2 JP 3560590B2
- Authority
- JP
- Japan
- Prior art keywords
- prosody
- change point
- pattern
- generation device
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 33
- 230000008859 change Effects 0.000 claims abstract description 406
- 238000007619 statistical method Methods 0.000 claims abstract description 31
- 238000000605 extraction Methods 0.000 claims description 52
- 239000011295 pitch Substances 0.000 claims description 43
- 238000011002 quantification Methods 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 23
- 241001417093 Moridae Species 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 238000013519 translation Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000000491 multivariate analysis Methods 0.000 claims description 3
- 230000033764 rhythmic process Effects 0.000 abstract description 12
- 230000001020 rhythmical effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 230000008901 benefit Effects 0.000 description 5
- 230000007704 transition Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Description
【発明の属する技術分野】
本発明は、音声の分析により抽出された韻律データおよび韻律制御規則に基づき韻律情報を生成する韻律生成装置および韻律生成方法に関するものである。
【0002】
【従来の技術】
従来、例えば特開平11−95783号公報に開示されているように、音声データに含まれる韻律情報をアクセント句のような韻律制御単位でクラスタリングし、代表パタンを生成する技術が知られている。生成された代表パタンから選択規則に従って選択された代表パタンを、変形規則に従って変形して接続することにより、文全体の韻律が生成される。前記代表パタンの選択規則および変形規則は、統計的手法あるいは学習により生成される。
【0003】
【発明が解決しようとする課題】
しかし、このような従来の韻律生成方法では、代表パタンを作成する際に使用した音声データ中に含まれなかった属性、たとえばモーラ数やアクセント型、を持つアクセント句のための韻律情報を生成する場合の歪みが大きいという問題を有していた。
【0004】
この発明は、上記の問題に鑑み、韻律パタンを生成する際のひずみを抑え、自然な韻律を生成する韻律生成装置および韻律生成方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
上記の目的を達成するために、本発明にかかる第1の韻律生成装置は、音韻情報および言語情報を入力して韻律を生成する韻律生成装置であって、(ア)音声データの韻律変化点を含む部分の代表韻律パタンをあらかじめ蓄積した代表韻律パタン記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた選択規則を記憶する選択規則記憶部、(ウ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた変形規則を記憶する変形規則記憶部、を参照可能であり、入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定する韻律変化点設定部と、前記選択規則により、入力された音韻情報および言語情報に従って、前記代表韻律パタン記憶部から代表韻律パタンを選択するパタン選択部と、前記パタン選択部により選択された代表韻律パタンを前記変形規則により変形し、韻律変化点を含まない部分については、選択し変形した前記韻律変化点を含む部分の代表韻律パタンの間を補間する韻律生成部とを備えたことを特徴とする。
【0006】
なお、(ア)代表韻律パタン記憶部、(イ)選択規則記憶部、および(ウ)変形規則記憶部は、韻律生成装置の内部に含まれていてもよいし、韻律生成装置とは別個の装置として、本発明にかかる韻律生成装置からアクセス可能な状態で設けられていてもよい。あるいは、これらの記憶部を、韻律生成装置が読み取り可能な記録媒体により実現することも可能である。
【0007】
韻律変化点とは、音声のピッチあるいはパワーが他の領域に比べて急峻に変化する、または音声のリズムが他の領域に比べて急峻に変化するような少なくとも1音素以上の時間幅を持つ区間をいい、具体的には、日本語の場合、アクセント句の開始点、アクセント句の終端、アクセント句終端から次のアクセント句への接続点、アクセント句中1モーラ目から3モーラ目に含まれるアクセント句中でピッチが最大となる点、アクセント核、アクセント核の後続モーラ、アクセント核から後続のモーラへの接続点、文頭、文末、呼気段落頭、呼気段落末等、卓立、または強調等を含む。
【0008】
上記の構成によれば、従来のようにアクセント句等を韻律制御単位として使用する場合と異なり、韻律変化点を韻律制御単位として用いることによって韻律を生成し、韻律変化点以外の部分については補間により韻律を生成する。これにより、歪みが少なく自然な韻律を生成する韻律生成装置を提供できる。また、アクセント句のように大きな単位でパタンを持つ場合と比較して、本発明の場合は、より小さな単位(韻律変化点)に対応するパタンを用いることにより、保持すべきパタンそのもののバリエーションが少なく、パタン1つ1つのデータ量も少ないので、韻律生成のために保持すべきデータが少なくてすむという点で有利である。さらに、従来のように、アクセント句のように大きな単位で自然音声データよりパタンを生成する場合は、自然音声データに含まれていない属性をもったパタンは、他の属性のパタンを元に変形して生成する必要があるが、この際に歪みが生じるという問題があった。これに対し、本発明の場合は、韻律変化点のようなより小さな単位で韻律を制御し、パタン間を補間することで、パタンの変形を最小限にとどめ、歪みの少ない韻律を生成することができる。
【0009】
なお、韻律変化点のみならず、韻律変化点に隣接する1モーラ、または1音節、あるいは1音素をも韻律制御単位に含めることとし、この韻律制御単位を用いて韻律を生成し、韻律変化点およびこれに隣接する1モーラ、または1音節、あるいは1音素以外の部分(すなわち韻律制御単位以外の部分)については補間により韻律を生成するようにしてもよい。これにより、韻律変化点と隣接する1モーラ、または1音節、あるいは1音素の部分と補間部分との不連続がなく、歪みが少なく自然な韻律を生成する韻律生成装置を提供できる。
【0010】
前記第1の韻律生成装置において、前記代表韻律パタンが、ピッチパタンまたはパワーパタンであることが好ましい。
【0011】
前記第1の韻律生成装置において、前記代表韻律パタンは、音声データの韻律変化点を含む部分のパタンを統計的手法によりクラスタリングし、得られたクラスタごとに生成されたパタンであることが好ましい。
【0012】
また、上記の目的を達成するために、本発明にかかる第2の韻律生成装置は、音韻情報および言語情報を入力して韻律を生成する韻律生成装置であって、(ア)音声データの韻律変化点の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の変化量推定規則を記憶する変化量推定規則記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の絶対値推定規則を記憶する絶対値推定規則記憶部、を参照可能であり、入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定する韻律変化点設定部と、前記変化量推定規則記憶部の推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の変化量を推定する変化量推定部と、前記絶対値推定規則記憶部の絶対値推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の絶対値を推定する絶対値推定部と、韻律変化点については、前記変化量推定部により推定された変化量を前記絶対値推定部により求められた絶対値に対応するよう移動させて韻律を生成し、韻律変化点以外の部分についての韻律を、前記韻律変化点について生成された韻律の間を補間することにより生成する、韻律生成部とを備えたことを特徴とする。
【0013】
なお、(ア)変化量推定規則記憶部、および(イ)絶対値推定規則記憶部、は、韻律生成装置の内部に含まれていてもよいし、韻律生成装置とは別個の装置として、本発明にかかる韻律生成装置からアクセス可能な状態で設けられていてもよい。あるいは、これらの記憶部を、韻律生成装置が読み取り可能な記録媒体により実現することも可能である。
【0014】
この第2の韻律生成装置によれば、韻律変化点の変化量を推定することにより、韻律のパタンデータが不要である。従って、韻律生成のために保持すべきデータ量がさらに少なくてすむという利点がある。また、韻律パタンを用いず、韻律変化点の変化量を推定することにより、パタン変形による歪みが生じない。さらに、固定された韻律パタンを持たず、入力された音韻情報および言語情報に合わせて、韻律変化点の変化量を推定するため、より柔軟に韻律情報を生成することができる。
【0015】
前記第2の韻律生成装置において、前記韻律の変化量が、ピッチの変化量またはパワーの変化量であることが好ましい。
【0016】
前記第2の韻律生成装置において、前記変化量推定規則は、音声データの韻律変化点の韻律の変化量と、韻律変化点に対応するモーラまたは音節の音韻に関わる属性または言語情報に関わる属性との関係を統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性の少なくとも1つを用いて韻律の変化量を予測する規則であることが好ましい。さらに、この統計的手法が、韻律の変化量を基準変量とした数量化I類であることが好ましい。
【0017】
前記第2の韻律生成装置において、前記絶対値推定規則は、音声データの韻律変化点の韻律変化量計算時の基準点の絶対値と、変化点に対応するモーラまたは音節の音韻に関わる属性または言語情報に関わる属性との関係を、統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性の少なくとも1つを用いて韻律変化量計算時の基準点の絶対値を予測する規則であることが好ましい。さらに、この統計的手法が、韻律変化量計算時の基準点の絶対値を基準変量とした数量化I類、または、韻律変化量計算時の基準点の移動量を基準変量とした数量化I類であることが好ましい。
【0018】
前記第1または第2の韻律生成装置において、前記韻律変化点が、アクセント句の句頭、アクセント句の句末、およびアクセント核の少なくともいずれかを含むことが好ましい。
【0019】
また、前記第1または第2の韻律生成装置において、前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のピッチの差をΔPとして、当該ΔPと直後のΔPの符号が異なる点であるとすることもできる。さらに、前記韻律変化点は、当該ΔPと直後のΔPの絶対値の和があらかじめ定められた値を上回る点であるとしてもよい。
【0020】
あるいは、前記第1または第2の韻律生成装置において、前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のピッチの差をΔPとして、当該ΔPと直後のΔPの符号が等しく、且つ、当該ΔPと直後のΔPの比(または差)があらかじめ定められた値を上回る点であるとすることもできる。さらに、前記韻律変化点は、(1)前記ΔPを、隣接するモーラまたは音節のうち後続モーラまたは音節のピッチから、先行するモーラまたは音節のピッチを減じたものとし、当該ΔPと直後のΔPの符号が負であり、且つ、当該ΔPと直後のΔPの比が、1.5〜2.5の範囲内であらかじめ定められた値を上回る点、あるいは、(2)前記ΔPを、隣接するモーラまたは音節のうち後続モーラまたは音節のピッチから、先行するモーラまたは音節のピッチを減じたものとし、当該ΔPと直後のΔPの符号が負であり、且つ、直前のΔPの符号が正であり、当該ΔPと直後のΔPの比が、1.2〜2.0の範囲内であらかじめ定められた値を上回る点、であるとしてもよい。
【0021】
前記第1または第2の韻律生成装置において、前記韻律変化点設定部は、音声データの韻律変化点の音韻に関わる属性および言語情報に関わる属性によりあらかじめ定められた韻律変化点抽出規則に従って、入力された音韻情報および言語情報のうち少なくともいずれか1つを用いて韻律変化点を設定することが好ましい。さらに、前記韻律変化点抽出規則は、音声データの隣接するモーラまたは音節が韻律変化点であるか否かの分類と、隣接するモーラまたは音節の音韻に関わる属性または言語情報に関わる属性との関係を、統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性のうち少なくとも1つを用いて韻律変化点であるか否かを予測する規則であることが好ましい。
【0022】
前記第1または第2の韻律生成装置において、前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のパワーの差をΔAとして、当該ΔAと直後のΔAの符号が異なる点であるとしてもよい。さらに、前記韻律変化点は、当該ΔAの絶対値と直後のΔAの絶対値の和があらかじめ定められた値を上回る点であるとすることもできる。
【0023】
前記第1または第2の韻律生成装置において、前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のパワーの差をΔAとして、当該ΔAと直後のΔAの符号が等しく、且つ、当該ΔAと直後のΔAの比(または差)があらかじめ定められた値を上回る点であるとしてもよい。
【0024】
なお、上記した前記隣接するモーラまたは隣接する音節のパワーの差として、隣接するモーラまたは隣接する音節に含まれる母音のパワーの差を用いることができる。
【0025】
また、前記第1または第2の韻律生成装置において、前記韻律変化点は、音声データの隣接するモーラまたは音節または音素の時間長を音韻の種類毎に標準化した値の差をΔDとして、(1)当該ΔDがあらかじめ定められた値を上回る点、または、(2)当該ΔDと直後のΔDの符号が異なる点であるとしてもよい。さらに、(2)の場合、前記韻律変化点は、当該ΔDの絶対値と直後のΔDの絶対値の和があらかじめ定められた値を上回る点であるとすることもできる。
【0026】
また、前記第1または第2の韻律生成装置において、前記韻律変化点は、音声データの隣接するモーラまたは音節または音素の時間長を音韻の種類毎に標準化した値の差をΔDとして、当該ΔDと直後のΔDの符号が等しく、且つ、当該ΔDと直後のΔDの比(または差)があらかじめ定められた値を上回る点であるとしてもよい。
【0027】
前記の第1または第2の韻律生成装置において、前記音韻に関わる属性は、(1)アクセント句、文節、ストレス句、もしくは単語についての、音素数、モーラ数、音節数、アクセント位置、アクセントタイプ、アクセント強度、ストレスパタン、もしくはストレス強度、(2)文頭、句頭、アクセント句先頭、文節先頭、もしくは単語先頭からの、モーラ数、音節数、もしくは音素数、(3)文末、句末、アクセント句末、文節の末尾、もしくは単語の末尾からの、モーラ数、音節数、もしくは音素数、(4)隣接するポーズの有無、(5)隣接するポーズの時間長、(6)当該韻律変化点より前で最も近い位置にあるポーズの時間長、および、(7)当該韻律変化点より後で最も近い位置にあるポーズの時間長、(8)当該韻律変化点より前で最も近い位置にあるポーズからの、モーラ数、音節数、もしくは音素数、(9)当該韻律変化点より後で最も近い位置にあるポーズからのモーラ数、音節数、もしくは音素数、(10)アクセント核あるいはストレス位置からのモーラ数、音節数、もしくは音素数、のいずれか1つ以上であることが好ましい。また、前記の韻律生成装置において、前記言語情報に関わる属性は、アクセント句、文節、ストレス句、または単語についての、品詞、係り受け属性、係り先への距離、係り元への距離、構文における属性、卓立、強調、または意味分類のいずれか1つ以上であることが好ましい。このような変数を用いて定められた選択規則および変形規則を用いることにより、選択の正確さや変形量の推定精度を向上させることができる。
【0028】
前記第1の韻律生成装置において、前記選択規則は、音声データの韻律パタンを前記代表韻律パタンに対応するクラスタにクラスタリングし、各々の韻律パタンが分類されたクラスタと、各々の韻律パタンの音韻に関わる属性または言語情報に関わる属性との関係を、統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性のうち少なくとも1つを用いて当該韻律変化点を含む韻律パタンが属するクラスタを予測する規則であることが好ましい。
【0029】
前記の韻律生成装置において、前記変形は、ピッチパタンの周波数軸上での平行移動、または、ピッチパタンの周波数の対数軸上での平行移動であることが好ましい。
【0030】
前記の韻律生成装置において、前記変形は、パワーパタンの振幅軸上での平行移動、またはパワーパタンのパワー軸上での平行移動であることが好ましい。
【0031】
前記の韻律生成装置において、前記変形は、ピッチパタンの周波数軸上または対数軸上でのダイナミックレンジの圧縮あるいは伸張であることが好ましい。
【0032】
前記の韻律生成装置において、前記変形は、パワーパタンの振幅軸上またはパワー軸上でのダイナミックレンジの圧縮あるいは伸張であることが好ましい。
【0033】
前記の韻律生成装置において、前記変形規則は、音声データの韻律パタンを前記代表韻律パタンに対応するクラスタにクラスタリングし、クラスタ毎の代表韻律パタンを作成し、各々の韻律パタンが属するクラスタの代表韻律パタンとの距離と各々の韻律パタンの音韻に関わる属性または言語情報に関わる属性との関係を統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性の少なくとも1つを用いて選択した韻律パタンを変形する変形量を予測する規則であることが好ましい。
【0034】
前記の韻律生成装置において、前記変形量が、移動量、ダイナミックレンジの圧縮率、またはダイナミックレンジの伸張率であることが好ましい。
【0035】
前記の韻律生成装置において、前記統計的手法が、多変量解析、決定木、クラスタの種類を基準変量とした数量化II類、クラスタの代表韻律パタンと各々の韻律データとの距離を基準変量とした数量化I類、クラスタの代表韻律パタンの移動量を基準変量とした数量化I類、または、クラスタの代表韻律パタンのダイナミックレンジの圧縮率もしくは伸張率を基準変量とした数量化I類であることが好ましい。
【0036】
前記の韻律生成装置において、前記学習がニューラルネットを用いることが好ましい。
【0037】
前記の韻律生成装置において、前記補間が、線形補間、スプライン関数による補間、または、シグモイド曲線による補間であることが好ましい。
【0038】
さらに、上記の目的を達成するために、本発明にかかる第1の韻律生成方法は、音声情報および言語情報を入力して韻律を生成する韻律生成方法であって、入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、音声データの韻律変化点を含む部分の代表韻律パタンから、韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた選択規則により韻律パタンを選択し、韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた変形規則により前記選択した韻律パタンを変形し、韻律変化点を含まない部分については、選択し変形した前記韻律変化点を含む部分の韻律パタンの間を補間することを特徴とする。
【0039】
この方法によれば、従来のようにアクセント句等を韻律制御単位として使用する方法と異なり、韻律変化点を含む部分を韻律制御単位として用いることによって韻律を生成し、韻律変化点を含まない部分については補間により韻律を生成する。これにより、歪みが少なく自然な韻律を生成することが可能となる。
【0040】
また、上記の目的を達成するために、本発明にかかる第2の韻律生成方法は、音韻情報および言語情報を入力して韻律を生成する韻律生成方法であって、入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、音声データの韻律変化点の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の変化量推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の変化量を推定し、音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の絶対値推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の絶対値を推定し、韻律変化点については、前記変化量推定部により推定された変化量を前記絶対値推定部により求められた絶対値に対応するよう移動させて韻律を生成し、韻律変化点以外の部分についての韻律を、前記韻律変化点について生成された韻律の間を補間することにより生成する、ことを特徴とする。
【0041】
この方法によれば、従来のようにアクセント句等を韻律制御単位として使用する方法と異なり、韻律変化点を含む部分を韻律制御単位として用いることによって韻律を生成し、韻律変化点を含まない部分については補間により韻律を生成する。これにより、歪みが少なく自然な韻律を生成することが可能となる。また、パタンデータが不要であるので、韻律生成のために保持すべきデータ量がさらに少なくてすむという利点がある。
【0042】
さらに、上記の目的を達成するために、本発明にかかる第1のプログラムは、音韻情報および言語情報を入力して韻律を生成する韻律生成処理をコンピュータに実行させるプログラムであって、前記コンピュータは、(ア)音声データの韻律変化点を含む部分の代表韻律パタンをあらかじめ蓄積した代表韻律パタン記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた選択規則を記憶する選択規則記憶部、(ウ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた変形規則を記憶する変形規則記憶部、を参照可能であり、入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、前記選択規則により、入力された音韻情報および言語情報に従って、前記代表韻律パタン記憶部から代表韻律パタンを選択し、前記パタン選択部により選択された代表韻律パタンを前記変形規則により変形し、韻律変化点を含まない部分については、選択し変形した前記韻律変化点を含む部分の代表韻律パタンの間を補間する処理を、コンピュータに実行させることを特徴とする。
【0043】
さらに、上記の目的を達成するために、本発明にかかる第2のプログラムは、音韻情報および言語情報を入力して韻律を生成する韻律生成処理をコンピュータに実行させるプログラムであって、前記コンピュータは、(ア)音声データの韻律変化点の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の変化量推定規則を記憶する変化量推定規則記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の絶対値推定規則を記憶する絶対値推定規則記憶部、を参照可能であり、入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、前記変化量推定規則記憶部の推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の変化量を推定し、前記絶対値推定規則記憶部の絶対値推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の絶対値を推定し、韻律変化点については、前記変化量推定部により推定された変化量を前記絶対値推定部により求められた絶対値に対応するよう移動させて韻律を生成し、韻律変化点以外の部分についての韻律を、前記韻律変化点について生成された韻律の間を補間することにより生成する処理をコンピュータに実行させることを特徴とする。
【0044】
【発明の実施の形態】
<第1の実施形態>
以下、本発明の実施の一形態について、図1および図2を用いて説明する。
【0045】
図1は、本発明の一実施形態としての韻律生成装置の機能ブロック図であり、図2は、処理過程での情報の例を示した説明図である。
【0046】
図1に示すように、本実施形態にかかる韻律生成装置は、韻律変化点抽出部110、代表韻律パタンテーブル120、代表韻律パタン選択規則テーブル130、パターン選択部140、変形規則テーブル150、および韻律生成部160を含む。なお、本システムは、これらのすべての機能ブロックを含む単一の装置として構成することもできるし、1ないし2以上の機能ブロックを含む独立した複数の装置の結合によって構成することもできる。後者において、1つの装置が複数の機能ブロックを含む場合、前記の機能ブロックのいずれを含むかは任意である。
【0047】
韻律変化点抽出部110(韻律変化点設定部)は、合成音声用の韻律生成の対象となる音韻列と、アクセント位置やアクセント区切りあるいは品詞や係り受け等の言語情報とを入力信号とし、音韻列中の韻律変化点を抽出する。
【0048】
代表韻律パタンテーブル120は、韻律変化点を含む2モーラのピッチとパワーとをそれぞれクラスタリングし、各クラスタの代表パタンを格納したテーブルである。代表韻律パタン選択規則テーブル130は、韻律変化点の属性により代表パタンを選択するための選択規則を格納したテーブルである。パタン選択部140は、韻律変化点抽出部110より出力された韻律変化点ごとに、代表パタン選択規則テーブル130の選択規則に従って、代表韻律パタンテーブル120より、代表ピッチパタンおよび代表パワーパタンを選択する。
【0049】
変形規則テーブル150は、代表韻律パタンテーブル120に格納されたピッチパタンの周波数の対数軸上の移動量およびパワーパタンのパワーの対数軸上の移動量を決定する規則を格納したテーブルである。なお、前記移動量は対数軸上ではなく、周波数軸上またはパワー軸上の移動量であってもよい。周波数軸またはパワー軸上での変形は簡便である点で有利である。一方、対数軸上での変形は、人間の感覚量に対して線形な軸となり、変形によるひずみが聴感上少ないという利点がある。また、移動は、平行移動であってもよいし、当該軸上でのダイナミックレンジの圧縮または伸張であってもよい。
【0050】
韻律生成部160は、パタン選択部140で選択された各韻律変化点に対応するピッチパタンとパワーパタンを、変形規則テーブル150の変形規則に従って変形し、韻律変化点に対応するパタンの間を補間して入力された音韻列全体に対応するピッチおよびパワーの情報を生成する。
【0051】
下記において、以上のように構成された韻律生成装置の動作を、図2の例に従って述べる。
【0052】
韻律を生成しようとする日本語テキストが、図2のA)に示すように、「私の意見が認められたかもしれない。」である場合、図2のB)に示す「わたしのいけんが/(無音)みとめられたかもしれない」という音韻列と、図2のD)に示す、文節毎の属性としてのモーラ数およびアクセント型とが、韻律変化点抽出部110に入力される。
【0053】
韻律変化点抽出部110は、入力された音韻列より、呼気段落頭、呼気段落末、文頭および文末を抽出する。さらに、音韻列および文節属性より、アクセント句の立ちあがりおよびアクセント位置を抽出する。韻律変化点抽出部110は、また、呼気段落頭、呼気段落末、文頭、文末、さらにアクセント句とアクセント位置の情報を統合し、図2のC)に示す韻律変化点を抽出する。
【0054】
パタン選択部140は、代表パタン選択規則テーブル130の規則に従って、代表韻律パタンテーブル120より、韻律変化点毎に、図2のE)に示すピッチと、パワーのパタンを選択する。
【0055】
韻律生成部160は、パタン選択部140で韻律変化点毎に選択されたパタンを、韻律変化点の属性により設定された変形規則テーブル150の変形規則に従って、対数軸上で移動する。さらに韻律変化点毎のパタンの間を対数軸上で線形補間を行って、パタンが適用されない音韻に対応するピッチとパワーを生成し、音韻列に対応するピッチパタン、パワーパタンとして出力する。なお、線形補間の代わりに、スプライン関数またはシグモイド曲線による補間を行うことも可能であり、合成音がより滑らかにつながるという利点がある。
【0056】
代表韻律パタンテーブル120に格納するデータは、例えば、実音声より抽出した韻律変化点のピッチパタンあるいはパワーパタンについて、ピッチパタン間またはパワーパタン間の相関をパタンの組み合わせについて計算した相関行列よりパタン間の距離を計算するクラスタリング手法(1989年、東洋経済新報社発行、竹内啓他編、統計学辞典参照)によって生成される。また、クラスタリング手法は、これ以外の一般的統計手法によってもよい。
【0057】
代表韻律パタン選択規則テーブル130に格納するデータは、例えば、実音声より抽出した韻律変化点のピッチパタンもしくはパワーパタンの持つ文節の属性、または、呼気段落もしくは文中での位置等の属性といったカテゴリカルデータを説明変数とし、各ピッチパタンまたはパワーパタンがどのカテゴリに分類されるかを基準変数として、数量化II類(前記の統計学辞典参照)により求められた各変量の各カテゴリに対応する数値とし、パタン選択規則は、格納された数値を用いた数量化II類による予測式であるとする。
【0058】
なお、代表韻律パタン選択規則テーブル130に格納されるデータ数値を求める方法は、これに限らず、例えば、それぞれのピッチパタンまたはパワーパタンが分類されたカテゴリの代表値とそれぞれのパタンとの距離を基準変量とした数量化I類(前記の統計学辞典参照)、または、前記代表値の移動量を基準変量とした数量化I類により、求めることもできる。
【0059】
変形規則テーブル150に格納するデータは、例えば、実音声より抽出した韻律変化点のピッチパタンまたはパワーパタンについて、それぞれのピッチパタンまたはパワーパタンが分類されたカテゴリの代表値とそれぞれのパタンとの距離を基準変量とし、それぞれのピッチパタンもしくはパワーパタンの持つ文節の属性や呼気段落もしくは文中の位置のような属性といったカテゴリカルデータを説明変数として、数量化I類(前記の統計学辞典参照)により求められた各変量の各カテゴリに対応する数値とし、変形規則は格納された数値を用いた数量化I類による予測式であるとする。前記基準変数としては、前記代表値のダイナミックレンジの圧縮率または伸張率を用いることもできる。
【0060】
前記カテゴリカルデータとして用いることができるのは、音韻に関わる属性および言語情報に関わる属性である。前記音韻に関わる属性の例として、(1)アクセント句、文節、ストレス句、もしくは単語についての、モーラ数、音節数、アクセント位置、アクセントタイプ、アクセント強度、ストレスパタン、もしくはストレス強度、(2)文頭、句頭、アクセント句先頭、文節先頭、もしくは単語先頭からの、モーラ数、音節数、もしくは音素数、(3)文末、句末、アクセント句末、文節の末尾、もしくは単語の末尾からの、モーラ数、音節数、もしくは音素数、(4)隣接するポーズの有無、(5)隣接するポーズの時間長、(6)当該韻律変化点より前で最も近い位置にあるポーズの時間長、または、(7)当該韻律変化点より後で最も近い位置にあるポーズの時間長等をあげることができる。なお、前記(1)〜(7)のいずれか1つのみを用いてもよいし、複数を組み合わせて用いてもよい。また、前記言語情報に関わる属性としては、アクセント句、文節、ストレス句、または単語についての、品詞、係り受け属性、係り先への距離、係り元への距離、または構文における属性等のうち、いずれか1つ以上を用いることができる。このような変数を用いて定められた選択規則および変形規則を用いることにより、選択の正確さや変形量の推定精度を向上させることができる。
【0061】
なお、前述の選択規則および変形規則は、統計的手法を用いて生成するものとしたが、統計的手法としては、前述した数量化I類または数量化II類の他に、多変量解析または決定木等を用いることができる。また、統計的手法に限らず、例えばニューラルネットを用いた学習によって生成することも可能である。
【0062】
以上のように、本実施形態にかかる韻律生成装置によれば、韻律変化点を含む限られた部分のピッチパタンおよびパワーパタンを保持し、パタンの選択および変形の規則を学習あるいは統計的手法によって設定し、パタン間を補間によって求めることにより、韻律の自然性を失わずに韻律を生成することができる。また、保持すべき韻律情報を大幅に減少させることができる。
【0063】
なお、本実施形態で説明した韻律生成装置の動作をコンピュータに実行させるプログラムとして、本発明を実施することも可能である。
【0064】
<第2の実施形態>
本発明の第2の実施形態について、図3〜図10を用いて説明する。
【0065】
本実施形態にかかる韻律生成装置は、(1)自然音声に基づき、代表パタン、パタン選択規則、パタン変形規則、および変化点抽出規則を生成して蓄積する系(パタン・規則生成部)、(2)音韻情報および言語情報を入力し、前述のパタン・規則生成部で蓄積された代表パタンおよび各規則を用いて、韻律情報を生成する系(韻律情報生成部)、の二系統で構成される。本実施形態にかかる韻律生成装置は、これら両方の系を具備する単一の装置として実現することも可能であり、各系を別個の装置として実施することも可能である。以下の説明では、上記の二つの系をそれぞれ別個の装置として実施する例を示す。
【0066】
図3は、本実施形態の韻律生成装置のうち、前述のパタン・規則生成部として機能するパタン・規則生成装置の構成を示すブロック図である。図4は、前述の韻律情報生成部として機能する韻律情報生成装置の構成を示すブロック図である。図5、図6、図7、図8、図9は、図3のパタン・規則生成装置の動作を示したフローチャートである。図10は、図4の韻律情報生成装置の動作を示したフローチャートである。
【0067】
図3に示すように、本実施形態にかかるパタン・規則生成装置は、自然音声データベース2010、変化点抽出部2020、代表パタン生成部2030、代表パタン記憶部2040a、パタン選択規則生成部2050、パタン選択規則テーブル2060a、パタン変形規則生成部2070、パタン変形規則テーブル2080a、変化点抽出規則生成部2090、変化点抽出規則テーブル2100aを含む。
【0068】
また、図4に示すように、本実施形態にかかる韻律情報生成装置は、変化点設定部2110、変化点抽出規則テーブル2100b、パタン選択部2120、代表パタン記憶部2040b、パタン選択規則テーブル2060b、韻律生成部2130、パタン変形規則テーブル2080bを含む。ここで、代表パタン記憶部2040bには、図3に示すパタン・規則生成装置において代表パタン記憶部2040aに蓄積された代表パタンがコピーされる。これと同様に、パタン選択規則テーブル2060b、パタン変形規則テーブル2080b、および変化点抽出規則テーブル2100bのそれぞれには、図3に示すパタン・規則生成装置のパタン選択規則テーブル2060a、パタン変形規則テーブル2080a、変化点抽出規則テーブル2100aのそれぞれに蓄積された規則がコピーされる。なお、パタン・規則生成装置から韻律情報生成装置への代表パタンおよび各種規則のコピーは、韻律情報生成装置の出荷前にのみ実行されることとしても良いし、韻律情報生成装置の使用中にも逐次実行される仕組みとしても良い。後者の場合は、パタン・規則生成装置と韻律情報生成装置との間を適当な通信手段で適宜接続することが必要となる。
【0069】
ここで、図5〜図8を参照しながら、パタン・規則生成装置の動作について説明する。変化点抽出部2020は、自然音声とその音声に対応する音響特性データおよび言語情報を保持する自然音声データベース2010より、モーラ毎の基本周波数を抽出する。さらに、抽出したモーラ毎の基本周波数について、直前モーラとの基本周波数の差ΔPを、以下の式により求める(ステップS201)。
【0070】
ΔP=当該モーラ基本周波数−直前モーラ基本周波数
ΔPが、発話先頭あるいはポーズの直後のモーラとそれに続くモーラとの基本周波数の差である場合、あるいはΔPが発話末尾のモーラあるいはポーズ直前のモーラとその直前にあるモーラとの基本周波数の差である場合(ステップS202の結果がYes)、当該モーラと直前のモーラとを、韻律変化点として音韻列に対応させて記録する(ステップS207)。
【0071】
一方、ステップS202において、ΔPが発話先頭あるいはポーズの直後のモーラとそれに続くモーラとの基本周波数の差でなく、且つ、ΔPが発話末尾のモーラあるいはポーズ直前のモーラとその直前にあるモーラとの基本周波数の差でない場合(ステップS202の結果がNo)、直前のΔPの符号と当該ΔPの符号の組み合わせを判定する(ステップS203)。
【0072】
ステップS203にて、直前のΔPの符号が負であり、且つ、当該ΔPの符号が正である場合(ステップS203の結果がYes)、当該モーラと直前のモーラを韻律変化点として音韻列に対応させて記録する(ステップS207)。一方、ステップS203において、直前のΔPの符号が負で無いか、あるいは当該ΔPの符号が正で無い場合(ステップS203の結果がNo)、さらに直前のΔPの符号と、当該ΔPの符号との組み合わせを判定する(ステップS204)。
【0073】
ステップS204において直前のΔPの符号が正で且つその前のΔPの符号が負の場合(ステップS204の結果がYes)、当該ΔPと直後のΔPとを比較する(ステップS205)。ステップS205において当該ΔPが、直後のΔPの値の1.5倍より大きい場合(ステップS205の結果がYes)、当該モーラと直前のモーラを韻律変化点として音韻列に対応させて記録する(ステップS207)。ステップS204において直前のΔPの符号が正でないあるいはその前のΔPの符号が負で無い場合(ステップS204の結果がNo)、当該ΔPと直前のΔPとを比較する(ステップS206)。ステップS206において当該ΔPが直前のΔPの2.0倍より大きい場合(ステップS206の結果がYes)、当該モーラと直前のモーラを韻律変化点として音韻列に対応させて記録する(ステップS207)。
【0074】
ステップS205において当該ΔPが直後のΔPの1.5倍を超えない場合、あるいは、ステップS206において当該ΔPの絶対値が直前のΔPの2.0倍の絶対値を超えない場合は、当該モーラと直前のモーラを韻律変化点ではないとして音韻列に対応させて記録する(ステップS208)。
【0075】
以上のように、変化点抽出部2020は、音韻列から、連続する2モーラで表される韻律変化点を抽出し、音韻列に対応させて記憶する。なお、ここでは、連続する隣接モーラのΔPの比に基づいて韻律変化点であるか否かを判断したが、隣接モーラのΔPの差に基づいて判断してもよい。
【0076】
代表パタン生成部2030は、図6に示すように、変化点抽出部2020で抽出された変化点について、各変化点毎に、変化点の2モーラ分の基本周波数パタンと音源振幅パタンとを、自然音声データベース2010より抽出する(ステップS211)。代表パタン生成部2030は、ステップS211で抽出された基本周波数パタンと音源振幅パタンとをそれぞれにクラスタリングし(ステップS212)、生成されたクラスタ毎に、クラスタ内のデータの重心を求める(ステップS213)。代表パタン生成部2030は、さらに、求めたクラスタ毎の重心のパタンを、各クラスタの代表パタンとして代表パタン記憶部2040aに格納する(ステップS214)。
【0077】
パタン選択規則生成部2050は、図7に示すように、代表パタン生成部2030でクラスタに分類された各変化点のデータについて、まず、変化点の2モーラに対応する言語情報を、自然音声データベース2010より抽出する(ステップS221)。本実施形態では、言語情報は、文節内のモーラ位置、標準アクセント位置からの距離、読点からの距離、品詞とする。2モーラ分の音韻列と言語情報を説明変数とし、代表パタン生成部2030でどのクラスタに分類されたかを基準変量として、決定木を用いた解析により、パタン選択の規則を生成する(ステップS222)。パタン選択規則生成部2050は、ステップS222で生成された規則を、変化点の代表パタンの選択規則として、パタン選択規則テーブル2060aに蓄積する(ステップS223)。
【0078】
パタン変形規則生成部2070は、図8に示すように、変化点抽出部2020で抽出された変化点について、各変化点毎に、変化点の2モーラ分の基本周波数の最大値と音源振幅のうちの最大値とを自然音声データベース2010より抽出する(ステップS231)。さらに、各変化点に対応する音韻情報を含む言語情報を抽出する(ステップS232)。本実施形態では、音韻情報は、変化点の2モーラのそれぞれの音素列とし、言語情報は、文節内のモーラ位置、標準アクセント位置からの距離、読点からの距離、品詞とする。パタン変形規則生成部2070は、ステップS232で抽出した音韻情報および言語情報を説明変数とし、ステップS231で求めた基本周波数と音源振幅の最大値を基準変量として、基本周波数と音源振幅をそれぞれに数量化I類モデルをあてはめ、基本周波数の最大値の推定規則と音源振幅の最大値の推定規則とを生成する(ステップS233)。パタン変形規則生成部2070は、ステップS233で生成した基本周波数の最大値推定規則を基本周波数パタンの対数周波数軸上の移動規則として、音源振幅の最大値推定規則を音源振幅パタンの振幅値の対数軸上での移動規則として、パタン変形規則テーブル2080aに格納する(ステップS234)。
【0079】
変化点抽出規則生成部2090は、図9に示すように、変化点抽出部2020により変化点か変化点でないかの情報が付加された音韻列に対応する言語情報を、自然音声データベース2010より抽出する(ステップS241)。本実施形態では、言語情報は、文節属性、品詞、文節内のモーラ位置、標準アクセント位置からの距離、読点からの距離とする。音韻情報としてのモーラ種類とステップS241で抽出した言語情報を説明変数とし、各モーラが変化点である、または変化点ではない、のいずれに属するか、すなわち変化点抽出部2020の処理結果を基準変量として、数量化II類モデルを当てはめ、各モーラが変化点であるか否かを音韻情報と言語情報から判定する変化点抽出規則を生成し(ステップS242)、変化点抽出規則テーブル2100aに格納する(ステップS243)。
【0080】
以上のように、パタン・規則生成装置において、代表パタン、パタン選択規則、パタン変形規則、および変化点抽出規則が生成され、代表パタン記憶部2040a、パタン選択規則テーブル2060a、パタン変形規則テーブル2080a、および変化点抽出規則テーブル2100aにそれぞれ格納される。そして、代表パタン記憶部2040a、パタン選択規則テーブル2060a、パタン変形規則テーブル2080a、および変化点抽出規則テーブル2100aに蓄積されたパタンおよび規則は、図4の韻律情報生成装置の代表パタン記憶部2040b、パタン選択規則テーブル2060b、パタン変形規則テーブル2080b、および変化点抽出規則テーブル2100bのそれぞれにコピーされる。
【0081】
次に、韻律情報生成装置の動作について、図10を参照しながら説明する。
【0082】
韻律情報生成装置は、図4にも示したように、音韻情報と言語情報を入力する(ステップS251)。本実施形態では、音韻情報は、モーラ区切り記号のついた音素列であり、言語情報は、文節属性、品詞、文節内のモーラ位置、標準アクセント位置からの距離、読点からの距離であるものとする。
【0083】
変化点設定部2110は、ステップS251で入力した音韻情報および言語情報に基づき、図3のパタン・規則生成装置で蓄積された変化点抽出規則を格納した変化点抽出規則テーブル2100bを参照して、数量化II類モデルを用いて各音韻が韻律変化点であるか否かを推定することにより、音韻列上の韻律変化点の位置を推定する(ステップS252)。
【0084】
次に、パタン選択部2120が、変化点設定部2110によって設定された変化点毎に、変化点に対応する音素列と言語情報を用いて、図3のパタン・規則生成装置で蓄積されたパタン選択規則を格納したパタン選択規則テーブル2060bを参照して、決定木により変化点の基本周波数および音源振幅のそれぞれについて変化点が所属するクラスタを推定し、代表パタン記憶部2040bより該当するクラスタの代表パタンを、当該の変化点に対応する基本周波数パタンおよび音源振幅パタンとして取得する(ステップS253)。
【0085】
韻律生成部2130は、図3のパタン・規則生成装置で蓄積されたパタン変形規則を格納したパタン変形規則テーブル2080bを参照して、数量化I類モデルを用いて当該変化点の基本周波数パタンの対数周波数軸上での最大値と、音源振幅の対数軸上での最大値を推定し(ステップS254)、ステップS253で取得した基本周波数パタンを対数周波数軸上で最大値を基準に移動する。また、同様に、ステップS253で取得した音源振幅パタンも、対数軸上で最大値を基準に移動する(ステップS255)。
【0086】
次に、韻律生成部2130は、変化点以外の音韻に対応する基本周波数と音源振幅を、変化点に設定された基本周波数パタンおよび音源振幅パタンの間を、対数軸上の直線で補間することで、全ての音韻に対する基本周波数および音源振幅の値を生成し(ステップS256)、出力する(ステップS257)。
【0087】
この方法によれば、従来のようにアクセント句等の、変化点を複数含む複雑でバリエーションの多い単位を韻律制御単位として使用する方法と異なり、入力された音韻と言語情報から規則によって韻律変化点を自動的に設定し、韻律変化点を韻律制御単位として用いて、各韻律変化点の韻律情報を個別に決定し、変化点以外の部分の韻律情報を補間により生成する。これにより、少ないパタンデータから、歪みが少なく自然な韻律を生成することが可能となる。なお、本実施形態では、韻律変化点のみを韻律制御単位として用いて韻律情報を生成する例を示したが、韻律変化点のみならず、例えば、韻律変化点に隣接する1モーラ、または1音節、あるいは1音素を含む部分を韻律制御単位として用いてもよい。
【0088】
本実施形態では、パタン・規則生成装置および韻律情報生成装置の各々に、代表パタン記憶部、パタン選択規則テーブル、パタン変形規則テーブル、および変化点抽出規則テーブルを別個に設けて、パタン・規則生成装置で蓄積された代表パタンおよび各種規則を韻律情報生成装置へコピーするものとした。しかし、この構成以外に、パタン・規則生成装置および韻律情報生成装置が、一系統の代表パタン記憶部、パタン選択規則テーブル、パタン変形規則テーブル、および変化点抽出規則テーブルを共有する構成も可能である。この場合、例えば、代表パタン記憶部は、少なくとも代表パタン生成部2030とパタン選択部2120の双方からアクセス可能であればよい。また、上述したように、パタン・規則生成部および韻律情報生成部を単一の装置に搭載した構成としても良く、この場合は、一系統の代表パタン記憶部、パタン選択規則テーブル、パタン変形規則テーブル、および変化点抽出規則テーブルを備えればすむことは言うまでもない。
【0089】
また、図3に示したパタン・規則生成装置の代表パタン記憶部2040a、パタン選択規則テーブル2060a、パタン変形規則テーブル2080a、および変化点抽出規則テーブル2100aの少なくともいずれか一つの内容を、例えばDVD等の記憶媒体にコピーし、この記憶媒体を、図4に示した韻律情報生成装置が、代表パタン記憶部2040b、パタン選択規則テーブル2060b、パタン変形規則テーブル2080b、変化点抽出規則テーブル2100bとして参照する構成とすることも可能である。
【0090】
なお、図10のフローチャートに示した動作をコンピュータに実行させるプログラムとして、本発明を実施することも可能である。
【0091】
<第3の実施形態>
本発明の第3の実施形態としての韻律生成装置について、図11〜図15を用いて説明する。
【0092】
本実施形態にかかる韻律生成装置は、(1)自然音声に基づき、変化量推定規則および絶対値推定規則を生成して蓄積する系(推定規則生成部)、(2)音韻情報および言語情報を入力し、前述の推定規則生成部で蓄積された変化量推定規則および絶対値推定規則を用いて、韻律情報を生成する系(韻律情報生成部)、の二系統で構成される。本実施形態にかかる韻律生成装置は、これら両方の系を実施する一つの装置として実現することも可能であり、各系を別個の装置として実施することも可能である。なお、以下の説明では、上記の二つの系をそれぞれ別個の装置として実施する例を示す。
【0093】
図11は、本実施形態の韻律生成装置のうち、前述の推定規則生成部の機能を有する推定規則生成装置の構成を示すブロック図である。図12は、韻律情報生成部の機能を有する韻律情報生成装置の構成を示すブロック図である。図13および図14は、図11の推定規則生成装置の動作を示したフローチャートであり、図15は、図12の韻律情報生成装置の動作を示したフローチャートである。
【0094】
図11に示すように、本実施形態にかかる韻律生成装置の推定規則生成装置は、自然音声データベース2010、変化点抽出部3020、変化量計算部3030、変化量推定規則生成部3040、変化量推定規則テーブル3050a、絶対値推定規則生成部3060、絶対値推定規則テーブル3070aを含む。
【0095】
図12に示すように、本実施形態にかかる韻律生成装置の韻律情報生成装置は、変化点設定部3110、変化量推定部3120、変化量推定規則テーブル3050b、絶対値推定部3130、絶対値推定規則テーブル3070b、韻律生成部3140を含む。
【0096】
まず、図11に示した推定規則生成装置の動作について、図13および図14を参照しながら説明する。推定規則生成装置において、変化点抽出部3020は、自然音声とその音声に対応する音響特性データおよび言語情報を保持する自然音声データベース2010より、テキストより生成された言語情報としての標準アクセント句の句頭2音節、アクセント句末2音節、アクセント核とその直後の音節を、変化点として抽出する(ステップS301)。
【0097】
次に、変化量計算部3030は、ステップS301で抽出された変化点の各々について、変化点2音節についての基本周波数および音源振幅のそれぞれの変化量を、以下の式で計算する(ステップS302)。
【0098】
変化量推定規則生成部3040は、自然音声データベース2010より変化点の2音節に対応する音韻情報と言語情報を、自然音声データベース2010より抽出する(ステップS303)。本実施形態では、音韻情報は音節の音声学的分類であり、言語情報は文節内の音節位置、標準アクセント位置からの距離、読点からの距離、品詞であるとする。さらに、変化量推定規則生成部3040は、変化点の基本周波数と音源振幅について、音韻情報と言語情報を説明変数とし、それぞれの変化量を基準変量として、数量化I類による推定規則を生成する(ステップS304)。そして、ステップS304で生成した推定規則を、変化点の変化量推定規則として変化量推定規則テーブル3050aに蓄積する(ステップS305)。
【0099】
また、絶対値推定規則生成部3060は、ステップS301で変化点抽出部3020により変化点として抽出された2音節のうち前の音節に対応する基本周波数および音源振幅を、自然音声データベース2010より抽出する(ステップS311)。さらに、絶対値推定規則生成部3060は、変化点として抽出された2音節のうち前の音節に対応する音韻情報と言語情報とを、自然音声データベース2010より抽出する(ステップS312)。本実施形態では、音韻情報は音節の音声学的分類であり、言語情報は文節内の音節位置、標準アクセント位置からの距離、読点からの距離、品詞であるとする。
【0100】
また、絶対値推定規則生成部3060は、各変化点の2音節のうち前の音節の基本周波数と音源振幅の絶対値をそれぞれ求める。そして、求めた各絶対値に対して、音韻情報と言語情報を説明変数とし、それぞれの絶対値を基準変量として、数量化I類による推定規則を生成する(ステップS313)。生成された規則は、絶対値推定規則として絶対値推定規則テーブルに蓄積される(ステップS314)。
【0101】
以上のように、推定規則生成装置により、変化量推定規則および絶対値推定規則が変化量推定規則テーブル3050aおよび絶対値推定規則テーブル3070aに蓄積される。そして、図12に示す韻律情報生成装置の変化量推定規則テーブル3050bおよび絶対値推定規則テーブル3070bには、変化量推定規則テーブル3050aおよび絶対値推定規則テーブル3070aに蓄積された変化量推定規則および絶対値推定規則がコピーされる。
【0102】
ここで、図12に示す韻律情報生成装置の動作について、図15を参照しながら説明する。韻律情報生成装置は、図12にも示したように、音韻情報と言語情報を入力する(ステップS321)。本実施形態では、音韻情報は音節の音声学的分類であり、言語情報は文節内の音節位置、標準アクセント位置からの距離、読点からの距離、品詞、文節属性、係り受け距離であるとする。
【0103】
変化点設定部3110は、入力された言語情報のうちの標準アクセント句の情報に基づき、音韻列上での変化点の位置を設定する(ステップS322)。なお、ここでは、変化点設定部3110が入力言語情報に従い韻律変化点を設定するものとしたが、これに限らず、音声データの韻律変化点の音韻に関わる属性および言語情報に関わる属性によりあらかじめ定められた韻律変化点抽出規則に従って、韻律変化点を設定するものとしてもよい。ただし、この場合は、第2の実施形態と同様に、変化点設定部3110が参照可能な変化点抽出規則テーブルを設ける必要がある。
【0104】
変化量推定部3120は、図11の推定規則生成装置で蓄積された変化量推定規則を格納した変化量推定規則テーブル3050bを参照して、入力された音韻情報および言語情報を用いて、変化点毎に基本周波数変化量と音源振幅の変化量を、数量化I類モデルを利用して推定する(ステップS323)。
【0105】
絶対値推定部3130は、図11の推定規則生成装置で蓄積された絶対値推定規則を格納した絶対値推定規則テーブル3070bを参照して、入力された音韻情報および言語情報を用いて、変化点毎に2音節のうち前の音節の基本周波数と音源振幅の絶対値を、数量化I類モデルを利用して推定する(ステップS324)。
【0106】
韻律生成部3140は、ステップS323で推定した変化点毎の基本周波数の変化量と音源振幅の変化量を、ステップS324で推定した2音節のうち前の音節の基本周波数と音源振幅の絶対値に合わせて対数軸上で移動させて、変化点の基本周波数と音源振幅を決定する(ステップS325)。さらに、韻律生成部3140は、変化点以外の音韻に対する基本周波数と音源振幅の情報を、補間により求める。すなわち、韻律生成部3140は、変化点以外の区間を挟む変化点(つまり変化点以外の区間の両端に位置する二つの変化点)の音節を用いて、スプライン関数で補間を行うことにより、変化点以外の基本周波数と音源振幅の情報を生成し(ステップS326)、入力された全音韻列に対する基本周波数と音源振幅の情報を出力する(ステップS327)。
【0107】
この方法によれば、従来のようにアクセント句等の、変化点を複数含む複雑でバリエーションの多い単位を韻律生成単位として使用する方法と異なり、言語情報から設定される韻律変化点の韻律情報を変化量として推定し、変化点以外の部分の韻律情報を補間により生成する。これにより、パタンデータとして大量のデータを保持することなく歪みが少なく自然な韻律を生成することが可能となる。
【0108】
本実施形態では、推定規則生成装置および韻律情報生成装置の各々に、変化量推定規則テーブルおよび絶対値推定規則テーブルを別個に設けて、推定規則生成装置で蓄積された推定規則を、韻律情報生成装置へコピーするものとした。しかし、この構成以外に、推定規則生成装置および韻律情報生成装置が、一系統の変化量推定規則テーブルおよび絶対値推定規則テーブルを共有する構成も可能である。この場合、例えば、変化量推定規則テーブルは、少なくとも、変化量推定規則生成部3040および変化量推定部3120の双方からアクセス可能であればよい。また、上述したように、推定規則生成部および韻律情報生成部を単一の装置に搭載した構成としても良く、この場合は、一系統の変化量推定規則テーブルおよび絶対値推定規則テーブルを備えればすむ。
【0109】
また、図11に示した推定規則生成装置の変化量推定規則テーブル3050aおよび絶対値推定規則テーブル3070aの少なくともいずれか一つの内容を、例えばDVD等の記憶媒体にコピーし、この記憶媒体を、図12に示した韻律情報生成装置が、変化量推定規則テーブル3050b、絶対値推定規則テーブル3070bとして参照する構成とすることも可能である。
【0110】
なお、図15のフローチャートに示した動作をコンピュータに実行させるプログラムとして、本発明を実施することも可能である。
【0111】
<第4の実施形態>
本発明の第4の実施形態としての韻律生成装置について、図16を用いて説明する。
【0112】
なお、本実施形態にかかる韻律生成装置は、第2の実施形態と概ね同様であるが、変化点抽出部2020の動作のみが第2の実施形態と異なる。従って、変化点抽出部2020の動作についてのみ説明する。
【0113】
本実施形態にかかる韻律生成装置のパタン・規則生成装置では、変化点抽出部2020は、自然音声とその音声に対応する音響特性データおよび言語情報を保持する自然音声データベース2010よりモーラ毎の母音中心点での音源波形の振幅値を抽出する。抽出した音源波形の振幅値を、モーラの種類で分類し、モーラの種類毎にZ変換により標準化する。標準化した音源波形の振幅値、すなわち音源波形の振幅のZスコアを、モーラのパワー(A)とする(ステップS401)。次に、変化点抽出部2020は、モーラ毎のパワー(A)について、直前モーラとのパワー(A)の差をΔAとして、以下の式により求める(ステップS402)。
【0114】
ΔA = 当該モーラのパワー − 直前モーラのパワー
ΔAが発話先頭あるいはポーズの直後のモーラとそれに続くモーラとのパワーの差である場合、あるいはΔAが発話末尾のモーラあるいはポーズ直前のモーラとその直前にあるモーラとのパワーの差である場合(ステップS403)、当該モーラと直前のモーラを韻律変化点として音韻列に対応させて記録する(ステップS406)。
【0115】
ステップS403においてΔAが発話先頭あるいはポーズの直後のモーラとそれに続くモーラとのパワーの差でなく、且つ、ΔAが発話末尾のモーラあるいはポーズ直前のモーラとその直前にあるモーラとのパワーの差でない場合、直前のΔAの符号と当該ΔAの符号とを比較する(ステップS404)。ステップS404において、直前のΔAの符号と当該ΔAの符号とが異なる場合、当該モーラと直前のモーラを韻律変化点として音韻列に対応させて記録する(ステップS406)。
【0116】
ステップS404において、直前のΔAの符号と当該ΔAの符号とが一致する場合、当該ΔAと直後のΔAとを比較する(ステップS405)。ステップS405において、当該ΔAの絶対値が、直後のΔAを1.5倍したものの絶対値より大きい場合、当該モーラと直前のモーラを韻律変化点として音韻列に対応させて記録する(ステップS406)。ステップS405において、当該ΔAの絶対値が、直後のΔAを1.5倍したものの絶対値以下の場合、当該モーラと直前のモーラを韻律変化点以外として音韻列に対応させて記録する(ステップS407)。なお、ここではΔAの比に基づいて韻律変化点であるか否かを判断したが、ΔAの差に基づいて判断することもできる。
【0117】
<実施の形態5>
本発明の第5の実施形態としての韻律生成装置について、図17を用いて説明する。
【0118】
なお、本実施形態にかかる韻律生成装置も、第2の実施形態と概ね同様であるが、変化点抽出部2020の動作のみが第2の実施形態と異なる。従って、変化点抽出部2020の動作についてのみ説明する。
【0119】
本実施形態にかかる韻律生成装置のパタン・規則生成装置において、変化点抽出部2020は、自然音声とその音声に対応する音響特性データおよび言語情報を保持する自然音声データベース2010より、音素毎の継続時間長を抽出する。抽出した継続時間長のデータを音素の種類で分類し、音素の種類毎にZ変換により標準化する。標準化した音素時間長を標準化音素時間長(D)とする(ステップS501)。
【0120】
当該音素が発話先頭あるいはポーズの直後に位置する場合(ステップS502)、当該音素を含むモーラを韻律変化点として音韻列に対応させて記録する(ステップS505)。ステップS502において、当該音素が発話先頭あるいはポーズの直後の音素でない場合、標準化音素時間長(D)について、直前音素の標準化音素時間長(D)との差の絶対値をΔDとする(ステップS503)。
【0121】
次に、変化点抽出部2020は、ΔDを1と比較する(ステップS504)。S504においてΔDが1より大きい場合、当該音素を含むモーラを韻律変化点として音韻列に対応させて記録する(ステップS505)。S504においてΔDが1以下の場合、当該音素を含むモーラを韻律変化点以外として音韻列に対応させて記録する(ステップS507)。
【0122】
【発明の効果】
以上のように、本発明によれば、韻律変化点を含む部分の韻律パタンを用い、あらかじめ定められた選択規則および変形規則に従って韻律を生成し、韻律変化点を含まない部分の韻律パタン間を補間によって求めることで、韻律の自然性を失わずに韻律を生成することができる。
【図面の簡単な説明】
【図1】本発明にかかる第1の実施形態の韻律生成装置の構成を示すブロック図
【図2】前記韻律生成装置における韻律生成処理の過程を示す説明図
【図3】本発明にかかる第2の実施形態の韻律生成装置のうち、パタン・規則生成装置の構成を示すブロック図
【図4】本発明にかかる第2の実施形態の韻律生成装置のうち、韻律情報生成装置の構成を示すブロック図
【図5】第2の実施形態におけるパタン・規則生成装置の動作の一部を示すフローチャート
【図6】第2の実施形態におけるパタン・規則生成装置の動作の一部を示すフローチャート
【図7】第2の実施形態におけるパタン・規則生成装置の動作の一部を示すフローチャート
【図8】第2の実施形態におけるパタン・規則生成装置の動作の一部を示すフローチャート
【図9】第2の実施形態におけるパタン・規則生成装置の動作の一部を示すフローチャート
【図10】第2の実施形態における韻律情報生成装置の動作を示すフローチャート
【図11】本発明にかかる第3の実施形態の韻律生成装置のうち、規則生成部に相当する構成を示すブロック図
【図12】本発明にかかる第3の実施形態の韻律生成装置のうち、韻律情報生成装置に相当する構成を示すブロック図
【図13】第3の実施形態における規則生成部の動作の一部を示したフローチャート
【図14】第3の実施形態における規則生成部の動作の一部を示したフローチャート
【図15】第3の実施形態における韻律情報生成装置の動作を示したフローチャート
【図16】第4の実施形態における変化点抽出部の動作を示したフローチャート
【図17】第5の実施形態における変化点抽出部の動作を示したフローチャート
【符号の説明】
110 韻律変化点抽出部
120 代表韻律パタンテーブル
130 代表韻律パタン選択規則テーブル
140 パタン選択部
150 変形規則テーブル
160 韻律生成部
2010 自然音声データベース
2020 変化点抽出部
2030 代表パタン生成部
2040a,2040b 代表パタン記憶部
2050 パタン選択規則生成部
2060a,2060b パタン選択規則テーブル
2070 パタン変形規則生成部
2080a,2080b パタン変形規則テーブル
2090 変化点抽出規則生成部
2100a,2100b 変化点抽出規則テーブル
2110 変化点設定部
2120 パタン選択部
2130 韻律生成部
3020 変化点抽出部
3030 変化量計算部
3040 変化量推定規則生成部
3050a,3050b 変化量推定規則テーブル
3060 絶対値推定規則生成部
3070a,3070b 絶対値推定規則テーブル
3110 変化点設定部
3120 変化量推定部
3130 絶対値推定部
3140 韻律生成部
Claims (60)
- 音韻情報および言語情報を入力して韻律を生成する韻律生成装置であって、
(ア)音声データの韻律変化点を含む部分の代表韻律パタンをあらかじめ蓄積した代表韻律パタン記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた選択規則を記憶する選択規則記憶部、(ウ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた変形規則を記憶する変形規則記憶部、を参照可能であり、
入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定する韻律変化点設定部と、
前記選択規則により、入力された音韻情報および言語情報に従って、前記代表韻律パタン記憶部から代表韻律パタンを選択するパタン選択部と、
前記パタン選択部により選択された代表韻律パタンを前記変形規則により変形し、韻律変化点を含まない部分については、選択し変形した前記韻律変化点を含む部分の代表韻律パタンの間を補間する韻律生成部とを備えたことを特徴とする韻律生成装置。 - 前記代表韻律パタンが、ピッチパタンである請求項1に記載の韻律生成装置。
- 前記代表韻律パタンが、パワーパタンである請求項1に記載の韻律生成装置。
- 前記代表韻律パタンは、音声データの韻律変化点を含む部分のパタンを統計的手法によりクラスタリングし、得られたクラスタごとに生成されたパタンである、請求項1〜3のいずれか一項に記載の韻律生成装置。
- 音韻情報および言語情報を入力して韻律を生成する韻律生成装置であって、
(ア)音声データの韻律変化点の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の変化量推定規則を記憶する変化量推定規則記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の絶対値推定規則を記憶する絶対値推定規則記憶部、を参照可能であり、
入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定する韻律変化点設定部と、
前記変化量推定規則記憶部の推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の変化量を推定する変化量推定部と、前記絶対値推定規則記憶部の絶対値推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の絶対値を推定する絶対値推定部と、
韻律変化点については、前記変化量推定部により推定された変化量を前記絶対値推定部により求められた絶対値に対応するよう移動させて韻律を生成し、韻律変化点以外の部分についての韻律を、前記韻律変化点について生成された韻律の間を補間することにより生成する、韻律生成部とを備えたことを特徴とする韻律生成装置。 - 前記韻律の変化量が、ピッチの変化量である請求項5に記載の韻律生成装置。
- 前記韻律の変化量が、パワーの変化量である請求項5に記載の韻律生成装置。
- 前記変化量推定規則は、音声データの韻律変化点の韻律の変化量と、韻律変化点に対応するモーラまたは音節の音韻に関わる属性または言語情報に関わる属性との関係を統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性の少なくとも1つを用いて韻律の変化量を予測する規則である、請求項5に記載の韻律生成装置。
- 前記絶対値推定規則は、音声データの韻律変化点の韻律変化量計算時の基準点の絶対値と、変化点に対応するモーラまたは音節の音韻に関わる属性または言語情報に関わる属性との関係を、統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性の少なくとも1つを用いて韻律変化量計算時の基準点の絶対値を予測する規則である、請求項5に記載の韻律生成装置。
- 前記統計的手法が、韻律の変化量を基準変量とした数量化I類である、請求項8に記載の韻律生成装置。
- 前記統計的手法が、韻律変化量計算時の基準点の絶対値を基準変量とした数量化I類である、請求項9に記載の韻律生成装置。
- 前記統計的手法が、韻律変化量計算時の基準点の移動量を基準変量とした数量化I類である、請求項9に記載の韻律生成装置。
- 前記韻律変化点が、アクセント句の句頭、アクセント句の句末、およびアクセント核の少なくともいずれかを含む、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のピッチの差をΔPとして、当該ΔPと直後のΔPの符号が異なる点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、当該ΔPと直後のΔPの絶対値の和があらかじめ定められた値を上回る点であるとする、請求項13に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のピッチの差をΔPとして、当該ΔPと直後のΔPの符号が等しく、且つ、当該ΔPと直後のΔPの比があらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のピッチの差をΔPとして、当該ΔPと直後のΔPの符号が等しく、且つ、当該ΔPと直後のΔPの差があらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、前記ΔPを、隣接するモーラまたは音節のうち後続モーラまたは音節のピッチから、先行するモーラまたは音節のピッチを減じたものとし、当該ΔPと直後のΔPの符号が負であり、且つ、当該ΔPと直後のΔPの比が、1.5〜2.5の範囲内であらかじめ定められた値を上回る点であるとする、請求項17に記載の韻律生成装置。
- 前記韻律変化点は、前記ΔPを、隣接するモーラまたは音節のうち後続モーラまたは音節のピッチから、先行するモーラまたは音節のピッチを減じたものとし、当該ΔPと直後のΔPの符号が負であり、且つ、直前のΔPの符号が正であり、当該ΔPと直後のΔPの比が、1.2〜2.0の範囲内であらかじめ定められた値を上回る点であるとする、請求項17に記載の韻律生成装置。
- 前記韻律変化点設定部は、音声データの韻律変化点の音韻に関わる属性および言語情報に関わる属性によりあらかじめ定められた韻律変化点抽出規則に従って、入力された音韻情報および言語情報のうち少なくともいずれか1つを用いて韻律変化点を設定する、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点抽出規則は、音声データの隣接するモーラまたは音節が韻律変化点であるか否かの分類と、隣接するモーラまたは音節の音韻に関わる属性または言語情報に関わる属性との関係を、統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性のうち少なくとも1つを用いて韻律変化点であるか否かを予測する規則である、請求項20に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のパワーの差をΔAとして、当該ΔAと直後のΔAの符号が異なる点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、当該ΔAの絶対値と直後のΔAの絶対値の和があらかじめ定められた値を上回る点であるとする、請求項22に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のパワーの差をΔAとして、当該ΔAと直後のΔAの符号が等しく、且つ、当該ΔAと直後のΔAの比があらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは隣接する音節のパワーの差をΔAとして、当該ΔAと直後のΔAの符号が等しく、且つ、当該ΔAと直後のΔAの差があらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記隣接するモーラまたは隣接する音節のパワーの差として、隣接するモーラまたは隣接する音節に含まれる母音のパワーの差を用いる、請求項22〜25のいずれか一項に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは音節または音素の時間長を音韻の種類毎に標準化した値の差をΔDとして、当該ΔDがあらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは音節または音素の時間長を音韻の種類毎に標準化した値の差をΔDとして、当該ΔDと直後のΔDの符号が異なる点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、当該ΔDの絶対値と直後のΔDの絶対値の和があらかじめ定められた値を上回る点であるとする、請求項25に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは音節または音素の時間長を音韻の種類毎に標準化した値の差をΔDとして、当該ΔDと直後のΔDの符号が等しく、且つ、当該ΔDと直後のΔDの比があらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記韻律変化点は、音声データの隣接するモーラまたは音節または音素の時間長を音韻の種類毎に標準化した値の差をΔDとして、当該ΔDと直後のΔDの符号が等しく、且つ、当該ΔDと直後のΔDの差があらかじめ定められた値を上回る点であるとする、請求項1または5に記載の韻律生成装置。
- 前記音韻に関わる属性は、(1)アクセント句、文節、ストレス句、もしくは単語についての、音素数、モーラ数、音節数、アクセント位置、アクセントタイプ、アクセント強度、ストレスパタン、もしくはストレス強度、(2)文頭、句頭、アクセント句先頭、文節先頭、もしくは単語先頭からの、モーラ数、音節数、もしくは音素数、(3)文末、句末、アクセント句末、文節の末尾、もしくは単語の末尾からの、モーラ数、音節数、もしくは音素数、(4)隣接するポーズの有無、(5)隣接するポーズの時間長、(6)当該韻律変化点より前で最も近い位置にあるポーズの時間長、(7)当該韻律変化点より後で最も近い位置にあるポーズの時間長、(8)当該韻律変化点より前で最も近い位置にあるポーズからの、モーラ数、音節数、もしくは音素数、(9)当該韻律変化点より後で最も近い位置にあるポーズからのモーラ数、音節数、もしくは音素数、(10)アクセント核あるいはストレス位置からのモーラ数、音節数、もしくは音素数、のうちのいずれか1つ以上である、請求項1または5に記載の韻律生成装置。
- 前記言語情報に関わる属性は、アクセント句、文節、ストレス句、または単語についての、品詞、係り受け属性、係り先への距離、係り元への距離、構文における属性、卓立、強調、または意味分類のうちのいずれか1つ以上である、請求項1または5に記載の韻律生成装置。
- 前記選択規則は、音声データの韻律パタンを前記代表韻律パタンに対応するクラスタにクラスタリングし、各々の韻律パタンが分類されたクラスタと、各々の韻律パタンの音韻に関わる属性または言語情報に関わる属性との関係を、統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性のうち少なくとも1つを用いて当該韻律変化点を含む韻律パタンが属するクラスタを予測する規則である、請求項1に記載の韻律生成装置。
- 前記変形は、ピッチパタンの周波数軸上での平行移動である、請求項2、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、ピッチパタンの周波数の対数軸上での平行移動である、請求項2、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、パワーパタンの振幅軸上での平行移動である、請求項3、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、パワーパタンのパワー軸上での平行移動である、請求項3、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、ピッチパタンの周波数軸上でのダイナミックレンジの圧縮あるいは伸張である、請求項3、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、ピッチパタンの対数軸上でのダイナミックレンジの圧縮あるいは伸張である、請求項3、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、パワーパタンの振幅軸上でのダイナミックレンジの圧縮あるいは伸張である、請求項2、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形は、パワーパタンのパワー軸上でのダイナミックレンジの圧縮あるいは伸張である、請求項2、4、32〜34のいずれか一項に記載の韻律生成装置。
- 前記変形規則は、音声データの韻律パタンを前記代表韻律パタンに対応するクラスタにクラスタリングし、クラスタ毎の代表韻律パタンを作成し、各々の韻律パタンが属するクラスタの代表韻律パタンとの距離と各々の韻律パタンの音韻に関わる属性または言語情報に関わる属性との関係を統計的手法または学習により規則化し、前記音韻に関わる属性および言語情報に関わる属性の少なくとも1つを用いて選択した韻律パタンを変形する変形量を予測する規則である、請求項1〜4、32〜42のいずれか一項に記載の韻律生成装置。
- 前記変形量が、移動量、ダイナミックレンジの圧縮率、またはダイナミックレンジの伸張率である、請求項43に記載の韻律生成装置。
- 前記統計的手法が多変量解析である、請求項8、9、21、34、および43のいずれか一項に記載の韻律生成装置。
- 前記統計的手法が決定木である、請求項21または34に記載の韻律生成装置。
- 前記統計的手法が、クラスタの種類を基準変量とした数量化II類である、請求項21または34に記載の韻律生成装置。
- 前記統計的手法が、クラスタの代表韻律パタンと各々の韻律データとの距離を基準変量とした数量化I類である、請求項34または43に記載の韻律生成装置。
- 前記統計的手法が、クラスタの代表韻律パタンの移動量を基準変量とした数量化I類である、請求項43に記載の韻律生成装置。
- 前記統計的手法が、クラスタの代表韻律パタンのダイナミックレンジの圧縮率または伸張率を基準変量とした数量化I類である、請求項43に記載の韻律生成装置。
- 前記学習がニューラルネットを用いる、請求項8、9、21、34、43のいずれか一項に記載の韻律生成装置。
- 前記補間が線形補間である、請求項1〜51のいずれか一項に記載の韻律生成装置。
- 前記補間がスプライン関数による補間である、請求項1〜51のいずれか一項に記載の韻律生成装置。
- 前記補間がシグモイド曲線による補間である、請求項1〜51のいずれか一項に記載の韻律生成装置。
- 前記パワーは、モーラまたは音節のパワーを音韻の種類毎に標準化した値である、請求項3,22,37,38,41,42のいずれか一項に記載の韻律生成装置。
- 前記パワーは、モーラまたは音節の音源波形の振幅値である、請求項3,22,37,38,41,42のいずれか一項に記載の韻律生成装置。
- 音声情報および言語情報を入力して韻律を生成する韻律生成方法であって、
入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、
音声データの韻律変化点を含む部分の代表韻律パタンから、韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた選択規則により韻律パタンを選択し、
韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた変形規則により前記選択した韻律パタンを変形し、韻律変化点を含まない部分については選択し変形した前記韻律変化点を含む部分の韻律パタンの間を補間することを特徴とする韻律生成方法。 - 音韻情報および言語情報を入力して韻律を生成する韻律生成方法であって、
入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、
音声データの韻律変化点の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の変化量推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の変化量を推定し、
音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の絶対値推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の絶対値を推定し、
韻律変化点については、前記変化量推定部により推定された変化量を前記絶対値推定部により求められた絶対値に対応するよう移動させて韻律を生成し、韻律変化点以外の部分についての韻律を、前記韻律変化点について生成された韻律の間を補間することにより生成する、ことを特徴とする韻律生成方法。 - 音韻情報および言語情報を入力して韻律を生成する韻律生成処理をコンピュータに実行させるプログラムであって、
前記コンピュータは、(ア)音声データの韻律変化点を含む部分の代表韻律パタンをあらかじめ蓄積した代表韻律パタン記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた選択規則を記憶する選択規則記憶部、(ウ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた変形規則を記憶する変形規則記憶部、を参照可能であり、
入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、
前記選択規則により、入力された音韻情報および言語情報に従って、前記代表韻律パタン記憶部から代表韻律パタンを選択し、
前記パタン選択部により選択された代表韻律パタンを前記変形規則により変形し、韻律変化点を含まない部分については、選択し変形した前記韻律変化点を含む部分の代表韻律パタンの間を補間する処理を、コンピュータに実行させることを特徴とするプログラム。 - 音韻情報および言語情報を入力して韻律を生成する韻律生成処理をコンピュータに実行させるプログラムであって、
前記コンピュータは、(ア)音声データの韻律変化点の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の変化量推定規則を記憶する変化量推定規則記憶部、(イ)音声データの韻律変化点を含む部分の音韻に関わる属性または言語情報に関わる属性によりあらかじめ定められた、韻律変化点についての韻律の絶対値推定規則を記憶する絶対値推定規則記憶部、を参照可能であり、
入力された音韻情報および言語情報の少なくともいずれか一方から韻律変化点を設定し、
前記変化量推定規則記憶部の推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の変化量を推定し、
前記絶対値推定規則記憶部の絶対値推定規則により、入力された音韻情報および言語情報に従って、韻律変化点についての韻律の絶対値を推定し、
韻律変化点については、前記変化量推定部により推定された変化量を前記絶対値推定部により求められた絶対値に対応するよう移動させて韻律を生成し、韻律変化点以外の部分についての韻律を、前記韻律変化点について生成された韻律の間を補間することにより生成する処理をコンピュータに実行させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002063640A JP3560590B2 (ja) | 2001-03-08 | 2002-03-08 | 韻律生成装置および韻律生成方法並びにプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001-65401 | 2001-03-08 | ||
JP2001065401 | 2001-03-08 | ||
JP2002063640A JP3560590B2 (ja) | 2001-03-08 | 2002-03-08 | 韻律生成装置および韻律生成方法並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002333897A JP2002333897A (ja) | 2002-11-22 |
JP3560590B2 true JP3560590B2 (ja) | 2004-09-02 |
Family
ID=26610896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002063640A Expired - Fee Related JP3560590B2 (ja) | 2001-03-08 | 2002-03-08 | 韻律生成装置および韻律生成方法並びにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3560590B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005202014A (ja) * | 2004-01-14 | 2005-07-28 | Sony Corp | 音声信号処理装置、音声信号処理方法および音声信号処理プログラム |
JP4720974B2 (ja) * | 2004-12-21 | 2011-07-13 | 株式会社国際電気通信基礎技術研究所 | 音声発生装置およびそのためのコンピュータプログラム |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
JP4716116B2 (ja) * | 2006-03-10 | 2011-07-06 | 株式会社国際電気通信基礎技術研究所 | 音声情報処理装置、およびプログラム |
JP4736962B2 (ja) * | 2006-06-01 | 2011-07-27 | 日産自動車株式会社 | キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置 |
JP5012444B2 (ja) * | 2007-11-14 | 2012-08-29 | 富士通株式会社 | 韻律生成装置、韻律生成方法、および、韻律生成プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05108085A (ja) * | 1991-10-19 | 1993-04-30 | Ricoh Co Ltd | 音声合成装置 |
JP3271513B2 (ja) * | 1996-03-09 | 2002-04-02 | 日本ビクター株式会社 | 情報信号処理方法及び情報信号処理装置 |
JP3667950B2 (ja) * | 1997-09-16 | 2005-07-06 | 株式会社東芝 | ピッチパターン生成方法 |
JP3583929B2 (ja) * | 1998-09-01 | 2004-11-04 | 日本電信電話株式会社 | ピッチパタン変形方法及びその記録媒体 |
-
2002
- 2002-03-08 JP JP2002063640A patent/JP3560590B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002333897A (ja) | 2002-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8738381B2 (en) | Prosody generating devise, prosody generating method, and program | |
US11763797B2 (en) | Text-to-speech (TTS) processing | |
JPH08263097A (ja) | 音声のワードを認識する方法及び音声のワードを識別するシステム | |
JPH09114495A (ja) | ピッチ輪郭を決定するためのシステムおよび方法 | |
JPH10116089A (ja) | 音声合成用の基本周波数テンプレートを収容する韻律データベース | |
JPH1195783A (ja) | 音声情報処理方法 | |
Bellegarda et al. | Statistical prosodic modeling: from corpus design to parameter estimation | |
JP5807921B2 (ja) | 定量的f0パターン生成装置及び方法、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
JP3560590B2 (ja) | 韻律生成装置および韻律生成方法並びにプログラム | |
JP2001265375A (ja) | 規則音声合成装置 | |
JP2006227589A (ja) | 音声合成装置および音声合成方法 | |
JP2009069179A (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム | |
Liao et al. | Speaker adaptation of SR-HPM for speaking rate-controlled Mandarin TTS | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
Chen et al. | A statistics-based pitch contour model for Mandarin speech | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
Wen et al. | Prosody Conversion for Emotional Mandarin Speech Synthesis Using the Tone Nucleus Model. | |
KR100806287B1 (ko) | 문말 억양 예측 방법 및 이를 기반으로 하는 음성합성 방법및 시스템 | |
Chen et al. | A Mandarin Text-to-Speech System | |
Wang et al. | Emotional voice conversion for mandarin using tone nucleus model–small corpus and high efficiency | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
Ishi et al. | Mora F0 representation for accent type identification in continuous speech and considerations on its relation with perceived pitch values | |
JP6137708B2 (ja) | 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム | |
Rao | Modeling supra-segmental features of syllables using neural networks | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040519 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040525 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3560590 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090604 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100604 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100604 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110604 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120604 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120604 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130604 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |