JP4684770B2 - 韻律生成装置及び音声合成装置 - Google Patents
韻律生成装置及び音声合成装置 Download PDFInfo
- Publication number
- JP4684770B2 JP4684770B2 JP2005192473A JP2005192473A JP4684770B2 JP 4684770 B2 JP4684770 B2 JP 4684770B2 JP 2005192473 A JP2005192473 A JP 2005192473A JP 2005192473 A JP2005192473 A JP 2005192473A JP 4684770 B2 JP4684770 B2 JP 4684770B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- error criterion
- prosodic
- fundamental frequency
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
音声合成装置の言語解析部は、テキストを入力すると、形態素解析や構文解析などの言語解析を実施することにより、音韻記号列、アクセント型、品詞などの言語情報を出力する。
音声合成装置の韻律生成部は、言語解析部から言語情報を受けると、その言語情報から基本周波数や音韻継続時間長やパワーなどの韻律情報を生成する。
韻律生成部の基本周波数生成部は、言語解析部から出力された言語情報と音韻継続時間長生成部により生成された音韻継続時間長から、声の高さを表す基本周波数を生成する。
韻律生成部のパワー生成部は、言語解析部から出力された言語情報と音韻継続時間長生成部により生成された音韻継続時間長から、音声の大きさを表すパワーを生成する。
音声合成装置の音声信号生成部は、韻律生成部から韻律情報を受けると、その韻律情報などから音声信号を生成する。
テキストの音声合成における言語情報と韻律情報(抑揚、音韻継続時間長、パワー)の対応関係を韻律モデルで表す場合、その韻律モデルのパラメータ(以下、モデルパラメータと称する)の設定が、音声の韻律の自然性に大きく影響する。
このモデルパラメータの設定方法として、音声データベースに登録されている言語情報と韻律情報の対応関係を参照しながら、数量化I類を用いて、自動的にモデルパラメータを推定する方法が以下の特許文献1に開示されている。即ち、子音長に対する誤差基準と、母音長に対する誤差基準とを計算し、これらの個別の誤差基準から韻律モデルのモデルパラメータを推定する方法が以下の特許文献1に開示されている。
このような場合、モデルパラメータの推定精度が劣化するため、適正な韻律情報が生成されず、合成音声の韻律が不自然になる場合がある。
そして、音声合成装置は、その予測した韻律情報と音声データベースに登録されている韻律情報をカテゴリ毎に比較し、その絶対誤差が閾値以上である韻律情報を音声データベースから除外する。
その後、音声合成装置は、不適正な韻律情報を除外した音声データベースを参照して、再度、モデルパラメータを推定することにより、韻律情報の予測精度を高めるようにしている。
また、この発明は、韻律情報の予測精度を高めて、韻律が不自然な音声信号の生成を回避することができる音声合成装置を得ることを目的とする。
図1はこの発明の実施の形態1による音声合成装置を示す構成図であり、図において、言語解析部1はテキストを入力すると、そのテキストに対して形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、音韻記号列の言語情報を出力する。なお、言語解析部1は言語解析手段を構成している。
韻律生成装置2は言語解析部1より出力されたテキストの言語情報から韻律情報を生成する処理を実施する。
音声信号生成部3は韻律生成装置2により生成された韻律情報から音声信号を生成する処理を実施する。なお、音声信号生成部3は音声信号生成手段を構成している。
基本周波数生成部12は言語解析部1より出力されたテキストの言語情報から音の高さを表す基本周波数を韻律情報として生成する処理を実施する。
パワー生成部13は言語解析部1より出力されたテキストの言語情報から音の大きさを表すパワーを韻律情報として生成する処理を実施する。
図2では、韻律生成装置2が音韻継続時間長生成部11、基本周波数生成部12及びパワー生成部13から構成されている例を示しているが、この実施の形態1では、説明の便宜上、韻律生成装置2が音韻継続時間長生成部11だけで構成されているものとして説明する。基本周波数生成部12やパワー生成部13を実装している韻律生成装置2については、別の実施の形態で説明する。
モデルパラメータ推定部22は音声データベース21に登録されている対応関係を参照して、個別の韻律情報に対する誤差基準を計算するとともに、複数の韻律情報に対する誤差基準を計算し、個別の韻律情報に対する誤差基準と複数の韻律情報に対する誤差基準から韻律モデルのモデルパラメータを推定する処理を実施する。即ち、子音長に対する個別の誤差基準JCと母音長に対する個別の誤差基準JVを計算するとともに、子音長と母音長の和に対する関連の誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから韻律モデルのモデルパラメータを推定する処理を実施する。モデルパラメータ推定部22により推定されるモデルパラメータは、数量化I類で表されるカテゴリ係数(あるいは、カテゴリ数量)に相当する。なお、モデルパラメータ推定部22はモデルパラメータ推定手段を構成している。
韻律情報生成部23はモデルパラメータ推定部22により推定された韻律モデルのモデルパラメータと言語解析部1より出力されたテキストの言語情報から韻律情報である音韻継続時間長(子音長、母音長)を生成する処理を実施する。なお、韻律情報生成部23は韻律情報生成手段を構成している。
DVは母音Vの予測モデル、DCは子音Cの予測モデル、xは数量化された言語情報を表している。
図5はこの発明の実施の形態1による韻律生成装置2の処理内容を示すフローチャートである。
言語解析部1は、テキストを入力すると、そのテキストに対して形態素解析や構文解析などの言語解析を実施することにより、その解析結果として、例えば、音韻記号列の言語情報を出力する。
言語情報の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。
具体的には、以下の通りである。
音韻継続時間長生成部11の音声データベース21には、図6に示すように、言語情報として、当該音素と後続音素(当該音素の1つ後の音素)が登録され、当該音素に対応する音韻継続時間長として、当該音素の長さ(音素長)が登録されている。
モデルパラメータ推定部22は、音声データベース21から読み込んだ当該音素が子音であれば、入力xCjに当該音素と後続音素の種類を表す値を設定し、音声データベース21から読み込んだ当該音素が母音であれば、入力xVjに当該音素と後続音素の種類を表す値を設定する(ステップST2)。
なお、xは長さnの横ベクトルであり、nは当該音素と後続音素の種類の数である。
音素の種類は30種類であり、当該音素と後続音素の種類の数を合わせると、n=60になる。
1番目の要素は当該音素が母音a
2番目の要素は当該音素が母音i
・・・
30番目の要素は当該音素が子音z
31番目の要素は後続音素が母音a
32番目の要素は後続音素が母音i
・・・
60番目の要素は後続音素が子音のz
xの1番目の要素の値 → 1
xの2番目の要素の値 → 0
・・・
xの30番目の要素の値 → 0
xの31番目の要素の値 → 0
xの32番目の要素の値 → 1
・・・
xの60番目の要素の値 → 0
JD=wVJV+wCJC+wCVJCV (1)
JC=Σ(Cj−DC(xCj,A))2
JV=Σ(Vj−DV(xVj,B))2
JCV=Σ((Cj+Vj)−(DC(xCj,A)+DV(xVj,B)))2
Cj :第jサンプルの子音長
Vj :第jサンプルの母音長
xCj :第jサンプルの子音長に対する要因
xVj :第jサンプルの母音長に対する要因
A :子音長予測モデルのモデルパラメータ
B :母音長予測モデルのモデルパラメータ
DC(xCj,A) :第jサンプルの子音長予測値
DV(xVj,B) :第jサンプルの母音長予測値
wV,wC,wCV :重み係数
Σ :音声データベース中に含まれるサンプルの和
D(x,A)=xA
Aは長さnの縦ベクトルであり、nはxの場合と同様に、当該音素と後続音素の種類の数であり、n=60になる。
即ち、モデルパラメータ推定部22は、DC(xCj,A)及びDV(xVj,B)を数量化I類の式で表す場合、その誤差基準JDがモデルパラメータの2次式で表されるので、その誤差基準JDをモデルパラメータA,Bで微分して連立方程式を立て、その連立方程式をモデルパラメータA,Bについて解くことにより、その誤差基準JDを最小化するモデルパラメータA,Bを推定する(ステップST3)。
音声信号の生成については、公知の技術を利用すればよいので、ここでは詳細な説明を省略する。
なお、従来の音声合成装置は、子音長に対する個別の誤差基準JCと、母音長に対する個別の誤差基準JVから、個別にモデルパラメータA,Bを計算するようにしていたので、子音長と母音長の和に対する誤差が大きくなることがあったが、この実施の形態1では、子音長と母音長の和に対する誤差基準JCVを含む誤差基準JDからモデルパラメータA,Bを計算するようにしているので、子音長と母音長の和に対する誤差が小さくなる。したがって、韻律生成装置2による韻律情報の予測精度が高くなり、音声信号生成部3により生成される音声信号の品質が向上する。
子音長DC(xCj,A)と母音長DV(xVj,B)に対して、個別の誤差基準JC,JVを用いてモデルパラメータA,Bを推定する場合と、式(1)の誤差基準JDを用いてモデルパラメータA,Bを推定する場合とを比較する。即ち、各場合の予測誤差(平均誤差E)と誤差削減率Rを比較する。ただし、重み係数は、説明の便宜上、wV,wC,wCV=1とする。
E=(J/N)1/2
N :音声データベース21に含まれるサンプルの数
誤差削減率Rは、次式で表されるものとする。
R=−(En−E0)×100/E0
En :本法(実施の形態1)による平均誤差
E0 :従来法による平均誤差
図7に示すように、未学習データにおいては、従来法と比べて本法では、子音Cの誤差が0.42%だけ増加し、母音Vの誤差が0.97%だけ増加しているが、C+Vが2.76%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
また、学習データにおいては、従来法と比べて本法では、子音Cの誤差が1.54%だけ増加し、母音Vの誤差が1.46%だけ増加しているが、C+Vが4.68%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
上記実施の形態1では、言語解析部1がテキストの言語解析を実施して、音韻記号列の言語情報を出力するものについて示したが、これに限るものではなく、例えば、アクセント型、品詞、係り先、ポーズ、音韻数などの言語情報を出力するようにしてもよい。
また、上記実施の形態1では、言語解析部1が出力する音韻記号列が当該音素と後続音素であるものについて示したが、後続音素の代わりに、先行音素(当該音素の1つの前の音素)、先々行音素(当該音素の2つの前の音素)、あるいは、後々続音素(当該音素の2つの後の音素)などを出力するようにしてもよい。また、当該音素と後続音素に加えて、先行音素等を出力するようにしてもよい。
この場合、母音の前半の長さを表すモデルと、母音の後半の長さ表すモデルとを設定し、これらのパラメータを推定する際の誤差基準は、母音の前半の長さに対する誤差と、母音の後半の長さ対する誤差と、母音の前半と後半の長さの和に対する誤差の3つから構成される。
変換例(1) p’ ← γ(p+β)α
変換例(2) p’ ← γlog(p+β)α
ただし、pは変換前の音韻継続時間長、p’は変換後の音韻継続時間長、α,β,γは任意の変換パラメータである。
また、上記実施の形態1では、モデルパラメータ推定部22がベクトルxの要素に“0”または“1”を割り当てるものについて示したが、言語情報を表すことができればよく、ベクトルxの要素に他の2つの値(例えば、“0.1”と“−1”)を割り当てるようにしてもよい。
ベクトルxの要素に2値ではなく、多値を割り当てるようにしてもよい。例えば、ポーズ長に応じて、次のような値を割り当てるようにしてもよい。
ポーズ長が0から25msecの場合 → 0
ポーズ長が26から50msecの場合 → 1
ポーズ長が51から75msecの場合 → 2
ポーズ長が76以上の場合 → 3
また、音素を分割化(例えば、破擦音tsを後続の母音で分割し、後続の母音がaのときはtsa、後続の母音がuのときはtsu、これら以外の後続の母音のときは、tsx)することにより、音素の種類数を増やすようにしてもよい。
JD=JC・JV・JCV
JD=JC・JV+JCV
例えば、人工ニューラルネットワークで表されるような関数や、モデルパラメータAに対して非線形な関数や、入力xに対して非線形な式であってもよい。
上記実施の形態1では、子音長に対する個別の誤差基準JCと母音長に対する個別の誤差基準JVを計算するとともに、子音長と母音長の和に対する関連の誤差基準JCVを計算し、それらの誤差基準JC,JV,JCVから誤差基準JDを計算するものについて示したが、下記の3つ誤差基準から誤差基準JDを計算するようにしてもよい。
JD=wCVJCV+wCJC+wCV-CJCV-C
ただし、wCV,wC,wCV-Cは重み係数である。
図8は平均誤差Eと誤差削減率Rを示す説明図であり、図において、Cは子音長のモデルを示し、CVは子音長と母音長の和のモデルを示し、CV−Cはこれらの差(子音長と母音長−子音長)のモデルを示している。
また、学習データにおいては、従来法と比べて本法では、子音Cの誤差が3.65%だけ増加し、C+Vの誤差が0.84%だけ増加しているが、CV−Cが10.72%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
上記実施の形態1〜3では、音韻継続時間長が韻律情報であるものについて示したが、この実施の形態4では、音の高さを表す基本周波数が韻律情報であるものについて説明する。
即ち、図2の基本周波数生成部12が韻律生成装置2に実装されている形態について説明する。基本周波数生成部12は、音韻継続時間長生成部11と同様に、音声データベース21、モデルパラメータ推定部22及び韻律情報生成部23から構成されている(音韻継続時間長生成部11の音声データベース21、モデルパラメータ推定部22及び韻律情報生成部23とは若干処理内容が相違している)。
ただし、この実施の形態4では、音声データベース21が、図9に示すように、言語情報として、音韻数とアクセント型を登録し、韻律情報として、当該フレーズの代表となる4つの基本周波数(第1基本周波数、第2基本周波数、第3基本周波数、第4基本周波数)を登録している。
代表となる4つの基本数周波数における第1基本周波数はフレーズの開始時刻における基本周波数であり、第2基本周波数はフレーズ中の第2音節の母音の中央の時刻における基本周波数である。
また、第3基本周波数はアクセントのある音節の母音の中央の時刻における基本周波数であり、第4基本周波数はアクセントのある音節の次の音節の中央の時刻における基本周波数である。
図9の例では、2つのフレーズからなる文の基本周波数の時間変化を示しており、第1基本周波数はf1j、第2基本周波数はf2j、第3基本周波数はf3j、第4基本周波数はf4jで示されるものとする。
また、音韻数は、フレーズに含まれる音節の数である。
JF=w2J2+w3J3+w5J5 (2)
J2=Σ(f2j−F2(x2j,C))2
J3=Σ(f3j−F3(x3j,D))2
J5=Σ((f2j−f3j)−(F2(x2j,C)−F3(x3j,D)))2
fij :第jサンプルの第i基本周波数
xij :第jサンプルの第i基本周波数に対する要因
Fi(xij) :第jサンプルの第i基本周波数の予測モデル
w2,w3,w5 :誤差関数に対する重み係数(正の値)
Σ :第jサンプルに対する和
即ち、モデルパラメータ推定部22は、F2(x2j,C)及びF3(x3j,D)を数量化I類の式で表す場合、その誤差基準JFがモデルパラメータの2次式で表されるので、その誤差基準JFをモデルパラメータC,Dで微分して連立方程式を立て、その連立方程式をモデルパラメータC,Dについて解くことにより、その誤差基準JFを最小化するモデルパラメータC,Dを推定する。
なお、従来の音声合成装置は、第2基本周波数F2(x2j,C)に対する個別の誤差基準J2と、第3基本周波数F2(x3j,C)に対する個別の誤差基準J3から、個別にモデルパラメータC,Dを計算するようにしていたので、第2基本周波数と第3基本周波数の差に対する誤差が大きくなることがあったが、この実施の形態4では、第2基本周波数と第3基本周波数の差に対する関連の誤差基準J5を含む誤差基準JFからモデルパラメータC,Dを計算するようにしているので、第2基本周波数と第3基本周波数の差に対する誤差が小さくなる。したがって、韻律生成装置2による韻律情報の予測精度が高くなり、音声信号生成部3により生成される音声信号の品質が向上する。
第2基本周波数F2(x2j,C)と第3基本周波数F3(x3j,D)に対して、個別の誤差基準J2,J3を用いてモデルパラメータC,Dを推定する場合と、式(2)の誤差基準JFを用いてモデルパラメータC,Dを推定する場合とを比較する。即ち、各場合の予測誤差(平均誤差E)と誤差削減率Rを比較する。ただし、重み係数は、説明の便宜上、w2,w3,w5=1とする。
なお、基本周波数は、次式のようにlog変換を実施し、f0は変換前の基本周波数、f0 'は変換後の基本周波数である。
f0 '=12log(f0)
また、学習データにおいては、従来法と比べて本法では、第2基本周波数の誤差が0.36%だけ増加し、第3基本周波数の誤差が0.44%だけ増加しているが、f2−f3が6.00%だけ誤差が削減している。このように、誤差の増加の割合に比べて、誤差の削減の割合が大きいことがわかる。
上記実施の形態4では、音声データベース21が言語情報として、音韻数とアクセント型を登録するものについて示したが、これに限るものではなく、例えば、音韻系列、品詞、係り先、ポーズなどの言語情報を登録するようにしてもよい。
例えば、第1基本周波数と第2基本周波数に対する誤差基準J1,J2、第1基本周波数と第3基本周波数に対する誤差基準J1,J3、第1基本周波数と第4基本周波数に対する誤差基準J1,J4、第2基本周波数と第4基本周波数に対する誤差基準J2,J4などを計算するようにしてもよい。
また、上記実施の形態4では、同一フレーズ内の第2基本周波数と第3基本周波数のモデルの誤差基準J5について述べたが、前後のフレーズに跨った基本周波数をモデルとしてもよい。例えば、当該フレーズの第2基本周波数のモデルと、次のフレーズの第2基本周波数を2つのモデルとしてもよい。
上記実施の形態1〜5では、音韻継続時間長又は基本周波数に対する誤差基準を最小にするモデルパラメータを推定するものについて示したが、音韻継続時間長に対する誤差基準と基本周波数に対する誤差基準の双方を含む誤差基準を最小にするモデルパラメータを推定するようにしてもよい。
具体的には、以下の通りである。
なお、第1基本周波数はフレーズの開始時刻における基本周波数であり、第2基本周波数はフレーズ中の第2音節の母音の中央の時刻における基本周波数ある。
図12は2つのフレーズからなる文の基本周波数の時間変化を示しており、第1基本周波数はf1j、第2基本周波数はf2jで表されている。また、Cは子音、Vは母音を表している。また、P1は母音終了位置から第1基本周波数を設定する時刻、P2は母音終了位置から第2基本周波数を設定する時刻である。
ここで、複数の音韻に亘る基本周波数の傾きは、下記示すように、比の式で表すことができる。
(f2j−f1j):(Mj2+P1−P2)
=(F2(x2j,A)−F1(x1j,E):(DM(xMj2,F)+P1−P2)
(3)
P1 :母音終了位置から第1基本周波数を設定する時刻
P2 :母音終了位置から第2基本周波数を設定する時刻
Mj2 :第jサンプルの第2音節の子音長と母音長の和
xMj2 :第jサンプルの第2音節の子音長と母音長の和に対する要因
Jg=Σ((Mj12+P1−P2)(F2(x2j,A)−F1(x1j,E))
−(DM(xMj2,F)+P1−P2)(f2j−f1j))2
(4)
Σ :第jサンプルに対する和
JP=wMJM+w1J1+w2J2+wgJg (5)
JM=Σ(Mj−DM(xMj,F))2
J1=Σ(f1j−F1(x1j,E))2
J2=Σ(f2j−F2(x2j,C))2
Mj :第jサンプルの子音長と母音長の和
xMj :第jサンプルの子音長と母音長の和に対する要因
DM(xMj,F) :第jサンプルの子音長と母音長の和の予測モデル
fij :第jサンプルの第i基本周波数
xij :第jサンプルの第i基本周波数に対する要因
Fi(xij) :第jサンプルの第i基本周波数の予測モデル
wM,w1,w2,w3 :誤差関数に対する重み係数(正の値)
Σ :第jサンプルに対する和
即ち、モデルパラメータ推定部22は、DM(xMj,F)、F1(x1j,E)及びF2(x2j,C)を数量化I類の式で表す場合、その誤差基準JPがモデルパラメータの2次式で表されるので、その誤差基準JPをモデルパラメータF,E,Cで微分して連立方程式を立て、その連立方程式をモデルパラメータF,E,Cについて解くことにより、その誤差基準JPを最小化するモデルパラメータF,E,Cを推定する。
なお、従来の音声合成装置は、音節長DM(xMj,F)に対する個別の誤差基準JMと、第1基本周波数F1(x1j,C)に対する個別の誤差基準J1と、第2基本周波数F2(x2j,C)に対する個別の誤差基準J2から、個別にモデルパラメータF,E,Cを計算するようにしていたので、基本周波数の傾きに対する誤差が大きくなることがあったが、この実施の形態6では、複数の音韻に亘る基本周波数の傾きの誤差基準JMを含む誤差基準JPからモデルパラメータF,E,Cを計算するようにしているので、基本周波数の傾きに対する誤差が小さくなる。したがって、韻律生成装置2による韻律情報の予測精度が高くなり、音声信号生成部3により生成される音声信号の品質が向上する。
上記実施の形態1〜6では、韻律情報として、音韻継続時間長又は基本周波数を使用するものについて示したが、韻律情報として、音の大きさを表すパワーを使用するようにしてもよく、上記実施の形態1〜6と同様の効果を奏することができる。
なお、上記実施の形態6では、基本周波数の代わりに、音の大きさを表すパワーを使用するようにすればよい。
Claims (9)
- 予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第1のデータ群に基づいて第1のデータ群の韻律情報に対する第1の誤差基準を計算し、
言語情報及び韻律情報を対にした第2のデータ群に基づいて第2のデータ群の韻律情報に対する第2の誤差基準を計算するとともに、
第1及び第2のデータ群に基づいて第1及び第2のデータ群の韻律情報の和または差に対する第3の誤差基準を計算し、
第1から第3の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成する韻律情報生成手段とを備えた韻律生成装置。 - 予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第1のデータ群に基づいて第1のデータ群の韻律情報に対する第1の誤差基準を計算するとともに、
言語情報及び韻律情報を対にした第1のデータ群、及び言語情報及び韻律情報を対にした第2のデータ群に基づいて第1及び第2のデータ群の韻律情報の和に対する第3の誤差基準を計算し、
第3の誤差基準と第1の誤差基準との差から第4の誤差基準を計算し、
第1、第3及び第4の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの言語情報から韻律情報を生成する韻律情報生成手段とを備えた韻律生成装置。 - 予め子音の音素に対する子音長及び母音の音素に対する母音長の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
子音及び子音長を対にしたデータ群に基づいて子音長に対する誤差基準を計算し、
母音及び母音長を対にしたデータ群に基づいて母音長に対する誤差基準を計算するとともに、
子音及び子音長を対にしたデータ群、及び母音及び母音長を対にしたデータ群に基づいて子音長及び母音長の和に対する誤差基準を計算し、
子音長に対する誤差基準、母音長に対する誤差基準、及び子音長及び母音長の和に対する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの子音及び母音から子音長及び母音長を生成する韻律情報生成手段とを備えた韻律生成装置。 - 予め子音の音素に対する子音長及び母音の音素に対する母音長の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
子音及び子音長を対にしたデータ群に基づいて子音長に対する誤差基準を計算するとともに、
子音及び子音長を対にしたデータ群、及び母音及び母音長を対にしたデータ群に基づいて子音長及び母音長の和に対する誤差基準を計算し、
子音長及び母音長の和に対する誤差基準と子音長に対する誤差基準との差に応じた誤差基準を計算し、
子音長に対する誤差基準、子音長及び母音長の和に対する誤差基準、及び差に応じた誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの子音及び母音から子音長及び母音長を生成する韻律情報生成手段とを備えた韻律生成装置。 - 予め音韻数に対する第1の基本周波数、及びアクセント型に対する第2の基本周波数の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
音韻数及び第1の基本周波数を対にしたデータ群に基づいて第1の基本周波数に対する誤差基準を計算し、
アクセント型及び第2の基本周波数を対にしたデータ群に基づいて第2の基本周波数に対する誤差基準を計算するとともに、
音韻数及び第1の基本周波数を対にしたデータ群、及びアクセント型及び第2の基本周波数を対にしたデータ群に基づいて第1の基本周波数及び第2の基本周波数の差に対する誤差基準を計算し、
第1の基本周波数に対する誤差基準、第2の基本周波数に対する誤差基準、及び第1の基本周波数及び第2の基本周波数の差に対する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの音韻数及びアクセント型から第1及び第2の基本周波数を生成する韻律情報生成手段とを備えた韻律生成装置。 - 予め音韻記号列に対する音節長、音韻数に対する第1の基本周波数、及びアクセント型に対する第2の基本周波数の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
音韻記号列及び音節長を対にしたデータ群に基づいて音節長に対する誤差基準を計算し、
音韻数及び第1の基本周波数を対にしたデータ群に基づいて第1の基本周波数に対する誤差基準を計算し、
アクセント型及び第2の基本周波数を対にしたデータ群に基づいて第2の基本周波数に対する誤差基準を計算するとともに、
音韻記号列及び音節長を対にしたデータ群、音韻数及び第1の基本周波数を対にしたデータ群、及びアクセント型及び第2の基本周波数を対にしたデータ群に基づいて複数の音韻に亘る基本周波数の傾きに関する誤差基準を計算し、
音節長に対する誤差基準、第1の基本周波数に対する誤差基準、第2の基本周波数に対する誤差基準、及び複数の音韻に亘る基本周波数の傾きに関する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの音韻記号列、音韻数及びアクセント型から音節長、第1及び第2の基本周波数を生成する韻律情報生成手段とを備えた韻律生成装置。 - 予め音韻数に対する第1のパワー、及びアクセント型に対する第2のパワーの対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
音韻数及び第1のパワーを対にしたデータ群に基づいて第1のパワーに対する誤差基準を計算し、
アクセント型及び第2のパワーを対にしたデータ群に基づいて第2のパワーに対する誤差基準を計算するとともに、
音韻数及び第1のパワーを対にしたデータ群、及びアクセント型及び第2のパワーを対にしたデータ群に基づいて第1のパワー及び第2のパワーの差に対する誤差基準を計算し、
第1のパワーに対する誤差基準、第2のパワーに対する誤差基準、及び第1のパワー及び第2のパワーの差に対する誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータとテキストの音韻数及びアクセント型から第1及び第2のパワーを生成する韻律情報生成手段とを備えた韻律生成装置。 - テキストを言語解析して、その解析結果である言語情報を出力する言語解析手段と、
予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第1のデータ群に基づいて第1のデータ群の韻律情報に対する第1の誤差基準を計算し、
言語情報及び韻律情報を対にした第2のデータ群に基づいて第2のデータ群の韻律情報に対する第2の誤差基準を計算するとともに、
第1及び第2のデータ群に基づいて第1及び第2のデータ群の韻律情報の和または差に対する第3の誤差基準を計算し、
第1から第3の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータと上記言語解析手段より出力された言語情報から韻律情報を生成する韻律情報生成手段と、
上記韻律情報生成手段により生成された韻律情報から音声信号を生成する音声信号生成手段とを備えた音声合成装置。 - テキストを言語解析して、その解析結果である言語情報を出力する言語解析手段と、
予め言語情報と韻律情報の対応関係が登録されている音声データベースと、
上記音声データベースに登録されている対応関係を参照して、
言語情報及び韻律情報を対にした第1のデータ群に基づいて第1のデータ群の韻律情報に対する第1の誤差基準を計算するとともに、
言語情報及び韻律情報を対にした第1のデータ群、及び言語情報及び韻律情報を対にした第2のデータ群に基づいて第1及び第2のデータ群の韻律情報の和に対する第3の誤差基準を計算し、
第3の誤差基準と第1の誤差基準との差から第4の誤差基準を計算し、
第1、第3及び第4の誤差基準に基づいて韻律モデルのモデルパラメータを推定するモデルパラメータ推定手段と、
上記モデルパラメータ推定手段により推定された韻律モデルのモデルパラメータと上記言語解析手段より出力された言語情報から韻律情報を生成する韻律情報生成手段と、
上記韻律情報生成手段により生成された韻律情報から音声信号を生成する音声信号生成手段とを備えた音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005192473A JP4684770B2 (ja) | 2005-06-30 | 2005-06-30 | 韻律生成装置及び音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005192473A JP4684770B2 (ja) | 2005-06-30 | 2005-06-30 | 韻律生成装置及び音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007011042A JP2007011042A (ja) | 2007-01-18 |
JP4684770B2 true JP4684770B2 (ja) | 2011-05-18 |
Family
ID=37749634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005192473A Active JP4684770B2 (ja) | 2005-06-30 | 2005-06-30 | 韻律生成装置及び音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4684770B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
JP7197786B2 (ja) * | 2019-02-12 | 2022-12-28 | 日本電信電話株式会社 | 推定装置、推定方法、及びプログラム |
JP7093081B2 (ja) * | 2019-07-08 | 2022-06-29 | 日本電信電話株式会社 | 学習装置、推定装置、推定方法、およびプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63231398A (ja) * | 1987-03-19 | 1988-09-27 | 株式会社リコー | ポ−ズ長制御方式 |
JPH04275598A (ja) * | 1991-03-01 | 1992-10-01 | Ricoh Co Ltd | 音声合成方式 |
-
2005
- 2005-06-30 JP JP2005192473A patent/JP4684770B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63231398A (ja) * | 1987-03-19 | 1988-09-27 | 株式会社リコー | ポ−ズ長制御方式 |
JPH04275598A (ja) * | 1991-03-01 | 1992-10-01 | Ricoh Co Ltd | 音声合成方式 |
Also Published As
Publication number | Publication date |
---|---|
JP2007011042A (ja) | 2007-01-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6499014B1 (en) | Speech synthesis apparatus | |
EP4078571B1 (en) | A text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system | |
Hono et al. | Sinsy: A deep neural network-based singing voice synthesis system | |
US20090234652A1 (en) | Voice synthesis device | |
JP2005164749A (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2020034883A (ja) | 音声合成装置及びプログラム | |
Yin et al. | Modeling F0 trajectories in hierarchically structured deep neural networks | |
Astrinaki et al. | Reactive and continuous control of HMM-based speech synthesis | |
CN102473416A (zh) | 音质变换装置及其方法、元音信息制作装置及音质变换系统 | |
TWI503813B (zh) | 可控制語速的韻律訊息產生裝置及語速相依之階層式韻律模組 | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
Maia et al. | Towards the development of a brazilian portuguese text-to-speech system based on HMM. | |
Werner et al. | Toward spontaneous speech synthesis-utilizing language model information in TTS | |
Bettayeb et al. | Speech synthesis system for the holy quran recitation. | |
Deka et al. | Development of assamese text-to-speech system using deep neural network | |
JP2001265375A (ja) | 規則音声合成装置 | |
JP4684770B2 (ja) | 韻律生成装置及び音声合成装置 | |
WO2010104040A1 (ja) | 1モデル音声認識合成に基づく音声合成装置、音声合成方法および音声合成プログラム | |
JP5874639B2 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
Maia et al. | An HMM-based Brazilian Portuguese speech synthesizer and its characteristics | |
Bahaadini et al. | Implementation and evaluation of statistical parametric speech synthesis methods for the Persian language | |
JP2009204795A (ja) | 基本周波数推定装置、基本周波数推定方法、基本周波数推定プログラム、記憶媒体 | |
Ishi et al. | Mora F0 representation for accent type identification in continuous speech and considerations on its relation with perceived pitch values | |
JP3571925B2 (ja) | 音声情報処理装置 | |
Astrinaki et al. | sHTS: A streaming architecture for statistical parametric speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071005 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080523 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080624 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101217 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110201 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110209 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140218 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4684770 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |