JP3854713B2 - 音声合成方法および装置および記憶媒体 - Google Patents
音声合成方法および装置および記憶媒体 Download PDFInfo
- Publication number
- JP3854713B2 JP3854713B2 JP05790098A JP5790098A JP3854713B2 JP 3854713 B2 JP3854713 B2 JP 3854713B2 JP 05790098 A JP05790098 A JP 05790098A JP 5790098 A JP5790098 A JP 5790098A JP 3854713 B2 JP3854713 B2 JP 3854713B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- sequence
- time length
- utterance
- standard deviation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001308 synthesis method Methods 0.000 title claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000611 regression analysis Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 23
- 238000013500 data storage Methods 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 238000011002 quantification Methods 0.000 description 11
- 239000002245 particle Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000008602 contraction Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002789 length control Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002940 repellent Effects 0.000 description 1
- 239000005871 repellent Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Processing Or Creating Images (AREA)
- Telephone Function (AREA)
- Studio Circuits (AREA)
Description
【発明の属する技術分野】
本発明は、規則合成方式による音声合成方法および音声合成装置、および、音声合成方法を実装した、コンピュータが読むことができるプログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
従来の音声規則合成装置では、音韻時間長を制御する方法として、音韻時間長に関する統計量から導出した制御規則による方法(匂坂芳典、東倉洋一:“規則による音声合成のための音韻時間長制御”、電子通信学会論文誌、Vol.J67-A,No.7(1984)pp.629-636)、重回帰分析の一手法である数量化I類を用いる方法(洒寄哲也、佐々木昭一、北川博雄:“規則合成のための数量化I類を用いた韻律制御”、音響学会講演論文集、3-4-17(1986-10))がある。
【0003】
【発明が解決しようとする課題】
しかしながら、上述した従来技術においては、音韻系列の発声時間を指定することが難しいという問題がある。たとえば、制御規則による方法では、指定された発声時間に対応した制御規則の導出が難しい。また、制御規則による方法で例外的な入力がある場合や数量化I類を用いる方法で良い推定値が得られない場合に自然性を感じる音韻時間長に対する誤差が大きくなる、という問題がある。
【0004】
制御規則を用いて音韻時間長を制御する場合、統計量(平均値や標準偏差など)に対して前後の音韻の組み合わせを考慮した重み付けや、伸縮係数の設定などが必要になってくる。音韻の組み合わせの場合分けや、重み付けや伸縮係数などのパラメータなど操作する項目が多く、しかも、操作方法(制御規則)を経験則で決めていかなければならない。音韻系列の発声時間が指定されたときに、たとえ音韻の個数が同じでも、音韻の組み合わせは膨大になる。どのような音韻の組み合わせでも、音韻時間長の和が指定された発声時間に近くなるような、制御規則の導出は困難である。
【0005】
本発明は上記の問題点に鑑みてなされたものであり、指定した発声時間になるように音韻系列の音韻時間長を設定することを可能とし、発声時間の長短によらず自然な音韻時間長を与える音声合成方法および装置および記憶媒体を提供することを目的とする。
【0006】
【課題を解決するための手段】
上記の目的を達成するための本発明の一態様による音声合成装置は例えば以下の構成を備える。すなわち、
音韻系列に従って音声を合成する音声合成装置であって、
音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段と、
前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得手段と、
前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得手段と、
前記取得手段で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に加えた値を第2の音韻時間長として設定する設定手段とを備える。
【0007】
また、本発明によれば、上記音声合成装置で実行される音声合成方法が提供される。更に、本発明によれば、上記音声合成方法をコンピュータに実現させるための制御プログラムを格納する記憶媒体が提供される。
【0008】
【発明の実施の形態】
以下、添付の図面を参照して本発明の好適な実施形態を説明する。
【0009】
[第1の実施形態]
図1は、第1の実施形態の音声合成装置の構成を示すブロック図である。101はCPUであり、本音声規則合成装置における各種制御を行なう。102はROMであり、各種パラメータやCPU101が実行する制御プログラムを格納する。103はRAMであり、CPU101が実行する制御プログラムを格納するとともに、CPU101の作業領域を提供する。104はハードディスク、フロッピーディスク、CD−ROM等の外部記憶装置である。105は入力部であり、キーボード、マウス等から構成される。106はディスプレイであり、CPU101の制御により各種表示を行なう。6は音声合成部であり、合成音声を生成する。107はスピーカであり、音声合成部6より出力される音声信号(電気信号)を音声に変換して出力する。
【0010】
図2は、第1の実施形態による音声合成装置の機能構成を示すブロック図である。以下に示される各機能は、ROM102に格納された制御プログラムあるいは外部記憶装置104からRAM103にロードされた制御プログラムをCPU101が実行することによって実現される。
【0011】
1は文字系列入力部であり、入力部105より入力された合成すべき音声の文字系列、すなわち表音テキストの入力処理を行なう。例えば合成すべき音声が「音声」であるときには、「おんせい」というような文字系列を入力する。また、この文字系列中には、発声速度や声の高さなどを設定するための制御シーケンスなどが含まれることもある。2は制御データ格納部であり、文字系列入力部1で制御シーケンスと判断された情報や、ユーザインタフェースより入力される発声速度や声の高さなどの制御データを内部レジスタに格納する。3は音韻系列生成部であり、文字系列入力部1より入力された文字系列を音韻系列へ変換する。例えば、「おんせい」という文字系列は、「o,X,s,e,i」という音韻系列へ変換される。4は音韻系列格納部であり、音韻系列生成部3で生成された音韻系列を内部レジスタに格納する。なお、上述の各内部レジスタとしてはRAM103を用いることが可能である。
【0012】
5は音韻時間長設定部であり、制御データ格納部2に格納された制御データの発声速度と音韻系列格納部4に格納された音韻の種類より、音韻時間長を設定する。6は音声合成部であり、音韻時間長設定部5で音韻時間長の設定された音韻系列と制御データ格納部2に格納された制御データの声の高さから、合成音声を生成する。
【0013】
次に、音韻時間長設定部5で行なわれる音韻時間長の設定について説明する。以下の説明において、音韻集合をΩとする。Ωの例としては、
Ω={a,e,i,o,u,X(撥音),b,d,g,m,n,r,w,y,z,ch,f,h,k,p,s,sh,t,ts,Q(促音)}
などを使用することができる。
【0014】
また、音韻時間長設定区間を呼気段落(ポーズとポーズの間の区間)とする。さて、音韻時間長設定区間の音韻系列αi(1≦i≦N)を、制御データ格納部2に格納された制御データの発声速度によって決定される発声時間Tで発声するように、当該音韻系列の各音韻αiの音韻時間長diを決定する。すなわち、音韻系列の各αi(式(1a))の音韻時間長di(式(1b))を、式(1c)を満足するように決定する。
【0015】
【数1】
【0016】
ここで、音韻αiの音韻時間長初期値をdαi0とする。また、音韻αiに関して、音韻時間長の平均、標準偏差、最小値をそれぞれμαi,σαi,dαiminとする。そして、これらの値を用いて、以下に示す式(2)に従ってdαiを決定し、これを新たな音韻時間長初期値とする。すなわち、音韻時間長の平均値、標準偏差値、最小値を音韻の種類毎(αi毎)に求め、これをメモリに格納しておき、これらの値を用いて音韻時間長の初期値を決定しなおす。
【0017】
【数2】
【0018】
こうして得られた音韻時間長初期値dαiを用いて、音韻時間長diを式(3a)に従って設定する。なお、得られたdiが閾値θi(>0)に対してdi<θiとなるときは、式(3b)に従って設定される。
【0019】
【数3】
【0020】
すなわち、更新された音韻時間長の初期値の和を設定された発声時間Tから差引き、これを音韻時間長の標準偏差σαiの二乗和で割った値を係数ρとし、この係数ρと標準偏差σαiの二乗との積を当該音韻時間長の初期値dαiに加えた値を、音韻時間長diとする。
【0021】
以上の動作を、図3のフローチャートを参照して説明する。
【0022】
まず、ステップS1で、文字系列入力部1より表音テキストが入力される。ステップS2では、外部入力された制御データ(発声速度、声の高さ)と入力された表音テキスト中の制御データが制御データ格納部2に格納される。ステップS3で、文字系列入力部1より入力された表音テキストから音韻系列生成部3において音韻系列が生成される。
【0023】
次に、ステップS4で、次の時間長設定区間の音韻系列が音韻系列格納部4に取り込まれる。ステップS5で、音韻時間長設定部5において、音韻αiの種類に応じて音韻時間長初期値dαiが設定される(式(2))。ステップS6では、まず、制御データ格納部2に格納された制御データの発声速度から音韻時間長設定区間の発声時間Tを設定する。そして、音韻時間長設定区間の音韻系列の音韻時間長の和が音韻時間長設定区間の発声時間Tに等しくなるように、上記式(3a)、(3b)を用いて、音韻時間長設定区間の音韻系列の各音韻時間長を設定する。
【0024】
ステップS7で、音韻時間長設定部5で音韻時間長の設定された音韻系列と制御データ格納部2に格納された制御データの声の高さから、合成音声が生成される。そして、ステップS8で、入力された文字列に対する最後の音韻時間長設定区間であるか否かが判別され、最後の音韻時間長設定区間でない場合はステップS10で外部入力された制御データが制御データ格納部2に格納されてステップS4に戻り、処理が続けられる。
【0025】
一方、ステップS8で最後の音韻時間長設定区間であると判定された場合はステップS9に進み、入力が終了したか否かが判別される。入力が終了していない場合はステップS1に戻り、上記処理が繰り返される。
【0026】
なお、式(2)は、音韻時間長初期値が現実にはあり得ないような値や出現確率の低い値に設定されるのを防ぐためのものである。音韻時間長の確率密度が正規分布であると仮定したときに、平均値から標準偏差の±3倍以内に入る確率は0.996となる。更に、音韻時間長が短くなりすぎるのを防ぐために、標本集団の最小値未満にはならないようにしている。
【0027】
式(3a)は、式(2)で設定された音韻時間長初期値を平均値とする正規分布が各音韻時間長の確率密度関数であると仮定して、式(1c)の制約条件のもとで最尤推定(maximum likelihood estimation)を行った結果である。本例の最尤推定について説明すると次のとおりである。
【0028】
音韻αiの音韻時間長の標準偏差をσαiとする。音韻時間長の確率密度分布が正規分布であると仮定する(式(4a))。このとき、音韻時間長の対数尤度は式(4b)のようになる。ここで、対数尤度を最大にするのは、式(4c)のKを最小にするのと同値である。そこで、音韻時間長の対数尤度が最大になるように上述の式(1c)を満たすdiを決定する。
【0029】
【数4】
【0030】
今、式(5a)のように変数変換を行うと、式(4c)及び式(1c)は式(5b)及び(5c)のようになる。Kが最小となるのは、球(式5b))が平面(式(5c))に接するときであり、式(5d)の場合である。この結果、式(3a)が導かれる。
【0031】
【数5】
【0032】
式(2)と式(3a)、(3b)を総合して、自然発声の標本集団から求めた統計量(平均値、標準偏差、最小値)を用いて、所望の発声時間((1c)式)を満たす最も確からしい(尤度が最大になる)値に音韻時間長が設定される。したがって、所望の発声時間((1c)式)を満たすように自然発声したときに得られる音韻時間長に対する誤差が小さい、という意味で自然な音韻時間長が得られる。
【0033】
[第2の実施形態]
第1の実施形態では、発声速度(発声時間)や音韻のカテゴリにかかわらず、各音韻αiの音韻時間長diを同一の規則で決定した。第2の実施形態では、発声速度や音韻のカテゴリに応じて音韻時間長diの決定規則を変化させ、より自然な音声合成を可能とする。なお、第2の実施形態によるハードウエア構成、機能構成は第1の実施形態(図1、図2)と同様である。
【0034】
音韻αiに関して、発声速度でカテゴリーを分けて音韻時間長の平均値、標準偏差、最小値を求める。例えば、発声速度のカテゴリーを呼気段落の平均モーラ時間長で表すとして、
1:120ミリ秒未満、
2:120ミリ秒以上140ミリ秒未満、
3:140ミリ秒以上160ミリ秒未満、
4:160ミリ秒以上180ミリ秒未満、
5:180ミリ秒以上
とする。なお、上述した項目の先頭の数字を発声速度に対応するカテゴリーのインデックスとする。発声速度に対応するカテゴリーのインデックスをnとして音韻時間長の平均値、標準偏差、最小値を求め、それぞれμαi(n),σαi(n),dαimin(n)とする。
【0035】
音韻αiの音韻時間長初期値をdαi0とする。音韻時間長初期値dαi0を平均値によって決定する音韻の集合をΩa、重回帰分析の一手法である数量化I類(質的なデータから量的に測定される外的基準を予測したり、説明したりするための手法)によって決定する音韻の集合をΩrとする。ここで、Ωの要素で、Ωa,Ωrのどちらにも含まれない要素や、両者に含まれる要素は存在しないようにする。すなわち、以下の式(6)を満たすようにする。
【0036】
【数6】
【0037】
αi∈Ωaのとき、すなわちαiがΩaに属するときは、平均値によって音韻時間長初期値を決定する。すなわち、音声速度に対応するカテゴリーのインデックスnを求めて、以下の式(7)によって音韻時間長初期値を決定する。
【0038】
【数7】
【0039】
一方、αi∈Ωrのとき、すなわちαiがΩrに属するときは、数量化I類によって音韻時間長初期値を決定する。ここで、要因のインデックスをj(1≦j≦j),各要因に対応するカテゴリーのインデックスをk(1≦k≦K(j))として、(j,k)に対応する数量化I類の係数を、
ajk
とする。
【0040】
要因の一例として、
1:当該音韻の2つ前の先行音韻、
2:当該音韻の1つ前の先行音韻、
3:当該音韻、
4:当該音韻の1つ後の後続音韻、
5:当該音韻の2つ後の後続音韻、
6:呼気段落の平均モーラ時間長、
7:呼気段落内モーラ位置、
8:当該音韻を含む単語の品詞
などを使用することができる。上述した項目の先頭の数字が要因のインデックスjに対応する。
【0041】
さらに、各要因に対応するカテゴリーの例を述べる。音韻のカテゴリーは、
1:a、2:e、3:i、4:o、5:u、6:X、7:b、8:d、9:g、10:m、11:n、12:r、13:w、14:y、15:z、16:+、17:c、18:f、19:h、20:k、21:p、22:s、23:sh、24:t、25:ts、26:Q、27:ポーズ、とし、当該音韻のみ“ポーズ”をはずす。実施形態において、呼気段落を音韻時間長設定区間としているが、呼気段落はポーズを含まないので、当該音韻からポーズをはずす。なお、呼気段落という用語は、ポーズ(または文頭)とポーズ(または文末)の間の区間で、途中にポーズを含まないものという意味で使用している。
【0042】
また、呼気段落内の平均モーラ時間長のカテゴリは、
1:120ミリ秒未満
2:120ミリ秒以上140ミリ秒未満
3:140ミリ秒以上160ミリ秒未満
4:160ミリ秒以上180ミリ秒未満
5:180ミリ秒以上
とする。
【0043】
また、呼気段落内モーラ位置に関しては、
1:第1モーラ
2:第2モーラ
3:第3モーラ以降最後から第3番目のモーラまで
4:最後から2番目のモーラ
5:最後のモーラ
とする。
【0044】
更に、品詞のカテゴリーを
、1:名詞、2:副詞的名詞、3:代名詞、4:固有名詞、5:数、6:動詞、7:形容詞、8:形容動詞、9:副詞、10:連体詞、11:接続詞、12:感動詞、13:助動詞、14:格助詞、15:副助詞、16:並立助詞、17:準体助詞、18:接続助詞、19:終助詞、20:接頭辞、21:接尾辞、22:形動接尾、23:サ変接尾、24:形容詞接尾、25:動詞接尾、26:助数詞
とする。
【0045】
なお、要因(アイテムともいう)とは、数量化I類での予測に使用する質的なデータの種類を意味する。カテゴリーは、各要因毎に取りうる選択肢を意味する。したがって、上記の例に即して説明すると、次のようになる。
【0046】
要因のインデックスj=1:当該音韻の2つ前の先行音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0047】
要因のインデックスj=2:当該音韻の1つ前の先行音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0048】
要因のインデックスj=3:当該音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0049】
要因のインデックスj=4:当該音韻の1つ後の後続音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0050】
要因のインデックスj=5:当該音韻の2つ後の後続音韻
インデックスk=1に対応するカテゴリー:a
インデックスk=2に対応するカテゴリー:e
インデックスk=3に対応するカテゴリー:i
インデックスk=4に対応するカテゴリー:o
(中略)
インデックスk=26に対応するカテゴリー:Q
インデックスk=27に対応するカテゴリー:ポーズ。
【0051】
要因のインデックスj=6:呼気段落内の平均モーラ時間長
インデックスk=1に対応するカテゴリー:120ミリ秒未満
インデックスk=2に対応するカテゴリー:120ミリ秒以上140ミリ秒未満
インデックスk=3に対応するカテゴリー:140ミリ秒以上160ミリ秒未満
インデックスk=4に対応するカテゴリー:160ミリ秒以上180ミリ秒未満
インデックスk=5に対応するカテゴリー:180ミリ秒以上。
【0052】
要因のインデックスj=7:呼気段落内モーラ位置
インデックスk=1に対応するカテゴリー:第1モーラ
インデックスk=2に対応するカテゴリー:第2モーラ
(中略)
インデックスk=5に対応するカテゴリー:最後のモーラ。
【0053】
要因のインデックスj=8:当該音韻を含む単語の品詞
インデックスk=1に対応するカテゴリー:名詞
インデックスk=2に対応するカテゴリー:副詞的名詞
(中略)
インデックスk=26に対応するカテゴリー:助数詞
となる。
【0054】
上述した項目の先頭の数字がカテゴリーのインデックスkに対応する。
【0055】
そして、各要因ごとに係数ajkの平均が0になるようにする。すなわち、式(8)を満足するようにする。
【0056】
【数8】
【0057】
また、音韻αiのダミー変数を、以下のように設定する。
【0058】
【数9】
【0059】
係数とダミー変数の積和に加える定数をc0とする。このとき、音韻αiの音韻時間長の数量化I類による推定値は、式(10)となる。
【0060】
【数10】
【0061】
そして、この推定値を用いて音韻αiの音韻時間長初期値を以下のように決定する。
【0062】
【数11】
【0063】
さらに、発声速度と対応するカテゴリーのインデックスnを求めて、当該カテゴリーの音韻時間長の平均値、標準偏差、最小値を得て、これらを用いて音韻時間長初期値dαi0を以下の式で更新する。こうして得られたdαiを改めて音韻時間長初期値として設定する。
【0064】
【数12】
【0065】
ここで、式中の標準偏差に掛ける係数のrσは、例えば、rσ=3とする。以上のようにして得られた音韻時間長初期値を用いて、第1の実施形態と類似の方法で音韻時間長を決定する。すなわち、以下の式(13a)を用いて音韻時間長diを決定し、閾値θi(>0)に対してdi<θiとなるときは、式(13b)により音韻時間長diを決定する。
【0066】
【数13】
【0067】
以上の動作を、図3のフローチャートを流用して説明する。ステップS1で、文字系列入力部1より表音テキストが入力される。ステップS2で、外部入力された制御データ(発声速度、音の高さ)と入力された表音テキスト中の制御データが制御データ格納部2に格納される。ステップS3で、文字系列入力部1より入力された表音テキストから音韻系列生成部3において音韻系列が生成される。ステップS4で、次の音韻時間長設定区間の音韻系列が音韻系列格納部4に取り込まれる。
【0068】
ステップS5では、音韻時間長設定部5において、制御データ格納部2に格納された制御データの発声速度、音韻時間長の平均値と標準偏差と最小値、および、数量化I類による音韻時間長推定値を用いて、上述した方法により、音韻の種類(カテゴリ)に応じて音韻時間長初期値が設定される。
【0069】
ステップS6では、音韻時間長設定部5において、制御データ格納部2に格納された制御データの発声速度から音韻時間長設定区間の発声時間を設定し、音韻時間長設定区間の音韻系列の音韻時間長の和が音韻時間長設定区間の発声時間に等しくなるように、音韻時間長設定区間の音韻系列の音韻時間長を上述した方法により設定する。
【0070】
ステップS7で、音韻時間長設定部5で音韻時間長の設定された音韻系列と制御データ格納部2に格納された制御データの声の高さから、合成音声が生成される。ステップS8で、入力された文字列に対する最後の音韻時間長設定区間であるか否かが判別される。最後の音韻時間長設定区間でない場合はステップS10へ進む。ステップS10では、外部入力された制御データが制御データ格納部2に格納されてステップS4に戻り、処理が続けられる。一方、最後の音韻時間長設定区間である場合はステップS9に進み、入力が終了したか否かが判別され、終了していない場合はステップS1に戻り、処理が続けられる。
【0071】
なお、上記各実施形態における構成は本発明の一実施形態を示したものであり、各種変形が可能である。変形例を示せば以下の通りである。
【0072】
(1)上述した各実施形態において音韻集合Ωは一例であり、それ以外の集合も使用でき、言語や音韻の種類に応じて音韻集合の要素を決めることができる。また、本発明は日本語以外の言語にも適用可能である。
【0073】
(2)上述した実施形態において、呼気段落は音韻時間長設定区間の一例であり、他にも、単語、形態素、文節、文などを音韻時間長設定区間とすることができる。なお、文を音韻時間長設定区間とするときは、当該音韻のポーズを考慮する必要がある。
【0074】
(3)上述した実施形態において、音韻時間長の初期値として設定する値として、自然発声した音声の音韻時間長を使用することができる。また、他の音韻時間長制御規則によって決定した値や数量化I類を用いて推定した値を使用することもできる。
【0075】
(4)上述した第2の実施形態において、音韻時間長の平均値を求めるのに使用する発声速度のカテゴリーは一例を示すものであり、他のカテゴリーを用いても良い。
【0076】
(5)上述した第2の実施形態において、数量化I類の要因とカテゴリーは一例を示すものであり、他の要因やカテゴリーを用いても良い。
【0077】
(6)上述した実施形態において、音韻時間長初期値の設定に使用する標準偏差に掛ける係数rσ=3は、一例を示すものであり、他の値を用いてもよい。
【0078】
また、本発明の目的は、前述した実施形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記憶媒体に格納されたプログラムコードを読出し実行することによっても、達成されることは言うまでもない。
【0079】
この場合、記憶媒体から読出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。
【0080】
プログラムコードを供給するための記憶媒体としては、例えば、フロッピディスク,ハードディスク,光ディスク,光磁気ディスク,CD−ROM,CD−R,磁気テープ,不揮発性のメモリカード,ROMなどを用いることができる。
【0081】
また、コンピュータが読出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)などが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0082】
さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0083】
【発明の効果】
以上説明したように、本発明によれば、指定した発声時間になるように音韻系列の音韻時間長を設定することが可能となり、発声時間の長短によらず自然な音韻時間長を与えることが可能である。
【0084】
【図面の簡単な説明】
【図1】本発明の実施形態に係る音声合成装置の構成を示すブロック図である。
【図2】本発明の実施形態に係る音声合成装置の機能構成を示すブロック図である。
【図3】本発明の実施形態に係る音声合成手段を示すフローチャートである。
【符号の説明】
1 文字系列入力部
2 制御データ格納部
3 音韻系列生成部
4 音韻系列格納部
5 音韻時間長設定部
6 音声合成部
Claims (9)
- 音韻系列に従って音声を合成する音声合成装置であって、
音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段と、
前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得手段と、
前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得手段と、
前記取得手段で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に加えた値を第2の音韻時間長として設定する設定手段とを備えることを特徴とする音声合成装置。 - 前記格納手段は更に音韻の種類ごとに音韻時間長の平均値を格納し、
前記取得手段は、前記音韻系列の各音韻の前記平均値又は重回帰分析による音韻時間長推定値のいずれかを用いて前記第1の音韻時間長を取得することを特徴とする請求項1記載の音声合成装置。 - 前記取得手段は、各音韻の第1の音韻時間長として、当該音韻の平均値を中心に標準偏差の定数倍の範囲内に収まる音韻時間長を設定することを特徴とする請求項1記載の音声合成装置。
- 前記格納手段は更に音韻の種類ごとに音韻時間長の最小値を格納し、
前記取得手段は、各音韻の第1の音韻時間長が当該音韻の前記最小値より小さい場合は該第1の音韻時間長を該最小値に設定することを特徴とする請求項1記載の音声合成装置。 - 前記格納手段は各音韻の平均値、標準偏差、最小値を発声速度に基づいた分類毎に格納し、
前記取得手段は、前記音韻系列の発声時間から算出した発声速度に対応する各音韻の平均値、標準偏差、最小値を利用して各音韻の第1の音韻時間長を算出することを特徴とする請求項1乃至請求項4のいずれかに記載の音声合成装置。 - 音声合成対象の文字系列を取得する文字系列取得手段と、
前記文字系列取得手段で取得した文字系列を音韻系列に変換する変換手段とを更に備え、
前記発声時間取得手段は、前記文字系列に含まれる発声速度を示す制御シーケンスに基づいて、前記発声時間情報を取得することを特徴とする請求項1記載の音声合成装置。 - 音声合成対象の文字系列を取得する文字系列取得手段と、
前記文字系列取得手段で取得した文字系列を音韻系列に変換する変換手段とを更に備え、
前記発声時間取得手段は、ユーザによって設定された発声速度に基づいて、前記発声時間情報を取得することを特徴とする請求項1記載の音声合成装置。 - 音韻系列に従って音声を合成する音声合成方法であって、
前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得工程と、
前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得工程と、
音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段から前記音韻系列の各音韻に対応する標準偏差を取得し、前記取得工程で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に 加えた値を第2の音韻時間長として設定する設定工程とを備えることを特徴とする音声合成方法。 - 音韻系列に従って音声を合成する音声合成方法をコンピュータに実行させるための制御プログラムを格納した記憶媒体であって、
前記音声合成方法が、
前記音韻系列の発声時間を示す発声時間情報を取得する発声時間取得工程と、
前記音韻系列の各音韻に対応する第1の音韻時間長を取得する取得工程と、
音韻の種類ごとに音韻時間長の標準偏差を格納する格納手段から前記音韻系列の各音韻に対応する標準偏差を取得し、前記取得工程で取得した第1の音韻時間長の和を、前記発声時間から減じた値を、各音韻に対応する標準偏差の二乗和で割った値を係数とし、各音韻について、該係数と当該音韻の標準偏差の二乗との積を当該音韻の第1の音韻時間長に加えた値を第2の音韻時間長として設定する設定工程とを備えることを特徴とする記憶媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05790098A JP3854713B2 (ja) | 1998-03-10 | 1998-03-10 | 音声合成方法および装置および記憶媒体 |
US09/264,866 US6546367B2 (en) | 1998-03-10 | 1999-03-09 | Synthesizing phoneme string of predetermined duration by adjusting initial phoneme duration on values from multiple regression by adding values based on their standard deviations |
EP99301760A EP0942410B1 (en) | 1998-03-10 | 1999-03-09 | Phoneme based speech synthesis |
DE69917961T DE69917961T2 (de) | 1998-03-10 | 1999-03-09 | Phonembasierte Sprachsynthese |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP05790098A JP3854713B2 (ja) | 1998-03-10 | 1998-03-10 | 音声合成方法および装置および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11259095A JPH11259095A (ja) | 1999-09-24 |
JP3854713B2 true JP3854713B2 (ja) | 2006-12-06 |
Family
ID=13068881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP05790098A Expired - Fee Related JP3854713B2 (ja) | 1998-03-10 | 1998-03-10 | 音声合成方法および装置および記憶媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6546367B2 (ja) |
EP (1) | EP0942410B1 (ja) |
JP (1) | JP3854713B2 (ja) |
DE (1) | DE69917961T2 (ja) |
Families Citing this family (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2001282279A (ja) | 2000-03-31 | 2001-10-12 | Canon Inc | 音声情報処理方法及び装置及び記憶媒体 |
US7039588B2 (en) * | 2000-03-31 | 2006-05-02 | Canon Kabushiki Kaisha | Synthesis unit selection apparatus and method, and storage medium |
JP3728172B2 (ja) | 2000-03-31 | 2005-12-21 | キヤノン株式会社 | 音声合成方法および装置 |
JP4632384B2 (ja) * | 2000-03-31 | 2011-02-16 | キヤノン株式会社 | 音声情報処理装置及びその方法と記憶媒体 |
JP4054507B2 (ja) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | 音声情報処理方法および装置および記憶媒体 |
DE10033104C2 (de) * | 2000-07-07 | 2003-02-27 | Siemens Ag | Verfahren zum Erzeugen einer Statistik von Phondauern und Verfahren zum Ermitteln der Dauer einzelner Phone für die Sprachsynthese |
JP3838039B2 (ja) * | 2001-03-09 | 2006-10-25 | ヤマハ株式会社 | 音声合成装置 |
JP4680429B2 (ja) * | 2001-06-26 | 2011-05-11 | Okiセミコンダクタ株式会社 | テキスト音声変換装置における高速読上げ制御方法 |
US7483832B2 (en) * | 2001-12-10 | 2009-01-27 | At&T Intellectual Property I, L.P. | Method and system for customizing voice translation of text to speech |
GB2391143A (en) * | 2002-04-17 | 2004-01-28 | Rhetorical Systems Ltd | Method and apparatus for scultping synthesized speech |
US20060229877A1 (en) * | 2005-04-06 | 2006-10-12 | Jilei Tian | Memory usage in a text-to-speech system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
KR101217524B1 (ko) * | 2008-12-22 | 2013-01-18 | 한국전자통신연구원 | 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치 |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP4809913B2 (ja) * | 2009-07-06 | 2011-11-09 | 日本電信電話株式会社 | 音素分割装置、方法及びプログラム |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
TWI413104B (zh) * | 2010-12-22 | 2013-10-21 | Ind Tech Res Inst | 可調控式韻律重估測系統與方法及電腦程式產品 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
JP5999839B2 (ja) * | 2012-09-10 | 2016-09-28 | ルネサスエレクトロニクス株式会社 | 音声案内システム及び電子機器 |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
KR102516577B1 (ko) | 2013-02-07 | 2023-04-03 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
CN105453026A (zh) | 2013-08-06 | 2016-03-30 | 苹果公司 | 基于来自远程设备的活动自动激活智能响应 |
JP6044490B2 (ja) * | 2013-08-30 | 2016-12-14 | ブラザー工業株式会社 | 情報処理装置、話速データ生成方法、及びプログラム |
US9384731B2 (en) * | 2013-11-06 | 2016-07-05 | Microsoft Technology Licensing, Llc | Detecting speech input phrase confusion risk |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
TWI566107B (zh) | 2014-05-30 | 2017-01-11 | 蘋果公司 | 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置 |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
JP6300328B2 (ja) * | 2016-02-04 | 2018-03-28 | 和彦 外山 | 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体 |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN113793589A (zh) * | 2020-05-26 | 2021-12-14 | 华为技术有限公司 | 语音合成方法及装置 |
CN113793590B (zh) * | 2020-05-26 | 2024-07-05 | 华为技术有限公司 | 语音合成方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3563772B2 (ja) | 1994-06-16 | 2004-09-08 | キヤノン株式会社 | 音声合成方法及び装置並びに音声合成制御方法及び装置 |
EP0832481B1 (en) | 1995-06-13 | 2002-04-03 | BRITISH TELECOMMUNICATIONS public limited company | Speech synthesis |
US6038533A (en) * | 1995-07-07 | 2000-03-14 | Lucent Technologies Inc. | System and method for selecting training text |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6101470A (en) * | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
-
1998
- 1998-03-10 JP JP05790098A patent/JP3854713B2/ja not_active Expired - Fee Related
-
1999
- 1999-03-09 DE DE69917961T patent/DE69917961T2/de not_active Expired - Lifetime
- 1999-03-09 EP EP99301760A patent/EP0942410B1/en not_active Expired - Lifetime
- 1999-03-09 US US09/264,866 patent/US6546367B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US20020107688A1 (en) | 2002-08-08 |
EP0942410B1 (en) | 2004-06-16 |
EP0942410A2 (en) | 1999-09-15 |
DE69917961T2 (de) | 2005-06-23 |
EP0942410A3 (en) | 2000-01-05 |
US6546367B2 (en) | 2003-04-08 |
DE69917961D1 (de) | 2004-07-22 |
JPH11259095A (ja) | 1999-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3854713B2 (ja) | 音声合成方法および装置および記憶媒体 | |
US7089186B2 (en) | Speech information processing method, apparatus and storage medium performing speech synthesis based on durations of phonemes | |
US7155390B2 (en) | Speech information processing method and apparatus and storage medium using a segment pitch pattern model | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
US6778962B1 (en) | Speech synthesis with prosodic model data and accent type | |
US7263488B2 (en) | Method and apparatus for identifying prosodic word boundaries | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
US6477495B1 (en) | Speech synthesis system and prosodic control method in the speech synthesis system | |
JP4632384B2 (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP3085631B2 (ja) | 音声合成方法及びシステム | |
US20060229874A1 (en) | Speech synthesizer, speech synthesizing method, and computer program | |
JP2001282278A (ja) | 音声情報処理装置及びその方法と記憶媒体 | |
JP4532862B2 (ja) | 音声合成方法、音声合成装置および音声合成プログラム | |
JP2003186489A (ja) | 音声情報データベース作成システム,録音原稿作成装置および方法,録音管理装置および方法,ならびにラベリング装置および方法 | |
Chen et al. | A statistics-based pitch contour model for Mandarin speech | |
JP3706758B2 (ja) | 自然言語処理方法,自然言語処理用記録媒体および音声合成装置 | |
JP3006240B2 (ja) | 音声合成方法および装置 | |
JP2004271615A (ja) | 情報処理装置 | |
JP2004246140A (ja) | テキスト選択方法、装置及びプログラム | |
JPH0962286A (ja) | 音声合成装置および音声合成方法 | |
JP3060422B2 (ja) | 音声規則合成装置 | |
JP3485586B2 (ja) | 音声合成方法 | |
JP2000056788A (ja) | 音声合成装置の韻律制御方法 | |
JP2001265792A (ja) | 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体 | |
JPH11259094A (ja) | 規則音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040527 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040527 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20040527 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040527 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060825 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060911 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090915 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100915 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100915 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110915 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110915 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120915 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120915 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130915 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |