[go: up one dir, main page]

JP5457706B2 - 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 - Google Patents

音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 Download PDF

Info

Publication number
JP5457706B2
JP5457706B2 JP2009083563A JP2009083563A JP5457706B2 JP 5457706 B2 JP5457706 B2 JP 5457706B2 JP 2009083563 A JP2009083563 A JP 2009083563A JP 2009083563 A JP2009083563 A JP 2009083563A JP 5457706 B2 JP5457706 B2 JP 5457706B2
Authority
JP
Japan
Prior art keywords
language
parameter
section
unit
spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009083563A
Other languages
English (en)
Other versions
JP2010237323A (ja
Inventor
ハビエル ラトレ
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2009083563A priority Critical patent/JP5457706B2/ja
Priority to PCT/JP2009/067408 priority patent/WO2010116549A1/ja
Publication of JP2010237323A publication Critical patent/JP2010237323A/ja
Priority to US13/238,187 priority patent/US20120065961A1/en
Application granted granted Critical
Publication of JP5457706B2 publication Critical patent/JP5457706B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声モデルを生成する音声モデル生成装置、音声モデルを用いて音声を合成する音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法に関する。
テキストから音声を生成する音声合成装置は、大別すると、テキスト解析部、韻律生成部及び音声信号生成部の3つの処理部から構成される。テキスト解析部では、言語辞書などを用いて入力されたテキスト(漢字かな混じり文)を解析し、漢字の読みやアクセントの位置、文節(アクセントの句)の区切りなどを定義した言語情報を出力する。韻律生成部では、言語情報に基づいて、声の高さ(基本周波数)の時間変化パターン(ピッチ包絡)と、各音韻の長さなどの音韻・韻律情報を出力する。音声信号生成部は、テキスト解析部からの音韻の系列と韻律生成部からの韻律情報に従って音声波形を生成するものであり、素片接続型合成方式とHMM合成方式の2方式が現在、主流となっている。
素片接続型合成方式では、音韻の系列に従って音声素片を選択し、韻律情報に従って音声素片のピッチと継続時間長を変形して接続することで、合成音声を出力する。この方式は録音した音声データの素片を接続して音声波形を作成しているため比較的自然な音質の合成音が得られる利点がある。しかしながら、素片を蓄積するためのメモリサイズが大きくなるという問題がある。
HMM合成方式は、合成フィルタをパルス列または雑音で駆動するボコーダーと呼ばれる合成器に基づいて合成音声を生成するものであり、統計モデルに基づく音声合成方式の一つである。この方式では、合成器のパラメータを統計モデルで表現し、入力された文章に対して統計モデルの尤度が最大となるように合成器のパラメータを生成する。合成器のパラメータは、音声信号のスペクトルを表すLSFやFMCCなど、合成フィルタのパラメータと駆動信号のパラメータであり、それらの時系列は音素毎にHMMとガウス分布により統計的にモデル化される。学習用の音声データが与えられれば、統計モデルは音声データから自動的に学習することができ、メモリサイズも比較的小さくできる利点がある。
しかしながら、従来のHMM統計モデルに基づく音声合成方式では、スペクトルが統計なモデル化により平均化されるため、生成される合成音の音質はメリハリのない篭った音質となるという問題がある。また、音素間でパラメータが不連続になり易く、異音が発生するという問題がある。
このようなパラメータの平均化や平滑化による音質の悪化を改善する方法として、文章全体にわたるスペクトルパラメータの分散を学習データから学習し、合成時に学習された分散を制約条件としてパラメータを生成、ダイナミクスを再生する手法が提案されている(非特許文献1)。
Toda. T. and Tokuda K., 2005 "Speech Parameter Generation Algorithm Considering Global Variance for HMM−Based Speech Synthesis". Proc. Interspeech 2005, Lisbon, Portugal, pp.2801−2804
しかしながら、非特許文献1に記載されている方法は、スペクトルのメリハリを回復させる効果があるものの、MFCCパラメータとの組み合わせ以外においては効果が確認されておらず、生成される合成フィルタがしばしば不安定なフィルタとなって異音が発生するという問題がある。
本発明は、上記に鑑みてなされたものであって、滑らかに変化する自然なスペクトルを生成することのできる音声モデルを生成する音声モデル生成装置、この音声モデルを用いた音声合成装置、プログラムおよび方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明の一形態は、音声モデル生成装置に係り、テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析部と、前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割部と、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化部と、複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部と、同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部とを備えることを特徴とする。
また、本発明の他の形態は、音声合成装置に係り、音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部と、前記音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択部と、前記選択部により選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成部とを備えることを特徴とする。
本発明によれば、複数フレームを含む言語区間単位でスペクトルモデルを学習するので、このスペクトルモデルを用いて音声合成を行うことにより、不連続点のない自然なスペクトルを得ることができるという効果を奏する。
本発明の実施の形態にかかる学習モデル生成装置100の構成を示すブロック図である。 言語区間を説明するための図である。 決定木の一例を示す図である。 学習モデル生成装置100による学習モデル生成処理を示すフローチャートである。 パラメータ化部140により得られたスペクトルパラメータを示す図である。 HMMによりフレーム単位で得られたスペクトルパラメータを示す図である。 音声合成装置200の構成を示す図である。 音声合成装置200による音声合成処理を示すフローチャートである。 学習モデル生成装置100のハードウェア構成を示す図である。
以下に添付図面を参照して、この発明にかかる音声モデル生成装置、音声合成装置、プログラムおよび方法の最良な実施の形態を詳細に説明する。
(第1の実施の形態)
図1は、本発明の実施の形態にかかる学習モデル生成装置100の構成を示すブロック図である。学習モデル生成装置100は、テキスト解析部110と、スペクトル分析部120と、分割部130と、パラメータ化部140と、クラスタリング部150と、モデル学習部160と、モデル記憶部170とを備えている。学習モデル生成装置100は、テキスト情報と、テキスト情報の内容を読み上げた音声信号とを学習データとして取得し、学習データに基づいて、音声合成のための学習モデルを生成する。
テキスト解析部110は、テキスト情報を取得する。テキスト解析部110は、取得したテキスト情報に対するテキスト解析により言語情報を生成する。ここで、言語情報は、言語レベルを単位とする言語区間の境界位置を示す区間情報、各言語区間の形態素、各言語区間の音素記号、各音素が有声音であるか無声音であるかを示す情報、各音素のアクセントの有無を示す情報、各言語区間の開始時間、終了時間、各言語区間の前後の言語区間の情報、各言語区間と前後の言語区間との言語的な関係を示す情報など言語の内容を示す情報である。言語情報はコンテキストと呼ばれ、クラスタリング部150において、スペクトルパラメータのコンテキストモデル作成に用いられる。なお、言語区間とは、複数フレームを含み、所定の言語レベルを単位とする区間である。言語レベルとしては、音素、音節、単語、句、呼気段階、発声全体などがある。
スペクトル分析部120は、音声信号を取得する。音声信号は、テキスト解析部110が取得したテキスト情報の内容を読み上げた発話についての音声の信号である。音声信号は、学習のための音声データを発話単位に分割したものである。
スペクトル分析部120は、取得した音声信号に対し、スペクトル分析を行う。すなわち、音声信号を10ms程度のフレームに分割する。そして、フレーム毎に、フレームのスペクトルの形状を表す特徴パラメータとしてのメルケプストラム係数(MFCC)を算出し、各フレームの音声信号とMFCCの組を分割部130に出力する。
分割部130は、外部から区切り情報を取得する。区切り情報とは、音声信号の言語レベル単位での境界位置、すなわち言語区間の境界位置を示す情報である。区切り情報は、マニュアルまたは自動的なアライメントにより生成される。自動的なアライメントとしては、例えば、HMMで構成される音声認識モデルを用いて、入力された音声信号のフレームを音響モデルの状態に対応付け、この対応付けから言語区間の区切り情報を得る。区切り情報は、学習データとともに与えられるものとする。分割部130は、区切り情報に基づいて、音声信号の言語区間を特定し、スペクトル分析部120から取得したMFCCを言語区間に分割する。
図2に示すように、例えば[kairo]というテキスト情報に対応するMFCC曲線は、音素単位では、/k/,/ai/,/r/,/o/の4つの音素の言語区間に区切られる。分割部130は、例えば音素、音節、単語、句、呼気段階および発声全体など複数の言語レベルにおいてMFCCを言語区間に分割する。
なお、これ以降で説明する処理においても、各言語レベルの言語区間それぞれに対して処理が施されるが、以下の説明においては、一例として、音素を言語レベルとする場合について述べる。
パラメータ化部140は、MFCCを分割部130において区切られた単位、すなわち言語区間単位でベクトルとし、そのベクトルからスペクトルパラメータを算出する。なお、スペクトルパラメータは、基本パラメータと拡張パラメータとを有している。
パラメータ化部140は、言語区間に含まれるフレーム数をkとした場合、複数フレームのMFCCから構成されるk次元ベクトルMelCepi,sに対し、(式1)に示すように、k次のDCTを適用することにより、基本パラメータを算出する。このように、基本パラメータは、対象とする言語区間である対象区間のスペクトルパラメータであり、対象区間の特徴を示すパラメータである。
Figure 0005457706
なお、MelCepi,sは、音素sのi次のMFCC係数のk次元ベクトルである。Ti,sは、音素sのフレーム数kに対応するk次のDCTの変換行列である。DCTの次元は言語レベルの単位やフレーム長などに依存する。なお、基本フレームを算出する際には、DCT以外の種々の線形変換を用いてもよい。例えば、逆変換可能な離散コサイン変換、フーリエ変換、ウェーブレット変換、テーラー展開および多項式展開を用いてもよい。
パラメータ化部140は、さらに拡張パラメータを算出する。拡張パラメータは、対象区間に隣接する言語区間のMFCCベクトルの傾きで構成される。なお、隣接する区間とは、対象区間の直前の言語区間である直前区間と、対象区間の直後の言語区間である直後区間である。直前区間の拡張パラメータ
Figure 0005457706
および直後区間の拡張パラメータ
Figure 0005457706
は、それぞれ(式2)および(式3)により算出される。ここで、αは傾きを計算するためのW次元重みベクトルである。また、カッコ内の負のインデックスはベクトルの最後の要素から数えた場合の要素を示している。
Figure 0005457706
Figure 0005457706
上記の拡張パラメータは、基本パラメータを用いて、それぞれ(式4)、(式5)のように書き換えることができる。すなわち、拡張パラメータを基本パラメータの関数として表すことができる。
Figure 0005457706
Figure 0005457706
なお、
Figure 0005457706
および
Figure 0005457706
は、それぞれ、(式6)、(式7)で表される。
Figure 0005457706
Figure 0005457706
パラメータ化部140は、分割部130により算出された基本パラメータおよび拡張パラメータを(式8)に示すように、1つのスペクトルパラメータSPi,sに統合する。
Figure 0005457706
クラスタリング部150は、パラメータ化部140により得られた各言語区間のスペクトルパラメータを、区切り情報およびテキスト解析部110により生成された言語情報に基づいてクラスタリングする。具体的には、クラスタリング部150は、言語情報、すなわちコンテキスト情報に関する質問を繰り返しながら分岐を繰り返す決定木に基づいて、スペクトルパラメータを複数のクラスターに分割する。例えば、図3に示すように、「対象区間は/a/か?」といった質問に対するYes、Noの答えに応じてスペクトルパラメータはYesの子ノードとNoの子ノードに分割される。質問と、回答によるスペクトルパラメータの分割が繰り返されて、図3に示すように言語情報に関する条件が等しい複数のスペクトルパラメータが同一クラスターにグループ化される。
図3に示す例においては、対象区間、直前区間および直後区間の音素が等しい対象区間のスペクトルパラメータが同一のクラスターになるように分類されている。図3に示す例においては、対象区間としての音素/a/であっても、直前の音素と直後の音素との組が異なる[(k)a(n)]と、[(k)a(m)]はそれぞれ異なるクラスターに分類される。
なお、上記において説明したクラスターは一例であり、他の例としては、上述のように、対象区間、直前区間および直後区間の音素のほか、対象区間におけるアクセントの有無、直前区間、直後区間におけるアクセントの有無など、各区間の音素以外の言語情報を用いてより細かいクラスターに分類してもよい。
また、クラスタリングはMFCCの全次元の係数ベクトルに対応する基本パラメータと拡張パラメータを統合したスペクトルパラメータに対して行うこととしたが、他の例としては、MFCCの次元ごとに行ってもよい。各次元でクラスタリングする場合は、クラスタリングするスペクトルパラメータの次元が統合したスペクトルパラメータの次元より小さくなる。このため、クラスタリングの精度を向上させることができる。同様に、統合したスペクトルパラメータの次元をPCA(Principal Component Analysis:主成分分析)の手法を用いて次元圧縮した後に行ってもよい。
モデル学習部160は、各クラスターに分類された複数のスペクトルパラメータから、これら複数のスペクトルパラメータの分布を近似するガウス分布のパラメータを学習し、コンテキスト依存のスペクトルモデルとして出力する。具体的には、モデル学習部160は、SPmi,s、平均ベクトルmi,sおよび共分散行列Σi,sの3つのパラメータをスペクトルモデルとして出力する。なお、クラスタリングの方法やガウス分布のパラメータ学習法としては、音声認識の分野でよく知られている方法を利用することができる。
モデル記憶部170は、モデル学習部160により出力された学習モデルを、学習モデルに共通する言語情報の条件に対応付けて記憶する。なお、言語情報の条件とは、クラスタリングにおいて質問に用いた言語情報である。
図4は、学習モデル生成装置100による学習モデル生成処理を示すフローチャートである。学習モデル生成処理においては、まず学習モデル生成装置100は学習データとしてテキスト情報、テキストの区切り位置を示す区切り情報およびテキストに対応する音声信号を取得する(ステップS100)。具体的には、テキスト情報はテキスト解析部110、音声信号はスペクトル分析部120、区切り情報は、分割部130およびクラスタリング部150に入力される。
次に、テキスト解析部110は、テキスト情報に基づいて、言語情報を生成する(ステップS102)。スペクトル分析部120は、音声信号の各フレームの特徴パラメータMFCCを算出する(ステップS104)。なお、テキスト解析部110による言語情報の生成およびスペクトル分析部120による特徴パラメータ算出の処理は独立に行われるので、両者の処理順番は問わない。
次に、分割部130は、区切り情報に基づいて、音声信号の言語区間を特定する(ステップS106)。次に、パラメータ化部140は、言語区間に含まれる複数のフレームそれぞれのMFCCから言語区間のスペクトルパラメータを算出する(ステップS108)。パラメータ化部140はより詳しくは、対象区間だけでなく、対象区間の直前区間、直後区間それぞれに含まれる複数フレームのMFCCに基づいて、基本パラメータおよび拡張パラメータを要素とするスペクトルパラメータSPi,sを算出する。
次に、クラスタリング部150は、パラメータ化部140によりテキスト情報の各言語区間に対して得られた複数のスペクトルパラメータを、区切り情報および言語情報に基づいてクラスタリングする(ステップS110)。次に、モデル学習部160は、各クラスターに属する複数のスペクトルパラメータから学習モデルとしてのスペクトルモデルを生成する(ステップS112)。次に、モデル学習部160は、スペクトルモデルを、対応するテキスト情報および言語情報(言語情報の条件)に対応付けてモデル記憶部170に記憶する(ステップS114)。以上で、学習モデル生成装置100による学習モデル生成処理が完了する。
図5および図6からわかるように、本実施の形態にかかる学習モデル生成装置100は、HMMによるスペクトルパラメータに比べて、より実際のスペクトルに近いスペクトルパラメータを得ることができる。学習モデル生成装置100は、複数フレームに対応する言語区間を単位とするスペクトルパラメータからスペクトルモデルを学習するので、より自然なスペクトルモデルを得ることができる。さらに、このスペクトルモデルを利用することにより、より自然なスペクトルパターンを生成することができる。
また、学習モデル生成装置100は、対象区間に対応する基本パラメータだけでなく、直前区間および直後区間に対応する拡張パラメータを考慮することにより、不連続点が生じることなく滑らかに変化するスペクトルモデルを学習することができる。
さらに、学習モデル生成装置100は、複数の言語レベルそれぞれに対するスペクトルモデルを学習するので、これらのスペクトルモデルを利用して、総合的なスペクトルパターンを生成することができる。
図7は、音声合成装置200の構成を示す図である。音声合成装置200は、音声合成の対象となるテキスト情報を取得し、学習モデル生成装置100により生成されたスペクトルモデルに基づいて、音声合成を行う。音声合成装置200は、モデル記憶部210と、テキスト解析部220と、モデル選択部230と、継続時間長算出部240と、スペクトルパラメータ生成部250と、F0生成部260と、駆動信号生成部270と、合成フィルタ280とを備えている。
モデル記憶部210は、学習モデル生成装置100において生成された学習モデルを言語情報の条件に対応付けて記憶している。なお、モデル記憶部210は、学習モデル生成装置100のモデル記憶部170と同様である。テキスト解析部220は、外部から音声合成の対象となるテキスト情報を取得する。テキスト解析部220は、テキスト情報に対し、テキスト解析部110と同様の処理を行う。すなわち、取得したテキスト情報に対応する言語情報を生成する。モデル選択部230は、言語情報に基づいて、テキスト解析部220に入力されたテキスト情報に含まれる複数の言語区間それぞれに対応する、コンテキスト依存のスペクトルモデルをモデル記憶部210から選択する。モデル選択部230は、テキスト情報に含まれる複数の言語区間それぞれに対して選択されたスペクトルモデルを接続し、これをテキスト情報全体に対応するモデル系列として出力する。
継続時間長算出部240は、テキスト解析部220から言語情報を取得し、言語情報に定義された各言語区間の開始時間と終了時間とに基づいて、各言語区間の継続時間長を算出する。
スペクトルパラメータ生成部250は、モデル選択部230により選択された言語区間のモデル系列と、継続時間長算出部240により各言語区間に対して算出された継続時間長を接続した継続時間長系列とを入力とし、入力されたテキスト全体に対応するスペクトルパラメータを算出する。具体的には、モデル系列と継続時間長系列とに基づいて、スペクトルパラメータSPi,sの対数尤度(尤度関数)を総目的関数Fとし、目的関数が最大となるようなスペクトルパラメータを算出する。総目的関数Fは、(式9)で表される。
Figure 0005457706
ここで、sは、単位区間の集合である。スペクトルパラメータはガウス分布でモデル化されているので、その確率は(式10)に示すように、ガウス分布の確率密度で与えられる。
Figure 0005457706
スペクトルパラメータを求めるべく、この総目的関数Fを基準となる言語レベル(音素)でのスペクトルパラメータXi,sについて最大化する。パラメータの最大化は、勾配法などの公知の技術を用いるものとする。このように、目的関数を最大化することにより、適切なスペクトルパラメータを算出することができる。
他の例としては、スペクトルパラメータ生成部250は、スペクトルのグローバル分散も考慮に入れて目的関数を最大化することとしてもよい。これにより、生成されるスペクトルのパターンが自然音声のスペクトルパターンの変化幅と同様に変化し、より自然な音声を得ることができる。
スペクトルパラメータ生成部250は、目的関数の最大化で導出されたスペクトルの基本パラメータXi,sを逆変換することで、音素に含まれる複数フレームのMFCC係数を生成する。なお、逆変換は、言語区間に含まれる複数のフレームに渡って行う。
F0生成部260は、テキスト解析部220から言語情報を取得し、継続時間長算出部240から各言語区間の継続時間長を取得する。F0生成部260は、言語情報に含まれるアクセントの有無などの情報および各言語区間の継続時間長に基づいて、ピッチの基本周波数(F0)を生成する。
駆動信号生成部270は、F0生成部260から基本周波数(F0)を取得し、基本周波数(F0)から駆動信号を生成する。具体的には、対象区間が有声音である場合には、基本周波数(F0)の逆数であるピッチ周期のパルス列を駆動信号として生成する。また、対象区間が無声音である場合、白色雑音を駆動信号として生成する。
合成フィルタ280は、スペクトルパラメータ生成部250により得られたスペクトルパラメータおよび駆動信号生成部270により生成された駆動信号から合成フィルタを用いて合成音声を生成し出力する。具体的には、まずスペクトルパラメータであるMFCCパラメータをLPCパラメータに変換する。そして、LPCパラメータを有する全極フィルタを適用する。LPCパラメータをα(i=1,2,3・・・,p)とした場合、合成フィルタとしての全極フィルタの伝達関数H(z)は、(式11)で表される。ここで、pは合成フィルタの次数である。
Figure 0005457706
また、全極フィルタへの入力信号である駆動信号をe(n)、全極フィルタの出力をy(n)とした場合、合成フィルタの動作は(式12)の差分方程式で表される。
Figure 0005457706
図8は、音声合成装置200による音声合成処理を示すフローチャートである。音声合成処理において、まずテキスト解析部220は音声合成の対象となるテキスト情報を取得する(ステップS200)。次に、テキスト解析部220は、取得したテキスト情報に基づいて、言語情報を生成する(ステップS202)。次に、モデル選択部230は、テキスト解析部220が生成した言語情報に基づいて、モデル記憶部210からテキスト情報に含まれる各言語区間に対するスペクトルモデルを選択し、これらを接続したモデル系列を得る(ステップS204)。次に、継続時間長算出部240は、言語情報に含まれる各言語区間の開始時間および終了時間に基づいて、各言語区間の継続時間長を算出する(ステップS206)。なお、モデル選択部230によるモデル選択処理および継続時間長算出部240による継続時間長算出処理は独立した処理であり、これらの処理順番は特に限定されるものではない。
次に、スペクトルパラメータ生成部250は、モデル系列および継続時間長系列に基づいて、テキスト情報に対応するスペクトルパラメータを算出する(ステップS208)。次に、F0生成部260は、言語情報および継続時間長に基づいて、ピッチの基本周波数(F0)を生成する(ステップS210)。次に、駆動信号生成部270は、駆動信号を生成する(ステップS212)。次に、合成フィルタ280により合成音声信号が生成され外部に出力されて(ステップS214)、音声合成処理が完了する。
このように、本実施の形態にかかる音声合成装置200は、学習モデル生成装置100により生成された、DCT係数で表現されたスペクトルモデルを利用して音声合成を行うので、滑らかに変化する自然なスペクトルを生成することができる。
図9は、学習モデル生成装置100のハードウェア構成を示す図である。学習モデル生成装置100は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、記憶部14と、表示部15と、操作部16と、通信部17とを備え、各部はバス18を介して接続されている。
CPU11は、RAM13を作業領域として、ROM12又は記憶部14に記憶されたプログラムとの協働により各種処理を実行し、学習モデル生成装置100の動作を統括的に制御する。また、CPU11は、ROM12又は記憶部14に記憶されたプログラムとの協働により、上述の各機能部を実現させる。
ROM12は、学習モデル生成装置100の制御にかかるプログラムや各種設定情報などを書き換え不可能に記憶する。RAM13は、SDRAMやDDRメモリなどの揮発性メモリであって、CPU11の作業エリアとして機能する。
記憶部14は、磁気的又は光学的に記録可能な記憶媒体を有し、学習モデル生成装置100の制御にかかるプログラムや各種情報を書き換え可能に記憶する。また、記憶部14は、上述のモデル学習部160により生成されるスペクトルモデルなどを記憶する。表示部15は、LCD(Liquid Crystal Display)などの表示デバイスから構成され、CPU11の制御の下、文字や画像などを表示する。操作部16は、マウスやキーボードなどの入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、CPU11に出力する。通信部17は、外部装置との間で通信を行うインターフェイスであって、外部装置から受信した各種情報をCPU11に出力する。また、通信部17は、CPU11の制御の下、各種情報を外部装置に送信する。なお、音声合成装置200のハードウェア構成は、学習モデル生成装置100のハードウェア構成と同様である。
本実施の形態にかかる学習モデル生成装置100および音声合成装置200において実行される学習モデル生成プログラムおよび音声合成プログラムは、ROM等に予め組み込まれて提供される。
本実施の形態の学習モデル生成装置100および音声合成装置200で実行される学習モデル生成プログラムおよび音声合成プログラムプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、本実施の形態の学習モデル生成装置100および音声合成装置200で実行される学習モデル生成プログラムおよび音声合成プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、本実施形態の学習モデル生成装置100および音声合成装置200で実行される学習モデル生成プログラムおよび音声合成プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
本実施の形態の学習モデル生成装置100および音声合成装置200で実行される学習モデル生成プログラムおよび音声合成プログラムは、上述した各部を含むモジュール構成となっており、実際のハードウェアとしてはCPU(プロセッサ)が上記ROMから学習モデル生成プログラムおよび音声合成プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせても良い。
100 学習モデル生成装置
120 スペクトル分析部
130 分割部
140 パラメータ化部
150 クラスタリング部
160 モデル学習部

Claims (8)

  1. テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
    前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析部と、
    前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割部と、
    対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化部と、
    複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部と、
    同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部と
    を備えることを特徴とする音声モデル生成装置。
  2. 前記モデル学習部は、前記対象区間、前記対象区間の直前および直後の前記言語区間により、前記対象区間を複数のクラスターにクラスタリングすることを特徴とする請求項1に記載の音声モデル生成装置。
  3. 音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
    音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部と、
    音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択部と、
    前記選択部により選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成部と
    を備えることを特徴とする音声合成装置。
  4. 前記生成部は、前記選択部により選択された前記スペクトルモデルの目的関数を生成し、前記目的関数を最大化することにより、前記言語区間に対するスペクトルパラメータを生成することを特徴とする請求項3に記載の音声合成装置。
  5. 音声モデル生成処理をコンピュータに実行させるための音声モデル生成プログラムであって、
    前記コンピュータを、
    テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
    前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析部と、
    前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割部と、
    対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化部と、
    複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリング部と、
    同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習するモデル学習部と
    して機能させるためのプログラム。
  6. 音声合成処理をコンピュータに実行させるための音声合成プログラムであって、
    前記コンピュータを、
    音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析部と、
    音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部と、
    前記音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択部と、
    前記選択部により選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成部と
    して機能させるためのプログラム。
  7. テキスト解析部が、テキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析ステップと、
    スペクトル分析部が、前記テキスト情報に対応する音声信号を取得し、前記音声信号の各フレームから当該フレームのスペクトル形状を表す特徴パラメータを算出するスペクトル分析ステップと、
    分割部が、前記音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間の境界位置を示す区切り情報を取得し、前記区切り情報に基づいて、前記音声信号を前記言語区間に分割する分割ステップと、
    パラメータ化部が、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれの前記特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより、前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータを取得するパラメータ化ステップと、
    クラスタリング部が、複数の言語区間それぞれに対して算出された複数のスペクトルパラメータを、前記言語情報に基づいて複数のクラスターにクラスタリングするクラスタリングステップと、
    モデル学習部が、同一のクラスターに属する複数のスペクトルパラメータから前記複数のスペクトルパラメータの特徴を示すスペクトルモデルを学習する学習ステップと
    を有することを特徴とする音声モデル生成方法。
  8. テキスト解析部が、音声合成の対象となるテキスト情報を取得し、前記テキスト情報をテキスト解析することにより、前記テキスト情報に含まれる言語の内容を示す言語情報を生成するテキスト解析ステップと、
    選択部が、音声信号の複数フレームを有し、言語レベルを単位とする区間である言語区間のうち、対象となる前記言語区間である対象区間に含まれる前記複数フレームそれぞれのスペクトル形状を表す特徴パラメータに所定の線形変換を行うことにより基本パラメータを算出し、前記対象区間の前記基本パラメータと、前記対象区間の直前の前記言語区間の前記基本パラメータと、前記対象区間の直後の前記言語区間の前記基本パラメータと、に基づいて拡張パラメータを算出することにより取得された前記基本パラメータと前記拡張パラメータとを含むスペクトルパラメータの特徴を示すスペクトルモデルであって、前記言語区間の前記言語情報により複数のクラスターにクラスタリングされたスペクトルモデルを記憶する記憶部を参照するステップと、
    選択部が、前記音声合成の対象となるテキスト情報の前記言語区間の前記言語情報に基づいて、前記テキスト情報の前記言語区間が属する前記クラスターの前記スペクトルモデルを前記記憶部から選択する選択ステップと、
    生成部が、前記選択ステップで選択された前記スペクトルモデルに基づいて、前記言語区間に対するスペクトルパラメータを生成し、前記スペクトルパラメータを逆変換することにより、特徴パラメータを得る生成ステップと
    を有することを特徴とする音声合成方法。
JP2009083563A 2009-03-30 2009-03-30 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法 Expired - Fee Related JP5457706B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009083563A JP5457706B2 (ja) 2009-03-30 2009-03-30 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
PCT/JP2009/067408 WO2010116549A1 (ja) 2009-03-30 2009-10-06 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
US13/238,187 US20120065961A1 (en) 2009-03-30 2011-09-21 Speech model generating apparatus, speech synthesis apparatus, speech model generating program product, speech synthesis program product, speech model generating method, and speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009083563A JP5457706B2 (ja) 2009-03-30 2009-03-30 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法

Publications (2)

Publication Number Publication Date
JP2010237323A JP2010237323A (ja) 2010-10-21
JP5457706B2 true JP5457706B2 (ja) 2014-04-02

Family

ID=42935852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009083563A Expired - Fee Related JP5457706B2 (ja) 2009-03-30 2009-03-30 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法

Country Status (3)

Country Link
US (1) US20120065961A1 (ja)
JP (1) JP5457706B2 (ja)
WO (1) WO2010116549A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US8682670B2 (en) * 2011-07-07 2014-03-25 International Business Machines Corporation Statistical enhancement of speech output from a statistical text-to-speech synthesis system
US10469623B2 (en) * 2012-01-26 2019-11-05 ZOOM International a.s. Phrase labeling within spoken audio recordings
GB2505400B (en) * 2012-07-18 2015-01-07 Toshiba Res Europ Ltd A speech processing system
WO2014029099A1 (en) * 2012-08-24 2014-02-27 Microsoft Corporation I-vector based clustering training data in speech recognition
WO2014061230A1 (ja) * 2012-10-16 2014-04-24 日本電気株式会社 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム
EP3007165B1 (en) 2013-05-31 2018-08-01 Yamaha Corporation Technology for responding to remarks using speech synthesis
JP6375604B2 (ja) * 2013-09-25 2018-08-22 ヤマハ株式会社 音声制御装置、音声制御方法およびプログラム
CN104766603B (zh) * 2014-01-06 2019-03-19 科大讯飞股份有限公司 构建个性化歌唱风格频谱合成模型的方法及装置
WO2015108935A1 (en) 2014-01-14 2015-07-23 Interactive Intelligence Group, Inc. System and method for synthesis of speech from provided text
US9549068B2 (en) 2014-01-28 2017-01-17 Simple Emotion, Inc. Methods for adaptive voice interaction
WO2016196041A1 (en) * 2015-06-05 2016-12-08 Trustees Of Boston University Low-dimensional real-time concatenative speech synthesizer
CN106373575B (zh) * 2015-07-23 2020-07-21 阿里巴巴集团控股有限公司 一种用户声纹模型构建方法、装置及系统
JP6580911B2 (ja) * 2015-09-04 2019-09-25 Kddi株式会社 音声合成システムならびにその予測モデル学習方法および装置
JP6523893B2 (ja) * 2015-09-16 2019-06-05 株式会社東芝 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
US10891311B2 (en) 2016-10-14 2021-01-12 Red Hat, Inc. Method for generating synthetic data sets at scale with non-redundant partitioning
CN111566655B (zh) 2018-01-11 2024-02-06 新智株式会社 多种语言文本语音合成方法
WO2019139428A1 (ko) * 2018-01-11 2019-07-18 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 방법
CN108877765A (zh) * 2018-05-31 2018-11-23 百度在线网络技术(北京)有限公司 语音拼接合成的处理方法及装置、计算机设备及可读介质
EP3836027A4 (en) * 2018-08-10 2022-07-06 Yamaha Corporation METHOD AND APPARATUS FOR GENERATION OF FREQUENCY COMPONENT VECTOR OF TIME SERIES DATA
JP6741051B2 (ja) * 2018-08-10 2020-08-19 ヤマハ株式会社 情報処理方法、情報処理装置およびプログラム
CN112037760B (zh) * 2020-08-24 2022-01-07 北京百度网讯科技有限公司 语音频谱生成模型的训练方法、装置及电子设备
CN112185340B (zh) * 2020-10-30 2024-03-15 网易(杭州)网络有限公司 语音合成方法、语音合成装置、存储介质与电子设备
KR20220102476A (ko) * 2021-01-13 2022-07-20 한양대학교 산학협력단 음성 합성 시스템의 동작방법
CN113192522B (zh) * 2021-04-22 2023-02-21 北京达佳互联信息技术有限公司 音频合成模型生成方法及装置、音频合成方法及装置
CN113470614B (zh) * 2021-06-29 2024-05-28 维沃移动通信有限公司 语音生成方法、装置和电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0573100A (ja) * 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
JP2782147B2 (ja) * 1993-03-10 1998-07-30 日本電信電話株式会社 波形編集型音声合成装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JP3346671B2 (ja) * 1995-03-20 2002-11-18 株式会社エヌ・ティ・ティ・データ 音声素片選択方法および音声合成装置
JPH08263520A (ja) * 1995-03-24 1996-10-11 N T T Data Tsushin Kk 音声ファイル構成方式及び方法
JP2912579B2 (ja) * 1996-03-22 1999-06-28 株式会社エイ・ティ・アール音声翻訳通信研究所 声質変換音声合成装置
US6163769A (en) * 1997-10-02 2000-12-19 Microsoft Corporation Text-to-speech using clustered context-dependent phoneme-based units
US6910007B2 (en) * 2000-05-31 2005-06-21 At&T Corp Stochastic modeling of spectral adjustment for high quality pitch modification
JP2003066983A (ja) * 2001-08-30 2003-03-05 Sharp Corp 音声合成装置および音声合成方法、並びに、プログラム記録媒体
US7266497B2 (en) * 2002-03-29 2007-09-04 At&T Corp. Automatic segmentation in speech synthesis
JP2004246292A (ja) * 2003-02-17 2004-09-02 Nippon Hoso Kyokai <Nhk> 単語クラスタリング音声データベースおよび単語クラスタリング音声データベース生成装置、単語クラスタリング音声データベース生成方法、単語クラスタリング音声データベース生成プログラムならびに音声合成装置
US7496512B2 (en) * 2004-04-13 2009-02-24 Microsoft Corporation Refining of segmental boundaries in speech waveforms using contextual-dependent models
US8447592B2 (en) * 2005-09-13 2013-05-21 Nuance Communications, Inc. Methods and apparatus for formant-based voice systems
JP4829605B2 (ja) * 2005-12-12 2011-12-07 日本放送協会 音声合成装置および音声合成プログラム
JP4945465B2 (ja) * 2008-01-23 2012-06-06 株式会社東芝 音声情報処理装置及びその方法
US20090240501A1 (en) * 2008-03-19 2009-09-24 Microsoft Corporation Automatically generating new words for letter-to-sound conversion
JP2010020166A (ja) * 2008-07-11 2010-01-28 Ntt Docomo Inc 音声合成モデル生成装置、音声合成モデル生成システム、通信端末、及び音声合成モデル生成方法
DE602008000303D1 (de) * 2008-09-03 2009-12-31 Svox Ag Sprachsynthese mit dynamischen Einschränkungen
JP5268731B2 (ja) * 2009-03-25 2013-08-21 Kddi株式会社 音声合成装置、方法およびプログラム

Also Published As

Publication number Publication date
WO2010116549A1 (ja) 2010-10-14
JP2010237323A (ja) 2010-10-21
US20120065961A1 (en) 2012-03-15

Similar Documents

Publication Publication Date Title
JP5457706B2 (ja) 音声モデル生成装置、音声合成装置、音声モデル生成プログラム、音声合成プログラム、音声モデル生成方法および音声合成方法
JP5665780B2 (ja) 音声合成装置、方法およびプログラム
JP6266372B2 (ja) 音声合成辞書生成装置、音声合成辞書生成方法およびプログラム
JP3667950B2 (ja) ピッチパターン生成方法
US9147392B2 (en) Speech synthesis device and speech synthesis method
JP5025550B2 (ja) 音声処理装置、音声処理方法及びプログラム
Latorre et al. Multilevel parametric-base F0 model for speech synthesis.
US20120095767A1 (en) Voice quality conversion device, method of manufacturing the voice quality conversion device, vowel information generation device, and voice quality conversion system
WO2015025788A1 (ja) 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法
JP3646060B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP4945465B2 (ja) 音声情報処理装置及びその方法
JP5874639B2 (ja) 音声合成装置、音声合成方法及び音声合成プログラム
JP4811993B2 (ja) 音声処理装置、およびプログラム
Chunwijitra et al. A tone-modeling technique using a quantized F0 context to improve tone correctness in average-voice-based speech synthesis
JP5722295B2 (ja) 音響モデル生成方法と音声合成方法とそれらの装置とプログラム
JP2002182683A (ja) 話者特徴推定装置および話者特徴推定方法、クラスタモデル作成装置、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP2004279436A (ja) 音声合成装置及びコンピュータプログラム
JP6523423B2 (ja) 音声合成装置、音声合成方法およびプログラム
JP4787769B2 (ja) F0値時系列生成装置、その方法、そのプログラム、及びその記録媒体
JP6137708B2 (ja) 定量的f0パターン生成装置、f0パターン生成のためのモデル学習装置、並びにコンピュータプログラム
JP4417892B2 (ja) 音声情報処理装置、音声情報処理方法および音声情報処理プログラム
JP3754614B2 (ja) 話者特徴抽出装置および話者特徴抽出方法、音声認識装置、音声合成装置、並びに、プログラム記録媒体
JP4282609B2 (ja) 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム
JP6036681B2 (ja) 音声合成システム、音声合成方法、および音声合成プログラム
Majji Building a Tamil Text-to-Speech Synthesizer using Festival

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130920

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140110

LAPS Cancellation because of no payment of annual fees