[go: up one dir, main page]

JP3709817B2 - 音声合成装置、方法、及びプログラム - Google Patents

音声合成装置、方法、及びプログラム Download PDF

Info

Publication number
JP3709817B2
JP3709817B2 JP2001265489A JP2001265489A JP3709817B2 JP 3709817 B2 JP3709817 B2 JP 3709817B2 JP 2001265489 A JP2001265489 A JP 2001265489A JP 2001265489 A JP2001265489 A JP 2001265489A JP 3709817 B2 JP3709817 B2 JP 3709817B2
Authority
JP
Japan
Prior art keywords
vibrato
epr
parameter
speech
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001265489A
Other languages
English (en)
Other versions
JP2003076387A (ja
Inventor
靖雄 吉岡
ロスコス アレックス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2001265489A priority Critical patent/JP3709817B2/ja
Priority to US10/232,802 priority patent/US7389231B2/en
Priority to EP02019741A priority patent/EP1291846B1/en
Priority to DE60218587T priority patent/DE60218587T2/de
Publication of JP2003076387A publication Critical patent/JP2003076387A/ja
Application granted granted Critical
Publication of JP3709817B2 publication Critical patent/JP3709817B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Telephone Function (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声合成装置に関し、より詳しくは、ビブラートを付加した歌唱音声を合成することが出来る音声合成装置に関する。
【0002】
【従来の技術】
歌唱技術の1つであるビブラートは、歌唱音声に対して、周期的なピッチ、振幅のゆれを与える技術である。特に長い音符を歌う場合には、ビブラートをかけないと、音の変化が貧しく、歌唱が単調になりやすいので、これに表情を与える為にビブラートが用いられる。
【0003】
ビブラートは、高度な歌唱技術であり、綺麗なビブラートを付けて歌うことは難しい。このため、カラオケ装置として、あまりうまくない歌手が歌った歌唱に、自動的にビブラートを付けるような装置が提案されている。
【0004】
例えば、ビブラート付加技術として、特開平9−044158号公報には、機械的に、一定の大きさのビブラートを付加するのではなく、入力される歌唱音声信号のピッチ、音量、同じ音の継続時間などの状態に応じて、変調信号を生成し、この変調信号により入力歌唱音声信号のピッチや振幅を変調することによりビブラートを付加している。
【0005】
上記のビブラート付加技術は、歌唱音声合成においても、一般的に用いられているものである。
【0006】
【発明が解決しようとする課題】
しかしながら、上記従来技術では、LFO(LowFrequency Oscillator)にて発生させられた正弦波や、三角波などの合成信号をベースに変調信号を生成するので、現実の歌手によって歌われたビブラートの微妙なピッチや振幅のゆれを再現することは出来ず、なおかつ、音色の自然な変化をビブラートに伴わせることも出来ない。
【0007】
また、従来技術には、正弦波などの代わりに、現実のビブラート波形をサンプリングしたものを使用するものもあるが、1つの波形から、全ての音声波形に対して、自然なピッチ、振幅、音色のゆれを再現することは非常に困難である。
【0008】
本発明の目的は、非常にリアルなビブラートを付与することの出来る音声合成装置を提供することである。
【0009】
本発明の他の目的は、音色の変化を伴うビブラートを付与することの出来る音声合成装置を提供することである。
【0010】
【課題を解決するための手段】
本発明の一観点によれば、音声合成装置は、音声を分析して得られる調和成分のスペクトルエンベロープを分解して生成するEpRパラメータを音韻ごとに複数記憶する音韻データベースと、EpRパラメータの時間変化分であるテンプレートを記憶するテンプレートデータベースと、ビブラート音声を分析して得られるEpRパラメータを記憶するビブラートデータベースとを記憶する記憶手段と、合成する音声のピッチ、ダイナミクス及び音韻の情報と、ビブラートを付加するための制御パラメータとを入力する入力手段と、音韻データベースから前記入力された情報に基づき読み出したEpRパラメータに、前記テンプレートデータベースから前記入力された情報に基づき読み出したテンプレートを適用してEpRパラメータを生成するパラメータ発生手段と、前記入力された制御パラメータに基づきビブラートデータベースから前記入力された制御パラメータに基づき読み出したEpRパラメータから生成したデルタ値を前記パラメータ発生手段で生成したEpRパラメータに加算してEpRパラメータを生成するビブラート付加手段と、前記入力された情報及び前記ビブラート付加手段で生成したEpRパラメータに基づき音声を合成する音声合成手段とを有する。
【0011】
【発明の実施の形態】
図1は、本発明の実施例による音声合成装置1の構成を表すブロック図である。
【0012】
音声合成装置1は、データ入力部2、データベース3、特徴パラメータ発生部4、ビブラート付加部5、EpR音声合成エンジン6、合成音声出力部7を含んで構成される。なお、EpRについては後述する。
【0013】
データ入力部2に入力される入力データは、特徴パラメータ発生部4、ビブラート付加部5、及びEpR音声合成エンジン6に送られる。入力データは、合成する音声のピッチ、ダイナミクス、音韻名等に加えて、ビブラートを付加するための制御パラメータを含んでいる。
【0014】
上記制御パラメータには、ビブラート開始時間(VibBeginTime)、ビブラート時間長(VibDuration)、ビブラートレート(VibRate)、ビブラート(ピッチ)デプス(Vibrato(Pitch)Depth)、トレモロデプス(TremoloDepth)が含まれる。
【0015】
データベース3は、少なくとも、音韻毎に複数のEpRパラメータを記録したTimbreデータベース、EpRパラメータの時間変化分である各種テンプレートを記録したテンプレートデータベースTDB、及び、ビブラートデータベースVDBを含んで構成される。
【0016】
本実施例のEpRパラメータは、例えば、励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマント、差分スペクトルの4つに分類することが出来る。これらの4つのEpRパラメータは、実際の人間の音声等(オリジナルの音声)を分析して得られる調和成分のスペクトルエンベロープ(オリジナルのスペクトル)を分解することにより得られるものである。
【0017】
励起波形スペクトルのエンベロープ(ExcitationCurve)は、声帯波形の大きさを表すEGain[dB]、声帯波形のスペクトルエンベロープの傾きを表すESlope、声帯波形のスペクトルエンベロープの最大値から最小値の深さを表すESlopeDepth[dB]の3つのパラメータによって構成されている。
【0018】
励起レゾナンスは、胸部による共鳴を表し、2次フィルター特性を有している。フォルマントは、複数個のレゾナンスを組み合わせることにより声道による共鳴を表す。
【0019】
差分スペクトルは、上記の励起波形スペクトルのエンベロープ、励起レゾナンス、フォルマントの3つで表現することの出来ないオリジナルスペクトルとの差分のスペクトルを持つ特徴パラメータである。
【0020】
ビブラートデータベースVDBには、後述するビブラートアタック、ビブラートボディ、ビブラートリリースで構成されるビブラートデータ(VD)セットが記録されている。
【0021】
このビブラートデータベースVDBに、例えばいろいろなピッチでビブラートを付けて歌われた歌唱音声を分析して得たVDセットを用意(記録)しておくとよい。このようにすれば、音声合成時(ビブラート付加時)のピッチに一番近いVDセットを使用して、よりリアルなビブラートを付加することが出来る。
【0022】
特徴パラメータ発生部4は、入力データに基づきデータベース3からEpRパラメータ、各種テンプレートを読み込む。特徴パラメータ発生部4は、さらに、読み込んだEpRパラメータに各種テンプレートを適用して、最終的なEpRパラメータを生成してビブラート付加部5に送る。
【0023】
ビブラート付加部5では、後述するビブラート付加処理により、特徴パラメータ発生部4から入力される特徴パラメータにビブラートを付加して、EpR音声合成エンジン6に出力する。
【0024】
EpR音声合成エンジン6では、入力データのピッチ、ダイナミクス等に基づきパルスを発生させ、該発生させたパルスを周波数領域に変換したスペクトルにビブラート付加部5から入力される特徴パラメータを適用(加算)することにより、音声を合成して合成音声出力部7に出力する。
【0025】
なお、ビブラートデータベースVDB以外のデータベース3、特徴パラメータ発生部4及びEpR音声合成エンジン6の詳細は、本出願と同一出願人による特許出願2001−067257及び特許出願2001−067258の明細書の実施の態様の項を参照する。
【0026】
次にビブラートデータベースVDBの作成について説明する。まず、実際の人間がビブラートを付けて発生した音声を、SMS(Spectral Modeling Synthesis)分析などの手法により分析を行う。
【0027】
このSMS分析を行うと、一定の分析周期毎に調和成分と非調和成分に分解された情報(フレーム情報)が出力される。この内の調和成分のフレーム情報をさらに上述した4つのEpRパラメータに分解する。
【0028】
図2は、ビブラートのかかった音声のピッチ波形を表す図である。ビブラートデータベースVDBに記憶するビブラートデータ(VD)セットは、図に示すような1つのビブラートのかかった音声波形をビブラートアタック部、ビブラートボディ部、ビブラートリリース部の3つに分け、それぞれをSMS分析などにより分析することにより作成される。
【0029】
なお、ビブラートボディ部のデータだけあれば、ビブラートを付加することが可能であるが、本実施例では、上記のビブラートアタック部、ビブラートボディ部の2つ又は、ビブラートアタック部、ビブラートボディ部、ビブラートリリース部の3つを用いることにより、よりリアルなビブラート効果を付加する。
【0030】
ビブラートアタック部は、図に示すようにビブラートのかけはじめの部分であるので、ピッチがビブラート変化をし始める個所から周期的な変化にいたる直前までの領域である。
【0031】
なお、ビブラートアタック部の終点は、次のビブラートボディ部との滑らかな接続の為に、ピッチの山の極大値の部分を境界としている。
【0032】
ビブラートボディ部は、図に示すようにビブラートアタック部に続く周期的なビブラート変化の部分である。このビブラートボディ部を、ビブラートを付加する合成音声(EpRパラメータ)の長さに応じて、後述するループ方法でループさせることにより、データベース区間長以上の長さのビブラートを付加することが出来る。
【0033】
なお、ビブラートボディ部の始点及び終点は、前段のビブラートアタック部及び、後段のビブラートリリース部との滑らかな接続の為に、ピッチの山の極大値の部分を境界としている。
【0034】
また、ビブラートボディ部は、周期的なビブラート変化の部分があれば足りるので、図に示すようにビブラートアタック部と、ビブラートリリース部の間の一部を取り出して用いてもよい。
【0035】
ビブラートリリース部は、図に示すようにビブラートボディ部に続くビブラートの終端部分であり、ピッチの変化が減衰し始めてから、ビブラート変化がなくなるまでの領域である。
【0036】
図3は、ビブラートアタック部の1例である。ここでは、ビブラート変化の仕方が最も顕著であるピッチのみを図に示しているが、実際には、音量、音色も変化しており、これらについても同様の手法でデータベース化する。
【0037】
まず、図に示すようにビブラートアタック部の波形を取り出す。この取り出した波形を、SMS分析などで調和成分と、非調和成分に分析し、その内の調和成分をさらにEpRパラメータに分解する。このとき、EpRパラメータとともに、以下に述べる付加情報もビブラートデータベースVDBに記録する。
【0038】
ビブラートアタック部の波形から、付加情報を得る。付加情報としては、開始ビブラートデプス(mBeginDepth[cent])、終了ビブラートデプス(mEndDepth[cent])、開始ビブラートレート(mBeginRate[Hz])、終了ビブラートレート(mEndRate[Hz])、山の最大位置(MaxVibrato[size][s])、データベース区間長(mDuration[s])、開始ピッチ(mPitch[cent])、及び、図示しないが開始ゲイン(mGain[dB])、開始トレモロデプス(mBeginTremoloDepth[dB])、終了トレモロデプス(mEndTremoloDepth[dB])等がある。
【0039】
開始ビブラートデプス(mBeginDepth[cent])は、最初のビブラート周期のピッチの最大値と最小値の差分であり、終了ビブラートデプス(mEndDepth[cent])は、最後のビブラート周期のピッチの最大値と最小値の差分である。
【0040】
ビブラート周期とは、例えば、ピッチの極大値から次の極大値までの時間(秒)である。
【0041】
開始ビブラートレート(mBeginRate[Hz])は、開始ビブラート周期の逆数(1/開始ビブラート周期)であり、終了ビブラートレート(mEndRate[Hz])は、終了ビブラート周期の逆数(1/終了ビブラート周期)である。
【0042】
山の最大位置(MaxVibrato[size])[s])は、ピッチ変化の山の極大値を取る時間的位置であり、データベース区間長(mDuration[s])は、データベースの時間的長さであり、開始ピッチ(mPitch[cent])は、ビブラートアタック領域の最初のフレーム(ビブラート周期)の開始ピッチである。
【0043】
開始ゲイン(mGain[dB])は、ビブラートアタック領域の最初のフレームのEGainであり、開始トレモロデプス(mBeginTremoloDepth[dB])は、最初のビブラート周期のEGainの最大値と最小値の差分であり、終了トレモロデプス(mEndTremoloDepth[dB])最後のビブラート周期のEGainの最大値と最小値の差分である。
【0044】
これらの付加情報は、音声合成時に、このビブラートデータベースVDBのデータを変形して、所望のビブラート周期、ビブラート(ピッチ)デプス、トレモロデプスを得るために使用する。また、ピッチやゲインの変化がその領域の平均値を中心に変化せずに、全体的に傾いて変化したときに望ましくない変化を避けるためにも用いられる。
【0045】
図4は、ビブラートボディ部の1例である。ここでは、図2と同様に、ビブラート変化の仕方が最も顕著であるピッチのみを図に示しているが、実際には、音量、音色も変化しており、これらについても同様の手法でデータベース化する。
【0046】
まず、図に示すようにビブラートボディ部の波形を取り出す。ビブラートボディ部は、ビブラートアタック部に続いて、周期的に変動する部分である。ビブラートボディ部の始端及び終端は、ビブラートアタック部及びビブラートリリース部との滑らかな接続を考慮し、ピッチ変化の山の極大値の位置とする。
【0047】
この取り出した波形を、SMS分析などで調和成分と、非調和成分に分析し、その内の調和成分をさらにEpRパラメータに分解する。このとき、EpRパラメータとともに、ビブラートアタック部と同様に上述の付加情報もビブラートデータベースVDBに記録する。
【0048】
このビブラートボディ部を、ビブラートを付加する長さに応じて後述する手法でループさせてやることにより、ビブラートデータベースVDBのデータベース長以上のビブラート長を実現する。
【0049】
なお、図示しないが、ビブラートリリース部についても、元音声のビブラートの終わりの部分を、ビブラートアタック部及びビブラートボディ部と同様の手法で分析し付加情報とともにビブラートデータベースVDBに記録する。
【0050】
図5は、ビブラートボディ部のルーピング処理の例を表すグラフである。ビブラートボディ部のループはミラーループで行う。すなわち、ビブラートボディの開始時に始端からスタートし、終端に達したら逆方向からデータベースを読むようにする。さらに、そのまま始端に達したら再び順方向からデータベースを読み込む。
【0051】
図5(A)は、ビブラートデータベースVDBのビブラートボディ部の開始及び終了位置をピッチの最大値と最小値の中間とする場合の、ビブラートボディ部のルーピング処理の1例を表すグラフである。
【0052】
図5(A)に示すようにループ境界から、時間を反転させ、さらにその時間位置でのピッチをループ境界位置での値を中心にひっくり返したピッチとする。EGain[dB]についても、ピッチと同様にその時間的位置でのEGainをループ境界位置での値を中心にひっくり返したEGainとする。
【0053】
図5(A)のルーピング処理では、ピッチとゲインの値に操作を加えるため、ループ時にピッチとゲインとの関係が変化してしまうため、自然なビブラートを得ることが難しい。
【0054】
そこで本実施例では、ビブラートデータベースVDBのビブラートボディ部の開始及び終了位置をピッチの山の極大値として、図5(B)に示すようなルーピング処理を行う。
【0055】
図5(B)は、ビブラートデータベースVDBのビブラートボディ部の開始及び終了位置をピッチの山の極大値とする場合の、ビブラートボディ部のルーピング処理の1例を表すグラフである。
【0056】
図5(B)に示すように、ループ境界位置から時間を反転させて逆方向からデータベースを読み込むが、図5(A)の場合とは異なり、ピッチ及びゲインの値はそのまま用いる。こうすることにより、ピッチとゲインの関係は保持されるので、自然なビブラートループを行うことが出来る。
【0057】
次に、ビブラートデータベースVDBの内容を歌唱合成に適用しビブラートを付加する手法について説明する。
【0058】
ビブラートの付加は、基本的に、ビブラートデータベースVDBのビブラートアタック部の開始ピッチ(mPitch[cent])、開始ゲイン(mGain[dB])を基準にしたデルタ値ΔPitch[cent]、ΔEGain[dB]を、元の(ビブラートの付加されていない)フレームのピッチ及びゲインに加算することで行われる。
【0059】
このようにデルタ値を用いることにより、ビブラートアタック、ボディ、リリースの各接続部での不連続性を回避することが出来る。
【0060】
ビブラートの開始時にビブラートアタック部を1度だけ使い、続いてビブラートボディ部を使う。ビブラートボディ部は上述のルーピング処理によりビブラートボディ部の時間以上のビブラートを実現する。ビブラートの終了時には、ビブラートリリース部を1度だけ使う。なお、ビブラートリリース部を使用せずにビブラートの終了時まで、ビブラートボディ部をループさせてもよい。
【0061】
このように、ビブラートボディ部をループさせて繰り返し使うことにより、自然なビブラートを得ることが出来るが、時間長の短いビブラートボディ部を繰り返すよりも、時間長の長いビブラートボディ部を繰り返さずに使用するほうが、より自然なビブラートを得る上では好ましい。つまり、ビブラートボディ部の時間長を長くすればするほど、より自然なビブラートを付加することが出来る。
【0062】
しかし、ビブラートボディ部の時間長を長くすると、不安定になってしまう。ビブラートは平均値を中心に対照的な揺らぎを持っているのが理想的であるが、実際に歌唱者が長いビブラートを歌うと、どうしてもピッチやゲインがだんだん下がっていき、傾きを持ってしまう。
【0063】
この場合に、これをこのまま合成歌唱音声に付加すると、全体的に傾きを持った不自然なビブラートになってしまう。さらに、これを上述の図5(B)に示した手法でミラーループさせると、本来ピッチやゲインがだんだん下がるものが、逆方向に読み込むときはだんだん上がっていってしまうということが起こり、不自然であるとともにループ感が目立ってしまう。
【0064】
時間長の長いビブラートボディ部を用いて、自然で安定した、すなわち理想に近い平均値を中心とした対象的な揺らぎを持った、ビブラートを付加するために、以下に示すようなオフセット減算処理を行う。
【0065】
図6は、本実施例におけるビブラートボディ部に対するオフセット減算処理の一例を表すグラフである。図中、上段は、ビブラートボディ部のピッチの軌跡を表し、下段は、データベースのもともと持っていたピッチの傾きを除去するための関数PitchOffsetEnvelope(TimeOffset)[cent]を表している。
【0066】
まず、図6上段に示すように、ピッチ変化の山の極大値を取る時間(MaxVibrato[][s])で、データベース区間を分ける。そこで分けられたi番目の領域について、下記式(1)により、i番目の領域の時間的中心位置をビブラートボディ部の区間長VibBodyDuration[s]で正規化した値TimeOffset[i]Bodyを求める。これを全ての領域について行う。
TimeOffset[i]=(MaxVibrato[i+1]+MaxVibrato[i])/2/VibBodyDuration…(1)
上記式(1)によって求められた値TimeOffset[i]を図6下段のグラフにおける関数PitchOffsetEnvelope(TimeOffset)[cent]の横軸の値とする。
【0067】
次に、このi番目の領域内でのピッチの最大値及び最小値を求め、それぞれをMaxPitch[i]及びMinPitch[i]として、下記式(2)により、図6下段に示すように、TimeOffset[i]の位置での縦軸の値PitchOffset[i][cent]を求める。
PitchOffset[i]=(MaxPitch[i]+MinPitch[i])/2-mPitch…(2)
なお、図示しないが、EGain[dB]についても、ピッチと同様に、このi番目の領域内でのゲインの最大値及び最小値を求め、それぞれをMaxEGain[i]及びMinEGain[i]として、下記式(3)により、TimeOffset[i]の位置での縦軸の値EGainOffset[i][dB]を求める。
EGainOffset[i]=(MaxEGain[i]+MinEGain[i])/2-mEGain…(3)
その後、各領域で求められた値の間の値を直線補間で求め、図6下段に示すような関数PitchOffsetEnvelope(TimeOffset)[cent]を求める。ゲインについても同様にEGainOffsetEnvelope(TimeOffset)[dB]を求める。
【0068】
そして、歌唱音声合成時に、ビブラートボディ部の最初からの時間がTime[s]である時、前述のmPitch[cent]、mEGain[dB]からのデルタ値を、現在のPitch[cent]、EGain[dB]にそれぞれ加算する。データベースのTime[s]時間におけるPitch[cent]、EGain[dB]をそれぞれDBPitch[cent]、DBEGain[dB]とし、下記式(4)及び(5)により、ピッチ及びゲインのデルタ値が求められる。
ΔPitch=DBPitch(Time)-mPitch …(4)
ΔEGain=DBEGain(Time)-mEGain …(5)
そしてこれらの値をさらに、下記式(6)及び(7)により、オフセットすることで、データベースのもともと持っていたピッチ及びゲインの傾きを除去することが出来る。
ΔPitch= ΔPitch-PitchOffsetEnvelope(Time/VibBodyDuration)…(6)
ΔEGain= ΔEGain-EGainOffsetEnvelope(Time/VibBodyDuration)…(7)
最終的に、もとのピッチ(Pitch)及びゲイン(EGain)に、下記式(8)及び(9)により、デルタ値を加算して、自然なビブラートの伸ばしを実現することが出来る。
Pitch=Pitch+ΔPitch …(8)
Egain=EGain+ΔEGain …(9)
次に、このビブラートデータベースVDBを使って、所望のレート(周期)、ピッチデプス(ピッチの波の深さ)、トレモロデプス(ゲインの波の深さ)を有するビブラートを得る手法を説明する。
【0069】
まず、所望のビブラートレートを得るには、下記式(10)及び式(11)により、ビブラートデータベースVDBの読み取り時刻(速度)を変更する。ここで、VibRate[Hz]は所望のビブラートレートを表し、mBeginRate[Hz]及びmEndRate[Hz]は、それぞれデータベースの開始及び終了ビブラートレートを表す。Time[s]は、データベースの開始時刻を0とした時間である。
VibRateFactor=VibRate/[(mBeginRate+mEndRate)/2] …(10)
Time=Time*VibRateFactor …(11)
次に、ピッチデプスであるが、下記式(12)により所望のピッチデプスを得る。下記式(12)では、所望のピッチデプスをPitchDepth[cent]で表し、データベースの開始ビブラート(ピッチ)デプス及び終了ビブラート(ピッチ)デプスをそれぞれ、mBeginDepth[cent]、mEndDepth[cent]で表す。また、データベースの開始時間を0とした時間(データベースの読み取り時刻)をTime[s]で表し、Time[s]におけるピッチのデルタ値をΔPitch(Time)[cent]で表す。
Pitch=ΔPitch(Time)*PitchDepth/[(mBeginDepth+mEndDepth)/2]…(12)
次にトレモロデプスであるが、EGain[dB]の値を下記式(13)によって変えてやることにより所望のトレモロデプスを得る。下記式(13)では、所望のトレモロデプスをTremoloDepth[dB]、データベースの開始トレモロデプス及び終了トレモロデプスをそれぞれ、mBeginTremoloDepth[dB]、mEndTremoloDepth[dB]で表す。また、データベースの開始時間を0とした時間(データベースの読み取り時刻)をTime[s]で表し、Time[s]におけるEGainのデルタ値をΔEGain(Time)[dB]で表す。
Figure 0003709817
以上、ピッチ及びゲインの変化のさせ方を説明したが、これら以外のEpRパラメータのESlope、ESlopeDepth等についても、ピッチ及びゲインと同様にデルタ値を加算することにより、元の音声の持っているビブラートに伴う音色の変化を再現することが可能となり、さらに自然なビブラート効果を付与することが出来る。
【0070】
例えば、元の歌唱合成音声のフレームのESlope値にΔESlope値を加算することにより、ビブラートの変化に伴う周波数特性の傾きの変化の仕方がオリジナルのビブラート音声の変化の仕方と同じになる。
【0071】
また、例えば、Resonance(励起レゾナンス及びフォルマント)のパラメータ(アンプリチュード、周波数、バンド幅)に、デルタ値を加算することにより、オリジナルのビブラート音声の微妙な音色の変化を再現することが出来る。
【0072】
このように、各EpRパラメータについて、上述のピッチ及びゲインと同様に処理することにより、オリジナルのビブラート音声の微妙な音色の変化等を再現することが可能となる。
【0073】
図7は、図1の音声合成装置1のビブラート付加部5で行われるビブラートリリースを使用しない場合のビブラート付加処理を表すフローチャートである。なお、ビブラート付加部5には、図1の特徴パラメータ発生部4から、常に現在時刻Time[s]におけるEpRパラメータが入力されている。
【0074】
ステップSA1では、ビブラート付加処理を開始して、次のステップSA2に進む。
【0075】
ステップSA2では、図1のデータ入力部2から入力されるビブラート付加のための制御パラメータを取得する。入力される制御パラメータは、例えば、ビブラート開始時間(VibBeginTime)、ビブラート時間長(VibDuration)、ビブラートレート(VibRate)、ビブラート(ピッチ)デプス(Vibrato(Pitch)Depth)、トレモロデプス(TremoloDepth)である。その後、次のステップSA3に進む。
【0076】
ビブラート開始時間(VibBeginTime[s])は、ビブラートをかけ始める時間を指定するパラメータであり、現在時刻Time[s]が、この時間になったときからこのフローチャートの以下の処理が開始される。ビブラート時間長(VibDuration[s])は、ビブラートをかける時間長を指定するパラメータである。
【0077】
すなわち、このビブラート付加部5では、Time[s]=VibBeginTime[s]からTime[s]=(VibBeginTime[s]+VibDuration[s])までの間、特徴パラメータ発生部4から、供給されるEpRパラメータに、ビブラート効果を付与する。
【0078】
ビブラートレート(VibRate[Hz])は、ビブラート周期を指定するパラメータである。ビブラート(ピッチ)デプス(Vibrato(Pitch)Depth[cent])は、ビブラートにおけるピッチの揺らぎの深さをセント値で指定するパラメータである。トレモロデプス(TremoloDepth[dB])は、ビブラートにおける音量変化の揺らぎの深さをdB値で指定するパラメータである。
【0079】
ステップSA3では、現在時刻Time[s]=VibBeginTime[s]である時に、ビブラート付加のためのアルゴリズムの初期化を行う。ここでは、例えば、フラグVibAttackFlag及びフラグVibBodyFlagを1に設定する。その後、次のステップSA4に進む。
【0080】
ステップSA4では、図1のデータベース3内のビブラートデータベースVDBから現在の合成ピッチに適合するビブラートデータセットを検索し、使用するビブラートデータの時間長を取得する。ビブラートアタック部の時間長をVibAttackDuration[s]とし、ビブラートボディ部の時間長をVibBodyDuration[s]とする。その後、次のステップSA5に進む。
【0081】
ステップSA5では、フラグVibAttackFlagをチェックする。フラグVibAttackFlag=1であればYESの矢印で示すステップSA6に進む。フラグVibAttackFlag=0であれば、NOの矢印で示すステップSA10に進む。
【0082】
ステップSA6では、ビブラートデータベースVDBから、ビブラートアタック部を読み込み、これをDBDataとする。その後、次のステップSA7に進む。
【0083】
ステップSA7では、上述の式(10)により、VibRateFactorを計算し、さらに上述の式(11)により、ビブラートデータベースVDBの読み取り時刻(速度)を計算し、その結果をNewTime[s]とする。その後、次のステップSA8に進む。
【0084】
ステップSA8では、ステップSA7で計算したNewTime[s]と、ビブラートアタック部の時間長VibAttackDuration[s]を比較する。NewTime[s]が、VibAttackDuration[s]を超えたら(NewTime[s]>VibAttackDuration[s])、すなわちビブラートアタック部を最初から最後まで使用したら、ビブラートボディ部を使用してビブラートを付加するためにYESの矢印で示すステップSA9に進む。NewTime[s]が、VibAttackDuration[s]を超えていなければ、NOの矢印で示すステップSA15に進む。
【0085】
ステップSA9では、フラグVibAttackFlagを0に設定しビブラートアタックを終了し、さらにそのときの時間をVibAttackEndTime[s]とする。その後、ステップSA10に進む。
【0086】
ステップSA10では、フラグVibBodyFlagをチェックする。フラグVibBodyFlag=1であればYESの矢印で示すステップSA11に進む。フラグVibBodyFlag=0であれば、ビブラート付加処理は終了したものとして、NOの矢印で示すステップSA21に進む。
【0087】
ステップSA11では、ビブラートデータベースVDBから、ビブラートボディ部を読み込み、これをDBDataとする。その後、次のステップSA12に進む。
【0088】
ステップSA12では、上述の式(10)により、VibRateFactorを計算し、さらに下記式(14)〜(17)により、ビブラートデータベースVDBの読み取り時刻(速度)を計算し、その結果をNewTime[s]とする。下記式(14)〜(17)は、ビブラートボディ部を前述した手法でミラーループさせるための式である。その後、次のステップSA13に進む。
NewTime=Time-VibAttackEndTime …(14)
NewTime=NewTime*VibRateFactor …(15)
NewTime=NewTime-((int)(NewTime/(VibBodyDuration*2)))
*(VibBodyDuration*2) …(16)
if (NewTime>=VibBodyDuration)[NewTime=VibBodyDuration*2-NewTime]…(17)
ステップSA13では、ビブラート開始時間からの現在時刻までの経過時間(Time−VibBeginTime)が、ビブラート時間長(VibDuration)を超えたか否かを検出する。経過時間がビブラート時間長を超えた場合は、YESの矢印で示すステップSA14に進む。経過時間がビブラート長を超えていない場合は、NOの矢印で示すステップSA15に進む。
【0089】
ステップSA14では、フラグVibBodyFlagを0に設定しビブラートを終了する。その後、ステップSA21に進む。
【0090】
ステップSA15では、DBDataから、時刻NewTime[s]におけるEpRパラメータ(Pitch、EGain等)を求める。この時、時刻NewTime[s]が、DBData内の実データのあるフレーム時間の中間にあたる場合は、時刻NewTime[s]前後のフレームにおけるEpRパラメータを補間(例えば、直線補間)して求める。その後次のステップSA16に進む。
【0091】
なお、DBDataは、ステップSA8からNOの矢印に沿って進んできた場合は、ビブラートアタックDBであり、ステップSA13からNOの矢印に沿って進んできた場合は、ビブラートボディDBである。
【0092】
ステップSA16では、前述した手法で、現在時刻における各EpRパラメータのデルタ値(例えばΔPitch又はΔEGain等)を求める。この時、上述したようにPitchDepth[cent]、TremoloDepth[dB]の値を反映させてデルタ値を求める。その後、次のステップSA17に進む。
【0093】
ステップSA17では、図8に示すような係数MulDeltaを求める。MulDeltaは、ビブラートをかけ始めてからの経過時間(Time[s]−VibBeginTime[s])が、ビブラートをかけたい時間長(VibDuration[s])の、例えば80%に達したらEpRパラメータのデルタ値を徐々に小さくしビブラートを収束させるための係数である。その後、次のステップSA18に進む。
【0094】
ステップSA18では、ステップSA16で求めたEpRパラメータのデルタ値にステップSA17で求めた係数MulDeltaを乗算する。その後、次のステップSA19に進む。
【0095】
上記のステップSA17及びSA18での処理は、ビブラート時間長に達した時点での急激なピッチや音量等の変化を避けるために行われる。
【0096】
このように、EpRパラメータのデルタ値に係数MulDeltaを乗算して、ビブラート時間のある位置からデルタ値を小さくしていくことにより、ビブラート終了時の急激なEpRパラメータの変化をなくすことが出来るので、ビブラートリリース部を用いないでも自然にビブラートを終了させることが出来る。
【0097】
ステップSA19では、図1の特徴パラメータ発生部4から供給される各EpRパラメータ値に、ステップSA16で求めたEpRパラメータのデルタ値又は、ステップSA18で係数MulDeltaを乗算したデルタ値を加算し、新しいEpRパラメータを生成する。その後、次のステップSA20に進む。
【0098】
ステップSA20では、ステップSA19で生成された新しいEpRパラメータを、図1のEpR合成エンジン6に出力する。その後、次のステップSA21に進み、ビブラート付加処理を終了する。
【0099】
図9は、図1の音声合成装置1のビブラート付加部5で行われるビブラートリリースを使用する場合のビブラート付加処理を表すフローチャートである。なお、ビブラート付加部5には、図1の特徴パラメータ発生部4から、常に現在時刻Time[s]におけるEpRパラメータが入力されている。
【0100】
ステップSB1では、ビブラート付加処理を開始して、次のステップSB2に進む。
【0101】
ステップSB2では、図1のデータ入力部から入力されるビブラート付加のための制御パラメータを取得する。入力される制御パラメータは、図7のステップSA2で入力されるものと同様である。
【0102】
すなわち、このビブラート付加部5では、Time[s]=VibBeginTime[s]からTime[s]=(VibBeginTime[s]+VibDuration[s])までの間、特徴パラメータ発生部4から、供給されるEpRパラメータに、ビブラート効果を付与する。
【0103】
ステップSB3では、現在時刻Time[s]=VibBeginTime[s]である時に、ビブラート付加のためのアルゴリズムの初期化を行う。ここでは、例えば、フラグVibAttackFlag、フラグVibBodyFlag及びフラグVibReleaseFlagを1に設定する。その後、次のステップSB4に進む。
【0104】
ステップSB4では、図1のデータベース3内のビブラートデータベースVDB現在の合成ピッチに適合するビブラートデータセットを検索し、使用するビブラートデータの時間長を取得する。ビブラートアタック部の時間長をVibAttackDuration[s]とし、ビブラートボディ部の時間長をVibBodyDuration[s]とし、ビブラートリリース部の時間長をVibReleaseDuration[s]とする。その後、次のステップSB5に進む。
【0105】
ステップSB5では、フラグVibAttackFlagをチェックする。フラグVibAttackFlag=1であればYESの矢印で示すステップSB6に進む。フラグVibAttackFlag=0であれば、NOの矢印で示すステップSB10に進む。
【0106】
ステップSB6では、ビブラートデータベースVDBから、ビブラートアタック部を読み込み、これをDBDataとする。その後、次のステップSB7に進む。
【0107】
ステップSB7では、上述の式(10)により、VibRateFactorを計算し、さらに上述の式(11)により、ビブラートデータベースVDBの読み取り時刻(速度)を計算し、その結果をNewTime[s]とする。その後、次のステップSB8に進む。
【0108】
ステップSB8では、ステップSB7で計算したNewTime[s]と、ビブラートアタック部の時間長VibAttackDuration[s]を比較する。NewTime[s]が、VibAttackDuration[s]を超えたら(NewTime[s]>VibAttackDuration[s])、すなわちビブラートアタック部を最初から最後まで使用したら、ビブラートボディ部を使用してビブラートを付加するために、YESの矢印で示すステップSB9に進む。NewTime[s]が、VibAttackDuration[s]を超えていなければ、NOの矢印で示すステップSB20に進む。
【0109】
ステップSB9では、フラグVibAttackFlagを0に設定してビブラートアタックを終了し、さらにそのときの時間をVibAttackEndTime[s]とする。その後、ステップSB10に進む。
【0110】
ステップSB10では、フラグVibBodyFlagをチェックする。フラグVibBodyFlag=1であればYESの矢印で示すステップSB11に進む。フラグVibBodyFlag=0であれば、NOの矢印で示すステップSB15に進む。
【0111】
ステップSB11では、ビブラートデータベースVDBから、ビブラートボディ部を読み込み、これをDBDataとする。その後、次のステップSB12に進む。
【0112】
ステップSB12では、上述の式(10)により、VibRateFactorを計算し、さらに、ビブラートボディ部をミラーループさせるために、図7のステップSA12と同様に上述の式(14)〜(17)により、ビブラートデータベースVDBの読み取り時刻(速度)を計算し、その結果をNewTime[s]とする。
【0113】
また、ビブラートボディ部のループ回数(nBodyLoop)を、例えば、下記式(18)で求める。その後、次のステップSB13に進む。
Figure 0003709817
ステップSB13では、ビブラートボディに入ってからのビブラートの繰り返し回数がループ回数(nBodyLoop)以上か否かを検出する。ビブラートの繰り返し回数がループ回数(nBodyLoop)以上ならば、YESの矢印で示すステップSB14に進む。ビブラートの繰り返し回数がループ回数(nBodyLoop)以上でない場合は、NOの矢印で示すステップSB20に進む。
【0114】
ステップSB14では、フラグVibBodyFlagを0に設定しビブラートボディの使用を終了する。その後、ステップSB15に進む。
【0115】
ステップSB15では、フラグVibReleaseFlagをチェックする。フラグVibReleaseFlag=1であればYESの矢印で示すステップSB16に進む。フラグVibReleaseFlag=0であれば、NOの矢印で示すステップSB24に進む。
【0116】
ステップSB16では、ビブラートデータベースVDBから、ビブラートリリース部を読み込み、これをDBDataとする。その後、次のステップSB17に進む。
【0117】
ステップSB17では、上述の式(10)により、VibRateFactorを計算し、さらに上述の式(11)により、ビブラートデータベースVDBの読み取り時刻(速度)を計算し、その結果をNewTime[s]とする。その後、次のステップSB18に進む。
【0118】
ステップSB18では、ステップSB17で計算したNewTime[s]と、ビブラートリリース部の時間長VibReleaseDuration[s]を比較する。NewTime[s]が、VibReleaseDuration[s]を超えたら(NewTime[s]>VibReleaseDuration[s])、すなわちビブラートリリース部を最初から最後まで使用したら、YESの矢印で示すステップSB19に進む。NewTime[s]が、VibReleaseDuration[s]を超えていなければ、NOの矢印で示すステップSB20に進む。
【0119】
ステップSB19では、フラグVibReleaseFlagを0に設定しビブラートリリースを終了する。その後、ステップSB24に進む。
【0120】
ステップSB20では、DBDataから、時刻NewTime[s]におけるEpRパラメータ(Pitch、EGain等)を求める。この時、時刻NewTime[s]が、DBData内の実データのあるフレーム時間の中間にあたる場合は、時刻NewTime[s]前後のフレームにおけるEpRパラメータを補間(例えば、直線補間)して求める。その後次のステップSB21に進む。
【0121】
なお、DBDataは、ステップSB8からNOの矢印に沿って進んできた場合は、ビブラートアタックDBであり、ステップSB13からNOの矢印に沿って進んできた場合は、ビブラートボディDBであり、ステップSB18からNOの矢印に沿って進んできた場合は、ビブラートリリースDBである。
【0122】
ステップSB21では、前述した手法で、現在時刻における各EpRパラメータのデルタ値(例えばΔPitch又はΔEGain等)を求める。この時、上述したようにPitchDepth[cent]、TremoloDepth[dB]の値を反映させてデルタ値を求める。その後、次のステップSB22に進む。
【0123】
ステップSB22では、図1の特徴パラメータ発生部4から供給される各EpRパラメータ値に、ステップSB21で求めたEpRパラメータのデルタ値を加算し、新しいEpRパラメータを生成する。その後、次のステップSB23に進む。
【0124】
ステップSB23では、ステップSB22で生成された新しいEpRパラメータを、図1のEpR合成エンジン6に出力する。その後、次のステップSB24に進み、ビブラート付加処理を終了する。
【0125】
以上、本実施例によれば、ビブラートをかけた実音声をEpR分析したデータを、アタック部、ボディ部、リリース部とに分割してデータベースとして持ち、音声合成時にそのデータベースを使用することで、合成音声にリアルなビブラートを付加することが出来る。
【0126】
また、本実施例によれば、元のデータベースに記憶された実音声に基づくビブラートのパラメータ(例えば、ピッチなど)が傾いている場合でも、合成時にその傾きを取り除いたパラメータ変化を与えることが出来るので、より自然な理想に近いビブラートを付加することが出来る。
【0127】
また、本実施例によれば、ビブラートリリース部を用いない場合でも、EpRパラメータのデルタ値に係数MulDeltaを乗算して、ビブラート時間のある位置からデルタ値を小さくしていくことによりビブラートを減衰させることが出来る。ビブラート終了時の急激なEpRパラメータの変化をなくすことが出来るので、自然にビブラートを終了させることが出来る。
【0128】
また、本実施例によれば、ビブラートボディ部の始端と終端はパラメータの山の極大値を取るようにデータベースを作成するので、ビブラートボディ部のミラーループ時に時間を逆読みするだけでパラメータの値を変更せずにビブラートボディ部を繰り返すことが出来る。
【0129】
なお、本実施例は、カラオケ装置等においても使用することが出来る。その場合は、カラオケ装置等に予めビブラートデータベースを用意し、入力される音声をリアルタイムでEpR分析してEpRパラメータを求め、そのEpRパラメータに対して本実施例と同様の手法で、ビブラート付加処理を行うようにすればよい。このようにすると、カラオケに対してもリアルなビブラートを付加することが出来、歌唱技術の未熟な人の歌唱に対して、例えばプロの歌手が歌ったようなビブラートを付加することが出来る。
【0130】
なお、本実施例は歌唱音声合成を中心に説明したが、歌唱音声に限られるものではなく、通常の会話の音声や楽器音なども同様に合成することができる。
【0131】
なお、本実施例は、本実施例に対応するコンピュータプログラム等をインストールした市販のコンピュータ等によって、実施させるようにしてもよい。
【0132】
その場合には、本実施例に対応するコンピュータプログラム等を、CD−ROMやフロッピーディスク等の、コンピュータが読み込むことが出来る記憶媒体に記憶させた状態で、ユーザに提供してもよい。
【0133】
そのコンピュータ等が、LAN、インターネット、電話回線等の通信ネットワークに接続されている場合には、通信ネットワークを介して、コンピュータプログラムや各種データ等をコンピュータ等に提供してもよい。
【0134】
以上実施例に沿って本発明を説明したが、本発明はこれらに制限されるものではない。例えば、種々の変更、改良、組合せ等が可能なことは当業者に自明であろう。
【0135】
【発明の効果】
以上説明したように、本発明によれば、非常にリアルなビブラートを付与することの出来る音声合成装置を提供することができる。
【0136】
また、本発明によれが、音色の変化を伴うビブラートを付与することの出来る音声合成装置を提供することができる。
【図面の簡単な説明】
【図1】 本発明の実施例による音声合成装置1の構成を表すブロック図である。
【図2】 ビブラートのかかった音声のピッチ波形を表す図である。
【図3】 ビブラートアタック部の1例である。
【図4】 ビブラートボディ部の1例である。
【図5】 ビブラートボディ部のルーピング処理の例を表すグラフである。
【図6】 本実施例におけるビブラートボディ部に対するオフセット減算処理の一例を表すグラフである。
【図7】 図1の音声合成装置1のビブラート付加部5で行われるビブラートリリースを使用しない場合のビブラート付加処理を表すフローチャートである。
【図8】 係数MulDeltaの1例を表すグラフである。
【図9】 図1の音声合成装置1のビブラート付加部5で行われるビブラートリリースを使用する場合のビブラート付加処理を表すフローチャートである。
【符号の説明】
1…音声合成装置、2…データ入力部、3…データベース、4…特徴パラメータ発生部、5…ビブラート付加部、6…EpR音声合成エンジン、7…音声合成出力部

Claims (7)

  1. 音声を分析して得られる調和成分のスペクトルエンベロープを分解して生成するEpRパラメータを音韻ごとに複数記憶する音韻データベースと、EpRパラメータの時間変化分であるテンプレートを記憶するテンプレートデータベースと、ビブラート音声を分析して得られるEpRパラメータを記憶するビブラートデータベースとを記憶する記憶手段と、
    合成する音声のピッチ、ダイナミクス及び音韻の情報と、ビブラートを付加するための制御パラメータとを入力する入力手段と、
    音韻データベースから前記入力された情報に基づき読み出したEpRパラメータに、前記テンプレートデータベースから前記入力された情報に基づき読み出したテンプレートを適用してEpRパラメータを生成するパラメータ発生手段と、
    ビブラートデータベースから前記入力された制御パラメータに基づき読み出したEpRパラメータから生成したデルタ値を前記パラメータ発生手段で生成したEpRパラメータに加算してEpRパラメータを生成するビブラート付加手段と、
    前記入力された情報及び前記ビブラート付加手段で生成したEpRパラメータに基づき音声を合成する音声合成手段と
    を有する音声合成装置。
  2. 前記ビブラートデータベースは前記ビブラート音声を分析して得られるEpRパラメータをアタック部、ボディ部のそれぞれについて記憶する請求項1記載の音声合成装置。
  3. 前記ビブラートデータベースは前記ビブラート音声を分析して得られるEpRパラメータをアタック部、ボディ部、リリース部のそれぞれについて記憶する請求項1記載の音声合成装置。
  4. 前記ビブラートデータベースに記憶される前記ビブラート音声を分析して得られるEpRパラメータのボディ部の始端と終端がEpRパラメータの極大値である請求項2〜3のいずれか1項に記載の音声合成装置。
  5. 前記ビブラート付加手段は、前記ビブラートデータベースから読み出したEpRパラメータをその複数の極大値により分割した区間のオフセット値に基づいてオフセット減算処理を行って前記デルタ値を生成する請求項1〜4のいずれか1項に記載の音声合成装置。
  6. 合成する音声のピッチ、ダイナミクス及び音韻の情報と、ビブラートを付加するための制御パラメータとを入力する入力工程と、
    音声を分析して得られる調和成分のスペクトルエンベロープを分解して生成するEpRパラメータを音韻ごとに複数記憶する音韻データベースから前記入力された情報に基づき読み出したEpRパラメータに、EpRパラメータの時間変化分であるテンプレートを記憶するテンプレートデータベースから前記入力された情報に基づき読み出したテンプレートを適用してEpRパラメータを生成するパラメータ発生工程と、
    ビブラート音声を分析して得られるEpRパラメータを記憶するビブラートデータベースから前記入力された制御パラメータに基づき読み出したEpRパラメータから生成したデルタ値を前記パラメータ発生工程で生成したEpRパラメータに加算してEpRパラメータを生成するビブラート付加工程と、
    前記入力された情報及び前記ビブラート付加工程で生成したEpRパラメータに基づき音声を合成する音声合成工程と
    を有する音声合成方法。
  7. 合成する音声のピッチ、ダイナミクス及び音韻の情報と、ビブラートを付加するための制御パラメータとを入力する入力手順と、
    音声を分析して得られる調和成分のスペクトルエンベロープを分解して生成するEpRパラメータを音韻ごとに複数記憶する音韻データベースから前記入力された情報に基づき読み出したEpRパラメータに、EpRパラメータの時間変化分であるテンプレートを記憶するテンプレートデータベースから前記入力された情報に基づき読み出したテンプレートを適用してEpRパラメータを生成するパラメータ発生手順と、
    前記入力された制御パラメータに基づきビブラート音声を分析して得られるEpRパラメータを記憶するビブラートデータベースから前記入力された制御パラメータに基づき読み出したEpRパラメータから生成したデルタ値を前記パラメータ発生手順で生成したEpRパラメータに加算してEpRパラメータを生成するビブラート付加手順と、
    前記入力された情報及び前記ビブラート付加手順で生成したEpRパラメータに基づき音声を合成する音声合成手順と
    を有する音声合成処理をコンピュータに実行させるためのプログラム。
JP2001265489A 2001-09-03 2001-09-03 音声合成装置、方法、及びプログラム Expired - Fee Related JP3709817B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2001265489A JP3709817B2 (ja) 2001-09-03 2001-09-03 音声合成装置、方法、及びプログラム
US10/232,802 US7389231B2 (en) 2001-09-03 2002-08-30 Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice
EP02019741A EP1291846B1 (en) 2001-09-03 2002-09-03 Voice synthesizing apparatus capable of adding vibrato effect to synthesized voice
DE60218587T DE60218587T2 (de) 2001-09-03 2002-09-03 Stimmensynthetisiervorrichtung, welche dazu in der lage ist, vibratoeffekt zu synthetisierter stimme hinzuzufügen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001265489A JP3709817B2 (ja) 2001-09-03 2001-09-03 音声合成装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2003076387A JP2003076387A (ja) 2003-03-14
JP3709817B2 true JP3709817B2 (ja) 2005-10-26

Family

ID=19091945

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001265489A Expired - Fee Related JP3709817B2 (ja) 2001-09-03 2001-09-03 音声合成装置、方法、及びプログラム

Country Status (4)

Country Link
US (1) US7389231B2 (ja)
EP (1) EP1291846B1 (ja)
JP (1) JP3709817B2 (ja)
DE (1) DE60218587T2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3879402B2 (ja) * 2000-12-28 2007-02-14 ヤマハ株式会社 歌唱合成方法と装置及び記録媒体
JP4649888B2 (ja) * 2004-06-24 2011-03-16 ヤマハ株式会社 音声効果付与装置及び音声効果付与プログラム
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
WO2009044525A1 (ja) * 2007-10-01 2009-04-09 Panasonic Corporation 音声強調装置および音声強調方法
EP3273442B1 (en) * 2008-03-20 2021-10-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for synthesizing a parameterized representation of an audio signal
WO2010097870A1 (ja) * 2009-02-27 2010-09-02 三菱電機株式会社 音楽検索装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4490840A (en) * 1982-03-30 1984-12-25 Jones Joseph M Oral sound analysis method and apparatus for determining voice, speech and perceptual styles
US4866777A (en) * 1984-11-09 1989-09-12 Alcatel Usa Corporation Apparatus for extracting features from a speech signal
US4862503A (en) * 1988-01-19 1989-08-29 Syracuse University Voice parameter extractor using oral airflow
JP2627770B2 (ja) * 1988-05-26 1997-07-09 株式会社河合楽器製作所 電子楽器
US5444818A (en) * 1992-12-03 1995-08-22 International Business Machines Corporation System and method for dynamically configuring synthesizers
US5536902A (en) 1993-04-14 1996-07-16 Yamaha Corporation Method of and apparatus for analyzing and synthesizing a sound by extracting and controlling a sound parameter
JP3663681B2 (ja) 1995-08-01 2005-06-22 ヤマハ株式会社 ビブラート付加装置
JP3144273B2 (ja) * 1995-08-04 2001-03-12 ヤマハ株式会社 自動歌唱装置
US5781636A (en) * 1996-04-22 1998-07-14 United Microelectronics Corporation Method and apparatus for generating sounds with tremolo and vibrato sound effects
US5744739A (en) * 1996-09-13 1998-04-28 Crystal Semiconductor Wavetable synthesizer and operating method using a variable sampling rate approximation
JPH10124082A (ja) 1996-10-18 1998-05-15 Matsushita Electric Ind Co Ltd 歌声合成装置
WO1998035340A2 (en) * 1997-01-27 1998-08-13 Entropic Research Laboratory, Inc. Voice conversion system and methodology
US5890115A (en) * 1997-03-07 1999-03-30 Advanced Micro Devices, Inc. Speech synthesizer utilizing wavetable synthesis
US6336092B1 (en) * 1997-04-28 2002-01-01 Ivl Technologies Ltd Targeted vocal transformation
US6304846B1 (en) * 1997-10-22 2001-10-16 Texas Instruments Incorporated Singing voice synthesis
JPH11352997A (ja) 1998-06-12 1999-12-24 Oki Electric Ind Co Ltd 音声合成装置およびその制御方法
JP3702691B2 (ja) 1999-01-29 2005-10-05 ヤマハ株式会社 自動演奏の制御データ入力装置
EP1028409B1 (en) 1999-01-29 2005-03-16 Yamaha Corporation Apparatus for and method of inputting music-performance control data
JP3116937B2 (ja) 1999-02-08 2000-12-11 ヤマハ株式会社 カラオケ装置
JP3832147B2 (ja) 1999-07-07 2006-10-11 ヤマハ株式会社 曲データ加工方法
US6392135B1 (en) * 1999-07-07 2002-05-21 Yamaha Corporation Musical sound modification apparatus and method
JP3430985B2 (ja) * 1999-08-05 2003-07-28 ヤマハ株式会社 合成音生成装置
US6316710B1 (en) * 1999-09-27 2001-11-13 Eric Lindemann Musical synthesizer capable of expressive phrasing
JP3716725B2 (ja) 2000-08-28 2005-11-16 ヤマハ株式会社 音声処理装置、音声処理方法および情報記録媒体
JP3838039B2 (ja) * 2001-03-09 2006-10-25 ヤマハ株式会社 音声合成装置
US6810378B2 (en) * 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech

Also Published As

Publication number Publication date
US7389231B2 (en) 2008-06-17
JP2003076387A (ja) 2003-03-14
EP1291846A3 (en) 2004-02-11
DE60218587D1 (de) 2007-04-19
EP1291846B1 (en) 2007-03-07
US20030046079A1 (en) 2003-03-06
DE60218587T2 (de) 2007-06-28
EP1291846A2 (en) 2003-03-12

Similar Documents

Publication Publication Date Title
Bonada et al. Synthesis of the singing voice by performance sampling and spectral models
JP4067762B2 (ja) 歌唱合成装置
US11410637B2 (en) Voice synthesis method, voice synthesis device, and storage medium
US7552052B2 (en) Voice synthesis apparatus and method
US7613612B2 (en) Voice synthesizer of multi sounds
US6687674B2 (en) Waveform forming device and method
JP3941611B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP4153220B2 (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
JP6569712B2 (ja) 電子楽器、電子楽器の楽音発生方法、及びプログラム
US6944589B2 (en) Voice analyzing and synthesizing apparatus and method, and program
JP3709817B2 (ja) 音声合成装置、方法、及びプログラム
JP2564641B2 (ja) 音声合成装置
JP4757971B2 (ja) ハーモニー音付加装置
JP2004077608A (ja) 合唱合成装置、合唱合成方法およびプログラム
JP2007226174A (ja) 歌唱合成装置、歌唱合成方法及び歌唱合成用プログラム
Bonada et al. Sample-based singing voice synthesizer using spectral models and source-filter decomposition.
JP6683103B2 (ja) 音声合成方法
JP2004061753A (ja) 歌唱音声を合成する方法および装置
JP4349316B2 (ja) 音声分析及び合成装置、方法、プログラム
JP3967571B2 (ja) 音源波形生成装置、音声合成装置、音源波形生成方法およびプログラム
Bonada et al. Special Session on Singing Voice-Sample-Based Singing Voice Synthesizer Using Spectral Models and Source-Filter Decomposition
JP2004061793A (ja) 歌唱合成装置、歌唱合成方法並びに歌唱合成用プログラム
Serra et al. Synthesis of the singing voice by performance sampling and spectral models
JP2000020100A (ja) 音声変換装置及び音声変換方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040831

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050719

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050801

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313532

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090819

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100819

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100819

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110819

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120819

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130819

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees