JP3614874B2 - 音声合成装置及び方法 - Google Patents
音声合成装置及び方法 Download PDFInfo
- Publication number
- JP3614874B2 JP3614874B2 JP22815793A JP22815793A JP3614874B2 JP 3614874 B2 JP3614874 B2 JP 3614874B2 JP 22815793 A JP22815793 A JP 22815793A JP 22815793 A JP22815793 A JP 22815793A JP 3614874 B2 JP3614874 B2 JP 3614874B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- spectral envelope
- phoneme
- units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【目次】
以下の順序で本発明を説明する。
産業上の利用分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段(図1及び図2)
作用(図1及び図2)
実施例(図1〜図5)
発明の効果
【0002】
【産業上の利用分野】
本発明は音声合成装置及び方法に関し、特に単音節又はそれ以上の音節数からなる音声単位を同一音素内で接続する音声合成装置に適用して好適なものである。
【0003】
【従来の技術】
従来、規則合成方式による音声合成装置においては、入力された文字の系列を解析した後、所定の規則に従つてパラメータを合成することにより、いかなる言葉でも音声合成し得るようになされている。すなわち規則合成方式による音声合成装置は、入力された文字の系列を解析した後、所定の規則に従つて各文節ごとにアクセントを検出し、各文節の並びから文字系列全体としての抑揚、ポーズ等を表現するピツチパラメータを合成する。
【0004】
さらに音声合成装置は、同様に所定の規則に従つて各文節を例えばCV/VC単位のような音声単位に分割した後、そのスペクトラムを表現する合成パラメータを生成する。これによりピツチパラメータ及び合成パラメータに基づいて合成音を発声するようになされている。
【0005】
【発明が解決しようとする課題】
ところでこのような音声合成装置で用いられる個々の音声単位は、それが抽出された実音声内での前後の音韻環境の影響を受けており、その影響が合成音声内に表れてくる。すなわちある音声単位では合成時における音韻環境と、抽出された実音声内での音韻環境とが異なる場合が生じてくる。これによつて、合成音声の各音声単位を接続した場合に、実音声と比べて不自然な音声波形が生成され、周波数領域での不連続性が原因となつて異聴等が発生する。
【0006】
またCV/VC単位による音声合成のように音声単位を同一音素内で接続する場合では、周波数領域での不連続性が聴感上特に感知されやすく、合成音声の品質が劣化しやすいといつた問題があつた。このような問題を解決するために、従来の音声合成装置では音声単位間の接続部分で補間処理を行うことが一般的であるが、補間処理の為に合成アルゴリズムが繁雑となつてしまつたり、合成された音声のスペクトル特性は自然音声からかけ離れたものとなつてしまう。
【0007】
本発明は以上の点を考慮してなされたもので、実際の人間の音声に比して違和感のない合成音を発声することができる音声合成装置を提案しようとするものである。
【0008】
【課題を解決するための手段】
かかる課題を解決するために本発明においては、音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成する音声合成規則部4と、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成部5とを有する音声合成装置1において、同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、接続フレームにおけるスペクトル包絡特性が代表的な特徴パラメータが表すスペクトル包絡特性になるように、同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する音声単位記憶部2を設けるようにした。
【0009】
また本発明においては、音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成すると共に、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び韻律情報に基づいて合成音を生成する音声合成方法において、同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、接続フレームにおけるスペクトル包絡特性が代表的な特徴パラメータが表すスペクトル包絡特性になるように、同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶するようにした。
【0010】
【作用】
任意音声を合成する際に、音声単位記憶部に記憶したスペクトル包絡軌道が正規化された音声単位データセツトを用いることによつて、音声単位接続部での接続歪みによる品質の劣化を未然に防止して、補間処理を行うことなしに音声単位をなめらかに接続していくことができ、人間の音声に比して違和感のない高品質な任意合成音が得られる。
【0011】
【実施例】
以下図面について、本発明の一実施例を詳述する。
【0012】
図1において、1は全体として演算処理装置構成の音声合成装置を示し、音声単位記憶部2、文章解析部3、音声合成規則部4及び音声合成部5に分割される。文章解析部3は、所定の入力装置から入力されたテキスト入力(文字の系列で表された文章等でなる)を所定の辞書を基準にして解析し、仮名文字列に変換した後、単語、文節毎に分解する。
【0013】
すなわち日本語においては、英語のように単語が分かち書きされていないことから、例えば「米国産業界」のような言葉は、「米国/産業・界」、「米/国産/業界」のように2種類以上に区分化し得る。このため文章解析部3は、辞書を参考にしながら、言葉の連続関係及び単語の統計的性質を利用して、テキスト入力を単語、文節毎に分解するようになされ、これにより単語、文節の境界を検出するようになされている。さらに文章解析部3は、各単語毎に基本アクセントを検出した後、音声合成規則部4に出力する。
【0014】
音声合成規則部4は、日本語の特徴に基づいて設定された所定の音韻規則に従つて、文章解析部3の検出結果及びテキスト入力を処理するようになされている。すなわち、日本語の自然な音声は、言語学的特性に基づいて区別すると、約100程度の発声の単位に区分することができる。例えば、「さくら」という単語を発声の単位に区分すると、「sa」+「ak」+「ku」+「ur」+「ra」の5つのCV/VC単位に分割することができる。
【0015】
さらに日本語は、単語が連続する場合、連なつた後ろの語の語頭音節が濁音化したり(すなわち続濁でなる)、語頭以外のガ行音が鼻音化したりして、単語単体の場合と発声が変化する特徴がある。従つて音声合成規則部4は、これら日本語の特徴に従つて音韻規則が設定されるようになされ、その規則に従つてテキスト入力を音韻記号列(すなわち上述の「sa」+「ak」+「ku」+「ur」+「ra」等の連続する列でなる)に変換するようになされている。さらに音声合成規則部4は、この音韻記号列に基づいて、音声単位記憶部2から各音声単位データをロードする。
【0016】
ここで音声合成装置1は、線形予測分析等によるパラメータを用いた合成手法によつて合成音を発声するようになされ、音声単位記憶部2からロードされるデータは、各CV/VC単位で表される合成音を生成する際に用いられる特徴パラメータのデータでなる。この合成音の生成に用いられる音声単位データは、線形予測分析等によつて得られた実音声の特徴パラメータを必要なフレーム数だけ貯えたものである。
【0017】
またこの音声単位データは、音声単位記憶部2に貯えられている全ての音声単位データの集まりである音声単位データセツト内において、図2に示すような手順によつて、音声単位データ内のスペクトル包絡軌道が正規化されている。この音声単位データのスペクトル包絡軌道の正規化処理の具体例を以下に示す。
【0018】
すなわちまず音声単位データセツトに含まれる少なくとも一つの音素に対して、音声単位間を接続する場合の接続フレームにおける代表的な特徴パラメータを設定する。これは言い換えると、接続フレームにおける代表的なスペクトル包絡特性を設定することと同値である。
【0019】
これはCV/VC単位による音声単位データセツトについて、音素/a/ に対する代表的な特徴パラメータを設定する場合では、/ak/、/as/、/ka/、/sa/のように音素/a/ を含む音声単位データセツト内の該当音声単位データ全てについて、音素/a/ が音声単位データの前方音素となる場合にはその音声単位データ内の前端フレームを対象の接続フレームとし、また音素/a/ が音声単位データの後方音素となる場合にはその音声単位データ内の後端フレームを対象の接続フレームとして、対象の接続フレームの特徴パラメータを取り出す。
【0020】
このようにして取り出された該当音声単位データ全てにおける特徴パラメータから、その特徴パラメータの空間内での重心であるセントロイドを求め、これを音素/a/ における代表的な特徴パラメータとする。あるいは特徴パラメータの空間内において求められたセントロイドに最も近い位置にある特徴パラメータを代表的な特徴パラメータとしても良い。同様にして、スペクトル包絡軌道の正規化を行う他の音素に対しても、その代表的な特徴パラメータを設定する。
【0021】
次に該当音素に対して設定された代表的な特徴パラメータを用いて、各音声単位データのスペクトル包絡軌道の正規化を行う。この具体的な方法は、音声単位データ/am/の場合では次のようになる。すなわち音素/a/ の代表的な特徴パラメータと、音声単位データ/am/内の前端フレームにおける特徴パラメータとの差分を計算して、これを前端フレームにおける特徴パラメータのギヤツプとし、また音素/m/ の代表的な特徴パラメータと、音声単位データ/am/内の後端フレームにおける特徴パラメータとの差分を計算して、これを後端フレームにおけるスペクトル包絡特性のギヤツプとする。
【0022】
音声単位データ/am/内の音素/a/ と音素/m/ との境界となるフレームを中心として、求められた両端のフレームにおける特徴パラメータのギヤツプを打ち消すように、音声単位データ/am/に対する特徴パラメータの正規化関数を設定する。図3は特徴パラメータの正規化関数を周波数領域で表現した場合を示す。この正規化関数は音声単位データ内の音素境界に接するフレームでスペクトル包絡特性の補正量が0となるように、音声単位データの両端の特徴パラメータのギヤツプを直線補間する関数である。
【0023】
また図4はスペクトル包絡軌道の正規化処理を示す。設定された正規化関数を抽出された音声単位データ/am/の各フレームの特徴パラメータに適用することで、両端のフレームにおけるスペクトル包絡特性はそれぞ音素/a/ と音素/m/ との代表的な特徴パラメータが表すスペクトル包絡特性となり、しかも音声単位データ内では滑らかなスペクトル包絡軌道が実現できる。
【0024】
このようにして正規化された各フレームの特徴パラメータを、音声単位データ/am/の特徴パラメータとして保持する。このような手法による音声単位データのスペクトル包絡軌道の正規化を、該当する音声単位データ全てに対して行う。
【0025】
音声合成規則部4は、音声単位記憶部2からロードされた音声単位データをテキスト入力に応じた順序(以下このデータを合成パラメータと呼ぶ)で合成し、かくして抑揚のない状態で、テキスト入力を読み上げた音声を表す合成パラメータを得ることができる。さらに音声合成規則部4は所定の韻律規則に基づいて、テキスト入力を適当な長さで分割して、切れ目すなわちポーズを検出する。かくして図5に示すように、例えばテキスト入力として文章「きれいな花を山田さんからもらいました」が入力された場合は(図5(A))、当該テキスト入力は「きれいな」、「はなを」、「やまださんから」、「もらいました」に分解された後、「はなを」及び「やまださんから」の間にポーズが検出される(図5(B))。
【0026】
さらに音声合成規則部4は、韻律規則及び各単語の基本アクセントに基づいて、各文節のアクセントを検出する。すなわち日本語の文節単体のアクセントは、感覚的に仮名文字を単位として(以下モーラと呼ぶ)、高低の2レベルで表現することができる。このとき文節の内容等に応じて、文節のアクセント位置を区別することができる。例えば、端、箸、橋は、2モーラの単語で、それぞれアクセントのない0型、アクセントの位置が先頭のモーラにある1型、アクセントの位置が2モーラ目にある2型に分類することができる。かくして、この実施例において音声合成規則部4は、テキスト入力の各文節を、それぞれ1型、2型、0型、4型と分類し(図5(C))、これにより文節単位でアクセント及びポーズを検出する。
【0027】
さらに音声合成規則部4は、アクセント及びポーズの検出結果に基づいて、テキスト入力全体の抑揚を表す基本ピツチパターンを生成する。すなわち日本語において文節のアクセントは、感覚的に2レベルで表し得るのに対し、実際の抑揚は、アクセントの位置から徐々に低下する特徴がある(図5(D))。さらに日本語においては、文節が連続して1つの文章になると、ポーズから続くポーズに向かつて、抑揚が徐々に低下する特徴がある(図5(E))。
【0028】
従つて音声合成規則部4は、かかる日本語の特徴に基づいて、テキスト入力全体の抑揚を表すパラメータを各モーラ毎に生成した後、人間が発声した場合と同様に抑揚が滑らかに変化するように、モーラ間の補間によりパラメータを設定する。かくして音声合成規則部4は、テキスト入力に応じた順序で、各モーラのパラメータ及び補間したパラメータを合成し(以下ピツチパターンと呼ぶ)、かくしてテキスト入力を読み上げた音声の抑揚を表すピツチパターン(図5(F))を得ることができる。
【0029】
音声合成部5は、線形予測パラメータを用いた合成手法によつて音声を合成するようになされた音声合成フイルタを有し、合成パラメータ及びピツチパターンに基づいて合成音を生成する。これにより、合成パラメータで決まるスペクトラムで、ピツチパターンの変化に追従して抑揚の変化する合成音を得ることができる。
【0030】
このように音声を合成するために用いる音声単位データのスペクトル包絡軌道を正規化することによつて、任意の音声が合成可能な音声合成装置において、同一音素内における音声単位接続部での接続歪みがほとんど解消され、音声合成時における補間処理を行うことなしに、音声単位データがなめらかに接続された人間の音声に比して違和感のない高品質な任意合成音が得られる。
【0031】
以上の構成において、所定の入力装置から入力されたテキスト入力は、文章解析部3で、所定の辞書を基準にして解析され、単語、文節の境界及び基本アクセントが検出される。単語、文節の境界及び基本アクセントの検出結果は、音声合成規則部4で、所定の音韻規則に従つて処理され、抑揚のない状態でテキスト入力を読み上げた音声を表す合成パラメータが生成される。
【0032】
さらに単語、文節の境界及び基本アクセントの検出結果は、音声合成規則部4で、所定の韻律規則に従つて処理され、テキスト入力全体の抑揚を表すピツチパターンが生成される。ピツチパターンは合成パラメータと共に音声合成部5に出力され、ここでピツチパターン及び合成パラメータに基づいて合成音が生成される。
【0033】
以上の構成によれば、任意音声を合成する際に、合成時における音声単位間の補間処理を行うことなしになめらかに音声単位が接続され、人間の音声に比して違和感の少ない高品質な合成音声を生成し得る音声合成装置、音声合成方法を実現できる。
【0034】
なお上述の実施例においては、文章解析部でテキスト入力を解析したが、これに代え、音声合成装置内に文章解析部を持たず、音声合成装置への直接の入力として、音韻記号と韻律記号とが与えられるようになされても上述の実施例と同様の効果を実現できる。
【0035】
また上述の実施例においては、音声単位データに対するスペクトル包絡軌道の正規化処理を、音声単位データ内の音素境界を中心にして全てのフレームに対して施す場合について述べたが、本発明はこれに限らず、音声単位データの前端からの任意のフレーム数及び後端からの任意のフレーム数のみに対して正規化処理を施しても良い。
【0036】
また上述の実施例においては、音声単位データに対するスペクトル包絡軌道の正規化処理を、音声単位データ全体に対して施す場合について述べたが、本発明はこれに限らず、音声単位内の有声部分に対してのみ正規化処理を施しても良い。
【0037】
さらに上述の実施例においては、音声単位データがCV/VC単位である場合について述べたが、本発明はこれに限らず、音声単位データがVCV単位やCVC単位、あるいはその両者のように、音声単位データを同一音素内で接続する音声合成方式において、音声単位データ内の音韻連鎖が任意の数であつたり、音声単位データ内の音韻連鎖のパターンが任意である場合にも、音声単位内の前端フレーム及び後端フレームを含む音素に対してのみ正規化処理を施しても良い。
【0038】
【発明の効果】
上述のように本発明によれば、音声合成時の音声単位間の補間処理を行うことなく、音声単位接続部での接続歪みをほとんど解消することができ、高品質な合成音を任意に合成することができる音声合成装置及び方法を得ることができる。
【図面の簡単な説明】
【図1】本発明による音声合成装置の一実施例を示すブロツク図である。
【図2】図1の音声合成装置における音声単位データセツトの正規化処理を示すブロツク図である。
【図3】音声単位データのスペクトル包絡軌道の正規化関数を周波数領域で示す特性曲線図である。
【図4】音声単位データのスペクトル包絡軌道の正規化処理の説明に供する特性曲線図である。
【図5】本発明の一実施例の動作として基本ピツチパターンの生成の説明に供する略線図である。
【符号の説明】
1……音声合成装置、2……音声単位記憶部、3……文章解析部、4……音声合成規則部、5……音声合成部。
【目次】
以下の順序で本発明を説明する。
産業上の利用分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段(図1及び図2)
作用(図1及び図2)
実施例(図1〜図5)
発明の効果
【0002】
【産業上の利用分野】
本発明は音声合成装置及び方法に関し、特に単音節又はそれ以上の音節数からなる音声単位を同一音素内で接続する音声合成装置に適用して好適なものである。
【0003】
【従来の技術】
従来、規則合成方式による音声合成装置においては、入力された文字の系列を解析した後、所定の規則に従つてパラメータを合成することにより、いかなる言葉でも音声合成し得るようになされている。すなわち規則合成方式による音声合成装置は、入力された文字の系列を解析した後、所定の規則に従つて各文節ごとにアクセントを検出し、各文節の並びから文字系列全体としての抑揚、ポーズ等を表現するピツチパラメータを合成する。
【0004】
さらに音声合成装置は、同様に所定の規則に従つて各文節を例えばCV/VC単位のような音声単位に分割した後、そのスペクトラムを表現する合成パラメータを生成する。これによりピツチパラメータ及び合成パラメータに基づいて合成音を発声するようになされている。
【0005】
【発明が解決しようとする課題】
ところでこのような音声合成装置で用いられる個々の音声単位は、それが抽出された実音声内での前後の音韻環境の影響を受けており、その影響が合成音声内に表れてくる。すなわちある音声単位では合成時における音韻環境と、抽出された実音声内での音韻環境とが異なる場合が生じてくる。これによつて、合成音声の各音声単位を接続した場合に、実音声と比べて不自然な音声波形が生成され、周波数領域での不連続性が原因となつて異聴等が発生する。
【0006】
またCV/VC単位による音声合成のように音声単位を同一音素内で接続する場合では、周波数領域での不連続性が聴感上特に感知されやすく、合成音声の品質が劣化しやすいといつた問題があつた。このような問題を解決するために、従来の音声合成装置では音声単位間の接続部分で補間処理を行うことが一般的であるが、補間処理の為に合成アルゴリズムが繁雑となつてしまつたり、合成された音声のスペクトル特性は自然音声からかけ離れたものとなつてしまう。
【0007】
本発明は以上の点を考慮してなされたもので、実際の人間の音声に比して違和感のない合成音を発声することができる音声合成装置を提案しようとするものである。
【0008】
【課題を解決するための手段】
かかる課題を解決するために本発明においては、音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成する音声合成規則部4と、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成部5とを有する音声合成装置1において、同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、接続フレームにおけるスペクトル包絡特性が代表的な特徴パラメータが表すスペクトル包絡特性になるように、同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する音声単位記憶部2を設けるようにした。
【0009】
また本発明においては、音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成すると共に、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び韻律情報に基づいて合成音を生成する音声合成方法において、同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、接続フレームにおけるスペクトル包絡特性が代表的な特徴パラメータが表すスペクトル包絡特性になるように、同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶するようにした。
【0010】
【作用】
任意音声を合成する際に、音声単位記憶部に記憶したスペクトル包絡軌道が正規化された音声単位データセツトを用いることによつて、音声単位接続部での接続歪みによる品質の劣化を未然に防止して、補間処理を行うことなしに音声単位をなめらかに接続していくことができ、人間の音声に比して違和感のない高品質な任意合成音が得られる。
【0011】
【実施例】
以下図面について、本発明の一実施例を詳述する。
【0012】
図1において、1は全体として演算処理装置構成の音声合成装置を示し、音声単位記憶部2、文章解析部3、音声合成規則部4及び音声合成部5に分割される。文章解析部3は、所定の入力装置から入力されたテキスト入力(文字の系列で表された文章等でなる)を所定の辞書を基準にして解析し、仮名文字列に変換した後、単語、文節毎に分解する。
【0013】
すなわち日本語においては、英語のように単語が分かち書きされていないことから、例えば「米国産業界」のような言葉は、「米国/産業・界」、「米/国産/業界」のように2種類以上に区分化し得る。このため文章解析部3は、辞書を参考にしながら、言葉の連続関係及び単語の統計的性質を利用して、テキスト入力を単語、文節毎に分解するようになされ、これにより単語、文節の境界を検出するようになされている。さらに文章解析部3は、各単語毎に基本アクセントを検出した後、音声合成規則部4に出力する。
【0014】
音声合成規則部4は、日本語の特徴に基づいて設定された所定の音韻規則に従つて、文章解析部3の検出結果及びテキスト入力を処理するようになされている。すなわち、日本語の自然な音声は、言語学的特性に基づいて区別すると、約100程度の発声の単位に区分することができる。例えば、「さくら」という単語を発声の単位に区分すると、「sa」+「ak」+「ku」+「ur」+「ra」の5つのCV/VC単位に分割することができる。
【0015】
さらに日本語は、単語が連続する場合、連なつた後ろの語の語頭音節が濁音化したり(すなわち続濁でなる)、語頭以外のガ行音が鼻音化したりして、単語単体の場合と発声が変化する特徴がある。従つて音声合成規則部4は、これら日本語の特徴に従つて音韻規則が設定されるようになされ、その規則に従つてテキスト入力を音韻記号列(すなわち上述の「sa」+「ak」+「ku」+「ur」+「ra」等の連続する列でなる)に変換するようになされている。さらに音声合成規則部4は、この音韻記号列に基づいて、音声単位記憶部2から各音声単位データをロードする。
【0016】
ここで音声合成装置1は、線形予測分析等によるパラメータを用いた合成手法によつて合成音を発声するようになされ、音声単位記憶部2からロードされるデータは、各CV/VC単位で表される合成音を生成する際に用いられる特徴パラメータのデータでなる。この合成音の生成に用いられる音声単位データは、線形予測分析等によつて得られた実音声の特徴パラメータを必要なフレーム数だけ貯えたものである。
【0017】
またこの音声単位データは、音声単位記憶部2に貯えられている全ての音声単位データの集まりである音声単位データセツト内において、図2に示すような手順によつて、音声単位データ内のスペクトル包絡軌道が正規化されている。この音声単位データのスペクトル包絡軌道の正規化処理の具体例を以下に示す。
【0018】
すなわちまず音声単位データセツトに含まれる少なくとも一つの音素に対して、音声単位間を接続する場合の接続フレームにおける代表的な特徴パラメータを設定する。これは言い換えると、接続フレームにおける代表的なスペクトル包絡特性を設定することと同値である。
【0019】
これはCV/VC単位による音声単位データセツトについて、音素/a/ に対する代表的な特徴パラメータを設定する場合では、/ak/、/as/、/ka/、/sa/のように音素/a/ を含む音声単位データセツト内の該当音声単位データ全てについて、音素/a/ が音声単位データの前方音素となる場合にはその音声単位データ内の前端フレームを対象の接続フレームとし、また音素/a/ が音声単位データの後方音素となる場合にはその音声単位データ内の後端フレームを対象の接続フレームとして、対象の接続フレームの特徴パラメータを取り出す。
【0020】
このようにして取り出された該当音声単位データ全てにおける特徴パラメータから、その特徴パラメータの空間内での重心であるセントロイドを求め、これを音素/a/ における代表的な特徴パラメータとする。あるいは特徴パラメータの空間内において求められたセントロイドに最も近い位置にある特徴パラメータを代表的な特徴パラメータとしても良い。同様にして、スペクトル包絡軌道の正規化を行う他の音素に対しても、その代表的な特徴パラメータを設定する。
【0021】
次に該当音素に対して設定された代表的な特徴パラメータを用いて、各音声単位データのスペクトル包絡軌道の正規化を行う。この具体的な方法は、音声単位データ/am/の場合では次のようになる。すなわち音素/a/ の代表的な特徴パラメータと、音声単位データ/am/内の前端フレームにおける特徴パラメータとの差分を計算して、これを前端フレームにおける特徴パラメータのギヤツプとし、また音素/m/ の代表的な特徴パラメータと、音声単位データ/am/内の後端フレームにおける特徴パラメータとの差分を計算して、これを後端フレームにおけるスペクトル包絡特性のギヤツプとする。
【0022】
音声単位データ/am/内の音素/a/ と音素/m/ との境界となるフレームを中心として、求められた両端のフレームにおける特徴パラメータのギヤツプを打ち消すように、音声単位データ/am/に対する特徴パラメータの正規化関数を設定する。図3は特徴パラメータの正規化関数を周波数領域で表現した場合を示す。この正規化関数は音声単位データ内の音素境界に接するフレームでスペクトル包絡特性の補正量が0となるように、音声単位データの両端の特徴パラメータのギヤツプを直線補間する関数である。
【0023】
また図4はスペクトル包絡軌道の正規化処理を示す。設定された正規化関数を抽出された音声単位データ/am/の各フレームの特徴パラメータに適用することで、両端のフレームにおけるスペクトル包絡特性はそれぞ音素/a/ と音素/m/ との代表的な特徴パラメータが表すスペクトル包絡特性となり、しかも音声単位データ内では滑らかなスペクトル包絡軌道が実現できる。
【0024】
このようにして正規化された各フレームの特徴パラメータを、音声単位データ/am/の特徴パラメータとして保持する。このような手法による音声単位データのスペクトル包絡軌道の正規化を、該当する音声単位データ全てに対して行う。
【0025】
音声合成規則部4は、音声単位記憶部2からロードされた音声単位データをテキスト入力に応じた順序(以下このデータを合成パラメータと呼ぶ)で合成し、かくして抑揚のない状態で、テキスト入力を読み上げた音声を表す合成パラメータを得ることができる。さらに音声合成規則部4は所定の韻律規則に基づいて、テキスト入力を適当な長さで分割して、切れ目すなわちポーズを検出する。かくして図5に示すように、例えばテキスト入力として文章「きれいな花を山田さんからもらいました」が入力された場合は(図5(A))、当該テキスト入力は「きれいな」、「はなを」、「やまださんから」、「もらいました」に分解された後、「はなを」及び「やまださんから」の間にポーズが検出される(図5(B))。
【0026】
さらに音声合成規則部4は、韻律規則及び各単語の基本アクセントに基づいて、各文節のアクセントを検出する。すなわち日本語の文節単体のアクセントは、感覚的に仮名文字を単位として(以下モーラと呼ぶ)、高低の2レベルで表現することができる。このとき文節の内容等に応じて、文節のアクセント位置を区別することができる。例えば、端、箸、橋は、2モーラの単語で、それぞれアクセントのない0型、アクセントの位置が先頭のモーラにある1型、アクセントの位置が2モーラ目にある2型に分類することができる。かくして、この実施例において音声合成規則部4は、テキスト入力の各文節を、それぞれ1型、2型、0型、4型と分類し(図5(C))、これにより文節単位でアクセント及びポーズを検出する。
【0027】
さらに音声合成規則部4は、アクセント及びポーズの検出結果に基づいて、テキスト入力全体の抑揚を表す基本ピツチパターンを生成する。すなわち日本語において文節のアクセントは、感覚的に2レベルで表し得るのに対し、実際の抑揚は、アクセントの位置から徐々に低下する特徴がある(図5(D))。さらに日本語においては、文節が連続して1つの文章になると、ポーズから続くポーズに向かつて、抑揚が徐々に低下する特徴がある(図5(E))。
【0028】
従つて音声合成規則部4は、かかる日本語の特徴に基づいて、テキスト入力全体の抑揚を表すパラメータを各モーラ毎に生成した後、人間が発声した場合と同様に抑揚が滑らかに変化するように、モーラ間の補間によりパラメータを設定する。かくして音声合成規則部4は、テキスト入力に応じた順序で、各モーラのパラメータ及び補間したパラメータを合成し(以下ピツチパターンと呼ぶ)、かくしてテキスト入力を読み上げた音声の抑揚を表すピツチパターン(図5(F))を得ることができる。
【0029】
音声合成部5は、線形予測パラメータを用いた合成手法によつて音声を合成するようになされた音声合成フイルタを有し、合成パラメータ及びピツチパターンに基づいて合成音を生成する。これにより、合成パラメータで決まるスペクトラムで、ピツチパターンの変化に追従して抑揚の変化する合成音を得ることができる。
【0030】
このように音声を合成するために用いる音声単位データのスペクトル包絡軌道を正規化することによつて、任意の音声が合成可能な音声合成装置において、同一音素内における音声単位接続部での接続歪みがほとんど解消され、音声合成時における補間処理を行うことなしに、音声単位データがなめらかに接続された人間の音声に比して違和感のない高品質な任意合成音が得られる。
【0031】
以上の構成において、所定の入力装置から入力されたテキスト入力は、文章解析部3で、所定の辞書を基準にして解析され、単語、文節の境界及び基本アクセントが検出される。単語、文節の境界及び基本アクセントの検出結果は、音声合成規則部4で、所定の音韻規則に従つて処理され、抑揚のない状態でテキスト入力を読み上げた音声を表す合成パラメータが生成される。
【0032】
さらに単語、文節の境界及び基本アクセントの検出結果は、音声合成規則部4で、所定の韻律規則に従つて処理され、テキスト入力全体の抑揚を表すピツチパターンが生成される。ピツチパターンは合成パラメータと共に音声合成部5に出力され、ここでピツチパターン及び合成パラメータに基づいて合成音が生成される。
【0033】
以上の構成によれば、任意音声を合成する際に、合成時における音声単位間の補間処理を行うことなしになめらかに音声単位が接続され、人間の音声に比して違和感の少ない高品質な合成音声を生成し得る音声合成装置、音声合成方法を実現できる。
【0034】
なお上述の実施例においては、文章解析部でテキスト入力を解析したが、これに代え、音声合成装置内に文章解析部を持たず、音声合成装置への直接の入力として、音韻記号と韻律記号とが与えられるようになされても上述の実施例と同様の効果を実現できる。
【0035】
また上述の実施例においては、音声単位データに対するスペクトル包絡軌道の正規化処理を、音声単位データ内の音素境界を中心にして全てのフレームに対して施す場合について述べたが、本発明はこれに限らず、音声単位データの前端からの任意のフレーム数及び後端からの任意のフレーム数のみに対して正規化処理を施しても良い。
【0036】
また上述の実施例においては、音声単位データに対するスペクトル包絡軌道の正規化処理を、音声単位データ全体に対して施す場合について述べたが、本発明はこれに限らず、音声単位内の有声部分に対してのみ正規化処理を施しても良い。
【0037】
さらに上述の実施例においては、音声単位データがCV/VC単位である場合について述べたが、本発明はこれに限らず、音声単位データがVCV単位やCVC単位、あるいはその両者のように、音声単位データを同一音素内で接続する音声合成方式において、音声単位データ内の音韻連鎖が任意の数であつたり、音声単位データ内の音韻連鎖のパターンが任意である場合にも、音声単位内の前端フレーム及び後端フレームを含む音素に対してのみ正規化処理を施しても良い。
【0038】
【発明の効果】
上述のように本発明によれば、音声合成時の音声単位間の補間処理を行うことなく、音声単位接続部での接続歪みをほとんど解消することができ、高品質な合成音を任意に合成することができる音声合成装置及び方法を得ることができる。
【図面の簡単な説明】
【図1】本発明による音声合成装置の一実施例を示すブロツク図である。
【図2】図1の音声合成装置における音声単位データセツトの正規化処理を示すブロツク図である。
【図3】音声単位データのスペクトル包絡軌道の正規化関数を周波数領域で示す特性曲線図である。
【図4】音声単位データのスペクトル包絡軌道の正規化処理の説明に供する特性曲線図である。
【図5】本発明の一実施例の動作として基本ピツチパターンの生成の説明に供する略線図である。
【符号の説明】
1……音声合成装置、2……音声単位記憶部、3……文章解析部、4……音声合成規則部、5……音声合成部。
Claims (8)
- 音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成する音声合成規則部と、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成部とを有する音声合成装置において、
同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、上記接続フレームにおけるスペクトル包絡特性が上記代表的な特徴パラメータが表すスペクトル包絡特性になるように、上記同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する音声単位記憶部
を具えることを特徴とする音声合成装置。 - 上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位の前端及び又は後端の任意数のフレームに対して行うようにした
ことを特徴とする請求項1に記載の音声合成装置。 - 上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の有声部分に対して行うようにした
ことを特徴とする請求項1に記載の音声合成装置。 - 上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の前端及び又は後端の接続フレームを含む音素に対して行うようにした
ことを特徴とする請求項1に記載の音声合成装置。 - 音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成すると共に、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成方法において、
同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、上記接続フレームにおけるスペクトル包絡特性が上記代表的な特徴パラメータが表すスペクトル包絡特性になるように、上記同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する
ことを特徴とする音声合成方法。 - 上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位の前端及び又は後端の任意数のフレームに対して行うようにした
ことを特徴とする請求項5に記載の音声合成方法。 - 上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の有声部分に対して行うようにした
ことを特徴とする請求項5に記載の音声合成方法。 - 上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の前端及び又は後端の接続フレームを含む音素に対して行うようにした
ことを特徴とする請求項5に記載の音声合成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22815793A JP3614874B2 (ja) | 1993-08-19 | 1993-08-19 | 音声合成装置及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP22815793A JP3614874B2 (ja) | 1993-08-19 | 1993-08-19 | 音声合成装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0756591A JPH0756591A (ja) | 1995-03-03 |
JP3614874B2 true JP3614874B2 (ja) | 2005-01-26 |
Family
ID=16872126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP22815793A Expired - Fee Related JP3614874B2 (ja) | 1993-08-19 | 1993-08-19 | 音声合成装置及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3614874B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100393196B1 (ko) * | 1996-10-23 | 2004-01-28 | 삼성전자주식회사 | 음성인식장치및방법 |
JP4225128B2 (ja) | 2003-06-13 | 2009-02-18 | ソニー株式会社 | 規則音声合成装置及び規則音声合成方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57171398A (en) * | 1981-04-14 | 1982-10-21 | Nippon Electric Co | Rule type sound synthetic device |
JPS58100900A (ja) * | 1981-12-11 | 1983-06-15 | 日本電気株式会社 | 任意語の音声合成方法 |
JPS61259300A (ja) * | 1985-05-14 | 1986-11-17 | 株式会社リコー | 音声合成方式 |
JPH02135931A (ja) * | 1988-11-17 | 1990-05-24 | Matsushita Electric Ind Co Ltd | 信号処理方法 |
JP2956069B2 (ja) * | 1989-06-08 | 1999-10-04 | 株式会社明電舎 | 音声合成装置のデータ処理方式 |
JP2995774B2 (ja) * | 1990-01-10 | 1999-12-27 | 株式会社明電舎 | 音声合成方式 |
JPH05181491A (ja) * | 1991-12-30 | 1993-07-23 | Sony Corp | 音声合成装置 |
-
1993
- 1993-08-19 JP JP22815793A patent/JP3614874B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH0756591A (ja) | 1995-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0688011B1 (en) | Audio output unit and method thereof | |
JPH04331997A (ja) | 音声合成装置のアクセント成分制御方式 | |
JPH031200A (ja) | 規則型音声合成装置 | |
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JP3622990B2 (ja) | 音声合成装置及び方法 | |
JP3614874B2 (ja) | 音声合成装置及び方法 | |
Chen et al. | A first study on neural net based generation of prosodic and spectral information for Mandarin text-to-speech | |
Sündermann et al. | Evaluation of VTLN-based voice conversion for embedded speech synthesis. | |
JP3235747B2 (ja) | 音声合成装置及び音声合成方法 | |
JPH06318094A (ja) | 音声規則合成装置 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP3113101B2 (ja) | 音声合成装置 | |
JPH11249676A (ja) | 音声合成装置 | |
JP2703253B2 (ja) | 音声合成装置 | |
JP2900454B2 (ja) | 音声合成装置の音節データ作成方式 | |
JP2007163667A (ja) | 音声合成装置および音声合成プログラム | |
JP2995774B2 (ja) | 音声合成方式 | |
JP3303428B2 (ja) | 音声合成装置のアクセント成分基本テーブルの作成方法 | |
JP3292218B2 (ja) | 音声メッセージ作成装置 | |
JPH03269599A (ja) | 音声合成装置 | |
JP2000172286A (ja) | 中国語音声合成のための同時調音処理装置 | |
Sassi et al. | A text-to-speech system for Arabic using neural networks | |
JP2002082686A (ja) | 音声合成方法と音声合成装置 | |
JPH03119396A (ja) | 音声合成装置 | |
JPH06332490A (ja) | 音声合成装置のアクセント成分基本テーブルの作成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041028 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071112 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081112 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091112 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |