JP3614874B2

JP3614874B2 - 音声合成装置及び方法

Info

Publication number: JP3614874B2
Application number: JP22815793A
Authority: JP
Inventors: 敬一山田; 芳明及川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-08-19
Filing date: 1993-08-19
Publication date: 2005-01-26
Anticipated expiration: 2020-01-26
Also published as: JPH0756591A

Description

【０００１】
【目次】
以下の順序で本発明を説明する。
産業上の利用分野
従来の技術
発明が解決しようとする課題
課題を解決するための手段（図１及び図２）
作用（図１及び図２）
実施例（図１〜図５）
発明の効果
【０００２】
【産業上の利用分野】
本発明は音声合成装置及び方法に関し、特に単音節又はそれ以上の音節数からなる音声単位を同一音素内で接続する音声合成装置に適用して好適なものである。
【０００３】
【従来の技術】
従来、規則合成方式による音声合成装置においては、入力された文字の系列を解析した後、所定の規則に従つてパラメータを合成することにより、いかなる言葉でも音声合成し得るようになされている。すなわち規則合成方式による音声合成装置は、入力された文字の系列を解析した後、所定の規則に従つて各文節ごとにアクセントを検出し、各文節の並びから文字系列全体としての抑揚、ポーズ等を表現するピツチパラメータを合成する。
【０００４】
さらに音声合成装置は、同様に所定の規則に従つて各文節を例えばＣＶ／ＶＣ単位のような音声単位に分割した後、そのスペクトラムを表現する合成パラメータを生成する。これによりピツチパラメータ及び合成パラメータに基づいて合成音を発声するようになされている。
【０００５】
【発明が解決しようとする課題】
ところでこのような音声合成装置で用いられる個々の音声単位は、それが抽出された実音声内での前後の音韻環境の影響を受けており、その影響が合成音声内に表れてくる。すなわちある音声単位では合成時における音韻環境と、抽出された実音声内での音韻環境とが異なる場合が生じてくる。これによつて、合成音声の各音声単位を接続した場合に、実音声と比べて不自然な音声波形が生成され、周波数領域での不連続性が原因となつて異聴等が発生する。
【０００６】
またＣＶ／ＶＣ単位による音声合成のように音声単位を同一音素内で接続する場合では、周波数領域での不連続性が聴感上特に感知されやすく、合成音声の品質が劣化しやすいといつた問題があつた。このような問題を解決するために、従来の音声合成装置では音声単位間の接続部分で補間処理を行うことが一般的であるが、補間処理の為に合成アルゴリズムが繁雑となつてしまつたり、合成された音声のスペクトル特性は自然音声からかけ離れたものとなつてしまう。
【０００７】
本発明は以上の点を考慮してなされたもので、実際の人間の音声に比して違和感のない合成音を発声することができる音声合成装置を提案しようとするものである。
【０００８】
【課題を解決するための手段】
かかる課題を解決するために本発明においては、音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成する音声合成規則部４と、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成部５とを有する音声合成装置１において、同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、接続フレームにおけるスペクトル包絡特性が代表的な特徴パラメータが表すスペクトル包絡特性になるように、同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する音声単位記憶部２を設けるようにした。
【０００９】
また本発明においては、音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成すると共に、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び韻律情報に基づいて合成音を生成する音声合成方法において、同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、接続フレームにおけるスペクトル包絡特性が代表的な特徴パラメータが表すスペクトル包絡特性になるように、同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶するようにした。
【００１０】
【作用】
任意音声を合成する際に、音声単位記憶部に記憶したスペクトル包絡軌道が正規化された音声単位データセツトを用いることによつて、音声単位接続部での接続歪みによる品質の劣化を未然に防止して、補間処理を行うことなしに音声単位をなめらかに接続していくことができ、人間の音声に比して違和感のない高品質な任意合成音が得られる。
【００１１】
【実施例】
以下図面について、本発明の一実施例を詳述する。
【００１２】
図１において、１は全体として演算処理装置構成の音声合成装置を示し、音声単位記憶部２、文章解析部３、音声合成規則部４及び音声合成部５に分割される。文章解析部３は、所定の入力装置から入力されたテキスト入力（文字の系列で表された文章等でなる）を所定の辞書を基準にして解析し、仮名文字列に変換した後、単語、文節毎に分解する。
【００１３】
すなわち日本語においては、英語のように単語が分かち書きされていないことから、例えば「米国産業界」のような言葉は、「米国／産業・界」、「米／国産／業界」のように２種類以上に区分化し得る。このため文章解析部３は、辞書を参考にしながら、言葉の連続関係及び単語の統計的性質を利用して、テキスト入力を単語、文節毎に分解するようになされ、これにより単語、文節の境界を検出するようになされている。さらに文章解析部３は、各単語毎に基本アクセントを検出した後、音声合成規則部４に出力する。
【００１４】
音声合成規則部４は、日本語の特徴に基づいて設定された所定の音韻規則に従つて、文章解析部３の検出結果及びテキスト入力を処理するようになされている。すなわち、日本語の自然な音声は、言語学的特性に基づいて区別すると、約１００程度の発声の単位に区分することができる。例えば、「さくら」という単語を発声の単位に区分すると、「ｓａ」＋「ａｋ」＋「ｋｕ」＋「ｕｒ」＋「ｒａ」の５つのＣＶ／ＶＣ単位に分割することができる。
【００１５】
さらに日本語は、単語が連続する場合、連なつた後ろの語の語頭音節が濁音化したり（すなわち続濁でなる）、語頭以外のガ行音が鼻音化したりして、単語単体の場合と発声が変化する特徴がある。従つて音声合成規則部４は、これら日本語の特徴に従つて音韻規則が設定されるようになされ、その規則に従つてテキスト入力を音韻記号列（すなわち上述の「ｓａ」＋「ａｋ」＋「ｋｕ」＋「ｕｒ」＋「ｒａ」等の連続する列でなる）に変換するようになされている。さらに音声合成規則部４は、この音韻記号列に基づいて、音声単位記憶部２から各音声単位データをロードする。
【００１６】
ここで音声合成装置１は、線形予測分析等によるパラメータを用いた合成手法によつて合成音を発声するようになされ、音声単位記憶部２からロードされるデータは、各ＣＶ／ＶＣ単位で表される合成音を生成する際に用いられる特徴パラメータのデータでなる。この合成音の生成に用いられる音声単位データは、線形予測分析等によつて得られた実音声の特徴パラメータを必要なフレーム数だけ貯えたものである。
【００１７】
またこの音声単位データは、音声単位記憶部２に貯えられている全ての音声単位データの集まりである音声単位データセツト内において、図２に示すような手順によつて、音声単位データ内のスペクトル包絡軌道が正規化されている。この音声単位データのスペクトル包絡軌道の正規化処理の具体例を以下に示す。
【００１８】
すなわちまず音声単位データセツトに含まれる少なくとも一つの音素に対して、音声単位間を接続する場合の接続フレームにおける代表的な特徴パラメータを設定する。これは言い換えると、接続フレームにおける代表的なスペクトル包絡特性を設定することと同値である。
【００１９】
これはＣＶ／ＶＣ単位による音声単位データセツトについて、音素／ａ／に対する代表的な特徴パラメータを設定する場合では、／ａｋ／、／ａｓ／、／ｋａ／、／ｓａ／のように音素／ａ／を含む音声単位データセツト内の該当音声単位データ全てについて、音素／ａ／が音声単位データの前方音素となる場合にはその音声単位データ内の前端フレームを対象の接続フレームとし、また音素／ａ／が音声単位データの後方音素となる場合にはその音声単位データ内の後端フレームを対象の接続フレームとして、対象の接続フレームの特徴パラメータを取り出す。
【００２０】
このようにして取り出された該当音声単位データ全てにおける特徴パラメータから、その特徴パラメータの空間内での重心であるセントロイドを求め、これを音素／ａ／における代表的な特徴パラメータとする。あるいは特徴パラメータの空間内において求められたセントロイドに最も近い位置にある特徴パラメータを代表的な特徴パラメータとしても良い。同様にして、スペクトル包絡軌道の正規化を行う他の音素に対しても、その代表的な特徴パラメータを設定する。
【００２１】
次に該当音素に対して設定された代表的な特徴パラメータを用いて、各音声単位データのスペクトル包絡軌道の正規化を行う。この具体的な方法は、音声単位データ／ａｍ／の場合では次のようになる。すなわち音素／ａ／の代表的な特徴パラメータと、音声単位データ／ａｍ／内の前端フレームにおける特徴パラメータとの差分を計算して、これを前端フレームにおける特徴パラメータのギヤツプとし、また音素／ｍ／の代表的な特徴パラメータと、音声単位データ／ａｍ／内の後端フレームにおける特徴パラメータとの差分を計算して、これを後端フレームにおけるスペクトル包絡特性のギヤツプとする。
【００２２】
音声単位データ／ａｍ／内の音素／ａ／と音素／ｍ／との境界となるフレームを中心として、求められた両端のフレームにおける特徴パラメータのギヤツプを打ち消すように、音声単位データ／ａｍ／に対する特徴パラメータの正規化関数を設定する。図３は特徴パラメータの正規化関数を周波数領域で表現した場合を示す。この正規化関数は音声単位データ内の音素境界に接するフレームでスペクトル包絡特性の補正量が０となるように、音声単位データの両端の特徴パラメータのギヤツプを直線補間する関数である。
【００２３】
また図４はスペクトル包絡軌道の正規化処理を示す。設定された正規化関数を抽出された音声単位データ／ａｍ／の各フレームの特徴パラメータに適用することで、両端のフレームにおけるスペクトル包絡特性はそれぞ音素／ａ／と音素／ｍ／との代表的な特徴パラメータが表すスペクトル包絡特性となり、しかも音声単位データ内では滑らかなスペクトル包絡軌道が実現できる。
【００２４】
このようにして正規化された各フレームの特徴パラメータを、音声単位データ／ａｍ／の特徴パラメータとして保持する。このような手法による音声単位データのスペクトル包絡軌道の正規化を、該当する音声単位データ全てに対して行う。
【００２５】
音声合成規則部４は、音声単位記憶部２からロードされた音声単位データをテキスト入力に応じた順序（以下このデータを合成パラメータと呼ぶ）で合成し、かくして抑揚のない状態で、テキスト入力を読み上げた音声を表す合成パラメータを得ることができる。さらに音声合成規則部４は所定の韻律規則に基づいて、テキスト入力を適当な長さで分割して、切れ目すなわちポーズを検出する。かくして図５に示すように、例えばテキスト入力として文章「きれいな花を山田さんからもらいました」が入力された場合は（図５（Ａ））、当該テキスト入力は「きれいな」、「はなを」、「やまださんから」、「もらいました」に分解された後、「はなを」及び「やまださんから」の間にポーズが検出される（図５（Ｂ））。
【００２６】
さらに音声合成規則部４は、韻律規則及び各単語の基本アクセントに基づいて、各文節のアクセントを検出する。すなわち日本語の文節単体のアクセントは、感覚的に仮名文字を単位として（以下モーラと呼ぶ）、高低の２レベルで表現することができる。このとき文節の内容等に応じて、文節のアクセント位置を区別することができる。例えば、端、箸、橋は、２モーラの単語で、それぞれアクセントのない０型、アクセントの位置が先頭のモーラにある１型、アクセントの位置が２モーラ目にある２型に分類することができる。かくして、この実施例において音声合成規則部４は、テキスト入力の各文節を、それぞれ１型、２型、０型、４型と分類し（図５（Ｃ））、これにより文節単位でアクセント及びポーズを検出する。
【００２７】
さらに音声合成規則部４は、アクセント及びポーズの検出結果に基づいて、テキスト入力全体の抑揚を表す基本ピツチパターンを生成する。すなわち日本語において文節のアクセントは、感覚的に２レベルで表し得るのに対し、実際の抑揚は、アクセントの位置から徐々に低下する特徴がある（図５（Ｄ））。さらに日本語においては、文節が連続して１つの文章になると、ポーズから続くポーズに向かつて、抑揚が徐々に低下する特徴がある（図５（Ｅ））。
【００２８】
従つて音声合成規則部４は、かかる日本語の特徴に基づいて、テキスト入力全体の抑揚を表すパラメータを各モーラ毎に生成した後、人間が発声した場合と同様に抑揚が滑らかに変化するように、モーラ間の補間によりパラメータを設定する。かくして音声合成規則部４は、テキスト入力に応じた順序で、各モーラのパラメータ及び補間したパラメータを合成し（以下ピツチパターンと呼ぶ）、かくしてテキスト入力を読み上げた音声の抑揚を表すピツチパターン（図５（Ｆ））を得ることができる。
【００２９】
音声合成部５は、線形予測パラメータを用いた合成手法によつて音声を合成するようになされた音声合成フイルタを有し、合成パラメータ及びピツチパターンに基づいて合成音を生成する。これにより、合成パラメータで決まるスペクトラムで、ピツチパターンの変化に追従して抑揚の変化する合成音を得ることができる。
【００３０】
このように音声を合成するために用いる音声単位データのスペクトル包絡軌道を正規化することによつて、任意の音声が合成可能な音声合成装置において、同一音素内における音声単位接続部での接続歪みがほとんど解消され、音声合成時における補間処理を行うことなしに、音声単位データがなめらかに接続された人間の音声に比して違和感のない高品質な任意合成音が得られる。
【００３１】
以上の構成において、所定の入力装置から入力されたテキスト入力は、文章解析部３で、所定の辞書を基準にして解析され、単語、文節の境界及び基本アクセントが検出される。単語、文節の境界及び基本アクセントの検出結果は、音声合成規則部４で、所定の音韻規則に従つて処理され、抑揚のない状態でテキスト入力を読み上げた音声を表す合成パラメータが生成される。
【００３２】
さらに単語、文節の境界及び基本アクセントの検出結果は、音声合成規則部４で、所定の韻律規則に従つて処理され、テキスト入力全体の抑揚を表すピツチパターンが生成される。ピツチパターンは合成パラメータと共に音声合成部５に出力され、ここでピツチパターン及び合成パラメータに基づいて合成音が生成される。
【００３３】
以上の構成によれば、任意音声を合成する際に、合成時における音声単位間の補間処理を行うことなしになめらかに音声単位が接続され、人間の音声に比して違和感の少ない高品質な合成音声を生成し得る音声合成装置、音声合成方法を実現できる。
【００３４】
なお上述の実施例においては、文章解析部でテキスト入力を解析したが、これに代え、音声合成装置内に文章解析部を持たず、音声合成装置への直接の入力として、音韻記号と韻律記号とが与えられるようになされても上述の実施例と同様の効果を実現できる。
【００３５】
また上述の実施例においては、音声単位データに対するスペクトル包絡軌道の正規化処理を、音声単位データ内の音素境界を中心にして全てのフレームに対して施す場合について述べたが、本発明はこれに限らず、音声単位データの前端からの任意のフレーム数及び後端からの任意のフレーム数のみに対して正規化処理を施しても良い。
【００３６】
また上述の実施例においては、音声単位データに対するスペクトル包絡軌道の正規化処理を、音声単位データ全体に対して施す場合について述べたが、本発明はこれに限らず、音声単位内の有声部分に対してのみ正規化処理を施しても良い。
【００３７】
さらに上述の実施例においては、音声単位データがＣＶ／ＶＣ単位である場合について述べたが、本発明はこれに限らず、音声単位データがＶＣＶ単位やＣＶＣ単位、あるいはその両者のように、音声単位データを同一音素内で接続する音声合成方式において、音声単位データ内の音韻連鎖が任意の数であつたり、音声単位データ内の音韻連鎖のパターンが任意である場合にも、音声単位内の前端フレーム及び後端フレームを含む音素に対してのみ正規化処理を施しても良い。
【００３８】
【発明の効果】
上述のように本発明によれば、音声合成時の音声単位間の補間処理を行うことなく、音声単位接続部での接続歪みをほとんど解消することができ、高品質な合成音を任意に合成することができる音声合成装置及び方法を得ることができる。
【図面の簡単な説明】
【図１】本発明による音声合成装置の一実施例を示すブロツク図である。
【図２】図１の音声合成装置における音声単位データセツトの正規化処理を示すブロツク図である。
【図３】音声単位データのスペクトル包絡軌道の正規化関数を周波数領域で示す特性曲線図である。
【図４】音声単位データのスペクトル包絡軌道の正規化処理の説明に供する特性曲線図である。
【図５】本発明の一実施例の動作として基本ピツチパターンの生成の説明に供する略線図である。
【符号の説明】
１……音声合成装置、２……音声単位記憶部、３……文章解析部、４……音声合成規則部、５……音声合成部。

Claims

音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成する音声合成規則部と、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成部とを有する音声合成装置において、
同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、上記接続フレームにおけるスペクトル包絡特性が上記代表的な特徴パラメータが表すスペクトル包絡特性になるように、上記同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する音声単位記憶部
を具えることを特徴とする音声合成装置。
上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位の前端及び又は後端の任意数のフレームに対して行うようにした
ことを特徴とする請求項１に記載の音声合成装置。
上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の有声部分に対して行うようにした
ことを特徴とする請求項１に記載の音声合成装置。
上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の前端及び又は後端の接続フレームを含む音素に対して行うようにした
ことを特徴とする請求項１に記載の音声合成装置。
音韻記号と韻律記号とに基づいて所定の音韻規則及び韻律規則によつて韻律情報を生成すると共に、合成単位として固有な特徴パラメータを必要フレーム数貯えた音声単位及び上記韻律情報に基づいて合成音を生成する音声合成方法において、
同じ音素の接続フレームを持つ複数の音声単位について、接続フレームにおける代表的な特徴パラメータを求め、上記接続フレームにおけるスペクトル包絡特性が上記代表的な特徴パラメータが表すスペクトル包絡特性になるように、上記同じ音素の接続フレームを持つ音声単位のスペクトル包絡軌道を正規化して求めた音声単位を記憶する
ことを特徴とする音声合成方法。
上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位の前端及び又は後端の任意数のフレームに対して行うようにした
ことを特徴とする請求項５に記載の音声合成方法。
上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の有声部分に対して行うようにした
ことを特徴とする請求項５に記載の音声合成方法。
上記音声単位の上記スペクトル包絡軌道の正規化を、上記音声単位内の前端及び又は後端の接続フレームを含む音素に対して行うようにした
ことを特徴とする請求項５に記載の音声合成方法。