JP3495275B2 - 音声合成装置 - Google Patents
音声合成装置Info
- Publication number
- JP3495275B2 JP3495275B2 JP36981498A JP36981498A JP3495275B2 JP 3495275 B2 JP3495275 B2 JP 3495275B2 JP 36981498 A JP36981498 A JP 36981498A JP 36981498 A JP36981498 A JP 36981498A JP 3495275 B2 JP3495275 B2 JP 3495275B2
- Authority
- JP
- Japan
- Prior art keywords
- frequency component
- codebook
- unit
- waveform
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 123
- 238000003786 synthesis reaction Methods 0.000 claims description 123
- 239000013598 vector Substances 0.000 claims description 103
- 238000013139 quantization Methods 0.000 claims description 57
- 238000012545 processing Methods 0.000 claims description 45
- 230000002194 synthesizing effect Effects 0.000 claims description 20
- 239000011295 pitch Substances 0.000 description 166
- 238000000034 method Methods 0.000 description 42
- 238000010586 diagram Methods 0.000 description 30
- 238000001308 synthesis method Methods 0.000 description 22
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000001228 spectrum Methods 0.000 description 8
- 230000001276 controlling effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007430 reference method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Description
【0001】
【発明の属する技術分野】この発明は、入力された任意
のテキストを音声へ変換する音声合成装置に関するもの
である。
のテキストを音声へ変換する音声合成装置に関するもの
である。
【0002】
【従来の技術】音声合成技術、中でも規則合成技術は任
意の文字列からなるテキストを音声に変換して提示する
技術であり、音声による情報サービス、電子メールの読
み上げ、身障者向け朗読器、新聞校閲などの用途に用い
られている。
意の文字列からなるテキストを音声に変換して提示する
技術であり、音声による情報サービス、電子メールの読
み上げ、身障者向け朗読器、新聞校閲などの用途に用い
られている。
【0003】一般的な規則合成技術に基づいたテキスト
音声変換システムの構成は、古井「デジタル音声処理」
(東京大学出版会 1985)の146ページに示され
る。システムは文章解析部、音声規則合成部、音声合成
部の3つのモジュールからなる。
音声変換システムの構成は、古井「デジタル音声処理」
(東京大学出版会 1985)の146ページに示され
る。システムは文章解析部、音声規則合成部、音声合成
部の3つのモジュールからなる。
【0004】文章解析部では、辞書を参照して入力した
日本語テキストを形態素と呼ばれる単位に分割する形態
素解析処理を行う。形態素には読み、アクセント型、品
詞等が付与される。
日本語テキストを形態素と呼ばれる単位に分割する形態
素解析処理を行う。形態素には読み、アクセント型、品
詞等が付与される。
【0005】音声規則合成部は、さらに音響処理部と韻
律生成部から成る。文章解析部で得られた読みとアクセ
ントを基に、音響処理部ではLSPやメルケプストラム
等の音声波形を分析して得られる特徴量、あるいは音声
波形そのものなどで構成される音響パラメータを生成
し、韻律生成部では韻律規則に基づいてピッチ、ポー
ズ、継続時間長などの韻律パラメータを生成する。
律生成部から成る。文章解析部で得られた読みとアクセ
ントを基に、音響処理部ではLSPやメルケプストラム
等の音声波形を分析して得られる特徴量、あるいは音声
波形そのものなどで構成される音響パラメータを生成
し、韻律生成部では韻律規則に基づいてピッチ、ポー
ズ、継続時間長などの韻律パラメータを生成する。
【0006】音声合成部では上記音響パラメータと上記
韻律パラメータを基に合成音声を生成し、出力する。音
響パラメータがLSP等の特徴量の場合には、ボコーダ
ーと呼ばれる分析合成手法に基づいて合成音声を生成
し、音声波形の場合はPSOLA(Pitch Synchronous
OverLap-and-Add)と呼ばれる方式で合成を行う。
韻律パラメータを基に合成音声を生成し、出力する。音
響パラメータがLSP等の特徴量の場合には、ボコーダ
ーと呼ばれる分析合成手法に基づいて合成音声を生成
し、音声波形の場合はPSOLA(Pitch Synchronous
OverLap-and-Add)と呼ばれる方式で合成を行う。
【0007】PSOLA方式は波形を直接利用をするこ
とで自然性の高い音声合成が可能となるが、波形情報は
LSP等の音響パラメータに比べて情報量が大きいた
め、記憶容量が多大となる。そこで波形情報をベクトル
量子化などによって圧縮して記憶する方法が検討されて
いる。このような従来技術として特開平5−73100
号公報「音声合成方式及びその装置」(以下、文献1と
する)が挙げられる。
とで自然性の高い音声合成が可能となるが、波形情報は
LSP等の音響パラメータに比べて情報量が大きいた
め、記憶容量が多大となる。そこで波形情報をベクトル
量子化などによって圧縮して記憶する方法が検討されて
いる。このような従来技術として特開平5−73100
号公報「音声合成方式及びその装置」(以下、文献1と
する)が挙げられる。
【0008】図17は、文献1で示される手法に基づく
音声合成装置の一構成例(以下、第1の従来例)であ
る。1はテキスト、2は言語処理部、3は音素列、4は
アクセント情報、5は韻律生成部、6はピッチ周波数、
11は音声素片データベース、24はコードブック、1
0は素片読み出し部、7は音声素片、16はコードブッ
ク参照部、13は合成パラメータ、14は合成部、15
は合成音声である。
音声合成装置の一構成例(以下、第1の従来例)であ
る。1はテキスト、2は言語処理部、3は音素列、4は
アクセント情報、5は韻律生成部、6はピッチ周波数、
11は音声素片データベース、24はコードブック、1
0は素片読み出し部、7は音声素片、16はコードブッ
ク参照部、13は合成パラメータ、14は合成部、15
は合成音声である。
【0009】以下に、第1の従来例による音声合成装置
について説明する。言語処理部2は、入力されたテキス
ト1から読みを表す音素列3とアクセント情報4を得
る。素片読み出し部10は、音素列3にしたがって音声
素片7を音声素片データベース11から読み出す。読み
出された音声素片7は事前のベクトル量子化により得ら
れたものであり、波形系列またはスペクトル系列に対応
するコード列が記録されている。
について説明する。言語処理部2は、入力されたテキス
ト1から読みを表す音素列3とアクセント情報4を得
る。素片読み出し部10は、音素列3にしたがって音声
素片7を音声素片データベース11から読み出す。読み
出された音声素片7は事前のベクトル量子化により得ら
れたものであり、波形系列またはスペクトル系列に対応
するコード列が記録されている。
【0010】コードブック24は音声波形のスペクトル
データから既存のクラスタリング手法により分割された
パターン(コードベクトル)とコードの組からなる。コ
ードベクトルはスペクトル情報または元の波形情報のい
ずれでも構わない。コードブック参照部16では、先の
音声素片7におけるコード列からコードブック24を参
照して、スペクトル情報または波形情報からなる合成パ
ラメータ13を得る。韻律生成部5はアクセント情報4
を基に合成音声のピッチ6を規則により生成する。
データから既存のクラスタリング手法により分割された
パターン(コードベクトル)とコードの組からなる。コ
ードベクトルはスペクトル情報または元の波形情報のい
ずれでも構わない。コードブック参照部16では、先の
音声素片7におけるコード列からコードブック24を参
照して、スペクトル情報または波形情報からなる合成パ
ラメータ13を得る。韻律生成部5はアクセント情報4
を基に合成音声のピッチ6を規則により生成する。
【0011】合成部14は合成パラメータ13とピッチ
6から合成音声15を生成する。合成部14は、合成パ
ラメータ13がスペクトル情報ならデジタルフィルタに
よる合成手法、波形情報ならPSOLA手法に基づく。
6から合成音声15を生成する。合成部14は、合成パ
ラメータ13がスペクトル情報ならデジタルフィルタに
よる合成手法、波形情報ならPSOLA手法に基づく。
【0012】
【発明が解決しようとする課題】第1の従来技術ではボ
コーダー方式に比べて自然性の高い合成音声を得る事が
可能である。しかし、有声音声区間において同一フレー
ム内で同じピッチ波形が繰り返されることにより、合成
音の自然性が損なわれるという問題がある。これは単一
の波形の繰り返しにより、自然音声波形の持つゆらぎ成
分が失われ、合成音のブザー性が顕著となり不自然とな
るためである。このような問題点を解消する為に、音声
波形を定常的周期成分と、ゆらぎを含む非定常成分とに
分離し、別々に制御して合成音声波形を生成する手法も
提案されている。このような従来技術として特願平4−
358200号公報記載の「音声合成装置」(以下、文
献2とする)に開示されている技術がある。
コーダー方式に比べて自然性の高い合成音声を得る事が
可能である。しかし、有声音声区間において同一フレー
ム内で同じピッチ波形が繰り返されることにより、合成
音の自然性が損なわれるという問題がある。これは単一
の波形の繰り返しにより、自然音声波形の持つゆらぎ成
分が失われ、合成音のブザー性が顕著となり不自然とな
るためである。このような問題点を解消する為に、音声
波形を定常的周期成分と、ゆらぎを含む非定常成分とに
分離し、別々に制御して合成音声波形を生成する手法も
提案されている。このような従来技術として特願平4−
358200号公報記載の「音声合成装置」(以下、文
献2とする)に開示されている技術がある。
【0013】図18は、文献2で示される手法に基づく
音声合成装置の一構成例(以下、第2の従来例)であ
る。30は1ピッチ波形格納部、31はピッチ格納部、
32は非定常波形格納部、33は1ピッチ波形、6はピ
ッチ、34は非定常波形、35は移動加算部、36は定
常合成音声、37は単純加算部、15は合成音声であ
る。
音声合成装置の一構成例(以下、第2の従来例)であ
る。30は1ピッチ波形格納部、31はピッチ格納部、
32は非定常波形格納部、33は1ピッチ波形、6はピ
ッチ、34は非定常波形、35は移動加算部、36は定
常合成音声、37は単純加算部、15は合成音声であ
る。
【0014】以下に、第2の従来例による音声合成装置
について説明する。1ピッチ波形格納部30は自然音声
を帯域分割して得られた低域音声波形を1ピッチ毎に1
ピッチ波形33として格納する。非定常波形格納部32
は先の帯域分割で得られた高域音声波形を非定常波形3
4として記憶する。移動加算部35はピッチ格納部31
から求めたピッチ6間隔で1ピッチ波形33の移動加算
を行う。単純加算部37は移動加算部35で得られた定
常合成音声36と非定常波形格納部32から読み出した
非定常波形34を加算し、これを合成音声15として出
力する。
について説明する。1ピッチ波形格納部30は自然音声
を帯域分割して得られた低域音声波形を1ピッチ毎に1
ピッチ波形33として格納する。非定常波形格納部32
は先の帯域分割で得られた高域音声波形を非定常波形3
4として記憶する。移動加算部35はピッチ格納部31
から求めたピッチ6間隔で1ピッチ波形33の移動加算
を行う。単純加算部37は移動加算部35で得られた定
常合成音声36と非定常波形格納部32から読み出した
非定常波形34を加算し、これを合成音声15として出
力する。
【0015】第2の従来技術は音声波形のゆらぎ成分に
着目した波形利用による音声合成を目的としている。し
かし、ピッチに同期した波形処理を低周波数帯域でしか
行わない為に高品質の合成音が得られないという問題が
あり、更に波形情報を丸ごと保存する為に記憶容量が多
大になる。
着目した波形利用による音声合成を目的としている。し
かし、ピッチに同期した波形処理を低周波数帯域でしか
行わない為に高品質の合成音が得られないという問題が
あり、更に波形情報を丸ごと保存する為に記憶容量が多
大になる。
【0016】本発明の目的は、かかる問題を克服し、1
ピッチ波形を低周波成分と高周波成分に分離して制御す
ることで合成音の自然性に影響をおよぼすゆらぎ成分の
生成が可能となり、またコードブック利用の方式により
少ない記憶容量で高品質な合成音声が可能な音声合成装
置を提供することである。
ピッチ波形を低周波成分と高周波成分に分離して制御す
ることで合成音の自然性に影響をおよぼすゆらぎ成分の
生成が可能となり、またコードブック利用の方式により
少ない記憶容量で高品質な合成音声が可能な音声合成装
置を提供することである。
【0017】
【課題を解決するための手段】この発明に係る音声合成
装置は、音声素片を記憶する音声素片データベースと、
有声音波形を低周波成分と高周波成分に分離した時の低
周波成分波形のベクトル量子化コードブックである低周
波成分コードブックと、有声音波形を低周波成分と高周
波成分に分離した時の高周波成分波形のベクトル量子化
コードブックである高周波成分コードブックと、入力さ
れたテキストから音素列およびアクセント情報を得る言
語処理部と、音素列にしたがって音声素片を音声素片デ
ータベースから読み出す素片読み出し部と、素片読み出
し部の読み出した音声素片に基づいて、低周波成分コー
ドブック及び高周波成分コードブックの各々から低周波
成分波形及び高周波成分波形を選択するコードブック参
照部と、選択された低周波成分波形と高周波成分波形と
を加算し合成パラメータを得る加算部と、アクセント情
報にしたがってピッチ周波数を生成する韻律生成部と、
合成パラメータとピッチ周波数とに基づいて合成音声を
生成する合成部とを備えている。
装置は、音声素片を記憶する音声素片データベースと、
有声音波形を低周波成分と高周波成分に分離した時の低
周波成分波形のベクトル量子化コードブックである低周
波成分コードブックと、有声音波形を低周波成分と高周
波成分に分離した時の高周波成分波形のベクトル量子化
コードブックである高周波成分コードブックと、入力さ
れたテキストから音素列およびアクセント情報を得る言
語処理部と、音素列にしたがって音声素片を音声素片デ
ータベースから読み出す素片読み出し部と、素片読み出
し部の読み出した音声素片に基づいて、低周波成分コー
ドブック及び高周波成分コードブックの各々から低周波
成分波形及び高周波成分波形を選択するコードブック参
照部と、選択された低周波成分波形と高周波成分波形と
を加算し合成パラメータを得る加算部と、アクセント情
報にしたがってピッチ周波数を生成する韻律生成部と、
合成パラメータとピッチ周波数とに基づいて合成音声を
生成する合成部とを備えている。
【0018】また、コードブック参照部は、高周波成分
コードブックから1ピッチ毎に異なる高周波成分波形を
選択する。
コードブックから1ピッチ毎に異なる高周波成分波形を
選択する。
【0019】また、加算部は、低周波成分波形を時間軸
に配置する際、基準位置に対して、高周波成分波形の配
置位置を1ピッチ毎に変化させて、低周波成分波形と高
周波成分波形とを加算する移動加算部である。
に配置する際、基準位置に対して、高周波成分波形の配
置位置を1ピッチ毎に変化させて、低周波成分波形と高
周波成分波形とを加算する移動加算部である。
【0020】また、加算部は、低周波成分波形の基準位
置に対する高周波成分波形の配置位置の平均変化幅を、
入力ピッチまたはパワーに応じて変化させて、低周波成
分波形と高周波成分波形とを加算する韻律制御移動加算
部である。
置に対する高周波成分波形の配置位置の平均変化幅を、
入力ピッチまたはパワーに応じて変化させて、低周波成
分波形と高周波成分波形とを加算する韻律制御移動加算
部である。
【0021】また、加算部は、加算される低周波成分波
形と高周波成分波形の振幅比率を、1ピッチ毎に変化さ
せ、低周波成分波形と高周波成分波形とを加算する振幅
比率制御加算部である。
形と高周波成分波形の振幅比率を、1ピッチ毎に変化さ
せ、低周波成分波形と高周波成分波形とを加算する振幅
比率制御加算部である。
【0022】また、加算部は、低周波成分波形と高周波
成分波形の振幅比率を、入力ピッチまたはパワーに応じ
て変化させ、低周波成分波形と高周波成分波形とを加算
する振幅比率ピッチ制御移動加算部である。
成分波形の振幅比率を、入力ピッチまたはパワーに応じ
て変化させ、低周波成分波形と高周波成分波形とを加算
する振幅比率ピッチ制御移動加算部である。
【0023】また、この発明に係る他の音声合成装置
は、音声素片およびコードブック出現頻度を記憶する頻
度情報付き音声素片データベースと、有声音波形ベクト
ル量子化コードブックであるコードブックと、入力され
たテキストから音素列およびアクセント情報を得る言語
処理部と、頻度情報付き音声素片データベースに記載さ
れている音声素片を出現頻度と共に読み出す素片読み出
し部と、音声素片に対して、出現頻度に応じてコードブ
ックを参照し、合成パラメータを得るコードブック参照
部と、アクセント情報にしたがってピッチ周波数を生成
する韻律生成部と、合成パラメータとピッチ周波数とに
基づいて合成音声を生成する合成部とを備えている。
は、音声素片およびコードブック出現頻度を記憶する頻
度情報付き音声素片データベースと、有声音波形ベクト
ル量子化コードブックであるコードブックと、入力され
たテキストから音素列およびアクセント情報を得る言語
処理部と、頻度情報付き音声素片データベースに記載さ
れている音声素片を出現頻度と共に読み出す素片読み出
し部と、音声素片に対して、出現頻度に応じてコードブ
ックを参照し、合成パラメータを得るコードブック参照
部と、アクセント情報にしたがってピッチ周波数を生成
する韻律生成部と、合成パラメータとピッチ周波数とに
基づいて合成音声を生成する合成部とを備えている。
【0024】また、コードブック参照部は、音声素片に
記載される出現頻度からコードベクトルの出現比率を求
め、音声素片に記述されたコードの中で出現比率の上位
から複数個を選んでコードブックを参照し、読み出され
て得た各波形を出現比率に応じた重み付けをして加算
し、合成パラメータを得るコードブック参照部である。
記載される出現頻度からコードベクトルの出現比率を求
め、音声素片に記述されたコードの中で出現比率の上位
から複数個を選んでコードブックを参照し、読み出され
て得た各波形を出現比率に応じた重み付けをして加算
し、合成パラメータを得るコードブック参照部である。
【0025】また、コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、頻度情報付き音
声素片データベースは、音声素片と共に低周波コードベ
クトルの出現頻度および高周波コードベクトルの出現頻
度を記憶し、 コードブック参照部は、音声素片に記載
される出現頻度から低周波コードベクトルおよび高周波
コードベクトルの出現比率を求め、音声素片に記述され
たコードの内で出現比率の上位から複数個を選んで低周
波コードブックおよび高周波コードブックを参照し、読
み出されて得た各波形を出現比率に応じた重み付けをし
て加算し、合成パラメータを得るコードブック参照部で
ある。
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、頻度情報付き音
声素片データベースは、音声素片と共に低周波コードベ
クトルの出現頻度および高周波コードベクトルの出現頻
度を記憶し、 コードブック参照部は、音声素片に記載
される出現頻度から低周波コードベクトルおよび高周波
コードベクトルの出現比率を求め、音声素片に記述され
たコードの内で出現比率の上位から複数個を選んで低周
波コードブックおよび高周波コードブックを参照し、読
み出されて得た各波形を出現比率に応じた重み付けをし
て加算し、合成パラメータを得るコードブック参照部で
ある。
【0026】また、この発明に係る他の音声合成装置
は、音声素片列をコードブックのコードベクトル線形和
表現で記憶した線形和表現音声素片データベースと、有
声音波形ベクトル量子化コードブックであるコードブッ
クと、入力されたテキストから音素列およびアクセント
情報を得る言語処理部と、音素列にしたがって音声素片
列を線形和表現音声素片データベースから読み出す素片
読み出し部と、音声素片列に対して、線形和表現音声素
片データベースに記憶されている係数とコードブックを
参照して得た波形から線形和を求め、合成パラメータを
得るコードブック参照部と、アクセント情報にしたがっ
てピッチ周波数を生成する韻律生成部と、合成パラメー
タとピッチ周波数とに基づいて合成音声を生成する合成
部とを備えている。
は、音声素片列をコードブックのコードベクトル線形和
表現で記憶した線形和表現音声素片データベースと、有
声音波形ベクトル量子化コードブックであるコードブッ
クと、入力されたテキストから音素列およびアクセント
情報を得る言語処理部と、音素列にしたがって音声素片
列を線形和表現音声素片データベースから読み出す素片
読み出し部と、音声素片列に対して、線形和表現音声素
片データベースに記憶されている係数とコードブックを
参照して得た波形から線形和を求め、合成パラメータを
得るコードブック参照部と、アクセント情報にしたがっ
てピッチ周波数を生成する韻律生成部と、合成パラメー
タとピッチ周波数とに基づいて合成音声を生成する合成
部とを備えている。
【0027】また、乱数を発生する乱数発生器をさらに
有し、コードブック参照部は、線形和表現音声素片デー
タベースに記憶されている係数に乱数発生器による乱数
を加算し、係数とコードブックを参照して得た波形から
線形和を求め、合成パラメータを得る乱数利用コードブ
ック参照部である。
有し、コードブック参照部は、線形和表現音声素片デー
タベースに記憶されている係数に乱数発生器による乱数
を加算し、係数とコードブックを参照して得た波形から
線形和を求め、合成パラメータを得る乱数利用コードブ
ック参照部である。
【0028】また、コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、線形和表現音声
素片データベースは、音声素片列を低周波成分コードブ
ックおよび高周波成分コードブックのコードベクトル線
形和表現で記憶し、コードブック参照部は、線形和表現
音声素片データベースに記憶されている係数と低周波成
分コードブックおよび高周波成分コードブックを参照し
て得た波形から線形和を求め合成パラメータを得る。
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、線形和表現音声
素片データベースは、音声素片列を低周波成分コードブ
ックおよび高周波成分コードブックのコードベクトル線
形和表現で記憶し、コードブック参照部は、線形和表現
音声素片データベースに記憶されている係数と低周波成
分コードブックおよび高周波成分コードブックを参照し
て得た波形から線形和を求め合成パラメータを得る。
【0029】また、コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、乱数利用コード
ブック参照部は、線形和表現音声素片データベースに記
憶されている係数に乱数発生器による乱数を加算し、係
数と低周波成分コードブックおよび高周波成分コードブ
ックを参照して得た波形から線形和を求め合成パラメー
タを得る。
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、乱数利用コード
ブック参照部は、線形和表現音声素片データベースに記
憶されている係数に乱数発生器による乱数を加算し、係
数と低周波成分コードブックおよび高周波成分コードブ
ックを参照して得た波形から線形和を求め合成パラメー
タを得る。
【0030】さらに、コードブックは、有声音波形を低
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、同じく、有声音波形を低周波成分と高周波成分
に分離した時の高周波成分波形のベクトル量子化コード
ブックである高周波成分コードブックとからなり、乱数
利用コードブック参照部は、線形和表現音声素片データ
ベースに記憶されている高周波成分コードの係数に乱数
発生器による乱数を加算し、係数と低周波成分コードブ
ックおよび高周波成分コードブックを参照して得た波形
から線形和を求め合成パラメータを得る。
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、同じく、有声音波形を低周波成分と高周波成分
に分離した時の高周波成分波形のベクトル量子化コード
ブックである高周波成分コードブックとからなり、乱数
利用コードブック参照部は、線形和表現音声素片データ
ベースに記憶されている高周波成分コードの係数に乱数
発生器による乱数を加算し、係数と低周波成分コードブ
ックおよび高周波成分コードブックを参照して得た波形
から線形和を求め合成パラメータを得る。
【0031】
【発明の実施の形態】実施の形態1.図1はこの発明の
音声合成装置を示すブロック図である。図において、1
はテキスト、2は言語処理部、3は音素列、4はアクセ
ント情報、5は韻律生成部、6はピッチ周波数、11は
音声素片データベース、8は低周波成分コードブック、
9は高周波成分コードブック、10は素片読み出し部、
7は音声素片、12はコードブック参照部および加算部
としてのコードブック参照加算部、13は合成パラメー
タ、14は合成部、15は合成音声である。
音声合成装置を示すブロック図である。図において、1
はテキスト、2は言語処理部、3は音素列、4はアクセ
ント情報、5は韻律生成部、6はピッチ周波数、11は
音声素片データベース、8は低周波成分コードブック、
9は高周波成分コードブック、10は素片読み出し部、
7は音声素片、12はコードブック参照部および加算部
としてのコードブック参照加算部、13は合成パラメー
タ、14は合成部、15は合成音声である。
【0032】次ぎに動作について説明する。言語処理部
2は、入力されたテキスト1から読みを表す音素列3と
アクセント情報4を出力する。素片読み出し部10は、
音素列3にしたがって音声素片7を音声素片データベー
ス11から読み出す。読み出された音声素片7はVCV
(母音−子音−母音)またCV(子音−母音)などの単
位からなり、事前のベクトル量子化により得られたもの
であり、低周波成分波形系列と高周波成分波形系列のそ
れぞれに対応するコード列が記録されている。音声素片
の作成方法は後に説明する。
2は、入力されたテキスト1から読みを表す音素列3と
アクセント情報4を出力する。素片読み出し部10は、
音素列3にしたがって音声素片7を音声素片データベー
ス11から読み出す。読み出された音声素片7はVCV
(母音−子音−母音)またCV(子音−母音)などの単
位からなり、事前のベクトル量子化により得られたもの
であり、低周波成分波形系列と高周波成分波形系列のそ
れぞれに対応するコード列が記録されている。音声素片
の作成方法は後に説明する。
【0033】低周波成分コードブック8は、低周波成分
音声波形のスペクトルデータから既存のクラスタリング
手法により分割されたパターン(コードベクトル)とコ
ードの組からなる。一方、高周波成分コードブック9
は、高周波成分音声波形のスペクトルデータから同様の
手法で得た分割されたパターン(コードベクトル)とコ
ードの組からなる。低周波成分コードブック8および高
周波成分コードブック9の各コードベクトルには、1ピ
ッチ長の音声波形を利用する。コードブックの作成方法
は後程説明する。コードブック参照加算部12では、先
の音声素片7におけるコード列から低周波成分コードブ
ック8および高周波成分コードブック9を参照して、1
ピッチ分の低周波成分波形および高周波成分波形を抽出
する。ここでの参照および選択方法は後程説明する。
音声波形のスペクトルデータから既存のクラスタリング
手法により分割されたパターン(コードベクトル)とコ
ードの組からなる。一方、高周波成分コードブック9
は、高周波成分音声波形のスペクトルデータから同様の
手法で得た分割されたパターン(コードベクトル)とコ
ードの組からなる。低周波成分コードブック8および高
周波成分コードブック9の各コードベクトルには、1ピ
ッチ長の音声波形を利用する。コードブックの作成方法
は後程説明する。コードブック参照加算部12では、先
の音声素片7におけるコード列から低周波成分コードブ
ック8および高周波成分コードブック9を参照して、1
ピッチ分の低周波成分波形および高周波成分波形を抽出
する。ここでの参照および選択方法は後程説明する。
【0034】そして低周波成分波形と高周波成分波形と
を加算し、1ピッチ分の波形情報からなる合成パラメー
タ13を得る。韻律生成部5は、アクセント情報4を基
に合成音声のピッチ6を韻律規則により生成する。合成
部14は合成パラメータ13とピッチ6からPSOLA
方式に基づき合成音声15を生成する。
を加算し、1ピッチ分の波形情報からなる合成パラメー
タ13を得る。韻律生成部5は、アクセント情報4を基
に合成音声のピッチ6を韻律規則により生成する。合成
部14は合成パラメータ13とピッチ6からPSOLA
方式に基づき合成音声15を生成する。
【0035】ここで、低周波成分コードブック8および
高周波成分コードブック9と、音声素片データベース1
1の作成方法について説明する。まず、有声区間音声を
1ピッチ長分切り出す。次ぎに1ピッチ波形について、
ある帯域分割周波数により、高周波成分波形と低周波成
分波形とに分離する。例えば8[kHz]サンプリング
の音声データである場合、3[kHz]による帯域制限
を行うローパスフィルターおよびハイパスフィルターを
作成し、これに前述の1ピッチ波形を通すことで低周波
成分波形と高周波成分波形とに分離する。そして、低周
波成分波形、高周波成分波形それぞれを収集し、クラス
タリング手法により低周波成分コードブック8、高周波
成分コードブック9を作成する。コードブックサイズに
ついては低周波成分コードブック8と高周波成分コード
ブック9とも同じ値、例えば250ずつとする。
高周波成分コードブック9と、音声素片データベース1
1の作成方法について説明する。まず、有声区間音声を
1ピッチ長分切り出す。次ぎに1ピッチ波形について、
ある帯域分割周波数により、高周波成分波形と低周波成
分波形とに分離する。例えば8[kHz]サンプリング
の音声データである場合、3[kHz]による帯域制限
を行うローパスフィルターおよびハイパスフィルターを
作成し、これに前述の1ピッチ波形を通すことで低周波
成分波形と高周波成分波形とに分離する。そして、低周
波成分波形、高周波成分波形それぞれを収集し、クラス
タリング手法により低周波成分コードブック8、高周波
成分コードブック9を作成する。コードブックサイズに
ついては低周波成分コードブック8と高周波成分コード
ブック9とも同じ値、例えば250ずつとする。
【0036】又、これらのコードブックを用いた、ベク
トル量子化による音声素片データベース11の作成方法
も説明する。ベクトル量子化は低周波成分と高周波成分
について別々に行い、各音素列毎に得られたコード列を
フレーム単位で記述していく。ここで、低周波成分につ
いてはフレーム毎に代表波形1ピッチ分のみについての
ベクトル量子化を行うが、高周波成分についてはフレー
ム内の全てのピッチ波形についてベクトル量子化を行
い、得られたコード列をすべてフレーム毎に記述する。
このようにして、1つの音声素片は図2のようになる。
トル量子化による音声素片データベース11の作成方法
も説明する。ベクトル量子化は低周波成分と高周波成分
について別々に行い、各音素列毎に得られたコード列を
フレーム単位で記述していく。ここで、低周波成分につ
いてはフレーム毎に代表波形1ピッチ分のみについての
ベクトル量子化を行うが、高周波成分についてはフレー
ム内の全てのピッチ波形についてベクトル量子化を行
い、得られたコード列をすべてフレーム毎に記述する。
このようにして、1つの音声素片は図2のようになる。
【0037】また、コードブック参照加算部12での1
ピッチ毎の素片選択は、以下のように行う。まず音声素
片データベース11の1フレーム毎の低周波成分コード
は1つだけなので、そのコードに対応する波形を低周波
成分コードブック8から選択する。次ぎに高周波成分波
形についてはコードが複数存在する場合には、フレーム
の先頭から1ピッチ毎にコードを選び、それに対応する
波形を高周波波形コードブック9から選択する。
ピッチ毎の素片選択は、以下のように行う。まず音声素
片データベース11の1フレーム毎の低周波成分コード
は1つだけなので、そのコードに対応する波形を低周波
成分コードブック8から選択する。次ぎに高周波成分波
形についてはコードが複数存在する場合には、フレーム
の先頭から1ピッチ毎にコードを選び、それに対応する
波形を高周波波形コードブック9から選択する。
【0038】図2を用いて説明すれば、音声素片/a/
において第1フレーム内の最初のピッチ区間について
は、高周波成分コードの201を選択し、次のピッチ区
間は2、その次ぎは201に戻る。そして第2フレーム
からは102、513、512の順で選択する。1ピッ
チ毎の低周波成分波形と高周波成分波形との和を1ピッ
チ波形とする。すなわち、この方法により同一フレーム
内でも高周波成分のみが異なるピッチ波形の生成が可能
となる。
において第1フレーム内の最初のピッチ区間について
は、高周波成分コードの201を選択し、次のピッチ区
間は2、その次ぎは201に戻る。そして第2フレーム
からは102、513、512の順で選択する。1ピッ
チ毎の低周波成分波形と高周波成分波形との和を1ピッ
チ波形とする。すなわち、この方法により同一フレーム
内でも高周波成分のみが異なるピッチ波形の生成が可能
となる。
【0039】本実施の形態によれば、このような構成を
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式においてゆらぎ成分の生成を可能とし、よ
り自然性の高い合成音声の提供が可能となる。
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式においてゆらぎ成分の生成を可能とし、よ
り自然性の高い合成音声の提供が可能となる。
【0040】実施の形態2.図3はこの発明の音声合成
装置の他の例を示すブロック図である。なお、上述実施
の形態1と同様の構成要素およびデータについては、同
じ符号を付けて説明を省略する。本実施の形態における
音声合成装置は、実施の形態1と同様の言語処理部2、
韻律生成部5、素片読み出し部10、音声素片データベ
ース11、低周波成分コードブック8、高周波成分コー
ドブック9および合成部14に加えて、コードブック参
照部16、移動加算部19を具備した構成を有してい
る。
装置の他の例を示すブロック図である。なお、上述実施
の形態1と同様の構成要素およびデータについては、同
じ符号を付けて説明を省略する。本実施の形態における
音声合成装置は、実施の形態1と同様の言語処理部2、
韻律生成部5、素片読み出し部10、音声素片データベ
ース11、低周波成分コードブック8、高周波成分コー
ドブック9および合成部14に加えて、コードブック参
照部16、移動加算部19を具備した構成を有してい
る。
【0041】コードブック参照部16は、入力される音
声素片7におけるコード列から低周波成分コードブック
8および高周波成分コードブック9を参照して1ピッチ
単位の低周波成分波形17および高周波成分波形18を
抽出する。移動加算部19は、低周波成分波形17の基
準位置に対して、高周波成分波形18を加算する位置を
1回ごとにずらして加算し、それを1ピッチ波形情報か
らなる合成パラメータ13として出力する。
声素片7におけるコード列から低周波成分コードブック
8および高周波成分コードブック9を参照して1ピッチ
単位の低周波成分波形17および高周波成分波形18を
抽出する。移動加算部19は、低周波成分波形17の基
準位置に対して、高周波成分波形18を加算する位置を
1回ごとにずらして加算し、それを1ピッチ波形情報か
らなる合成パラメータ13として出力する。
【0042】次ぎに動作について説明する。言語処理部
2は、入力されたテキスト1から読みを表す音素列3と
アクセント情報4を得る。素片読み出し部10は、音素
列3にしたがって音声素片7を音声素片データベース1
1から読み出す。読み出された音声素片7はVCVまた
CVなどの単位からなり、事前のベクトル量子化により
得られたものであり、低周波成分波形系列と高周波成分
波形系列のそれぞれに対応するコード列が記録されてい
る。ただし、各フレームとも低周波コードと高周波コー
ドは一つずつとする。すなわちベクトル量子化はフレー
ム同期で、フレーム中の代表波形1つに対して行う。
2は、入力されたテキスト1から読みを表す音素列3と
アクセント情報4を得る。素片読み出し部10は、音素
列3にしたがって音声素片7を音声素片データベース1
1から読み出す。読み出された音声素片7はVCVまた
CVなどの単位からなり、事前のベクトル量子化により
得られたものであり、低周波成分波形系列と高周波成分
波形系列のそれぞれに対応するコード列が記録されてい
る。ただし、各フレームとも低周波コードと高周波コー
ドは一つずつとする。すなわちベクトル量子化はフレー
ム同期で、フレーム中の代表波形1つに対して行う。
【0043】低周波成分コードブック8と高周波成分コ
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。移動加算部19では前記低周波成分波形17と前記
高周波成分波形18とを加算し、波形情報からなる合成
パラメータ13を得る。加算方法は後に説明する。
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。移動加算部19では前記低周波成分波形17と前記
高周波成分波形18とを加算し、波形情報からなる合成
パラメータ13を得る。加算方法は後に説明する。
【0044】韻律生成部5はアクセント情報4を基に合
成音声のピッチ6を韻律規則により生成する。合成部1
4は合成パラメータ13とピッチ6からPSOLA方式
に基づき合成音声15を生成する。
成音声のピッチ6を韻律規則により生成する。合成部1
4は合成パラメータ13とピッチ6からPSOLA方式
に基づき合成音声15を生成する。
【0045】ここで、コードブック参照部16と移動加
算部19の動作について説明する。まず音声素片データ
ベースの1フレーム毎の低周波成分コードに対応する波
形を低周波成分コードブックから選択する。次ぎに高周
波成分波形についても同じくコードが単一となり、それ
に対応する波形を高周波成分コードブックから選択す
る。
算部19の動作について説明する。まず音声素片データ
ベースの1フレーム毎の低周波成分コードに対応する波
形を低周波成分コードブックから選択する。次ぎに高周
波成分波形についても同じくコードが単一となり、それ
に対応する波形を高周波成分コードブックから選択す
る。
【0046】加算方式を図4を用いて説明すれば、1ピ
ッチ長の低周波成分波形はピッチ同期の基準位置に、ピ
ッチ間隔で配置される。これは図においては上の波形が
ピッチ周期(T1,T2,T3)間隔で配置されること
で示される。それに対して、1ピッチ長の高周波成分波
形は先の基準位置に対して数サンプルずれた位置にピッ
チ同期で配置する。例えばフレームの1番目の高周波成
分波形は基準位置+t1、2番目のピッチ波形は基準位
置+t2、3番目の波形は−t3となっている。こうし
て1フレーム分の波形を得る。すなわち、この方法によ
り同一フレーム内でも高周波成分の配置の相違により、
ピッチ波形間に波形ゆらぎを生成することが可能とな
る。
ッチ長の低周波成分波形はピッチ同期の基準位置に、ピ
ッチ間隔で配置される。これは図においては上の波形が
ピッチ周期(T1,T2,T3)間隔で配置されること
で示される。それに対して、1ピッチ長の高周波成分波
形は先の基準位置に対して数サンプルずれた位置にピッ
チ同期で配置する。例えばフレームの1番目の高周波成
分波形は基準位置+t1、2番目のピッチ波形は基準位
置+t2、3番目の波形は−t3となっている。こうし
て1フレーム分の波形を得る。すなわち、この方法によ
り同一フレーム内でも高周波成分の配置の相違により、
ピッチ波形間に波形ゆらぎを生成することが可能とな
る。
【0047】本実施の形態によれば、このような構成を
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式において、より自然性の高い合成音声の提
供が可能となる。
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式において、より自然性の高い合成音声の提
供が可能となる。
【0048】実施の形態3.図5はこの発明の音声合成
装置の他の例を示すブロック図である。なお、上述実施
の形態1および実施の形態2と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、音声素片データベース11、低周波成分コードブッ
ク8、高周波成分コードブック9および合成部14、実
施の形態2と同様のコードブック参照部16に加えて、
韻律制御移動加算部20を具備した構成を有している。
韻律制御移動加算部20は、低周波成分波形17の基準
位置に対して、高周波成分波形18を加算する位置の、
韻律生成部5で得たピッチ6に応じて平均変動幅を変え
て、1回ごとにずらして加算し、それを1ピッチ波形情
報からなる合成パラメータ13として出力する。
装置の他の例を示すブロック図である。なお、上述実施
の形態1および実施の形態2と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、音声素片データベース11、低周波成分コードブッ
ク8、高周波成分コードブック9および合成部14、実
施の形態2と同様のコードブック参照部16に加えて、
韻律制御移動加算部20を具備した構成を有している。
韻律制御移動加算部20は、低周波成分波形17の基準
位置に対して、高周波成分波形18を加算する位置の、
韻律生成部5で得たピッチ6に応じて平均変動幅を変え
て、1回ごとにずらして加算し、それを1ピッチ波形情
報からなる合成パラメータ13として出力する。
【0049】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって音声素片7を音声素片データベース11か
ら読み出す。読み出された音声素片7はVCVまたCV
などの単位からなり、事前のベクトル量子化により得ら
れたものであり、低周波成分波形系列と高周波成分波形
系列のそれぞれに対応するコード列が記録されている。
ただし、各フレームとも低周波コードと高周波コードは
一つずつとする。すなわちベクトル量子化はフレーム同
期で、フレーム中の代表波形1つに対して行う。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって音声素片7を音声素片データベース11か
ら読み出す。読み出された音声素片7はVCVまたCV
などの単位からなり、事前のベクトル量子化により得ら
れたものであり、低周波成分波形系列と高周波成分波形
系列のそれぞれに対応するコード列が記録されている。
ただし、各フレームとも低周波コードと高周波コードは
一つずつとする。すなわちベクトル量子化はフレーム同
期で、フレーム中の代表波形1つに対して行う。
【0050】低周波成分コードブック8と高周波成分コ
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。韻律制御移動加算部20では前記低周波成分波形1
7と前記高周波成分波形18との加算位置の平均変化幅
をピッチ6により制御して加算し、1ピッチ波形情報か
らなる合成パラメータ13を得る。加算方法は後に説明
する。合成部14は合成パラメータ13とピッチ6から
PSOLA方式に基づき合成音声15を生成する。
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。韻律制御移動加算部20では前記低周波成分波形1
7と前記高周波成分波形18との加算位置の平均変化幅
をピッチ6により制御して加算し、1ピッチ波形情報か
らなる合成パラメータ13を得る。加算方法は後に説明
する。合成部14は合成パラメータ13とピッチ6から
PSOLA方式に基づき合成音声15を生成する。
【0051】ここで、韻律制御移動加算部20の動作に
ついて説明する。まず音声素片データベースの1フレー
ム毎の低周波成分コードに対応する波形を低周波波形コ
ードブック8から選択する。次ぎに高周波成分波形につ
いても同じくコードが単一となり、それに対応する波形
を高周波成分コードブック9から選択する。そして、1
ピッチ長の低周波成分波形の基準位置に対する図4にお
ける高周波成分波形の配置位置を、韻律生成部5で生成
したピッチ6により制御する。例えば、ピッチ6の値を
α[Hz]とした時に、基準位置と高周波成分波形配置
位置との変化幅を1/α倍する。これは、低ピッチの音
声波形ほど波形ゆらぎが大きいという知見に基づくもの
である。
ついて説明する。まず音声素片データベースの1フレー
ム毎の低周波成分コードに対応する波形を低周波波形コ
ードブック8から選択する。次ぎに高周波成分波形につ
いても同じくコードが単一となり、それに対応する波形
を高周波成分コードブック9から選択する。そして、1
ピッチ長の低周波成分波形の基準位置に対する図4にお
ける高周波成分波形の配置位置を、韻律生成部5で生成
したピッチ6により制御する。例えば、ピッチ6の値を
α[Hz]とした時に、基準位置と高周波成分波形配置
位置との変化幅を1/α倍する。これは、低ピッチの音
声波形ほど波形ゆらぎが大きいという知見に基づくもの
である。
【0052】加算方式を図4を用いて説明すれば、1ピ
ッチ長の低周波成分波形はピッチ同期の基準位置に、ピ
ッチ間隔で配置される。それに対して、1ピッチ長の高
周波成分波形は先の基準位置に対して数サンプルずれた
位置にピッチ同期で配置する。平均変化幅をkとした場
合、例えばフレーム1、2、3番目の高周波成分波形の
基準位置からのずれt1,t2,t3はそれぞれk/α
に比例した値となる。こうして1ピッチ分の波形を得
る。すなわち、この方法により同一フレーム内でも高周
波成分の配置の相違により、ピッチ波形間に波形ゆらぎ
を生成することが可能となる。
ッチ長の低周波成分波形はピッチ同期の基準位置に、ピ
ッチ間隔で配置される。それに対して、1ピッチ長の高
周波成分波形は先の基準位置に対して数サンプルずれた
位置にピッチ同期で配置する。平均変化幅をkとした場
合、例えばフレーム1、2、3番目の高周波成分波形の
基準位置からのずれt1,t2,t3はそれぞれk/α
に比例した値となる。こうして1ピッチ分の波形を得
る。すなわち、この方法により同一フレーム内でも高周
波成分の配置の相違により、ピッチ波形間に波形ゆらぎ
を生成することが可能となる。
【0053】本実施の形態によれば、このような構成を
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式においてゆらぎ成分の生成を可能とし、な
お且つゆらぎの変動量を相関性の高いピッチによって制
御することで、より自然性の高い合成音声の提供が可能
となる。
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式においてゆらぎ成分の生成を可能とし、な
お且つゆらぎの変動量を相関性の高いピッチによって制
御することで、より自然性の高い合成音声の提供が可能
となる。
【0054】実施の形態4.図6はこの発明の音声合成
装置の他の例を示すブロック図である。なお、上述実施
の形態1および実施の形態2と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、音声素片データベース11、低周波成分コードブッ
ク8、高周波成分コードブック9および合成部14、実
施の形態2と同様のコードブック参照部16に加えて、
振幅制御波形加算部21を具備した構成を有している。
振幅比率制御加算部21は、低周波成分波形17と高周
波成分波形18の振幅の加算比率を変えて加算し、それ
を1ピッチ波形情報からなる合成パラメータ13として
出力する。
装置の他の例を示すブロック図である。なお、上述実施
の形態1および実施の形態2と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、音声素片データベース11、低周波成分コードブッ
ク8、高周波成分コードブック9および合成部14、実
施の形態2と同様のコードブック参照部16に加えて、
振幅制御波形加算部21を具備した構成を有している。
振幅比率制御加算部21は、低周波成分波形17と高周
波成分波形18の振幅の加算比率を変えて加算し、それ
を1ピッチ波形情報からなる合成パラメータ13として
出力する。
【0055】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって音声素片7を音声素片データベース11か
ら読み出す。読み出された音声素片7はVCVまたCV
などの単位からなり、事前のベクトル量子化により得ら
れたものであり、低周波成分波形系列と高周波成分波形
系列のそれぞれに対応するコード列が記録されている。
ただし、各フレームとも低周波コードと高周波コードは
一つずつとする。すなわちベクトル量子化はフレーム同
期で、フレーム中の代表波形1つに対して行う。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって音声素片7を音声素片データベース11か
ら読み出す。読み出された音声素片7はVCVまたCV
などの単位からなり、事前のベクトル量子化により得ら
れたものであり、低周波成分波形系列と高周波成分波形
系列のそれぞれに対応するコード列が記録されている。
ただし、各フレームとも低周波コードと高周波コードは
一つずつとする。すなわちベクトル量子化はフレーム同
期で、フレーム中の代表波形1つに対して行う。
【0056】低周波成分コードブック8と高周波成分コ
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。振幅比率制御加算部21では前記低周波成分波形1
7と前記高周波成分波形18とを、それらの振幅比率を
1ピッチ毎に変更して加算し、1ピッチ波形情報からな
る合成パラメータ13を得る。合成部14は合成パラメ
ータ13とピッチ6からPSOLA方式に基づき合成音
声15を生成する。
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。振幅比率制御加算部21では前記低周波成分波形1
7と前記高周波成分波形18とを、それらの振幅比率を
1ピッチ毎に変更して加算し、1ピッチ波形情報からな
る合成パラメータ13を得る。合成部14は合成パラメ
ータ13とピッチ6からPSOLA方式に基づき合成音
声15を生成する。
【0057】本実施の形態によれば、このような構成を
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式において高周波成分波形と低周波成分波形
の振幅比率を1ピッチ毎に変更することによりゆらぎの
制御を行うことで、より自然性の高い合成音声の提供が
可能となる。
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式において高周波成分波形と低周波成分波形
の振幅比率を1ピッチ毎に変更することによりゆらぎの
制御を行うことで、より自然性の高い合成音声の提供が
可能となる。
【0058】実施の形態5.図7はこの発明の音声合成
装置の他の例を示すブロック図である。なお、上述実施
の形態1および実施の形態2と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、音声素片データベース11、低周波成分コードブッ
ク8、高周波成分コードブック9および合成部14、実
施の形態2と同様のコードブック参照部16に加えて、
振幅比率ピッチ制御加算部22を具備した構成を有して
いる。振幅比率ピッチ制御加算部22は、低周波成分波
形17と高周波成分波形18の振幅の加算比率を、韻律
生成部5で得たピッチ6に応じて変えて加算し、それを
1ピッチ波形情報からなる合成パラメータ13として出
力する。
装置の他の例を示すブロック図である。なお、上述実施
の形態1および実施の形態2と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、音声素片データベース11、低周波成分コードブッ
ク8、高周波成分コードブック9および合成部14、実
施の形態2と同様のコードブック参照部16に加えて、
振幅比率ピッチ制御加算部22を具備した構成を有して
いる。振幅比率ピッチ制御加算部22は、低周波成分波
形17と高周波成分波形18の振幅の加算比率を、韻律
生成部5で得たピッチ6に応じて変えて加算し、それを
1ピッチ波形情報からなる合成パラメータ13として出
力する。
【0059】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって音声素片7を音声素片データベース11か
ら読み出す。読み出された音声素片7はVCVまたCV
などの単位からなり、事前のベクトル量子化により得ら
れたものであり、低周波成分波形系列と高周波成分波形
系列のそれぞれに対応するコード列が記録されている。
ただし、各フレームとも低周波コードと高周波コードは
一つずつとする。すなわちベクトル量子化はフレーム同
期で、フレーム中の代表波形1つに対して行う。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって音声素片7を音声素片データベース11か
ら読み出す。読み出された音声素片7はVCVまたCV
などの単位からなり、事前のベクトル量子化により得ら
れたものであり、低周波成分波形系列と高周波成分波形
系列のそれぞれに対応するコード列が記録されている。
ただし、各フレームとも低周波コードと高周波コードは
一つずつとする。すなわちベクトル量子化はフレーム同
期で、フレーム中の代表波形1つに対して行う。
【0060】低周波成分コードブック8と高周波成分コ
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。振幅比率ピッチ制御加算部22では前記低周波成分
波形17と前記高周波成分波形18とを、それらの振幅
比率をピッチ6により制御して加算し、1ピッチ波形情
報からなる合成パラメータ13を得る。加算方法は後に
説明する。合成部14は合成パラメータ13とピッチ6
からPSOLA方式に基づき合成音声15を生成する。
ードブック9の構成および作成法は実施の形態1と同じ
とする。コードブック参照部16では、先の音声素片7
におけるコード列から低周波成分コードブック8および
高周波成分コードブック9を参照して、1ピッチ分の低
周波成分波形17および高周波成分波形18を抽出す
る。振幅比率ピッチ制御加算部22では前記低周波成分
波形17と前記高周波成分波形18とを、それらの振幅
比率をピッチ6により制御して加算し、1ピッチ波形情
報からなる合成パラメータ13を得る。加算方法は後に
説明する。合成部14は合成パラメータ13とピッチ6
からPSOLA方式に基づき合成音声15を生成する。
【0061】ここで、振幅比率ピッチ制御加算部22の
動作について説明する。まず選択された1ピッチ長の高
周波成分波形の振幅比率をβ(0<β<1)とし、低周
波波形をxl、高周波成分波形をxhとした場合に、
(1)式で示される波形の重みづけ加算を行う。 (1−β)・xl + β・xh (1) この時、ピッチ6の値とβと関係は反比例となるように
設定する。これは、低ピッチの音声波形ほど波形ゆらぎ
が大きいという知見に基づくものであり、その為に高周
波成分の比率を上げるものである。こうして1ピッチ分
の波形を得る。すなわち、この方法によりピッチの値に
よって波形ゆらぎの制御が可能となる。
動作について説明する。まず選択された1ピッチ長の高
周波成分波形の振幅比率をβ(0<β<1)とし、低周
波波形をxl、高周波成分波形をxhとした場合に、
(1)式で示される波形の重みづけ加算を行う。 (1−β)・xl + β・xh (1) この時、ピッチ6の値とβと関係は反比例となるように
設定する。これは、低ピッチの音声波形ほど波形ゆらぎ
が大きいという知見に基づくものであり、その為に高周
波成分の比率を上げるものである。こうして1ピッチ分
の波形を得る。すなわち、この方法によりピッチの値に
よって波形ゆらぎの制御が可能となる。
【0062】本実施の形態によれば、このような構成を
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式において振幅比率をゆらぎと相関性の高い
ピッチによって制御することで、より自然性の高い合成
音声の提供が可能となる。
とることにより、ゆらぎの大きい高周波成分と低周波成
分とを別々に制御することができ、ピッチ同期の波形利
用の合成方式において振幅比率をゆらぎと相関性の高い
ピッチによって制御することで、より自然性の高い合成
音声の提供が可能となる。
【0063】実施の形態6.図8はこの発明の音声合成
装置の他の例を示すブロック図である。なお、上述実施
の形態1および従来例1と同様の構成要素およびデータ
については、同じ符号を付けて説明を省略する。本実施
の形態における音声合成装置は、実施の形態1と同様の
言語処理部2、韻律生成部5および合成部14、従来例
1と同様のコードブック参照部16およびコードブック
24に加えて、頻度情報付き音声素片データベース23
および素片読み出し部10を具備した構成を有してい
る。頻度情報付き音声素片データベース23は、事前の
ベクトル量子化の際に記述されたコードブックのコード
とのその出現頻度の系列からなる。素片読み出し部10
は、音素列3におけるコードの頻度から音声素片7に記
述するコード列を決定する。
装置の他の例を示すブロック図である。なお、上述実施
の形態1および従来例1と同様の構成要素およびデータ
については、同じ符号を付けて説明を省略する。本実施
の形態における音声合成装置は、実施の形態1と同様の
言語処理部2、韻律生成部5および合成部14、従来例
1と同様のコードブック参照部16およびコードブック
24に加えて、頻度情報付き音声素片データベース23
および素片読み出し部10を具備した構成を有してい
る。頻度情報付き音声素片データベース23は、事前の
ベクトル量子化の際に記述されたコードブックのコード
とのその出現頻度の系列からなる。素片読み出し部10
は、音素列3におけるコードの頻度から音声素片7に記
述するコード列を決定する。
【0064】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって頻度情報付き音声素片データベース23を
参照する。頻度情報付き音声素片データベース23は図
9に示されるような構造となっており、音素列3に対応
する頻度情報付き音声素片の系列を読み出す。頻度情報
は元となる音声データベース中の全音素系列と、コード
ブックとの間で1ピッチ波形のベクトル量子化を行い、
同一音素系列中でコードブック中のコードベクトルが選
択される回数を記録することにより実現する。図9の例
では、音声素片/a/の第1フレームにおいて、コード
101の出現頻度数が30、コード100が15、コー
ド54が5となっている。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって頻度情報付き音声素片データベース23を
参照する。頻度情報付き音声素片データベース23は図
9に示されるような構造となっており、音素列3に対応
する頻度情報付き音声素片の系列を読み出す。頻度情報
は元となる音声データベース中の全音素系列と、コード
ブックとの間で1ピッチ波形のベクトル量子化を行い、
同一音素系列中でコードブック中のコードベクトルが選
択される回数を記録することにより実現する。図9の例
では、音声素片/a/の第1フレームにおいて、コード
101の出現頻度数が30、コード100が15、コー
ド54が5となっている。
【0065】次ぎに素片読み出し部10の中で、音声素
片における各フレーム毎のコードを一意に決定し、それ
を音声素片7として出力する。決定方法としては、フレ
ーム毎のコード出現頻度からコード出現率を求め、その
率が閾値を越すコードが複数存在すれば、1ピッチ毎に
コードを変更するように記述する。
片における各フレーム毎のコードを一意に決定し、それ
を音声素片7として出力する。決定方法としては、フレ
ーム毎のコード出現頻度からコード出現率を求め、その
率が閾値を越すコードが複数存在すれば、1ピッチ毎に
コードを変更するように記述する。
【0066】コードブック参照部16では、先の音声素
片7におけるコード列からコードブック24を参照し
て、波形情報からなる合成パラメータ13を得る。韻律
生成部5はアクセント情報4を基に合成音声のピッチ6
を韻律規則により生成する。合成部14は合成パラメー
タ13とピッチ6からPSOLA方式に基づき合成音声
15を生成する。
片7におけるコード列からコードブック24を参照し
て、波形情報からなる合成パラメータ13を得る。韻律
生成部5はアクセント情報4を基に合成音声のピッチ6
を韻律規則により生成する。合成部14は合成パラメー
タ13とピッチ6からPSOLA方式に基づき合成音声
15を生成する。
【0067】本実施の形態によれば、このような構成を
とることにより、ピッチ同期の波形利用の合成方式にお
いて、コードブックの出現頻度を考慮した音声素片を用
意することにより、フレーム毎単一コードの音声素片に
比べ、より多様な波形合成を可能とし、より自然性の高
い合成音声の提供が可能となる。
とることにより、ピッチ同期の波形利用の合成方式にお
いて、コードブックの出現頻度を考慮した音声素片を用
意することにより、フレーム毎単一コードの音声素片に
比べ、より多様な波形合成を可能とし、より自然性の高
い合成音声の提供が可能となる。
【0068】実施の形態7.図10はこの発明の音声合
成装置の他の例を示すブロック図である。なお、上述実
施の形態1および実施の形態6と同様の構成要素および
データについては、同じ符号を付けて説明を省略する。
本実施の形態における音声合成装置は、実施の形態1と
同様の言語処理部2、韻律生成部5および合成部14、
実施の形態6と同様のコードブック参照部16、コード
ブック24および頻度情報付き音声素片データベース2
3に加えて、素片読み出し重み付け選択部25を具備し
た構成を有している。素片読み出し重み付け選択部25
は、音素列3におけるコードの頻度から重み係数を決定
し、音声素片7に記述されたコード列をその重み付けと
共に出力する。
成装置の他の例を示すブロック図である。なお、上述実
施の形態1および実施の形態6と同様の構成要素および
データについては、同じ符号を付けて説明を省略する。
本実施の形態における音声合成装置は、実施の形態1と
同様の言語処理部2、韻律生成部5および合成部14、
実施の形態6と同様のコードブック参照部16、コード
ブック24および頻度情報付き音声素片データベース2
3に加えて、素片読み出し重み付け選択部25を具備し
た構成を有している。素片読み出し重み付け選択部25
は、音素列3におけるコードの頻度から重み係数を決定
し、音声素片7に記述されたコード列をその重み付けと
共に出力する。
【0069】次ぎに動作について説明する。言語処理部
2は、入力されたテキスト1から読みを表す音素列3と
アクセント情報4を得る。素片読み出し重み付け選択部
25は音素列3にしたがって頻度情報付き音声素片デー
タベース23を参照する。頻度情報付き音声素片データ
ベース23は構成は実施の形態6と同様とする。素片読
み出し重み付け選択部25の中で、音声素片における各
フレーム毎のコードを全て選択する。そして各コードの
出現頻度から判定される出現率を重み係数とし、各コー
ドに乗する。そして、それを音声素片7として出力す
る。
2は、入力されたテキスト1から読みを表す音素列3と
アクセント情報4を得る。素片読み出し重み付け選択部
25は音素列3にしたがって頻度情報付き音声素片デー
タベース23を参照する。頻度情報付き音声素片データ
ベース23は構成は実施の形態6と同様とする。素片読
み出し重み付け選択部25の中で、音声素片における各
フレーム毎のコードを全て選択する。そして各コードの
出現頻度から判定される出現率を重み係数とし、各コー
ドに乗する。そして、それを音声素片7として出力す
る。
【0070】コードブック参照部16では、先の音声素
片7におけるコード列からコードブック24を参照し、
複数のピッチ波形に出現率から求められた重み係数を乗
じて加算する。こうして求められた1ピッチ長の波形情
報からなる合成パラメータ13を得る。韻律生成部5は
アクセント情報4を基に合成音声のピッチ6を韻律規則
により生成する。合成部14は合成パラメータ13とピ
ッチ6からPSOLA方式に基づき合成音声15を生成
する。
片7におけるコード列からコードブック24を参照し、
複数のピッチ波形に出現率から求められた重み係数を乗
じて加算する。こうして求められた1ピッチ長の波形情
報からなる合成パラメータ13を得る。韻律生成部5は
アクセント情報4を基に合成音声のピッチ6を韻律規則
により生成する。合成部14は合成パラメータ13とピ
ッチ6からPSOLA方式に基づき合成音声15を生成
する。
【0071】本実施の形態によれば、このような構成を
とることにより、出現頻度を考慮した素片選択および重
みづけ加算をすることでフレーム毎単一コードの音声素
片に比べ、より詳細な波形合成を可能とし、より自然性
の高い合成音声の提供が可能となる。
とることにより、出現頻度を考慮した素片選択および重
みづけ加算をすることでフレーム毎単一コードの音声素
片に比べ、より詳細な波形合成を可能とし、より自然性
の高い合成音声の提供が可能となる。
【0072】実施の形態8.図11はこの発明の音声合
成装置の他の例を示すブロック図である。なお、上述実
施の形態1、実施の形態6および実施の形態7と同様の
構成要素およびデータについては、同じ符号を付けて説
明を省略する。本実施の形態における音声合成装置は、
実施の形態1と同様の言語処理部2、韻律生成部5、低
周波成分コードブック8、高周波成分コードブック9お
よび合成部14、実施の形態6と同様のコードブック参
照部16、コードブック24および頻度情報付き音声素
片データベース23に加えて、素片読み出し重み付け選
択部25を具備した構成を有している。素片読み出し重
み付け選択部25は、音素列3における低周波成分およ
び高周波成分のコードの頻度から重み係数を決定し、音
声素片7に記述されたコード列をその重み付けと共に出
力する。
成装置の他の例を示すブロック図である。なお、上述実
施の形態1、実施の形態6および実施の形態7と同様の
構成要素およびデータについては、同じ符号を付けて説
明を省略する。本実施の形態における音声合成装置は、
実施の形態1と同様の言語処理部2、韻律生成部5、低
周波成分コードブック8、高周波成分コードブック9お
よび合成部14、実施の形態6と同様のコードブック参
照部16、コードブック24および頻度情報付き音声素
片データベース23に加えて、素片読み出し重み付け選
択部25を具備した構成を有している。素片読み出し重
み付け選択部25は、音素列3における低周波成分およ
び高周波成分のコードの頻度から重み係数を決定し、音
声素片7に記述されたコード列をその重み付けと共に出
力する。
【0073】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し重み付け選択部2
5は音素列3にしたがって頻度情報付き音声素片データ
ベース23を参照する。頻度情報付き音声素片データベ
ース23は構成は実施の形態6と同様とする。素片読み
出し重み付け選択部25の中で、音声素片における各フ
レーム毎のコードを全て選択する。そして各コードの出
現頻度から判定される出現率を重み係数とし、各コード
に乗する。そして、それを音声素片7として出力する。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し重み付け選択部2
5は音素列3にしたがって頻度情報付き音声素片データ
ベース23を参照する。頻度情報付き音声素片データベ
ース23は構成は実施の形態6と同様とする。素片読み
出し重み付け選択部25の中で、音声素片における各フ
レーム毎のコードを全て選択する。そして各コードの出
現頻度から判定される出現率を重み係数とし、各コード
に乗する。そして、それを音声素片7として出力する。
【0074】コードブック参照部16では、先の音声素
片7におけるコード列から低周波成分コードブック8お
よび高周波成分コードブック9を参照し、複数の1ピッ
チ長の低周波成分波形および高周波成分波形に出現率か
ら求められた重み係数を乗じて加算する。こうして求め
られた1ピッチ長の波形情報からなる合成パラメータ1
3を得る。韻律生成部5はアクセント情報4を基に合成
音声のピッチ6を韻律規則により生成する。合成部14
は合成パラメータ13とピッチ6からPSOLA方式に
基づき合成音声15を生成する。
片7におけるコード列から低周波成分コードブック8お
よび高周波成分コードブック9を参照し、複数の1ピッ
チ長の低周波成分波形および高周波成分波形に出現率か
ら求められた重み係数を乗じて加算する。こうして求め
られた1ピッチ長の波形情報からなる合成パラメータ1
3を得る。韻律生成部5はアクセント情報4を基に合成
音声のピッチ6を韻律規則により生成する。合成部14
は合成パラメータ13とピッチ6からPSOLA方式に
基づき合成音声15を生成する。
【0075】本実施の形態によれば、このような構成を
とることにより、出現頻度を考慮した素片選択および重
みづけ加算をすることでフレーム毎単一コードの音声素
片に比べ、より詳細で、低周波成分と高周波成分とを分
離することでゆらぎを考慮した波形合成を可能とし、よ
り自然性の高い合成音声の提供が可能となる。
とることにより、出現頻度を考慮した素片選択および重
みづけ加算をすることでフレーム毎単一コードの音声素
片に比べ、より詳細で、低周波成分と高周波成分とを分
離することでゆらぎを考慮した波形合成を可能とし、よ
り自然性の高い合成音声の提供が可能となる。
【0076】実施の形態9.図12はこの発明の音声合
成装置の他の例を示すブロック図である。なお、上述実
施の形態1および従来例1と同様の構成要素およびデー
タについては、同じ符号を付けて説明を省略する。本実
施の形態における音声合成装置は、実施の形態1と同様
の言語処理部2、韻律生成部5、素片読み出し部10お
よび合成部14、従来例1と同様のコードブック24に
加えて、線形和表現音声素片データベース26およびコ
ードブック参照部16を具備した構成を有している。線
形和表現音声素片データベース26は、事前のベクトル
量子化の際に記述されたコードブックのコードを線形和
で表現した系列からなる。コードブック参照部16は音
声素片7に記述されているコード列からコードブック2
4のコードベクトルを参照し、コードベクトルの線形和
を合成パラメータ13として出力する。
成装置の他の例を示すブロック図である。なお、上述実
施の形態1および従来例1と同様の構成要素およびデー
タについては、同じ符号を付けて説明を省略する。本実
施の形態における音声合成装置は、実施の形態1と同様
の言語処理部2、韻律生成部5、素片読み出し部10お
よび合成部14、従来例1と同様のコードブック24に
加えて、線形和表現音声素片データベース26およびコ
ードブック参照部16を具備した構成を有している。線
形和表現音声素片データベース26は、事前のベクトル
量子化の際に記述されたコードブックのコードを線形和
で表現した系列からなる。コードブック参照部16は音
声素片7に記述されているコード列からコードブック2
4のコードベクトルを参照し、コードベクトルの線形和
を合成パラメータ13として出力する。
【0077】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26は図15
に示されるような構造となっており、音素列3に対応す
る線形和表現形式の音声素片の系列を読み出す。線形和
表現は音声素片データベースについて、コードブック中
の2つのコードベクトルX,Yにより、(αX+βY)
が量子化歪み最小となるような1ピッチ波形のベクトル
量子化を行い、2つのコードと係数α、βを記録するこ
とにより実現する。図15では音声素片/a/の第1フ
レームはXに対応するコードが101、Yに対応するコ
ードが100であり、係数αおよびβはそれぞれ0.
6、0.4となる。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26は図15
に示されるような構造となっており、音素列3に対応す
る線形和表現形式の音声素片の系列を読み出す。線形和
表現は音声素片データベースについて、コードブック中
の2つのコードベクトルX,Yにより、(αX+βY)
が量子化歪み最小となるような1ピッチ波形のベクトル
量子化を行い、2つのコードと係数α、βを記録するこ
とにより実現する。図15では音声素片/a/の第1フ
レームはXに対応するコードが101、Yに対応するコ
ードが100であり、係数αおよびβはそれぞれ0.
6、0.4となる。
【0078】コードブック参照部16では、先の音声素
片7におけるコード列からコードブック24を参照し
て、2つのコードベクトルX,Yを読みだし、先の係数
を用いて、(αX+βY)という重み付けをした1ピッ
チ波形を求め、これを合成パラメータ13として得る。
韻律生成部5はアクセント情報4を基に合成音声のピッ
チ6を韻律規則により生成する。合成部14は合成パラ
メータ13とピッチ6からPSOLA方式に基づき合成
音声15を生成する。
片7におけるコード列からコードブック24を参照し
て、2つのコードベクトルX,Yを読みだし、先の係数
を用いて、(αX+βY)という重み付けをした1ピッ
チ波形を求め、これを合成パラメータ13として得る。
韻律生成部5はアクセント情報4を基に合成音声のピッ
チ6を韻律規則により生成する。合成部14は合成パラ
メータ13とピッチ6からPSOLA方式に基づき合成
音声15を生成する。
【0079】本実施例によれば、このような構成をとる
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、より自然性の高い合成
音声の提供が可能となる。
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、より自然性の高い合成
音声の提供が可能となる。
【0080】実施の形態10.図13はこの発明の音声
合成装置の他の例を示すブロック図である。なお、上述
実施の形態1および実施の形態9と同様の構成要素およ
びデータについては、同じ符号を付けて説明を省略す
る。本実施の形態における音声合成装置は、実施の形態
1と同様の言語処理部2、韻律生成部5、素片読み出し
部10および合成部14、実施の形態9と同様のコード
ブック24、線形和表現音声素片データベース26に加
えて乱数発生器27、乱数利用コードブック参照部29
を具備した構成を有している。乱数利用コードブック参
照部29は音声素片7に記述された係数に、乱数発生器
27で発生させた乱数28を加算し、合成パラメータを
作成する。
合成装置の他の例を示すブロック図である。なお、上述
実施の形態1および実施の形態9と同様の構成要素およ
びデータについては、同じ符号を付けて説明を省略す
る。本実施の形態における音声合成装置は、実施の形態
1と同様の言語処理部2、韻律生成部5、素片読み出し
部10および合成部14、実施の形態9と同様のコード
ブック24、線形和表現音声素片データベース26に加
えて乱数発生器27、乱数利用コードブック参照部29
を具備した構成を有している。乱数利用コードブック参
照部29は音声素片7に記述された係数に、乱数発生器
27で発生させた乱数28を加算し、合成パラメータを
作成する。
【0081】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26の構成は
実施の形態9と同様とする。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26の構成は
実施の形態9と同様とする。
【0082】乱数利用コードブック参照部29では、先
の音声素片7におけるコード列からコードブック24を
参照して、2つのコードベクトルX,Yを読みだす。そ
して乱数発生器27で発生させた乱数28を音声素片7
に記述された係数α、βに加算し、新たな係数α’、
β’とし、(α’X+β’Y)という重み付けをした1
ピッチ波形を求め、これを合成パラメータ13として得
る。韻律生成部5はアクセント情報4を基に合成音声の
ピッチ6を韻律規則により生成する。合成部14は合成
パラメータ13とピッチ6からPSOLA方式に基づき
合成音声15を生成する。
の音声素片7におけるコード列からコードブック24を
参照して、2つのコードベクトルX,Yを読みだす。そ
して乱数発生器27で発生させた乱数28を音声素片7
に記述された係数α、βに加算し、新たな係数α’、
β’とし、(α’X+β’Y)という重み付けをした1
ピッチ波形を求め、これを合成パラメータ13として得
る。韻律生成部5はアクセント情報4を基に合成音声の
ピッチ6を韻律規則により生成する。合成部14は合成
パラメータ13とピッチ6からPSOLA方式に基づき
合成音声15を生成する。
【0083】本実施例によれば、このような構成をとる
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、さらに乱数を利用する
ことでゆらぎの影響を取り入れた、より自然性の高い合
成音声の提供が可能となる。
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、さらに乱数を利用する
ことでゆらぎの影響を取り入れた、より自然性の高い合
成音声の提供が可能となる。
【0084】実施の形態11.図14はこの発明の音声
合成装置の他の例を示すブロック図である。なお、上述
実施の形態1および従来例1と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、低周波成分コードブック8、高周波成分コードブッ
ク9および合成部14、実施の形態9と同様の線形和表
現音声素片データベース26およびコードブック参照部
16を具備した構成を有している。頻度情報付き音声素
片データベース23は、事前のベクトル量子化の際に記
述された低周波成分波形、高周波成分波形のそれぞれの
コードブックのコードを線形和で表現した系列からな
る。コードブック参照部16は音声素片7に記述されて
いるコード列から低周波波形コードブック8および高周
波成分コードブック9のコードベクトルを参照し、コー
ドベクトルの線形和を合成パラメータ13として出力す
る。
合成装置の他の例を示すブロック図である。なお、上述
実施の形態1および従来例1と同様の構成要素およびデ
ータについては、同じ符号を付けて説明を省略する。本
実施の形態における音声合成装置は、実施の形態1と同
様の言語処理部2、韻律生成部5、素片読み出し部1
0、低周波成分コードブック8、高周波成分コードブッ
ク9および合成部14、実施の形態9と同様の線形和表
現音声素片データベース26およびコードブック参照部
16を具備した構成を有している。頻度情報付き音声素
片データベース23は、事前のベクトル量子化の際に記
述された低周波成分波形、高周波成分波形のそれぞれの
コードブックのコードを線形和で表現した系列からな
る。コードブック参照部16は音声素片7に記述されて
いるコード列から低周波波形コードブック8および高周
波成分コードブック9のコードベクトルを参照し、コー
ドベクトルの線形和を合成パラメータ13として出力す
る。
【0085】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26は図15
に示されるような構造を低周波成分波形と高周波成分波
形の両方についてとる。コードブック参照部16では、
先の音声素片7におけるコード列から低周波波形コード
ブック8および高周波成分コードブック8を参照し、
(αX+βY)という重み付け形式で1ピッチ長の低周
波成分波形と高周波成分波形を求め、これを合成パラメ
ータ13として得る。韻律生成部5はアクセント情報4
を基に合成音声のピッチ6を韻律規則により生成する。
合成部14は合成パラメータ13とピッチ6からPSO
LA方式に基づき合成音声15を生成する。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26は図15
に示されるような構造を低周波成分波形と高周波成分波
形の両方についてとる。コードブック参照部16では、
先の音声素片7におけるコード列から低周波波形コード
ブック8および高周波成分コードブック8を参照し、
(αX+βY)という重み付け形式で1ピッチ長の低周
波成分波形と高周波成分波形を求め、これを合成パラメ
ータ13として得る。韻律生成部5はアクセント情報4
を基に合成音声のピッチ6を韻律規則により生成する。
合成部14は合成パラメータ13とピッチ6からPSO
LA方式に基づき合成音声15を生成する。
【0086】本実施例によれば、このような構成をとる
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、低周波成分と高周波成
分とを分離することでゆらぎを考慮した波形合成を可能
とし、より自然性の高い合成音声の提供が可能となる。
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、低周波成分と高周波成
分とを分離することでゆらぎを考慮した波形合成を可能
とし、より自然性の高い合成音声の提供が可能となる。
【0087】実施の形態12.図16はこの発明の音声
合成装置の他の例を示すブロック図である。なお、上述
実施の形態1、10、11と同様の構成要素およびデー
タについては、同じ符号を付けて説明を省略する。本実
施の形態における音声合成装置は、実施の形態1と同様
の言語処理部2、韻律生成部5、素片読み出し部10お
よび合成部14、低周波成分コードブック8、高周波成
分コードブック9、実施の形態9における線形和表現音
声素片データベース26および実施の形態10における
乱数利用コードブック参照部29および乱数発生器27
を具備した構成を有している。乱数利用コードブック参
照部29は音声素片7に記述されているコード列から低
周波成分コードブック8および高周波成分コードブック
9のコードベクトルを参照し、音声素片7に記述された
係数に、乱数発生器27で発生させた乱数28を加算
し、線形和を合成パラメータ13として出力する。
合成装置の他の例を示すブロック図である。なお、上述
実施の形態1、10、11と同様の構成要素およびデー
タについては、同じ符号を付けて説明を省略する。本実
施の形態における音声合成装置は、実施の形態1と同様
の言語処理部2、韻律生成部5、素片読み出し部10お
よび合成部14、低周波成分コードブック8、高周波成
分コードブック9、実施の形態9における線形和表現音
声素片データベース26および実施の形態10における
乱数利用コードブック参照部29および乱数発生器27
を具備した構成を有している。乱数利用コードブック参
照部29は音声素片7に記述されているコード列から低
周波成分コードブック8および高周波成分コードブック
9のコードベクトルを参照し、音声素片7に記述された
係数に、乱数発生器27で発生させた乱数28を加算
し、線形和を合成パラメータ13として出力する。
【0088】次ぎに動作について説明する。言語処理部
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26は図15
に示されるような構造を低周波成分と高周波成分の両方
についてとる。乱数利用コードブック参照部29では、
先の音声素片7におけるコード列から低周波成分コード
ブック8および高周波成分コードブック8を参照して、
両コードブックから2つのコードベクトルを読みだす。
そして乱数発生器27で発生させた乱数28を音声素片
7に記述された係数α、βに加算し、新たな係数α’、
β’とし、(α’X+β’Y)という重み付け形式で1
ピッチ長の低周波成分波形と高周波成分波形を求め、こ
れを合成パラメータ13として得る。韻律生成部5はア
クセント情報4を基に合成音声のピッチ6を韻律規則に
より生成する。合成部14は合成パラメータ13とピッ
チ6からPSOLA方式に基づき合成音声15を生成す
る。
2は入力されたテキスト1から読みを表す音素列3とア
クセント情報4を得る。素片読み出し部10は音素列3
にしたがって線形和表現音声素片データベース26を参
照する。線形和表現音声素片データベース26は図15
に示されるような構造を低周波成分と高周波成分の両方
についてとる。乱数利用コードブック参照部29では、
先の音声素片7におけるコード列から低周波成分コード
ブック8および高周波成分コードブック8を参照して、
両コードブックから2つのコードベクトルを読みだす。
そして乱数発生器27で発生させた乱数28を音声素片
7に記述された係数α、βに加算し、新たな係数α’、
β’とし、(α’X+β’Y)という重み付け形式で1
ピッチ長の低周波成分波形と高周波成分波形を求め、こ
れを合成パラメータ13として得る。韻律生成部5はア
クセント情報4を基に合成音声のピッチ6を韻律規則に
より生成する。合成部14は合成パラメータ13とピッ
チ6からPSOLA方式に基づき合成音声15を生成す
る。
【0089】本実施例によれば、このような構成をとる
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、低周波成分と高周波成
分とを分離し、さらに乱数を利用することでゆらぎの影
響を取り入れた、より自然性の高い合成音声の提供が可
能となる。
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、低周波成分と高周波成
分とを分離し、さらに乱数を利用することでゆらぎの影
響を取り入れた、より自然性の高い合成音声の提供が可
能となる。
【0090】実施の形態13.本実施の形態において
は、概略実施の形態12と同様の構成を成す。本実施の
形態の動作について説明する。言語処理部2は入力され
たテキスト1から読みを表す音素列3とアクセント情報
4を得る。素片読み出し部10は音素列3にしたがって
線形和表現音声素片データベース26を参照する。線形
和表現音声素片データベース26は図15に示されるよ
うな構造を低周波成分と高周波成分の両方についてと
る。乱数利用コードブック参照部29では、先の音声素
片7におけるコード列から低周波成分コードブック8お
よび高周波成分コードブック8を参照して、両コードブ
ックから2つのコードベクトルを読みだす。そして高周
波成分についての音声素片7の係数α、βについて乱数
発生器27で発生させた乱数28を加算して新たな係数
α’、β’とし、低周波成分については(αX+β
Y)、高周波成分については(α’X+β’Y)という
重み付け形式で1ピッチ長の低周波成分波形と高周波成
分波形を求め、これを合成パラメータ13として得る。
韻律生成部5はアクセント情報4を基に合成音声のピッ
チ6を韻律規則により生成する。合成部14は合成パラ
メータ13とピッチ6からPSOLA方式に基づき合成
音声15を生成する。
は、概略実施の形態12と同様の構成を成す。本実施の
形態の動作について説明する。言語処理部2は入力され
たテキスト1から読みを表す音素列3とアクセント情報
4を得る。素片読み出し部10は音素列3にしたがって
線形和表現音声素片データベース26を参照する。線形
和表現音声素片データベース26は図15に示されるよ
うな構造を低周波成分と高周波成分の両方についてと
る。乱数利用コードブック参照部29では、先の音声素
片7におけるコード列から低周波成分コードブック8お
よび高周波成分コードブック8を参照して、両コードブ
ックから2つのコードベクトルを読みだす。そして高周
波成分についての音声素片7の係数α、βについて乱数
発生器27で発生させた乱数28を加算して新たな係数
α’、β’とし、低周波成分については(αX+β
Y)、高周波成分については(α’X+β’Y)という
重み付け形式で1ピッチ長の低周波成分波形と高周波成
分波形を求め、これを合成パラメータ13として得る。
韻律生成部5はアクセント情報4を基に合成音声のピッ
チ6を韻律規則により生成する。合成部14は合成パラ
メータ13とピッチ6からPSOLA方式に基づき合成
音声15を生成する。
【0091】本実施例によれば、このような構成をとる
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、低周波成分と高周波成
分とを分離し、さらにゆらぎの影響が強い高周波成分に
ついて乱数を利用することで、より自然性の高い合成音
声の提供が可能となる。
ことにより、フレーム毎単一コードの音声素片に比べ、
より詳細な波形合成を可能とし、低周波成分と高周波成
分とを分離し、さらにゆらぎの影響が強い高周波成分に
ついて乱数を利用することで、より自然性の高い合成音
声の提供が可能となる。
【0092】尚、実施の形態1〜13における低周波成
分コードブック8および高周波成分コードブック9、ま
たはコードブック24は、1ピッチ長音声波形の代りに
それのスペクトル、又はLSP、メルケプストラムなど
のスペクトルパラメータをコードベクトルとすることも
でき、合成部14はボコーダー方式による音声合成を行
うことも可能である。
分コードブック8および高周波成分コードブック9、ま
たはコードブック24は、1ピッチ長音声波形の代りに
それのスペクトル、又はLSP、メルケプストラムなど
のスペクトルパラメータをコードベクトルとすることも
でき、合成部14はボコーダー方式による音声合成を行
うことも可能である。
【0093】また、実施の形態1〜5、8、11〜13
における低周波成分コードブック8および高周波成分コ
ードブック9は、コードブック作成時の帯域制限周波数
を固定とするのではなく、原音声のピッチ長に応じて可
変的変更することを可能とする。
における低周波成分コードブック8および高周波成分コ
ードブック9は、コードブック作成時の帯域制限周波数
を固定とするのではなく、原音声のピッチ長に応じて可
変的変更することを可能とする。
【0094】さらに、実施の形態1〜5、8、11〜1
3における低周波成分コードブック8および高周波成分
コードブック9は、コードブックサイズを同じくする必
要はなく、高周波成分コードブック9のサイズを低周波
成分コードブック8のそれより少なくするなど、異なる
ように構成してもよい。
3における低周波成分コードブック8および高周波成分
コードブック9は、コードブックサイズを同じくする必
要はなく、高周波成分コードブック9のサイズを低周波
成分コードブック8のそれより少なくするなど、異なる
ように構成してもよい。
【0095】さらにまた、実施の形態1〜5における高
周波成分コードブック9は、各コードベクトルが代表ピ
ッチとともに記録され、コードブック参照では代表ピッ
チが目標ピッチに最も近い高周波成分コードを選択する
こともできる。
周波成分コードブック9は、各コードベクトルが代表ピ
ッチとともに記録され、コードブック参照では代表ピッ
チが目標ピッチに最も近い高周波成分コードを選択する
こともできる。
【0096】また、実施の形態1〜5における素片読み
だし部10の読み出した高周波成分コードの決定は、同
じコードを続けて選択しないようランダムに行うことで
も実現可能である。
だし部10の読み出した高周波成分コードの決定は、同
じコードを続けて選択しないようランダムに行うことで
も実現可能である。
【0097】さらに、実施の形態1における音声素片デ
ータベース11は、作成の際に低周波成分についてもす
べてのフレーム内ピッチ波形についてベクトル量子化を
行い、得られたコード列をすべてフレーム毎に記述する
ことができ、素片読み出し部10は、高周波成分波形同
様に低周波成分波形を1ピッチ毎に選択することも可能
である。
ータベース11は、作成の際に低周波成分についてもす
べてのフレーム内ピッチ波形についてベクトル量子化を
行い、得られたコード列をすべてフレーム毎に記述する
ことができ、素片読み出し部10は、高周波成分波形同
様に低周波成分波形を1ピッチ毎に選択することも可能
である。
【0098】さらにまた、実施の形態1〜5における音
声素片データベース11は、高周波成分コードの記述は
行わず、別途、音韻種類とそれに対応づけられた高周波
成分コードとのマトリックスが含まれ、素片読み出し部
10は、入力された音韻によりマトリックスを検索し、
音韻対応コードの中でランダムに決定し、高周波成分コ
ードを決定することもできる。
声素片データベース11は、高周波成分コードの記述は
行わず、別途、音韻種類とそれに対応づけられた高周波
成分コードとのマトリックスが含まれ、素片読み出し部
10は、入力された音韻によりマトリックスを検索し、
音韻対応コードの中でランダムに決定し、高周波成分コ
ードを決定することもできる。
【0099】また、実施の形態1〜5における音声素片
データベース11は、高周波成分コードの記述は行わ
ず、別途、音韻種類および代表ピッチにより対応づけら
れた高周波成分コードとのマトリックスが含まれ、素片
読み出し部10は、入力された音韻と目標ピッチにより
マトリックスを検索し、高周波成分コードを決定するこ
ともできる。
データベース11は、高周波成分コードの記述は行わ
ず、別途、音韻種類および代表ピッチにより対応づけら
れた高周波成分コードとのマトリックスが含まれ、素片
読み出し部10は、入力された音韻と目標ピッチにより
マトリックスを検索し、高周波成分コードを決定するこ
ともできる。
【0100】さらに、実施の形態2〜5における音声素
片データベース11は、高周波コードの記述はフレーム
毎に複数個のコードとすることも可能であり、コードブ
ック参照部は1ピッチ別に別の高周波波形を選択するこ
ともできる。
片データベース11は、高周波コードの記述はフレーム
毎に複数個のコードとすることも可能であり、コードブ
ック参照部は1ピッチ別に別の高周波波形を選択するこ
ともできる。
【0101】さらにまた、実施の形態4における振幅比
率の変更としては、乱数発生器による制御が考えられ
る。
率の変更としては、乱数発生器による制御が考えられ
る。
【0102】また、実施の形態4における振幅比率制御
加算部21および実施の形態5における振幅比率ピッチ
制御加算部22は、振幅の加算比率を入力音声素片の音
韻種類により決定することも可能である。
加算部21および実施の形態5における振幅比率ピッチ
制御加算部22は、振幅の加算比率を入力音声素片の音
韻種類により決定することも可能である。
【0103】さらに、実施の形態3の韻律制御移動加算
部20は、ピッチ周波数6の代わりに韻律生成部5で韻
律規則により決定されるパワーにより決定することがで
きる。すなわち、パワーが小さいほど高周波成分波形の
加算位置の平均変動率が増加するように構成することが
できる。
部20は、ピッチ周波数6の代わりに韻律生成部5で韻
律規則により決定されるパワーにより決定することがで
きる。すなわち、パワーが小さいほど高周波成分波形の
加算位置の平均変動率が増加するように構成することが
できる。
【0104】さらにまた、実施の形態5の振幅比率ピッ
チ制御加算部22は、ピッチ周波数22の代わりに韻律
生成部5で韻律規則により決定されるパワーにより決定
することができる。すなわち、パワーが小さいほど高周
波波形成分の振幅比率が増加するように構成することが
できる。
チ制御加算部22は、ピッチ周波数22の代わりに韻律
生成部5で韻律規則により決定されるパワーにより決定
することができる。すなわち、パワーが小さいほど高周
波波形成分の振幅比率が増加するように構成することが
できる。
【0105】また、実施の形態6〜8における頻度情報
付き音声素片データベース23は、あるコードの出現頻
度が一定の閾値を下回る場合に、あるいはあるコードの
出現頻度が総出現頻度に対して一定値を下回る場合に、
そのコードを記述から除くこともできる。
付き音声素片データベース23は、あるコードの出現頻
度が一定の閾値を下回る場合に、あるいはあるコードの
出現頻度が総出現頻度に対して一定値を下回る場合に、
そのコードを記述から除くこともできる。
【0106】さらに、実施の形態9〜13における線形
和表現音声素片データベース26は、二項の和ではな
く、三項以上の和からなる線形式で表現するものを含む
こともできる。
和表現音声素片データベース26は、二項の和ではな
く、三項以上の和からなる線形式で表現するものを含む
こともできる。
【0107】
【発明の効果】この発明に係る音声合成装置は、音声素
片を記憶する音声素片データベースと、有声音波形を低
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、有声音波形を低周波成分と高周波成分に分離し
た時の高周波成分波形のベクトル量子化コードブックで
ある高周波成分コードブックと、入力されたテキストか
ら音素列およびアクセント情報を得る言語処理部と、音
素列にしたがって音声素片を音声素片データベースから
読み出す素片読み出し部と、素片読み出し部の読み出し
た音声素片に基づいて、低周波成分コードブック及び高
周波成分コードブックの各々から低周波成分波形及び高
周波成分波形を選択するコードブック参照部と、選択さ
れた低周波成分波形と高周波成分波形とを加算し合成パ
ラメータを得る加算部と、アクセント情報にしたがって
ピッチ周波数を生成する韻律生成部と、合成パラメータ
とピッチ周波数とに基づいて合成音声を生成する合成部
とを備えている。そのため、ピッチ同期の波形利用の合
成方式において、従来の波形コードブックを低周波成分
と高周波成分とに分離することにより、ゆらぎの大きい
高周波成分と低周波成分とを別々に制御することがで
き、より自然性の高い合成音声の提供が可能となる。
片を記憶する音声素片データベースと、有声音波形を低
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、有声音波形を低周波成分と高周波成分に分離し
た時の高周波成分波形のベクトル量子化コードブックで
ある高周波成分コードブックと、入力されたテキストか
ら音素列およびアクセント情報を得る言語処理部と、音
素列にしたがって音声素片を音声素片データベースから
読み出す素片読み出し部と、素片読み出し部の読み出し
た音声素片に基づいて、低周波成分コードブック及び高
周波成分コードブックの各々から低周波成分波形及び高
周波成分波形を選択するコードブック参照部と、選択さ
れた低周波成分波形と高周波成分波形とを加算し合成パ
ラメータを得る加算部と、アクセント情報にしたがって
ピッチ周波数を生成する韻律生成部と、合成パラメータ
とピッチ周波数とに基づいて合成音声を生成する合成部
とを備えている。そのため、ピッチ同期の波形利用の合
成方式において、従来の波形コードブックを低周波成分
と高周波成分とに分離することにより、ゆらぎの大きい
高周波成分と低周波成分とを別々に制御することがで
き、より自然性の高い合成音声の提供が可能となる。
【0108】また、コードブック参照部は、高周波成分
コードブックから1ピッチ毎に異なる高周波成分波形を
選択する。そのため、ピッチ同期の波形利用の合成方式
において、ピッチ区間毎に高周波成分の1ピッチ波形選
択を行うことでゆらぎ成分の生成を可能とし、より自然
性の高い合成音声の提供が可能となる。
コードブックから1ピッチ毎に異なる高周波成分波形を
選択する。そのため、ピッチ同期の波形利用の合成方式
において、ピッチ区間毎に高周波成分の1ピッチ波形選
択を行うことでゆらぎ成分の生成を可能とし、より自然
性の高い合成音声の提供が可能となる。
【0109】また、加算部は、低周波成分波形を時間軸
に配置する際、基準位置に対して、高周波成分波形の配
置位置を1ピッチ毎に変化させて、低周波成分波形と高
周波成分波形とを加算する移動加算部である。そのた
め、ピッチ同期の波形利用の合成方式において、ピッチ
区間毎に低周波成分波形に対する高周波成分波形の配置
位置を変動することにより、ゆらぎ成分の生成を可能と
し、より自然性の高い合成音声の提供が可能となる。
に配置する際、基準位置に対して、高周波成分波形の配
置位置を1ピッチ毎に変化させて、低周波成分波形と高
周波成分波形とを加算する移動加算部である。そのた
め、ピッチ同期の波形利用の合成方式において、ピッチ
区間毎に低周波成分波形に対する高周波成分波形の配置
位置を変動することにより、ゆらぎ成分の生成を可能と
し、より自然性の高い合成音声の提供が可能となる。
【0110】また、加算部は、低周波成分波形の基準位
置に対する高周波成分波形の配置位置の平均変化幅を、
入力ピッチまたはパワーに応じて変化させて、低周波成
分波形と高周波成分波形とを加算する韻律制御移動加算
部である。そのため、ピッチ同期の波形利用の合成方式
において、ピッチ区間毎に低周波成分波形に対する高周
波成分波形の配置位置を変動することにより、ゆらぎ成
分の生成を可能とし、その配置位置の変動量をゆらぎと
の相関性の高いピッチによって制御することで、より自
然性の高い合成音声の提供が可能となる。
置に対する高周波成分波形の配置位置の平均変化幅を、
入力ピッチまたはパワーに応じて変化させて、低周波成
分波形と高周波成分波形とを加算する韻律制御移動加算
部である。そのため、ピッチ同期の波形利用の合成方式
において、ピッチ区間毎に低周波成分波形に対する高周
波成分波形の配置位置を変動することにより、ゆらぎ成
分の生成を可能とし、その配置位置の変動量をゆらぎと
の相関性の高いピッチによって制御することで、より自
然性の高い合成音声の提供が可能となる。
【0111】また、加算部は、加算される低周波成分波
形と高周波成分波形の振幅比率を、1ピッチ毎に変化さ
せ、低周波成分波形と高周波成分波形とを加算する振幅
比率制御加算部である。そのため、ピッチ同期の波形利
用の合成方式において、高周波成分と低周波成分の振幅
比率を1ピッチ毎に変更することにより、ゆらぎの生成
を可能とし、より自然性の高い合成音声の提供が可能と
なる。
形と高周波成分波形の振幅比率を、1ピッチ毎に変化さ
せ、低周波成分波形と高周波成分波形とを加算する振幅
比率制御加算部である。そのため、ピッチ同期の波形利
用の合成方式において、高周波成分と低周波成分の振幅
比率を1ピッチ毎に変更することにより、ゆらぎの生成
を可能とし、より自然性の高い合成音声の提供が可能と
なる。
【0112】また、加算部は、低周波成分波形と高周波
成分波形の振幅比率を、入力ピッチまたはパワーに応じ
て変化させ、低周波成分波形と高周波成分波形とを加算
する振幅比率ピッチ制御移動加算部である。そのため、
ピッチ同期の波形利用の合成方式において、高周波成分
と低周波成分の振幅比率を1ピッチ毎に変更することに
より、ゆらぎの生成を可能とし、その振幅比率をゆらぎ
との相関性の高いピッチによって制御することで、より
自然性の高い合成音声の提供が可能となる。
成分波形の振幅比率を、入力ピッチまたはパワーに応じ
て変化させ、低周波成分波形と高周波成分波形とを加算
する振幅比率ピッチ制御移動加算部である。そのため、
ピッチ同期の波形利用の合成方式において、高周波成分
と低周波成分の振幅比率を1ピッチ毎に変更することに
より、ゆらぎの生成を可能とし、その振幅比率をゆらぎ
との相関性の高いピッチによって制御することで、より
自然性の高い合成音声の提供が可能となる。
【0113】また、この発明に係る他の音声合成装置
は、音声素片およびコードブック出現頻度を記憶する頻
度情報付き音声素片データベースと、有声音波形ベクト
ル量子化コードブックであるコードブックと、入力され
たテキストから音素列およびアクセント情報を得る言語
処理部と、頻度情報付き音声素片データベースに記載さ
れている音声素片を出現頻度と共に読み出す素片読み出
し部と、音声素片に対して、出現頻度に応じてコードブ
ックを参照し、合成パラメータを得るコードブック参照
部と、アクセント情報にしたがってピッチ周波数を生成
する韻律生成部と、合成パラメータとピッチ周波数とに
基づいて合成音声を生成する合成部とを備えている。そ
のため、ピッチ同期の波形利用の合成方式において、コ
ードブックの出現頻度を考慮した音声素片を用意するこ
とにより、フレーム毎単一コードの音声素片に比べ、よ
り多様な波形合成を可能とし、より自然性の高い合成音
声の提供が可能となる。
は、音声素片およびコードブック出現頻度を記憶する頻
度情報付き音声素片データベースと、有声音波形ベクト
ル量子化コードブックであるコードブックと、入力され
たテキストから音素列およびアクセント情報を得る言語
処理部と、頻度情報付き音声素片データベースに記載さ
れている音声素片を出現頻度と共に読み出す素片読み出
し部と、音声素片に対して、出現頻度に応じてコードブ
ックを参照し、合成パラメータを得るコードブック参照
部と、アクセント情報にしたがってピッチ周波数を生成
する韻律生成部と、合成パラメータとピッチ周波数とに
基づいて合成音声を生成する合成部とを備えている。そ
のため、ピッチ同期の波形利用の合成方式において、コ
ードブックの出現頻度を考慮した音声素片を用意するこ
とにより、フレーム毎単一コードの音声素片に比べ、よ
り多様な波形合成を可能とし、より自然性の高い合成音
声の提供が可能となる。
【0114】また、コードブック参照部は、音声素片に
記載される出現頻度からコードベクトルの出現比率を求
め、音声素片に記述されたコードの中で出現比率の上位
から複数個を選んでコードブックを参照し、読み出され
て得た各波形を出現比率に応じた重み付けをして加算
し、合成パラメータを得るコードブック参照部である。
そのため、ピッチ同期の波形利用の合成方式において、
コードブックの出現頻度を考慮した音声素片を用意し、
さらにその出現頻度に応じた1ピッチ波形の重みづけ加
算をすることで、フレーム毎単一コードの音声素片に比
べ、より詳細な波形合成を可能とし、より自然性の高い
合成音声の提供が可能となる。
記載される出現頻度からコードベクトルの出現比率を求
め、音声素片に記述されたコードの中で出現比率の上位
から複数個を選んでコードブックを参照し、読み出され
て得た各波形を出現比率に応じた重み付けをして加算
し、合成パラメータを得るコードブック参照部である。
そのため、ピッチ同期の波形利用の合成方式において、
コードブックの出現頻度を考慮した音声素片を用意し、
さらにその出現頻度に応じた1ピッチ波形の重みづけ加
算をすることで、フレーム毎単一コードの音声素片に比
べ、より詳細な波形合成を可能とし、より自然性の高い
合成音声の提供が可能となる。
【0115】また、コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、頻度情報付き音
声素片データベースは、音声素片と共に低周波コードベ
クトルの出現頻度および高周波コードベクトルの出現頻
度を記憶し、 コードブック参照部は、音声素片に記載
される出現頻度から低周波コードベクトルおよび高周波
コードベクトルの出現比率を求め、音声素片に記述され
たコードの内で出現比率の上位から複数個を選んで低周
波コードブックおよび高周波コードブックを参照し、読
み出されて得た各波形を出現比率に応じた重み付けをし
て加算し、合成パラメータを得るコードブック参照部で
ある。そのため、ピッチ同期の波形利用の合成方式にお
いて、高周波成分と低周波成分についてコードブックの
出現頻度を考慮した音声素片を用意し、さらにその出現
頻度に応じた1ピッチ波形の重みづけ加算をすること
で、フレーム毎単一コードの音声素片に比べ、より詳細
で、低周波成分と高周波成分とを分離することでゆらぎ
を考慮した波形合成を可能とし、より自然性の高い合成
音声の提供が可能となる。
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、頻度情報付き音
声素片データベースは、音声素片と共に低周波コードベ
クトルの出現頻度および高周波コードベクトルの出現頻
度を記憶し、 コードブック参照部は、音声素片に記載
される出現頻度から低周波コードベクトルおよび高周波
コードベクトルの出現比率を求め、音声素片に記述され
たコードの内で出現比率の上位から複数個を選んで低周
波コードブックおよび高周波コードブックを参照し、読
み出されて得た各波形を出現比率に応じた重み付けをし
て加算し、合成パラメータを得るコードブック参照部で
ある。そのため、ピッチ同期の波形利用の合成方式にお
いて、高周波成分と低周波成分についてコードブックの
出現頻度を考慮した音声素片を用意し、さらにその出現
頻度に応じた1ピッチ波形の重みづけ加算をすること
で、フレーム毎単一コードの音声素片に比べ、より詳細
で、低周波成分と高周波成分とを分離することでゆらぎ
を考慮した波形合成を可能とし、より自然性の高い合成
音声の提供が可能となる。
【0116】また、この発明に係る他の音声合成装置
は、音声素片列をコードブックのコードベクトル線形和
表現で記憶した線形和表現音声素片データベースと、有
声音波形ベクトル量子化コードブックであるコードブッ
クと、入力されたテキストから音素列およびアクセント
情報を得る言語処理部と、音素列にしたがって音声素片
列を線形和表現音声素片データベースから読み出す素片
読み出し部と、音声素片列に対して、線形和表現音声素
片データベースに記憶されている係数とコードブックを
参照して得た波形から線形和を求め、合成パラメータを
得るコードブック参照部と、アクセント情報にしたがっ
てピッチ周波数を生成する韻律生成部と、合成パラメー
タとピッチ周波数とに基づいて合成音声を生成する合成
部とを備えている。そのため、ピッチ同期の波形利用の
合成方式において、複数のコードベクトルの線形和表現
からなる音声素片を用意することにより、フレーム毎単
一コードの音声素片に比べ、より詳細な波形合成を可能
とし、より自然性の高い合成音声の提供が可能となる。
は、音声素片列をコードブックのコードベクトル線形和
表現で記憶した線形和表現音声素片データベースと、有
声音波形ベクトル量子化コードブックであるコードブッ
クと、入力されたテキストから音素列およびアクセント
情報を得る言語処理部と、音素列にしたがって音声素片
列を線形和表現音声素片データベースから読み出す素片
読み出し部と、音声素片列に対して、線形和表現音声素
片データベースに記憶されている係数とコードブックを
参照して得た波形から線形和を求め、合成パラメータを
得るコードブック参照部と、アクセント情報にしたがっ
てピッチ周波数を生成する韻律生成部と、合成パラメー
タとピッチ周波数とに基づいて合成音声を生成する合成
部とを備えている。そのため、ピッチ同期の波形利用の
合成方式において、複数のコードベクトルの線形和表現
からなる音声素片を用意することにより、フレーム毎単
一コードの音声素片に比べ、より詳細な波形合成を可能
とし、より自然性の高い合成音声の提供が可能となる。
【0117】また、乱数を発生する乱数発生器をさらに
有し、コードブック参照部は、線形和表現音声素片デー
タベースに記憶されている係数に乱数発生器による乱数
を加算し、係数とコードブックを参照して得た波形から
線形和を求め、合成パラメータを得る乱数利用コードブ
ック参照部である。そのため、ピッチ同期の波形利用の
合成方式において、複数のコードベクトルの線形和表現
からなる音声素片を用意することにより、フレーム毎単
一コードの音声素片に比べ、より詳細な波形合成を可能
とし、さらに乱数を利用することでゆらぎの影響を取り
入れた、より自然性の高い合成音声の提供が可能とな
る。
有し、コードブック参照部は、線形和表現音声素片デー
タベースに記憶されている係数に乱数発生器による乱数
を加算し、係数とコードブックを参照して得た波形から
線形和を求め、合成パラメータを得る乱数利用コードブ
ック参照部である。そのため、ピッチ同期の波形利用の
合成方式において、複数のコードベクトルの線形和表現
からなる音声素片を用意することにより、フレーム毎単
一コードの音声素片に比べ、より詳細な波形合成を可能
とし、さらに乱数を利用することでゆらぎの影響を取り
入れた、より自然性の高い合成音声の提供が可能とな
る。
【0118】また、コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、線形和表現音声
素片データベースは、音声素片列を低周波成分コードブ
ックおよび高周波成分コードブックのコードベクトル線
形和表現で記憶し、コードブック参照部は、線形和表現
音声素片データベースに記憶されている係数と低周波成
分コードブックおよび高周波成分コードブックを参照し
て得た波形から線形和を求め合成パラメータを得る。そ
のため、ピッチ同期の波形利用の合成方式において、複
数のコードベクトルの線形和表現からなる音声素片を用
意することにより、フレーム毎単一コードの音声素片に
比べ、より詳細な波形合成を可能とし、低周波成分と高
周波成分とを分離することでゆらぎを考慮した波形合成
を可能とし、より自然性の高い合成音声の提供が可能と
なる。
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、線形和表現音声
素片データベースは、音声素片列を低周波成分コードブ
ックおよび高周波成分コードブックのコードベクトル線
形和表現で記憶し、コードブック参照部は、線形和表現
音声素片データベースに記憶されている係数と低周波成
分コードブックおよび高周波成分コードブックを参照し
て得た波形から線形和を求め合成パラメータを得る。そ
のため、ピッチ同期の波形利用の合成方式において、複
数のコードベクトルの線形和表現からなる音声素片を用
意することにより、フレーム毎単一コードの音声素片に
比べ、より詳細な波形合成を可能とし、低周波成分と高
周波成分とを分離することでゆらぎを考慮した波形合成
を可能とし、より自然性の高い合成音声の提供が可能と
なる。
【0119】また、コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、乱数利用コード
ブック参照部は、線形和表現音声素片データベースに記
憶されている係数に乱数発生器による乱数を加算し、係
数と低周波成分コードブックおよび高周波成分コードブ
ックを参照して得た波形から線形和を求め合成パラメー
タを得る。そのため、ピッチ同期の波形利用の合成方式
において、複数のコードベクトルの線形和表現からなる
音声素片を用意することにより、フレーム毎単一コード
の音声素片に比べ、より詳細な波形合成を可能とし、低
周波成分と高周波成分とを分離し、さらに乱数を利用す
ることでゆらぎの影響を取り入れた、より自然性の高い
合成音声の提供が可能となる。
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、乱数利用コード
ブック参照部は、線形和表現音声素片データベースに記
憶されている係数に乱数発生器による乱数を加算し、係
数と低周波成分コードブックおよび高周波成分コードブ
ックを参照して得た波形から線形和を求め合成パラメー
タを得る。そのため、ピッチ同期の波形利用の合成方式
において、複数のコードベクトルの線形和表現からなる
音声素片を用意することにより、フレーム毎単一コード
の音声素片に比べ、より詳細な波形合成を可能とし、低
周波成分と高周波成分とを分離し、さらに乱数を利用す
ることでゆらぎの影響を取り入れた、より自然性の高い
合成音声の提供が可能となる。
【0120】さらに、コードブックは、有声音波形を低
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、同じく、有声音波形を低周波成分と高周波成分
に分離した時の高周波成分波形のベクトル量子化コード
ブックである高周波成分コードブックとからなり、乱数
利用コードブック参照部は、線形和表現音声素片データ
ベースに記憶されている高周波成分コードの係数に乱数
発生器による乱数を加算し、係数と低周波成分コードブ
ックおよび高周波成分コードブックを参照して得た波形
から線形和を求め合成パラメータを得る。そのため、ピ
ッチ同期の波形利用の合成方式において、複数のコード
ベクトルの線形和表現からなる音声素片を用意すること
により、フレーム毎単一コードの音声素片に比べ、より
詳細な波形合成を可能とし、低周波成分と高周波成分と
を分離し、さらにゆらぎの影響が強い高周波成分につい
て乱数を利用することで、より自然性の高い合成音声の
提供が可能となる。
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、同じく、有声音波形を低周波成分と高周波成分
に分離した時の高周波成分波形のベクトル量子化コード
ブックである高周波成分コードブックとからなり、乱数
利用コードブック参照部は、線形和表現音声素片データ
ベースに記憶されている高周波成分コードの係数に乱数
発生器による乱数を加算し、係数と低周波成分コードブ
ックおよび高周波成分コードブックを参照して得た波形
から線形和を求め合成パラメータを得る。そのため、ピ
ッチ同期の波形利用の合成方式において、複数のコード
ベクトルの線形和表現からなる音声素片を用意すること
により、フレーム毎単一コードの音声素片に比べ、より
詳細な波形合成を可能とし、低周波成分と高周波成分と
を分離し、さらにゆらぎの影響が強い高周波成分につい
て乱数を利用することで、より自然性の高い合成音声の
提供が可能となる。
【図1】 この発明の音声合成装置を示すブロック図で
ある。
ある。
【図2】 音声素片データベースの内容例を示した図で
ある。
ある。
【図3】 この発明の音声合成装置の他の例を示すブロ
ック図である。
ック図である。
【図4】 移動加算部、および韻律制御移動加算部の加
算方式の例を示した説明図である。
算方式の例を示した説明図である。
【図5】 この発明の音声合成装置の他の例を示すブロ
ック図である。
ック図である。
【図6】 この発明の音声合成装置の他の例を示すブロ
ック図である。
ック図である。
【図7】 この発明の音声合成装置の他の例を示すブロ
ック図である。
ック図である。
【図8】 この発明の音声合成装置の他の例を示すブロ
ック図である。
ック図である。
【図9】 頻度情報付き音声素片データベースの内容例
を示した図である。
を示した図である。
【図10】 この発明の音声合成装置の他の例を示すブ
ロック図である。
ロック図である。
【図11】 この発明の音声合成装置の他の例を示すブ
ロック図である。
ロック図である。
【図12】 この発明の音声合成装置の他の例を示すブ
ロック図である。
ロック図である。
【図13】 この発明の音声合成装置の他の例を示すブ
ロック図である。
ロック図である。
【図14】 この発明の音声合成装置の他の例を示すブ
ロック図である。
ロック図である。
【図15】 線形和表現音声素片データベースの内容例
を示した図である。
を示した図である。
【図16】 この発明の音声合成装置の他の例を示すブ
ロック図である。
ロック図である。
【図17】 従来の音声合成装置の一構成例を示すブロ
ック図である。
ック図である。
【図18】 従来の音声合成装置の他の例を示すブロッ
ク図である。
ク図である。
2 言語処理部、5 韻律生成部、8 低周波成分コー
ドブック、9 高周波成分コードブック、10 素片読
み出し部、11 音声素片データベース、12コードブ
ック参照加算部(コードブック参照部)、14 合成
部、16 コードブック参照部、19 移動加算部、2
0 韻律制御移動加算部、21 振幅比率制御加算部、
22 振幅比率ピッチ制御加算部、23 頻度情報付き
音声素片データベース、24 コードブック、25 素
片読み出し重み付け選択部、26線形和表現音声素片デ
ータベース、27 乱数発生器。
ドブック、9 高周波成分コードブック、10 素片読
み出し部、11 音声素片データベース、12コードブ
ック参照加算部(コードブック参照部)、14 合成
部、16 コードブック参照部、19 移動加算部、2
0 韻律制御移動加算部、21 振幅比率制御加算部、
22 振幅比率ピッチ制御加算部、23 頻度情報付き
音声素片データベース、24 コードブック、25 素
片読み出し重み付け選択部、26線形和表現音声素片デ
ータベース、27 乱数発生器。
─────────────────────────────────────────────────────
フロントページの続き
(56)参考文献 特開 平7−141000(JP,A)
特開 平9−204192(JP,A)
特開 平10−247097(JP,A)
特開 平8−335096(JP,A)
特開 平10−143196(JP,A)
特開 平5−73100(JP,A)
特開 平7−20894(JP,A)
(58)調査した分野(Int.Cl.7,DB名)
G10L 13/08
G10L 13/06
Claims (13)
- 【請求項1】 音声素片を記憶する音声素片データベー
スと、 有声音波形を低周波成分と高周波成分に分離した時の低
周波成分波形のベクトル量子化コードブックである低周
波成分コードブックと、 有声音波形を低周波成分と高周波成分に分離した時の高
周波成分波形のベクトル量子化コードブックである高周
波成分コードブックと、 入力されたテキストから音素列およびアクセント情報を
得る言語処理部と、 上記音素列にしたがって上記音声素片を上記音声素片デ
ータベースから読み出す素片読み出し部と、 上記素片読み出し部の読み出した上記音声素片に基づい
て、上記低周波成分コードブック及び上記高周波成分コ
ードブックの各々から低周波成分波形及び高周波成分波
形を選択するコードブック参照部と、 選択された上記低周波成分波形と上記高周波成分波形と
を加算し合成パラメータを得る加算部と、 上記アクセント情報にしたがってピッチ周波数を生成す
る韻律生成部と、 上記合成パラメータと上記ピッチ周波数とに基づいて合
成音声を生成する合成部とを備えたことを特徴とする音
声合成装置。 - 【請求項2】 上記コードブック参照部は、上記高周波
成分コードブックから1ピッチ毎に異なる上記高周波成
分波形を選択することを特徴とする請求項1記載の音声
合成装置。 - 【請求項3】 上記加算部は、上記低周波成分波形を時
間軸に配置する際、基準位置に対して、上記高周波成分
波形の配置位置を1ピッチ毎に変化させて、該低周波成
分波形と該高周波成分波形とを加算する移動加算部であ
ることを特徴とする請求項1または2記載の音声合成装
置。 - 【請求項4】 上記加算部は、上記低周波成分波形の基
準位置に対する上記高周波成分波形の配置位置の平均変
化幅を、入力ピッチまたはパワーに応じて変化させて、
該低周波成分波形と該高周波成分波形とを加算する韻律
制御移動加算部であることを特徴とする請求項1または
2記載の音声合成装置。 - 【請求項5】 上記加算部は、加算される上記低周波成
分波形と上記高周波成分波形の振幅比率を、1ピッチ毎
に変化させ、該低周波成分波形と該高周波成分波形とを
加算する振幅比率制御加算部であることを特徴とする請
求項1または2記載の音声合成装置。 - 【請求項6】 上記加算部は、上記低周波成分波形と上
記高周波成分波形の振幅比率を、入力ピッチまたはパワ
ーに応じて変化させ、該低周波成分波形と該高周波成分
波形とを加算する振幅比率ピッチ制御移動加算部である
ことを特徴とする請求項1または2記載の音声合成装
置。 - 【請求項7】 音声素片と有声音波形ベクトル量子化に
よるコードブックのコード出現頻度とを記憶する頻度情
報付き音声素片データベースと、 有声音波形ベクトル量子化コードブックであるコードブ
ックと、 入力されたテキストから音素列およびアクセント情報を
得る言語処理部と、 上記頻度情報付き音声素片データベースに記載されてい
る上記音声素片を上記出現頻度と共に読み出す素片読み
出し部と、 上記音声素片について、上記コードブックを参照して、
上記出現頻度に基づいて合成パラメータを得るコードブ
ック参照部と、 上記アクセント情報にしたがってピッチ周波数を生成す
る韻律生成部と、 上記合成パラメータと上記ピッチ周波数とに基づいて合
成音声を生成する合成部とを備えたことを特徴とする音
声合成装置。 - 【請求項8】 上記コードブック参照部は、上記音声素
片に記載される上記出現頻度からコードベクトルの出現
比率を求め、音声素片に記述されたコードの中で該出現
比率の上位から複数個を選んで上記コードブックを参照
し、読み出されて得た各波形を出現比率に応じた重み付
けをして加算し、合成パラメータを得るコードブック参
照部であることを特徴とする請求項7記載の音声合成装
置。 - 【請求項9】 上記コードブックは、有声音波形を低周
波成分と高周波成分に分離した時の低周波成分波形のベ
クトル量子化コードブックである低周波成分コードブッ
クと、有声音波形を低周波成分と高周波成分に分離した
時の高周波成分波形のベクトル量子化コードブックであ
る高周波成分コードブックとからなり、 上記頻度情報付き音声素片データベースは、上記音声素
片と共に低周波コードベクトルの出現頻度および高周波
コードベクトルの出現頻度を記憶し、 上記コードブック参照部は、上記音声素片に記載される
上記出現頻度から低周波コードベクトルおよび高周波コ
ードベクトルの出現比率を求め、音声素片に記述された
コードの内で該出現比率の上位から複数個を選んで上記
低周波コードブックおよび高周波コードブックを参照
し、読み出されて得た各波形を出現比率に応じた重み付
けをして加算し、合成パラメータを得るコードブック参
照部であることを特徴とする請求項7記載の音声合成装
置。 - 【請求項10】 音声素片列をコードブックのコードベ
クトル線形和表現で記憶した線形和表現音声素片データ
ベースと、 有声音波形ベクトル量子化コードブックであるコードブ
ックと、 入力されたテキストから音素列およびアクセント情報を
得る言語処理部と、 上記音素列にしたがって上記音声素片列を上記線形和表
現音声素片データベースから読み出す素片読み出し部
と、 上記音声素片列に対して、上記線形和表現音声素片デー
タベースに記憶されている係数とコードブックを参照し
て得た波形から線形和を求め、合成パラメータを得るコ
ードブック参照部と、 上記アクセント情報にしたがってピッチ周波数を生成す
る韻律生成部と、 上記合成パラメータと上記ピッチ周波数とに基づいて合
成音声を生成する合成部とを備え、 乱数を発生する乱数発生器をさらに有し、 上記コードブック参照部は、上記線形和表現音声素片デ
ータベースに記憶されている係数に上記乱数発生器によ
る乱数を加算し、係数とコードブックを参照して得た波
形から線形和を求め、合成パラメータを得る乱数利用コ
ードブック参照部であることを特徴とする音声合成装
置。 - 【請求項11】 音声素片列をコードブックのコードベ
クトル線形和表現で記憶した線形和表現音声素片データ
ベースと、 有声音波形ベクトル量子化コードブックであるコードブ
ックと、 入力されたテキストから音素列およびアクセント情報を
得る言語処理部と、 上記音素列にしたがって上記音声素片列を上記線形和表
現音声素片データベースから読み出す素片読み出し部
と、 上記音声素片列に対して、上記線形和表現音声素片デー
タベースに記憶されている係数とコードブックを参照し
て得た波形から線形和を求め、合成パラメータを得るコ
ードブック参照部と、 上記アクセント情報にしたがってピッチ周波数を生成す
る韻律生成部と、 上記合成パラメータと上記ピッチ周波数とに基づいて合
成音声を生成する合成部とを備え、 上記コードブックは、有声音波形を低周波成分と高周波
成分に分離した時の低周波成分波形のベクトル量子化コ
ードブックである低周波成分コードブックと、有声音波
形を低周波成分と高周波成分に分離した時の高周波成分
波形のベクトル量子化コードブックである高周波成分コ
ードブックとからなり、 上記線形和表現音声素片データベースは、音声素片列を
上記低周波成分コードブックおよび上記高周波成分コー
ドブックのコードベクトル線形和表現で記憶し、 上記コードブック参照部は、上記線形和表現音声素片デ
ータベースに記憶されている係数と低周波成分コードブ
ックおよび高周波成分コードブックを参照して得た波形
から線形和を求め合成パラメータを得ることを特徴とす
る音声合成装置。 - 【請求項12】 上記コードブックは、有声音波形を低
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、有声音波形を低周波成分と高周波成分に分離し
た時の高周波成分波形のベクトル量子化コードブックで
ある高周波成分コードブックとからなり、 上記乱数利用コードブック参照部は、上記線形和表現音
声素片データベースに記憶されている係数に上記乱数発
生器による乱数を加算し、係数と低周波成分コードブッ
クおよび高周波成分コードブックを参照して得た波形か
ら線形和を求め合成パラメータを得ることを特徴とする
請求項10記載の音声合成装置。 - 【請求項13】 上記コードブックは、有声音波形を低
周波成分と高周波成分に分離した時の低周波成分波形の
ベクトル量子化コードブックである低周波成分コードブ
ックと、同じく、有声音波形を低周波成分と高周波成分
に分離した時の高周波成分波形のベクトル量子化コード
ブックである高周波成分コードブックとからなり、 上記乱数利用コードブック参照部は、上記線形和表現音
声素片データベースに記憶されている高周波成分コード
の係数に上記乱数発生器による乱数を加算し、係数と低
周波成分コードブックおよび高周波成分コードブックを
参照して得た波形から線形和を求め合成パラメータを得
ることを特徴とする請求項10記載の音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36981498A JP3495275B2 (ja) | 1998-12-25 | 1998-12-25 | 音声合成装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP36981498A JP3495275B2 (ja) | 1998-12-25 | 1998-12-25 | 音声合成装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000194388A JP2000194388A (ja) | 2000-07-14 |
JP3495275B2 true JP3495275B2 (ja) | 2004-02-09 |
Family
ID=18495385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP36981498A Expired - Fee Related JP3495275B2 (ja) | 1998-12-25 | 1998-12-25 | 音声合成装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3495275B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2003284654A1 (en) * | 2002-11-25 | 2004-06-18 | Matsushita Electric Industrial Co., Ltd. | Speech synthesis method and speech synthesis device |
GB2548356B (en) | 2016-03-14 | 2020-01-15 | Toshiba Res Europe Limited | Multi-stream spectral representation for statistical parametric speech synthesis |
-
1998
- 1998-12-25 JP JP36981498A patent/JP3495275B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000194388A (ja) | 2000-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1220195B1 (en) | Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method | |
NL9201941A (nl) | Spraaksegmentcoderings- en toonhoogteregelingswerkwijzen voor spraaksynthesestelsels. | |
JPH031200A (ja) | 規則型音声合成装置 | |
EP0813184B1 (en) | Method for audio synthesis | |
US7249021B2 (en) | Simultaneous plural-voice text-to-speech synthesizer | |
US7280969B2 (en) | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer | |
US7596497B2 (en) | Speech synthesis apparatus and speech synthesis method | |
JP2003108178A (ja) | 音声合成装置及び音声合成用素片作成装置 | |
JP5360489B2 (ja) | 音素符号変換装置および音声合成装置 | |
JP3495275B2 (ja) | 音声合成装置 | |
US6829577B1 (en) | Generating non-stationary additive noise for addition to synthesized speech | |
JPH09319391A (ja) | 音声合成方法 | |
US7822599B2 (en) | Method for synthesizing speech | |
WO2004027753A1 (en) | Method of synthesis for a steady sound signal | |
Lukaszewicz et al. | Microphonemic method of speech synthesis | |
JPH09319394A (ja) | 音声合成方法 | |
JP3081300B2 (ja) | 残差駆動型音声合成装置 | |
JP3394281B2 (ja) | 音声合成方式および規則合成装置 | |
JP3994333B2 (ja) | 音声辞書作成装置、音声辞書作成方法、及び、プログラム | |
JP3059751B2 (ja) | 残差駆動型音声合成装置 | |
JPH1011083A (ja) | テキスト音声変換装置 | |
JPH09258796A (ja) | 音声合成方法 | |
JP2001312300A (ja) | 音声合成装置 | |
JPH10301599A (ja) | 音声合成装置 | |
JPH0962295A (ja) | 音声素片作成方法および音声合成方法とその装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071121 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081121 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081121 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091121 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |