JPH05265486A - 音声分析合成方法 - Google Patents
音声分析合成方法Info
- Publication number
- JPH05265486A JPH05265486A JP4092262A JP9226292A JPH05265486A JP H05265486 A JPH05265486 A JP H05265486A JP 4092262 A JP4092262 A JP 4092262A JP 9226292 A JP9226292 A JP 9226292A JP H05265486 A JPH05265486 A JP H05265486A
- Authority
- JP
- Japan
- Prior art keywords
- data
- pitch
- block
- unit
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title description 41
- 230000002194 synthesizing effect Effects 0.000 title description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 75
- 238000001308 synthesis method Methods 0.000 claims description 37
- 238000003786 synthesis reaction Methods 0.000 abstract description 71
- 230000015572 biosynthetic process Effects 0.000 abstract description 68
- 239000000284 extract Substances 0.000 abstract description 5
- 239000011295 pitch Substances 0.000 description 168
- 238000001228 spectrum Methods 0.000 description 42
- 238000012545 processing Methods 0.000 description 36
- 238000000605 extraction Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 20
- 238000006243 chemical reaction Methods 0.000 description 18
- 239000002131 composite material Substances 0.000 description 18
- 230000005284 excitation Effects 0.000 description 16
- 230000005236 sound signal Effects 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000009466 transformation Effects 0.000 description 7
- 238000013139 quantization Methods 0.000 description 6
- 238000011867 re-evaluation Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000005520 cutting process Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 1
Landscapes
- Electrophonic Musical Instruments (AREA)
Abstract
介してピッチ情報、有声音/無声音判別情報及び振幅情
報が伝送される。有声音合成部21の位相予測部22
は、ピッチ情報とフレーム初期位相に基づいてフレーム
終端位相を予測する。位相修正部24は、ピッチ情報と
有声音/無声音判別情報とが供給される雑音付加部23
からの例えばガウス性雑音を予測修正項として用い、正
弦波発声部25から位相修正された正弦波を出力させ
る。そして、振幅増幅部26で該出力を増幅し、無声音
合成部27からの無声音と加算部28で加算合成し、出
力端子3から合成音が出力される。 【効果】 合成音の音質が向上できる。また、エラーの
累積を防ぎ、母音部もしくは母音部から子音部の遷移点
での音質の劣化を防ぐことができる。
Description
号化装置に適用される音声分析合成方式に関する。
あって、パワースペクトルが等しければ同じ音として聞
こえるという性質がある。この性質を利用して合成音を
得る方法が音声の分析合成方法である。
信号を分析し、ピッチ情報、有声音/無声音の判別情
報、振幅情報等を抽出あるいは検出し、合成側に伝送
し、合成側でそれらの情報を基に人工的に音声を作り出
す。特に、合成側は、その合成の方式により、録音編集
方式、パラメータ編集方式、規則合成方式等に分類でき
る。
音声を単語や文節等を単位にとって蓄積(録音)してお
き、必要に応じてそれらを読みだして接続(編集)し、
音声を合成するものである。
方式の場合と同様に単語、文節等を単位とするが、予め
人が発声した音声を音声生成モデルに基づいて分析し
て、パラメータ時系列の形で蓄え、必要に応じて接続し
たパラメータ時系列を用いて音声合成装置を駆動し、音
声を合成する方式である。
の離散的記号で表現された系列を、連続的に変換する技
術である。変換の過程で、音声生成の普遍的諸性質や人
為的諸性質が合成規則として適用される。
声道特性を模擬し、それに音源波とほぼ同じスペクトル
を持つ信号を使って合成音を得ている。
分析合成方法では、分析側の位相に合成側の位相を合わ
せる必要がある。この場合、合成側にて位相情報を得る
際、角周波数による線形予測及び白色雑音による修正を
用いる場合がある。しかし、位相の真値と予測による雑
音(エラー)の制御は、上記白色雑音では不可能であ
る。
色雑音のレベルを変化させて修正項に用いているため、
有声音を多く含むブロックが連続した場合、予測のみで
修正が施されないため、結果として強い母音が長時間続
くようなときはエラーが累積し、音質の劣化が生じる。
は、その大きさと分散を制御することができる雑音を予
測の修正に用いることで音質の向上を実現する音声分析
合成方法の提供と目的とする。
成方法は、入力された音声信号をブロック単位で区分し
てブロック内でのピッチ情報を求める工程と、上記ブロ
ック毎の音声信号を周波数軸に変換して周波数軸上デー
タを求める工程と、この周波数軸上データを上記ピッチ
情報に基づいて複数の帯域に分割する工程と、分割され
た各帯域毎のパワー情報及び有声音か無声音かの判別情
報を求める工程と、これらの工程により求められた上記
ピッチ情報、各帯域毎のパワー情報及び有声音か無声音
かの判別情報を伝送する工程と、伝送されて得られた各
ブロック毎の上記ピッチ情報とブロック初期位相とに基
づいてブロック終端位相を予測する工程と、上記各帯域
に応じた分散を持つ雑音を用いて上記予測されたブロッ
ク終端位相を修正する工程とを有して上記課題を解決す
る。
上記雑音をガウス性雑音であることを特徴として上記課
題を解決する。
の音声信号を周波数軸に変換して得られる周波数軸上デ
ータをブロック毎の音声信号から求められたピッチ情報
に基づいて分割した複数帯域毎にパワー情報及び有声音
か無声音かの判別情報を分析側で求めて伝送し、合成側
では伝送されて得られた各ブロック毎の上記ピッチ情報
とブロック初期位相とに基づいてブロック終端位相を予
測し、該予測された終端位相を上記各帯域に応じた分散
を持つガウス性雑音を用いて修正することによって、予
測位相値と真値との誤差を制御できる。
声信号の分析合成符号化装置(いわゆるボコーダ)に適
用した具体例について、図面を参照しながら説明する。
この分析合成符号化装置は、同時刻(同じブロックある
いはフレーム内)の周波数軸領域に有声音(Voiced) 区
間と無声音(Unvoiced)区間とが存在するというモデル化
を行っている。
置に本発明を適用した実施例の全体の概略構成を示す図
である。この図1において、本発明に係る音声分析合成
方法の実施例は、入力音声信号からピッチ情報等を分析
する分析部10と、該分析部10から伝送部2によって
伝送されてきた各種情報(ピッチ情報等)を受け取り、
有声音と無声音をそれぞれ合成し、さらに該有声音と無
声音とを合成する合成部20とからなる。
れた音声信号を所定サンプル数(Nサンプル)のブロッ
ク単位で取り出すブロック取り出し部11と、このブロ
ック取り出し部11からのブロック毎の入力音声信号か
ら、ピッチ情報を抽出するピッチ情報抽出部12と、上
記ブロック取り出し部11からのブロック毎の入力音声
信号から周波数軸上に変換されたデータを求めるデータ
変換部13と、このデータ変換部13からの周波数軸上
データを上記ピッチ情報抽出部12のピッチ情報に基づ
いて複数の帯域に分割する帯域分割部14と、この帯域
分割部14の各帯域毎のパワー(振幅)情報及び有声音
Vか無声音UNかの判別情報を求める振幅情報&V/U
V判別情報検出部15とを有する。
記分析部10から伝送されてきたピッチ情報、V/UV
判別情報及び振幅情報を受け取り、有声音合成部21で
有声音を無声音合成部27で無声音を合成し、該合成さ
れた有声音と無声音とを加算部28で加算合成し、該合
成音信号を出力端子3から取り出すようにしている。
えば256サンプル)のブロック内のデータに対して処
理を施すことにより得られるものであるが、ブロックは
時間軸上を上記Lサンプルのフレームを単位として前進
することから、伝送するデータは上記フレーム単位で得
られる。すなわち、上記フレーム周期でピッチ情報、V
/UV判別情報及び振幅情報が更新されることになる。
と入力端子4から供給されるフレーム初期位相とに基づ
いてフレーム終端位相(次の合成フレームの先端の位
相)を予測する位相予測部22と、この位相予測部22
からの予測を上記ピッチ情報ととV/UV判別情報とが
供給される雑音付加部23からの修正項を用いて修正す
る位相修正部24と、この位相修正部24からの修正位
相情報に基づいて図示しない正弦波ROMから正弦波を
読みだし出力する正弦波発生部25と、上記振幅情報が
供給され上記正弦波発生部25からの正弦波の振幅を増
幅する振幅増幅部26とを有する。
報、V/UV判別情報及び振幅情報が供給され、例えば
ホワイトノイズを図示しないバンドパスフィルタでフィ
ルタリングして時間軸上の無声音波形を合成している。
1、無声音合成部27において合成された有声音及び無
声音の各信号を適当な固定の混合比で加算する。そし
て、この加算された音声信号は、出力端子3から音声信
号として出力される。
1内の位相予測部22では、時刻0(フレームの先頭)
における第m高調波の位相(フレーム初期位相)をψ0m
とすると、フレームの最後での位相ψLmを、 ψLm=ψ0m+m(ωO1+ωL1)L/2 ・・・(1) と予測する。また、各バンドの位相φm は、 φm =ψLm+εm ・・・(2) となる。上記(1)、(2)式中でLはフレームインタ
ーバル、ωO1は、合成フレームの先端(n=0)での基
本角周波数、ωL1は該合成フレームの終端(n=L:次
の合成フレーム先端)での基本角周波数、εm は各バン
ドでの予測修正項を示している。
は、第m高調波の平均角周波数に時刻を乗じ、それに第
m高調波の初期位相を加えた位相を時刻Lでの予測位相
として求めている。また、上記(2)式より、各バンド
の位相φm は、上記予測位相に予測修正項εm を加えた
値である。
が乱れており(ランダム)、乱数を用いることができる
が本実施例では、ガウス雑音を用いている。このガウス
雑音は、図2に示すように帯域別にみて高域になるにつ
れ(例えば、ε1 からε10)分散が大きくなる雑音であ
る。このガウス雑音は、位相の真の値と予測による値と
の誤差を適切に近似する。
にバンドにmに比例するものとすれば、上記予測修正項
εm は、 εm =h1 N(0,ki ) ・・・(3) と示される。ここで、h1 は定数、ki は分数、0は平
均を表す。
域に分割したときに、無声音の部分が多ければ音声を構
成する各周波数成分の位相はよりランダムになるので、
上記予測修正項εm は、 εm =h2 nujN(0,ki ) ・・・(4) と示すことができる。ここで、h2 は定数、ki は分
数、0は平均、nujはブロックjでの無声音バンドの数
を表す。
のように上述したような各バンド間での分布の乱れがな
い時、もしくは母音から子音及び無音に遷移する時に
は、上記(3)、(4)式で示された予測修正項がかえ
って合成音声の音質を劣化させるので、遅延が許される
のであれば1フレーム先の振幅情報(パワー)Sレベ
ル、もしくは有声音部分の減少を調べて上記修正項εm
を、 εm =h3 max(a,Sj −Sj+1 )N(0,ki ) ・・・(5) εm =h4 max(b,nvj−nv(j+1))N(0,ki )・・・(6) とする。ここで、a,b,h3 ,h4 は定数である。
ッチ情報が低い場合は、周波数バンドが増え、位相が揃
うことによる悪影響の増大を考慮して、上記上記修正項
εmを、 εm =f( Sj ,hj )N(0,ki ) ・・・(7) とする。ここで、fは周波数
装置に本発明を適用した実施例は、位相予測の修正に用
いる雑音をガウス性にすることで、その大きさと分散を
制御することができる。
音声信号の合成分析符号化装置(いわゆるボコーダ)の
一種であるMBE(Multiband Excitation: マルチバン
ド励起)ボコーダに適用した具体例について、図面を参
照しながら説明する。このMBEボコーダは、D. W. Gr
iffin and J. S. Lim,"Multiband Excitation Vocode
r," IEEE Trans.Acoustics,Speech,and Signal Process
ing, vol.36, No.8, pp.1223-1235, Aug.1988 に開示さ
れているものであり、従来のPARCOR(PARtial au
to-CORrelation: 偏自己相関)ボコーダ等では、音声の
モデル化の際に有声音区間と無声音区間とをブロックあ
るいはフレーム毎に切り換えていたのに対し、MBEボ
コーダでは、同時刻(同じブロックあるいはフレーム
内)の周波数軸領域に有声音(Voiced)区間と無声音
(Unvoiced)区間とが存在するという仮定でモデル化し
ている。
用した実施例の全体の概略構成を示すブロック図であ
る。この図3において、入力端子101には音声信号が
供給されるようになっており、この入力音声信号は、H
PF(ハイパスフィルタ)等のフィルタ102に送られ
て、いわゆるDC(直流)オフセット分の除去や帯域制
限(例えば200〜3400Hzに制限)のための少なく
とも低域成分(200Hz以下)の除去が行われる。この
フィルタ102を介して得られた信号は、ピッチ抽出部
103及び窓かけ処理部104にそれぞれ送られる。ピ
ッチ抽出部103では、入力音声信号データが所定サン
プル数N(例えばN=256)単位でブロック分割され
(あるいは方形窓による切り出しが行われ)、このブロ
ック内の音声信号についてのピッチ抽出が行われる。こ
のような切り出しブロック(256サンプル)を、例え
ば図4のAに示すようにLサンプル(例えばL=16
0)のフレーム間隔で時間軸方向に移動させており、各
ブロック間のオーバラップはN−Lサンプル(例えば9
6サンプル)となっている。また、窓かけ処理部104
では、1ブロックNサンプルに対して所定の窓関数、例
えばハミング窓をかけ、この窓かけブロックを1フレー
ムLサンプルの間隔で時間軸方向に順次移動させてい
る。
qはデータの時間インデックス(サンプル番号)を表
し、処理前の入力信号のq番目のデータx(q) に対して
第kブロックの窓(ウィンドウ)関数w(kL-q)により窓
かけ処理されることによりデータxw (k,q) が得られる
ことを示している。ピッチ抽出部103内での図4のA
に示すような方形窓の場合の窓関数wr (r) は、 wr (r) =1 0≦r<N ・・・(9) =0 r<0,N≦r また、窓かけ処理部104での図4のBに示すようなハ
ミング窓の場合の窓関数wh (r) は、 wh (r) = 0.54 − 0.46 cos(2πr/(N-1)) 0≦r<N ・・・(10) =0 r<0,N≦r である。このような窓関数wr (r) あるいはwh (r) を
用いるときの上記(8)式の窓関数w(r) (=w(kL-
q))の否零区間は、 0≦kL−q<N これを変形して、 kL−N<q≦kL 従って、例えば上記方形窓の場合に窓関数wr (kL-q)=
1となるのは、図5に示すように、kL−N<q≦kL
のときとなる。また、上記(8)〜(10)式は、長さN
(=256)サンプルの窓が、L(=160)サンプル
ずつ前進してゆくことを示している。以下、上記(9)
式、(10)式の各窓関数で切り出された各N点(0≦r
<N)の否零サンプル列を、それぞれxwr(k,r) 、xwh
(k,r) と表すことにする。
に、上記(10)式のハミング窓がかけられた1ブロック
256サンプルのサンプル列xwh(k,r) に対して179
2サンプル分の0データが付加されて(いわゆる0詰め
されて)2048サンプルとされ、この2048サンプ
ルの時間軸データ列に対して、直交変換部105により
例えばFFT(高速フーリエ変換)等の直交変換処理が
施される。
のサンプル列(1ブロックNサンプル)に基づいてピッ
チ抽出が行われる。このピッチ抽出法には、時間波形の
周期性や、スペクトルの周期的周波数構造や、自己相関
関数を用いるもの等が知られているが、本実施例では、
センタクリップ波形の自己相関法を採用している。この
ときのブロック内でのセンタクリップレベルについて
は、1ブロックにつき1つのクリップレベルを設定して
もよいが、ブロックを細分割した各部(各サブブロッ
ク)の信号のピークレベル等を検出し、これらの各サブ
ブロックのピークレベル等の差が大きいときに、ブロッ
ク内でクリップレベルを段階的にあるいは連続的に変化
させるようにしている。このセンタクリップ波形の自己
相関データのピーク位置に基づいてピーク周期を決めて
いる。このとき、現在フレームに属する自己相関データ
(自己相関は1ブロックNサンプルのデータを対象とし
て求められる)から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±20%の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部103ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度(ファイン)ピッチサーチ部10
6に送られて、クローズドループによる高精度のピッチ
サーチ(ピッチのファインサーチ)が行われる。
には、ピッチ抽出部103で抽出された整数(インテジ
ャー)値の粗(ラフ)ピッチデータと、直交変換部10
5により例えばFFTされた周波数軸上のデータとが供
給されている。この高精度ピッチサーチ部106では、
上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±
数サンプルずつ振って、最適な小数点付き(フローティ
ング)のファインピッチデータの値へ追い込む。このと
きのファインサーチの手法として、いわゆる合成による
分析 (Analysis by Synthesis)法を用い、合成されたパ
ワースペクトルが原音のパワースペクトルに最も近くな
るようにピッチを選んでいる。
する。先ず、上記MBEボコーダにおいては、上記FF
T等により直交変換された周波数軸上のスペクトルデー
タとしてのS(j) を S(j) =H(j) |E(j) | 0<j<J ・・・(11) と表現するようなモデルを想定している。ここで、Jは
πωs =fs /2に対応し、サンプリング周波数fs =
2πωs が例えば8kHzのときには4kHzに対応する。
上記(11)式中において、周波数軸上のスペクトルデー
タS(j) が図7のAに示すような波形のとき、H(j)
は、図7のBに示すような元のスペクトルデータS(j)
のスペクトル包絡線(エンベロープ)を示し、E(j)
は、図7のCに示すような等レベルで周期的な励起信号
(エキサイテイション)のスペクトルを示している。す
なわち、FFTスペクトルS(j) は、スペクトルエンベ
ロープH(j) と励起信号のパワースペクトル|E(j) |
との積としてモデル化される。
|は、上記ピッチに応じて決定される周波数軸上の波形
の周期性(ピッチ構造)を考慮して、1つの帯域(バン
ド)の波形に相当するスペクトル波形を周波数軸上の各
バンド毎に繰り返すように配列することにより形成され
る。この1バンド分の波形は、例えば上記図6に示すよ
うな256サンプルのハミング窓関数に1792サンプ
ル分の0データを付加(0詰め)した波形を時間軸信号
と見なしてFFTし、得られた周波数軸上のある帯域幅
を持つインパルス波形を上記ピッチに応じて切り出すこ
とにより形成することができる。
ンド毎に、上記H(j) を代表させるような(各バンド毎
のエラーを最小化するような)値(一種の振幅)|Am
|を求める。ここで、例えば第mバンド(第m高調波の
帯域)の下限、上限の点をそれぞれam 、bm とすると
き、この第mバンドのエラーεm は、
は、
最小化する。このような振幅|Am |を各バンド毎に求
め、得られた各振幅|Am |を用いて上記(12)式で定
義された各バンド毎のエラーεm を求める。次に、この
ような各バンド毎のエラーεm の全バンドの総和値Σε
m を求める。さらに、このような全バンドのエラー総和
値Σεm を、いくつかの微小に異なるピッチについて求
め、エラー総和値Σεm が最小となるようなピッチを求
める。
られたラフピッチを中心として、例えば 0.25 きざみで
上下に数種類ずつ用意する。これらの複数種類の微小に
異なるピッチの各ピッチに対してそれぞれ上記エラー総
和値Σεm を求める。この場合、ピッチが定まるとバン
ド幅が決まり、上記(13)式より、周波数軸上データの
パワースペクトル|S(j) |と励起信号スペクトル|E
(j) |とを用いて上記(12)式のエラーεm を求め、そ
の全バンドの総和値Σεm を求めることができる。この
エラー総和値Σεm を各ピッチ毎に求め、最小となるエ
ラー総和値に対応するピッチを最適のピッチとして決定
するわけである。以上のようにして高精度ピッチサーチ
部106で最適のファイン(例えば 0.25 きざみ)ピッ
チが求められ、この最適ピッチに対応する振幅|Am |
が決定される。
ては、説明を簡略化するために、全バンドが有声音(Vo
iced)の場合を想定しているが、上述したようにMBE
ボコーダにおいては、同時刻の周波数軸上に無声音(Un
voiced)領域が存在するというモデルを採用しているこ
とから、上記各バンド毎に有声音/無声音の判別を行う
ことが必要とされる。
適ピッチ及び振幅|Am |のデータは、有声音/無声音
判別部107に送られ、上記各バンド毎に有声音/無声
音の判別が行われる。この判別のために、NSR(ノイ
ズtoシグナル比)を利用する。すなわち、第mバンド
のNSRは、
大のとき(エラーが大きい)ときには、そのバンドでの
|Am ||E(j) |による|S(j) |の近似が良くない
(上記励起信号|E(j) |が基底として不適当である)
と判断でき、当該バンドをUV(Unvoiced、無声音)と
判別する。これ以外のときは、近似がある程度良好に行
われていると判断でき、そのバンドをV(Voiced、有声
音)と判別する。
部105からの周波数軸上データ、高精度ピッチサーチ
部106からのファインピッチと評価された振幅|Am
|との各データ、及び上記有声音/無声音判別部107
からのV/UV(有声音/無声音)判別データが供給さ
れている。この振幅再評価部108では、有声音/無声
音判別部107において無声音(UV)と判別されたバ
ンドに関して、再度振幅を求めている。このUVのバン
ドについての振幅|Am |UVは、
データ数変換(一種のサンプリングレート変換)部10
9に送られる。このデータ数変換部109は、上記ピッ
チに応じて周波数軸上での分割帯域数が異なり、データ
数(特に振幅データの数)が異なることを考慮して、一
定の個数にするためのものである。すなわち、例えば有
効帯域を3400kHzまでとすると、この有効帯域が上
記ピッチに応じて、8バンド〜63バンドに分割される
ことになり、これらの各バンド毎に得られる上記振幅|
Am |(UVバンドの振幅|Am |UVも含む)データの
個数mMX+1も8〜63と変化することになる。このため
データ数変換部109では、この可変個数mMX+1の振幅
データを一定個数NC (例えば44個)のデータに変換
している。
有効帯域1ブロック分の振幅データに対して、ブロック
内の最後のデータからブロック内の最初のデータまでの
値を補間するようなダミーデータを付加してデータ個数
をNF 個に拡大した後、帯域制限型のKOS倍(例えば8
倍)のオーバーサンプリングを施すことによりKOS倍の
個数の振幅データを求め、このKOS倍の個数((
mMX+1) ×KOS個)の振幅データを直線補間してさらに
多くのNM 個(例えば2048個)に拡張し、このNM
個のデータを間引いて上記一定個数NC (例えば44
個)のデータに変換する。
(上記一定個数NC の振幅データ)がベクトル量子化部
110に送られて、所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。ベクトル
量子化部110からの量子化出力データは、出力端子1
11を介して取り出される。また、上記高精度のピッチ
サーチ部106からの高精度(ファイン)ピッチデータ
は、ピッチ符号化部115で符号化され、出力端子11
2を介して取り出される。さらに、上記有声音/無声音
判別部107からの有声音/無声音(V/UV)判別デ
ータは、出力端子113を介して取り出される。これら
の各出力端子111〜113からのデータは、所定の伝
送フォーマットの信号とされて伝送される。
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。
基づき音声信号を合成するための合成側(デコード側)
の概略構成について、図8を参照しながら説明する。こ
の図8において、入力端子121には上記ベクトル量子
化された振幅データが、入力端子122には上記符号化
されたピッチデータが、また入力端子123には上記V
/UV判別データがそれぞれ供給される。入力端子12
1からの量子化振幅データは、逆ベクトル量子化部12
4に送られて逆量子化され、データ数逆変換部125に
送られて逆変換され、得られた振幅データが有声音合成
部126及び無声音合成部127に送られる。入力端子
122からの符号化ピッチデータは、ピッチ復号化部1
28で復号化され、データ数逆変換部125、有声音合
成部126及び無声音合成部127に送られる。また入
力端子123からのV/UV判別データは、有声音合成
部126及び無声音合成部127に送られる。
e)波合成により時間軸上の有声音波形を合成し、無声音
合成部127では例えばホワイトノイズをバンドパスフ
ィルタでフィルタリングして時間軸上の無声音波形を合
成し、これらの各有声音合成波形と無声音合成波形とを
加算部129で加算合成して、出力端子130より取り
出すようにしている。この場合、上記振幅データ、ピッ
チデータ及びV/UV判別データは、上記分析時の1フ
レーム(Lサンプル、例えば160サンプル)毎に更新
されて与えられるが、フレーム間の連続性を高める(円
滑化する)ために、上記振幅データやピッチデータの各
値を1フレーム中の例えば中心位置における各データ値
とし、次のフレームの中心位置までの間(合成時の1フ
レーム)の各データ値を補間により求める。すなわち、
合成時の1フレーム(例えば上記分析フレームの中心か
ら次の分析フレームの中心まで)において、先端サンプ
ル点での各データ値と終端(次の合成フレームの先端)
サンプル点での各データ値とが与えられ、これらのサン
プル点間の各データ値を補間により求めるようにしてい
る。
理を詳細に説明する。上記V(有声音)と判別された第
mバンド(第m高調波の帯域)における時間軸上の上記
1合成フレーム(Lサンプル、例えば160サンプル)
分の有声音をVm (n) とするとき、この合成フレーム内
の時間インデックス(サンプル番号)nを用いて、 Vm (n) =Am (n) cos(θm (n)) 0≦n<L ・・・(16) と表すことができる。全バンドの内のV(有声音)と判
別された全てのバンドの有声音を加算(ΣVm (n) )し
て最終的な有声音V(n) を合成する。
レームの先端から終端までの間で補間された第m高調波
の振幅である。最も簡単には、フレーム単位で更新され
る振幅データの第m高調波の値を直線補間すればよい。
すなわち、上記合成フレームの先端(n=0)での第m
高調波の振幅値をA0m、該合成フレームの終端(n=
L:次の合成フレームの先端)での第m高調波の振幅値
をALmとするとき、 Am (n) = (L-n)A0m/L+nALm/L ・・・(17) の式によりAm (n) を計算すればよい。
上記合成フレームの先端(n=0)での第m高調波の位
相(フレーム初期位相)を示し、ω01は合成フレーム先
端(n=0)での基本角周波数、ωL1は該合成フレーム
の終端(n=L:次の合成フレーム先端)での基本角周
波数をそれぞれ示している。上記(18)式中のΔωは、
n=Lにおける位相φLmがθm (L) に等しくなるような
最小のΔωを設定する。
(18) 式のφ0m+Δωnを合成側に送らずに、合成側で
位相を予測算出している。すなわち、上記位相予測部2
2は、上記(1)式に示されるように時刻0(フレーム
の先頭)における第m高調波の位相(フレーム初期位
相)ψ0mにm(ωO1+ωL1)L/2 を加えフレームの
最後での位相ψLmを、予測算出している。また、各バン
ドの位相φm は、上記予測算出された位相ψLmにεm を
加えて示される。このεm は各バンドでの予測修正項を
示している。本発明では、この予測修正項εm にガウス
性の雑音を用いている。
ルの一例を示しており、バンド番号(ハーモニクスナン
バ)mが8、9、10の各バンドがUV(無声音)とさ
れ、他のバンドはV(有声音)とされている。このV
(有声音)のバンドの時間軸信号が上記有声音合成部1
26により合成され、UV(無声音)のバンドの時間軸
信号が無声音合成部127で合成されるわけである。
合成処理を説明する。ホワイトノイズ発生部131から
の時間軸上のホワイトノイズ信号波形を、所定の長さ
(例えば256サンプル)で適当な窓関数(例えばハミ
ング窓)により窓かけをし、STFT処理部132によ
りSTFT(ショートタームフーリエ変換)処理を施す
ことにより、図9のBに示すようなホワイトノイズの周
波数軸上のパワースペクトルを得る。このSTFT処理
部132からのパワースペクトルをバンド振幅処理部1
33に送り、図9のCに示すように、上記UV(無声
音)とされたバンド(例えばm=8、9、10)につい
て上記振幅|Am |UVを乗算し、他のV(有声音)とさ
れたバンドの振幅を0にする。このバンド振幅処理部1
33には上記振幅データ、ピッチデータ、V/UV判別
データが供給されている。バンド振幅処理部133から
の出力は、ISTFT処理部134に送られ、位相は元
のホワイトノイズの位相を用いて逆STFT処理を施す
ことにより時間軸上の信号に変換する。ISTFT処理
部134からの出力は、オーバーラップ加算部135に
送られ、時間軸上で適当な(元の連続的なノイズ波形を
復元できるように)重み付けをしながらオーバーラップ
及び加算を繰り返し、連続的な時間軸波形を合成する。
オーバーラップ加算部135からの出力信号が上記加算
部129に送られる。
いて合成されて時間軸上に戻された有声音部及び無声音
部の各信号は、加算部129により適当な固定の混合比
で加算して、出力端子130より再生された音声信号を
取り出す。
法を、MBEに適用した具体例では、位相の予測に用い
る雑音をガウス性にすることでその大きさと分散を制御
することができる。
側)の構成や図7の音声合成側(デコード側)の構成に
ついては、各部をハードウェア的に記載しているが、い
わゆるDSP(ディジタル信号プロセッサ)等を用いて
ソフトウェアプログラムにより実現することも可能であ
る。
ック毎の音声信号を周波数軸に変換して得られる周波数
軸上データをブロック毎の音声信号から求められたピッ
チ情報に基づいて分割した複数帯域毎にパワー情報及び
有声音か無声音かの判別情報を分析側で求めて伝送し、
合成側では伝送されて得られた各ブロック毎の上記ピッ
チ情報とブロック初期位相とに基づいてブロック終端位
相を予測し、該予測された終端位相を上記各帯域に応じ
た分散を持つガウス性雑音を用いて修正することによっ
て、雑音の大きさと分散を制御でき、音質の向上が期待
できる。また、音声の信号レベル及びその時間的変化を
利用することで、エラーの累積を防ぎ母音部もしくは母
音部から子音部の遷移点での音質劣化を防ぐことができ
る。
ーダに適用した具体例の機能ブロック図である。
ウス性雑音を説明するための特性図である。
置の具体例としての音声信号の合成分析符号化装置の分
析側(エンコード側)の概略構成を示す機能ブロック図
である。
図である。
ータを示す図である。
絡線(エンベロープ)及び励起信号のパワースペクトル
を示す図である。
置の具体例としての音声信号の合成分析符号化装置の合
成側(デコード側)の概略構成を示す機能ブロック図で
ある。
ための図である。
号化装置に適用される音声分析合成方式に関する。
あって、パワースペクトルが等しければ同じ音として聞
こえるという性質がある。この性質を利用して合成音を
得る方法が音声の分析合成方法である。
信号を分析し、ピッチ情報、有声音/無声音の判別情
報、振幅情報等を抽出あるいは検出し、合成側に伝送
し、合成側でそれらの情報を基に人工的に音声を作り出
す。特に、合成側は、その合成の方式により、録音編集
方式、パラメータ編集方式、規則合成方式等に分類でき
る。
音声を単語や文節等を単位にとって蓄積(録音)してお
き、必要に応じてそれらを読みだして接続(編集)し、
音声を合成するものである。
方式の場合と同様に単語、文節等を単位とするが、予め
人が発声した音声を音声生成モデルに基づいて分析し
て、パラメータ時系列の形で蓄え、必要に応じて接続し
たパラメータ時系列を用いて音声合成装置を駆動し、音
声を合成する方式である。
の離散的記号で表現された系列を、連続的に変換する技
術である。変換の過程で、音声生成の普遍的諸性質や人
為的諸性質が合成規則として適用される。
声道特性を模擬し、それに音源波とほぼ同じスペクトル
を持つ信号を使って合成音を得ている。
分析合成方法では、分析側の位相に合成側の位相を合わ
せる必要がある。この場合、合成側にて位相情報を得る
際、角周波数による線形予測及び白色雑音による修正を
用いる場合がある。しかし、位相の真値と予測による雑
音(エラー)の制御は、上記白色雑音では不可能であ
る。
色雑音のレベルを変化させて修正項に用いているため、
有声音を多く含むブロックが連続した場合、予測のみで
修正が施されないため、結果として強い母音が長時間続
くようなときはエラーが累積し、音質の劣化が生じる。
は、その大きさと分散を制御することができる雑音を予
測の修正に用いることで音質の向上を実現する音声分析
合成方法の提供を目的とする。
成方法は、入力された音声信号をブロック単位で区分し
てブロック内でのピッチ情報を求める工程と、上記ブロ
ック毎の音声信号を周波数軸に変換して周波数軸上デー
タを求める工程と、この周波数軸上データを上記ピッチ
情報に基づいて複数の帯域に分割する工程と、分割され
た各帯域毎のパワー情報及び有声音か無声音かの判別情
報を求める工程と、これらの工程により求められた上記
ピッチ情報、各帯域毎のパワー情報及び有声音か無声音
かの判別情報を伝送する工程と、伝送されて得られた各
ブロック毎の上記ピッチ情報とブロック初期位相とに基
づいてブロック終端位相を予測する工程と、上記各帯域
に応じた分散を持つ雑音を用いて上記予測されたブロッ
ク終端位相を修正する工程とを有して上記課題を解決す
る。
上記雑音をガウス性雑音であることを特徴として上記課
題を解決する。
の音声信号を周波数軸に変換して得られる周波数軸上デ
ータをブロック毎の音声信号から求められたピッチ情報
に基づいて分割した複数帯域毎にパワー情報及び有声音
か無声音かの判別情報を分析側で求めて伝送し、合成側
では伝送されて得られた各ブロック毎の上記ピッチ情報
とブロック初期位相とに基づいてブロック終端位相を予
測し、該予測された終端位相を上記各帯域に応じた分散
を持つガウス性雑音を用いて修正することによって、予
測位相値と真値との誤差を制御できる。
声信号の分析合成符号化装置(いわゆるボコーダ)に適
用した具体例について、図面を参照しながら説明する。
この分析合成符号化装置は、同時刻(同じブロックある
いはフレーム内)の周波数軸領域に有声音(Voiced) 区
間と無声音(Unvoiced)区間とが存在するというモデル化
を行っている。
置に本発明を適用した実施例の全体の概略構成を示す図
である。この図1において、本発明に係る音声分析合成
方法の実施例は、入力音声信号からピッチ情報等を分析
する分析部10と、該分析部10から伝送部2によって
伝送されてきた各種情報(ピッチ情報等)を基に有声音
と無声音を得、さらに該有声音と無声音とを合成する合
成部20とからなる。
れた音声信号を所定サンプル数(Nサンプル)のブロッ
ク単位で取り出すブロック取り出し部11と、このブロ
ック取り出し部11からのブロック毎の入力音声信号か
ら、ピッチ情報を抽出するピッチ情報抽出部12と、上
記ブロック取り出し部11からのブロック毎の入力音声
信号から周波数軸上に変換されたデータを求めるデータ
変換部13と、このデータ変換部13からの周波数軸上
データを上記ピッチ情報抽出部12のピッチ情報に基づ
いて複数の帯域に分割する帯域分割部14と、この帯域
分割部14の各帯域毎のパワー(振幅)情報及び有声音
Vか無声音UNかの判別情報を求める振幅情報&V/U
V判別情報検出部15とを有する。
記分析部10から伝送されてきたピッチ情報、V/UV
判別情報及び振幅情報を受け取り、有声音合成部21で
有声音を無声音合成部27で無声音を合成し、該合成さ
れた有声音と無声音とを加算部28で加算合成し、該合
成音信号を出力端子3から取り出すようにしている。
えば256サンプル)のブロック内のデータに対して処
理を施すことにより得られるものであるが、ブロックは
時間軸上を上記Lサンプルのフレームを単位として前進
することから、伝送するデータは上記フレーム単位で得
られる。すなわち、上記フレーム周期でピッチ情報、V
/UV判別情報及び振幅情報が更新されることになる。
と入力端子4から供給されるフレーム初期位相とに基づ
いてフレーム終端位相(次の合成フレームの先端の位
相)を予測する位相予測部22と、この位相予測部22
からの予測を上記ピッチ情報ととV/UV判別情報とが
供給される雑音付加部23からの修正項を用いて修正す
る位相修正部24と、この位相修正部24からの修正位
相情報に基づいて図示しない正弦波ROMから正弦波を
読みだし出力する正弦波発生部25と、上記振幅情報が
供給され上記正弦波発生部25からの正弦波の振幅を増
幅する振幅増幅部26とを有する。
報、V/UV判別情報及び振幅情報が供給され、例えば
ホワイトノイズを図示しないバンドパスフィルタでフィ
ルタリングして時間軸上の無声音波形を合成している。
1、無声音合成部27において合成された有声音及び無
声音の各信号を適当な固定の混合比で加算する。そし
て、この加算された音声信号は、出力端子3から音声信
号として出力される。
1内の位相予測部22では、時刻0(フレームの先頭)
における第m高調波の位相(フレーム初期位相)をψ0m
とすると、フレームの最後での位相ψLmを、 ψLm=ψ0m+m(ωO1+ωL1)L/2 ・・・(1) と予測する。また、各バンドの位相φm は、 φm =ψLm+εm ・・・(2) となる。上記(1)、(2)式中でLはフレームインタ
ーバル、ωO1は、合成フレームの先端(n=0)での基
本角周波数、ωL1は該合成フレームの終端(n=L:次
の合成フレーム先端)での基本角周波数、εm は各バン
ドでの予測修正項を示している。
は、第m高調波の平均角周波数に時刻を乗じ、それに第
m高調波の初期位相を加えた位相を時刻Lでの予測位相
として求めている。また、上記(2)式より、各バンド
の位相φm は、上記予測位相に予測修正項εm を加えた
値である。
が乱れており(ランダム)、乱数を用いることができる
が本実施例では、ガウス雑音を用いている。このガウス
雑音は、図2に示すように帯域別にみて高域になるにつ
れ(例えば、ε1 からε10)分散が大きくなる雑音であ
る。このガウス雑音は、位相の真の値と予測による値と
の誤差を適切に近似する。
にバンドにmに比例するものとすれば、上記予測修正項
εm は、 εm =h1 N(0,ki ) ・・・(3) と示される。ここで、h1 は定数、ki は分数、0は平
均を表す。
域に分割したときに、無声音の部分が多ければ音声を構
成する各周波数成分の位相はよりランダムになるので、
上記予測修正項εm は、 εm =h2 nujN(0,ki ) ・・・(4) と示すことができる。ここで、h2 は定数、ki は分
数、0は平均、nujはブロックjでの無声音バンドの数
を表す。
のように上述したような各バンド間での分布の乱れがな
い時、もしくは母音から子音及び無音に遷移する時に
は、上記(3)、(4)式で示された予測修正項がかえ
って合成音声の音質を劣化させるので、遅延が許される
のであれば1フレーム先の振幅情報(パワー)Sレベ
ル、もしくは有声音部分の減少を調べて上記修正項εm
を、 εm =h3 max(a,Sj −Sj+1 )N(0,ki ) ・・・(5) εm =h4 max(b,nvj−nv(j+1))N(0,ki )・・・(6) とする。ここで、a,b,h3 ,h4 は定数である。
ッチ情報が低い場合は、周波数バンドが増え、位相が揃
うことによる悪影響の増大を考慮して、上記上記修正項
εmを、 εm =f( Sj ,hj )N(0,ki ) ・・・(7) とする。ここで、fは周波数である。
装置に本発明を適用した実施例は、位相予測の修正に用
いる雑音をガウス性にすることで、その大きさと分散を
制御することができる。
音声信号の合成分析符号化装置(いわゆるボコーダ)の
一種であるMBE(Multiband Excitation: マルチバン
ド励起)ボコーダに適用した具体例について、図面を参
照しながら説明する。このMBEボコーダは、D. W. Gr
iffin and J. S. Lim,"Multiband Excitation Vocode
r," IEEE Trans.Acoustics,Speech,and Signal Process
ing, vol.36, No.8, pp.1223-1235, Aug.1988 に開示さ
れているものであり、従来のPARCOR(PARtial au
to-CORrelation: 偏自己相関)ボコーダ等では、音声の
モデル化の際に有声音区間と無声音区間とをブロックあ
るいはフレーム毎に切り換えていたのに対し、MBEボ
コーダでは、同時刻(同じブロックあるいはフレーム
内)の周波数軸領域に有声音(Voiced)区間と無声音
(Unvoiced)区間とが存在するという仮定でモデル化し
ている。
用した実施例の全体の概略構成を示すブロック図であ
る。この図3において、入力端子101には音声信号が
供給されるようになっており、この入力音声信号は、H
PF(ハイパスフィルタ)等のフィルタ102に送られ
て、いわゆるDC(直流)オフセット分の除去や帯域制
限(例えば200〜3400Hzに制限)のための少なく
とも低域成分(200Hz以下)の除去が行われる。この
フィルタ102を介して得られた信号は、ピッチ抽出部
103及び窓かけ処理部104にそれぞれ送られる。ピ
ッチ抽出部103では、入力音声信号データが所定サン
プル数N(例えばN=256)単位でブロック分割され
(あるいは方形窓による切り出しが行われ)、このブロ
ック内の音声信号についてのピッチ抽出が行われる。こ
のような切り出しブロック(256サンプル)を、例え
ば図4のAに示すようにLサンプル(例えばL=16
0)のフレーム間隔で時間軸方向に移動させており、各
ブロック間のオーバラップはN−Lサンプル(例えば9
6サンプル)となっている。また、窓かけ処理部104
では、1ブロックNサンプルに対して所定の窓関数、例
えばハミング窓をかけ、この窓かけブロックを1フレー
ムLサンプルの間隔で時間軸方向に順次移動させてい
る。
qはデータの時間インデックス(サンプル番号)を表
し、処理前の入力信号のq番目のデータx(q) に対して
第kブロックの窓(ウィンドウ)関数w(kL-q)により窓
かけ処理されることによりデータxw (k,q) が得られる
ことを示している。ピッチ抽出部103内での図4のA
に示すような方形窓の場合の窓関数wr (r) は、 wr (r) =1 0≦r<N ・・・(9) =0 r<0,N≦r また、窓かけ処理部104での図4のBに示すようなハ
ミング窓の場合の窓関数wh (r) は、 wh (r) = 0.54 − 0.46 cos(2πr/(N-1)) 0≦r<N ・・・(10) =0 r<0,N≦r である。このような窓関数wr (r) あるいはwh (r) を
用いるときの上記(8)式の窓関数w(r) (=w(kL-
q))の否零区間は、 0≦kL−q<N これを変形して、 kL−N<q≦kL 従って、例えば上記方形窓の場合に窓関数wr (kL-q)=
1となるのは、図5に示すように、kL−N<q≦kL
のときとなる。また、上記(8)〜(10)式は、長さN
(=256)サンプルの窓が、L(=160)サンプル
ずつ前進してゆくことを示している。以下、上記(9)
式、(10)式の各窓関数で切り出された各N点(0≦r
<N)の否零サンプル列を、それぞれxwr(k,r) 、xwh
(k,r) と表すことにする。
に、上記(10)式のハミング窓がかけられた1ブロック
256サンプルのサンプル列xwh(k,r) に対して179
2サンプル分の0データが付加されて(いわゆる0詰め
されて)2048サンプルとされ、この2048サンプ
ルの時間軸データ列に対して、直交変換部105により
例えばFFT(高速フーリエ変換)等の直交変換処理が
施される。
のサンプル列(1ブロックNサンプル)に基づいてピッ
チ抽出が行われる。このピッチ抽出法には、時間波形の
周期性や、スペクトルの周期的周波数構造や、自己相関
関数を用いるもの等が知られているが、本実施例では、
センタクリップ波形の自己相関法を採用している。この
ときのブロック内でのセンタクリップレベルについて
は、1ブロックにつき1つのクリップレベルを設定して
もよいが、ブロックを細分割した各部(各サブブロッ
ク)の信号のピークレベル等を検出し、これらの各サブ
ブロックのピークレベル等の差が大きいときに、ブロッ
ク内でクリップレベルを段階的にあるいは連続的に変化
させるようにしている。このセンタクリップ波形の自己
相関データのピーク位置に基づいてピッチ周期を決めて
いる。このとき、現在フレームに属する自己相関データ
(自己相関は1ブロックNサンプルのデータを対象とし
て求められる)から複数のピークを求めておき、これら
の複数のピークの内の最大ピークが所定の閾値以上のと
きには該最大ピーク位置をピッチ周期とし、それ以外の
ときには、現在フレーム以外のフレーム、例えば前後の
フレームで求められたピッチに対して所定の関係を満た
すピッチ範囲内、例えば前フレームのピッチを中心とし
て±20%の範囲内にあるピークを求め、このピーク位
置に基づいて現在フレームのピッチを決定するようにし
ている。このピッチ抽出部103ではオープンループに
よる比較的ラフなピッチのサーチが行われ、抽出された
ピッチデータは高精度(ファイン)ピッチサーチ部10
6に送られて、クローズドループによる高精度のピッチ
サーチ(ピッチのファインサーチ)が行われる。
には、ピッチ抽出部103で抽出された整数(インテジ
ャー)値の粗(ラフ)ピッチデータと、直交変換部10
5により例えばFFTされた周波数軸上のデータとが供
給されている。この高精度ピッチサーチ部106では、
上記粗ピッチデータ値を中心に、0.2〜0.5きざみで±
数サンプルずつ振って、最適な小数点付き(フローティ
ング)のファインピッチデータの値へ追い込む。このと
きのファインサーチの手法として、いわゆる合成による
分析 (Analysis by Synthesis)法を用い、合成されたパ
ワースペクトルが原音のパワースペクトルに最も近くな
るようにピッチを選んでいる。
する。先ず、上記MBEボコーダにおいては、上記FF
T等により直交変換された周波数軸上のスペクトルデー
タとしてのS(j) を S(j) =H(j) |E(j) | 0<j<J ・・・(11) と表現するようなモデルを想定している。ここで、Jは
ωs /4πに対応し、サンプリング周波数fs =ωs /
2πが例えば8kHzのときには4kHzに対応する。上記
(11)式中において、周波数軸上のスペクトルデータS
(j) が図7のAに示すような波形のとき、H(j) は、図
7のBに示すような元のスペクトルデータS(j) のスペ
クトル包絡線(エンベロープ)を示し、E(j) は、図7
のCに示すような等レベルで周期的な励起信号(エキサ
イテイション)のスペクトルを示している。すなわち、
FFTスペクトルS(j) は、スペクトルエンベロープH
(j)と励起信号のパワースペクトル|E(j) |との積と
してモデル化される。
|は、上記ピッチに応じて決定される周波数軸上の波形
の周期性(ピッチ構造)を考慮して、1つの帯域(バン
ド)の波形に相当するスペクトル波形を周波数軸上の各
バンド毎に繰り返すように配列することにより形成され
る。この1バンド分の波形は、例えば上記図6に示すよ
うな256サンプルのハミング窓関数に1792サンプ
ル分の0データを付加(0詰め)した波形を時間軸信号
と見なしてFFTし、得られた周波数軸上のある帯域幅
を持つインパルス波形を上記ピッチに応じて切り出すこ
とにより形成することができる。
ンド毎に、上記H(j) を代表させるような(各バンド毎
のエラーを最小化するような)値(一種の振幅)|Am
|を求める。ここで、例えば第mバンド(第m高調波の
帯域)の下限、上限の点をそれぞれam 、bm とすると
き、この第mバンドのエラーεm は、
うな|Am |は、
エラーεm を最小化する。このような振幅|Am |を各
バンド毎に求め、得られた各振幅|Am |を用いて上記
(12)式で定義された各バンド毎のエラーεm を求め
る。次に、このような各バンド毎のエラーεm の全バン
ドの総和値Σεm を求める。さらに、このような全バン
ドのエラー総和値Σεm を、いくつかの微小に異なるピ
ッチについて求め、エラー総和値Σεm が最小となるよ
うなピッチを求める。
られたラフピッチを中心として、例えば 0.25 きざみで
上下に数種類ずつ用意する。これらの複数種類の微小に
異なるピッチの各ピッチに対してそれぞれ上記エラー総
和値Σεm を求める。この場合、ピッチが定まるとバン
ド幅が決まり、上記(13)式より、周波数軸上データの
パワースペクトル|S(j) |と励起信号スペクトル|E
(j) |とを用いて上記(12)式のエラーεm を求め、そ
の全バンドの総和値Σεm を求めることができる。この
エラー総和値Σεm を各ピッチ毎に求め、最小となるエ
ラー総和値に対応するピッチを最適のピッチとして決定
するわけである。以上のようにして高精度ピッチサーチ
部106で最適のファイン(例えば 0.25 きざみ)ピッ
チが求められ、この最適ピッチに対応する振幅|Am |
が決定される。
ては、説明を簡略化するために、全バンドが有声音(Vo
iced)の場合を想定しているが、上述したようにMBE
ボコーダにおいては、同時刻の周波数軸上に無声音(Un
voiced)領域が存在するというモデルを採用しているこ
とから、上記各バンド毎に有声音/無声音の判別を行う
ことが必要とされる。
適ピッチ及び振幅|Am |のデータは、有声音/無声音
判別部107に送られ、上記各バンド毎に有声音/無声
音の判別が行われる。この判別のために、NSR(ノイ
ズtoシグナル比)を利用する。すなわち、第mバンド
のNSRは、
ば0.3)より大のとき(エラーが大きい)ときには、そ
のバンドでの|Am ||E(j) |による|S(j) |の近
似が良くない(上記励起信号|E(j) |が基底として不
適当である)と判断でき、当該バンドをUV(Unvoice
d、無声音)と判別する。これ以外のときは、近似があ
る程度良好に行われていると判断でき、そのバンドをV
(Voiced、有声音)と判別する。
部105からの周波数軸上データ、高精度ピッチサーチ
部106からのファインピッチと評価された振幅|Am
|との各データ、及び上記有声音/無声音判別部107
からのV/UV(有声音/無声音)判別データが供給さ
れている。この振幅再評価部108では、有声音/無声
音判別部107において無声音(UV)と判別されたバ
ンドに関して、再度振幅を求めている。このUVのバン
ドについての振幅|Am |UVは、
データ数変換(一種のサンプリングレート変換)部10
9に送られる。このデータ数変換部109は、上記ピッ
チに応じて周波数軸上での分割帯域数が異なり、データ
数(特に振幅データの数)が異なることを考慮して、一
定の個数にするためのものである。すなわち、例えば有
効帯域を3400Hzまでとすると、この有効帯域が上記
ピッチに応じて、8バンド〜63バンドに分割されるこ
とになり、これらの各バンド毎に得られる上記振幅|A
m |(UVバンドの振幅|Am |UVも含む)データの個
数mMX+1も8〜63と変化することになる。このため
データ数変換部109では、この可変個数mMX+1の振
幅データを一定個数NC (例えば44個)のデータに変
換している。
有効帯域1ブロック分の振幅データに対して、ブロック
内の最後のデータからブロック内の最初のデータまでの
値を補間するようなダミーデータを付加してデータ個数
をNF 個に拡大した後、帯域制限型のKOS倍(例えば8
倍)のオーバーサンプリングを施すことによりKOS倍の
個数の振幅データを求め、このKOS倍の個数(( mMX+
1) ×KOS個)の振幅データを直線補間してさらに多く
のNM 個(例えば2048個)に拡張し、このNM 個の
データを間引いて上記一定個数NC (例えば44個)の
データに変換する。
(上記一定個数NC の振幅データ)がベクトル量子化部
110に送られて、所定個数のデータ毎にまとめられて
ベクトルとされ、ベクトル量子化が施される。ベクトル
量子化部110からの量子化出力データは、出力端子1
11を介して取り出される。また、上記高精度のピッチ
サーチ部106からの高精度(ファイン)ピッチデータ
は、ピッチ符号化部115で符号化され、出力端子11
2を介して取り出される。さらに、上記有声音/無声音
判別部107からの有声音/無声音(V/UV)判別デ
ータは、出力端子113を介して取り出される。これら
の各出力端子111〜113からのデータは、所定の伝
送フォーマットの信号とされて伝送される。
ル(例えば256サンプル)のブロック内のデータに対
して処理を施すことにより得られるものであるが、ブロ
ックは時間軸上を上記Lサンプルのフレームを単位とし
て前進することから、伝送するデータは上記フレーム単
位で得られる。すなわち、上記フレーム周期でピッチデ
ータ、V/UV判別データ、振幅データが更新されるこ
とになる。
基づき音声信号を合成するための合成側(デコード側)
の概略構成について、図8を参照しながら説明する。こ
の図8において、入力端子121には上記ベクトル量子
化された振幅データが、入力端子122には上記符号化
されたピッチデータが、また入力端子123には上記V
/UV判別データがそれぞれ供給される。入力端子12
1からの量子化振幅データは、逆ベクトル量子化部12
4に送られて逆量子化され、データ数逆変換部125に
送られて逆変換され、得られた振幅データが有声音合成
部126及び無声音合成部127に送られる。入力端子
122からの符号化ピッチデータは、ピッチ復号化部1
28で復号化され、データ数逆変換部125、有声音合
成部126及び無声音合成部127に送られる。また入
力端子123からのV/UV判別データは、有声音合成
部126及び無声音合成部127に送られる。
e)波合成により時間軸上の有声音波形を合成し、無声音
合成部127では例えばホワイトノイズをバンドパスフ
ィルタでフィルタリングして時間軸上の無声音波形を合
成し、これらの各有声音合成波形と無声音合成波形とを
加算部129で加算合成して、出力端子130より取り
出すようにしている。この場合、上記振幅データ、ピッ
チデータ及びV/UV判別データは、上記分析時の1フ
レーム(Lサンプル、例えば160サンプル)毎に更新
されて与えられるが、フレーム間の連続性を高める(円
滑化する)ために、上記振幅データやピッチデータの各
値を1フレーム中の例えば中心位置における各データ値
とし、次のフレームの中心位置までの間(合成時の1フ
レーム)の各データ値を補間により求める。すなわち、
合成時の1フレーム(例えば上記分析フレームの中心か
ら次の分析フレームの中心まで)において、先端サンプ
ル点での各データ値と終端(次の合成フレームの先端)
サンプル点での各データ値とが与えられ、これらのサン
プル点間の各データ値を補間により求めるようにしてい
る。
理を詳細に説明する。上記V(有声音)と判別された第
mバンド(第m高調波の帯域)における時間軸上の上記
1合成フレーム(Lサンプル、例えば160サンプル)
分の有声音をVm (n) とするとき、この合成フレーム内
の時間インデックス(サンプル番号)nを用いて、 Vm (n) =Am (n) cos(θm (n)) 0≦n<L ・・・(16) と表すことができる。全バンドの内のV(有声音)と判
別された全てのバンドの有声音を加算(ΣVm (n) )し
て最終的な有声音V(n) を合成する。
レームの先端から終端までの間で補間された第m高調波
の振幅である。最も簡単には、フレーム単位で更新され
る振幅データの第m高調波の値を直線補間すればよい。
すなわち、上記合成フレームの先端(n=0)での第m
高調波の振幅値をA0m、該合成フレームの終端(n=
L:次の合成フレームの先端)での第m高調波の振幅値
をALmとするとき、 Am (n) = (L-n)A0m/L+nALm/L ・・・(17) の式によりAm (n) を計算すればよい。
上記合成フレームの先端(n=0)での第m高調波の位
相(フレーム初期位相)を示し、ω01は合成フレーム先
端(n=0)での基本角周波数、ωL1は該合成フレーム
の終端(n=L:次の合成フレーム先端)での基本角周
波数をそれぞれ示している。上記(18)式中のΔωは、
n=Lにおける位相φLmがθm (L) に等しくなるような
最小のΔωを設定する。
(18) 式のφ0m+Δωnを合成側に送らずに、合成側で
位相を予測算出している。すなわち、上記位相予測部2
2は、上記(1)式に示されるように時刻0(フレーム
の先頭)における第m高調波の位相(フレーム初期位
相)ψ0mにm(ωO1+ωL1)L/2 を加えフレームの
最後での位相ψLmを、予測算出している。また、各バン
ドの位相φm は、上記予測算出された位相ψLmにεm を
加えて示される。このεm は各バンドでの予測修正項を
示している。本発明では、この予測修正項εm にガウス
性の雑音を用いている。
ルの一例を示しており、バンド番号(ハーモニクスナン
バ)mが8、9、10の各バンドがUV(無声音)とさ
れ、他のバンドはV(有声音)とされている。このV
(有声音)のバンドの時間軸信号が上記有声音合成部1
26により合成され、UV(無声音)のバンドの時間軸
信号が無声音合成部127で合成されるわけである。
合成処理を説明する。ホワイトノイズ発生部131から
の時間軸上のホワイトノイズ信号波形を、所定の長さ
(例えば256サンプル)で適当な窓関数(例えばハミ
ング窓)により窓かけをし、STFT処理部132によ
りSTFT(ショートタームフーリエ変換)処理を施す
ことにより、図9のBに示すようなホワイトノイズの周
波数軸上のパワースペクトルを得る。このSTFT処理
部132からのパワースペクトルをバンド振幅処理部1
33に送り、図9のCに示すように、上記UV(無声
音)とされたバンド(例えばm=8、9、10)につい
て上記振幅|Am |UVを乗算し、他のV(有声音)とさ
れたバンドの振幅を0にする。このバンド振幅処理部1
33には上記振幅データ、ピッチデータ、V/UV判別
データが供給されている。バンド振幅処理部133から
の出力は、ISTFT処理部134に送られ、位相は元
のホワイトノイズの位相を用いて逆STFT処理を施す
ことにより時間軸上の信号に変換する。ISTFT処理
部134からの出力は、オーバーラップ加算部135に
送られ、時間軸上で適当な(元の連続的なノイズ波形を
復元できるように)重み付けをしながらオーバーラップ
及び加算を繰り返し、連続的な時間軸波形を合成する。
オーバーラップ加算部135からの出力信号が上記加算
部129に送られる。
いて合成されて時間軸上に戻された有声音部及び無声音
部の各信号は、加算部129により適当な固定の混合比
で加算して、出力端子130より再生された音声信号を
取り出す。
法を、MBEに適用した具体例では、位相の予測に用い
る雑音をガウス性にすることでその大きさと分散を制御
することができる。
側)の構成や図7の音声合成側(デコード側)の構成に
ついては、各部をハードウェア的に記載しているが、い
わゆるDSP(ディジタル信号プロセッサ)等を用いて
ソフトウェアプログラムにより実現することも可能であ
る。
ック毎の音声信号を周波数軸に変換して得られる周波数
軸上データをブロック毎の音声信号から求められたピッ
チ情報に基づいて分割した複数帯域毎にパワー情報及び
有声音か無声音かの判別情報を分析側で求めて伝送し、
合成側では伝送されて得られた各ブロック毎の上記ピッ
チ情報とブロック初期位相とに基づいてブロック終端位
相を予測し、該予測された終端位相を上記各帯域に応じ
た分散を持つガウス性雑音を用いて修正することによっ
て、雑音の大きさと分散を制御でき、音質の向上が期待
できる。また、音声の信号レベル及びその時間的変化を
利用することで、エラーの累積を防ぎ母音部もしくは母
音部から子音部の遷移点での音質劣化を防ぐことができ
る。
ーダに適用した具体例の機能ブロック図である。
ウス性雑音を説明するための特性図である。
置の具体例としての音声信号の合成分析符号化装置の分
析側(エンコード側)の概略構成を示す機能ブロック図
である。
図である。
ータを示す図である。
絡線(エンベロープ)及び励起信号のパワースペクトル
を示す図である。
置の具体例としての音声信号の合成分析符号化装置の合
成側(デコード側)の概略構成を示す機能ブロック図で
ある。
ための図である。
Claims (2)
- 【請求項1】 入力された音声信号をブロック単位で区
分してブロック内でのピッチ情報を求める工程と、 上記ブロック毎の音声信号を周波数軸に変換して周波数
軸上データを求める工程と、 この周波数軸上データを上記ピッチ情報に基づいて複数
の帯域に分割する工程と、 分割された各帯域毎のパワー情報及び有声音か無声音か
の判別情報を求める工程と、 これらの工程により求められた上記ピッチ情報、各帯域
毎のパワー情報及び有声音か無声音かの判別情報を伝送
する工程と、 伝送されて得られた各ブロック毎の上記ピッチ情報とブ
ロック初期位相とに基づいてブロック終端位相を予測す
る工程と、 上記各帯域に応じた分散を持つ雑音を用いて上記予測さ
れたブロック終端位相を修正する工程とを有することを
特徴とする音声分析合成方法。 - 【請求項2】 上記雑音は、ガウス性雑音であることを
特徴とする請求項1記載の音声分析合成方法。 【0000】
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09226292A JP3398968B2 (ja) | 1992-03-18 | 1992-03-18 | 音声分析合成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP09226292A JP3398968B2 (ja) | 1992-03-18 | 1992-03-18 | 音声分析合成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH05265486A true JPH05265486A (ja) | 1993-10-15 |
JP3398968B2 JP3398968B2 (ja) | 2003-04-21 |
Family
ID=14049497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP09226292A Expired - Lifetime JP3398968B2 (ja) | 1992-03-18 | 1992-03-18 | 音声分析合成方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3398968B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004049304A1 (ja) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | 音声合成方法および音声合成装置 |
JP2005208627A (ja) * | 2003-12-25 | 2005-08-04 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
CN111081265A (zh) * | 2019-12-26 | 2020-04-28 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
-
1992
- 1992-03-18 JP JP09226292A patent/JP3398968B2/ja not_active Expired - Lifetime
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004049304A1 (ja) * | 2002-11-25 | 2004-06-10 | Matsushita Electric Industrial Co., Ltd. | 音声合成方法および音声合成装置 |
US7562018B2 (en) | 2002-11-25 | 2009-07-14 | Panasonic Corporation | Speech synthesis method and speech synthesizer |
JP2005208627A (ja) * | 2003-12-25 | 2005-08-04 | Casio Comput Co Ltd | 音声分析合成装置、及びプログラム |
CN111081265A (zh) * | 2019-12-26 | 2020-04-28 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
CN111081265B (zh) * | 2019-12-26 | 2023-01-03 | 广州酷狗计算机科技有限公司 | 音高处理方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3398968B2 (ja) | 2003-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3277398B2 (ja) | 有声音判別方法 | |
KR100348899B1 (ko) | 캡스트럼 분석을 이용한 하모닉 노이즈 음성 부호화기 및부호화 방법 | |
US5630012A (en) | Speech efficient coding method | |
US6871176B2 (en) | Phase excited linear prediction encoder | |
JPH0869299A (ja) | 音声符号化方法、音声復号化方法及び音声符号化復号化方法 | |
JP3687181B2 (ja) | 有声音/無声音判定方法及び装置、並びに音声符号化方法 | |
JPH0990968A (ja) | 音声合成方法 | |
JP2779325B2 (ja) | ボコーダーにおける前処理の相関関係式を用いたピッチ検索時間短縮方法 | |
US6115685A (en) | Phase detection apparatus and method, and audio coding apparatus and method | |
US6535847B1 (en) | Audio signal processing | |
JP3297749B2 (ja) | 符号化方法 | |
JP3297751B2 (ja) | データ数変換方法、符号化装置及び復号化装置 | |
JP3218679B2 (ja) | 高能率符号化方法 | |
JP3237178B2 (ja) | 符号化方法及び復号化方法 | |
JP3398968B2 (ja) | 音声分析合成方法 | |
JP3362471B2 (ja) | 音声信号の符号化方法及び復号化方法 | |
JP3223564B2 (ja) | ピッチ抽出方法 | |
JP3297750B2 (ja) | 符号化方法 | |
JP3271193B2 (ja) | 音声符号化方法 | |
JP3321933B2 (ja) | ピッチ検出方法 | |
JPH06202695A (ja) | 音声信号処理装置 | |
JP3218681B2 (ja) | 背景雑音検出方法及び高能率符号化方法 | |
JP3221050B2 (ja) | 有声音判別方法 | |
JP3218680B2 (ja) | 有声音合成方法 | |
JPH05265489A (ja) | ピッチ抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20020910 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030121 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080221 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090221 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100221 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100221 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110221 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120221 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130221 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130221 Year of fee payment: 10 |