[go: up one dir, main page]

JPH0644199B2 - 可変長フレ−ム音声分析合成方式 - Google Patents

可変長フレ−ム音声分析合成方式

Info

Publication number
JPH0644199B2
JPH0644199B2 JP59159846A JP15984684A JPH0644199B2 JP H0644199 B2 JPH0644199 B2 JP H0644199B2 JP 59159846 A JP59159846 A JP 59159846A JP 15984684 A JP15984684 A JP 15984684A JP H0644199 B2 JPH0644199 B2 JP H0644199B2
Authority
JP
Japan
Prior art keywords
representative
section
frame
approximation
parameter vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59159846A
Other languages
English (en)
Other versions
JPS6136800A (ja
Inventor
哲 田口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP59159846A priority Critical patent/JPH0644199B2/ja
Publication of JPS6136800A publication Critical patent/JPS6136800A/ja
Publication of JPH0644199B2 publication Critical patent/JPH0644199B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 (技術分野) 本発明は可変長フレーム音声分析合成方式、とくに、例
えば10秒程度の比較的長い音声信号を全体として最適
な可変長フレーム処理を行なうようにした可変長フレー
ム音声分析合成方式に関するものである。
(従来技術) 例えば10秒程度を単位とする音声信号の分析合成に
は、ボイスメール,パブリックアドレス等の種種の利用
分野が考えられる。このような音声信号の分析合成に可
変長フレーム処理を適用して情報量の圧縮等を図る場合
は、一般に、下記のように行なわれる。
すなわち、例えば10秒の区間を50等分して、200
mSEC程度の区分を作り、この各区分ごとに独立に可変
長フレーム処理を行なうという方式が用いられる。
しかしながらこの方式によると、200mSECの各区分
ごとには最適の可変長フレーム処理を行なうことができ
るが、10秒を全体として見た場合には必らずしもまだ
最適化が達成されていないという欠点を有している。
一方、はじめから10秒全体を一単位として、ダイナミ
ックプログラミング(DP)を用いた可変長フレーム処
理により最適化を行うことも理論的には可能であるが、
こうするとDPを行なうための演算量が莫大なものとな
り、また分析合成装置では遅延が大となり、伝送路エラ
ーに対して復元性に欠ける等の問題が生じ現実的でな
い。
(発明の目的) 本発明の目的は、10秒程度の比較的長い単位の音声信
号を全体として可変長フレーム処理による最適化を行な
い情報量のより効率的な圧縮を可能にする現実的な可変
長フレーム音声分析合成方式を提供するにある。
(発明の構成) 本発明の方式は、予め定めた一定の分析周期ごとに周期
的に入力音声信号を分析して特徴パラメータベクトルを
抽出する音声分析手段と、予め定めた複数個の相連続す
る前記分析周期からなる各区分ごとに各区分中の前記特
徴パラメータベクトルから任意の数の代表パラメータベ
クトルを選出して各区分を区分的最適関数近似を行なっ
た場合に得られる各区分ごとの前記代表パラメータベク
トルの構成とこの場合の各区分ごとの最適近似による残
留歪とを演算する区分的最適関数近似手段と、予め定め
た複数個の相連続する前記区分からなる大区間において
前記区分的最適関数近似手段により演算された各区分ご
との前記残留歪を比較して残留歪の最も大きい区分の前
記代表パラメータベクトルの構成をより多くの前記代表
パラメータベクトルを含む前記代表パラメータベクトル
の構成に置換えるという処理ステップを繰返すことによ
り前記大区間を最適近似する予め定めた数のすべての代
表パラメータベクトルを選出するようにした相互最適フ
レーム選択手段とを有する。
(実施例) 次に図面を参照して本発明を詳細に説明する。第1図は
本発明の一実施例を示すブロック図である。
本実施例は音声分析側1と音声合成側2とよりなる。
分析側1はさらに、低域波器およびA/D変換器(L
PF&A/D)101、窓関数処理器102、LSP分
析器103、区分的最適関数近似器104、総合最適フ
レーム選択器105、量子化器106、音源情報分析器
107、コーダ108、およびメモリ109を含み、ま
た、合成側2は、メモリ201、デコーダ202、パル
ス発振器203、雑音発生器204、V/UV切替器2
05、電力制御器206、LSP合成フィルタ207、
D/A変換器および低域波器’(D/A&LPF)2
08、および補間器209を含んでいる。
本実施例の動作は下記の通りである。
ライン1000から入力した音声信号は、低域波器および
A/D変換器(LPF&A/D)101において、周波数帯
域が例えば3.4kHzに制限された後、8kHzのサンプリ
ング周波数でサンプルされ、量子化されてディジタルデ
ータに変換され、こうして得られたデータは窓関数処理
器102に供給される。
窓関数処理器102は供給されたデータの1ブロック分
(例えば240サンプル)を一時的に記憶し、これに予
め定まっている窓関数による荷重乗算を施こし、この処
理結果のデータをLSP分析器103および音源情報分
析器107に供給する。窓関数処理器102によるこの
ような処理は例えば10mSECごとの周期で繰返され
る。従って、LSP分析器103および音源情報分析器
107は10mSECの周期で1ブロック分の窓関数処
理されたデータの供給を受ける。
さてLSP分析器103は供給された1ブロック分のデ
ータを用いて公知の手法によるLSP(線スペクトル
対)分析を行ない、LSPパラメータベクトルを決定す
る。このLSPパラメータベクトルは、S(偶数)個の
成分をもつS次元のベクトル =(P,P,…,P) で、この各成分P〜Pは、この1ブロック分の音声
を発声するときの声道の形態に関する情報を共振周波数
の組の形で抽出したデータである。上述のように、この
ようなLSPパラメータベクトルの生成は10mSEC
の基本分析周期ごとに行なわれ、かくして得られたベク
トルの各成分は、次の区分的最適関数近似器104に
各基本分析周期の10mSEC(以後これを基本フレーム
と呼ぶ)ごとに供給される。
さて、区分的最適関数近似器104は、こうしてつぎつ
ぎに連続して供給されるパラメータベクトルのK個ずつ
を一つにまとめて取扱う。
すなわち、各基本フレームはそれぞれこの基本フレーム
に属するパラメータベクトルによって代表されている
が、この相連続するKの個の基本フレームを一つにまと
めて、これを一区分とし、この各区分ごとに、以下に示
すような区分的最適関数近似の処理を行なう。ここでは
この区分的最適関数近似に用いる関数として矩形近似を
行なう場合について説明する。また1区分中の基本フレ
ーム数を20個(つまりK=20)、したがって1区分
の時間長を200mSECと仮定する。
さて、区分的最適関数近似器104による処理は以下の
ようなものである。
すなわち、1区分中の20個の基本フレームの中からi
個(i=1,2,…,20)の代表フレームを選び、こ
の代表フレームに属するパラメータベクトルを用いて、
この区分中の他の基本フレームに属するパラメータベク
トルをも代表(近似)させ、これによって矩形近似を行
なう。こうして、この近似による歪が最小になるよう
に、前述のi個の代表フレーム(代表ベクトル)を選出
する。またこのときのi個の代表フレームで近似したと
きに達し得られる歪の最小値Eも同時に求める。
なお、この場合の矩形近似による歪は以下のようにして
演算される。
例えば今、i=2として、2個の代表フレームのパラメ
ータベクトルを用いて矩形近似を行なう場合について説
明すると、第1の代表フレームとして第4番目の基本フ
レームが選択され、この代表フレームに属するパラメー
タベクトル(4)を第1の代表バクトルとして第1番目
の基本フレームから第9番目の基本フレームまでの9個
の区間を近似し、次に第2の代表フレームとして、第1
3番目の基本フレームが選択され、この代表フレームに
属するパラメータベクトル(13)を第2の代表ベクトル
として残りの第10番目の基本フレームから第20番目
の基本フレームまでの11個の区間を近似した場合にお
ける矩形近似による歪は以下に示すようにして求められ
る。
但しW(l=1,2,…S)は、パラメータベクトル
の各成分のスペクトル位置における差によって歪に与え
る影響が異なってくるのを補正するための予め定めた荷
重係数である。
例えばi=2と与えた場合の最適矩形近似とは、このよ
うにして求められる歪が最小になるような、2個の代表
ベクトルを含む代表パラメータベクトルの構成を決定す
ること、つまり2個の代表フレームと、各代表フレーム
に属するパラメータベクトルが代表すべき2個の基本フ
レーム区間とを決定することである。これとともにこの
決定された代表パラメータベクトルの構成により達し得
られた残留歪の値をもデータとして求めておく。
以上に述べた演算はダイナミックプログラミング(D
P)を用いて容易に行なうことができる。
今、区分の最初からa個の基本フレームでできる区間
を、最後の基本フレーム(第a番目の基本フレーム)を
含むb個の代表フレームで近似した場合に達し得られる
最小の歪(残留歪)をG(b,a)と定義すると、b=
1、つまり代表ベクトルの数が1個の場合には、代表パ
ラメータベクトルの構成は(a)が第1番目から第a番
目までの基本フレームの区間を代表するので残留歪G
(1,a)は、 となり、a=1〜20に対して一義的に定まる。
但しdk,aは第k番目の基本フレームのパラメータベ
クトルを第a番目の基本フレーム(代表フレーム)のパ
ラメータベクトル(代表ベクトル)で代表した場合の歪
である。
次に、第x番目の基本フレームから第y番目の基本フレ
ームの区間(但しy>xとする)を両端を代表フレーム
として近似する場合(つまりこの区間を代表ベクトルP
(x)(y)を用いて近似する場合)に達し得られる最小
の歪をDx,yで表わすDx,yで容易に求めることができる。このDx,yは、代表ベ
クトル(x)の代表する区間を最初は第X番目の基本フ
レームだけ、次には第X番目と第X+1番目の基本フレ
ームの区間、さらにつぎには第X番目、第X+1番目お
よび第X+2番の基本フレームの区間というように次次
に増してゆき、残りの区間を(y)で代表させた場合の
歪をそれぞれ求めてその中の最小の歪を選出したもので
ある。
さて以上に求めたG(1,a)とDx,yとを用いて、
代表フレーム数を2個とした場合のG(2,a)を下記
のようにして容易に求めることができる。
すなわち、第1の代表フレームとして、第a−1番目の
基本フレームを選んだ場合(勿論第2の代表フレームは
第a番目の基本フレームである)の歪は明らかに上式右
辺の第1番目に示すG(1,a−1)である。
次に第1の代表フレームを一つだけ前に進めて第a−2
番目に選んだ場合には達し得られる歪の最小値は、上式
右辺の第2番目に示すG(1,a−2)+Da−2,a
となる。すなわち、G(1,a−2)は第1番目から第
a−2番目までの区間を第a−2番目の基本フレームに
よる代表フレーム(代表ベクトル(a−2)で代表し
た場合の歪を表わしDa−2,aは第a−2番目から第
a番目までの区間をその両端の第a−2番目と第a番目
の基本フレームによる代表フレーム(代表ベクトルP
(a−2)(a)で代表した場合に達し得られる最
小の歪を表わしていてこの場合の最小の歪は両者の和に
なることは明らかである(第a−2番目の基本フレーム
の歪は0になるのでG(1,a−2)とDa−2との代
表する区間はこの基本フレームでダブッてもよい。) 同様にして第1の代表フレームを一つずつ前に進め、こ
のときに達し得られる最小歪を次次に求める。
第1の代表フレームを最も前に進めて、第1番目の基本
フレームに選んだ場合には、達し得られる最小歪として
上式右辺の最も下に示すG(1,1)+D1,aになる
ことは明らかである。勿論G(1,1)=0である。
以上より、第1番目から第a番目までの区間を、2個の
代表フレーム(但しその中の一つは第a番目の基本フレ
ームを代表フレームとする)で代表した場合に達し得ら
れる最小歪(残留歪)G(2,a)は以上に得られたす
べての歪の中の最小の歪を選出することによって求めら
れこれは上式によって示される。こうして残留歪G
(2,a)が求められるが、これとともにこの残留歪を
与える場合の代表パラメータベクトルの構成、つまり二
つの代表ベクトル(X)(a)およびそれぞれの
代表ベクトルが代表する区間幅B,a−Bとが定ま
る。こうしてG(2,a)およびそれに対応する代表パ
ラメータベクトルの構成もa=1〜20に対してすべて
求められる。
さらに代表フレーム数を一個増した場合のG(3,a)
は、上に求めたG(2,a)とDx,yを用いてG
(2,a)と全く同様にして下式により求められる。
こうしてG(3,a)がa=3〜20に対して求められ
ると、次に代表フレーム数をさらに一個増したG(4,
a)が全く同様にしてa=4〜20に対して求められ
る。
このようにして、DPを用いることにより代表フレーム
数を次次に増して達し得られる歪の最小値を求めてゆく
ことにより、任意のi,j(但しj=1,2,…20:
ij)に対するG(i,j)および、そのときの代表
パラメータベクトルの構成つまり、i個の代表ベクトル
と各代表ベクトルが代表する基本フレームの区間幅の
組をすべて決定することができる。
こうして求められたG(i,20)は、基本フレーム2
0個からなる前述の一つの区分をi個の代表フレームで
近似する場合に達し得られる歪の最小値を表わしている
が、前述したようにi個の代表フレームの中の1個は第
20番目の基本フレームを用いるという拘束条件が入っ
ている。
この拘束条件を除いて、基本フレーム20個からなる一
区分の中に任意のi個の代表フレームを選んで最適近似
をする場合に達し得られる歪の最小値(残留歪)をE
とすると、Eは、上に求めた(i,j)を用いて以下
のようにして求められる。
今、第k番目の基本フレームから第20番目の基本フレ
ームまでの区間を第k番目の基本フレームを代表フレー
ムとして用いて(つまり(k)を用いて)近似する場
合の歪をDで表わすと、 として容易に求められる。
このDを用いると。例えばEは、 として求められ、また任意のi(但しi=1,2,…2
0)に対するEとして求めることができる。こうしてEが求まると、
前述のように、この残留歪を与える代表パラメータベク
トルの構成つまりi個の代表ベクトルの組と、これらの
i個の各代表ベクトルが代表する基本フレームの区間幅
を表わすi個の数の組と、が決定される。
さて、区分的最適関数近似器104は、基本フレーム2
0個分(時間長200mSEC)からなる各区分ごとに、
上述の演算を行なって、任意のi個の代表ベクトルを含
む代表パラメータベクトルの構成と、この構成をとる場
合の残留歪とを決定する。つまり、区分的最適関数近似
器104は、各区分ごとに、上述の演算を行なってE
(但しi=1〜20のすべて)の組{E}および、各E
に対応するi個の代表ベクトルの組{}およびこ
れらの代表ベクトルの代表するi個の区間の幅Bの組
{B}を決定し、これらのデータを次の総合最適フレー
ム選択器105に供給する。
総合最適フレーム選択器105は、以上に述べた基本フ
レーム20個分よりなる1区分をさらに例えば50個分
集めてなる大区間(例えば時間長10SEC)に対する最
適フレーム選択の処理を行なう処理器である。
選択器105は上述のようにして供給された、各区分毎
のデータ{E},{}および{B}をそれぞれ少くも
1大区間分(50区分分)だけ貯わえられるメモリを有
し、一つの大区間分の上述のデータの供給が終了する
と、これらのデータを用いて以下に説明するような総合
最適フレーム選択処理を開始する。
さて、各区分ごとの{E}は選択器105のメモリのワ
ークエリヤに、第2図に示すようなマトリクス状のテー
ブルとして格納される。但し▲E(j) ▼の上方のサ
フィックスの(j)はこれが第j番目の区分の歪であるこ
とを示し、下方のサフィックスのiは、この区分をi個
の代表フレーム(i個の代表ベクトル)で最適矩形近似
を行なった場合に達し得られる歪の最小値(残留歪)で
あることを表わしている。従って同じ(j)の値に対して
は(同じ縦列内においては)iが大きくなる程▲(j)
▼が小さくなることは明らかである。
本実施例においては、上述の如く、区分的最適関数近似
器104は、区分的最適関数近似により、各区分毎に、
任意のi個を代表フレームとして選んだ場合における最
適近似の残留歪Eをすべて求めてこれに関係するデー
タを供給しているが、実際に各区分毎の代表パラメータ
ベクトル構成としてこれらの中からいかにその一つを選
択すべきかについてはこれを決定していない。
これに対して総合最適フレーム選択器105は、各大区
間を代表する代表フレーム(代表ベクトル)の総数を、
予めN個と固定した場合に、できるかぎりこの大区間に
おける全体の歪が、各区分ごとにバランスして小さくな
るように、この大区間における代表フレーム構成を選択
決定する機能を有している。
この大区間における代表フレーム(代表ベクトル)の総
数Nとしては、各区分毎の代表フレーム数の平均値を、
例えば5個とするとN=5×50=250となる。
総合最適フレーム選択処理は、上述の第2図に示すテー
ブルを用いて以下に示すアルゴリズムに従って行なわれ
る。
(A0):最初に、各区分ごとに代表フレームを1個ず
つ選出するものとして、N=50と設定する。この場合
には、上述のマトリクスの第1の横列▲E(i)
(但しj=1〜50)の内容が各区分の歪を表わしてい
る。勿論各区分内においては1個の代表フレーム(代表
ベクトル)を用いた場合の最適近似が行なわれている。
(A1):上述の第1の横列▲E(i) ▼(j=1〜
50)の内容を比較して、この中の最大値をとる▲E
(i) ▼を選出する。すなわち上述のような大区間の
代表フレーム構成をとった場合において最大の歪を生ず
る区分を選出する。
(A2):上に選出された最大値を▲E(m) ▼とす
る。すなわち、第m番目の縦列(第m番目の区分)に属
する歪が選出されたとすると、その縦列がすべての▲E
(m) ▼を一個分だけ上方にシフトする。すなわち、
▲E(m) ▼を▲E(m) i+1▼でおきかえる(但
し、i=1,2,…,19)。
明らかに、▲E(j) 20▼は(j)の値如何にかかわら
ず常に0であるので、このような上方シフトを行なうこ
とによって、シフトされた縦列の後尾には0が一つだけ
増すことになる。
以上の(A1),(A2)による処理は、この大区間の
代表フレーム構成において最大の歪を発生する区分を見
出し、この区分の代表フレーム数だけを1個増して、こ
の区分をより高度の近似に更新するという処理になって
いる。
(A3):上述の(A2)の処理により大区間の代表フ
レーム数が1個増したことに対応してNの値を1だけ増
加する。この結果Nの値が予め定めた大区間における代
表フレームの総数250に達した場合には、次の(A
4)の処理を行ない、これに達しない場合には、再び
(A1)の処理に戻り、この大区間の代表フレーム構成
において最大歪を発生する区分を見出し、この区分の代
表フレーム数だけを1個増加して最適近似の更新を行な
うという処理を繰返す。
(A4):以上の処理により、前述の▲E(j) ▼テ
ーブルの第1番目の横列には、この大区間を250代表
フレームを用いて最適近似を行なった場合の各区分に対
する残留歪が示されている。またこのテーブルの各j
(j=1〜50)に対する縦列の後尾に含まれる0の数
をMとすると、前述のような理由から、この数M
は、拾度この大区間に対する近似が行なわれた場合
の、各j番目の区分に対する代表フレームの数を表わす
ことになる。
以上の理由により、大区間を250代表フレームを用い
て最適近似を行なった場合の、各区分における代表ベク
トルの数、各代表ベクトルの成分の値、および各代表ベ
クトルが代表する区間幅の構成が決定されたので、選択
器105は、これらの各区分の代表ベクトルの成分の
値、およびこの代表ベクトルが代表する各区間幅(基本
フレーム数)の値を貯えられているメモリ領域から読出
して、各代表ベクトルの成分の値をつぎつぎに、量子化
器106に供給するとともに、この各代表ベクトルが代
表する区間幅(基本フレーム数)の値を、このベクトル
の各基本フレームごとの繰返しを指定する数としてコー
ダ108に供給する。
量子化器106は、供給された各代表ベクトルの成分
を、伝送路および伝送品質の要求り定まる粗さで再量子
化した後、コーダ108に供給する。
一方、音源情報分析器107は窓関数処理器102から
供給された音声データより、ピッチ情報、有声音/無声
音情報(V/UV)、音量情報等を公知の手段を用いて
抽出し、これらの情報をコーダ108に供給する。
コーダ108は、以上のようにして供給された各情報
を、伝送に適する形に合成符号化してメモリ109に供
給する。
メモリ109は、供給されたデータを音声の蓄積伝送を
行なうために一時記憶し、伝送路1200の空き状態に応じ
て合成側2に送出する。
さて、合成側2においては、伝送路1200を介して伝送さ
れたデータは、いったん、メモリ201に貯えられ、音
声発生の必要に応じてこのメモリ201から流出され、
以下の処理によって音声が再現される。
すなわち、メモリ201から読出されたデータは、デコ
ーダ202によってデコードされ、これにより分析側1
のコーダ108の入力側に供給されたデータが復元され
る。
復元されたデータ中の、音源情報分析器107からのピ
ッチ情報は、パルス発振器203に供給され、この発振
周波数がピッチの基本周波数になるように制御する。ま
た、有声/無声情報(V/UV)は、V/UV切替器2
05の切替制御信号として供給かれ、これが有声音(V)
指定する場合には、切替器205がパルス発振器203
の出力側を選択し、無声音(UV)を指定する場合に
は、切替器205が雑音発生器204の出力側を選択す
るように制御する。
さらにまた、音量情報は、電力制御器206の制御情報
として供給され、これにより電力制御器206が、切替
器205の選択出力を可変増幅してその出力が指定され
た電力量になるように制御する。
こうして得られた電力制御器206の出力は、LSP合
成フィルタを駆動する音源信号としてLSP合成フィル
タ207に供給される。
一方、デコーダ202からデコードされた、各代表ベク
トルの各成分、および各代表ベクトルが代表する各区間
幅の情報は、補間器209を介してLSP合成フィルタ
207に供給される。
補間器209は供給された各代表ベクトルの各成分を、
これらの各代表ベクトルが代表する区間幅分だけ各基本
フレームごとに繰返し再生することにより矩形近似に対
する補間を行ない、各基本フレーム毎のLSPパラメー
タベクトルの各成分を生成してこれをLSP合成フィル
タ207に供給する。
LSP合成フィルタ207は、こうして供給されたLS
Pパラメータベクトルの各成分と音源信号とを用いて公
知の手段により音声信号を合成しこれを、D/A変換器
および低域波器208に出力する。
かくして、合成されたディジタル音声信号は、アナログ
音声信号に変換され、不要な周波数成分が除かれて出力
ライン2000から出力される。
以上のように本実施例によると、伝送される音声情報
は、200mSEC程度の各区分毎に、この区分に割当て
られた代表フレーム数に対する最適近似になっているば
かりでなく、これらの区分の50個程度からなる10S
ECにおよぶ大区間においても、各区分に対する歪がよ
くバランスされた形の最適近似になっている。
すなわち、音声情報の激しく変化する区分においては、
より多くの代表フレームを用いることにより、より高度
の最適近似を行ない、一方音声情報の変化の少ない区分
に対しては少ない数の代表フレームによる粗い近似を行
なっていて、伝送すべき全情報量を一定に制限した場合
に、できるだけ各区分に対する歪がバランスして小さく
なるような最適近似が行なわれていることになる。これ
により各区分の代表フレーム数を一定に固定した場合に
較べて、大区間内の各区分ごとの音声情報量のゆらぎを
一層忠実に追随することができるため、より効率的な情
報量の圧縮または、より高品質の音声の再現が達成され
る。
しかも、例えば基本分析フレームを1000個も含む10秒
もの大区間を、区分的最適近似で述べたような手法によ
り直接この大区間全体に対して最適近似を行なおうとす
ると、莫大な計算量となってしまって、その実現は殆ん
ど不可能になる。本実施例においては、この大区間を、
200mSEC程度の通常広く用いられている区分に分
割し、この各区分に対する区分的最適関数近似により、
まず各区分に任意の数の代表フレームを割当てた場合の
各区分に対する最適近似を行ないそれ等の場合の各歪を
求めておき、これを巧に利用することによって大区間に
対する最適近似を実現可能なものとしている。
なお、以上は本発明の一実施例を示したもので本発明は
以上の実施例に限定されるものでないことは明らかであ
る。
例えば、以上の実施例においては、基本フレーム長とし
て10mSEC、1区分の基本フレーム数20個(従っ
て1区分長200mSEC)、大区間における区分数5
0個(従って大区間の時間長10SEC、またその中に
含まれる基本フレーム数1000個)および大区間中におけ
る代表フレーム数250個等と、特定の値を用いて説明
したが、勿論これらは一例を示したのみで何もこれらの
値に限定される必要はない。
また区分的最適関数近似を行なうためのダイナミックプ
ログラミングの方法も一例を示したもので勿論これに限
定される必要はない。
さらにまた、音声の特徴パラメータベクトルとしてLS
P(線スペクト対)を用いる方法について説明したが、
これもLSPパラメータベクトルに限定される必要はな
く、例えばLPCパラメータベクトルその他の特徴パラ
メータベクトルを用いて実施できることも明らかであ
る。
さらに、本実施例においては、区分的最適関数近似に用
いる関数として矩形近似を用いたが、この代わりに、線
形近似または台形近似を用いることもできる。
線形近似とは、選出されたつぎつぎの各代表ベクトルの
先端を直線で結び、これにより、代表される各基本フレ
ームのベクトルを直線補間により決定してこれをこられ
の代表される基本フレームの実際のパラメータベクトル
のかわりに用いるもので、このような近似を行なった場
合における歪も、実際の各基本フレームのパラメータベ
クトルと、かわりに用いるベクトルとの各成分の差から
前述と同様にして容易に求められるので、本実施例に用
いた手法を殆どそのまま適用して、区分的最適関数近似
および総合最適フレーム選択を行なうことができる。
すなわち、区分的最適関数近似器により、各区分の代表
ベクトル数(代表フレーム数)を必要な範囲内で任意に
変えて最適線形近似を行なった場合の各歪をすべて求め
ておき、総合最適フレーム選択器においてこの結果を利
用して上述と全く同様な総合最適フレーム選択を行な
う。
つまり、大区間中の各区分に対し、最初に同数の最小の
代表ベクトル数を与えるように仮想設定する。次にこの
設定において最大の歪を発生する区分を上述の結果を用
いて見出し、この区分の代表ベクトル数を一つ増し歪を
低減する。次にこうして更新された設定に対し再び最大
の歪を発生する区分を見出しこの区分の代表ベクトル数
を一つ増し、さらに歪を低減する。こうして各設定のス
テップにおいて最大の歪を発生する区分を見出しこの区
分の代表ベクトル数を増すことにより、大区間全体の代
表ベクトル数を一つずつ増し、これが予め定めた数にな
るまで以上のステップを繰返して総合最適フレーム選択
を行なう。
なお、直線近似を行なった場合には合成側2の補間器2
09は、デコーダ202から供給される次次の代表パラ
メータベクトルとこれらのパラメータベクトル間の基本
フレーム数とを用いて直線補間を行なって各基本フレー
ムに対するパラメータベクトルを生成しこれを合成フィ
ルタ207に供給する。
また台形近似とは、音声情報の特徴として、音声情報の
激しく変化する過渡部分は、ほぼ一定の約20mSEC
程度の時間長を有することを利用して、変化部分の時間
長を予め定めた一定の時間長(例えば2基本フレーム
分)とする台形関数を用いて最適近似を行なうもので音
声の特徴パラメータベクトルの最適近似にはとくに有効
である。このような台形近似を用いることによりパラメ
ータベクトルの急激な変化に伴なう反響音等の悪影響を
軽減することができる。
このような台形近似を用いる場合についても、近似によ
る歪を求めることは本実施例に述べたのとほぼ同様に行
なうことができ、従って、上に述べた区分的最適関数近
似とこの結果を用いる総合最適フレーム選択とによる本
発明の方式はそのまま適用できることは明らかである。
また本実施例においては、分析側1においてメモリ10
9を設け、これにより、伝送路に送出するのに適する形
に整えられた音声情報を蓄積しておき、伝送路の都合の
よい時間を利用してこれを合成側2に伝送し、合成側2
においては、伝送された音声情報をそのままメモリ20
1に蓄積し、使用者の都合のよいときにこれを再生させ
るボイスメール等のいわゆる音声蓄積伝送装置に本発明
の方式を適用する例を示したが、これ以外のボコーダ等
のような通常の音声分析合成装置に適用できることは明
らかである。この場合には、本実施例に示した分析側の
メモリ109、および合成側のメモリ201を省略する
こともできる。
さらにまた、予め蓄積している各種の短音声素片を指定
に応じて組合せて発生させる例えばパブリックアドレス
装置等にも本方式を適用できる。つまりこのような音声
合成器に用いる各音声素片を生成する場合に本方式を適
用して情報量の圧縮および/または音質の改善を図るこ
とができる。
本発明の方式によると、例えば10SEC程度にも及ぶ
大区間に対する最適近似が行なわれているにもかかわら
ず、合成側においては音声を再現するに当って、区分時
間幅(20mSEC程度)以上の時間遅れを必要としない
という特徴を有している。これはボイスメール,バブリ
ックアドレス等の装置に適用した場合に、使用者の要求
に応じて遅滞なく音声再現を可能にするという点で特に
有効である。
(発明の効果) 以上述べたように本発明によると、基本フレームを1000
個のオーダーで含むような音声ブロックに対してこの莫
大な数の基本フレームを含む音声ブロックを全体として
可変長フレームによる最適近似を行なえるような可変長
フレーム音声分析合成方式を実現できる。
これによって、より効果的な音声情報量の圧縮および/
または音質の向上を達成でき、音声分析合成装置,音声
蓄積伝送装置および音声合成装置の性能向上を達成でき
る。
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図および第2
図は前記実施例の総合最適フレーム選択器中のメモリの
ワークエリヤの内容を説明するための図である。 図において、1……音声分析側、2……音声合成側、1
01……低域波器およびA/D変換器(LPF&A/
D)、102……窓関数処理器、103……LSP分析
器、104……区分的最適関数近似器、105……総合
最適フレーム選択器、106……量子化器、109……
メモリ、201……メモリ、202……デコーダ、20
3……パルス発振器、204……雑音発生器、205…
…V/UV切替器、206……電力制御器、208……
D/A変換器および低域波器(D/A&LPF)、2
09……補間器。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】予め定めた一定の分析周期ごとに周期的に
    入力音声信号を分析して特徴パラメータベクトルを抽出
    する音声分析手段と、 予め定めた複数個の相連続する前記分析周期からなる各
    区分ごとに各区分中の前記特徴パラメータベクトルから
    任意の数の代表パラメータベクトルを選出して各区分を
    区分的最適関数近似を行なった場合に得られる各区分ご
    との前記代表パラメータベクトルの構成とこの場合の各
    区分ごとの最適近似による残留歪とを演算する区分的最
    適関数近似手段と、 予め定めた複数個の相連続する前記区分からなる大区間
    において前記区分的最適関数近似手段により演算された
    各区分ごとの前記残留歪を比較して残留歪の最も大きい
    区分の前記代表パラメータベクトルの構成をより多くの
    前記代表パラメータベクトルを含む前記代表パラメータ
    ベクトルの構成に置換えるという処理ステップを繰返す
    ことにより前記大区間を最適近似する予め定めた数のす
    べての代表パラメータベクトルを選出するようにした総
    合最適フレーム選択手段と、 を有することを特徴とする可変長フレーム音声分析合成
    方式。
JP59159846A 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式 Expired - Lifetime JPH0644199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59159846A JPH0644199B2 (ja) 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59159846A JPH0644199B2 (ja) 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式

Publications (2)

Publication Number Publication Date
JPS6136800A JPS6136800A (ja) 1986-02-21
JPH0644199B2 true JPH0644199B2 (ja) 1994-06-08

Family

ID=15702512

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59159846A Expired - Lifetime JPH0644199B2 (ja) 1984-07-30 1984-07-30 可変長フレ−ム音声分析合成方式

Country Status (1)

Country Link
JP (1) JPH0644199B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3164808B2 (ja) * 1989-01-25 2001-05-14 日本電気株式会社 可変長フレーム型ボコーダ
JPH04101200A (ja) * 1990-08-21 1992-04-02 Nec Corp 音声分析合成装置

Also Published As

Publication number Publication date
JPS6136800A (ja) 1986-02-21

Similar Documents

Publication Publication Date Title
US7750229B2 (en) Sound synthesis by combining a slowly varying underlying spectrum, pitch and loudness with quicker varying spectral, pitch and loudness fluctuations
US5682502A (en) Syllable-beat-point synchronized rule-based speech synthesis from coded utterance-speed-independent phoneme combination parameters
JPH06222797A (ja) 音声符号化方式
WO2003010752A1 (en) Speech bandwidth extension apparatus and speech bandwidth extension method
JPH11504492A (ja) 複雑さが軽減された信号送信システム
US3909533A (en) Method and apparatus for the analysis and synthesis of speech signals
JPH07271396A (ja) 音声符号化方法及び音声音源装置
JP2000075862A (ja) 波形信号の時間軸圧縮伸長装置
JPH0644199B2 (ja) 可変長フレ−ム音声分析合成方式
EP0729133B1 (en) Determination of gain for pitch period in coding of speech signal
JPH09319391A (ja) 音声合成方法
JP3471889B2 (ja) 音声符号化方法及び装置
JP3059751B2 (ja) 残差駆動型音声合成装置
JP3319551B2 (ja) ベクトル量子化装置
JP2615856B2 (ja) 音声合成方法とその装置
JP2650355B2 (ja) 音声分析合成装置
JP2003066983A (ja) 音声合成装置および音声合成方法、並びに、プログラム記録媒体
JPS61204697A (ja) 楽音信号発生装置
JPH05127697A (ja) ホルマントの線形転移区間の分割による音声の合成方法
JP2709198B2 (ja) 音声合成方法
JP3561654B2 (ja) 音声合成方法
JP2000099094A (ja) 時系列信号処理装置
JPH1152994A (ja) 音声符号化装置
JP3063088B2 (ja) 音声分析合成装置、音声分析装置及び音声合成装置
JPH0695677A (ja) 楽音合成装置