[go: up one dir, main page]

JPH02160300A - 音声符号化方式 - Google Patents

音声符号化方式

Info

Publication number
JPH02160300A
JPH02160300A JP63316040A JP31604088A JPH02160300A JP H02160300 A JPH02160300 A JP H02160300A JP 63316040 A JP63316040 A JP 63316040A JP 31604088 A JP31604088 A JP 31604088A JP H02160300 A JPH02160300 A JP H02160300A
Authority
JP
Japan
Prior art keywords
pitch
section
sound source
signal
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP63316040A
Other languages
English (en)
Inventor
Kazunori Ozawa
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63316040A priority Critical patent/JPH02160300A/ja
Priority to EP89117463A priority patent/EP0360265B1/en
Priority to CA000612254A priority patent/CA1333425C/en
Priority to US07/410,459 priority patent/US5018200A/en
Priority to DE68912692T priority patent/DE68912692T2/de
Publication of JPH02160300A publication Critical patent/JPH02160300A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は音声符号化方式、特に音声信号を低いビットレ
ート、即ち4.8kb/s程度で、比較的すくない演算
量により高品質に符号化するための音声符号化方式に関
する。
〔従来の技術〕
音声信号を4.8kb/s程度の低いビットレートで符
号化する方式としては、例えば特開昭61−15000
0  (文献1)や特開昭62−038500  (文
献2)等に記載されているピッチ補間マルチパルス法が
知られている。これらの方法では、送信側はフレーム毎
の音声信号から音声信号のスペクトル特性を表すスペク
トルパラメータとピッチを表すピッチパラメータとを抽
出し、音声信号を有声区間と無声区間との2種類に分類
し、有声区間では1フレームの音源信号を、1フレーム
をピッチ区間毎に分割した複数個のピッチ区間のうちの
一つのピッチ区間(代表区間)についてマルチパルスで
表し、代表区間におけるマルチパルスの振幅および位置
とスペクトルおよびピッチパラメータとを伝送する。ま
た、無声区間では1フレームの音源を少数のマルチパル
スと雑音信号とで表しマルチパルスの振幅および位置と
雑音信号のゲインおよびインデックスとを伝送する。
受信側は有声区間では、現フレームの代表区間のマルチ
パルスと隣接フレームの代表区間のマルチパルスとを用
いてマルチパルス同志の振幅と位置とを補間して、代表
区間以外のピッチ区間のマルチパルスを復元し、フレー
ムの駆動音源信号を復元する。また、無声区間ではマル
チパルスと雑音信号のインデックスおよびゲインとを用
いてフレームの駆動音源信号を復元する。さらに、復元
した駆動音源信号をスペクトルパラメータを用いた合成
フィルタに入力して合成音声信号を出力する。
〔発明が解決しようとする課題〕
しかしながら、上述した従来の方式では、有声区間では
代表区間のマルチパルス同志の補間によりフレームの駆
動音源信号を復元しているので、母音連鎖のように母音
から母音へ遷移する部分や有声の過渡部など、音源信号
の特性が変化しているフレームでは、補間により復元し
た駆動音源信号は実際の音源信号とは大きく異なり、そ
の結果合成音声の音質が劣化している。また、有声区間
の鼻音区間では、音源信号に明確な周期性が現れないの
で、前記ピッチ補間の方法では十分に音源信号を表すこ
とができない。一方、このような音声の特性が大きく変
化する部分は、音韻知覚や自然性の知覚に非常に重要で
あることが知覚実験から知られているが、従来の方式で
はこれらの部分の情報が十分に復元できないので音質が
劣化するという大きな問題点がある。また、無声区間で
はマルチパルスと雑音とを用いて音源信号を表している
が、子音区間でも摩擦音の音源は雑音性となるが、破裂
音ではパルス的な部分が多くなるため、従来の方式のよ
うに、音声信号を単純に有声と無声との2種に分類して
表しているのみでは、良好な合成音声が得られないとい
う問題点がある。
一方、音声のスペクトル包絡を表すスペクトルパラメー
タの分析には従来、線形予測分析(LPC分析)がよく
知られている。しかしながら、女性の音声、特にイ、つ
などにおいては、LPG分析がピッチ周波数の基本およ
び高調波成分に影響されるために、LPC分析により得
られたスペクトルパラメータを用いた合成フィルタの特
性は、実際の音声のスペクトル包絡に比べ、特に音声の
第1ホルマントに対応する周波数におけるバンド幅が極
端に狭くなってしまうという問題点がある。従って音源
信号を求める際に、このようなスペクトルパラメータを
用いると、音源信号にはピッチの周期性が表われず、音
源の周期性を仮定した前記ピッチ補間を用いたマルチパ
ルスにより音源信号を表した場合、合成音声の音質が大
きく劣化してしまうという問題点がある。
本発明の目的は、上述した問題点を解決し、比較的少な
い演算量により4.8kb/s程度で音質の良好な音声
符号化復号化装置を提供することにある。
〔課題を解決するための手段〕
本発明による音声符号化方式は、入力した離散的な音声
信号からスペクトル包絡を表すスペクトルパラメータと
ピッチを表すピッチパラメータとをフレーム毎に求め、
前記スペクトルパラメータを用いて構成されるフィルタ
のインパルス応答に周期性が強いときには前記スペクト
ルパラメータに重みずけを施し、前記音声信号の特徴を
表す判別パラメータを抽出して前記音声信号を複数個の
種類に分類し、前記種類に応じて前記フレーム毎の音声
信号の音源信号として前記フレーム区間を前記ピッチパ
ラメータに応じた小区間に分割し、前記小区間の内の1
つの区間において求めたマルチパルスと、前記マルチパ
ルスに関して振幅あるいは位相の少なくとも一方を補正
するための補正情報もしくはコードブックとマルチパル
スとの少なくとも一方を求めて出力することにより構成
される。
〔作用〕
本発明による音声符号化方式の第1の特徴は、フレーム
の音声信号を予め定められた種類に分類する。以下では
、−例として母音性、鼻音性、摩擦性、破裂性の4種に
分類する例について述べるが、この種類は音源の音声生
成上の違いに応じて音源信号を良好に表せるように適切
に選択する必要がある。4種類以外の構成も可能である
音声の分類方法としては、音声信号の特徴を表す判別パ
ラメータを抽出して第2図のように音声信号を上述の4
種に分類する。このパラメータとしては、例えば信号の
パワーあるいはそのRMS(Root Mean 5q
uare)、短時間(例えば5ms )毎のパワーの変
化あるいは変化率、短時間毎のスペクトル変化あるいは
変化率、ピッチゲインなどを用いることができる。
また、第2の特徴は、フレーム毎にLPC分析を用いて
抽出した音声信号のスペクトル包絡を表すスペクトルパ
ラメータにおいて、スペクトルパラメータにより構成さ
れる合成フィルタのインパルス応答に周期性が強いとき
は、第1ホルマントに相当する帯域でフィルタのバンド
幅が過小推定されていると判断して、前記スペクトルパ
ラメータに適切な重みずけを施す。ここでスペクトルパ
ラメータにより構成される合成フィルタの伝達特性H(
z)は次のように書ける。
ここでalはスペクトルパラメータ、Pはフィルタの次
数を示す。この合成フィルタのインパルス応答h(n)
は次式により求められる。
h(n)4a+h(n−i))Gδ(n)      
 (n≧0)      −(2)ここで、Gは励振源
の振幅である。そして、h(n)から求めたピッチゲイ
ンPCIが予め定められたしきい値よりも大きければ、
インパルス応答の周期性が強いと判断する。ここでピッ
チゲインはh(n)の自己相関関数を予め定められた時
間遅れだけ求め、これの最大値をとる時間遅れの点での
自己相関係数の値を用いることができる。次に、インパ
ルス応答に周期性が強いときは、次式のようにスペクト
ルパラメータに重みずけを施す。
aI:aIrl(1≦i≦P)          、
(3)ここでrは1よりも小さい正の値をとる。rの値
により、合成フィルタのバンド幅は下式で示す量B(H
z、)だけ広がる。
B=Fs/ π1.(r)  (Hz)       
 −(4)−例として、rを0.98、Fsを8kHz
に選ぶと、Bは約50Hzとなる。
以下で説明するマルチパルスの計算には、合成フィルタ
のインパルス応答に周期性が強いと判断されたときは、
(3)式で重みずけをしたスペクトルパラメータを用い
る。周期性が強くないときには、(3)式の重みずけは
行わない。以上が本発明の第2の特徴である。
次に、音源信号の求め方について説明する。
信号のパワーあるいはそのRmSとピッチゲインなどを
用いてフレームが母音区間か否かを判別する。母音性区
間では、第3図にしめすように、フレーム区間をあらか
じめ求めたピッチ周期毎の複数個のピッチ区間に分割し
、このピッチ区間のうちの1つのピッチ区間(代表区間
)についてマルチパルスを求める。次に同一フレーム内
の他のピッチ区間については、前記マルチパルスに対す
る振幅補正係数Ckおよび位相補正係数dkを求める。
そしてフレーム毎に、音源情報として代表区間のフレー
ム内のピッチ位置、代表区間のマルチパルスの振幅およ
び位置と、同一フレームの他のピッチ区間における振幅
補正係数ckおよび位相補正係数dkとを補正情報とし
て伝送する。代表区間は、最も良好な合成音声信号が求
められる区間を探索して求めてもよいし、フレーム内で
固定としてもよい。音質は前者の方が良好であるが、演
算量は多くなる。
以下に振幅補正係数Ckおよび位相補正係数dkの求め
方、さらに代表区間の探索法を示す。今、フレームで求
めた平均ピッチ周期をTとする。フレームをT毎のサブ
フレーム区間に分割した様子を第3図(b)に示す。こ
こでは代表区間を探索する場合について示す。代表区間
の候補となるサブフレームを例えばサブフレーム■とす
る。サブフレーム■についてあらかじめ定められた個数
りのマルチパルスの振幅および位置を求める。マルチパ
ルスの求め方については、相互相関関数Φ□と自己相関
関数Rhbを用いて求める方法が知られており、これは
例えば前記文献1.2や、Araseki。
Ozawa、Ono、0chiai氏による°Mult
i−pulse ExcitedSpeech Cod
er Ba5ed on Maximum Cross
−correlaしion  5earch  Alg
orithm、”(GLOBECO)4 83.  I
EEEGlobal Tele−communicat
ions Conference 、講演番号23.3
.1983)  (文献3)に記載されているのでここ
では説明を省略する。
代表区間のマルチパルスの振幅および位置をそれぞれg
、およびm+H=t〜L)とする。これを第3図(c)
に示す。代表区間以外の区間kにおける振幅補正係数c
k、位相補正係数dkは、これらと合成フィルタをもち
いて区間kについて合成した合成音声x’k(n)と、
該当区間の音声Xk(n)との重みすけ誤差電力九を最
小化するように求めることができる。重みすけ誤差電力
Ekは Ek=ΣI[xk(n)−x’ h(n)]*w(n)
l 2− (5)ただし X′ k(n)=ckΣg+  ・h(n−m+−T−
d k)              ・+ ・ (6
)ここで、w(n)は聴感重みすけフィルタのインパル
ス応答を示す。ただしこのフィルタはなくてもよい。ま
たh(n)は音声を合成するための合成フィルタのイン
パルス応答を示す。ck、 dyは(5)式を最小化す
るように求めることができる。このためには、例えばま
ずdiを固定して、(5)式をckについて偏微分して
Oとおき、次式を得る。
ΣXwk(n)x’ wi+(n) ここで x、k (n)=xk(n)ネw(n)       
         −(8a)x’wk(n)”Σg+
h(n−m+−T−dk)1w(n)   −(8b)
従って(7)式の値を種々のdkの値について求め、(
7)式のckを最小化するd、、 ckの組合せを求め
ることにより(5)式のEKは最小化される。このよう
にして、代表区間以外のピッチ区間に対してCk、 d
kを求めフレーム全体に対して次式で定義される重みす
け誤差電力Eを求める。
E・ΣEk                ・・・(
9)ここでNは該当フレームに含まれるサブフレームの
個数である。ただし、代表ピッチ区間(第3図の例では
サブフレーム区間■)の重みずけ誤差電力E2は次式で
求める。
E2=Σf[x(n)=Σg+・h(n−m+)]*w
(n)12−(10)代表ピッチ区間の探索は、全ての
代表ピッチ区間の候補について、(5)〜(10)式の
値を計算し、(9)式の誤差電力の値を最も小さくする
区間を代表ピッチ区間とすることができる。第3図(c
)に探索後の代表ピッチ区間がサブフレーム■であった
場合について、代表区間のマルチパルスと、代表区間以
外のに番目の区間(第3図(c)ではk・■、■、■)
の音源vk(n)を振幅、位相補正係数を用いて次式に
従い発生させた例を示す。
VK(n)”CJgl ・δ(n−m+−T−dk) 
     −(11)次に、鼻音区間では母音区間はど
音源のピッチ毎の周期性が強くないと予想されるので、
上述の方法ではなく、ピッチ予測マルチパルスやマルチ
パルスにより音源を表す。ここでピッチ予測マルチパル
スの求め方としては、特開昭6O−051900(文献
4)を参照することができる。また、マルチパルスの求
め方は前記文献3を参照できる。なお、鼻音区間の判別
法は、例えばパワーあるいはそのRMS、ピッチゲイン
および次式で定義される第1次の対数断面積比r1を用
いることができる。特に鼻音区間ではrlが大きくなる
特徴がある。
ここでに、は1ン欠目のにパラメータ(PARCORと
も呼ぶ)である。
一方、子音区間では音源をマルチパルス、あるいはマル
チパルスと雑音の組合せで表している。
子音区間では、摩擦性か破裂性かを判別し、摩擦性の場
合はマルチパルスと雑音あるいはコードブックで音源を
表す。具体的な方法は前記文献2等を参照できる。また
、破裂性の場合は、音源をマルチパルスで表す。摩擦性
と破裂性の判別法としては、短時間(例えば5m5)毎
のパワーあるいはそのRMSの変化や変化率などのパラ
メータを用いることができる。
〔実施例〕
次に、本発明の実施例について図面を参照して説明する
第1図は本発明による音声符号化方式の一実施例を示す
ブロック図である。図において、入力端子100から音
声信号を入力し、1フレ一ム分(例えば20m5 )の
音声信号をバッファメモリ110に格納する。ピッチ分
析回路130は、フレームの音声信号から平均ピッチ周
期Tを計算する。
この方法としては例えば自己相関法にもとづく方法が知
られており、詳細は前記文献1.2のピッチ抽出回路を
参照することができる。また、この方法以外にも他の衆
知な方法(例えば、ケプストラム法、5IFT法、変相
開法など)を用いることができる。ピッチ符号化回路1
50は平均ピッチ周期Tをあらかじめ定められたビット
数で量子化して得た符号をマルチプレクサ260へ出力
するとともに、これを復号化して得た復号ピッチ周期T
′を音源信号計算回路220、補間回路282、駆動信
号復元回路283へ出力する。
Kパラメータ計算回路14.0は、フレームの音声信号
のスペクトル特性を表すスペクトルパラメータとして、
Kパラメータを前記フレームの音声信号から衆知のLP
C分析を行いあらかじめ定められた次数Mだけ計算する
。この具体的な計算法については前記文献1.2のにパ
ラメータ計算回路を参照することができる。なお、Kパ
ラメータはPARCOR係数と同一のものである。
周期性判別回路145は、Kパラメータを一旦線形予測
係数a、に衆知の方法を用いて変換し、線形予測係数に
より構成される合成フィルタのインパルス応答を計算す
る。ここで合成フィルタの伝達特性は前記(1)式で表
される。また、インパルス応答の計算には前記(2)式
をもちいる。次にインパルス応答の周期性を判別する。
具体的には、インパルス応答のピッチゲインを計算し、
これを予め定めら°れたしきい値と比較して、予め定め
られたしきい値よりも大きければ周期性が強いと判断す
る。ここで、ピッチゲインの計算にはインパルス応答の
自己相関関数を予め定められた遅れ時間だけ計算し、最
大の値をとる遅れ時間における自己相関係数の値をピッ
チゲインとすることができる。詳細は前記文献1.2の
ピッチ抽出回路を参照できる。ピッチゲインが予め定め
られたしきい値よりも大きいときには、前記(3)式に
従い、線形予測係数a、に予め定められた重みずけrを
施す。ここでrの値は1よりも小さい正の値である。こ
のようにして重みずけられた線形予測係数は、再びにパ
ラメータに逆変換され、Kパラメータ符号化回路160
へ出力される。にパラメータと線形予測係数との変換は
、J、Makhou1氏らによる’Linear Pr
edict、ion of 5peech ” と題し
た単行本(文献5)等を参照できる。
Kパラメータ符号化回路160は前記にパラメータを予
め定められた量子化ビット数で量子化して得た符号ρk
をマルチプレクサ260へ出力するとともに、これを復
号化してさらに線形予測係数a、’(i=1〜M)に変
換して重み付は回路200、補間回路282へ出力する
。Kパラメータの符号(ヒ、にパラメータから線形予測
係数への変換の方法については前記文献1.2等を参照
することができる。
インパルス応答計算回路170は、前記線形予測係数a
1’ を用いて聴感重みずけを行った合成フィルタのイ
ンパルス応答り、(n)を計算し、これを自己相関関数
計算回路180へ出力する。自己相関関数計算回路18
0は前記インパルス応答の自己相関関数Rhh(n)を
予め定められた遅れ時間まで計算して出力する。インパ
ルス応答計算回路170および自己相関関数計算回路1
80の動作は前記文献1.2等を参照することができる
減算器190は、フレームの音声信号×(n)から合成
フィルタ281の出力を1フレーム分減算し減算結果を
重み付は回路200へ出力する。重み付は回路200は
前記減算結果をインパルス応答がw(n)で表される聴
感重みすけフィルタに通し、重みすけ信号x、(n)を
得てこれを出力する。重みずけの方法は前記文献1.2
等を参照できる。
相互相関関数計算回路210は、重みすけ信号x、(n
)とインパルス応答hW(n)とを入力して相互相関関
数Φ。を予め定められた遅れ時間まで計算し出力する。
この計算法は前記文献1.2等を参照できる。
判別回路215は、フレームの音声信号の種類を判別す
る。ここでは−例として作用の項で述べたように、母音
性、鼻音性、摩擦性、破裂性の4種に分類することにす
るが、分類数は4種に限られるわけではなく他の分類法
を用いることもできる。これらの判別には、作用の項で
述べたように、フレームの音声信号のパワーやそのRM
S、ピッチゲイン、短時間毎のパワーあるいはそのRM
Sの変化、フレーム間のスペクトル変化などを用いるこ
とができる。これらのパラメータを用いて判別した種類
は音源信号計算回路220およびマルチプレクサ260
へ出力される。
音源信号計算回路220では、母音性の判別は、パワー
あるいはそのRMSが予め定められたしきい値以上で、
ピッチゲインが予め定められたしきい値以上であること
で判別する。この場合は、前記作用の項で説明したよう
に、復号化した平均ピッチ周期T′を用いてフレームを
あらかじめピッチ周期毎のサブフレーム(ピッチ区間)
に分割し、音源信号として、代表的な1ピッチ区間(代
表区間)の候補となるピッチ区間に対してマルチパルス
の位置ll11と振幅g+とを求める。
次に振幅・位相補正回路270は、前記作用の項の(3
) 、 (4)式に従い、他のピッチ区間kにおける音
源信号発生のためのマルチパルスの振幅補正係数ck、
位相補正係数d1を計算する。さらにこれらの値を音源
信号計算回路220へ出力し、音源信号計算回路220
では前記作用の項で述べた(1) 、 (5) 、 (
6)式に基づき、いくつかの候補区間についてフレーム
全体の誤差電力Eを計算し、Eを最も小さくするピッチ
区間を代表区間として選択し、代表区間のサブフレーム
番号を示す情報PI、代表区間のマルチパルスの振幅g
1、位置n+(t−t〜L)、および他のピッチ区間の
振幅補正係数ck、位相補正係数d、を出力する。
次に鼻音性の判別は、ピッチゲインがあらがしめ定めら
れなしきい値よりも大きく、1吹口の対数断面積比があ
らかじめ定められたしきい値よりも大きいことで判別す
る。この場合は、フレーム区間全体に対して、例えばマ
ルチパルスを求める。
一方、子音区間では、摩擦性と破裂性の判別は例えば、
短時間(例えば5ms )毎のスペクトルの変化や短時
間(例えば5ms程度)毎のパワーあるいはそのRMS
の変化が予め定められたしきい値よりも大きければ破裂
性、そうでなければ摩擦性と判別する。摩擦性の判別に
は、低域(例えば1 kHz以下)と高域(例えば2k
Hz以上)とのパワーあるいはそのRMSの比を用いる
こともできる。
摩擦性の場合は、予め定められた個数のマルチパルスと
雑音信号あるいはコードブックとで音源信号を表す。具
体的な方法は前記文献1.2を参照することができる。
まずあらかじめ定められた個数のマルチパルスを求めた
後に、雑音メモリに複数種類格納されている雑音信号あ
るいはコードブックの種類を表すインデックスとゲイン
とを求める。これらの計算はフレームを予め定められた
区間長に分割したサブフレーム毎に行う。この場合音源
信号として伝送するのは、マルチパルスの振幅および位
置と雑音信号のインデックスおよびゲインとである。
また、破裂性の場合は、フレーム全体で予め定められた
個数のマルチパルスの振幅と位置とを求める。
符号化回路230は、母音性の場合は、代表区間のマル
チパルスの振幅g1および位置m1を予め定められたビ
ット数で符号化して出力する。また、代表区間のサブフ
レームを示す情報P+、振幅補正係数Ckおよび位相補
正係数dkを予め定められたビット数で符号化してマル
チプレクサ260へ出力する。さらに、これらを復号化
して駆動信号復元回路283へ出力する。鼻音性、破裂
性の場合はマルチパルスの振幅および位置を符号化して
マルチプレクサ260へ出力するとともに復号化して駆
動音源復元回路283へ出力する。また摩擦性の場合は
、マルチパルスの振幅および位置を符号化し雑音信号の
ゲインおよびインデックスを符号化してマルチプレクサ
260へ出力すると共にこれらを復号化して駆動音源復
元回路283へ出力する。
駆動音源復元回路283は、母音性区間では、平均ピッ
チ周期T″を用いてフレームを前記音源信号計算回路2
20と同様な方法で分割し、代表区間のサブフレームを
示す情報P、と代表区間のマルチパルスの復号化された
振幅および位置とを用いて、代表区間にはマルチパルス
を発生し、代表区間以外のピッチ区間では、前記代表区
間のマルチパルスと復号化された振幅補正係数と復号化
された位相補正係数とを用いて、前記(7)式に従い音
源信号Vk(n)を復元する。
一方、鼻音性、破裂性、摩擦性区間では、マルチパルス
を発生させる。摩擦性区間ではさらに雑音信号のインデ
ックスを用いて雑音メモリ225から雑音信号をアクセ
スして、それにゲインを乗じて駆動音源信号を復元する
。摩擦性区間での駆動音源信号復元の詳細は前記文献2
を参照することができる。
補間回路282は、母音性区間では、線形予測係数を一
旦にパラメータに変換してにパラメータ上でピッチ周期
T゛のサブフレーム区間毎に補間し、線形予測係数に逆
変換し出力する。なお、補間はにパラメータ上のみなら
ず他の衆知なパラメータ、例えば対数断面積比などを用
いることができる。鼻音性や子音区間では補間はおこな
わない。
合成フィルタ281は、前記復元された駆動音源信号を
入力し、前記線形予測係数al’ を入力して1フレ一
ム分の合成音声信号を求めるとともに、次のフレームへ
の影響信号を1フレーム分計算しこれを減算器190へ
出力する。なお、影響信号の計算法は特開昭59−11
6794  (文献7)等を参照できる。
マルチプレクサ260は、音源信号を表す符号、フレー
ムの音声の種類を表す符号、母音性区間では代表区間の
サブフレーム位置を表す符号、平均ピッチ周期の符号、
およびにパラメータを表す符号を組み合わせて出力する
以上は本発明の一実施例の説明であるが、本発明の一構
成に過ぎずその変形例も種々考えられる。
例えば、合成フィルタのインパルス応答の周期性の強さ
の判別は、音声の母音区間のみにおいて行うようにして
もよい。また、前記実施例では、摩擦性区間は音源信号
を少数のマルチパルスと雑音信号とで表したが、これは
衆知の5tochasjic codiBの方法により
表すこともできる。この方法の詳細については、例えば
5chroeder、Ata1氏による“Code−e
xcited 1inear prediction(
CELP): Highquality  5peec
h  at  very  low  bit、  r
aしes、”  (ICASSP、937−940.1
985) (文献8)等を参照できる。
さらに、雑音メモリ225に格納されている雑音信号と
しては、あらかじめ定められた確率密度特性(例えばガ
ウス分布など)を有する白色雑音信号を格納しておいて
もよいし、予め多量の音声信号を予測して求めた予測残
差信号から学習により計算した値によってもよい。前者
の方法は前記文献6を参照できる。また後者の方法につ
いては、例えば、Makhou 1氏らによる°Vec
tor Quantization in 5peec
h Coding、”(Proc、IEEE、vol、
73,11.1551−1588.1985)  (文
献9)等を参照できる。
また、実施例ではフレームの音声信号を母音性、鼻音性
、摩擦性、破裂性の4種に分類して異なる音源信号を用
いたが、この分類数を変えてもよい。
また、実施例では、スペクトルパラメータとしてにパラ
メータを符号化し、その分析法としてLPG分析を用い
たが、スペクトルパラメータとしては池の衆知なパラメ
ータ、例えばLSP、LPCケプストラム、ケプストラ
ム、改良ケプストラム、一般化ケブストラム、メルケブ
ストラムなどを用いることもできる。また各パラメータ
に最適な分析法を用いることができる。
また補間回路282における補間ずべきパラメータおよ
びその補間法については、他の衆知な方法を用いること
ができる。具体的な補間法は、例えばAシミ 1氏らに
よる’5peech Analysis andSyn
thesis by Linear Predicti
on of 5peechWave”と題した論文(J
、Acoust、Soc、An+、 、 pp、637
−655.1971)  (文献10)等を参照できる
さらに、母音区間では、代表区間以外のピッチ区間に振
幅補正係数ckと位相補正係数dkとを求めて伝送した
が、復号化した平均ピッチ周期T′を隣接のピッチ周期
を用いてピッチ区間毎に補間することにより位相補正係
数を伝送しない構成とすることもできる。また振幅補正
係数はピッチ区間毎に伝送するのではなくてピッチ区間
毎に求めた振幅補正係数の値を最小2乗曲線あるいは最
小2乗直線で蓮似して、前記曲線あるいは直線の係数を
伝送するような構成にしてもよい、これらの方法は任意
の組合せにより用いることができる。これらの構成より
補正情報の伝送のための情報量を低減することができる
また位相補正係数として、例えばOno、O□awa氏
らによる”2.4kbps Pitch Predic
tion Multi−p(11se 5peech 
Coding”と題した論文(Proc、 ICASS
PS4.9.1988)  <文献11〉に記載されて
いるように、フレームの端で線形位相項τを求め、これ
を各ピッチ区間に分配し、ピッチ区間毎には位相補正係
数を求めない構成とすることもできる。
また、演算量を大幅に低減するために、母音区間では、
代表区間をフレーム内の予め定められた区間に固定しく
例えば、フレームのほぼ中央のピッチ区間や、フレーム
内でパワーの最も大きいピッチ区間など)、代表区間の
探索をしない構成としてもよい。この場合は、代表区間
の候補区間に対する(9) 、 (10)式の計算が不
要となり大幅な演算量低減が可能となるが音質は低下す
る。
また、さらに演算量を低減するために、影響信号の計算
を省略することもできる。これによって、駆動信号1夏
元回路283、補間回路282、合成フィルタ281、
減算器190は不要となり演算量低減が可能となるが、
やはり音質は低下する。
なお、ディジタル信号処理の分野でよく知られているよ
うに、自己相関関数は周波数軸上でパワースペクトルに
、相互相関関数はクロスパワースペクトルに対応してい
るので、これらから計算することもできる。これらの計
算法については、Oppenheim氏らによる”Di
gital SignalProcessing ” 
(Prentice−Hall、1975)と題した単
行本(文献12)を参照できる。
〔発明の効果〕
以上述べたように本発明によれば、音声信号を音声学的
な特徴に基づきいくつかの種類に分類し、その分類に適
しfS音源信号を用いていること、特に、母音性区間で
は、フレームをピッチ周期に分割したピッチ区間のうち
、1つのピッチ区間(代表区間)のマルチパルスと他の
ピッチ区間では振幅補正係数および位相補正係数の少な
くとも一方を用いて表していること、牽擦性区間では、
少数のマルチパルスと雑音信号との組合せにより音源信
号を表していること、また、スペクトルパラメータによ
り構成される合成フィルタのインパルス応答の周期性の
強さを判別して、周期性が強いときは、合成フィルタの
バンド幅を広げるようにスペクトルパラメータに対して
重みずけを施しているので、女性音声の特にイやつなと
でも合成フィルタのバンド幅の過小推定を防ぐことがで
き、良好な合成音声を得ることができるという効果があ
る。これらにより、男性、女性の音声によらず、また母
音、子音の定常区間は勿論のこと、音韻知覚や自然性の
知覚に重要な音声の特性が変化している部分(有声の過
渡部や母音間の変化部分)でも音質の劣化のほとんどな
い合成音声を得ることができるという大きな効果がある
【図面の簡単な説明】
第1図は本発明の一実施例を示すブロック図、第2図は
音声の分類法の一例を示す図、第3図は有声フレームで
の代表区間と代表区間のマルチパルスを示した説明図で
ある。 110・・・バッファメモリ、130・・・ピッチ分析
回路、140・・・Kパラメータ計算回路、145・・
・周期性判別回路、150・・・ピッチ符号化回路、1
60・・・Kパラメータ符号化回路、170・・・イン
パルス応答計算回路、180・・・自己相関関数計算回
路、200・・・重み付は回路、210・・・相互相関
関数計算回路、215・・・判別回路、220・・・音
源信号計算回路、225・・・雑音メモリ、230・・
・符号化回路、260・・・マルチプレクサ、270・
・・振幅・位相補正係数計算回路、281・・・合成フ
ィルタ、282・・・補間回路、283・・・駆動信号
復元回路。

Claims (1)

    【特許請求の範囲】
  1.  入力した離散的な音声信号からスペクトル包絡を表す
    スペクトルパラメータとピッチを表すピッチパラメータ
    とをフレーム毎に求め、前記スペクトルパラメータを用
    いて構成されるフィルタのインパルス応答に周期性が強
    いときには前記スペクトルパラメータに重みずけを施し
    、前記音声信号の特徴を表す判別パラメータを抽出して
    前記音声信号を複数個の種類に分類し、前記種類に応じ
    て前記フレーム毎の音声信号の音源信号として前記フレ
    ーム区間を前記ピッチパラメータに応じた小区間に分割
    し、前記小区間の内の1つの区間において求めたマルチ
    パルスと、前記マルチパルスに関して振幅あるいは位相
    の少なくとも一方を補正するための補正情報もしくはコ
    ードブックとマルチパルスとの少なくとも一方を求めて
    出力することを特徴とする音声符号化方式。
JP63316040A 1988-09-21 1988-12-13 音声符号化方式 Pending JPH02160300A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP63316040A JPH02160300A (ja) 1988-12-13 1988-12-13 音声符号化方式
EP89117463A EP0360265B1 (en) 1988-09-21 1989-09-21 Communication system capable of improving a speech quality by classifying speech signals
CA000612254A CA1333425C (en) 1988-09-21 1989-09-21 Communication system capable of improving a speech quality by classifying speech signals
US07/410,459 US5018200A (en) 1988-09-21 1989-09-21 Communication system capable of improving a speech quality by classifying speech signals
DE68912692T DE68912692T2 (de) 1988-09-21 1989-09-21 Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63316040A JPH02160300A (ja) 1988-12-13 1988-12-13 音声符号化方式

Publications (1)

Publication Number Publication Date
JPH02160300A true JPH02160300A (ja) 1990-06-20

Family

ID=18072595

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63316040A Pending JPH02160300A (ja) 1988-09-21 1988-12-13 音声符号化方式

Country Status (1)

Country Link
JP (1) JPH02160300A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049814A (en) * 1996-12-27 2000-04-11 Nec Corporation Spectrum feature parameter extracting system based on frequency weight estimation function
JP2002544551A (ja) * 1999-05-07 2002-12-24 クゥアルコム・インコーポレイテッド 遷移音声フレームのマルチパルス補間的符号化
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6049814A (en) * 1996-12-27 2000-04-11 Nec Corporation Spectrum feature parameter extracting system based on frequency weight estimation function
JP2003522965A (ja) * 1998-12-21 2003-07-29 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP4824167B2 (ja) * 1998-12-21 2011-11-30 クゥアルコム・インコーポレイテッド 周期的スピーチコーディング
JP2002544551A (ja) * 1999-05-07 2002-12-24 クゥアルコム・インコーポレイテッド 遷移音声フレームのマルチパルス補間的符号化
JP4874464B2 (ja) * 1999-05-07 2012-02-15 クゥアルコム・インコーポレイテッド 遷移音声フレームのマルチパルス補間的符号化

Similar Documents

Publication Publication Date Title
JP2940005B2 (ja) 音声符号化装置
CN100369112C (zh) 可变速率语音编码
JP3557662B2 (ja) 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
JP3180762B2 (ja) 音声符号化装置及び音声復号化装置
JP3180786B2 (ja) 音声符号化方法及び音声符号化装置
JP3582589B2 (ja) 音声符号化装置及び音声復号化装置
JP2829978B2 (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP2615548B2 (ja) 高能率音声符号化方式とその装置
JPH07225599A (ja) 音声の符号化方法
JP3319396B2 (ja) 音声符号化装置ならびに音声符号化復号化装置
JPH02160300A (ja) 音声符号化方式
JP3299099B2 (ja) 音声符号化装置
JP3232701B2 (ja) 音声符号化方法
KR0155798B1 (ko) 음성신호 부호화 및 복호화 방법
JP3153075B2 (ja) 音声符号化装置
JP2992998B2 (ja) 音声符号化復号化装置
JP3552201B2 (ja) 音声符号化方法および装置
JP2853170B2 (ja) 音声符号化復号化方式
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3006790B2 (ja) 音声符号化復号化方法及びその装置
JP3055901B2 (ja) 音声信号符号化復号化方法及び音声信号符号化装置
JP3192051B2 (ja) 音声符号化装置
JP3144244B2 (ja) 音声符号化装置
JPH08211895A (ja) ピッチラグを評価するためのシステムおよび方法、ならびに音声符号化装置および方法
JP2847730B2 (ja) 音声符号化方式