JPH0317700A - 音声符号化復号化方式 - Google Patents
音声符号化復号化方式Info
- Publication number
- JPH0317700A JPH0317700A JP1152633A JP15263389A JPH0317700A JP H0317700 A JPH0317700 A JP H0317700A JP 1152633 A JP1152633 A JP 1152633A JP 15263389 A JP15263389 A JP 15263389A JP H0317700 A JPH0317700 A JP H0317700A
- Authority
- JP
- Japan
- Prior art keywords
- pitch
- parameter
- output
- audio signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000001537 neural effect Effects 0.000 claims abstract description 49
- 230000005236 sound signal Effects 0.000 claims abstract description 38
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- 230000003595 spectral effect Effects 0.000 claims description 32
- 238000000034 method Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 abstract description 8
- 230000006866 deterioration Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 12
- 238000013139 quantization Methods 0.000 description 9
- 230000015572 biosynthetic process Effects 0.000 description 8
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は、音声信号を神経回路に入力して神経回路の中
間層から特徴を抽出し、得られた特徴を効率よく符号化
して伝送する方式に関する。
間層から特徴を抽出し、得られた特徴を効率よく符号化
して伝送する方式に関する。
(従来の技術と問題点)
この方式の詳細は例えば、森島氏他による“ニューラル
ネットに基づく音声情報圧縮″と題した論文(電子情報
通信学会音声研究会資料888−142、1989年)
(文献1等)に記載されているので説明は省略する。こ
の従来法によれば、音声信号を10−16kb/s程度
で符号化することができるが、ビットレートを10kb
/s以下とすると合成音声音質が大幅に劣化していた。
ネットに基づく音声情報圧縮″と題した論文(電子情報
通信学会音声研究会資料888−142、1989年)
(文献1等)に記載されているので説明は省略する。こ
の従来法によれば、音声信号を10−16kb/s程度
で符号化することができるが、ビットレートを10kb
/s以下とすると合成音声音質が大幅に劣化していた。
この従来方式では、神経回路として第7図に示すように
、入力層、中間層、出力層の3層からなり各層のユニッ
トが互いに結線された神経回路を用いている。そして中
間層のユニットの個数を入力層、出力層のユニットの個
数よりも低減し、音声信号を入力層に与えて得られた中
間層の出力を符号化することにより情報圧縮をはかって
いた。従ってビットレート低減化のためには、入力層、
出力層に比べ中間層のユニット数を大幅に低減する必要
がある。しかるに従来方式の構成では、冗長性が大きく
、ダイナミックレンジの非常に大きな音声波形をそのま
ま神経回路に入力しているために、中間層のユニット数
を入力層に比べ低減することが困難で、入力層のユニッ
トの個数に比べて172程度に減らすと特性が低下して
いた。
、入力層、中間層、出力層の3層からなり各層のユニッ
トが互いに結線された神経回路を用いている。そして中
間層のユニットの個数を入力層、出力層のユニットの個
数よりも低減し、音声信号を入力層に与えて得られた中
間層の出力を符号化することにより情報圧縮をはかって
いた。従ってビットレート低減化のためには、入力層、
出力層に比べ中間層のユニット数を大幅に低減する必要
がある。しかるに従来方式の構成では、冗長性が大きく
、ダイナミックレンジの非常に大きな音声波形をそのま
ま神経回路に入力しているために、中間層のユニット数
を入力層に比べ低減することが困難で、入力層のユニッ
トの個数に比べて172程度に減らすと特性が低下して
いた。
また、同様な理由により中間層を符号化するときに必要
な量子化ビット数を低減すると音質が劣化していた。
な量子化ビット数を低減すると音質が劣化していた。
本発明の目的は、神経回路を用いて10kb/s以下の
ビットレートでも良好な合成音質を提供することのでき
る音声符号化復号方式を提供することにある。
ビットレートでも良好な合成音質を提供することのでき
る音声符号化復号方式を提供することにある。
(課題を解決するための手段)
本発明による音声符号化復号化方式は、送信側では音声
信号を入力し前記音声信号のスペクトル包絡を表すスペ
クトルパラメータとピッチ周期を表すピッチパラメータ
を求め、前記スペクトルパラメータを用いて前記音声信
号を予測して前記音声信号のスペクトルに関する冗長性
を除去した予測残差信号を求め、前記音声信号を前記ピ
ッチ周期に応じた小区間に分割し、予め定められた個数
の入力層ユニットと予め定められた個数の中間層ユニッ
トと予め定められた個数の出力層ユニットが接続され構
成される神経回路に前記小区間の予測残差信号を予め定
められたサンプル数入力して前記中間層の出力を求め、
前記スペクトルパラメータと前記ピッチパラメータと前
記中間層出力値とを出力し、受信側では前記中間層出力
値を用いて前記神経回路の出力層の値を求め、前記スペ
クトルパラメータにもとづくフィルタを駆動して合成音
声信号を求め出力することを特徴とする。
信号を入力し前記音声信号のスペクトル包絡を表すスペ
クトルパラメータとピッチ周期を表すピッチパラメータ
を求め、前記スペクトルパラメータを用いて前記音声信
号を予測して前記音声信号のスペクトルに関する冗長性
を除去した予測残差信号を求め、前記音声信号を前記ピ
ッチ周期に応じた小区間に分割し、予め定められた個数
の入力層ユニットと予め定められた個数の中間層ユニッ
トと予め定められた個数の出力層ユニットが接続され構
成される神経回路に前記小区間の予測残差信号を予め定
められたサンプル数入力して前記中間層の出力を求め、
前記スペクトルパラメータと前記ピッチパラメータと前
記中間層出力値とを出力し、受信側では前記中間層出力
値を用いて前記神経回路の出力層の値を求め、前記スペ
クトルパラメータにもとづくフィルタを駆動して合成音
声信号を求め出力することを特徴とする。
また本発明による音声符号化復号化方式は、送信側では
音声信号を入力し前記音声信号のスペクトル包絡を表す
スペクトルパラメータと前記音声信号のピッチ周期を表
すピッチパラメータを求め、前記スペクトルパラメータ
と前記ピッチパラメータを用いて前記音声信号を予測し
て前記音声信号のスペクトル及びピッチに関する冗長性
を除去した予測残差信号を求め、予め定められた個数の
入力層ユニットと予め定められた個数の中間層ユニット
と予め定められた個数の出力層ユニットが接続され構成
される神経回路に前記予測残差信号を予め定められたサ
ンプル数入力して中間層の出力を求め、前記スペクトル
パラメータと前記ピッチパラメータと前記中間層出力値
とを出力し、受信側では前記中間層出力値を用いて前記
神経回路の出力層の値を求め、前記ピッチパラメータと
前記スペクトルパラメータにもとづくフィルタを駆動し
合成音声信号を求め出力することを特徴とする。
音声信号を入力し前記音声信号のスペクトル包絡を表す
スペクトルパラメータと前記音声信号のピッチ周期を表
すピッチパラメータを求め、前記スペクトルパラメータ
と前記ピッチパラメータを用いて前記音声信号を予測し
て前記音声信号のスペクトル及びピッチに関する冗長性
を除去した予測残差信号を求め、予め定められた個数の
入力層ユニットと予め定められた個数の中間層ユニット
と予め定められた個数の出力層ユニットが接続され構成
される神経回路に前記予測残差信号を予め定められたサ
ンプル数入力して中間層の出力を求め、前記スペクトル
パラメータと前記ピッチパラメータと前記中間層出力値
とを出力し、受信側では前記中間層出力値を用いて前記
神経回路の出力層の値を求め、前記ピッチパラメータと
前記スペクトルパラメータにもとづくフィルタを駆動し
合成音声信号を求め出力することを特徴とする。
(作用)
第1の本発明によれば、音声符号化復号化方式の送信側
の基本ブロック図を第6図(a)に示すように、スペク
トル、ピッチパラメータ計算部100において音声信号
から音声信号のスペクトル包絡を表すスベクトルパラメ
ータとピッチ周期Tを表すピッチパラメータを分析する
。予測部120ではスペクトルパラメータを用いて音声
信号x(n)を予測し予測残差信号e(n)を求める。
の基本ブロック図を第6図(a)に示すように、スペク
トル、ピッチパラメータ計算部100において音声信号
から音声信号のスペクトル包絡を表すスベクトルパラメ
ータとピッチ周期Tを表すピッチパラメータを分析する
。予測部120ではスペクトルパラメータを用いて音声
信号x(n)を予測し予測残差信号e(n)を求める。
スペクトルパラメータとしては衆知の線形予測係数ai
を用いることができる。また線形予測係数の計算法には
線形予測分析(LPC)法を用いることができる。これ
らについては例えばMarkel , Gray氏らに
よる”Linear Prediction ofSp
eech”と題した単行本(Springer−ver
lag社1975年)(文献2)等を参照できる。予測
は次式にもとづき行なう。
を用いることができる。また線形予測係数の計算法には
線形予測分析(LPC)法を用いることができる。これ
らについては例えばMarkel , Gray氏らに
よる”Linear Prediction ofSp
eech”と題した単行本(Springer−ver
lag社1975年)(文献2)等を参照できる。予測
は次式にもとづき行なう。
e(n) = x(n)一Σai−x(n − i)
(1)iml 前記予測処理により音声信号のサンプル間の近接相関は
除去される。またこれにより残差信号のダイナミックレ
ンジは大幅に低減される。予測による相関の除去度は次
式の予測ゲインGにより表せる。
(1)iml 前記予測処理により音声信号のサンプル間の近接相関は
除去される。またこれにより残差信号のダイナミックレ
ンジは大幅に低減される。予測による相関の除去度は次
式の予測ゲインGにより表せる。
Gが大きいほど相関除去度が高い。
一方、音声信号には有声区間ではピッチ周期毎の相関(
長期相関)がある。つまりピッチ周期毎に類似した波形
が続く。従ってピッチ周期毎の残差信号から特徴抽出を
行うことにより効率的な処理がおこなえる。サブフレー
ム分割部130において前記ピッチパラメータを用いて
予測残差信号をピッチ周期Tに等しい長さをもつサブフ
レーム(小区間)に分割する。
長期相関)がある。つまりピッチ周期毎に類似した波形
が続く。従ってピッチ周期毎の残差信号から特徴抽出を
行うことにより効率的な処理がおこなえる。サブフレー
ム分割部130において前記ピッチパラメータを用いて
予測残差信号をピッチ周期Tに等しい長さをもつサブフ
レーム(小区間)に分割する。
神経回路150は予め定められた個数Lの入力層ユニッ
トと予め定められた個数Kの中間層ユニットとが予め結
線されている。中間層の層の数はいくつでもよいがここ
では単純化するために1層とする。
トと予め定められた個数Kの中間層ユニットとが予め結
線されている。中間層の層の数はいくつでもよいがここ
では単純化するために1層とする。
層間のユニットの重み係数は予め学習により決定してお
く。決定の仕方としてはId色ntity Mappi
ngの方法が知られている。この方法では入力層、、中
間層、出力層が結線された神経回路の入力層と出力層に
同一の学習用信号を提示し次式の誤差Eを小さくするよ
うに重み係数Wikを決定する。
く。決定の仕方としてはId色ntity Mappi
ngの方法が知られている。この方法では入力層、、中
間層、出力層が結線された神経回路の入力層と出力層に
同一の学習用信号を提示し次式の誤差Eを小さくするよ
うに重み係数Wikを決定する。
E=1/2・Σ(C)+c − Tk)2(3)k
二二でOkは出力層のk番目のユニットの出力値、Tk
は学習信号のk番目の値である。また Ok= f(xk) (
4)χk=ΣWik’oi
(5)である。さらに f’(x)=2/(1+e−x)−1
(6)である。
は学習信号のk番目の値である。また Ok= f(xk) (
4)χk=ΣWik’oi
(5)である。さらに f’(x)=2/(1+e−x)−1
(6)である。
重み係数Wil(の決定には衆知のBackpropa
gation(逆伝搬)学習法を用いることができる。
gation(逆伝搬)学習法を用いることができる。
Identitiy mapping及びBack p
ropagation学習の詳細については、例えばE
lman氏らによる“Discoveringthe
hidden structure of speec
h”と題した論文(J.Acoust. Soc. A
m. 1988年冫(文献3)等を参照することができ
る。
ropagation学習の詳細については、例えばE
lman氏らによる“Discoveringthe
hidden structure of speec
h”と題した論文(J.Acoust. Soc. A
m. 1988年冫(文献3)等を参照することができ
る。
以上の学習により予めWikの値を決定した神経回路の
入力層と中間層と出力層を神経回路150として用いる
。なお、受信側では中間層と出力層からなる復号神経回
路を用いる。
入力層と中間層と出力層を神経回路150として用いる
。なお、受信側では中間層と出力層からなる復号神経回
路を用いる。
小区間中の予測残差信号e(n)は小区間毎に小区間の
先頭からLサンプルが神経回路150へ入力され中間層
ユニットの出力値が(4)−(6)式にもとづき計算さ
れる。中間層ユニットの出力値qi(i=1−k)はマ
ルチプレクサ155へ出力される。
先頭からLサンプルが神経回路150へ入力され中間層
ユニットの出力値が(4)−(6)式にもとづき計算さ
れる。中間層ユニットの出力値qi(i=1−k)はマ
ルチプレクサ155へ出力される。
次に第2の本発明によれば、音声符号化復号化の送信側
の基本ブロック図を第6図(b)に示すように、スペク
トル、ピッチパラメータ計算部100において音声信号
からスペクトル包絡を表すスペクトルパラメータとピッ
チ周期を表すピッチパラメータを求める。次に予測部1
60において前記(1)式に基づきスペクトル包絡に関
する予測をした後に、さらにピッチ毎の長期相関を除去
するために次式に従いピッチ予測を行う。
の基本ブロック図を第6図(b)に示すように、スペク
トル、ピッチパラメータ計算部100において音声信号
からスペクトル包絡を表すスペクトルパラメータとピッ
チ周期を表すピッチパラメータを求める。次に予測部1
60において前記(1)式に基づきスペクトル包絡に関
する予測をした後に、さらにピッチ毎の長期相関を除去
するために次式に従いピッチ予測を行う。
d(n): e(n)一Σbi−e(n−T−i)
(7)サブフレーム分割部130はピッチ予
測残差信号d(n)を予め定められたサンプル数L毎の
小区間に分割する。
(7)サブフレーム分割部130はピッチ予
測残差信号d(n)を予め定められたサンプル数L毎の
小区間に分割する。
神経回路160はサンプル数Lの小区間毎にピンチ予測
残差信号を入力し中間層ユニットの出力値を求めこれを
マルチプレクサ155へ出力する。
残差信号を入力し中間層ユニットの出力値を求めこれを
マルチプレクサ155へ出力する。
(実施例)
第1の発明の第1の実施例を示す第1図において、送信
側では、スペクトル、ピッチパラメータ計算回路200
は予め定められたサンプル数Nの音声信号x(n)から
スペクトル包絡を表すスペクトルパラメータとピッチ周
期を表すピッチパラメータを計算する。スペクトルパラ
メータとしては種々のものが知られているがここでは線
形予測係数を用いる。
側では、スペクトル、ピッチパラメータ計算回路200
は予め定められたサンプル数Nの音声信号x(n)から
スペクトル包絡を表すスペクトルパラメータとピッチ周
期を表すピッチパラメータを計算する。スペクトルパラ
メータとしては種々のものが知られているがここでは線
形予測係数を用いる。
線形予測係数としてPARCOR係数Kiを予め定めら
れた次数Mまで求める。PARCOR係数の計算法は前
記文献2を参照できる。またピッチパラメータとしてピ
ッチ周期Tを計算する。具体的には自己相関法を用いる
ことができる。この方法の詳細は例えばL. R. R
abiner氏らによる゛’Digital Proc
essing ofSpeech Signals”と
題した単行本(Prentice−Hall社1987
年)の第8章(文献4)等を参照することができる。P
ARCOR係数Kiとピッチ周期Tはパラメータ符号器
210に出力される。
れた次数Mまで求める。PARCOR係数の計算法は前
記文献2を参照できる。またピッチパラメータとしてピ
ッチ周期Tを計算する。具体的には自己相関法を用いる
ことができる。この方法の詳細は例えばL. R. R
abiner氏らによる゛’Digital Proc
essing ofSpeech Signals”と
題した単行本(Prentice−Hall社1987
年)の第8章(文献4)等を参照することができる。P
ARCOR係数Kiとピッチ周期Tはパラメータ符号器
210に出力される。
パラメータ符号器210はPARCOR係数、ピッチ周
期Tをそれぞれ予め定められた量子化ビット数で符号化
し符号をマルチプレクサ260へ出力するとともに、P
ARCOR係数を復号化しさらに線形予測係数ai’(
i = 1− M)に変換しai′を予測器220ヘ出
力し、ピッチ周期を復号した復号ピッチ周期T′をサブ
フレーム分割回路230へ出力する。
期Tをそれぞれ予め定められた量子化ビット数で符号化
し符号をマルチプレクサ260へ出力するとともに、P
ARCOR係数を復号化しさらに線形予測係数ai’(
i = 1− M)に変換しai′を予測器220ヘ出
力し、ピッチ周期を復号した復号ピッチ周期T′をサブ
フレーム分割回路230へ出力する。
予測器220はailを用いて(1)式に従いx(n)
を予測して予測残差信号e(n)を求める。
を予測して予測残差信号e(n)を求める。
サブフレーム分割回路230は予測誤差信号e(n)を
復号ビッチ周期T′を用いてT′毎のサブフレームに分
割する。
復号ビッチ周期T′を用いてT′毎のサブフレームに分
割する。
神経回路240は、作用の項で示したように、入力層の
L個のユニットと中間層のK個のユニットがあらかじめ
結線されており、ユニット間の結合を与える重み係数W
はIdentitiy mapping及びBackp
ropagation学習によりあらかじめ決定されて
いる。ここで学習用信号としては予測残差信号e(n)
を用いる。神経回路240はサブフレーム毎の予測残差
信号のうちサブフレームの先頭からLサンプルだけ入力
して中間層ユニノトから出力qi(i = 1− K)
を出す。
L個のユニットと中間層のK個のユニットがあらかじめ
結線されており、ユニット間の結合を与える重み係数W
はIdentitiy mapping及びBackp
ropagation学習によりあらかじめ決定されて
いる。ここで学習用信号としては予測残差信号e(n)
を用いる。神経回路240はサブフレーム毎の予測残差
信号のうちサブフレームの先頭からLサンプルだけ入力
して中間層ユニノトから出力qi(i = 1− K)
を出す。
符号器250は神経回路240のK個の出力値を予め定
められた量子化ビット数により量子化して符号をマルチ
プレクサ260へ出力する。ここで量子化の方法として
はqiを一つずつスカラ量子化してもよいし、さらに効
率的に行うにはqi(i = 1− K)をK次元のベ
クトルとみなしてベクトル量子化をしてもよい。ベクト
ル量子化の具体的な方法としては、例えばMakhou
1氏による“Vector Quantization
inSpeech Coding”と題した論文(P
roc. IEEE vol、73,1551−158
8. 1985年)(文献5)等を参照することができ
る。
められた量子化ビット数により量子化して符号をマルチ
プレクサ260へ出力する。ここで量子化の方法として
はqiを一つずつスカラ量子化してもよいし、さらに効
率的に行うにはqi(i = 1− K)をK次元のベ
クトルとみなしてベクトル量子化をしてもよい。ベクト
ル量子化の具体的な方法としては、例えばMakhou
1氏による“Vector Quantization
inSpeech Coding”と題した論文(P
roc. IEEE vol、73,1551−158
8. 1985年)(文献5)等を参照することができ
る。
マルチプレクサ260はパラメータ符号器210、符号
器250の出力符号を組み合せて出力する。
器250の出力符号を組み合せて出力する。
受信側では、デマルチプレクサ270は、受信した符号
を分離して復号器280、パラメータ復号器290へ出
力する。
を分離して復号器280、パラメータ復号器290へ出
力する。
パラメータ復号器290は、PARCOR係数を復号し
さらにこれを線形予測係数a,lに変換して合成フィル
タ320へ出力する。またピッチ周期T′を復号して信
号形戒回路300へ出力する。
さらにこれを線形予測係数a,lに変換して合成フィル
タ320へ出力する。またピッチ周期T′を復号して信
号形戒回路300へ出力する。
復号器280は神経回路出力に対する符号を復号して復
号神経回路310へ出力する。
号神経回路310へ出力する。
復号神経回路310はK個のユニソトを有する中間層と
L個のユニットを有する出力層から構或される。中間層
から出力層への重みずけ係数は送信側での神経回路24
0に対応して前記作用の項で説明した方法によりあらか
じめ決定されている。復号神経回路310は復号器28
0の出力をKサンプルずつ人力し前記(4)−(6)式
に従い計算を行い出力層のL個の出力値を求めこれらを
出力する。
L個のユニットを有する出力層から構或される。中間層
から出力層への重みずけ係数は送信側での神経回路24
0に対応して前記作用の項で説明した方法によりあらか
じめ決定されている。復号神経回路310は復号器28
0の出力をKサンプルずつ人力し前記(4)−(6)式
に従い計算を行い出力層のL個の出力値を求めこれらを
出力する。
信号形戒回路300は神経回路240からのkサンプル
の出力の後方に振幅Oの信号を付加してT′サンプルの
信号系列e’(n)を作威し合成フィルタ320へ出力
する。
の出力の後方に振幅Oの信号を付加してT′サンプルの
信号系列e’(n)を作威し合成フィルタ320へ出力
する。
合成フィルタ320は線形予測係数a11を用いて次式
に従い合威信号x’(n)を求め出力する。
に従い合威信号x’(n)を求め出力する。
x’(n) = e’(n)十Σai’ − x’(n
− i) (8)I謬1 以上で第1の発明の第1の実施例め説明を終える。
− i) (8)I謬1 以上で第1の発明の第1の実施例め説明を終える。
第2図は第1の発明の第2の実施例を示す図である。第
2図においては予測器の配置が第1図と異なっている。
2図においては予測器の配置が第1図と異なっている。
図において第1図と同一の番号を有する構成要素は第1
図の構成要素と同一の動作をするので説明は省略する。
図の構成要素と同一の動作をするので説明は省略する。
第2図において、減算器400は入力音声信号x(n)
から次式にしたがい予測値文(n)を減算し予測残差信
号e(n)を求める。
から次式にしたがい予測値文(n)を減算し予測残差信
号e(n)を求める。
e(n)= x(n)− x(IN)
(9)ここで x(n) =Σai’−x(n−i)
(10)I謬l であり、予測値x(n)は予測器420において計算す
る。
(9)ここで x(n) =Σai’−x(n−i)
(10)I謬l であり、予測値x(n)は予測器420において計算す
る。
復号器280は符号器250により符号化した値を復号
し、復号神経回路310へ出力する。
し、復号神経回路310へ出力する。
復号神経回路310はK個の復号サンプルを入力してL
個の出力値を出力する。
個の出力値を出力する。
加算器400は信号形戊回路300の出力であるT′サ
ンプルの信号系列e’(n)に対して次式にもとづき予
測器入力信号x(n)を計算する。
ンプルの信号系列e’(n)に対して次式にもとづき予
測器入力信号x(n)を計算する。
大(n)=文(n)+e”(n)
(11)予測器420は(10)式に基づき復号した
線形予測係数ailを用いて予測を行う。
(11)予測器420は(10)式に基づき復号した
線形予測係数ailを用いて予測を行う。
以上で第2の実施例の送信側の説明を終える。なお、第
2の実施例の受信側は第1の実施例の受信側と全く同一
の構成で構成できるので説明は省略する。
2の実施例の受信側は第1の実施例の受信側と全く同一
の構成で構成できるので説明は省略する。
次に第2の本発明の第1の実施例について第3図を引用
して説明する。なお、第3図において第1図、第2図と
同一の番号をつけた構成要素は第1、2図の構成要素と
同一の動作を行うので説明は省略する。
して説明する。なお、第3図において第1図、第2図と
同一の番号をつけた構成要素は第1、2図の構成要素と
同一の動作を行うので説明は省略する。
第3図において、スペクトル、ピッチパラメータ計算回
路440はPARCOR係数、ピンチ周期T、ピッチゲ
インbを計算する。
路440はPARCOR係数、ピンチ周期T、ピッチゲ
インbを計算する。
パラメータ符号器445はPARCOR係数、T, b
を符号化して符号を出力するとともに、PARCOR係
数を復号してさらに線形予測係数a,Iに変換し、ピン
チ周期T′、ピッチゲインb′を復号し、ai“、T′
、b′を出力する。
を符号化して符号を出力するとともに、PARCOR係
数を復号してさらに線形予測係数a,Iに変換し、ピン
チ周期T′、ピッチゲインb′を復号し、ai“、T′
、b′を出力する。
予測器450は復号した線形予測係数ai+、復号した
ピッチ周期T”、復号したピッチゲインb′を人力し、
(12), (13)式に従いスペクトル包絡とピッチ
の両方の予測を行う。
ピッチ周期T”、復号したピッチゲインb′を人力し、
(12), (13)式に従いスペクトル包絡とピッチ
の両方の予測を行う。
e(n)=x(n)一Σail・x(n−i)
(12)五!1 d(n)=e(n)−b’e(n−Tつ
(13)分割回路460はスペクトル
包絡及びピッチに対する予測残差信号d(n)の系列を
予め定められたサンプル数L毎に分割して出力する。
(12)五!1 d(n)=e(n)−b’e(n−Tつ
(13)分割回路460はスペクトル
包絡及びピッチに対する予測残差信号d(n)の系列を
予め定められたサンプル数L毎に分割して出力する。
神経回路470は構或は第1図の神経回路240と同一
出あるが、重み係数の学習を行うとき(13)式の予測
残差信号d(n)を入力層、出力層のユニットに提示し
て学習を行っておく。神経回路470はL個の入力サン
プルを入力しK個の出力サンプルを中間層から出力する
。
出あるが、重み係数の学習を行うとき(13)式の予測
残差信号d(n)を入力層、出力層のユニットに提示し
て学習を行っておく。神経回路470はL個の入力サン
プルを入力しK個の出力サンプルを中間層から出力する
。
マルチプレクサ475は符号器250の出力符号、パラ
メータ符号器445のPARCORf−数、ピッチ周期
、ピッチゲインに関する符号を組み合せて出力する。
メータ符号器445のPARCORf−数、ピッチ周期
、ピッチゲインに関する符号を組み合せて出力する。
次に、受信側では、デマルチプレクサ476は受信した
符号を分離して復号器280、パラメータ復号器485
へ出力する。
符号を分離して復号器280、パラメータ復号器485
へ出力する。
パラメータ復号器485は、PARCOR係数を復号し
さらにこれを線形予測係数ai+に変換して合戊フィル
タ320へ出力する。またピッチゲインb′を復号して
ピンチ合成フィルタ490へ出力する。
さらにこれを線形予測係数ai+に変換して合戊フィル
タ320へ出力する。またピッチゲインb′を復号して
ピンチ合成フィルタ490へ出力する。
復号神経回路495はK個のユニットを有する中間層と
L個のユニットを有する出力層から構成される。中間層
から出力層への重みずけ係数は送信側での神経回路47
0に対応して前記作用の項で説明した方法によりあらか
じめ決定されている。復号神経回路495は復号器28
0の出力をKサンプルずつ人力し前記(4)−(6)式
に従い計算を行い出力層のL個の出力値d’(n)を求
めこれらを出力する。
L個のユニットを有する出力層から構成される。中間層
から出力層への重みずけ係数は送信側での神経回路47
0に対応して前記作用の項で説明した方法によりあらか
じめ決定されている。復号神経回路495は復号器28
0の出力をKサンプルずつ人力し前記(4)−(6)式
に従い計算を行い出力層のL個の出力値d’(n)を求
めこれらを出力する。
ピッチ合成フィルタ490はd’(n)を入力し次式に
従いピッチを再生したe’(n)を出力する。
従いピッチを再生したe’(n)を出力する。
e’(n) = d’(n) + b’ − e’(n
− T’) (14)合成フィルタ32
0は復号した線形予測係数ai+を用いて次式に従い合
成信号x’(n)を求め出力する。
− T’) (14)合成フィルタ32
0は復号した線形予測係数ai+を用いて次式に従い合
成信号x’(n)を求め出力する。
x’(n) = e’(n)+Σai’ − x’(n
−i) (15)一目 以上で第2の発明の第1の実施例の説明を終える。
−i) (15)一目 以上で第2の発明の第1の実施例の説明を終える。
第4図は第2の発明の第2の実施例を示すブロック図で
ある。図において第1−3図と同一の番号をつけた構成
要素は第1−3図と同一の動作をするので説明は省略す
る。第3図と第4図とでは予測器の配置が異なる。
ある。図において第1−3図と同一の番号をつけた構成
要素は第1−3図と同一の動作をするので説明は省略す
る。第3図と第4図とでは予測器の配置が異なる。
第4図において、減算器500は、予測器220におい
て(1)式に従い予測を行った予測残差信号e(n)か
ら、ピッチ予測器510においてピッチ予測した出力値
6(n)を次式にしたがい減算し予測残差信号d(n)
を求める。
て(1)式に従い予測を行った予測残差信号e(n)か
ら、ピッチ予測器510においてピッチ予測した出力値
6(n)を次式にしたがい減算し予測残差信号d(n)
を求める。
d(n)=e(n)−e(n)
(16)ここで !(n)=b’・e (n−T’)
(17)であり、ピッチ予測値a(n)はピッチ
予測器510において計算する。
(16)ここで !(n)=b’・e (n−T’)
(17)であり、ピッチ予測値a(n)はピッチ
予測器510において計算する。
加算器520は復号神経回路495のLサンプルの出力
値d’(n)とLサンプルの予測値8(n)を次式に従
い加算しLサンプルのピッチ予測器人力値g(n)を求
めピッチ予測器510へ出力する。
値d’(n)とLサンプルの予測値8(n)を次式に従
い加算しLサンプルのピッチ予測器人力値g(n)を求
めピッチ予測器510へ出力する。
e(n)=6(n)+d’(n) ’
(18)ピッチ予測器510は復号ピッチ周期T
′、復号ピッチゲインb′を用いて(l7)式に基づき
ピッチ予測を行う。
(18)ピッチ予測器510は復号ピッチ周期T
′、復号ピッチゲインb′を用いて(l7)式に基づき
ピッチ予測を行う。
以上で第2の発明の第2の実施例の説明を終える。
なお、第2の実施例の受信側の構或は第2の発明の第1
の実施例の構成(第3図)と同一であるので説明は省略
する。
の実施例の構成(第3図)と同一であるので説明は省略
する。
以上で第2の発明の第2の実施例の説明を終える。
第5図は第2の発明の第3の実施例を示す図である。図
において第1.4図と同一の番号をつけた構成要素は第
1−4図と同一の動作をするので説明を省略する。
において第1.4図と同一の番号をつけた構成要素は第
1−4図と同一の動作をするので説明を省略する。
ピッチ予測器510は次式に従いピッチ予測を行6(n
)=b’・e(n−Tつ
(l7)ここで e(n)= a(n)+ d’(n)
(20)予測器540は次式に従いスペクトル包絡
に対する予測を行う。
)=b’・e(n−Tつ
(l7)ここで e(n)= a(n)+ d’(n)
(20)予測器540は次式に従いスペクトル包絡
に対する予測を行う。
文(n)=Σai−又(n−i) (
21)+M1 ただし 太(n)= e(n)十犬(n)
(22)加算器550はピッチ予測器510のピッチ
予測出カ8(n)と予測器540のスペクトル包絡予測
の出カf(n)を次式により加算してx’(n)を得る
。
21)+M1 ただし 太(n)= e(n)十犬(n)
(22)加算器550はピッチ予測器510のピッチ
予測出カ8(n)と予測器540のスペクトル包絡予測
の出カf(n)を次式により加算してx’(n)を得る
。
)c’(n)=交(n)十Mn)
. (23)f’(n)を減算器530へ出力する
。
. (23)f’(n)を減算器530へ出力する
。
減算器530は音声信号x(n)がらスペクトル包絡及
びピッチに関する予測器出力f’(n)を次式により減
算して予測残差信号d(n)を出力する。
びピッチに関する予測器出力f’(n)を次式により減
算して予測残差信号d(n)を出力する。
d(n)=x(n) −x’(n)
(24)なお、本実施例の受信側の構或は第2の発
明第1の実施例の構成と同一であるので説明は省略する
。
(24)なお、本実施例の受信側の構或は第2の発
明第1の実施例の構成と同一であるので説明は省略する
。
以上で第2の発明の第3の実施例の説明を終える。
本発明の主旨を損なうことなく以上述べた実施例以外に
も種々の変形が考えられる。
も種々の変形が考えられる。
神経回路の中間層は1層としたが、多層としてもよい。
また、神経回路の構或としては衆知の他の構或を用いて
もよい。
もよい。
また、神経回路において重み係数の決定には作用の項で
述べた(3)式で定義される誤差を小さくするように決
定したが、誤差の評価尺度としては他の尺度を用いるこ
とができる。例えば次式のような重みずけ誤差尺度を用
いることができる。
述べた(3)式で定義される誤差を小さくするように決
定したが、誤差の評価尺度としては他の尺度を用いるこ
とができる。例えば次式のような重みずけ誤差尺度を用
いることができる。
E = 1/2Σ{(Ok−Tk)*w(n)}
(25)k ここでw(n)は任意の重み関数のインパルス応答を示
す。また記号本の畳こみ積分を示す。w(n)としては
、例えば聴感重みずけを行うために衆知の次式のような
伝達関数W(z)を有する重みずけ関数を用いることが
できる。
(25)k ここでw(n)は任意の重み関数のインパルス応答を示
す。また記号本の畳こみ積分を示す。w(n)としては
、例えば聴感重みずけを行うために衆知の次式のような
伝達関数W(z)を有する重みずけ関数を用いることが
できる。
ixl息謂!
このような重みづけ関数を用いると合成音声に重畳する
量子化雑音を聴感的にマスクするように整形することが
できる。
量子化雑音を聴感的にマスクするように整形することが
できる。
またこれ以外の聴感重みすけ法として、符号器250で
発生する量子化雑音を次式により整形して符号器の入力
にフィードバックする方法を用いることもできる。
発生する量子化雑音を次式により整形して符号器の入力
にフィードバックする方法を用いることもできる。
q(n) = d(n) + {q’(n) 一q(n
)} 本f(n) (27)ただし F(z) =Σai’γ1z ” (0<γ<1)
(28)I諺l (27)式においてq(n)、q’(n)はそれぞれ符
号器入力値、出力値である。なお、この方法の詳細につ
いては例えば、Ata1氏らによる”Predicti
ve Coding ofSpeech at Low
Bit Rates”(IEEE Trans. C
ommun.,pp. 600−614. 1982年
)と題した論文(文献5)等を参照できる。
)} 本f(n) (27)ただし F(z) =Σai’γ1z ” (0<γ<1)
(28)I諺l (27)式においてq(n)、q’(n)はそれぞれ符
号器入力値、出力値である。なお、この方法の詳細につ
いては例えば、Ata1氏らによる”Predicti
ve Coding ofSpeech at Low
Bit Rates”(IEEE Trans. C
ommun.,pp. 600−614. 1982年
)と題した論文(文献5)等を参照できる。
さらに受信側で量子化雑音に対して聴感重みずけを行う
ために、合成フィルタの出力に次式の伝達特性を有する
ポストフィルタを付加することもできる。
ために、合成フィルタの出力に次式の伝達特性を有する
ポストフィルタを付加することもできる。
I譚1i−1
(0くα,f3<1)
ポストフィルタはスペクトル包絡以外にピッチに関して
も付加することができる。ピッチに対するポストフィル
タの伝達特性は次式のようになる。
も付加することができる。ピッチに対するポストフィル
タの伝達特性は次式のようになる。
Wp(z) =1/{1−Σbi’l3”z }(0
<a,13<1) (30)また実施例ではピッチ
予測は1次としたが2次以上としてもよい。
<a,13<1) (30)また実施例ではピッチ
予測は1次としたが2次以上としてもよい。
また第2の発明を示した実施例(第3−5図)において
、スペクトル包絡に関する予測器とピッチに関する予測
器の順序を逆にしてもよい。
、スペクトル包絡に関する予測器とピッチに関する予測
器の順序を逆にしてもよい。
(発明の効果)
以上述べたように本発明によれは、音声信号のサンプル
間、ピッチ周期間の冗長性、大きなダイナミックレンジ
をスペクトル包絡、ピッチ予測により予め除去したのち
に、神経回路において特徴を抽出して符号化伝送してい
るので、従来方式にくらべ神経回路において中間層のユ
ニットの個数を入力層のユニットの個数に比べ大きく低
減することができ、さらに中間層のユニットの出力値を
荒く量子化することができるので、従来方式と比べビッ
トレートを低減しても音質劣化がほとんどないという効
果がある。
間、ピッチ周期間の冗長性、大きなダイナミックレンジ
をスペクトル包絡、ピッチ予測により予め除去したのち
に、神経回路において特徴を抽出して符号化伝送してい
るので、従来方式にくらべ神経回路において中間層のユ
ニットの個数を入力層のユニットの個数に比べ大きく低
減することができ、さらに中間層のユニットの出力値を
荒く量子化することができるので、従来方式と比べビッ
トレートを低減しても音質劣化がほとんどないという効
果がある。
第1図は第1の発明の第1の実施例を示す図、第2図は
第1の発明の第2の実施例を示す図、第3図は第2の発
明の第lの実施例を示す図、第4図は第2の発明の第2
の実施例を示す図、第5図は第2の発明の第3の実施例
を示す図、第6図は本発明の作用を示す基本ブロック図
、第7図は神経回路の基本構成を示す図である。 図において、100, 200、440・・・スペクト
ル、ピッチパラメータ計算回路、120、220、42
0、540・・・予測回路、130、230・・・サブ
フレーム分割回路、150、240、470・・・神経
回路、155、260、475・・・マルチプレクサ、
155、270、476、210、445・・・パラメ
ータ符号器、250・・・符号器、280・・・復号器
、270、476・・・デマルチプレクサ、310、4
95・・・復号神経回路、300・・・信号形戒回路、
320・・・合成フィルタを示す。
第1の発明の第2の実施例を示す図、第3図は第2の発
明の第lの実施例を示す図、第4図は第2の発明の第2
の実施例を示す図、第5図は第2の発明の第3の実施例
を示す図、第6図は本発明の作用を示す基本ブロック図
、第7図は神経回路の基本構成を示す図である。 図において、100, 200、440・・・スペクト
ル、ピッチパラメータ計算回路、120、220、42
0、540・・・予測回路、130、230・・・サブ
フレーム分割回路、150、240、470・・・神経
回路、155、260、475・・・マルチプレクサ、
155、270、476、210、445・・・パラメ
ータ符号器、250・・・符号器、280・・・復号器
、270、476・・・デマルチプレクサ、310、4
95・・・復号神経回路、300・・・信号形戒回路、
320・・・合成フィルタを示す。
Claims (2)
- (1)送信側では音声信号を入力し前記音声信号のスペ
クトル包絡を表すスペクトルパラメータとピッチ周期を
表すピッチパラメータとピッチ周期を表すピッチパラメ
ータを求め、前記スペクトルパラメータを用いて前記音
声信号を予測して前記音声信号のスペクトルに関する冗
長性を除去した予測残差信号を求め、前記音声信号を前
記ピッチ周期に応じた小区間に分割し、予め定められた
個数の入力層ユニットと予め定められた個数の中間層ユ
ニットと予め定められた個数の出力層ユニットが接続さ
れ構成される神経回路に前記小区間の予測残差信号を予
め定められたサンプル数入力して前記中間層の出力を求
め、前記スペクトルパラメータと前記ピッチパラメータ
と前記中間層出力値とを出力し、受信側では前記中間層
出力値を用いて前記神経回路の出力層の値を求め、前記
スペクトルパラメータにもとづくフィルタを駆動して合
成音声信号を求め出力することを特徴とする音声符号化
復号化方式。 - (2)送信側では音声信号を入力し前記音声信号のピッ
チ周期を表すピッチパラメータを求め、前記スペクトル
パラメータを求め、前記スペクトルパラメータと前記ピ
ッチパラメータを用いて前記音声信号を予測して前記音
声信号のスペクトル及びピッチに関する冗長性を除去し
た予測残差信号を求め、予め定められた個数の入力層ユ
ニットと予め定められた個数の中間層ユニットと定めら
れた個数の出力層ユニットが接続され構成される神経回
路に前記予測残差信号を予め定められたサンプル数入力
して中間層の出力を求め、前記スペクトルパラメータと
前記ピッチパラメータと中間層出力値とを出力し、受信
側では前記中間層値を用いて前記神経回路の出力層の値
を求め、前記ピッチパラメータと前記スペクトルパラメ
ータにもとづくフィルタを駆動して合成音声信号を求め
出力す ることを特徴とする音声符号化復号化方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1152633A JPH0317700A (ja) | 1989-06-14 | 1989-06-14 | 音声符号化復号化方式 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1152633A JPH0317700A (ja) | 1989-06-14 | 1989-06-14 | 音声符号化復号化方式 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0317700A true JPH0317700A (ja) | 1991-01-25 |
Family
ID=15544658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1152633A Pending JPH0317700A (ja) | 1989-06-14 | 1989-06-14 | 音声符号化復号化方式 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0317700A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022516784A (ja) * | 2019-01-11 | 2022-03-02 | ネイバー コーポレーション | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 |
-
1989
- 1989-06-14 JP JP1152633A patent/JPH0317700A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022516784A (ja) * | 2019-01-11 | 2022-03-02 | ネイバー コーポレーション | 話者適応型モデルを実現して合成音声信号を生成するニューラルボコーダおよびニューラルボコーダの訓練方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1202251B1 (en) | Transcoder for prevention of tandem coding of speech | |
CN101615396B (zh) | 语音编码设备、以及语音解码设备 | |
EP0409239B1 (en) | Speech coding/decoding method | |
JP2002526798A (ja) | 複数チャネル信号の符号化及び復号化 | |
JP3590071B2 (ja) | 音声の効率的な符号化のためのスペクトルパラメータの予測分割マトリックス量子化 | |
JP2001509616A (ja) | 長期間予測と多重パルス励起信号を用いて音声信号を符号化および/または復号化する方法 | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
JPH0944195A (ja) | 音声符号化装置 | |
JPH09319398A (ja) | 信号符号化装置 | |
JP2970407B2 (ja) | 音声の励振信号符号化装置 | |
JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
JPH0317700A (ja) | 音声符号化復号化方式 | |
KR100554164B1 (ko) | 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법 | |
JP2004348120A (ja) | 音声符号化装置、音声復号化装置及びこれらの方法 | |
WO2000003385A1 (fr) | Codeur/decodeur vocal | |
JP3089967B2 (ja) | 音声符号化装置 | |
JP3047761B2 (ja) | 音声符号化装置 | |
JP3296411B2 (ja) | 音声符号化方法および復号化方法 | |
JPH028900A (ja) | 音声符号化復号化方法並びに音声符号化装置及び音声復合化装置 | |
JP3578933B2 (ja) | 重み符号帳の作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JPH02282800A (ja) | 音声符号化方式 | |
JP3274451B2 (ja) | 適応ポストフィルタ及び適応ポストフィルタリング方法 | |
JP2605679B2 (ja) | パタン符号化復号化方式及び装置 | |
JP3144244B2 (ja) | 音声符号化装置 |