JPH034300A - Voice encoding and decoding system - Google Patents
Voice encoding and decoding systemInfo
- Publication number
- JPH034300A JPH034300A JP1139524A JP13952489A JPH034300A JP H034300 A JPH034300 A JP H034300A JP 1139524 A JP1139524 A JP 1139524A JP 13952489 A JP13952489 A JP 13952489A JP H034300 A JPH034300 A JP H034300A
- Authority
- JP
- Japan
- Prior art keywords
- signal
- pitch
- pulse
- parameter
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims abstract description 22
- 238000001228 spectrum Methods 0.000 claims abstract description 13
- 238000000034 method Methods 0.000 claims description 43
- 230000005236 sound signal Effects 0.000 claims description 40
- 230000003595 spectral effect Effects 0.000 claims description 31
- 230000015572 biosynthetic process Effects 0.000 claims description 28
- 238000003786 synthesis reaction Methods 0.000 claims description 28
- 239000002131 composite material Substances 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 38
- 238000004458 analytical method Methods 0.000 abstract description 7
- 238000005311 autocorrelation function Methods 0.000 description 11
- 238000005314 correlation function Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 7
- 238000011084 recovery Methods 0.000 description 6
- 238000007796 conventional method Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 2
- 241001123248 Arma Species 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
Description
【発明の詳細な説明】
(産業上の利用分野)
本発明は音声信号を低いビットレートで効率的に符号化
し、復号化するための音声符号化復号北方式に関する。DETAILED DESCRIPTION OF THE INVENTION Field of the Invention The present invention relates to an audio encoding and decoding method for efficiently encoding and decoding audio signals at low bit rates.
(従来の技術)
音声信号を低いビットレート、例えば16Kb/s程度
以下で伝送する方式としては、マルチパルス符号化法な
どが知られている。これらは音源信号を複数個のパルス
組合せ(マルチパルス)で表し、声道の特徴をデジタル
フィルタで表し、音源パルスの情報とフィルタの係数を
、一定時間区間(フレーム)毎に求めて伝送している。(Prior Art) As a method for transmitting audio signals at a low bit rate, for example, about 16 Kb/s or less, a multipulse encoding method is known. These represent the sound source signal as a combination of multiple pulses (multi-pulse), represent the characteristics of the vocal tract with a digital filter, and transmit the information on the sound source pulse and the filter coefficients after determining them for each fixed time interval (frame). There is.
この方法の詳細については、例えばAraseki、
Ozawa、 Ono、 0chiai氏による“Mu
lti−pulse Excited 5peech
Coder Ba5ed onMaximum Cr
osscorrelation 5earch A
lgorithm”。For details of this method, see for example Araseki,
“Mu” by Ozawa, Ono, Ochiai
lti-pulse Excited 5peech
Coder Ba5ed on Maximum Cr
osscorrelation 5earch A
lgorithm”.
(GLOBECOM 83. IEEE Global
Telecommunication。(GLOBECOM 83. IEEE Global
Telecommunication.
講演番号23.3.1983X文献1)に記載されてい
る。この方法では、声道情報と音源信号を分離してそれ
ぞれ表現すること、および音源信号を表現する手段とし
て複数のパルス列の組合せ(マルチパルス)を用いるこ
とにより、復号後に良好な音声信号を出力できる。音源
信号を表すパルス列を求める基本的な考え方については
第5図を用いて説明する。図中の入力端子900からは
フレーム毎に分割された音声信号が人力される。合成フ
ィルタ920には現フレームの音声信号から求められた
スペクトルパラメータが入力されている。音源計算回路
910において初期マルチパルスを発生し、これを前記
合成フィルタ920に入力することによって出力として
合成音声波形が得られる。減算器940で前記人力信号
から合成音声波形を減する。この結果を重み付は回路9
50へ入力し、現フレームでの重み付は誤差電力を得る
。そしてこの重み付は誤差電力を最小とするように、音
源計算回路910において規定個数のマルチパルスの振
幅と位置を求める。It is described in lecture number 23.3.1983X document 1). This method can output a good audio signal after decoding by separately expressing the vocal tract information and the sound source signal, and by using a combination of multiple pulse trains (multipulse) as a means of expressing the sound source signal. . The basic idea of finding a pulse train representing a sound source signal will be explained using FIG. 5. An audio signal divided into frames is manually inputted from an input terminal 900 in the figure. Spectral parameters determined from the audio signal of the current frame are input to the synthesis filter 920. An initial multipulse is generated in the sound source calculation circuit 910 and inputted to the synthesis filter 920 to obtain a synthesized speech waveform as an output. A subtracter 940 subtracts the synthesized speech waveform from the human input signal. This result is weighted by circuit 9.
50 and weighting in the current frame obtains the error power. Then, the amplitude and position of a specified number of multipulses are determined in the sound source calculation circuit 910 so that this weighting minimizes the error power.
(発明が解決しようとする課題)
しかしながら、この従来法ではビットレートが充分に高
く音源パルスの数が充分なときは音質が良好であったが
、ビットレートを下げて行くと音質が低下するという問
題点が合った。(Problem to be solved by the invention) However, with this conventional method, the sound quality was good when the bit rate was high enough and the number of sound source pulses was sufficient, but as the bit rate was lowered, the sound quality deteriorated. I agree with the problem.
この問題点を改善するために、マルチパルス音源のピッ
チ毎の準周期性(ピッチ相関)を利用したピッチ予測マ
ルチパルス法が提案されている。この方法の詳細は、例
えば、特願昭58−139022号明細書(文献2)に
詳しいのでここでは説明を省略する。In order to improve this problem, a pitch prediction multi-pulse method has been proposed that utilizes the pitch-wise quasi-periodicity (pitch correlation) of a multi-pulse sound source. The details of this method are detailed in, for example, Japanese Patent Application No. 139022/1982 (Document 2), so the explanation will be omitted here.
しかしながら、マルチパルス音源のピッチ毎の準周期性
は大振幅のパルスでは大きいと考えられるが、全てのパ
ルスについてこのような周期性が存在するわけではなく
、振幅の小さなパルスはピッチ毎の周期性は少ないと考
えられる。前記文献2のピッチ予測マルチパルス法では
、フレーム内で予め定められたすべての個数のパルスに
ついてピッチ毎の周期性を仮定して全てのパルスをピッ
チ予測により求めているので、特に周期性の少ないパル
スに対してはピッチ予測によりかえって特性が悪化する
という問題点があった。特にこのことは、母音同士の遷
移区間や過渡部において顕著であり、このような部分で
音質が劣化するという問題点があった。However, although the pitch-wise quasi-periodicity of a multipulse sound source is considered to be large for large-amplitude pulses, such periodicity does not exist for all pulses, and small-amplitude pulses have pitch-wise periodicity. is considered to be small. In the pitch prediction multi-pulse method of Document 2, all pulses are determined by pitch prediction assuming periodicity for each pitch for a predetermined number of pulses within a frame, so all pulses are determined by pitch prediction. For pulses, there is a problem in that pitch prediction actually worsens the characteristics. This is particularly noticeable in transition sections and transitional parts between vowels, and there is a problem in that the sound quality deteriorates in such parts.
さらに、前記文献2の方法では、ピッチ情報をインパル
ス応答に含ませているため非常に時間長の長いインパル
ス応答(例えば20m5ec以上)を必要とし、予め定
められた個数の全てのパルスをピッチ予測により求めて
いるので、パルスの探索に要する演算量は非常に多く、
現在のLSI技術をもってしても装置をコンパクトに実
現することは円錐であった。Furthermore, in the method of Document 2, since pitch information is included in the impulse response, a very long impulse response (for example, 20 m5ec or more) is required, and all pulses of a predetermined number are determined by pitch prediction. Since we are searching for a pulse, the amount of calculation required to search for a pulse is extremely large.
Even with current LSI technology, it has been difficult to realize a compact device.
本発明の目的は、ビットレートが高いところでも、下げ
ていっても従来よりも良好な音声を再生することが可能
で、すくない演算量で実現可能な音声符号化復号化方式
を提供することにある。The purpose of the present invention is to provide an audio encoding/decoding method that can reproduce better audio than before even when the bit rate is high or lower, and that can be realized with a small amount of calculation. be.
(課題を解決するための手段)
本発明の音声符号化復号化方式は、送信側では離散的な
音声信号を入力し前記音声信号からフレーム毎にスペク
トル包絡を表すスペクトルパラメータとピッチ周期を表
すピッチパラメータとを抽出し、前記フレームの音声信
号を前記ピッチパラメータに応じた小区間に分割し、前
記小区間のうちの1つの区間の音声信号に対して前記ピ
ッチパラメータと前記スペクトルパラメータを用いて第
1のマルチパルスを求め、他の区間では前記マルチパル
スを補正する係数を求め、前記マルチパルスと前記係数
により求めた信号を前記音声信号から除去して得られる
信号に対してスペクトルパラメータを用いて第2のマル
チパルスを求め、受信側では前記第1のマルチパルスと
前記ピッチパラメータと前記係数と前記第2のマルチパ
ルスを用いて音源信号を復元し、さらに前記スペクトル
パラメータを用いて構成される合成フィルタを駆動して
合成音声信号を求めることを特徴とする。(Means for Solving the Problem) The audio encoding/decoding method of the present invention inputs a discrete audio signal on the transmitting side, and extracts a spectral parameter representing a spectral envelope and a pitch representing a pitch period from the audio signal for each frame. The audio signal of the frame is divided into small sections according to the pitch parameter, and the audio signal of one section of the small sections is extracted using the pitch parameter and the spectrum parameter. 1 multi-pulse is obtained, coefficients for correcting the multi-pulse are obtained in other sections, and the signal obtained by removing the multi-pulse and the coefficient from the audio signal is obtained using spectral parameters. A second multi-pulse is obtained, and on the receiving side, a sound source signal is restored using the first multi-pulse, the pitch parameter, the coefficient, and the second multi-pulse, and further configured using the spectral parameter. It is characterized by driving a synthesis filter to obtain a synthesized speech signal.
また本発明による音声符号化方式は、送信側では離散的
な音声信号を入力し前記音声信号からフレーム毎にスペ
クトル包絡を表すスペクトルパラメータとピッチ周期を
表すピッチパラメータを抽出し、前記フレームの音声信
号を前記ピッチパラメータに応じた小区間に分割し、前
記音声信号の音源信号として前記小区間のうち1つの区
間において前記ピッチパラメータと前記スペクトルパラ
メータを用いて第1のマルチパルスを求め、他の区間で
は前記マルチパルスを補正する係数を求め、前記マルチ
パルスと前記係数により求めた信号を前記音声信号から
除去して得られる信号に対して前記スペクトルパラメー
タを用いて第2のマルチパルスを求めて得られるマルチ
パルス音源か、予め定められた種類の雑音信号から構成
される符号帳から前記音声信号と合成信号との誤差電力
を小さくするように選択した雑音信号を用いて表し、受
信側では前記第1のマルチパルスと前記ピッチパラメー
タと前記係数と前記第2のマルチパルスを用いて音源信
号を復元するか、前記選択した雑音信号を用いて音源信
号を復元し、前記スペクトルパラメータを用いて構成さ
れる合成フィルタを前記音源信号により駆動して合成音
声信号を求めることを特徴とする。Further, in the audio encoding method according to the present invention, a discrete audio signal is input on the transmitting side, and a spectral parameter representing a spectral envelope and a pitch parameter representing a pitch period are extracted from the audio signal for each frame, and the audio signal of the frame is is divided into small sections according to the pitch parameter, a first multi-pulse is obtained as a sound source signal of the audio signal using the pitch parameter and the spectrum parameter in one section among the small sections, and the first multi-pulse is obtained in the other sections. Then, a coefficient for correcting the multi-pulse is obtained, and a second multi-pulse is obtained by using the spectral parameter for the signal obtained by removing the multi-pulse and the signal obtained by the coefficient from the audio signal. The receiver side uses a multi-pulse sound source selected from a codebook consisting of predetermined types of noise signals to reduce the error power between the speech signal and the synthesized signal. 1 multi-pulse, the pitch parameter, the coefficient and the second multi-pulse, or the selected noise signal is used to restore the sound source signal and the spectral parameter is used to reconstruct the sound source signal. The synthesized speech signal is obtained by driving a synthesis filter according to the sound source signal.
(作用)
第1の発明による音声符号化復号化方式は、フレーム区
間(例えば20m5)の音声信号の音源信号を、有音区
間ではフレームを分割した小区間において、ピッチ補間
により求めたマルチパルス(第1のマルチパルス)と、
フレーム全体においてピッチ予測無しで求めたマルチパ
ルス(第2のマルチパルス)とを用いて表すことを特徴
としている。前記第1のマルチパルスの計算は次のよう
に行う。マルチパルス音源のピッチ毎の単周期性を・非
常に効率よく利用すると共に演算量を大きく低減するた
めに、フレームをあらかじめピッチ周期に応じた小区間
(サブフレーム)に分割し、前記サブフレームのうちの
1つのサブフレーム(代表区間)についてのみマルチパ
ルスを求める。他のサブフレームについては前記代表区
間で求めたマルチパルスのゲインと位相を補正する補正
係数を求め、この係数を用いて他のサブフレームにおい
て、前記代表区間のマルチパルスのゲインと位相を補正
してパルスを発生させ、フレーム全体のパルスを復元す
る。そして前記パルスによりフレームで信号を再生して
前記音声信号から前記信号を減算した後に、前記フレー
ムにおいて前記文献1と同様の方法により、マルチパル
ス(第2のマルチパルス)を求めるわけである。(Operation) The audio encoding/decoding method according to the first invention converts the sound source signal of an audio signal in a frame section (for example, 20 m5) into a multi-pulse ( first multi-pulse);
It is characterized by representing the entire frame using a multi-pulse (second multi-pulse) obtained without pitch prediction. The calculation of the first multi-pulse is performed as follows. In order to utilize the monoperiodic nature of each pitch of a multipulse sound source very efficiently and to greatly reduce the amount of calculation, a frame is divided in advance into small sections (subframes) according to the pitch period, and each of the subframes is Multipulses are obtained only for one subframe (representative section). For other subframes, find a correction coefficient that corrects the gain and phase of the multipulse found in the representative section, and use this coefficient to correct the gain and phase of the multipulse in the representative section in other subframes. to generate a pulse and restore the pulse for the entire frame. Then, after reproducing a signal in frames using the pulses and subtracting the signals from the audio signal, a multipulse (second multipulse) is obtained in the frame using the same method as in Document 1.
以下で本方式の基本的な処理を第3図を用いて説明する
。第3図は、本発明の作用を示すブロック図である。入
力端子100から音声信号を入力し、前記音声信号を予
め定められた時間長の(例えば20m5)フレームに分
割する。LPG、ピッチ分析部150はフレームの音声
信号からスペクトル包絡を表すスペクトルパラメータと
して、予め定められた次数のLPG係数を衆知のLPC
分析によゆもとめる。LPG係数としては、ここで用い
る線形予測係数a、の他にLSP、ホルマント、LPC
ケプストラムなどの他の良好なパラメータを用いること
もできる。また、LPC以外の分析法、例えばケプスト
ラムやPSE、ARMA法などを用いることもできる。The basic processing of this method will be explained below using FIG. FIG. 3 is a block diagram showing the operation of the present invention. An audio signal is input from an input terminal 100, and the audio signal is divided into frames of a predetermined time length (for example, 20 m5). The LPG and pitch analysis unit 150 converts the LPG coefficients of a predetermined order into well-known LPC signals from the frame audio signal as spectral parameters representing the spectral envelope.
Stop for analysis. In addition to the linear prediction coefficient a used here, LPG coefficients include LSP, formant, and LPC.
Other good parameters such as cepstrum can also be used. Furthermore, analysis methods other than LPC, such as cepstrum, PSE, and ARMA methods, can also be used.
以下では線形予測係数を用いるものとして説明を行う。The following explanation assumes that linear prediction coefficients are used.
また150は、フレームの音声からピッチパラメータと
してピッチ周期Mを計算する。これには衆知の自己相関
法を用いることができる。Further, 150 calculates a pitch period M as a pitch parameter from the audio of the frame. The well-known autocorrelation method can be used for this.
ピッチ補間マルチパルス計算部250及びマルチパルス
計算部270の動作を第4図を引用して説明する。第4
図(a)はフレームの音声信号を表す。ここでは−例と
してフレーム長を20m5としている。ピッチ補間マル
チパルス計算部250では、まず、(b)のように、フ
レームをピッチ周期Mを用いて小区間(サブフレーム)
に分割する。ここではサブフレームの長さはピッチ周期
Mと同一としている。The operations of the pitch interpolation multipulse calculation section 250 and the multipulse calculation section 270 will be explained with reference to FIG. Fourth
Figure (a) represents the audio signal of a frame. Here, as an example, the frame length is 20 m5. The pitch interpolation multipulse calculation unit 250 first divides the frame into small sections (subframes) using the pitch period M, as shown in (b).
Divide into. Here, the length of the subframe is the same as the pitch period M.
次に、前記文献1と同一の方法により、前記線形予測係
数から構成される合成フィルタのインパルス応答h(n
)の自己相関関数”hh(m)、聴感重みすけ音声信号
と前記インパルス応答h(n)との相互相関関数ohx
(m)を求める。次に、前記サブフレームのうちの予め
定められた1つの区間(以下、代表区間と呼ぶ。ここで
は例えば第4図(b)の区間■)についてのみ、予め定
められた個数K(ここでは4としている)のマルチパル
ス(第1のマルチパルス)の振幅g4、位置m。Next, using the same method as in Document 1, the impulse response h(n
), the autocorrelation function ``hh(m)'', the cross-correlation function ohx between the perceptually weighted speech signal and the impulse response h(n)
Find (m). Next, a predetermined number K (here, 4 amplitude g4 and position m of the multi-pulse (first multi-pulse).
を求める。ここでマルチパルスの求め方は前記文献1を
参照できる。第4図(C)は求めたマルチパルスを示す
。次に、代表区間以外のサブフレームでは、代表区間で
求めたマルチパルスのゲイン、位相を補正してパルスを
発生するためのゲイン補正係数、位相補正係数を求める
。フレーム内のj番目のサブフレームにおけるゲイン補
正係数C1、位相補」
正係数d、は次式の誤差電力を最小化するように求める
。seek. Here, reference can be made to the above-mentioned document 1 for how to obtain the multi-pulse. FIG. 4(C) shows the obtained multipulse. Next, in subframes other than the representative section, gain correction coefficients and phase correction coefficients for generating pulses by correcting the gain and phase of the multi-pulse obtained in the representative section are determined. The gain correction coefficient C1 and phase correction positive coefficient d in the j-th subframe within the frame are determined to minimize the error power according to the following equation.
E=E[(xt(n) −y(n))*w(n)]
(1)ここでx、(n)、s、
(n)はj番目のサブフレームにおけ」 」
る音7jg信号、マルチパルスのゲイン、位相を補正し
て求めた合成音声をそれぞれ示す。ただしS、(、n)
=ciig、g、・h(n−m、7L−M−d、)
(Lは整数)(2)ここでh(n)lよ合成フィルタの
インパルス応答である。(2)式を(1)式に代入して
C0で偏微分してOとおくことにより、(1)式を最小
化するC5、d、を求める事ができる。詳細は特願昭6
3−208201号明細書(文献3)等を参照できる。E=E[(xt(n) −y(n))*w(n)]
(1) Here x, (n), s,
(n) shows the synthesized speech obtained by correcting the sound 7jg signal, multi-pulse gain, and phase in the j-th subframe. However, S, (, n)
=ciig, g, ・h (n-m, 7L-M-d,)
(L is an integer) (2) where h(n)l is the impulse response of the synthesis filter. By substituting equation (2) into equation (1), partially differentiating it with respect to C0, and setting it as O, C5,d, which minimizes equation (1), can be found. For details, please see the special request
Reference can be made to the specification of No. 3-208201 (Document 3).
このようにして基本的にはフレーム内の他のサブフレー
ム区間すべてについてゲイン補正係数、位相補正係数を
求める。そして代表区間のマルチパルスとゲイン補正数
、位相補正係数を用いて第4図(d)のようにフレーム
全体のパルスを再生する。なお、代表区間のフレーム内
位置は、いくつかのサブフレームを探索して決定しても
よいし、あらかじめ決めておいてもよい。前者の方法の
詳細は例えば前記文献3等を参照できる。In this way, gain correction coefficients and phase correction coefficients are basically obtained for all other subframe sections within the frame. Then, using the multi-pulse of the representative section, the gain correction number, and the phase correction coefficient, the pulse of the entire frame is reproduced as shown in FIG. 4(d). Note that the intra-frame position of the representative section may be determined by searching several subframes, or may be determined in advance. For details of the former method, reference can be made to, for example, the above-mentioned document 3.
次に、再生したパルスv(n)を用いて(3)式で定義
される合成フィルタを駆動して再生信号x’(n)を得
る。Next, a synthesis filter defined by equation (3) is driven using the reproduced pulse v(n) to obtain a reproduced signal x'(n).
x’(n)=v(n)+ 、fi aix’(n−i)
(3)s=1
ここでa、は線形予測係数である。x'(n)=v(n)+, fi aix'(ni)
(3) s=1 where a is a linear prediction coefficient.
減算器260は次式にしたがい音声信号x(n)からX
・(n)を減算してe(n)を得る。The subtracter 260 converts the audio signal x(n) to X according to the following equation:
- Subtract (n) to obtain e(n).
e(n) =x(n) −x’(n)
(4)次に、マルチパルス計算部270は
e(n)に対して、前記文献1と同一の方法を用いてe
(n)に聴感重み付けをした信号と合成フィルタの重み
ずけインパルス応答との相互相関関数と、前記重みすけ
インパルス応答の自己相関関数を用いて、フレーム内で
予め定められた個数Qのマルチパルス(第2のマルチパ
ルス)を求める。これを第4図(e)に示す。図ではQ
を4としている。e(n) = x(n) −x'(n)
(4) Next, the multipulse calculation unit 270 calculates e(n) using the same method as in Document 1.
A predetermined number Q of multi-pulses are generated within a frame using a cross-correlation function between the perceptually weighted signal (n) and the weighted impulse response of the synthesis filter, and an autocorrelation function of the weighted impulse response. (second multipulse). This is shown in FIG. 4(e). In the diagram, Q
is set as 4.
一方、無声フレームでは、フレーム全体に対してマルチ
パルスの振幅、位置を求める。On the other hand, for an unvoiced frame, the amplitude and position of multipulses are determined for the entire frame.
送信側の伝送情報は、合成フィルタのスペクトルパラメ
ータの他に、有声フレームでは、スペクトル包絡を表す
スペクトルパラメータa、、ピッチM、代表区間のに個
のマルチパルスの振幅と位置、ゲイン補正係数、位相補
正係数、代表区間のフレーム内位置、Q個のマルチパル
スの振幅と位置である。また、無声フレームでは、マル
チパルスの振幅、位置を伝送する。In addition to the spectral parameters of the synthesis filter, the transmission information on the transmitting side includes, in voiced frames, the spectral parameter a representing the spectral envelope, the pitch M, the amplitude and position of the multipulses in the representative section, the gain correction coefficient, and the phase. These are the correction coefficient, the position within the frame of the representative section, and the amplitude and position of the Q multipulses. Furthermore, in the unvoiced frame, the amplitude and position of the multipulse are transmitted.
第2の発明では、有声フレームでは第1の発明と同じ動
作をするが、無声フレームではマルチバルスではなくて
、予め定められた種類の雑音信号からなる符号帳から一
種類を選択した雑音信号を用いて音源信号を表すことを
特徴とする。雑音信号としては、例えばガウス性の統計
分布を有する乱数を用いることができる。雑音信号の時
間方向の長さ(次元数)は通常フレームよりも短い長さ
(例えば5〜10m5)とする。また雑音信号の種類は
2種類とする。このような符号帳から入力音声に対して
最もよい雑音信号を選択する方法としては、雑音信号を
用いて合成フィルタを駆動して音声を合成して原音声と
の誤差電力を求め、誤差電力を最小化する雑音信号を選
択する方法が知られている。この方法の詳細は、例えば
5chroeder、 Ata1氏による”Code−
excited 1inear prediction
(CELP) : Highquality 5pe
ech at very low bit rates
”と題した論文(Proc、 ICASSP、 pp、
937−940.1985X文献4)等を参照するこ
とができる。In the second invention, the same operation as in the first invention is performed in voiced frames, but in unvoiced frames, a noise signal selected from a codebook of predetermined types of noise signals is used instead of a multi-pulse. It is characterized in that it represents a sound source signal using As the noise signal, for example, a random number having a Gaussian statistical distribution can be used. The length (number of dimensions) of the noise signal in the time direction is shorter than the normal frame (for example, 5 to 10 m5). Furthermore, there are two types of noise signals. The method of selecting the best noise signal for input speech from such a codebook is to use the noise signal to drive a synthesis filter to synthesize speech, find the error power with the original speech, and calculate the error power. Methods of selecting noise signals to be minimized are known. Details of this method can be found, for example, in “Code-
Excited 1inear prediction
(CELP): Highquality 5pe
ech at very low bit rates
” (Proc, ICASSP, pp.
937-940.1985X document 4), etc. can be referred to.
無声フレームでは、選択された雑音信号を示すインデッ
クス、ゲイン、ピッチ再生フィルタのピッチゲイン、ピ
ッチ周期、合成フィルタのスペクトルパラメータを受信
側へ伝送する。In the unvoiced frame, an index indicating the selected noise signal, a gain, a pitch gain of a pitch recovery filter, a pitch period, and a spectrum parameter of a synthesis filter are transmitted to the receiving side.
(実施例)
第1の発明の一実施例を示す第1図において、入力端子
500から離散的な音声信号x(n)を入力する。(Embodiment) In FIG. 1 showing an embodiment of the first invention, a discrete audio signal x(n) is input from an input terminal 500.
スペクト・ル、ピッチパラメータ計算回路520では分
割したフレーム区間(例えば20m5)の音声信号スペ
クトル包絡を表す合成フィルタのスペクトルパラメータ
aiを、衆知のLPC分析法によって求める。また、ピ
ッチ周期Mを衆知の自己相関法により求める。The spectral and pitch parameter calculation circuit 520 calculates the spectral parameter ai of the synthesis filter representing the audio signal spectral envelope of the divided frame section (for example, 20 m5) using the well-known LPC analysis method. Further, the pitch period M is determined by the well-known autocorrelation method.
求められたスペクトルパラメータ及びピッチ周期に対し
て、量子化器525において量子化を行う。A quantizer 525 performs quantization on the obtained spectrum parameters and pitch periods.
量子化の方法は、特願昭59−272435号明Ml書
(文献5)に示されているようなスカラー量子化や、あ
るいはベクトル量子化を行ってもよい。ベクトル量子化
の具体的な方法については、例えば、Makhou1氏
らによる“Vector quantization
in 5peech coding”(Proc、 I
EEE、 pp、 1551−1558.1985X文
献6)などの論文を参照できる。The quantization method may be scalar quantization as shown in Japanese Patent Application No. 59-272435 (Reference 5), or vector quantization. For a specific method of vector quantization, see, for example, “Vector quantization” by Makhou et al.
in 5peech coding” (Proc, I
You can refer to papers such as EEE, pp. 1551-1558.1985X Reference 6).
逆量子化器530は、量子化した結果を用いて逆量子化
して出力する。The dequantizer 530 dequantizes and outputs the quantized result.
減算器535はフレームの音声信号から影響信号を減算
して出力する。A subtracter 535 subtracts the influence signal from the audio signal of the frame and outputs the result.
重み付は回路540は、音声信号と逆量子化されたスペ
クトルパラメータを用いて前記信号に聴感重み付けを行
う。重み付けの方法は、前記文献2の重み付は回路20
0を参照することができる。Weighting circuit 540 perceptually weights the audio signal using the dequantized spectral parameters. The weighting method of the above-mentioned document 2 is based on the weighting circuit 20.
0 can be referenced.
インパルス応答計算回路550は、逆量子化されたスペ
クトルパラメータa1.を用いて聴感重みずけをした合
成フィルタのインパルス応答h(n)を計算する。The impulse response calculation circuit 550 calculates the dequantized spectrum parameters a1. The impulse response h(n) of the synthesis filter subjected to auditory weighting is calculated using .
具体的な方法は前記文献2のインパルス応答計算回路を
参照できる。For a specific method, refer to the impulse response calculation circuit in Document 2.
自己相関関数計算回路560は前記インパルス応答に対
して自己相関関数”hh(m)を計算し、それぞれ音源
パルス計算回路580とパルス計算回路586へ出力す
る。自己相関関数の計算法は前記文献2の自己相関関数
計算回路180を参照することができる。The autocorrelation function calculation circuit 560 calculates the autocorrelation function "hh(m)" for the impulse response, and outputs it to the sound source pulse calculation circuit 580 and the pulse calculation circuit 586, respectively.The method for calculating the autocorrelation function is described in the above-mentioned document 2. The autocorrelation function calculation circuit 180 of FIG.
相互相関関数計算回路570は前記聴感重み付けられた
信号と、前記インパルス応答h(n)との相互相関関数
Φ、、(m)を計算する。A cross-correlation function calculation circuit 570 calculates a cross-correlation function Φ, , (m) between the perceptually weighted signal and the impulse response h(n).
音源パルス計算回路580では、まず、フレームを逆量
子化したピッチ周期M′を用いて前記第4図(b)のよ
うにサブフレーム区間に分割する。そして予め定められ
た1つのサブフレーム区間(代表区間)(例えば第4図
(b)のサブフレーム■)について、Φ、、(m)とR
,、(m)とを用いてに個のマルチパルス列(第1のマ
ルチパルス)の振幅g該位置miを求める。パルス列の
計算方法については、前記文献2の音源パルス計算回路
を参照することができる。The sound source pulse calculation circuit 580 first divides the frame into subframe sections as shown in FIG. 4(b) using the inversely quantized pitch period M'. Then, for one predetermined subframe section (representative section) (for example, subframe ■ in Fig. 4(b)), Φ, , (m) and R
, , (m) to find the amplitude g of the multi-pulse train (first multi-pulse) at the position mi. Regarding the pulse train calculation method, reference can be made to the sound source pulse calculation circuit in Document 2.
補正係数計算回路583では作用の項で示した(1)。The correction coefficient calculation circuit 583 is shown in the function section (1).
(2)式に従い、代表区間以外のサブフレーム区間にお
いてゲイン補正係数C1、位相補正係数d、を計算しJ
」て出力する。According to equation (2), calculate the gain correction coefficient C1 and the phase correction coefficient d in subframe sections other than the representative section.
” is output.
量子化器585は、前記マルチパルス列の振幅と位置を
量子化して符号を出力する。具体的な方法は前記文献1
.2などを参照できる。またゲイン補正係数、位相補正
係数、代表区間のフレーム内位置を量子化して符号を出
力する。具体的な方法は例えば前記文献3などを参照で
きる。これらの出力はさらに逆量子化され、ピッチ補間
回路605に出力され第4図(d)のようにフレーム全
体のパルスが復元される。A quantizer 585 quantizes the amplitude and position of the multi-pulse train and outputs a code. The specific method is in the above document 1.
.. 2 etc. can be referred to. It also quantizes the gain correction coefficient, phase correction coefficient, and position within the frame of the representative section, and outputs a code. For a specific method, reference can be made to the above-mentioned document 3, for example. These outputs are further dequantized and output to a pitch interpolation circuit 605 to restore the pulses of the entire frame as shown in FIG. 4(d).
前記復元されたパルスは、合成フィルタ610に通すこ
とによって、前記(3)式に従い合成音声信号x’(n
)が求まる。The restored pulse is passed through a synthesis filter 610 to produce a synthesized speech signal x'(n
) can be found.
減算器615は、前記音声信号x(n)から合成音声信
号x’(n)を(4)式に従い減することによって、残
差信号e(n)を得る。The subtracter 615 obtains a residual signal e(n) by subtracting the synthesized speech signal x'(n) from the speech signal x(n) according to equation (4).
重み付は回路600は前記残差信号に対して聴感重みず
けを行う。The weighting circuit 600 performs perceptual weighting on the residual signal.
相互相関関数計算回路603は重み付は回路600の出
力と前記インパルス応答h(n)との相互相関関数を計
算する。A cross-correlation function calculation circuit 603 calculates a cross-correlation function between the output of the weighting circuit 600 and the impulse response h(n).
パルス計算回路586では、前記相互相関関数とインパ
ルス応答h(n)の自己相関関数を用いて、予め定めら
れた個数のマルチパルス(第2のマルチパルス)の振幅
と位置を求める。The pulse calculation circuit 586 uses the cross-correlation function and the autocorrelation function of the impulse response h(n) to find the amplitude and position of a predetermined number of multipulses (second multipulse).
量子化器620は前記マルチパルスの振幅、位置を量子
化して出力するとともに、これらを逆量子化して合成フ
ィルタ625へ出力する。The quantizer 620 quantizes and outputs the amplitude and position of the multi-pulse, and also dequantizes and outputs them to the synthesis filter 625.
合成フィルタ625は残差信号を合成して出力する。A synthesis filter 625 synthesizes and outputs the residual signals.
加算器627は合成フィルタ625と合成フィルタ61
0の出力を加算してフレームの再生信号を求め、さらに
次フレームに対する影響信号をもとめて出力する。影響
信号計算の具体的な方法は前記文献2を参照できる。The adder 627 includes the synthesis filter 625 and the synthesis filter 61.
The reproduced signal of the frame is obtained by adding the outputs of 0, and the influence signal for the next frame is also determined and output. For a specific method of calculating the influence signal, refer to the above-mentioned document 2.
マルチプレクサ635は、量子化器585,620の出
力であるマルチパルス列の振幅、位置、補正係数、代表
区間の位置を表す符号、パラメータ量子化器525の出
力であるスペクトルパラメータ、ピッチ周期を表す符号
を組み合せて出力する。The multiplexer 635 receives the amplitude, position, correction coefficient, and code representing the position of the representative section of the multi-pulse train output from the quantizers 585 and 620, the spectrum parameter output from the parameter quantizer 525, and the code representing the pitch period. Combine and output.
一方、受信側では、デマルチプレクサ710は、ピッチ
補間マルチパルス(第1のマルチパルス)の振幅、位置
、補正係数、代表区間の位置を表す符号、マルチパルス
(第2のマルチパルス)の振幅、位置を表す符号、スペ
クトルパラメータ、ピッチ周期を表す符号を分離して出
力する。On the other hand, on the receiving side, the demultiplexer 710 outputs the amplitude, position, and correction coefficient of the pitch interpolation multipulse (first multipulse), a code representing the position of the representative section, the amplitude of the multipulse (second multipulse), The code representing the position, the spectrum parameter, and the code representing the pitch period are separated and output.
第1のパルス復号器720はピッチ補間マルチパルスの
振幅、位置を復号する。第2のパルス復号器725は第
2のマルチパルスの振幅、位置を復号する。パラメータ
復号器750は、送信側の逆量子化器530と同じ働き
をして、スペクトルパラメータa”1、ピッチ周期M′
を復号して出力する。The first pulse decoder 720 decodes the amplitude and position of the pitch interpolated multi-pulse. A second pulse decoder 725 decodes the amplitude and position of the second multi-pulse. The parameter decoder 750 has the same function as the inverse quantizer 530 on the transmitting side, and has a spectral parameter a''1 and a pitch period M'.
Decode and output.
ピッチ補間回路726は、送信側のピッチ補間回路60
5と同一の動作を行う。The pitch interpolation circuit 726 is the pitch interpolation circuit 60 on the transmission side.
Perform the same operation as 5.
パルス発生器727は前記第2のマルチパルスによる音
源信号をフレーム長だけ発生させる。The pulse generator 727 generates a sound source signal based on the second multi-pulse for a frame length.
加算器740はパルス発生器727とピッチ補間回路7
26の出力信号を加算してフレームの駆動音源信号を求
め、合成フィルタ回路760を駆動する。Adder 740 includes pulse generator 727 and pitch interpolation circuit 7
26 output signals are added to obtain a frame driving sound source signal, and the synthesis filter circuit 760 is driven.
合成フィルタ回路760は、前記駆動音源信号及び前記
復号されたスペクトルパラメータを用いて、フレーム毎
に合成音声波形を求めて出力する。The synthesis filter circuit 760 uses the driving sound source signal and the decoded spectral parameters to obtain and output a synthesized speech waveform for each frame.
以上で第1の発明の一実施例の説明を終える。This concludes the description of one embodiment of the first invention.
第2図は第2の発明の一実施例を示すブロック図である
。図において第1図と同一の番号を付した構成要素は、
第1図と同一の動作を行うので説明は省略する。FIG. 2 is a block diagram showing an embodiment of the second invention. In the figure, the components numbered the same as in Figure 1 are as follows:
Since the operation is the same as in FIG. 1, the explanation will be omitted.
図において、スペクトル、ピッチパラメータ計算回路5
22はスペクトルパラメータaを衆知のLPC分析を用
いて求め、ピッチパラメータとしてピッチ周期M、ピッ
チゲインbを衆知の自己相関法を用いて求める。In the figure, spectrum and pitch parameter calculation circuit 5
22, a spectral parameter a is determined using a well-known LPC analysis, and pitch parameters such as a pitch period M and a pitch gain b are determined using a well-known autocorrelation method.
量子化器522は、スペクトルパラメータaをPARC
OR係数あるいはLSP係数に変換した後に量子化する
。ここではPARCOR係数を用いる。またピンチ周期
M、ピッチゲインbを量子化する。またこれらの量子化
値を復号化して復号値a、t、M′、b′を出力する。The quantizer 522 converts the spectral parameter a into PARC
After converting into OR coefficients or LSP coefficients, quantization is performed. Here, PARCOR coefficients are used. Also, the pinch period M and pitch gain b are quantized. Furthermore, these quantized values are decoded to output decoded values a, t, M', and b'.
B 。B.
コードブック800は、2 (Bはヒツト数を示す)種
類の雑音信号をあらかじめ格納している。雑音信号の発
生の方法は前記文献4を参照できる。このうちから一種
類ずつたたみこみ回路810へ出力する。The codebook 800 stores two types of noise signals (B indicates the number of hits) in advance. For the method of generating the noise signal, refer to the above-mentioned document 4. Of these, one type is output to the convolution circuit 810.
畳み込み回路810は、一種類の雑音信号c(n)と前
記インパルス応答h(n)を次式に従いたたみこみ、結
果をスイッチ820に出力する。The convolution circuit 810 convolves one type of noise signal c(n) and the impulse response h(n) according to the following equation, and outputs the result to the switch 820.
f(n)=c(n)*h(n)
(5)ここで記号*は畳み込み和を表す。f(n)=c(n)*h(n)
(5) Here, the symbol * represents a convolution sum.
スイッチ820は有声フレームではインパルス応答計算
回路550の出力を相関関数計算回路560へ出力し、
無声フレームでは畳み込み回路810の出力を自己相関
関数計算回路560へ出力する。ここで有声、無声の判
別は例えば、復号化したピンチゲインb′の値が予めか
ためられたしきい値を越えたときは有声、そうでないと
きは無声と判別することができる。The switch 820 outputs the output of the impulse response calculation circuit 550 to the correlation function calculation circuit 560 in a voiced frame,
For unvoiced frames, the output of the convolution circuit 810 is output to the autocorrelation function calculation circuit 560. Here, voiced or unvoiced can be determined, for example, when the value of the decoded pinch gain b' exceeds a preset threshold, it is determined that there is voice, and otherwise, it is determined that voice is unvoiced.
スイッチ825は自己相関関数計算回路560の出力を
、有声フレームでは音源パルス計算回路580へ出力し
、無声フレームでは信号選択回路830へ出力する。The switch 825 outputs the output of the autocorrelation function calculation circuit 560 to the excitation pulse calculation circuit 580 in a voiced frame, and to the signal selection circuit 830 in an unvoiced frame.
信号選択回路830は相互相関関数Φxhと自己相関関
数Rhhとを用いて次式の計算を行う。The signal selection circuit 830 uses the cross-correlation function Φxh and the autocorrelation function Rhh to calculate the following equation.
G=(ΦXh)/Rhh(6)
(6)式の計算を全ての雑音信号に対して行い、(6)
式を最大化する雑音信号を選択し、選択された雑音信号
を表すインデックスと(6)式で求めたゲインGを出力
する。G=(ΦXh)/Rhh(6) Calculate equation (6) for all noise signals, and (6)
The noise signal that maximizes the equation is selected, and the index representing the selected noise signal and the gain G obtained from equation (6) are output.
符号器840は、ゲインGを予め定められたビット数で
量子化しマルチプレクサ635へ出力する。また量子化
値を復号化してピッチ再生フィルタ850へ出力する。Encoder 840 quantizes gain G using a predetermined number of bits and outputs it to multiplexer 635. It also decodes the quantized value and outputs it to the pitch recovery filter 850.
ピッチ再生フィルタ850は次式に従い音源信号v(n
)を求めて出力する。The pitch recovery filter 850 receives the sound source signal v(n
) and output it.
V(n)=c(n)+b’・v(n−M)
(7)ここでc(n)は選択された雑音信号で
ある。V(n)=c(n)+b'・v(n-M)
(7) where c(n) is the selected noise signal.
合成フィルタ860はv(n)を人力して合成音声を求
めて出力する。The synthesis filter 860 manually calculates v(n) to obtain and output synthesized speech.
スイッチ865は、減算器535に対して有声フレーム
では加算器627の出力を出力し、無声フレームでは合
成フィルタ860の出力を出力する。Switch 865 outputs the output of adder 627 to subtracter 535 in voiced frames, and outputs the output of synthesis filter 860 in unvoiced frames.
受信側では、復号回路875は、雑音信号のゲイン、イ
ンデックスを復号する。On the receiving side, a decoding circuit 875 decodes the gain and index of the noise signal.
パラメータ復号回路870は、ピッチゲインb′、ピッ
チ周期M’、スペクトルパラメータa、lを復号する。Parameter decoding circuit 870 decodes pitch gain b', pitch period M', and spectral parameters a and l.
ピッチ再生フィルタ880は、送信側のピッチ再生フィ
ルタ850と同一の動作を行ない、無声フレームにおけ
る音源信号を復号する。The pitch recovery filter 880 performs the same operation as the pitch recovery filter 850 on the transmission side, and decodes the sound source signal in the unvoiced frame.
スイッチ870は有声フレームと無声フレームで音源信
号を切り替える。A switch 870 switches the sound source signal between voiced frames and unvoiced frames.
以上で第2の発明の一実hI&例の説明を終了する。This concludes the explanation of one example of the second invention.
以上述べた構成は本発明の一実施例に過ぎず、種々の変
形も可能である。The configuration described above is only one embodiment of the present invention, and various modifications are possible.
マルチパルスの計算方法としては、前記文献1に示した
方法の他に、種々の衆知な方法を用いることができる。As a method for calculating multi-pulses, in addition to the method shown in Document 1, various well-known methods can be used.
これには、例えば、Ozawa氏らによる“A 5tu
dy on Pu1se 5earch Algori
thms for Multi−pulse 5pee
ch Coder Realization” (IE
EE JSAC,pp。For example, “A 5tu” by Ozawa et al.
dy on Pulse 5earch Algori
thms for Multi-pulse 5pee
ch Coder Realization” (IE
EE JSAC, pp.
133−141.1986X文献7)を参照することが
できる。133-141.1986X Document 7).
また、ピッチ周期、ピッチゲインの計算法としては、前
述の実施例で示した方法の他に、例えば、下記(8)式
のように、過去の音源信号v(n)とピッチ再生フィル
タ、合成フィルタで再生した信号と、現サブフレームの
入力音声信号x(n)との誤差電力Eを最小化するよう
な位置Mを探索し、そのときの係数すを求めることもで
きる。In addition, as a method for calculating the pitch period and pitch gain, in addition to the method shown in the above embodiment, for example, as shown in the following equation (8), the past sound source signal v(n) and the pitch reproduction filter, It is also possible to search for a position M that minimizes the error power E between the signal reproduced by the filter and the input audio signal x(n) of the current subframe, and find the coefficients at that time.
E=Σ[(x(n)−b−V(n−T)*h(n))本
w(n)] (8)ここで、h(n)は合
成フィルタのインパルス応答、w(n)は聴感重みすけ
回路のインパルス応答を示す。E=Σ[(x(n)-b-V(n-T)*h(n)) w(n)] (8) Here, h(n) is the impulse response of the synthesis filter, w(n ) shows the impulse response of the auditory weighting circuit.
また、送信側の合成フィルタ610では重みすけ信号を
再生するようにして、重みずけ回路540がらこれを減
算するような構成とすると、重みすけ回路600を省略
することができる。Further, if the transmitting side synthesis filter 610 is configured to reproduce the weighted signal and the weighted signal is subtracted from the weighted signal, the weighted signal can be omitted.
また送信側における合成フィルタ610.625.86
0を共通化することもできる。Also, the synthesis filter 610.625.86 on the transmitting side
0 can also be made common.
また、特性は少し低下するが、送信側で影響信号の減算
を省略することもできる。このような構成とすると、減
算器535、合成フィルタ625、加算器627、ピッ
チ再生フィルタ850、合成フィルタ860が不要とな
り、構成を簡略化できる。Furthermore, the subtraction of the influence signal can be omitted on the transmitting side, although the characteristics are slightly degraded. With such a configuration, the subtracter 535, the synthesis filter 625, the adder 627, the pitch recovery filter 850, and the synthesis filter 860 become unnecessary, and the configuration can be simplified.
(発明の効果)
第1の発明によれば、有声フレームでは、ピッチ毎の周
期性の強いパルスについては、ピッチ補間により1つの
サブフレーム区間のパルスを求めることにより非常に効
率的に表し、ピッチ毎の相関のそれほど強くないパルス
についてはピッチ補間を用いずにマルチパルスを求めて
いるので、全てのパルスに対してピッチ予測を用いて求
める従来法と比較して、母音遷移部や過渡部など周期性
が少し弱くなる部分で音質を大きく改善することができ
るという効果がある。さらにピッチ補間では一つのサブ
フレームに対してのみマルチパルスを求めているので、
ピッチ予測マルチパルスに比べ必要な演算量を大幅に低
減することが可能という大きな効果がある。さらに、第
2の発明によれば、周期性がなく音源信号が雑音的な無
声フレームでは、最も良好な雑音信号を選択して音源を
表しているので従来方式に比べ音質がさらに改善される
という効果がある。(Effects of the Invention) According to the first invention, in voiced frames, pulses with strong periodicity for each pitch can be expressed very efficiently by determining pulses in one subframe section by pitch interpolation, and Since multi-pulses are obtained without using pitch interpolation for pulses whose correlation is not very strong, compared to the conventional method that uses pitch prediction for all pulses, it is possible to obtain multi-pulses without using pitch interpolation. This has the effect of greatly improving the sound quality in areas where the periodicity is slightly weakened. Furthermore, since pitch interpolation requires multipulses only for one subframe,
This has the great effect of significantly reducing the amount of calculation required compared to pitch prediction multi-pulse. Furthermore, according to the second invention, in unvoiced frames where there is no periodicity and the sound source signal is noise, the best noise signal is selected to represent the sound source, so the sound quality is further improved compared to the conventional method. effective.
第1図は第1の発明による音声符号化復号化方式の一実
施例の構成を示すブロック図、第2図は第2の発明によ
る音声符号化復号化方式の一実施例の構成を示すブロッ
ク図、第3図は本発明の作用を示すブロック図である。
第4図はピッチ補間マルチパルスの例を表すブロック図
である。第5図は従来方式の例を示すブロック図である
。
図において、150・・・LPG、ピッチ分析部、25
0・・・音源パルス計算部、270・・・パルス計8部
、520,522・・・スペクトル、ピッチパラメータ
計算回路、525・・・パラメータ量子化器、530・
・逆量子化器、535.260・・・減算器、540・
・・重みずけ回路、550・0.インパルス応答計算回
路、560・・・自己相関関数計算回路、570.60
3・・・相互相関関数計算回路、585.620・・・
量子化器、627・・・加算器、586・・・パルス計
算回路、605.726・・・ピッチ補間回路、610
.625.760.860・・・合成フィルタ、635
・・・マルチプレクサ、710・・・デマルチプレクサ
、720・・・第1のパルス復号器、725・・・第2
のパルス復号器、750.870・・・パラメータ復号
器、727・・・パルス発生器、800・・・コードブ
ック、810・・・畳み込み回路、820.825.8
65・・・スイッチ、830・・・信号選択回路、85
0.880・・・ピッチ再生フィルタ、875・・・復
号回路。FIG. 1 is a block diagram showing the configuration of an embodiment of the audio encoding/decoding method according to the first invention, and FIG. 2 is a block diagram showing the configuration of an embodiment of the audio encoding/decoding method according to the second invention. 3 are block diagrams showing the operation of the present invention. FIG. 4 is a block diagram showing an example of pitch interpolation multi-pulse. FIG. 5 is a block diagram showing an example of a conventional method. In the figure, 150...LPG, pitch analysis section, 25
0... Sound source pulse calculation unit, 270... Pulse meter 8 unit, 520, 522... Spectrum, pitch parameter calculation circuit, 525... Parameter quantizer, 530...
・Inverse quantizer, 535.260...Subtractor, 540・
...Weighting circuit, 550.0. Impulse response calculation circuit, 560...Autocorrelation function calculation circuit, 570.60
3... Cross-correlation function calculation circuit, 585.620...
Quantizer, 627...Adder, 586...Pulse calculation circuit, 605.726...Pitch interpolation circuit, 610
.. 625.760.860...Synthesis filter, 635
... multiplexer, 710 ... demultiplexer, 720 ... first pulse decoder, 725 ... second
pulse decoder, 750.870...parameter decoder, 727...pulse generator, 800...codebook, 810...convolution circuit, 820.825.8
65... Switch, 830... Signal selection circuit, 85
0.880...Pitch reproduction filter, 875...Decoding circuit.
Claims (2)
号からフレーム毎にスペクトル包絡を表すスペクトルパ
ラメータとピッチ周期を表すピッチパラメータとを抽出
し、前記フレームの音声信号を前記ピッチパラメータに
応じた小区間に分割し、前記小区間のうち1つの区間の
音声信号に対して前記ピッチパラメータと前記スペクト
ルパラメータを用いて第1のマルチパルスを求め、他の
区間では前記マルチパルスを補正する係数を求め、前記
マルチパルスと前記係数により求めた信号を前記音声信
号から除去した後に前記スペクトルパラメータを用いて
第2のマルチパルスを求め、受信側では前記第1のマル
チパルスと前記ピッチパラメータと前記補正係数と前記
第2のマルチパルスを用いて音源信号を復元し、さらに
前記スペクトルパラメータを用いて構成される合成フィ
ルタを駆動して合成音声信号を求めることを特徴とする
音声符号化復号化方式。(1) On the transmitting side, a discrete audio signal is input, a spectral parameter representing a spectral envelope and a pitch parameter representing a pitch period are extracted from the audio signal for each frame, and the audio signal of the frame is adjusted according to the pitch parameter. dividing the audio signal into small sections, using the pitch parameter and the spectrum parameter to obtain a first multi-pulse for the audio signal in one of the small sections, and coefficients for correcting the multi-pulse in other sections. After removing the signal obtained from the multi-pulse and the coefficient from the audio signal, a second multi-pulse is obtained using the spectral parameter, and on the receiving side, the first multi-pulse, the pitch parameter, and the signal are removed from the audio signal. A speech encoding/decoding method characterized in that a sound source signal is restored using a correction coefficient and the second multi-pulse, and a synthesized speech signal is obtained by driving a synthesis filter configured using the spectral parameter. .
号からフレーム毎にスペクトル包絡を表すスペクトルパ
ラメータとピッチ周期を表すピッチパラメータとを抽出
し、前記フレームの音声信号を前記ピッチパラメータに
応じた小区間に分割し、前記音声信号の音源信号として
前記小区間のうち1つの区間において前記ピッチパラメ
ータと前記スペクトルパラメータを用いて第1のマルチ
パルスを求め、他の区間では前記マルチパルスを補正す
る係数を求め、前記マルチパルスと前記係数により求め
た信号を前記音声信号から除去して得られる信号に対し
て前記スペクトルパラメータを用いて第2のマルチパル
スを求めて得られるマルチパルス音源か、予め定められ
た種類の雑音信号から構成される符号帳から前記音声信
号と前記雑音信号から得られる合成信号との誤差電力を
小さくするように選択した雑音信号を用いて表し、受信
側では前記第1のマルチパルスと前記ピッチパラメータ
と前記補正係数と前記第2のマルチパルスを用いて音源
信号を復元するか、前記選択した雑音信号を用いて音源
信号を復元し、前記スペクトルパラメータを用いて構成
される合成フィルタを前記音源信号により駆動して合成
音声信号を求めることを特徴とする音声符号化復号化方
式。(2) On the transmitting side, a discrete audio signal is input, a spectral parameter representing a spectral envelope and a pitch parameter representing a pitch period are extracted from the audio signal for each frame, and the audio signal of the frame is adjusted according to the pitch parameter. dividing the audio signal into small sections, and calculating a first multipulse using the pitch parameter and the spectrum parameter in one of the small sections as a sound source signal of the audio signal, and correcting the multipulse in other sections. a multipulse sound source obtained by calculating a second multipulse using the spectral parameter for the signal obtained by removing the multipulse and the signal calculated by the coefficient from the audio signal, It is expressed using a noise signal selected from a codebook consisting of predetermined types of noise signals so as to reduce the error power between the speech signal and a composite signal obtained from the noise signals, and the reception side 1 multipulse, the pitch parameter, the correction coefficient, and the second multipulse, or restore the sound source signal using the selected noise signal and configure using the spectral parameter. A speech encoding/decoding method characterized in that a synthesized filter is driven by the sound source signal to obtain a synthesized speech signal.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1139524A JP2853170B2 (en) | 1989-05-31 | 1989-05-31 | Audio encoding / decoding system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1139524A JP2853170B2 (en) | 1989-05-31 | 1989-05-31 | Audio encoding / decoding system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH034300A true JPH034300A (en) | 1991-01-10 |
JP2853170B2 JP2853170B2 (en) | 1999-02-03 |
Family
ID=15247295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1139524A Expired - Lifetime JP2853170B2 (en) | 1989-05-31 | 1989-05-31 | Audio encoding / decoding system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2853170B2 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6351490B1 (en) | 1998-01-14 | 2002-02-26 | Nec Corporation | Voice coding apparatus, voice decoding apparatus, and voice coding and decoding system |
US20150332024A1 (en) * | 2010-11-12 | 2015-11-19 | Google Inc. | Syndication Including Melody Recognition and Opt Out |
-
1989
- 1989-05-31 JP JP1139524A patent/JP2853170B2/en not_active Expired - Lifetime
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6351490B1 (en) | 1998-01-14 | 2002-02-26 | Nec Corporation | Voice coding apparatus, voice decoding apparatus, and voice coding and decoding system |
US20150332024A1 (en) * | 2010-11-12 | 2015-11-19 | Google Inc. | Syndication Including Melody Recognition and Opt Out |
US9396312B2 (en) * | 2010-11-12 | 2016-07-19 | Google Inc. | Syndication including melody recognition and opt out |
Also Published As
Publication number | Publication date |
---|---|
JP2853170B2 (en) | 1999-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0409239B1 (en) | Speech coding/decoding method | |
JP4550289B2 (en) | CELP code conversion | |
US7016831B2 (en) | Voice code conversion apparatus | |
JP3180762B2 (en) | Audio encoding device and audio decoding device | |
JP2004514182A (en) | A method for indexing pulse positions and codes in algebraic codebooks for wideband signal coding | |
US5027405A (en) | Communication system capable of improving a speech quality by a pair of pulse producing units | |
JP2002268686A (en) | Voice coder and voice decoder | |
JP3531780B2 (en) | Voice encoding method and decoding method | |
JP2829978B2 (en) | Audio encoding / decoding method, audio encoding device, and audio decoding device | |
JP3303580B2 (en) | Audio coding device | |
KR0155798B1 (en) | Vocoder and the method thereof | |
JPH028900A (en) | Voice encoding and decoding method, voice encoding device, and voice decoding device | |
JP3232701B2 (en) | Audio coding method | |
JPH034300A (en) | Voice encoding and decoding system | |
JP2968109B2 (en) | Code-excited linear prediction encoder and decoder | |
JP2900431B2 (en) | Audio signal coding device | |
JP2001142499A (en) | Speech encoding device and speech decoding device | |
JP3063087B2 (en) | Audio encoding / decoding device, audio encoding device, and audio decoding device | |
JP3006790B2 (en) | Voice encoding / decoding method and apparatus | |
JP3274451B2 (en) | Adaptive postfilter and adaptive postfiltering method | |
JP3071800B2 (en) | Adaptive post filter | |
JPH10232697A (en) | Voice coding/decoding method | |
JP2817196B2 (en) | Audio coding method | |
JPH02160300A (en) | Voice encoding system | |
JPH01314300A (en) | Voice coding and decoding system and device thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071120 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081120 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081120 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091120 Year of fee payment: 11 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091120 Year of fee payment: 11 |