[go: up one dir, main page]

JP3074703B2 - Multi-pulse encoder - Google Patents

Multi-pulse encoder

Info

Publication number
JP3074703B2
JP3074703B2 JP02166883A JP16688390A JP3074703B2 JP 3074703 B2 JP3074703 B2 JP 3074703B2 JP 02166883 A JP02166883 A JP 02166883A JP 16688390 A JP16688390 A JP 16688390A JP 3074703 B2 JP3074703 B2 JP 3074703B2
Authority
JP
Japan
Prior art keywords
term prediction
pulse
synthesis
synthesis filter
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP02166883A
Other languages
Japanese (ja)
Other versions
JPH0457100A (en
Inventor
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP02166883A priority Critical patent/JP3074703B2/en
Publication of JPH0457100A publication Critical patent/JPH0457100A/en
Application granted granted Critical
Publication of JP3074703B2 publication Critical patent/JP3074703B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音声信号の高能率符号化を行うマルチパル
ス符号化装置に関するものである。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a multi-pulse encoding device for performing high-efficiency encoding of a speech signal.

〔発明の概要〕[Summary of the Invention]

本発明は、駆動パルスを複数の合成フィルタに供給し
て得られた複数の音声情報と入力音声情報とを比較し
て、一つの合成フィルタ及び対応する駆動パルスの対を
選択し、この対の合成フィルタ及び駆動パルスに関連す
る情報を符号化することにより、音声信号を低ビットレ
ートに圧縮符号化することができると共に、低ビットレ
ートであっても音声合成によって品質の良い合成音を得
ることができるようになるマルチパルス符号化装置を提
供するものである。
The present invention compares a plurality of audio information obtained by supplying a drive pulse to a plurality of synthesis filters with input audio information, selects one synthesis filter and a pair of corresponding drive pulses, and By encoding information related to the synthesis filter and the driving pulse, it is possible to compress and encode the audio signal at a low bit rate, and to obtain a high quality synthesized sound by voice synthesis even at a low bit rate. It is intended to provide a multi-pulse encoding device capable of performing the following.

〔従来の技術〕[Conventional technology]

従来の音声の分析合成系(ボコーダ)として、例えば
いわゆる線形予測分析(LPC)を用いた音声分析合成系
がある。また、このLPC分析合成系を用いた音声信号の
符号化において、品質の良い合成音声を得ることのでき
る符号化の手法としては、例えば、いわゆるマルチパル
ス駆動線形予測符号化(MPC或いはMPEC)がある。このM
PCは、上記LPC分析合成系において、一般に行われてい
るパルスと雑音による音源のモデル化を避け、音源を有
声音・無声音にかかわらず複数のパルスによって表現
し、これによってLPC合成フィルタを駆動する方法であ
る。
As a conventional speech analysis / synthesis system (vocoder), for example, there is a speech analysis / synthesis system using so-called linear prediction analysis (LPC). In the coding of a speech signal using the LPC analysis / synthesis system, a so-called multi-pulse drive linear prediction coding (MPC or MPEC) is an example of a coding method that can obtain a high-quality synthesized voice. is there. This M
In the above-mentioned LPC analysis / synthesis system, the PC avoids the modeling of the sound source generally performed by the pulse and the noise, and expresses the sound source by a plurality of pulses irrespective of voiced and unvoiced sounds, thereby driving the LPC synthesis filter. Is the way.

第2図に上記MPCを用いた従来の音声合成回路のブロ
ック図を示す。
FIG. 2 shows a block diagram of a conventional speech synthesis circuit using the MPC.

この第2図において、入力端子101には、後述するパ
ルスの振幅と位置を示す信号P(n)が供給され、マル
チパルス生成回路102に送られる。該マルチパルス生成
回路102では、上記パルスの振幅と位置の信号P(n)
に基づいてマルチパルス列V(n)が生成される。当該
マルチパルス列V(n)で、LPC合成フィルタである長
期予測合成フィルタ103と短期予測合成フィルタ104が駆
動されることにより、合成音声信号Q(n)が得られる
ようになっている。該合成音声信号Q(n)が出力端子
105から出力される。
In FIG. 2, a signal P (n) indicating the amplitude and position of a pulse described later is supplied to an input terminal 101 and sent to a multi-pulse generation circuit 102. In the multi-pulse generation circuit 102, the signal P (n) of the amplitude and position of the pulse
, A multi-pulse train V (n) is generated. By driving the long-term prediction synthesis filter 103 and the short-term prediction synthesis filter 104, which are LPC synthesis filters, with the multi-pulse train V (n), a synthesized speech signal Q (n) can be obtained. An output terminal of the synthesized voice signal Q (n)
Output from 105.

ここで、上記長期予測合成フィルタ103のフィルタ特
性FSL(Z)は、 FSL(Z)=1/(1+βZ-M) (1) で表せる。なお、(1)式中のMは該長期予測合成フィ
ルタ103の遅延タップ数、βは予測係数である。また、
上記短期予測合成フィルタ104のフィルタ特性FSS(Z)
は、 FSS(Z)=1/(1+α1Z-1+α2Z-2…) (2) で表せる。この(2)式中αは予測係数である。
Here, the filter characteristic F SL (Z) of the long-term prediction synthesis filter 103 can be expressed by F SL (Z) = 1 / (1 + βZ− M ) (1) In the equation (1), M is the number of delay taps of the long-term prediction synthesis filter 103, and β is a prediction coefficient. Also,
Filter characteristics F SS (Z) of the short-term prediction synthesis filter 104
Can be expressed as F SS (Z) = 1 / (1 + α 1 Z −1 + α 2 Z −2 ...) (2) In the equation (2), α is a prediction coefficient.

ただし、一般のMPCを用いた音声合成の場合、上記長
期予測合成フィルタ103は必ずしも必要ではないが、こ
の第2図のように長期予測合成フィルタ103を用いるこ
とで、音声の長期の相関をとることができるようにな
り、このため音質が向上し、また、マルチパルスのエネ
ルギが少なくて済むようになる。
However, in the case of speech synthesis using general MPC, the long-term prediction synthesis filter 103 is not always necessary, but by using the long-term prediction synthesis filter 103 as shown in FIG. 2, a long-term correlation of speech is obtained. Therefore, the sound quality can be improved, and the energy of the multi-pulse can be reduced.

ところで、上述した長期予測合成フィルタ103及び短
期予測合成フィルタ104の各フィルタ特性FSL(Z)及び
FSS(Z)は、例えば第3図のような構成を用いて決定
されている。
By the way, each filter characteristic F SL (Z) of the long-term prediction synthesis filter 103 and the short-term prediction synthesis filter 104 described above and
F SS (Z) is determined using, for example, a configuration as shown in FIG.

この第3図の入力端子111には、原音声信号である入
力音声信号S(n)が供給されている。ここで、上述し
た第2図での短期予測合成フィルタ104の予測係数α
(iは1,2,3,…)は、例えば上記入力音声信号S(n)
のLPC分析を行うことで得られる。また、第2図の長期
予測合成フィルタ103の遅延タップ数M及び予測係数β
は、 FAS(Z)=1+α1Z-1+α2Z-2… (3) で表されるフィルタ特性FAS(Z)の短期予測分析フィ
ルタ112に、上記入力音声信号S(n)を入力した時の
出力R1(n)を分析することで得られる。この時の分析
方法としては、例えば、 FAL(Z)=1+βZ-M (4) のフィルタ特性FAL(Z)の長期予測分析フィルタ113
に、上記短期予測分析フィルタ112の出力R1(n)を入
力した時の出力R2(n)の2乗和が最小になるように、
すなわち、 が最小となるように、上記予測係数β及び遅延タップ数
Mが求められる。なお、上記出力R2(n)は出力端子11
4から出力される。
An input audio signal S (n), which is an original audio signal, is supplied to the input terminal 111 in FIG. Here, the prediction coefficient α i of the short-term prediction synthesis filter 104 in FIG.
(I is 1, 2, 3,...) Is, for example, the input audio signal S (n)
It is obtained by performing LPC analysis. Further, the number M of delay taps and the prediction coefficient β of the long-term prediction synthesis filter 103 in FIG.
The above-mentioned input audio signal S (n) is input to a short-term prediction analysis filter 112 having a filter characteristic F AS (Z) expressed by F AS (Z) = 1 + α 1 Z −1 + α 2 Z −2 (3) It is obtained by analyzing the output R 1 (n) when input. As an analysis method at this time, for example, a long-term prediction analysis filter 113 of a filter characteristic F AL (Z) of F AL (Z) = 1 + βZ− M (4)
In order to minimize the sum of squares of the output R 2 (n) when the output R 1 (n) of the short-term prediction analysis filter 112 is input,
That is, Is minimized, and the prediction coefficient β and the number M of delay taps are obtained. The output R 2 (n) is connected to the output terminal 11
Output from 4.

このようにして上記フィルタ特性FAL(Z)及びF
SS(Z)が求められた第2図の長期予測合成フィルタ10
3と短期予測合成フィルタ104を上記マルチパルス列V
(n)で駆動するのが上記MPCである。
Thus, the filter characteristics F AL (Z) and F
Long-term prediction synthesis filter 10 of the second view SS (Z) is determined
3 and the short-term prediction synthesis filter 104
The MPC is driven by (n).

また、上記音声合成装置では、例えば合成音声信号Q
(n)が所望の値に近くなるようなマルチパルス列V
(n)の探索が行われ、この探索によって得られたマル
チパルス列V(n)によって音声の合成がなされるよう
になっている。この時のマルチパルス列V(n)探索の
アルゴリズムとしては、例えば、いわゆるA−b−S
(アナリシス−バイ−シンセシス)法の原理を用いた方
法がある。この方法では、第4図に示すような構成によ
って、入力音声信号S(n)と上記合成音声信号Q
(n)との誤差を計算し、聴覚特性による重み付けを行
ってから、平均2乗誤差が最小になるような上記マルチ
パルス列V(n)の探索が行われる。
Further, in the above-mentioned speech synthesizer, for example, the synthesized speech signal Q
Multi-pulse train V such that (n) approaches the desired value
The search of (n) is performed, and speech is synthesized by the multi-pulse train V (n) obtained by the search. An algorithm for searching for the multi-pulse train V (n) at this time is, for example, a so-called AbS
There is a method using the principle of the (analysis-by-synthesis) method. In this method, the input audio signal S (n) and the synthesized audio signal Q
After calculating an error from (n) and performing weighting based on auditory characteristics, a search for the multi-pulse train V (n) that minimizes the mean square error is performed.

すなわち、この第4図の構成において、初期状態とし
て既にある数のパルス(マルチパルス列V(n))が決
定されているとすると、該マルチパルス列V(n)は、
上述した長期予測合成フィルタと短期予測合成フィルタ
とで構成されたLPC合成フィルタ123を通って合成音声信
号Q(n)に変換される。この合成音声信号Q(n)
は、端子126から供給される上記入力音声信号S(n)
と、該合成音声信号Q(n)との減算演算を行うことで
誤差信号e(n)を得る減算器124に送られる。その
後、該誤差信号e(n)に聴感的な重み付け(重み付け
の係数W(z)による重み付け)を行う重み付けフィル
タ125に送られ、その出力ew(n)に基づいて2乗誤差
最小化回路121で2乗誤差が最小になるように新しいパ
ルスの振幅と位置の信号P(n)が決定されてマルチパ
ルス生成回路122に送れらる。すなわち、該第4図の構
成では、これまでに(例えば初期状態で)決定されたマ
ルチパルス列V(n)による合成音声信号Q(n)と入
力音声信号S(n)との誤差信号e(n)に基づいて、
新しいマルチパルス列V(n)を追加し、この誤差信号
e(n)が予め設定した値より小さくなるか、或いは予
め設定した数のパルス(マルチパルス列V(n))が決
定されるまで、上述した処理を繰り返すようになってい
る。
That is, in the configuration of FIG. 4, assuming that a certain number of pulses (multi-pulse train V (n)) have already been determined as an initial state, the multi-pulse train V (n) becomes
The signal is converted into a synthesized speech signal Q (n) through the LPC synthesis filter 123 composed of the above-described long-term prediction synthesis filter and short-term prediction synthesis filter. This synthesized speech signal Q (n)
Is the input audio signal S (n) supplied from the terminal 126
Is subtracted from the synthesized speech signal Q (n) and sent to a subtractor 124 that obtains an error signal e (n). Thereafter, the error signal e (n) is sent to a weighting filter 125 for performing perceptual weighting (weighting with a weighting coefficient W (z)), and based on the output e w (n), a square error minimizing circuit is used. At 121, a new pulse amplitude and position signal P (n) is determined so that the square error is minimized, and sent to the multi-pulse generation circuit 122. That is, in the configuration of FIG. 4, an error signal e () between the synthesized voice signal Q (n) based on the multi-pulse train V (n) determined so far (for example, in the initial state) and the input voice signal S (n). n)
A new multi-pulse train V (n) is added, and the error signal e (n) becomes smaller than a preset value or until a predetermined number of pulses (multi-pulse train V (n)) is determined. The processing is repeated.

〔発明が解決しようとする課題〕[Problems to be solved by the invention]

従来のMPCの方式では、上述したように、例えば上記
A−b−S法の原理を用いたマルチパルス列V(n)の
探索に先立って、上記長期予測合成フィルタ及び短期予
測合成フィルタのフィルタ特性を決定しておく必要があ
るが、上記長期予測合成フィルタのフィルタ特性決定の
手法としては最適な方法がなく、特に上記遅延タップ数
Mを求めるのが困難である。このため、音声合成装置で
得られた合成音声が、良好なものとなっているとは言い
難い。
In the conventional MPC system, as described above, for example, prior to searching for the multi-pulse train V (n) using the principle of the AbS method, the filter characteristics of the long-term prediction synthesis filter and the short-term prediction synthesis filter are used. However, there is no optimal method for determining the filter characteristics of the long-term prediction synthesis filter, and it is particularly difficult to determine the number M of delay taps. For this reason, it is difficult to say that the synthesized speech obtained by the speech synthesizer is good.

そこで、本発明は、上述のような実情に鑑みて提案さ
れたものであり、音声信号の圧縮符号化ができると共
に、簡単に最適な合成音声信号を得ることができるマル
チパルス符号化装置を提供することを目的とするもので
ある。
Therefore, the present invention has been proposed in view of the above-described circumstances, and provides a multi-pulse encoding device capable of performing compression encoding of an audio signal and easily obtaining an optimal synthesized audio signal. It is intended to do so.

〔課題を解決するための手段〕[Means for solving the problem]

本発明のマルチパルス符号化装置は、上述の目的を達
成するために提案されたものであり、長期予測合成及び
短期予測合成を行う複数の合成フィルタと、これら複数
の合成フィルタに対応する駆動パルス発生手段と、当該
駆動パルス発生手段によって発生された駆動パルスを対
応する合成フィルタに供給して得られた音声情報と、入
力音声情報とを比較し、上記複数の合成フィルタの一つ
とこれに対応する駆動パルスの対を選択する比較選択手
段と、当該比較選択手段で選択された合成フィルタ及び
駆動パルスに関連する情報を符号化する符号化手段とを
有してなるものである。
A multi-pulse encoding apparatus according to the present invention has been proposed to achieve the above-described object, and includes a plurality of synthesis filters for performing long-term prediction synthesis and short-term prediction synthesis, and a driving pulse corresponding to the plurality of synthesis filters. Generating means for comparing the input audio information with audio information obtained by supplying the driving pulse generated by the driving pulse generating means to the corresponding synthesis filter, and comparing one of the plurality of synthesis filters with the input audio information. And a coding unit for coding information relating to the synthesis filter and the driving pulse selected by the comparison / selection unit.

〔作用〕[Action]

本発明によれば、合成フィルタからの音声情報(合成
音声情報)と、入力音声情報とを比較し、この比較結果
に基づいた合成フィルタとこれに対応する駆動パルスに
関連する情報を符号化しているので、この符号化出力か
ら得られる合成音は最もよい合成音となる。
According to the present invention, speech information (synthesized speech information) from a synthesis filter is compared with input speech information, and information related to a synthesis filter based on the comparison result and a driving pulse corresponding thereto is encoded. Therefore, the synthesized speech obtained from the encoded output is the best synthesized speech.

〔実施例〕〔Example〕

以下、本発明を適用した実施例について図面を参照し
ながら説明する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.

第1図に本発明実施例のマルチパルス符号化装置の概
略構成のブロック図を示す。
FIG. 1 is a block diagram showing a schematic configuration of a multi-pulse encoder according to an embodiment of the present invention.

この第1図の符号化装置は、複数の合成フィルタとし
ての長期予測合成フィルタ31〜3m(mは整数)及び短期
予測合成フィルタ41〜4mと、これら複数の合成フィルタ
に対応する駆動パルス発生手段であるマルチパルス生成
回路21〜2mと、当該マルチパルス生成回路21〜2mによっ
て発生された駆動パルス(マルチパルス列V(n)
V(n))を対応する合成フィルタに供給して得られ
た音声情報である合成音声信号Q(n)〜Q(n)
と入力音声情報である入力音声信号S(n)とを比較
し、最も良い合成音声信号Q(n)(gは1〜mの内
の何れか)が得られる上記複数の合成フィルタの一つと
これに対応する駆動パルスの対を選択する比較処理部11
と選択処理部12とからなる比較選択回路10と、当該比較
選択回路10で選択された合成フィルタ及び駆動パルスに
関連する情報としての長期予測合成フィルタの遅延タッ
プ数Mgと予測係数βg,マルチパルス列V(n)及び短
期予測合成フィルタの予測係数を符号化する符号化回路
6とを有してなるものである。
The first diagram of an encoding apparatus, (m is an integer) the long-term prediction synthesis filter 3 1 to 3 m as a plurality of synthesis filters and the short-term prediction synthesis filter 4 1 to 4 m, corresponding to the plurality of synthesis filters a multi-pulse generating circuit 2 1 to 2 m, which is a driving pulse generating means, said multi-pulse generation circuit 2 1 to 2 the generated drive pulse by m (multi-pulse train V (n) 1 ~
V (n) m ) to the corresponding synthesis filter, and obtains synthesized voice signals Q (n) 1 to Q (n) m which are voice information obtained.
And the input audio signal S (n), which is the input audio information, to obtain one of the plurality of synthesis filters from which the best synthesized audio signal Q (n) g (g is any one of 1 to m) is obtained. And a comparison processing unit 11 for selecting a corresponding pair of drive pulses.
And a selection processing unit 12 and a synthesis filter selected by the comparison and selection circuit 10 and a delay tap number M g and a prediction coefficient β g of a long-term prediction synthesis filter as information related to the driving pulse. And a coding circuit 6 for coding the multi-pulse train V (n) g and the prediction coefficients of the short-term prediction synthesis filter.

すなわち、この第1図に示す本実施例装置は、MPCを
用いた音声合成を行うものであって、長期予測合成フィ
ルタ31〜3mを用いることで、音声の長期の相関がとれる
ようにして音質を向上させ、また、マルチパルスのエネ
ルギを少なくて済むようにしている。ここで、上記各長
期予測合成フィルタ31〜3mは、前述した(1)式中遅延
タップ数Mと予測係数βがそれぞれ異なるものとされる
ことで、各々異なるフィルタ特性FSL(Z)〜F
SL(Z)とされている。また、上記短期予測合成フィ
ルタ41〜4mの各フィルタ特性はそれぞれ同じフィルタ特
性FSS(Z)となっている。なお、上記短期予測合成フ
ィルタ41〜4mの各フィルタ特性FSS(Z)は、前述した
(2)式で表すことができるものである。更に、上記マ
ルチパルス生成回路21〜2mからは、前述した第4図のよ
うにして、対応する長期予測合成フィルタ31〜3mでの最
適のマルチパルス列V(n)〜V(n)が生成され
るようになっている。例えば、これらマルチパルス生成
回路21〜2mからは、前述した第4図に示したLPC合成フ
ィルタ123内の長期予測合成フィルタのフィルタ特性
を、本実施例の各長期予測合成フィルタ31〜3mのフィル
タ特性FSL(Z)〜FSL(Z)とし、該フィルタ特性
FSL(Z)〜FSL(Z)とされた長期予測合成フィル
タが配されたLPC合成フィルタ123を用いて、当該第4図
の構成でそれぞれ選ばれた最適のマルチパルス列が得ら
れるようになっている。このようにして得られたマルチ
パルス列V(n)〜V(n)が、第1図のLPC合成
フィルタである長期予測合成フィルタ31〜3m及び短期予
測合成フィルタ41〜4mを介することにより、合成音声信
号Q(n)〜Q(n)が得られるようになってい
る。これら合成音声信号Q(n)〜Q(n)が上記
比較選択回路10に送られる。
That is, the present embodiment shown in FIG. 1 device, there is performing voice synthesis using MPC, by using the long-term prediction synthesis filter 3 1 to 3 m, so take a correlation of the speech long-term To improve the sound quality and to reduce the energy of the multi-pulse. Here, each of the long-term prediction synthesis filter 3 1 to 3 m is described above (1) beta prediction coefficients and delay taps M in the formula that are different from each other, each different filter characteristics F SL (Z) 1 to F
SL (Z) m . Further, each filter characteristic of the short-term prediction synthesis filter 4 1 to 4 m is respectively a same filter characteristic F SS (Z). Incidentally, the short-term prediction synthesis filter 4 1 to 4 m each filter characteristic F SS of (Z) are those that can be represented by the aforementioned formula (2). Furthermore, from the multi-pulse generating circuit 2 1 to 2 m, as FIG. 4 described above, the corresponding long-term prediction synthesis filter 3 1 to 3 in the m optimal multi-pulse train V (n) 1 ~V ( n) m is generated. For example, from these multi-pulse generating circuit 2 1 to 2 m, the filter characteristic of the long-term prediction synthesis filter in LPC synthesis filter 123 shown in FIG. 4 described above, the long-term prediction synthesis filter 3 1 of this embodiment 3 m filter characteristics F SL (Z) 1 to F SL (Z) m
Using the LPC synthesis filter 123 provided with the long-term prediction synthesis filters designated as F SL (Z) 1 to F SL (Z) m , the optimum multi-pulse trains respectively selected in the configuration of FIG. 4 can be obtained. It has become. Thus the multi-pulse train V (n) 1 ~V (n ) m thus obtained is, long-term prediction synthesis filter 3 1 to 3 m and short-term prediction synthesis filter 4 1 to 4 m is a LPC synthesis filter of Figure 1 , Synthetic speech signals Q (n) 1 to Q (n) m can be obtained. These synthesized speech signals Q (n) 1 to Q (n) m are sent to the comparison and selection circuit 10.

本実施例装置においては、上述したように各長期予測
合成フィルタ31〜3mのフィルタ特性がそれぞれ異なって
いるため、各短期予測合成フィルタ41〜4mの各出力すな
わち合成フィルタの出力である合成音声信号Q(n)
〜Q(n)もそれぞれ異なったものとなっている。こ
れら各合成音声信号Q(n)〜Q(n)の中で、最
も良い合成音が比較選択回路10で選ばれる。
In this embodiment apparatus, because the filter characteristics of the long-term prediction synthesis filter 3 1 to 3 m are different from each as described above, in the output or outputs of the synthesis filters in each short-term prediction synthesis filter 4 1 to 4 m A certain synthesized voice signal Q (n) 1
To Q (n) m are also different from each other. Among these synthesized speech signals Q (n) 1 to Q (n) m , the best synthesized sound is selected by the comparison and selection circuit 10.

ここで、上記比較選択回路10の比較処理部11では、入
力音声信号S(n)に最も近くなる合成音声信号Q
(n)を選ぶような処理を行う。具体的には、例えば
各合成音声信号Q(n)〜Q(n)と、端子5を介
した入力音声信号S(n)との誤差信号(入力音声信号
S(n)に対する誤差信号)をそれぞれ得て、これら誤
差信号に基づいて2乗誤差が最小となるような合成音声
信号Q(n)を選ぶ。換言すれば、2乗誤差が最も小
さくなるということは、入力音声信号S(n)に最も近
い合成音声信号Q(n)であることを示す。この比較
処理部11での比較結果は、上記選択処理部12に送られ
る。
Here, in the comparison processing section 11 of the comparison and selection circuit 10, the synthesized voice signal Q which is closest to the input voice signal S (n) is output.
(N) Perform a process to select g . Specifically, for example, an error signal (an error signal with respect to the input audio signal S (n)) between each synthesized audio signal Q (n) 1 to Q (n) m and the input audio signal S (n) via the terminal 5. ), And a synthesized speech signal Q (n) g that minimizes the square error is selected based on these error signals. In other words, the smallest square error indicates that the synthesized speech signal Q (n) g is closest to the input speech signal S (n). The comparison result in the comparison processing unit 11 is sent to the selection processing unit 12.

また、上記比較選択回路10の選択処理部11には、各マ
ルチパルス生成回路21〜2mからのマルチパルス列V
(n)〜V(n)と、各長期予測合成フィルタ31
3mの各遅延タップ数M1〜Mm及び予測係数β〜βの情
報も供給されている。該選択処理部12では、上記比較処
理部11の比較結果に応じて、上記最適の合成音声信号Q
(n)が得られる長期予測合成フィルタの遅延タップ
数Mgと予測係数β及び対応するマルチパルス生成回路
のマルチパルス列V(n)の情報を選択して出力する
ようになっている。
Moreover, the selection processing unit 11 of the comparison selection circuit 10, the multi-pulse train V from the multi-pulse generating circuit 2 1 to 2 m
(N) 1 ~V and (n) m, the long-term prediction synthesis filter 3 1 -
Information on the delay tap numbers M 1 to M m of 3 m and the prediction coefficients β 1 to β m is also supplied. In the selection processing unit 12, according to the comparison result of the comparison processing unit 11, the optimal synthesized speech signal Q
(N) The number of delay taps Mg and the prediction coefficient β g of the long-term prediction synthesis filter from which g can be obtained and the information on the corresponding multi-pulse train V (n) g of the multi-pulse generation circuit are selected and output. .

当該遅延タップ数Mg,予測係数βとマルチパルス列
V(n)の情報、及び端子9からの短期予測合成フィ
ルタの予測係数の情報が符号化回路6に送られて符号化
された後、出力端子7から出力信号C(n)として出力
される。
After the information of the delay tap number M g , the prediction coefficient β g and the multi-pulse train V (n) g , and the information of the prediction coefficient of the short-term prediction synthesis filter from the terminal 9 are sent to the encoding circuit 6 and encoded. , From the output terminal 7 as an output signal C (n).

上述のようなことから、本実施例装置においては、マ
ルチパルス符号化において用いられる長期予測合成フィ
ルタを決定(フィルタ特性を決定)する場合、それぞれ
異なるフィルタ特性の複数の長期予測合成フィルタを用
意しておき、これらの長期予測合成フィルタを用いて得
られた合成音声信号の中から最適な合成音を得ることが
できるようになる信号を選び、この選ばれた合成音声信
号Q(n)に対応する長期予測合成フィルタの遅延タ
ップ数Mg及び予測係数βの情報と、該長期予測合成フ
ィルタに対応したマルチパルス生成回路の出力(マルチ
パルス列V(n))を得て、これらの情報を短期予測
合成フィルタの予測係数と共に符号化して出力するよう
にしている。このため、後に当該符号化出力に基づいて
音声を合成すれば、良好な合成音声が得られるようにな
る。上述のようなことから、従来例の場合と同じビット
レートで符号化しても、本実施例装置での符号化出力に
基づいた合成音の方が音質が向上するようになる。更
に、各長期合成フィルタ31〜3mのフィルタ特性も最適な
ものが選ばれるようになっているため、合成音声の品質
が向上することになる。
From the above, in the apparatus of this embodiment, when determining a long-term prediction synthesis filter used in multi-pulse encoding (determining filter characteristics), a plurality of long-term prediction synthesis filters having different filter characteristics are prepared. In advance, a signal from which an optimum synthesized sound can be obtained is selected from synthesized speech signals obtained using these long-term prediction synthesis filters, and the selected synthesized speech signal Q (n) g is selected. obtaining information of the corresponding long-term prediction delay tap number M g and prediction coefficients of the synthesis filter beta g, the output of the multi-pulse generating circuit corresponding to the long-life prediction synthesis filter (multi-pulse train V (n) g), of The information is encoded and output together with the prediction coefficients of the short-term prediction synthesis filter. Therefore, if speech is later synthesized based on the encoded output, a good synthesized speech can be obtained. As described above, even when encoding is performed at the same bit rate as in the conventional example, the sound quality of the synthesized sound based on the encoded output of the apparatus of the present embodiment is improved. Furthermore, since the filter characteristics of the long-term synthesis filter 3 1 to 3 m even the best one has to be selected, the quality of the synthesized speech is improved.

〔発明の効果〕〔The invention's effect〕

本発明のマルチパルス符号化装置においては、長期予
測合成及び短期予測合成を行う複数の合成フィルタと、
これら複数の合成フィルタに対応する駆動パルス発生手
段からの駆動パルスを対応する合成フィルタに供給して
得られた複数の音声情報と入力音声情報とを比較して、
一つの合成フィルタ及び対応する駆動パルスの対を選択
することで、合成フィルタの最適な特性を選ぶことがで
きるようになり、この選択された対の合成フィルタ及び
駆動パルスに関連する情報を符号化することによって、
音声信号を低ビットレートに圧縮符号化することができ
ると共に、低ビットレートであっても音声合成によって
簡単に品質の良い合成音を得ることができるようにな
る。
In the multi-pulse encoding device of the present invention, a plurality of synthesis filters for performing long-term prediction synthesis and short-term prediction synthesis,
A plurality of audio information obtained by supplying drive pulses from the drive pulse generating means corresponding to the plurality of synthesis filters to the corresponding synthesis filter is compared with input audio information,
By selecting one synthesis filter and a corresponding drive pulse pair, it is possible to select the optimum characteristics of the synthesis filter and to encode information relating to the selected pair of synthesis filter and drive pulse. By,
An audio signal can be compression-coded at a low bit rate, and a high-quality synthesized sound can be easily obtained by voice synthesis even at a low bit rate.

【図面の簡単な説明】[Brief description of the drawings]

第1図は本発明実施例装置の概略構成を示すブロック回
路図、第2図は従来例の合成回路を示すブロック回路
図、第3図はフィルタ特性決定のための構成を示す。ブ
ロック回路図、第4図はマルチパルス列探索のための構
成を示すブロック回路図である。 6……符号化回路 21〜2m……マルチパルス生成回路 31〜3m……長期予測合成フィルタ 41〜4m……短期予測合成フィルタ 10……比較選択回路 11……比較処理部 12……選択処理部
FIG. 1 is a block circuit diagram showing a schematic configuration of an apparatus according to an embodiment of the present invention, FIG. 2 is a block circuit diagram showing a conventional synthesis circuit, and FIG. 3 is a configuration for determining filter characteristics. FIG. 4 is a block circuit diagram showing a configuration for searching for a multi-pulse train. 6 ...... encoding circuit 2 1 to 2 m ...... multi-pulse generating circuit 3 1 to 3 m ...... long-term prediction synthesis filter 4 1 to 4 m ...... short-term prediction synthesis filter 10 ...... Comparison selection circuit 11 ...... comparison Part 12 …… Selection processing part

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 13/08 G10L 19/00 - 21/06 INSPEC(DIALOG) JICSTファイル(JOIS) WPI(DIALOG)────────────────────────────────────────────────── ─── Continued from the front page (58) Fields surveyed (Int. Cl. 7 , DB name) G10L 11/00-13/08 G10L 19/00-21/06 INSPEC (DIALOG) JICST file (JOIS) WPI ( DIALOG)

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】長期予測合成及び短期予測合成を行う複数
の合成フィルタと、 これら複数の合成フィルタに対応する駆動パルス発生手
段と、 当該駆動パルス発生手段によって発生された駆動パルス
を対応する合成フィルタに供給して得られた音声情報
と、入力音声情報とを比較し、上記複数の合成フィルタ
の一つとこれに対応する駆動パルスの対を選択する比較
選択手段と、 当該比較選択手段で選択された合成フィルタ及び駆動パ
ルスに関連する情報を符号化する符号化手段とを有して
なることを特徴とするマルチパルス符号化装置。
1. A plurality of synthesis filters for performing long-term prediction synthesis and short-term prediction synthesis, driving pulse generating means corresponding to the plurality of synthesis filters, and a synthesis filter corresponding to the driving pulse generated by the driving pulse generating means. Comparing the audio information obtained by supplying the input audio information with the input audio information, and selecting one of the plurality of synthesis filters and a pair of the corresponding drive pulse. A multi-pulse encoding device comprising: a synthesis filter; and encoding means for encoding information related to the drive pulse.
JP02166883A 1990-06-27 1990-06-27 Multi-pulse encoder Expired - Fee Related JP3074703B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP02166883A JP3074703B2 (en) 1990-06-27 1990-06-27 Multi-pulse encoder

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP02166883A JP3074703B2 (en) 1990-06-27 1990-06-27 Multi-pulse encoder

Publications (2)

Publication Number Publication Date
JPH0457100A JPH0457100A (en) 1992-02-24
JP3074703B2 true JP3074703B2 (en) 2000-08-07

Family

ID=15839387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP02166883A Expired - Fee Related JP3074703B2 (en) 1990-06-27 1990-06-27 Multi-pulse encoder

Country Status (1)

Country Link
JP (1) JP3074703B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3523649B2 (en) 1997-03-12 2004-04-26 三菱電機株式会社 Audio encoding device, audio decoding device, audio encoding / decoding device, audio encoding method, audio decoding method, and audio encoding / decoding method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2658438B2 (en) 1989-10-19 1997-09-30 日本電気株式会社 Audio coding method and apparatus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2658438B2 (en) 1989-10-19 1997-09-30 日本電気株式会社 Audio coding method and apparatus

Also Published As

Publication number Publication date
JPH0457100A (en) 1992-02-24

Similar Documents

Publication Publication Date Title
US6782360B1 (en) Gain quantization for a CELP speech coder
US7257535B2 (en) Parametric speech codec for representing synthetic speech in the presence of background noise
US6345248B1 (en) Low bit-rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
EP0745971A2 (en) Pitch lag estimation system using linear predictive coding residual
JP2002268686A (en) Voice coder and voice decoder
JP3074703B2 (en) Multi-pulse encoder
US20030055633A1 (en) Method and device for coding speech in analysis-by-synthesis speech coders
JPH0782360B2 (en) Speech analysis and synthesis method
JP3481027B2 (en) Audio coding device
EP0713208B1 (en) Pitch lag estimation system
JP3510168B2 (en) Audio encoding method and audio decoding method
JP3552201B2 (en) Voice encoding method and apparatus
EP1267327B1 (en) Optimization of model parameters in speech coding
JPS6162100A (en) Multipulse type encoder/decoder
JP3192051B2 (en) Audio coding device
JP2853170B2 (en) Audio encoding / decoding system
JP3057907B2 (en) Audio coding device
JP2003323200A (en) Gradient descent optimization of linear prediction coefficient for speech coding
JP3071800B2 (en) Adaptive post filter
JPS61128299A (en) audio processing device
JP3092519B2 (en) Code-driven linear predictive speech coding
JPH11500837A (en) Signal prediction method and apparatus for speech coder
Yuan The weighted sum of the line spectrum pair for noisy speech
JPH0266600A (en) Speech synthesis system
JPH10105200A (en) Voice coding/decoding method

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees