EP0195441B1

EP0195441B1 - Method for low bite rate speech coding using a multipulse excitation signal

Info

Publication number: EP0195441B1
Application number: EP86103770A
Authority: EP
Inventors: Jean-Paul Lefevre; Olivier Passien
Original assignee: Alcatel CIT SA
Current assignee: Alcatel CIT SA
Priority date: 1985-03-22
Filing date: 1986-03-20
Publication date: 1990-04-25
Anticipated expiration: 2006-03-20
Also published as: DK126986A; EP0195441A1; DE3670712D1; CA1241117A; FR2579356A1; DK126986D0; FR2579356B1; US4847905A

Description

L'invention est relative aux codages numériques à faible débit qui sont utilisés pour la parole dans les vocodeurs et qui ne restituent pas la forme originelle du signal de parole mais des paramètres permettant de définir sur des fenêtres temporelles successives le signal d'excitation et les caractéristiques d'un filtre engendrant un signal de parole synthétique ressemblant à l'écoute au signal de parole d'origine. Elle concerne plus particulièrement une forme d'élaboration du signal d'excitation du filtre connue sous le nom multi-impulsionnelle.The invention relates to low bit rate digital codings which are used for speech in vocoders and which do not restore the original form of the speech signal but parameters allowing the excitation signal and the parameters to be defined over successive time windows. characteristics of a filter generating a synthetic speech signal resembling listening to the original speech signal. It relates more particularly to a form of generation of the excitation signal of the filter known under the name multi-pulse.

Le filtre modélise le conduit vocal considéré comme invariant sur de courtes périodes de temps de l'ordre de 20 ms. Il restitue le spectre des fréquences à court terme du signal de parole, surtout ses maxima ou formants qui sont davantage perçus par l'oreille que ses minima. Il peut être réalisé de différentes manières analogiques ou numériques: synthèse à canaux, synthèse à formants ou synthèse à prédiction linéaire.The filter models the vocal tract considered to be invariant over short periods of time on the order of 20 ms. It restores the spectrum of short-term frequencies of the speech signal, especially its maxima or formants which are more perceived by the ear than its minima. It can be performed in different analog or digital ways: channel synthesis, formant synthesis or linear prediction synthesis.

Le signal d'excitation nécessaire au filtre de modélisation du conduit vocal pour synthétiser un signal de parole doit modéliser le signal d'excitation vocale. La manière la plus ancienne de l'élaborer consiste à utiliser deux sources commutées:

-une source d'impulsions périodiques à la fréquence du fondamental du signal de parole d'origine (pitch) utilisée pour les sons voisés (voyelles),
-une source de bruit utilisée pour les sons non voisés (fricatives).

The excitation signal necessary for the voice path modeling filter to synthesize a speech signal must model the voice excitation signal. The oldest way to develop it is to use two switched sources:

a source of periodic pulses at the frequency of the fundamental of the original speech signal (pitch) used for the voiced sounds (vowels),
-a noise source used for unvoiced sounds (fricatives).

Ce mode d'élaboration pose le problème d'une distinction efficace entre les sons voisés et non voisés. Il aboutit à un signal d'excitation n'ayant qu'un lointain rapport avec le signal d'excitation vocale et produisant par l'intermédiaire du filtre de modélisation du conduit vocal un signal synthétique de parole peu fidèle et parfois difficile à comprendre.This mode of elaboration poses the problem of an effective distinction between voiced and unvoiced sounds. It results in an excitation signal having only a distant relationship with the vocal excitation signal and producing via the vocal tract modeling filter a synthetic speech signal which is not very faithful and which is sometimes difficult to understand.

On connaît, notamment par le brevet français No. 2 517 452, un autre mode d'élaboration du signal d'excitation du filtre de modélisation du conduit vocal qui permet de lui donner une forme plus ressemblante à celle du signal d'excitation vocale afin d'obtenir un signal synthétique de parole plus fidèle et qui est connu sous le nom de multi-impulsionnel. Ce mode d'élaboration consiste à engendrer pour l'excitation du filtre de modélisation du conduit vocal, un signal formé d'impulsions dont les positions et amplitudes sur chaque fenêtre temporelle sont ajustées de manière à minimiser sur chaque fenêtre temporelle les différences entre le signal de parole synthétisée et le signal de parole à coder. Cette minimisation se fait selon le critère de minimisation de l'erreur quadratique sur la fenêtre considérée avec une pondération dite perceptuelle de l'erreur tenant compte de la propriété de l'oreille humaine d'être moins sensible aux distorsions dans les régions de formant du spectre de fréquence de parole où l'énergie est relativement concentrée.We know, in particular from French patent No. 2,517,452, another method of producing the excitation signal of the vocal tract modeling filter which makes it possible to give it a shape more resembling that of the vocal excitation signal in order to to obtain a more faithful synthetic speech signal which is known as multi-pulse. This method of production consists in generating, for the excitation of the modeling filter for the vocal tract, a signal formed by pulses whose positions and amplitudes on each time window are adjusted so as to minimize the differences between the signal on each time window. of synthesized speech and the speech signal to be encoded. This minimization is done according to the criterion of minimization of the quadratic error on the window considered with a so-called perceptual weighting of the error taking into account the property of the human ear to be less sensitive to distortions in the regions forming speech frequency spectrum where energy is relatively concentrated.

La minimisation selon le critère de l'erreur quadratique moyenne doit être obtenue avec un nombre minimum d'impulsions pour limiter le plus possible le débit binaire nécessaire à la transmission de la parole codée. Faute de solution directe à ce problème on choisit des emplacements discrets où il est possible de placer des impulsions et l'on procède par approximations successives en définissant à chaque étape l'erreur quadratique pondérée résultant du signal impulsionnel adopté à l'étape précédente auquel on adjoint une nouvelle impulsion dont l'amplitude et la position sont inconnues, en déterminant alors en fonction de la position possible de cette nouvelle impulsion, la valeur de l'amplitude qui annule la dérivée partielle de cette erreur quadratique pondérée par rapport à cette amplitude considérée comme variable indépendante, puis en choisissant la position de l'impulsion pour laquelle cette erreur quadratique pondérée est minimale et en adoptant comme signal impulsionnel pour cette étape celui adopté à l'étape précédente auquel on adjoint l'impulsion ainsi définie.The minimization according to the criterion of the mean square error must be obtained with a minimum number of pulses to limit as much as possible the bit rate necessary for the transmission of coded speech. In the absence of a direct solution to this problem, we choose discrete locations where it is possible to place pulses and we proceed by successive approximations by defining at each step the weighted quadratic error resulting from the pulse signal adopted in the previous step which we adds a new pulse whose amplitude and position are unknown, then determining as a function of the possible position of this new pulse, the value of the amplitude which cancels the partial derivative of this quadratic error weighted with respect to this amplitude considered as independent variable, then by choosing the position of the pulse for which this weighted quadratic error is minimal and by adopting as impulse signal for this stage that adopted in the preceding stage to which one adds the pulse thus defined.

L'approximation successive est arrêtée au bout d'un certain nombre d'itérations déterminé en fonction des capacités de calcul disponibles et du débit de codage.The successive approximation is stopped after a certain number of iterations determined according to the available computing capacities and the coding bit rate.

Elle a pour inconvénient d'accumuler les erreurs ce qui provoque une dégradation du rapport signal sur bruit du signal de parole synthétisé qui se manifest surtout pour les voix aiguës.It has the disadvantage of accumulating errors which causes a deterioration of the signal to noise ratio of the synthesized speech signal which manifests itself especially for high voices.

Pour éviter cet inconvénient, on a proposé, notamment par le document IEEE International Conference on Acoustic, Speech and Signal Processing, 19-25 mars 1984, San Diego, US, vol. 1, pages 10.1.1-10.1.4 IEEE, New York, US, M. Berouti et al: "Efficient computation and encoding ofthe multipulse excitation for LPC", de recalculer les amplitudes optimales de toutes les impulsions une fois leurs positions déterminées. Mais cela suppose la résolution d'un système d'équations linéaires augmentant de façon notable la quantité des calculs à effectuer pour la détermination du signal d'excitation ce qui, dans la pratique, enlève beaucoup d'intérêt à cette solution.To avoid this drawback, it has been proposed, in particular by the document IEEE International Conference on Acoustic, Speech and Signal Processing, March 19-25, 1984, San Diego, US, vol. 1, pages 10.1.1-10.1.4 IEEE, New York, US, M. Berouti et al: "Efficient computation and encoding ofthe multipulse excitation for LPC", to recalculate the optimal amplitudes of all the pulses once their positions have been determined. But that supposes the resolution of a system of linear equations notably increasing the quantity of computations to be carried out for the determination of the excitation signal which which, in practice, removes much interest from this solution.

La présente invention a pour but de lutter contre la dégradation du rapport signal sur bruit d'un signal de parole synthétisée due à la méthode par approximations succesives utilisée pour la détermination des impulsions du signal d'excitation du filtre élaborant le signal de parole synthétisée, sans pour autant augmenter de façon significative le nombre de calculs à entreprendre.The present invention aims to combat the degradation of the signal to noise ratio of a synthesized speech signal due to the method by successive approximations used for the determination of the pulses of the excitation signal of the filter producing the synthesized speech signal, without significantly increasing the number of calculations to be undertaken.

Elle a pour objet un procédé de codage à faible débit de la parole, tel que défini dans la revendication.It relates to a low bit rate coding method for speech, as defined in the claim.

Cette correction bien que non optimale ne nécessite que très peu de calculs supplémentaires.This correction, although not optimal, requires very few additional calculations.

D'autres caractéristiques et avantages de l'invention ressortiront de la description ci-après en regard du dessin dans lequel:

-la figure 1 représente le schéma synoptique général d'un vocodeur utilisant un codage numérique à prédiction linéaire;
-et la figure 2 un mode de réalisation d'un circuit d'analyse de prédiction linéaire et d'un circuit d'élaboration d'un signal multi-impulsionnel utilisés dans le vocodeur représenté à la figure précédente.

Other characteristics and advantages of the invention will emerge from the description below with reference to the drawing in which:

FIG. 1 represents the general block diagram of a vocoder using digital coding with linear prediction;
and FIG. 2 an embodiment of a linear prediction analysis circuit and of a circuit for developing a multi-pulse signal used in the vocoder represented in the previous figure.

On distingue dans la figure 1 un équipement émetteur 1 relié par une liaison numérique 2 à faible débit à un équipement récepteur 3.In FIG. 1 there is a transmitter equipment 1 connected by a digital link 2 at low speed to a receiver equipment 3.

L'équipement émetteur 1 reçoit sur une entrée 10, à une cadence d'échantillonnage donnée, par exemple de 8 kHz, des échantillons numériques S(k) d'un signal de parole à coder dont la bande de fréquence a été au préalable limitée supérieurement à la moitié de la fréquence d'échantillonnage. Il groupe ces échantillons numériques S(k) par paquets de N successifs correspondant à des fenêtres temporelles sur lesquelles les caractéristiques du conduit vocal sont supposées invariantes, déduit de chaque paquet un jeu de p coefficients a(k) dits de prédiction linéaire permettant de définir en réception les caractéristiques d'un filtre modélisant le conduit vocal et un signal multi-impulsionnel v(k) destiné à l'excitation en réception du filtre modélisant le conduit vocal, et met les jeux de coefficients de prédiction linéaire a(k) et le signal multi-impulsionnel d'excitation v(k) sous une forme adaptée à leur acheminement par la liaison numérique 2 à faible débit vers l'équipement de réception 3. Pour ce faire, il comporte:

-un circuit d'analyse 11 par prédiction linéaire qui engendre à partir des échantillons numériques S(k) du signal de parole à coder les jeux de coefficients de prédiction linéaire a(k) correspondant aux fenêtres temporelles successives,
-un circuit d'élaboration 12 du signal multi-impulsionnel d'excitation v(k) qui opère à partir des échantillons numériques S(k) du signal de parole à coder et des jeux de coefficients de prédiction linéaire a(k) délivrés par le circuit d'analyse pour chaque paquet de N échantillons,
-un circuit à retard 13 retardant chaque jeu de coefficients de prédiction linéaire a(k) délivrés par le- circuit d'analyse 11 le temps nécessaire au circuit d'élaboration 12 pour engendrer le signal d'excitation correspondant à la même fenêtre temporelle et
-des codeurs 14,15 et un multiplexeur 16 mettant les jeux de coefficients de prédiction linéaire a(k) et le signal multi-impulsionnel d'excitation v(k) défini par les positions et les amplitudes de ses impulsions sous une forme adaptée à leur acheminement par la liaison numérique à faible débit 2.

The transmitting equipment 1 receives on an input 10, at a given sampling rate, for example 8 kHz, digital samples S (k) of a speech signal to be coded whose frequency band has been previously limited more than half the sampling frequency. It groups these digital samples S (k) by successive packets of N corresponding to time windows on which the characteristics of the voice path are assumed to be invariant, deduces from each packet a set of p coefficients a (k) called linear prediction making it possible to define on reception the characteristics of a filter modeling the vocal tract and a multi-pulse signal v (k) intended for excitation on reception of the filter modeling the vocal tract, and sets the sets of linear prediction coefficients a (k) and the multi-pulse excitation signal v (k) in a form suitable for their routing by the digital link 2 at low speed to the reception equipment 3. To do this, it comprises:

an analysis circuit 11 by linear prediction which generates from the digital samples S (k) of the speech signal to code the sets of linear prediction coefficients a (k) corresponding to the successive time windows,
a circuit 12 for producing the multi-pulse excitation signal v (k) which operates from digital samples S (k) of the speech signal to be coded and sets of linear prediction coefficients a (k) delivered by the analysis circuit for each packet of N samples,
a delay circuit 13 delaying each set of linear prediction coefficients a (k) delivered by the analysis circuit 11 the time necessary for the processing circuit 12 to generate the excitation signal corresponding to the same time window and
coders 14, 15 and a multiplexer 16 putting the sets of linear prediction coefficients a (k) and the multi-pulse excitation signal v (k) defined by the positions and amplitudes of its pulses in a form adapted to their routing by the digital low-speed link 2.

L'équipement récepteur 3 comporte un démultiplexeur 31 et deux décodeurs 32, 33 placés en entrée, qui sont adaptés aux multiplexeur 16 et au codeurs 14, 15 de l'équipement émetteur 1 et qui extraient du signal reçu de la liaison de transmission numérique 2 les jeux de coefficients de prédiction a(k) et le signal multi-impulsionnel d'excitation v(k), et un filtre 34 de modélisation du conduit vocal dont les caractéristiques sont ajustées à partir des jeux de coefficients de prédiction a(k) et qui engendre à partir du signal multi-impulsionnel d'excitation v(k) des échantillons S (k) d'un signal de parole synthétisée reproduisant le signal de parole d'origine.The receiving equipment 3 comprises a demultiplexer 31 and two decoders 32, 33 placed at the input, which are adapted to the multiplexer 16 and to the coders 14, 15 of the transmitting equipment 1 and which extract from the signal received from the digital transmission link 2 the sets of prediction coefficients a (k) and the multi-pulse excitation signal v (k), and a filter 34 for modeling the vocal tract, the characteristics of which are adjusted from the sets of prediction coefficients a (k) and which generates from the excitation multi-pulse signal v (k) samples S (k) of a synthesized speech signal reproducing the original speech signal.

Le circuit d'analyse 11 de l'équipement émetteur 1 est un circuit de traitement numérique qui n'est pas détaillé car il est bien connu de l'homme de métier et n'est pas du domaine de l'invention. Pour la façon dont il procède pour extraire les jeux de coefficients de prédiction a(k) des échantillons du signal de parole à coder on pourra se reporter au livre de Markel J., Gray A. intitulé "Linear prediction of speech" édité par Springer Verlag, New York, 1976. Brièvement, le signal prédit S(n) se définit à partir des valeurs écoulées du signal de parole à coder S(n) au moyen des coefficients de prédiction a(k) par la relation:

L'erreur de prédiction ou résidu de prédiction r(n) s'exprime par la relation r(n)=S(n)-S(n) qui correspond à l'expression du signal de sortie d'un filtre numérique prédictif excité par le signal de parole à coder ayant une fonction de transfert dont la transformée en z est définie à partir des coefficients de prédiction par:

La prédiction est considérée comme optimale lorsque l'erreur quadratique entre les valeurs prédites et les valeurs réelles définie par:

est minimale.The analysis circuit 11 of the transmitting equipment 1 is a digital processing circuit which is not detailed because it is well known to those skilled in the art and is not within the scope of the invention. For the way in which it proceeds to extract the sets of prediction coefficients a (k) from the samples of the speech signal to be coded, reference may be made to the book by Markel J., Gray A. entitled "Linear prediction of speech" published by Springer. Verlag, New York, 1976. Briefly, the predicted signal S (n) is defined from the elapsed values of the speech signal to be coded S (n) by means of the prediction coefficients a (k) by the relation:

The prediction error or prediction residue r (n) is expressed by the relation r (n) = S (n) -S (n) which corresponds to the expression of the output signal of an excited predictive digital filter by the speech signal to be coded having a transfer function whose transform in z is defined from the prediction coefficients by:

The prediction is considered to be optimal when the quadratic error between the predicted values and the real values defined by:

is minimal.

Cela s'obtient par la méthode des moindres carrés qui donne les coefficients de prédiction linéaire a(k) comme solution du système d'équations:

en considérant les coefficients de corrélation:

dont on connaît diverses méthodes de résolution: méthode de covariance, méthode d'autocorrélation décrites dans l'ouvrage précité.This is obtained by the method of least squares which gives the linear prediction coefficients a (k) as a solution of the system of equations:

considering the correlation coefficients:

of which various resolution methods are known: covariance method, autocorrelation method described in the above-mentioned work.

Le filtre de modélisation du conduit vocal 34 de l'équipement de réception a pour fonction de transfert H(z) qui s'exprime à partir des coefficients de prédiction a(k) par:

Sa synthèse sort du domaine de la présente invention. Elle peut se faire à partir des coefficients de prédiction a(k) par application de la relation précédente mais se réalise de manière préférentielle par la méthode d'Itakura-Saito sous la forme d'un treillis défini à partir de coefficients dits de réflexion transmis en lieu et place des coefficients de prédiction a(k) auxquels ils correspondent par des relations d'équivalence bien connues.The voice path modeling filter 34 of the reception equipment has the transfer function H (z) which is expressed from the prediction coefficients a (k) by:

Its synthesis is outside the scope of the present invention. It can be done from the prediction coefficients a (k) by applying the previous relation but is preferably carried out by the Itakura-Saito method in the form of a lattice defined from so-called transmitted reflection coefficients instead of the prediction coefficients a (k) to which they correspond by well-known equivalence relations.

Le circuit d'élaboration 12 du signal multi-impulsionnel d'excitation engendre pour chaque fenêtre temporelle d'analyse du signal à coder une séquence d'impulsions en nombre minimal avec des positions et des amplitudes choisies de manière à obtenir du filtre modélisant le conduit vocal un signal de parole synthétisée reproduisant le plus fidèlement possible pour un auditeur le signal de parole d'origine.The circuit 12 for generating the excitation multi-pulse signal generates, for each time window of analysis of the signal, to code a sequence of pulses in minimum number with positions and amplitudes chosen so as to obtain from the filter modeling the conduit. vocal a synthesized speech signal reproducing as faithfully as possible for a listener the original speech signal.

Le critère adopté pour estimer la fidélité de reproduction d'un signal de parole par un signal synthétique est celui de minimisation de l'erreur quadratique, sur une fenêtre temporelle d'analyse, entre le signal de parole d'origine et le signal de parole synthétisée avec une pondération de l'erreur tenant compte des propriétés perceptuelles d'un auditeur qui font qu'il est moins sensible aux distorsions se produisant dans les régions de formant du spectre de fréquence du signal de parole où l'énergie est relativement concentrée. Une manière connue de réaliser cette pondération notamment par le brevet américain No. 4 133 976 consiste à soumettre le signal d'erreur formé de la différence entre le signal de parole d'origine et le signal de parole synthétisée à un filtrage dont la fonction de transfert W(z) s'exprime en fonction de celle H(z) du filtre de modélisation du conduit vocal par la relation:

The criterion adopted to estimate the fidelity of reproduction of a speech signal by a synthetic signal is that of minimization of the quadratic error, over a time window of analysis, between the original speech signal and the speech signal synthesized with error weighting taking into account the perceptual properties of a listener that make it less sensitive to distortions occurring in the forming regions of the frequency spectrum of the speech signal where energy is relatively concentrated. One known way of achieving this weighting, in particular by American patent No. 4,133,976, consists in subjecting the error signal formed by the difference between the original speech signal and the synthesized speech signal to filtering, the function of which is transfer W (z) is expressed as a function of that H (z) of the vocal tract modeling filter by the relation:

Ce filtrage peut être obtenu par passage du signal d'erreur ou de ses composants dans un filtre prédictif dont la fonction de transfert est H-'(z) puis dans un filtre dit perceptuel de fonction de transfert H(yz) qui peut se déterminer en fonction des coefficients de prédiction par la relation de définition:

This filtering can be obtained by passing the error signal or its components through a predictive filter whose transfer function is H - '(z) then through a so-called perceptual filter with transfer function H (yz) which can be determined as a function of the prediction coefficients by the definition relation:

D'une manière générale, le filtrage prédictif se fait sur les composants du signal d'erreur, de façon explicite sur le signal de parole à coder et de façon implicite sur le signal de parole synthétisée, tandis que le filtrage perceptuel se fait sur le signal d'erreur lui-même dont les composants ont été réunis après filtrage prédictif.In general, predictive filtering is done on the components of the error signal, explicitly on the speech signal to be coded and implicitly on the synthesized speech signal, while perceptual filtering is done on the error signal itself, the components of which have been combined after predictive filtering.

Pour le filtrage prédictif du signal de parole à coder, le circuit d'élaboration 12 comporte un circuit à retard 120 qui reçoit les paquets de N échantillons successifs S(k) du signal de parole à coder correspondant aux fenêtres temporelles successives sur lesquelles opère le circuit d'analyse 11 et qui les stockent le temps nécessaire à ce dernier pour établir chaque jeu de coefficients de prédiction a(k), et un filtre prédictif 121 qui reçoit son jeu de coefficients a(k) du circuit d'analyse 11 et les paquets d'échantillons successifs S(k) du circuit à retard 120 et qui délivre un signal de résidu de prédiction r(k).For the predictive filtering of the speech signal to be coded, the processing circuit 12 comprises a delay circuit 120 which receives the packets of N successive samples S (k) of the speech signal to be coded corresponding to the successive time windows on which the analysis circuit 11 and which store them the time necessary for the latter to establish each set of prediction coefficients a (k), and a predictive filter 121 which receives its set of coefficients a (k) from the analysis circuit 11 and the successive sample packets S (k) of the delay circuit 120 and which delivers a prediction residue signal r (k).

Le filtrage prédictif du signal de parole synthétisée s'obtient implicitement en remplaçant ce signal par le signal multi-impulsionnel d'excitation v(k) dont il découle par un filtrage en H(z) effectué par le filtre de modélisation du conduit vocal.The predictive filtering of the synthesized speech signal is obtained implicitly by replacing this signal by the multi-pulse excitation signal v (k) from which it follows by a filtering in H (z) carried out by the modeling filter of the vocal tract.

Un soustracteur 122 forme le signal d'erreur en retranchant le signal multi-impulsionnel v(k) du signal de résidu de prédiction r(k) et l'applique à un filtre perceptuel 123 recevant ses coefficients d'un circuit de traitement 124 les élaborant à partir du jeu de coefficients de prédiction a(k) par mise en oeuvre de la dernière relation citée.A subtractor 122 forms the error signal by subtracting the multi-pulse signal v (k) from the prediction residue signal r (k) and applies it to a perceptual filter 123 receiving its coefficients from a processing circuit 124 the developing from the set of prediction coefficients a (k) by implementing the last relation mentioned.

Les séquences d'impulsions formant le signal multi-impulsionnel d'excitation pour chacune des fenêtres temporelles sur lesquelles opèrent le circuit d'analyse 11 sont engendrées dans le circuit d'élaboration 12 par un circuit synthétiseur d'impulsions 125 qui reçoit le signal d'erreur pondérée issu du filtre perceptuel 123. Ce circuit synthétiseur d'impulsions 125 engendre pour chaque séquence du signal multi-impulsionnel d'excitation un nombre d'impulsions compatible avec la capacité de transmission de la liaison numérique 2 qui relie l'équipement d'émission 1 à l'équipement de réception 3 tout en leur donnant des positions dans la fenêtre temporelle considérée et des amplitudes minimisant l'énergie de l'erreur pondérée.The pulse sequences forming the excitation multi-pulse signal for each of the time windows on which the analysis circuit 11 operates are generated in the processing circuit 12 by a pulse synthesizer circuit 125 which receives the signal d weighted error from the perceptual filter 123. This pulse synthesizer circuit 125 generates for each sequence of the excitation multi-pulse signal a number of pulses compatible with the transmission capacity of the digital link 2 which connects the equipment d transmission 1 to the reception equipment 3 while giving them positions in the time window considered and amplitudes minimizing the energy of the weighted error.

Soient A(i) les amplitudes de ces impulsions supposées au plus en nombre Q et m(i) leurs positions respectives dans la fenêtre temporelle choisies parmi les positions discrètes 1, ..., N d'échantillons échelonnées le long de la fenêtre. La séquence d'impulsions V(k) s'exprime par:

où d (k,m(i)) est une fonction prenant la valeur un pour k égal m(i) et zéro partout ailleurs. En appelant h'(k) les échantillons de la réponse impulsionnelle du filtre perceptuel 123 ayant pour fonction de transfert H (yz), l'erreur pondéré e(k) s'exprime par:

où B(j) et b(j) définissent les impulsions relatives aux fenêtres précédentes.Let A (i) be the amplitudes of these pulses assumed at most in number Q and m (i) their respective positions in the time window chosen from the discrete positions 1, ..., N of samples staggered along the window. The pulse sequence V (k) is expressed by:

where d (k, m (i)) is a function taking the value one for k equal m (i) and zero everywhere else. By calling h '(k) the samples of the impulse response of the perceptual filter 123 having the transfer function H (yz), the weighted error e (k) is expressed by:

where B (j) and b (j) define the pulses relating to the preceding windows.

La minimisation de l'énergie de cette erreur ponderée sur la fenêtre temporelle revient à minimiser la quantité

par un choix adéquat des positions d'impulsions m(i) et de leurs amplitudes A(i). Ce problème n'a pas de solution optimale connue. Mais on lui connaît, notamment par le brevet français 2 517 452, une solution sous optimale consistant à construire la séquence d'impulsions, impulsion par impulsion. En effet, considérons l'étape (1), où 1 impulsions ont été placées dans la séquence et où l'on désire en placer une (1+1) ième. L'erreur ponderée

à l'étape (1+1) s'exprime selon la relation (1) par:

ou encore:

ce qui permet de définir l'énergie E(I+1) de l'erreur pondérée à l'étape (1+1) par rapport à l'énergie de l'erreur pondérée E(I) à l'étape (I) par:

ou encore en notant par

la fonction

et par C(i,j) les échantillons de la fonction d'autocorrélation de la réponse impulsionnelle du filtre perceptuel 123

Minimizing the energy of this weighted error over the time window amounts to minimizing the quantity

by an adequate choice of the pulse positions m (i) and their amplitudes A (i). This problem has no known optimal solution. However, it is known, in particular from French patent 2,517,452, a sub-optimal solution consisting in constructing the pulse sequence, pulse by pulse. Indeed, consider step (1), where 1 pulses have been placed in the sequence and where we want to place one (1 + 1) th. The weighted error

in step (1 + 1) is expressed according to relation (1) by:

or:

which makes it possible to define the energy E (I + 1) of the weighted error in step (1 + 1) relative to the energy of the weighted error E (I) in step (I) by:

or by noting with

function

and by C (i, j) the samples of the autocorrelation function of the impulse response of the perceptual filter 123

Cette expression atteint son minimum lorsque sa dérivée par rapport à l'amplitude A(I+1) de la (1+1) ième impulsion s'annule c'est-à-dire pour la valeur:

et prend alors pour valeur:

On s'aperçoit que pour diminuer le plus rapidement possible l'énergie de l'erreur pondérée dans une méthode où les séquences d'impulsions sont construites par approximations successives, impulsion par impulsion, il faut choisir à chaque fois la position d'impulsion qui rend maximal le rapport du carré de la fonction

par la fonction C(k,k) et adopter pour amplitude de cette impulsion la valeur définie par la relation (4).This expression reaches its minimum when its derivative with respect to the amplitude A (I + 1) of the (1 + 1) th pulse is canceled, that is to say for the value:

and then takes as value:

We notice that to decrease as quickly as possible the energy of the weighted error in a method where the pulse sequences are constructed by successive approximations, pulse by pulse, it is necessary to choose each time the pulse position which maximizes the ratio of the square of the function

by the function C (k, k) and adopt for amplitude of this pulse the value defined by the relation (4).

La mise en oeuvre de cette méthode d'élaboration par approximations successives des séquences d'impulsions du signal multi-impulsionnel d'excitation se fait, d'une manière bien connue de l'homme de l'art, notamment par le brevet français No. 2 517 452 à l'aide de circuits de traitement de corrélation placés dans le circuit de synthèse d'impulsions 125 qui calculent les fonctions d'intercorrélation du numérateur et d'autocorrélation du dénominateur du membre droit de l'égalité (4) à partir des échantillons de l'erreur pondérée fournis par le filtre perceptual 123 et des échantillons de la réponse impulsionnelle du filtre perceptuel fournis par le circuit de traitement 124.The implementation of this method of elaboration by successive approximations of the pulse sequences of the excitation multi-pulse signal is done, in a manner well known to those skilled in the art, in particular by French patent No . 2,517,452 using correlation processing circuits placed in the pulse synthesis circuit 125 which calculate the intercorrelation functions of the numerator and autocorrelation of the denominator of the right-hand side of equality (4) to starting from the samples of the weighted error supplied by the perceptual filter 123 and from the samples of the impulse response of the perceptual filter supplied by the processing circuit 124.

Cette méthode d'élaboration assez complexe présente l'inconvénient d'accumuler les erreurs au cours de ses étapes.This rather complex method of preparation has the disadvantage of accumulating errors during its stages.

Pour corriger ce défaut, il a été proposé de recalculer les amplitudes de toutes les impulsions d'une séquence du signal multi-impulsionnel d'excitation une fois les positions de toutes les impulsions choisies par la méthode précédente.To correct this defect, it has been proposed to recalculate the amplitudes of all the pulses of a sequence of the excitation multi-pulse signal once the positions of all the pulses chosen by the previous method.

En effet, en dérivant l'erreur pondérée e(k) exprimée par la relation (1) par rapport aux amplitudes d'impulsions A(i) placées en des instants choisis m(1), ..., m(Q) de la fenêtre temporelle considérée on obtient:

et l'on peut en déduire la dérivée de l'erreur quadratique sur une fenêtre qui doit être annulée pour avoir les amplitudes d'impulsions optimales:

ce qui conduit, en explicitant e(k) à l'aide de la relation (1) et avec la convention d'écriture de la relation (3), au système linaire:

les T(j) étant des échantillons de la fonction d'intercorrélation entre l'erreur pondérée lorsqu'aucune impulsion n'a été placée sur la fenêtre et la réponse impulsionnelle du filtre perceptuel:

Ce système linéaire est résoluble mais cela conduit à un nombre important de calculs peu compatible avec la nécessité l'élaborer chaque séquence d'impulsions du signal multi-impulsionnel d'excitation dans un délai inférieur à la durée des fenêtres temporelles successives de l'ordre de 10 à 20 ms adoptées par le circuit d'analyse pour la détermination des coefficients de prédiction a(k).Indeed, by deriving the weighted error e (k) expressed by the relation (1) with respect to the amplitudes of pulses A (i) placed at selected instants m (1), ..., m (Q) of the time window considered, we obtain:

and we can deduce the derivative of the quadratic error on a window which must be canceled to have the optimal pulse amplitudes:

which leads, by explaining e (k) using the relation (1) and with the writing convention of the relation (3), to the linear system:

the T (j) being samples of the cross-correlation function between the weighted error when no pulse has been placed on the window and the impulse response of the perceptual filter:

This linear system is solvable but that leads to a significant number of computations little compatible with the need to elaborate each sequence of pulses of the multi-pulse signal of excitation in a delay lower than the duration of the successive time windows of the order from 10 to 20 ms adopted by the analysis circuit for the determination of the prediction coefficients a (k).

Pour lutter contre l'imprécision sur les amplitudes des impulsions d'une séquence du signal multi-impulsionnel d'excitation due à la méthode par approximation successive utilisée pour leur détermination, on propose, selon l'invention, de terminer la détermination des impulsions d'une séquence par une actualisation de leurs amplitudes à l'aide d'un terme correctif qui est égal pour chacune des impulsions à l'amplitude que l'on donnerait à une impulsion supplémentaire si l'on prolongeait d'une étape la méthode d'obtention par approximations successives en fixant arbitrairement la position de la nouvelle impulsion au même emplacement.To combat the imprecision on the amplitudes of the pulses of a sequence of the excitation multi-pulse signal due to the successive approximation method used for their determination, it is proposed, according to the invention, to complete the determination of the pulses d '' a sequence by updating their amplitudes using a corrective term which is equal for each of the pulses to the amplitude which would be given to an additional pulse if the method d is extended by one step 'obtaining by successive approximations by arbitrarily fixing the position of the new pulse at the same location.

Ainsi, ayant déterminé le nombre maximum Q d'impulsions prévues au cours de Q étapes successives disposées en des positions m(1),..., m(Q), on corrige l'amplitude A(i) de chacune d'elle à l'aide du terme correctif A'(i) déduit de la relation (4):

term correctif qui peut encore d'exprimer en tenant compte des relations (2) et (6) sous la forme:

et qui se définit comme un rapport de deux termes avec au numérateur la dérivée partielle, par rapport à l'amplitude A(i), de l'erreur quadratique pondérée entre le signal de parole à coder et le signal de parole synthétisée et au dénominateur la valeur en zéro de la fonction d'autocorrélation de la réponse impulsionnelle du filtre perceptuel retardée d'un délai correspondant à la position de l'impulsion considérée par rapport au début de la fenêtre.Thus, having determined the maximum number Q of pulses provided during Q successive stages arranged in positions m (1), ..., m (Q), the amplitude A (i) of each of them is corrected using the corrective term A '(i) deduced from relation (4):

corrective term which can still be expressed taking into account relations (2) and (6) in the form:

and which is defined as a ratio of two terms with the numerator the partial derivative, compared to the amplitude A (i), of the weighted quadratic error between the speech signal to be coded and the synthesized speech signal and the denominator the zero value of the autocorrelation function of the impulse response of the perceptual filter delayed by a delay corresponding to the position of the pulse considered relative to the start of the window.

L'intérêt de cette correction apparaît par comparaison avec la méthode de recalcul global des amplitudes optimales de toutes les impulsions exposées précédemment qui donne les valeurs optimales A opt (i) comme solution du système d'équations:

The interest of this correction appears by comparison with the method of global recalculation of the optimal amplitudes of all the pulses exposed previously which gives the optimal values A opt (i) as solution of the system of equations:

En remarquant que le terme T(j) peut s'exprimer par:

Ce système d'équations (10) peut se récrire

ou encore, en termes de correction A"(i)

Une comparaison de ce système d'équations avec les relations (2) et (9) montre que la définition du terme correctif A'(i) se déduit de celle du terme correctif A"(i) donnée par la solution optimale en admettant que les valeurs C(i,j) de la corrélation entre deux réponses impulsionnelles du filtre perceptuel sont nulles lorsqu'elles ne sont pas simultanées. Cette approximation est raisonnable car, compte tenu de l'amortissement important de l'enveloppe de la réponse impulsionnelle du filtre perceptuel, C(i,j) devient rapidement très petit devant C(i,i) dès que i et j sont éloignés de quelques échantillons et par conséquent la correction A"(i) donnée pour la solution optimale est surtout due au terme C(i,i). Ainsi, l'approximation du terme correctif optimal A"(i) par le terme correctif A'(i) permet de corriger les aberrations les plus importantes qui affectent les amplitudes d'impulsions lors de leur détermination par approximations successives.Note that the term T (j) can be expressed by:

This system of equations (10) can be rewritten

or again, in terms of correction A "(i)

A comparison of this system of equations with relations (2) and (9) shows that the definition of the corrective term A '(i) is deduced from that of the corrective term A "(i) given by the optimal solution by admitting that the values C (i, j) of the correlation between two impulse responses from the perceptual filter are zero when they are not simultaneous. This approximation is reasonable because, given the significant damping of the impulse response envelope of the perceptual filter, C (i, j) quickly becomes very small compared to C (i, i) as soon as i and j are distant from some samples and consequently the correction A "(i) given for the optimal solution is mainly due to the term C (i, i). Thus, the approximation of the optimal corrective term A "(i) by the corrective term A '(i) makes it possible to correct the most significant aberrations which affect the pulse amplitudes during their determination by successive approximations.

Le terme correctif A'(i) présente l'intérêt d'avoir une relation de définition de même nature que celle (4) de l'amplitude A(I+1) de l'impulsion placée au cours de chaque étape de la méthode par approximations et par conséquent de pouvoir être élaboré avec un nombre d'opérations supplémentaires très restreint, sans commune mesure avec le nombre d'opérations nécessaires à la résolution du système d'équations (12).The corrective term A '(i) has the advantage of having a definition relationship of the same kind as that (4) of the amplitude A (I + 1) of the pulse placed during each step of the method by approximations and consequently of being able to be worked out with a very limited number of additional operations, without common measure with the number of operations necessary for the resolution of the system of equations (12).

L'étape d'élaboration du jeu des Q termes correctifs A'(i) a lieu après la Q ième étape de la méthode par approximations au cours de laquelle la Q ième impulsion a été déterminée au moyen de l'étude de la fonction

Elle ressemble, comme on va le voir ci-après, à une étape supplémentaire de la méthode par approximations dans laquelle le calcul de la fonction

n'est pas effectué mais remplacé par le calcul systématique de l'amplitude d'impulsion pour toutes les positions d'impulsions déjà déterminées.The step of developing the set of Q corrective terms A '(i) takes place after the Q th step of the approximation method during which the Q th pulse was determined by means of the study of the function

It looks like, as we will see below, an additional step of the approximation method in which the calculation of the function

is not carried out but replaced by the systematic calculation of the pulse amplitude for all the pulse positions already determined.

La figure 2 illustre un mode de réalisation des circuits d'analyse 11 et d'élaboration 12 de l'équipement émetteur.FIG. 2 illustrates an embodiment of the analysis circuits 11 and of preparation 12 of the transmitting equipment.

Celui-ci se compose d'un microprocesseur 40 relié par des bus d'adresses 41, de données 42 et de contrôle 43 à une mémoitre vive 44 permettant de stocker de manière provisoire les échantillons du signal de parole à coder S(k) ainsi que des variables de calcul, à une mémoire morte 45 contenant des programmes de mise en paquets des échantillons S(k) du signal de parole à coder, de calcul du jeu de coefficients de prédiction a(k) correspondant à chaque paquet et des échantillons h'(k) de la réponse impulsionnelle du filtre perceptuel ainsi que de détermination des positions et amplitudes des impulsions de la séquence du signal multi-impulsionnel d'excitation, et à un interface d'entrée sortie 46 permettant l'introduction des échantillons numérique S(k) de parole à coder et la délivrance en direction des codeurs des jeux de coefficients de prédiction a(k) et des positions et amplitudes des impulsions des séquences du signal multi-impulsionnel d'excitation.This consists of a microprocessor 40 connected by address 41, data 42 and control 43 buses to a random access memory 44 making it possible to temporarily store the samples of the speech signal to be coded S (k) as well that calculation variables, to a read only memory 45 containing programs for packetizing the samples S (k) of the speech signal to be coded, for calculating the set of prediction coefficients a (k) corresponding to each packet and samples h '(k) of the impulse response of the perceptual filter as well as of determination of the positions and amplitudes of the pulses of the sequence of the excitation multi-pulse signal, and at an input-output interface 46 allowing the introduction of the digital samples S (k) of speech to be coded and the delivery to the coders of the sets of prediction coefficients a (k) and of the positions and amplitudes of the pulses of the sequences of the excitation multi-pulse signal.

Le microprocesseur 40 procède à plusieurs opérations simultanées sous le contrôle des programmes enregistrés dans la mémoire morte 45.The microprocessor 40 carries out several simultaneous operations under the control of the programs recorded in the read-only memory 45.

Il procède tout d'abord à l'arrangement par paquets de N des échantillons du signal de parole à coder S(k) qui lui parviennent régulièrement sous forme série, interrompant ses autres tâches toutes les 125 ps pour une cadence d'échantillonnage de 8 kHz pour les recueillir sur son entrée et les stocker dans la mémoire vive 44.It first of all arranges in packets of N the samples of the speech signal to be coded S (k) which regularly reach it in serial form, interrupting its other tasks every 125 ps for a sampling rate of 8 kHz to collect them on its input and store them in RAM 44.

Une fois un paquet d'échantillons complet, il calcule le jeu des coefficients de prédiction a(k) qui lui correspond un résolvant selon l'une des méthodes connues décrites dans l'ouvrage précité le système d'équations (o) et les stocke en mémoire vive 44.Once a packet of samples is complete, it calculates the set of prediction coefficients a (k) which corresponds to it a resolver according to one of the known methods described in the aforementioned work the system of equations (o) and stores them in RAM 44.

A partir de ce jeu de coefficients de prédiction a(k), il élabore les échantillons h'(k) de la réponse impulsionnelle du filtre perceptuel ainsi que les échantillons du signal de résidu de prédiction r(k) et les signaux d'autocorrélation C(i,i) de la réponse impulsionnelle du filtre perceptuel qu'il stocke en mémoire vive puis il élabore la séquence du signal multi-impulsionnel d'excitation.From this set of prediction coefficients a (k), it prepares the samples h '(k) of the impulse response of the perceptual filter as well as the samples of the prediction residue signal r (k) and the autocorrelation signals. C (i, i) of the impulse response of the perceptual filter which it stores in random access memory then it elaborates the sequence of the excitation multi-impulse signal.

Pour élaborer la séquence du signal multi-impulsionnel d'excitation il procède, comme indiqué précédemment, par une méthode d'approximations successives à Q étapes à chaque étape de laquelle il calcule une fonction:

par mise à jour à partir de l'étape précédente au moyen de la formule de récurrence

qui tient compte du fait que l'erreur pondérée au cours d'une étape de la méthode par approximations successives s'exprime en fonction de l'erreur pondérée à l'étape précédente par la relation

exprimant la prise en compte de la nouvelle impulsion.To develop the sequence of the excitation multi-pulse signal, it proceeds, as indicated above, by a method of successive approximations with Q steps at each step of which it calculates a function:

by updating from the previous step using the recurrence formula

which takes into account the fact that the weighted error during a step of the successive approximation method is expressed as a function of the weighted error in the previous step by the relation

expressing the taking into account of the new impulse.

Le microprocesseur stocke ensuite en mémoire vive les valeurs de cette fonction puis calcule la fonction

par la formule:

détermine la valeur de k pour laquelle cette fonction est maximale et la prend pour valeur de l'indice m(t+1) repérant la position de la (1+1) ième impulsion dont il détermine l'amplitude A(I+1) par le calcul de la relation:

The microprocessor then stores in memory the values of this function then calculates the function

by the formula:

determines the value of k for which this function is maximum and takes it as the value of the index m (t + 1) locating the position of the (1 + 1) th pulse of which it determines the amplitude A (I + 1) by calculating the relation:

Au cours de la première étape, la fonction

est calculée à partir de sa définition au moyen des échantillons r(k) du signal de résidu de prédiction en tenant compte du fait que la séquence du signal multi-impulsionnel sur la fenêtre courante est alors un signal nul:

During the first stage, the function

is calculated from its definition using samples r (k) of the prediction residue signal taking into account the fact that the sequence of the multi-pulse signal on the current window is then a zero signal:

Après la dernière étape de la méthode par approximations successives ayant permis de déterminer la position m(Q) et l'amplitude A(Q) de la Q ième impulsion au moyen de la dernière mise à jour:

du jeu de valeurs de la fonction t, il détermine les termes correctifs des amplitudes de l'ensemble des impulsions par une dernière mise à jour du jeu des valeurs de la fonction t(k) restreint aux indices m(i):

et par le calcul de l'ensemble des valeurs des termes correctifs

qui est de même forme que les calculs effectués antérieurement pour la détermination des amplitudes A(I) de chaque impulsion.After the last step of the method by successive approximations having made it possible to determine the position m (Q) and the amplitude A (Q) of the Q th pulse by means of the last update:

of the set of values of the function t, it determines the corrective terms of the amplitudes of the set of pulses by a last update of the set of the values of the function t (k) restricted to the indices m (i):

and by calculating the set of values of the corrective terms

which is of the same form as the calculations carried out previously for the determination of the amplitudes A (I) of each pulse.

Il effectue enfin les corrections en adoptant pour amplitudes définitives des impulsions sur la fenêtre temporelle considérée les valeurs: A(i)+A'(i) i=1, ..., Q dont on notera qu'elles correspondront dans la relation (1) pour la détermination des impulsions sur la s ième fenêtre temporelle suivante aux amplitudes B(-s. Q+i).Finally, it performs the corrections by adopting for final amplitudes pulses over the time window considered the values: A (i) + A '(i) i = 1, ..., Q which we note will correspond in the relation ( 1) for the determination of the pulses on the following s th time window at amplitudes B (-s. Q + i).

L'étape d'élaboration des termes correctifs n'exigeant pas d'opérations très différentes de celles effectuées au cours d'une étape de la méthode par approximations successives s'intègre facilement dans le cadre de cette dernière sans en augmenter de façon appréciable la durée de mise en oeuvre ce qui est fondamental dans le cadre des vocodeurs où l'élaboration de chaque séquence du signal multi-impulsionnel d'excitation doit se faire sur la durée limitée d'une fenêtre temporelle d'analyse.The stage of drawing up corrective terms which does not require operations which are very different from those carried out during a stage of the method by successive approximations is easily integrated into the framework of the latter without appreciably increasing the duration of implementation which is fundamental in the context of vocoders where the development of each sequence of the excitation multi-pulse signal must be done over the limited duration of a time window of analysis.

Claims

A low-bit-rate speech encoding method based on a multipulse excitation signal, consisting in substituting, for the signal of the speech to be encoded, parameters defining in successive time frames the characteristics of a vocal tract shaping filter and defining positions and amplitudes of pulses which form a multipulse excitation signal for said filter and which are determined by successive approximation according to the criterion of minimization of the mean squared error between the original speech signal to be encoded and the filter-produced synthetic speech signal, wherein, after determining by successive approximation the positions and amplitudes of the excitation multipulse signal pulses, a correcting term based on the value of the partial derivative of the mean squared error with respect to the amplitude of the given pulse taken as an independent variable is added to the amplitude of each pulse, wherein said mean squared error is weighted by filtering in a perceptual filter whose impulse response is defined relative to that of said vocal tract shaping filter, and wherein the corrective term is proportional to the partial derivative of the weighted mean squared error carried out with respect to the amplitude of the pulse under consideration taken as independent variable and divided by the zero value of the autocorrelation function of the perceptual filter's impulse response delayed by an amount of time corresponding to the position of the given pulse in relation to the start of the time frame.