FR2579356A1 - Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation - Google Patents
Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation Download PDFInfo
- Publication number
- FR2579356A1 FR2579356A1 FR8504304A FR8504304A FR2579356A1 FR 2579356 A1 FR2579356 A1 FR 2579356A1 FR 8504304 A FR8504304 A FR 8504304A FR 8504304 A FR8504304 A FR 8504304A FR 2579356 A1 FR2579356 A1 FR 2579356A1
- Authority
- FR
- France
- Prior art keywords
- signal
- filter
- pulse
- pulses
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005284 excitation Effects 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000001755 vocal effect Effects 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 238000012937 correction Methods 0.000 claims description 8
- 238000005311 autocorrelation function Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 2
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 21
- 238000012545 processing Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000004568 cement Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
PROCEDE DE CODAGE A FAIBLE DEBIT DE LA PAROLE A SIGNAL MULTI-IMPULSIONNEL D'EXCITATION. L'INVENTION CONCERNE UN SYSTEME DE CODAGE NUMERIQUE DE LA PAROLE AVEC UN EQUIPEMENT EMETTEUR 1 SUBSTITUANT AU SIGNAL DE PAROLE A CODER D'UNE PART DES PARAMETRES ELABORES PAR UN CIRCUIT D'ANALYSE 11 DEFINISSANT SUR DES FENETRES TEMPORELLES SUCCESSIVES LES CARACTERISTIQUES D'UN FILTRE 34 QUI EST PLACE DANS UN EQUIPEMENT DE RECEPTION 3 RELIE PAR UNE LIGNE DE TRANSMISSION A FAIBLE DEBIT 2 ET QUI MODELISE LE CONDUIT VOCAL ET D'AUTRE PART UN SIGNAL MULTI-IMPULSIONNEL D'EXCITATION QUI EST DESTINE AU FILTRE 34 ET QUI EST DELIVRE PAR UN CIRCUIT D'ELABORATION 12 DETERMINANT LES POSITIONS ET AMPLITUDES DES IMPULSIONS PAR APPROXIMATIONS SUCCESSIVES SELON LE CRITERE DE MINIMISATION DE L'ERREUR QUADRATIQUE EXISTANT ENTRE LE SIGNAL DE PAROLE A CODER ET LE SIGNAL DE PAROLE SYNTHETISE PAR LEDIT FILTRE. ELLE CONSISTE A FAIRE AJOUTER PAR LE CIRCUIT D'ELABORATION 12 EN FIN D'APPROXIMATION, UN TERME CORRECTIF A L'AMPLITUDE DE CHACUNE DES IMPULSIONS QUI EST FONCTION DE LA VALEUR DE LA DERIVEE PARTIELLE DE L'ERREUR QUADRATIQUE EFFECTUEE RELATIVEMENT A L'AMPLITUDE DE L'IMPULSION CONSIDEREE PRISE POUR VARIABLE INDEPENDANTE.
Description
Procédé de codage à faible débit de la parole à signal multi-impulsionnel
d'excitation L'invention est relative aux codages numériques à faible débit qui sont utilisés pour la parole dans les vocodeurs et qui ne restituent pas la forme originelle du signal de parole mais des paramètres permettant de définir sur des fenêtres temporelles successives le signal d'excitation et les caractéristiques d'un filtre engendrant un signal de parole synthétique ressemblant à l'écoute au signal de parole d'origine. Elle
concerne plus particulièrement une forme d'élaboration du signal d'exci-
tation du filtre connue sous le nom multi-impulsionnelle.
Le filtre modélise le conduit vocal considéré comme invariant sur de courtes périodes de temps de l'ordre de 20 ms. Il restitue le spectre des fréquences à court terme du signal de parole, surtout ses maxima ou formants qui sont davantage perçus par l'oreille que ses minima. Il peut être réalisé de différentes manières analogiques ou numériques: synthèse à canaux, synthèse à formants ou synthèse à prédiction linéaire. Le signal d'excitation nécessaire au filtre de modélisation du conduit vocal pour synthétiser un signal de parole doit modéliser le signal d'excitation vocale. La manière la plus ancienne de l'élaborer consiste à utiliser deux sources commutées: - une source d'impulsions périodiques à la fréquence du fondamental du signal de parole d'origine (pitch) utilisée pour les sons voisés (voyelles),
- une source de bruit utilisée pour les sons non voisés (fricatives).
Ce mode d'élaboration pose le problème d'une distinction efficace entre les sons voisés et non voisés. Il aboutit à un signal d'excitation n'ayant qu'un lointain rapport avec le signal d'excitation vocale et produisant par l'intermédiaire du filtre de modélisation du conduit vocal un signal synthétique de parole peu fidèle et parfois difficile à comprendre. On connait, notamment par le brevet français n 2 517 452, un
autre mode d'élaboration du signal d'excitation du filtre de modélisa-
tion du conduit vocal qui permet de lui donner une forme plus ressemblante à celle du signal d'excitation vocale afin d'obtenir un
-- 2 --
signal synthétique de parole plus fidèle et qui est connu sous le nom de multi-impulsionnel. Ce mode d'élaboration consiste à engendrer pour l'excitation du filtre de modélisation du conduit vocal, un signal formé d'impulsions dont les positions et amplitudes sur chaque fenêtre temporelle sont ajustées de manière à minimiser sur chaque fenêtre temporelle les différences entre le signal de parole synthétisée et le signal de parole à coder. Cette minimisation se fait selon le critère de minimisation de l'erreur quadratique sur la fenêtre considérée avec une pondération dite perceptuelle de l'erreur tenant compte de la propriété de l'oreille humaine d'être moins sensible aux distorsions dans les régions de formant du spectre de fréquence de parole o l'énergie est
relativement concentree.
La minimisation selon le critère de l'erreur quadratique moyenne doit être obtenue avec un nombre minimum d'impulsions pour limiter le plus possible le débit binaire nécessaire à la transmission de la parole
codée. Faute de solution directe à ce problème on choisit des empla-
cements discrets o il est possible de placer des impulsions et l'on procéde par approximations successives en définissant à chaque étape l'erreur quadratique pondérée résultant du signal impulsionnel adopté à l'étape précédente auquel on adjoint une nouvelle impulsion dont l'amplitude et la position sont inconnues, en déterminant alors en fonction de la position possible de cette nouvelle impulsion, la valeur de l'amplitude qui annule la dérivée partielle de cette erreur quadratique pondérée par rapport à cette amplitude considérée comme variable indépendante, puis en choisissant la position de l'impulsion pour laquelle cette erreur quadratique pondérée est minimale et en adoptant comme signal impulsionnel pour cette étape celui adopté à
l'étape précédente auquel on adjoint l'impulsion ainsi définie.
L'approximation successive est arrêtée au bout d'un certain nombre d'itérations déterminé en fonction des capacités de calcul disponibles
et du débit de codage.
Elle a pour inconvénient d'accumuler les erreurs ce qui provoque une dégradation du rapport signal sur bruit du signal de parole
synthétisé qui se manifeste surtout pour les voix aiguës.
Pour éviter cet inconvénient, on a proposé de recalculer les amplitudes optimales de toutes les impulsions une fois leurs positions -3déterminées. Mais cela suppose la résolution d'un système d'équations linéaires augmentant de façon notable la quantité des calculs à effectuer pour la détermination du signal d'excitation ce qui, dans la
pratique, enlève beaucoup d'intérêt à cette solution.
La présente invention a pour but de lutter contre la dégradation du rapport signal sur bruit d'un signal de parole synthétisée due à la méthode par approximations successives utilisée pour la détermination des impulsions du signal d'excitation du filtre élaborant le signal de parole synthétisée, sans pour autant augmenter de façon significative le
nombre de calculs à entreprendre.
Elle a pour objet un procédé de codage à faible débit de la parole
consistant à substituer au signal de parole à coder des paramètres défi-
nissant sur des fenêtres temporelles successives les caractérisitiques d'un filtre modélisant le conduit vocal et des positions et amplitudes d'impulsions qui forment le signal d'excitation du filtre et qui sont
déterminées par approximations successives selon le critère de minimisa-
tion de l'erreur quadratique existant entre le signal de parole à et le signal de parole synthétisée restitué par le filtre. Ce prode consiste, après détermination par approximations successives des positions et amplitudes du signal d'excitation, à ajouter à l'amplitude de chaque impulsion un terme correctif fonction de la valeur de la dérivée partielle de l'erreur quadratique par rapport à l'amplitude de
l'impulsion considérée prise pour variable indépendante.
Cette correction bien que non optimale ne nécessite que très peu de
calculs supplémentaires.
D'autres caractéristiques et avantages de l'invention ressortiront
de la description ci-après en regard du dessin dans lequel:
- la figure 1 représente le schéma synoptique général d'un vocodeur utilisant un codage numérique à prédiction linéaire - et la figure 2 un mode de réalisation d'un circuit d'analyse de prédiction linéaire et d'un circuit d'élaboration d'un signal multi-impulsionnel utilisés dans le vocodeur représenté à la figure précédente. On distingue dans la figure 1 un équipement émetteur 1 relié par
une liaison numérique 2 à faible débit à un équipement récepteur 3.
- 4 - L'équipement émetteur 1 reçoit sur une entrée 10, à une cadence d'échantillonnage donnée, par exemple de 8 kHz, des échantillons numériques S (k) d'un signal de parole à coder dont la bande de fréquence a été au préalable limitée supérieurement à la moitié de la fréquence d'échantillonnage. Il groupe ces échantillons numériques S (k) par paquets de N successifs correspondant à des fenêtres temporelles sur lesquelles les caractéristiques du conduit vocal sont supposées invariantes, déduit de chaque paquet un jeu de p coefficients a (k) dits de-- prédiction linéaire permettant de définir en réception les caractéristiques d'un filtre modélisant le conduit vocal et un signal multi-impulsionnel v (k) destiné à l'excitation en réception du filtre modélisant le conduit vocal, et met les jeux de coefficients de
prédiction linéaire a (k) et le signal multi-impulsionnel d'excita-
tion v (k) sous une forme adaptée à leur acheminement par la liaison numérique 2 à faible débit vers l'équipement de réception 3. Pour ce faire, il comporte: - un circuit d'analyse 11 par prédiction linéaire qui engendre à partir des échantillons numériques S (k) du signal de parole à coder les jeux de coefficients de prédiction linéaire a (k) correspondant aux fenêtres temporelles successives,
- un circuit d'élaboration 12 du signal multi-impulsionnel d'excita-
tion v (k) qui opère à partir des échantillons numériques S (k) du signal de parole à coder et des jeux de coefficients de prédiction linéaire a (k) délivrés par le circuit d'analyse pour chaque paquet de N échantillons,
- un circuit à retard 13 retardant chaque jeu de coefficients de prédic-
tion linéaire a(k) délivrés par le circuit d'analyse 11 le temps
nécessaire au circuit d'élaboration 12 pour engendrer le signal d'exci-
tation correspondant à la même fenêtre temporelle et - des codeurs 14, 15 et un multiplexeur 16 mettant les jeux de coefficients de prédiction linéaire a (k) et le signal multi-impulsionnel d'excitation v (k) défini par les positions et les amplitudes de ses impulsions sous une forme adaptée à leur acheminement
par la liaison numérique à faible débit 2.
L'équipemement récepteur 3 comporte un démultiplexeur 31 et deux -5 décodeurs 32, 33 placés en entrée, qui sont adaptés aux multiplexeurs 16 et au codeurs 14, 15 de l'équipement émetteur 1 et qui extraient du signal reçu de la liaison de transmission numérique 2 les jeux de
coefficients de prédiction a (k) et le signal multi-impulsionnel d'exci-
tation v (k), et un filtre 34 de modélisation du conduit vocal dont les caractéristiques sont ajustées à partir des jeux de coefficients de prédiction a (k) et qui engendre à partir du signal multi-impulsionnel d'excitation v (k) des échantillons S (k) d'un signal de parole
synthétisée reproduisant le signal de parole d'origine.
Le circuit d'analyse 11 de l'équipement émetteur 1 est un circuit de traitement numérique qui n'est pas détaillé car il est bien connu de l'homme de métier et n'est pas du domaine de l'invention. Pour la façon dont il procède pour extraire les jeux de coefficients de prédiction a (k) des échantillons du signal de parole à coder on pourra se reporter au livre de Markel J., Gray A. intitulé "Linear prediction of speech" édité par Springer Verlag, New York, 1976. Brièvement, le signal prédit S (n) se définit à partir des valeurs écoulées du signal de parole à coder S(n) au moyen des coefficients de prédiction a (k) par la relation: p_ (n) == a (k). S (n-k) k=l L'erreur de prédiction ou résidu de prédiction r (n) s'exprime par la relation r (n) = S (n) - S (n) qui correspond à l'expression du signal de sortie d'un filtre numérique prédictif exécité par le signal de parole à coder ayant une fonction de transfert dont la transformée en z est définie à partir des coefficients de prédiction par: p H (z) = - Xo a (k). z-k avec a (o) = -1 La prédiction est considérée comme optimale lorsque l'erreur quadratique 6- entre les valeurs prédites et les valeurs réelles définie par: (s A 2 F L= -S (n) - S (n)) n
est minimale.
Cela s'obtient par la méthode des moindres carrés qui donne les coeffi-
cients de prédiction linéaire a(k) comme solution du système d'équations: p a (k). R (li-ki) = R(i) i = 1,.., p (0) k = 1 en considérant les coefficients de corrélation: R (li-kl) = 2 S (n-k).S (n-i) et R (i) =Ä S (n). S (n-i) n n dont on connaît diverses méthodes de résolution: méthode de covariance,
méthode d'autocorrélation décrites dans l'ouvrage précité.
Le filtre de modélisation du conduit vocal 34 de l'équipement de réception a pour fonction de transfert H(z) qui s'exprime à partir des coefficients de prédiction a (k) par: i H(z)= p - =o a(k). z-k Sa synthèse sort du domaine de la présente invention. Elle peut se faire
à partir des coefficents de prédiction a (k) par application de la rela-
tion précédente mais se réalise de manière préférentielle par la méthode d'Itakura-Saito sous la forme d'un treillis défini à partir de coefficients dits de réflexion transmis en lieu et place des -7coefficients de prédiction a(k) auxquels ils correspondent par des
relations d'équivalence bien connues.
Le circuit d'élaboration 12 du signal multi-impulsionnel d'excita-
tion engendre pour chaque fenêtre temporelle d'analyse du signal à coder une séquence d'impulsions en nombre minimal avec des positions et des amplitudes choisies de manière à obtenir du filtre modélisant le conduit vocal un signal de parole synthétisée reproduisant le plus fidèlement
possible pour un auditeur le signal de parole d'origine.
Le critère adopté pour estimer la fidélité de reproduction d'un signal de parole par un signal synthétique est celui de minimisation de l'erreur quadratique, sur une fenêtre temporelle d'analyse, entre le signal de parole d'origine et le signal de parole synthétisée avec une pondération de l'erreur tenant compte des propriétés perceptuelles d'un auditeur qui font qu'il est moins sensible aux distorsions se produisant dans les régions de formant du spectre de fréquence du signal de parole o l'énergie est relativement concentrée. Une manière connue de réaliser cette pondération notamment par le brevet américain n 4 133 976 consiste à soumettre le signal d'erreur formé de la différence entre le signal de parole d'origine et le signal de parole synthétisée à un filtrage dont la fonction de transfert W (z) s'exprime en fonction de celle H (z) du filtre de modélisation du conduit vocal par la relation: H ( 5 z) w (.=(z) H( 0O < <1 Ce filtrage peut être obtenu par passage du signal d'erreur ou de ses composants dans un filtre prédictif dont la fonction de transfert est H-1 (z) puis dans un filtre dit perceptuel de fonction de transfert H ( Y z) qui peut se déterminer en fonction des coefficients de prédiction par la relation de définition: H ( g z) = P p k _k - a(k). k. zk k = o D'une manière générale, le filtrage prédictif se fait sur les composants du signal d'erreur, de façon explicite sur le signal de parole à coder et de façon implicite sur le signal de parole synthétisée, tandis que le filtrage perceptuel se fait sur le signal d'erreur lui-même dont les composants ont été réunis après filtrage prédictif. Pour le filtrage prédictif du signal de parole à coder, le circuit d'élaboration 12 comporte un circuit à retard 120 qui reçoit les paquets
de N échantillons successifs S(k) du signal de parole à coder correspon-
dant aux fenêtres temporelles sucessives sur lesquelles opère le circuit d'analyse 11 et qui les stockent le temps nécessaire à ce dernier pour établir chaque jeu de coefficients de prédiction a(k), et un filtre prédictif 121 qui reçoit son jeu de coefficients a(k) du circuit d'analyse 11 et les paquets d'échantillons successifs S (k) du circuit à
retard 120 et qui délivre un signal de résidu de prédiction r(k).
Le filtrage prédictif du signal de parole synthétisée s'obtient implicitement en remplaçant ce' signal par le signal multi-impulsionnel d'excitation v(k) dont il découle par un filtrage en H (z) effectué par
le filtre de modélisation du conduit vocal.
Un soustracteur 122 forme le signal d'erreur en retranchant le signal multi-impulsionnel v (k) du signal de résidu de prédiction r (k) et l'applique à un filtre perceptuel 123 recevant ses coefficients d'un circuit de traitement 124 les élaborant à partir du jeu de coefficients
de prédiction a(k) par mise en oeuvre de la dernière relation citée.
Les séquences d'impulsions formant le signai multi-impulsionnel d'excitation pour chacune des fenêtres temporelles sur lesquelles
opèrent le circuit d'analyse 11 sont engendrées dans le circuit d'élabo-
ration 12 par un circuit synthétiseur d'impulsions 125 qui reçoit le signal d'erreur pondérée issu du filtre perceptuel 123. Ce circuit synthétiseur d'impulsions 125 engendre pour chaque séquence du signal multi-impulsionnel d'excitation un nombre d'impulsions compatible avec
la capacité de transmission de la liaison numérique 2 qui relie l'équi-
pement d'émission 1 à l'équipement de réception 3 tout en leur donnant des positions dans la fenêtre temporelle considérée et des amplitudes
minimisant l'énergie de l'erreur pondérée.
-9 - Soient A (i) les amplitudes de ces impulsions supposées au plus en nombre Q et m (i) leurs positions respectives dans la fenêtre temporelle choisies parmi les positions discrètes 1,.., N d'échantillons échelonnées le long de la fenêtre. La séquence d'impulsions V (k) s'exprime par: Q V (k) = A (i). d (k,m (i)) i =1 o d (k, m (i)) est une fonction prenant la valeur un pour k égal m (i) et zéro partout ailleurs. En appelant h' (k) les échantillons de la réponse impulsionnelle du filtre perceptuel 123 ayant pour fonction de transfert H ( ' z), l'erreur pondérée e (k) s'exprime par: k o Q e (k) = E r(n)- 7 B(j).d (n,b(j))- A(i). d (n, m (i)) . h' (k-n) (1
n=- O=-j i =1 -
o B(i) et b(j) définissent les impulsions relatives aux fenêtres précé-
dentes. La minimisation de l'énergie de cette erreur ponderée sur la fenêtre temporelle revient à minimiser la quantité N E=/ e (k) k=l
par un choix adéquat des positions d'impulsions m(i) et de leurs ampli-
tudes A(i). Ce problème n'a pas de solution optimale connue. Mais on lui connaît, notamment par le brevet français 2 517 452, une solution sous optimale consistant à construire la séquence d'impulsions, impulsion par impulsion. En effet, considérons l'étape (1), o 1 impulsions ont été
placées dans la séqu $Â)et o l'on désire en placer une (1+1) ième.
L'erreur ponderée e (k) à l'étape (1+1) s'exprime selon la rela-
- 10 -
tion (1) par: (1+1) k 0 l e (k) = r(n) - B(j). d (n,b(j)) - A(i). d (n, m(i)) n=.- j=-do i=1 j - A (1+1). d (n,m(l+1))]. h'(k-n) ou encore:
(1+1) (1)
e (k) = e (k) - A(1+1). h' (k-m (1+1)) ce qui permet de définir l'énergie E (1+1) de l'erreur pondérée à l'étape (1+1) par rapport à l'énergie de l'erreur pondérée E (1) à l'étape par:
N (1) N
E(1+1)= E(l) - 2. A (1+1). e (n). h' (n-m (1+1)) + A (1+1). h' (n-m(1 n= n=1 (1) ou encore en notant par t (k) la fonction
(1) N (1)
t(k) = L e (n). h' (n-k) (2) n=1 et par C (i,j) les échantillons de la fonction d'autocorrélation de la réponse impulsionnelle du filtre perceptuel 123 N C (i,j) = h' (n-i). h' (n-j) (3) n=1
(1)
E (1+1) = E(l) -2 A(1+1). t (m(l+1)) + A (1+1). C (m(l+1), m (1+1)) Cette expression atteint son minimum lorsque sa dérivée par rapport à l'amplitude A (1+1) de la (1+1) ième impulsion s'annule
- 11 -
c'est-à-dire pour la valeur (1) A (1+1) = t (m (1+1)) (4) C (m(l+1), m (1+ 1)) et prend alors pour valeur:
(1) 2
E(l+1)min = E(l) - t (m(l+1)) (5) C (m(l+l), m(l+l)) On s'aperçoit que pour diminuer le plus rapidement possible l'énergie de l'erreur pondérée dans une méthode o les séquences d'impulsions sont construites par approximations successives, impulsion par impulsion, il faut choisir à chaque fois la position d'impulsion qui rend maximal le rapport du carré de la fonction t (k) par la fonction C (k,k) et adopter
pour amplitude de cette impulsion la valeur définie par la relation (4).
La mise en oeuvre de cette méthode d'élaboration par approxi-
mations successives des séquences d'impulsions du signal multiimpulsionnel d'excitation se fait, d'une manière bien connue de l'homme de l'art, notamment par le brevet français n0 2 517 452 à l'aide de circuits de traitement de corrélation placés dans le circuit de synthèse d'impulsions 125 qui calculent les fonctions d'interoorrélation du numérateur et d'autocorrélation du dénominateur du membre droit de l'égalité (4) à partir des échantillons de l'erreur pondérée fournis par
le filtre perceptuel 123 et des échantillons de la réponse impulsion-
nelle du filtre perceptuel fournis par le circuit de traitement 124.
Cette méthode d'élaboration assez complexe présente l'inconvénient d'accumuler les erreurs au cours de ses étapes*
Pour corriger ce défaut,il a été proposé de recalculer les ampli-
tudes de toutes les impulsions d'une séquence du signal multiimpulsionnel d'excitation une fois les positions de toutes les
impulsions choisies par la méthode précédente.
En effet) en dérivant l'erreur pondérée e (k) exprimée par la relation (1) par rapport aux amplitudes d'impulsions A (i) placées en
- 12 -
des instants choisis m(1),.., m(Q) de la fenêtre temporelle considérée on obtient: e (k) = -h' (k-m(i)) aA(i) et l'on peut en déduire la dérivée de l'erreur quadratique sur une fenêtre qui doit être annulée pour avoir les amplitudes d'impulsions _ optimales:
N N
E 2. > e (k).' e(k)= - 2 e (k). h' (k-m(i)) (6) -' A(i) k=1 A(i) k=1 ce qui conduit,en explicitant e(k) à l'aide de la relation (1) et avec la convention d'écriture de la relation (3), au système linaire: Q A opt (i). C (m(i), m(j)) = T (j) avec j = 1,.., Q (7) i =1 les T(j) étant des échantillons de la fonction d'intercorrélation entre l'erreur pondérée lorsqu'aucune impulsion n'a été placée sur la fenêtre et la réponse impulsionnelle du filtre perceptuel: N r-n 0 T(j) =[ |r(k)- B(i).d(k,b(i)) ].h' (n-k)?.h' (n-m(j)) (8)
n=1 k= i=-
Ce système linéaire est résoluble mais cela conduit à un nombre important de calculs peu compatible avec la nécessité l'élaborer chaque séquence d'impulsions du signal multi-impulsionnel d'excitation dans un délai inférieur à la durée des fenêtres temporelles successives de l'ordre de 10 à 20 ms adoptées par le circuit d'analyse pour la détermination
des coefficients de prédiction a (k).
- 13 -
Pour lutter contre l'imprécision sur les amplitudes des impulsions d'une séquence du signal multi-impulsionnel d'excitation due à la méthode par approximation successive utilisée pour leur détermination,
on propose, selon l'invention, de terminer la détermination des impul-
sions d'une séquence par une actualisation de leurs amplitudes à l'aide
d'un terme correctif qui est égal pour chacune des impulsions à l'ampli-
tude que l'on donnerait à une impulsion supplémentaire si l'on prolongeait d'une étape la méthode d'obtention par approximations successives en fixant arbitrairement la position de la nouvelle
impulsion au même emplacement.
Ainsi, ayant déterminé le nombre maximum Q d'impulsions prévues au cours de Q étapes successives disposées en des positions m(1),..,m(Q), on corrige l'amplitude A(i) de chacune d'elle à l'aide du terme correctif A'(i) déduit de la relation (4):
(Q)
t(m(i)) A' (i) = C (m(i), m(i)) terme correctif qui peut encore s'exprimer en tenant compte des relations (2) et (6) sous la forme: ? E A' (i) 1 ')A Ci) (10) A2 (C (m(i), m(i)) et qui se définit comme un rapport de deux termes avec au numérateur la
dérivée partielle, par rapport à l'amplitude A(i), de l'erreur quadrati-
que pondérée entre le signal de parole à coder et le signal de parole synthétisée et au dénominateur la valeur en zéro de la fonction d'autocorrélation de la réponse impulsionnelle du filtre perceptuel retardée d'un délai correpondant à la position de l'impulsion considérée
par rapport au début de la fenêtre.
L'intérêt de cette correction apparaît par comparaison avec la
2 579356
- 14 -
méthode de recaleul global des amplitudes optimales de toutes les impulsions exposées précédemment qui donne les valeurs optimales A opt (i) comme solution du système d'équations: Q A opt (i) C (m(i),m(j)) = T (j) j = 1,..,Q (11) i =1 En remarquant que le terme T (j) peut s'exprimer par:
N Q
T (j) = e (k). hn(k-m(j)) + A(i).C (m(i),m(j)) k=1 i=1 Ce système d'équations (10) peut se récrire
Q N
Y - lA opt (i)- A (i3. C (m(i),m(j).= e (k). h' (k-m(j)) j =1, i =1 k=1 ou encore, en termes de correction A"(i)
Q N
A"(i). C (m(i), m(j)) e (k). h' (k-m(j)) (12) i =1 k=1 Une comparaison de ce système d'équations avec les relations (2) et (9) montre que la définition du terme correctif A' (i) se déduit de celle du terme correctif A" (i) donnée par la solution optimale en admettant que les valeurs C (i,j) de la corrélation entre deux réponses impulsionnelles du filtre perceptuel sont nulles lorsqu'elles ne sont pas simultanées. Cette approximation est raisonnable car, compte tenu de l'amortissement important de l'enveloppe de la réponse impulsionnelle du filtre perceptuel, C(i,j) devient rapidement très petit devant C(i,i)
- 15 -
dès que i et j sont éloignés de quelques échantillons et par conséquent la correction A"(i) donnée pour la solution optimale est surtout due au terme C(i,i). Ainsi, l'approximation du terme correctif optimal A"(i) par le terme correctif A'(i) permet de corriger les aberrations les plus importantes qui affectent les amplitudes d'impulsions lors de leur
détermination par approximations successives.
Le terme correctif A'(i) présente l'intérêt d'avoir une relation de définition de même nature que celle (4) de l'amplitude A (1+1) de
l'impulsion placée au cours de chaque étape de la méthode par approxima-
tions et par conséquent de pouvoir être élaboré avec un nombre d'opéra-
tions supplémentaires très restreint, sans commune mesure avec le nombre
d'opérations nécessaires à la résolution du système d'équations (12).
L'étape d'élaboration du jeu des Q termes correctifs A'(i) a lieu après la Q ième étape de la méthode par approximations au cours de laquelle _9) ième impulsion a été déterminée au moyen de l'étude de la fonction t (k). Elle ressemble, comme on va le voir ci-après, à une étape supplémentaire de k)méthode par approximations dans laquelle le calcul de la fonction t (k) n'est pas effectué mais remplacé par le calcul systématique de l'amplitude d'impulsion pour toutes les positions
d'impulsions déjà déterminées.
La figure 2 illustre un mode de réalisation des circuits
d'analyse 11 et d'élaboration 12 de l'équipement émetteur.
Celui-ci se compose d'un microprocesseur 40 relié par des bus d'adresses 41, de données 42 et de contr8le 43 à une mémoire vive 44 permettant de stocker de manière provisoire les échantillons du signal de parole à coder S (k) ainsi que des variables de calcul, à une mémoire
morte 45 contenant des programmes de mise en paquets des échantil-
lons S(k) du signal de parole à coder, de calcul du jeu de coefficients de prédiction a(k) correspondant à chaque paquet et des échantillons h' (k) de la réponse impulsionnelle du filtre perceptuel ainsi que de détermination des positions et amplitudes des impulsions de la séquence du signal multi-impulsionnel d'excitation, et à un interface d'entrée sortie 46 permettant l'introduction des échantillons numérique S (k) de parole à coder et la délivrance en direction des codeurs des jeux de coefficients de prédiction a(k) et des positions et amplitudes des
- 16 -
impulsions des séquences du signal multi-impulsionnel d'excitation.
Le microprocesseur 40 procède à plusieurs opérations simultanées
sous le contr8le des programmes enregistrés dans la mémoire morte 45.
Il procède tout d'abord à l'arrangement par paquets de N des échantillons du signal de parole à coder S(k) qui lui parviennent régu- lièrement sous forme série, interrompant ses autres tâches toutes les 125 e s pour une cadence d'échantillonnage de 8 kHz pour les
recueillir sur son entrée et les stocker dans la mémoire vive 44. Une fois un paquet d'échantillons complet, il calcule le jeu des
coefficients de prédiction a(k) qui lui correspond en résolvant selon l'une des méthodes connues décrites dans l'ouvrage précité le système
d'équations (o) et les stocke en mémoire vive 44.
A partir de ce jeu de coefficients de prédiction a(k), il élabore les échantillons h' (k) de la réponse impulsionnelle du filtre perceptuel ainsi que les échantillons du signal de résidu de prédiction r(k) et les signaux d'autocorrélation C (i,i) de la réponse impulsionnelle du filtre perceptuel qu'il stocke en mémoire vive puis il
élabore la séquence du signal multi-impulsionnel d'excitation.
Pour élaborer la séquence du signal multi-impulsionnel d'excita-
tion il procède, comme indiqué précédemment, par une méthode d'approxi-
mations successives à Q étapes à chaque étape de laquelle il calcule une fonction:
(1) N (1)
t(k) / __ e(n). h' (n-k) k = 1..,N n=1 par mise à jour à partir de l'étape précédente au moyen de la formule de récurrence
(1) (1-1)
t(k)= t(k) - A (1). C (k, m(l)) qui tient compte du fait que l'erreur pondérée au cours d'une étape de la
- 17 -
méthode par approximations successives s'exprime Ad fonetion de l'erreur pondérée à l'étape précédente par la relation
(1) (1-1)
e (k) = e (k) - A (1). h' (k-m(l"
exprimant la prise en compte de la nouvelle impulsion.
Le micropro,seur stocke ensuite en mémoire vive les valeurs de cette fonction t(k) puis calcule la fonction z (i}) par la formule:
(1) (1) 2
z(k) = (t (k)) C(k,k) détermine la valeur de k pour laquelle cette fonction est maximale et la prend pour valeur de l'indice m (1+1) repérant la position de la (1+1) ième impulsion dont il détermine l'amplitude A (1+1) par le calcul de la relation: (1) A (1+1) = t (m(1+1)) C (m(l+1),m(l1+1)) (o) Au cours de la première étape, la fonction t(k) est calculée à partir de sa définition au moyen des échantillons r(k) du signal de résidu de prédiction en tenant compte du fait que la séquence du signal multi-impulsionnel sur la fenêtre courante est alors un signal nul: (0) N n t(k) = - (i) - B(j).d(i,b(j)).h'(n-i).h'(n-m(k)
- 18 -
Après la dernière étape de la méthode par approximations successives ayant permis de déterminer la position m(Q) et l'amplitude A (Q) de la Q ième impulsion au moyen de la dernière mise à jour: (Q-1) t(k) k = 1,.., N du jeu de valeurs de la fonction t, il détermine les termes correctifs des amplitudes de l'ensemble des impulsions par une dernière mise à jour du jeu des valeurs de la fonction t(k) restreint aux indices m(i): (Q) t(m(i)) i = 1,..,Q et par le calcul de l'ensemble des valeurs des termes correctifs (Q) A' (i) = t (m(i)) i = 1,..,Q C (m(i), m(i)) qui est de même forme que les caleuls effectués antérieurement pour la
détermination des amplitudes A(l) de chaque impulsion.
Il effectue enfin les corrections en adoptant pour amplitudes définitives des impulsions sur la fenêtre temporelle considérée les
valeurs: A (i) + A' (i) i =1,..,Q dont on notera qu'elles correspon-
dront dans la relation (1) pour la détermination des impulsions sur la s ième fenêtre temporelle suivante aux amplitudes B(-s.Q+i)
L'étape d'élaboration des termes correctifs n'exigeant pas d'opé-
rations très différentes de celles effectuées au cours d'une étape de la méthode par approximations successives s'intègre facilement dans le cadre de cette dernière sans en augmenter de façon appréciable la durée de mise en oeuvre ce qui est fondamental dans le cadre des vocodeurs o
l'élaboration de chaque séquence du signal multi-impulsionnel d'excita-
tion doit se faire sur la durée limitée d'une fenêtre temporelle d'analyse.
- 19 -
Claims (2)
1/ Procédé de codage à faible débit de la parole à signal multiimpulsionnel d'excitation consistant à substituer au signal de parole à coder des paramètres définissant sur des fenêtres temporelles successives les caractéristiques d'un filtre modélisant le conduit vocal et des positions et amplitudes d'impulsions qui forment un signal multiimpulsionnel pour l'excitation dudit filtre et qui sont
déterminées par approximations successives selon le critère de minimisa-
tion de l'erreur quadratique existant entre le signal de parole à coder et le signal de parole synthétisée restitué par ledit filtré,
caractérisé en ce qu'il consiste, après la détermination par approxima-
tions successives des positions et amplitudes des impulsions du signal multi-impulsionnel d'excitation, à ajouter à l'amplitude de chacune des impulsions un terme correctif fonction de la valeur de la dérivée partielle de l'erreur quadratique par rapport à l'amplitude de
l'impulsion considérée prise pour variable indépendante.
2/ Procédé selon la revendication 1 dans lequel l'erreur quadratique est pondérée par un filtrage dans un filtre perceptuel dont la réponse impulsionnelle est définie relativement à celle du filtre de modélisation du conduit vocal, caractérisé en ce que le terme correctif
ajouté à l'amplitude de chacune des impulsions déterminées par approxi-
mations successives est proportionnel à la dérivée partielle de l'erreur quadratique pondérée effectuée relativement à l'amplitude de l'impulsion considérée prise pour variable indépendante et divisée par la valeur en zéro de la fonction d'autocorrélation de la réponse impulsionnelle du filtre perceptuel retardée d'un délai correspondant à la position de
l'impulsion considérée par rapport au début de la fenêtre.
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8504304A FR2579356B1 (fr) | 1985-03-22 | 1985-03-22 | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
CA000504346A CA1241117A (fr) | 1985-03-22 | 1986-03-18 | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
DK126986A DK126986A (da) | 1985-03-22 | 1986-03-19 | Fremgangsmaade til bitmaengdebegraenset kodning af tale med multiimpuls-aktiveringssignal |
EP86103770A EP0195441B1 (fr) | 1985-03-22 | 1986-03-20 | Procédé de codage à faible débit de la parole à signal multi-impulsionnel d'excitation |
DE8686103770T DE3670712D1 (de) | 1985-03-22 | 1986-03-20 | Verfahren zur sprachcodierung mit niedriger bitrate unter verwendung eines mehrimpulsanregungssignals. |
US06/843,487 US4847905A (en) | 1985-03-22 | 1986-03-24 | Method of encoding speech signals using a multipulse excitation signal having amplitude-corrected pulses |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8504304A FR2579356B1 (fr) | 1985-03-22 | 1985-03-22 | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2579356A1 true FR2579356A1 (fr) | 1986-09-26 |
FR2579356B1 FR2579356B1 (fr) | 1987-05-07 |
Family
ID=9317484
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR8504304A Expired FR2579356B1 (fr) | 1985-03-22 | 1985-03-22 | Procede de codage a faible debit de la parole a signal multi-impulsionnel d'excitation |
Country Status (6)
Country | Link |
---|---|
US (1) | US4847905A (fr) |
EP (1) | EP0195441B1 (fr) |
CA (1) | CA1241117A (fr) |
DE (1) | DE3670712D1 (fr) |
DK (1) | DK126986A (fr) |
FR (1) | FR2579356B1 (fr) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1337217C (fr) * | 1987-08-28 | 1995-10-03 | Daniel Kenneth Freeman | Codage vocal |
USRE35057E (en) * | 1987-08-28 | 1995-10-10 | British Telecommunications Public Limited Company | Speech coding using sparse vector codebook and cyclic shift techniques |
SE463691B (sv) * | 1989-05-11 | 1991-01-07 | Ericsson Telefon Ab L M | Foerfarande att utplacera excitationspulser foer en lineaerprediktiv kodare (lpc) som arbetar enligt multipulsprincipen |
JP2940005B2 (ja) * | 1989-07-20 | 1999-08-25 | 日本電気株式会社 | 音声符号化装置 |
US5673364A (en) * | 1993-12-01 | 1997-09-30 | The Dsp Group Ltd. | System and method for compression and decompression of audio signals |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
US5963897A (en) * | 1998-02-27 | 1999-10-05 | Lernout & Hauspie Speech Products N.V. | Apparatus and method for hybrid excited linear prediction speech encoding |
EP1112625B1 (fr) * | 1998-09-11 | 2006-05-31 | Motorola, Inc. | Procede de codage d'un signal d'informations |
EP2009623A1 (fr) * | 2007-06-27 | 2008-12-31 | Nokia Siemens Networks Oy | Codage de la parole |
US8036886B2 (en) * | 2006-12-22 | 2011-10-11 | Digital Voice Systems, Inc. | Estimation of pulsed speech model parameters |
US11270714B2 (en) | 2020-01-08 | 2022-03-08 | Digital Voice Systems, Inc. | Speech coding using time-varying interpolation |
GB2596821A (en) | 2020-07-07 | 2022-01-12 | Validsoft Ltd | Computer-generated speech detection |
US11990144B2 (en) | 2021-07-28 | 2024-05-21 | Digital Voice Systems, Inc. | Reducing perceived effects of non-voice data in digital speech |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4133976A (en) * | 1978-04-07 | 1979-01-09 | Bell Telephone Laboratories, Incorporated | Predictive speech signal coding with reduced noise effects |
US4472832A (en) * | 1981-12-01 | 1984-09-18 | At&T Bell Laboratories | Digital speech coder |
US4720861A (en) * | 1985-12-24 | 1988-01-19 | Itt Defense Communications A Division Of Itt Corporation | Digital speech coding circuit |
-
1985
- 1985-03-22 FR FR8504304A patent/FR2579356B1/fr not_active Expired
-
1986
- 1986-03-18 CA CA000504346A patent/CA1241117A/fr not_active Expired
- 1986-03-19 DK DK126986A patent/DK126986A/da not_active Application Discontinuation
- 1986-03-20 EP EP86103770A patent/EP0195441B1/fr not_active Expired - Lifetime
- 1986-03-20 DE DE8686103770T patent/DE3670712D1/de not_active Expired - Lifetime
- 1986-03-24 US US06/843,487 patent/US4847905A/en not_active Expired - Fee Related
Non-Patent Citations (2)
Title |
---|
ICASSP 84 PROCEEDINGS, 19-21 mars 1984, San Diego, California, IEEE Acoustics, Speech, and Signal Processing Society, vol. 1 des 3, pages 10.1.1 - 10.1.4, New York, US; M.BEROUTI et al.: "Efficient computation and encoding of the multipulse excitation for LPC" * |
THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, vol. 74, supplement 1, 1983, page S51, no. 2:41(BB9), New York, US; S.SINGHAL: "Optimizing pulse amplitudes in multipulse excitation" * |
Also Published As
Publication number | Publication date |
---|---|
DK126986A (da) | 1986-09-23 |
CA1241117A (fr) | 1988-08-23 |
US4847905A (en) | 1989-07-11 |
EP0195441A1 (fr) | 1986-09-24 |
DE3670712D1 (de) | 1990-05-31 |
EP0195441B1 (fr) | 1990-04-25 |
DK126986D0 (da) | 1986-03-19 |
FR2579356B1 (fr) | 1987-05-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FR2517452A1 (fr) | Circuit de traitement numerique de la parole | |
EP1316087B1 (fr) | Dissimulation d'erreurs de transmission dans un signal audio | |
EP0195441B1 (fr) | Procédé de codage à faible débit de la parole à signal multi-impulsionnel d'excitation | |
CA2182386C (fr) | Procede de codage de parole a prediction lineaire et excitation par codes algebriques | |
EP1994531A2 (fr) | Codage/decodage perfectionnes d'un signal audionumerique, en technique celp | |
EP0139803A1 (fr) | Procédé de reconstitution d'informations perdues dans un système de transmission numérique de la voix et système de transmission utilisant ledit procédé | |
EP0428445B1 (fr) | Procédé et dispositif de codage de filtres prédicteurs de vocodeurs très bas débit | |
WO1996021220A1 (fr) | Procede de codage de parole a analyse par synthese | |
EP2080194B1 (fr) | Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information | |
FR2690551A1 (fr) | Procédé de quantification d'un filtre prédicteur pour vocodeur à très faible débit. | |
FR2784218A1 (fr) | Procede de codage de la parole a bas debit | |
JP2004163959A (ja) | 汎用AbS音声符号化方法及びそのような方法を用いた符号化装置 | |
EP0685833B1 (fr) | Procédé de codage de parole à prédiction linéaire | |
FR2702075A1 (fr) | Procédé de génération d'un filtre de pondération spectrale du bruit dans un codeur de la parole. | |
EP1875465A1 (fr) | Procede d'adaptation pour une interoperabilite entre modeles de correlation a cout terme de signaux numeriques | |
FR2510288A1 (fr) | Procede et dispositif de generation de bruits sous-marins, en particulier pour la simulation de bruits sonar | |
EP2589045B1 (fr) | Codage/décodage prédictif linéaire adaptatif | |
NO862602L (no) | Vocoder innebygd i digitale signalbehandlingsenheter. | |
EP1192619B1 (fr) | Codage et decodage audio par interpolation | |
FR2632758A1 (fr) | Procede de codage et codeur de parole a prediction lineaire | |
EP1192618B1 (fr) | Codage audio avec liftrage adaptif | |
EP1192621B1 (fr) | Codage audio avec composants harmoniques | |
WO2002029786A1 (fr) | Procede et dispositif de codage segmental d'un signal audio | |
CA2079884A1 (fr) | Procede et dispositif de codage bas debit de la parole | |
Moreau | Predictive speech coding at low bit rates: a unified approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |