[go: up one dir, main page]

FR2911426A1 - Modification d'un signal de parole - Google Patents

Modification d'un signal de parole Download PDF

Info

Publication number
FR2911426A1
FR2911426A1 FR0700257A FR0700257A FR2911426A1 FR 2911426 A1 FR2911426 A1 FR 2911426A1 FR 0700257 A FR0700257 A FR 0700257A FR 0700257 A FR0700257 A FR 0700257A FR 2911426 A1 FR2911426 A1 FR 2911426A1
Authority
FR
France
Prior art keywords
residue
modification
envelope
modified
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
FR0700257A
Other languages
English (en)
Inventor
Olivier Rosec
Damien Vincent
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Priority to FR0700257A priority Critical patent/FR2911426A1/fr
Priority to DE602008000802T priority patent/DE602008000802D1/de
Priority to AT08100453T priority patent/ATE461514T1/de
Priority to EP08100453A priority patent/EP1944755B1/fr
Priority to US12/007,798 priority patent/US20080208599A1/en
Publication of FR2911426A1 publication Critical patent/FR2911426A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Oscillators With Electromechanical Resonators (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Ce procédé de modification des caractéristiques acoustiques d'un signal de parole comporte :- une décomposition (12) du signal en une partie paramétrique et un résidu non paramétrique ;- une estimation (14) de l'enveloppe temporelle du résidu ;- une modification (22) de caractéristiques acoustiques de la partie paramétrique et du résidu selon des consignes de modification ;- une détermination (30), selon lesdites consignes de modification, d'une nouvelle enveloppe temporelle pour le résidu modifié ; et- une synthèse (40) d'un signal de parole modifié à partir de la partie paramétrique modifiée et du résidu tel que modifié et avec la nouvelle enveloppe temporelle.

Description

MODIFICATION D'UN SIGNAL DE PAROLE
La présente invention concerne la modification de la parole et plus particulièrement, la modification des paramètres acoustiques de signaux de parole décomposés en une partie paramétrique et une partie non paramétrique. Il est connu de décomposer les signaux de parole selon des modèles dits filtre û excitation . Dans ces modèles, la parole est considérée comme une excitation glottique transformée par un filtre représentant le canal vocal.
L'excitation est obtenue par un filtrage inverse du signal de parole. Elle comprend parfois une partie qui est également paramétrique et un résidu. Le résidu correspond à la différence entre l'excitation et la modélisation paramétrique correspondante. Lors de la modification des signaux de parole, les informations de 15 fréquence, de rythme ou de timbre sont modifiées par le biais des paramètres du modèle. Toutefois, ces modifications entraînent des distorsions audibles, notamment du fait d'un manque de contrôle de la cohérence temporelle, en particulier lors des modifications de fréquence fondamentale ou de timbre. 20 Par exemple, le document "Applying the Harmonic plus Noise Mode/ in concatenative speech synthesis", IEEE Transactions on Speech and Audio Processing, vol. 9 (1), pp. 21-29, January 2001 de Y. Stylianou, prévoit d'utiliser un modèle harmonique plus bruit, ou modèle HNM, avec une modulation temporelle de la partie bruitée de façon à ce qu'elle s'intègre de 25 manière naturelle à la partie déterministe. Cependant, cette méthode ne préserve pas la cohérence temporelle de la partie déterministe. Une autre approche consiste à disposer d'un modèle de la source glottique suffisamment compact pour que l'allure clu signal glottique puisse être maîtrisée lors de modifications du signal. Une telle approche est décrite par 30 exemple dans le document "Toward a high-quality singing synthesizer with vocal texture control", Stanford University, 2002 de H. L. Lu. Néanmoins, un tel modèle ne capture pas toute l'information du signal glottique. Une information résiduelle doit être conservée et sa modification soulève le problème de manque de cohérence temporelle évoqué plus haut.
Dans le document "Time-scale modification of compiex acoustic signais", ICASSP 1993, vol. 1, pp. 213-216, 1993 de T. F. Quatieri, R. B. Dunn and T. E. Hanna, il est proposé une méthode de modification de signaux de parole visant à préserver à la fois l'enveloppe spectrale et l'enveloppe temporelle. Cette méthode est appliquée uniquement à la modification de la durée de signaux acoustiques et n'est pas pratique dans la mesure où il n'est théoriquement pas possible de garantir l'existence d'une solution satisfaisant simultanément à ces deux propriétés. De surcroît, il n'existe pas de résultat de convergence de l'algorithme proposé et par conséquent, cette méthode ne permet pas d'avoir un contrôle suffisant sur les caractéristiques du signal résultant. Ainsi, il n'existe pas de technique permettant de modifier les signaux de parole tout en assurant une bonne cohérence au niveau temporel. Un des objectifs de la présente invention est de permettre une telle 15 modification. A cet effet, la présente invention a pour objet un procédé de modification des caractéristiques acoustiques d'un signal de parole, caractérisé en ce qu'il comporte : -une décomposition du signal en une partie paramétrique et un résidu 20 non paramétrique ; une estimation de l'enveloppe temporelle du résidu ; une modification de caractéristiques acoustiques de la partie paramétrique et du résidu selon des consignes de modification ; - une détermination, selon lesdites consignes de modification, d'une 25 nouvelle enveloppe temporelle pour le résidu modifié ; et - une synthèse d'un signal de parole modifié à partir de la partie paramétrique modifiée et du résidu tel que modifié et avec la nouvelle enveloppe temporelle. Grâce au traitement spécifique effectué sur les caractéristiques 30 temporelles du résidu, la cohérence temporelle du signal modifié est améliorée. Dans un mode de réalisation de l'invention, ladite décomposition du signal est une décomposition selon un modèle de type excitation û filtre. Une telle décomposition permet d'obteniir un résidu correspondant à une excitation glottique.
Avantageusement, l'estimation de l'enveloppe temporelle du résidu comprend l'estimation d'une première enveloppe, puis un lissage temporel de cette première enveloppe. Ce mode de réalisation permet d'obtenir une meilleure estimation de l'enveloppe temporelle.
Dans un mode de réalisation particulier, le procédé comprend en outre une normalisation temporelle du résidu en fonction de l'estimation de l'enveloppe temporelle. Ceci permet d'obtenir une expression du résidu sensiblement indépendante de ses caractéristiques temporelles. Dans un mode de réalisation particulier, la normalisation temporelle du résidu comprend la division du résidu par l'estimation de l'enveloppe temporelle. Dans un autre mode de réalisation, la détermination d'une nouvelle enveloppe temporelle pour le résidu comprend une modification de paramètres de l'enveloppe temporelle du résidu selon lesdites consignes de modification et une application de l'enveloppe temporelle modifiée au résidu normalisé. Dans un mode de réalisation, l'estimation de l'enveloppe temporelle et la détermination d'une nouvelle enveloppe temporelle sont confondues. Avantageusement, la modification de caractéristiques acoustiques comprend une modification d'informations de fréquence fondamentale et de durée de la partie paramétrique et du résidu. En outre, l'invention porte également sur un programme de mise en oeuvre du procédé décrit précédemment et un dispositif correspondant. L'invention sera mieux comprise à la lumière de la description faite à titre d'exemple et en référence aux figures sur lesquelles : - la figure 1 représente de manière générale un organigramme du procédé de l'invention ; et - les figures 2A à 2D représentent différents stades de traitement d'un signal de parole. Le procédé représenté en référence à la figure 1 débute par une étape 10 d'analyse du signal de parole qui comprend une décomposition 12 selon un modèle excitation - filtre, c'est-à-dire une décomposition du signal de parole en une partie paramétrique et une partie non paramétrique, appelée résidu et correspondant à une partie de l'excitation glottique. Une pratique courante pour la mise en oeuvre de l'étape 12 est l'utilisation de techniques de prédiction linéaire telles que celles décrites dans le document de J. Makhoul, "Linear Prediction: a tutorial review", Proceedings of the IEEE, vol. 63(4), pp. 561-580, April 1975.
Dans le mode de réalisation décrit en exemple, la décomposition 12 du signal de parole s(n) est réalisée à l'aide d'une auto-régression, ou modèle AR, de la forme suivante : n s(n) = ~~aks(nùk)+ e(n). k=P
Dans cette équation, les termes ak désignent les coefficients d'un filtre de type AR modélisant le conduit vocal et le terme e(n) est le signal résiduel relatif à la partie excitation, avec n un indice de trame de signal. Notons que si l'ordre du modèle est suffisamment grand alors e(n) n'est pas corrélé à s(n).
Cela s'écrit formellement E[e(n)s(n-m)]=0 pour tout entier m, où E[.] désigne l'espérance mathématique.
En pratique, des ordres typiques de 10 et de 16 sont choisis pour des signaux de parole échantillonnés respectivement à 8 et 16 kHz.
En multipliant l'équation précédente à gauche et à droite par s(n-m) et en passant à l'espérance mathématique, on aboutit aux équations de Yule-Walker définies par :
p r(m)= akr(m ù k) k=1 où r est la fonction d'autocorrélation définie par : r(m) = E[s(n)s(n-m)]. Un estimateur de r(m) est donné par : 1 N-p r(m) _ ù Es(n)s(n ù m) . N -- p n=, En pratique, seules les p+1 premières valeurs de la fonction d'autocorrélation sont nécessaires pour l'estimation des coefficients de filtrage ak. L'expression de cette dernière équation sous forme matricielle conduit à la résolution du système linéaire suivant : r(0) r(1) r(pù1) r(1) r(0) ... r(pù2) r(pù1) r(pù2) r(0) az Ainsi, l'estimation des coefficients revient à l'inversion d'une matrice de Toeplitz, ce qui peut être réalisé à l'aide de procédures classiques et notamment à l'aide de l'algorithme décrit par J. Durbin, "The fitting of time- series models", Rev. Inst. Int. Statistics.
En variante, la décomposition 12 permet d'obtenir, pour l'excitation, un modèle paramétrique en sus du réslidu.
Par exemple, la décomposition excitation - filtre est réalisée en utilisant une information a priori sur l'excitation. Ainsi, l'excitation peut être modélisée en intégrant des informations liées au processus de production de la parole, notamment via un modèle paramétrique de la dérivée de l'onde de débit glottique (DODG), tel que par exemple le modèle LF proposé par Liljencrants et Fant dans "A four-parameter mode/ of glottal flow", STL-QPSR, vol. 4, pp. 1-13, 1985. Ce modèle est entièrement défini par la donnée de la période fondamentale TO, de trois paramètres de forme qui sont un quotient ouvert de périodes, un coefficient d'asymétrie et un coefficient de phase de retour, d'un paramètre de position correspondant à l'instant de fermeture de glotte et d'un terme bo caractérisant l'amplitude de la DODG.
Dans ce contexte, le signal de parole peut être représenté par le modèle 20 d'auto-régression exogène ARX-LF suivant : r s(n) _ aks(n ù k)+ bou(n) + e(n) k=1
où u(n) désigne le signal correspondant au modèle LF de la DODG.
L'estimation simultanée des paramètres de la DODG et des paramètres liés au filtre est délicate, notamment parce que l'optimisation selon les
25 paramètres de forme et de position est un problème non linéaire. Toutefois, lorsque TO et u sont fixés, l'optimisation selon les paramètres ak et bo est un problème linéaire classique, pour lequel un estimateur des moindres carrés peut être obtenu analytiquement. Sur la base de constat, une méthode efficace a été proposée par D. Vincent, O. Rosec, et T. Chonavel, dans la publication "Estimation of LF glottal source parameters based on ARX model", Interspeech'05, pp. 333-336, Lisbonne, Portugal, 2005. Dans ce mode de réalisation, à l'issue de la procédure d'estimation, le procédé délivre : - des paramètres caractérisant complètement la DODG selon le modèle LF ; - des paramètres de filtre ak - le résidu e(n) correspondant à l'erreur de modélisation liée au modèle ARX-LF. De manière générale, à l'issue de l'étape 12, le procédé délivre une modélisation du signal de parole s(n) sous la forme d'une partie paramétrique et d'un résidu qui est non paramétrique. L'étape d'analyse 10 comprend ensuite une estimation 14 de l'enveloppe temporelle du résidu. Dans le mode de réalisation décrit, l'enveloppe temporelle est définie comme le module du signal analytique et est obtenue par une transformation dite de Hilbert. Ainsi, l'enveloppe temporelle d(t) du résidu e(t) s'écrit : d(t) = xe (t) avec xe (t) = e(t) + iFI (e(t)) , où H désigne l'opération de transformation de Hilbert. Avantageusement, l'estimation 14 comprend un lissage de l'enveloppe temporelle du résidu. Cela procure une meilleure estimation notamment pour des sons voisés pour lesquels l'enveloppe est périodique de période To, avec To désignant l'inverse de la fréquence fondamentale fo. Par exemple, une modélisation cepstrale d'ordre K de l'enveloppe peut être utilisée. Celle-ci s'écrit sous la forme : K ln(d(n)) = 1 klKek exp(2i,nfo / f. ) + e(n) 2 =- L'estimation des coefficients cepstraux ck se fait alors par minimisation de E(n) au sens des moindres carrés. Plus précisément, l'équation précédente s'écrit sous la forme matricielle suivante : d=Mc+c, avec d = 2 [ln(d(ù N)), • • •, ln(d (N))]r Mn+(N+I),k+(K+I) = exp(2i, nf0//s), et nE {ùN,•••,N}, kE {ùK,•••,K} c= ]r Dans ces équations, l'exposant T représente l'opérateur de transposition. La solution optimale au sens des moindres carrés est alors c = (1NIHM) `MHd où H désigne l'opérateur de transposition hermitienne. L'enveloppe correspondante s'écrit de la façon suivante : d(n) = exp/ 1 `> cexp(2in fo ifs f \ 2 k= k o Une fois l'enveloppe temporelle du résidu estimée, le procédé comprend une étape 16 de normalisation temporelle du résidu. Dans ce document, normalisation temporelle signifie obtention d'un résidu sensiblement invariant au niveau temporel, plus précisément, obtention d'un résidu dont l'enveloppe temporelle est constante. Dans le mode de réalisation décrit, l'étape 16 est mise en oeuvre en divisant le résidu par l'expression de l'enveloppe temporelle selon l'équation suivante : é(n)= d((n). d(n) En parallèle de l'analyse 10, le procédé comprend une étape 18 de détermination de consignes de modification du signal de parole. Ces consignes peuvent être de deux types. Dans un premier cas, une cible a été définie pour chacun des paramètres à modifier. Cela est notamment le cas en synthèse de la parole où de nombreux algorithmes de prédiction de la durée, de la fréquence fondamentale ou encore de l'énergie des signaux existent. Par exemple, des valeurs de fréquence fondamentale et d'énergie peuvent être estimées pour le début et la fin de chaque syllabe ou encore de chaque phonème de l'énoncé. De même, la durée de chaque syllabe ou de chaque phonème peut être
prédite. Etant donné ces cibles numériques et le signal de parole, des coefficients de modification peuvent être obtenus en faisant le rapport entre la mesure effectuée sur le signal et la valeur de la cible prédite correspondante. Dans un deuxième cas, de telles cibles ne sont pas disponibles, mais il est possible de définir un ensemble de coefficients de modification pour la modification des paramètres désirés. Par exemple, un coefficient de modification de fréquence fondamentale de 0,5 permet de diviser par 2 la hauteur de voix perçue. Notons que ces coefficients de modification peuvent être définis de manière globale sur l'ensemble de l'énoncé ou de façon plus locale, par exemple à l'échelle d'une syllabe ou d'un mot. Le procédé comprend ensuite une étape 20 de modification du signal de parole s(n) selon les consignes déterminées précédemment. Les modifications opérées concernent la fréquence fondamentale, la durée et l'énergie des signaux de parole. En outre, lorsqu'une analyse utilisant une DODG est mise en oeuvre étant donné qu'une décomposition de type source-filtre est disponible, des modifications des paramètres de la qualité vocale peuvent être opérées en altérant le quotient ouvert, le coefficient d'asymétrie, ou encore le coefficient de phase de retour. L'étape 20 de modification comprend tout d'abord urge modification 22 20 de la partie paramétrique du modèle correspondant au signal de parole et du résidu normalisé. Dans le mode de réalisations décrit, cette modification vise la fréquence fondamentale ainsi que la durée et est mise en oeuvre de manière classique avec une technique connue sous le nom de TD-PSOLA (en anglais Time 25 Domain Pitch Synchronous Overiap and Add) telle que décrite dans la publication "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995 par E. Moulines et J. Laroche. Cette technique permet d'opérer conjointement la modification de la 30 durée et de la fréquence fondamentale avec les coefficients respectifs a(t) et Q(t). En référence aux figures 2A à 2D, les principales étapes du fonctionnement de la technique TD-PSOLA sont illustrées.
La figure 2A représente le signal de parole à modifier s(n). Au cours d'une étape 24, ce signal est segmenté en trames de manière dite pitchsynchrone, c'est-à-dire que chaque segment a une durée correspondant à l'inverse de la fréquence fondamentale du signal.
En effet, les instants de fermeture de glotte, aussi appelés instants d'analyse, sont situés au voisinage des maxima d'énergie dru signal de parole et le traitement TD-PSOLA permet une bonne préservation des caractéristiques du signal de parole au voisinage des extrémités des segments obtenus par analyse pitch-synchrone. Ainsi, lorsque ces instants sont repérés avec une précision satisfaisante, les performances de TD-PSOLA sont optimisées. Une telle segmentation pitch-synchrone est obtenue, par exemple, par des techniques à base de délais de groupe ou encore à partir de la méthode proposée par D. Vincent, O. Rosec, et T. Chonavel, dans la publication "Glottal closure instant estimation using an appropriateness measure of the source and continuity contraints", IEEE ICASSP'06, vol. 1, pp. 381-384, Toulouse, France, Mai 2006. Avantageusement, cette étape de marquage pitch-synchrone est réalisée hors-ligne, c'est-à-dire non en temps réel,, ce qui permet de réduire la charge de calcul pour une mise en œuvre en temps réel.
En fonction des facteurs de modification souhaités pour la fréquence fondamentale et la durée, les instants séparant les segments sont modifiés selon les règles suivantes: pour un allongement de durée, certains segments sont dupliqués afin d'augmenter artificiellement le nombre d'impulsions glottiques ; pour une réduction de la durée, certains segments sont supprimés ; pour une augmentation de la fréquence fondamentale, c'est-à-dire un rendu plus aigu, les instants d'analyse sont rapprochés, ce qui nécessite éventuellement la duplication de segments pour conserver la durée totale ; et pour une diminution de la fréquence fondamentale, c'est-à-dire un rendu plus grave, les instants d'analyse sont écartés, ce qui nécessite éventuellement la suppression de segments pour conserver la durée totale.
Une description détaillée de ces règles se trouve dans la publication "Non-parametric techniques for pitch-scale and time-scale modification of speech", Speech Communication, vol. 16, pp. 175-205, 1995 par E. Moulines et J. Laroche.
A l'issue de cette étape, le signal comprend un nombre entier de segments ou trames, chacun d'une durée correspondant à une période qui est l'inverse de la fréquence fondamentale modifiée, comme cela est représenté sur la figure 2B. Le traitement de modification comprend ensuite un fenêtrage 26 du signal autour des instants d'analyse, c'est-à-dire des instants séparant les segments. Au cours de ce fenêtrage, on sélectionne, pour chaque instant d'analyse, une portion du signal fenêtrée autour de cet instant. Cette portion de signal est appelée "signal court-terme" et s'étend, dans l'exemple, sur une durée correspondant à deux fois Ila période fondamentale modifiée comme représenté en référence à la figure 2C. Le traitement de modification comprend enfin une sommation 28 des signaux court-terme qui sont recentrés sur les instants de synthèse et ajoutés comme représenté en référence à la figure 2D. En variante, l'étape 22 est réalisée avec une technique de type HNM (en anglais Harmonic plus Noise M'odel), ou de type vocodeur de phase. Les modifications de fréquence fondamentale et de durée peuvent également être réalisées par des techniques différentes. Dans la suite, le résidu normalisé modifié, c'est-à-dire le résidu normalisé dont les informations de fréquence fondamentale et/ou de durée ont été modifiées, est noté é "' " (n) . Le procédé comprend ensuite une étape 30 de modification de l'enveloppe temporelle du résidu. Plus précisément, cette étape permet de substituer aux caractéristiques temporelles d'origine du résidu, des caractéristiques temporelles en accord avec les modifications souhaitées.
L'étape 30 débute par une détermination 32 de nouvelles caractéristiques temporelles du résidu. Dans l'exemple, il s'agit de la modification de l'enveloppe temporelle du résidu, telle qu'obtenue à l'issue de l'étape 14.
Comme indiqué précédemment, en considérant une trame pitchsynchrone du signal, deux types de modifications peuvent être opérées conjointement ou non :
- une modification de la fréquence fondamentale ; et - une modification des paramètres liés à la qualité vocale.
La modification de la fréquence fondamentale consiste en une modification de l'enveloppe temporelle pour la rendre cohérente avec le résidu normalisé dont la fréquence fondamentale a été préalablement modifiée.
Un mode de réalisation d'une telle modification consiste en une dilatation/contraction de l'enveloppe temporelle originale a(n) afin d'en préserver la forme générale. Etant donné la valeur de fréquence fondamentale modifiée fom dr l'enveloppe temporelle modifiée d"'"'f s'écrit alors de la manière suivante : / dm df (n) = exp 1 ,> ck exp(2izkn fo' d'f ~/ ) \ 2 k=--K Lorsque des modifications des paramètres liés à la qualité vocale sont opérées, la forme de l'enveloppe temporelle doit être modifiée. Par exemple, lorsque des modifications du coefficient ouvert sont opérées, il convient d'appliquer des facteurs de dilatation/contraction différents sur respectivement les parties ouvertes et fermées du cycle glottique.
Par exemple, on effectue une modification du quotient ouvert de sorte que la durée de la phase ouverte devienne T ''f avec T'n d=' < To, avec To qui est la longueur d'un cycle glottique dont l'instant de fermeture coïncide avec l'origine des temps et une phase ouverte originale de durée Te. Dans ce cas, pour conserver la même période fondamentale, il convient de dilater le signal selon les coefficients suivants : T ùT mod_f a, = T _T pour la phase fermée ; e 7_. modo' a2 = `T pour la phase ouverte. Te Mathématiquement, cela revient à déterminer une enveloppe temporelle de la forme suivante : K d "' ''f (t) = exp/ 2 ck exp(2i,cg(t/To "`''f )) , k--K où la fonction g est définie par : To e ù r:"d,f t To ù Te
ù Tmodo' To T mäd,/ + . (t ù (To ù T )) pour t E [To ù , To J e Bien entendu, d'autres types de modification de paramètres de la qualité vocale sont possibles selon des principes similaires. L'étape 30 comprend ensuite une détermination 34 du nouveau résidu. Dans l'exemple, ce nouveau résidu s'obtient par multiplication du résidu é mod'f (n) par l'enveloppe modifiée d `""d'f Le résidu d'origine a donc été normalisé, modifié, puis combiné avec la nouvelle enveloppe temporelle. Ceci permet d'assurer la cohérence de son enveloppe temporelle avec les modifications de fréquence fondamentale et/ou de qualité vocale. Dans le mode de réalisation décrit, l'excitation est confondue avec le résidu, ce qui correspond au cas où le résidu est obtenu par simple filtrage linéaire inverse et où l'excitation ne comporte par de partie paramétrique. Dans le cas où l'excitation est composée d'une source glottique modélisable par un modèle paramétrique et d'un résidu, il convient d'opérer le même type de modification sur la source glottique ainsi pararnétrée en ajustant les paramètres de fréquence fondamentale et de qualité vocale.
Le procédé comporte enfin une étape 40 de synthèse du signal modifié. Cette synthèse consiste en un filtrage du signal obtenu à l'issue de l'étape 20 par le filtre du conduit vocal tel que défini lors de l'étape 12. L'étape 40 comprend également une addition - recouvrement des trames ainsi filtrées. Cette étape de synthèse est classique et ne sera pas décrite lplus en détails ici.
Ainsi, le traitement spécifique de l'enveloppe temporelle du résidu permet d'obtenir une modification assurant une bonne cohérence temporelle. Bien entendu, d'autres modes de réalisation peuvent être envisagés. Tout d'abord, le résidu peut être décomposé en sous-bandes. Dans ce cas, les étapes 14, 16 et 20 sont réalisées sur tout ou partie des sous-bandes pourtE [O,7ô ùTe] g(t) =
considérées séparément. Le résidu final obtenu est alors la somme des résidus modifiés issus des différentes sous-bandes. En outre, le résidu peut faire l'objet d'une décomposition en une partie déterministe et une partie stochastique. Dans ce cas, les étapes 14, 16 et 20 sont réalisées pour chacune des parties considérées. Là encore, le résidu final obtenu est alors la somme des composantes déterministes et stochastiques modifiées. En outre, ces deux variantes peuvent être combinées, de sorte qu'un traitement séparé sur chaque sous-bande et pour chacune des composantes déterministe et stochastique peut être effectué. Dans un autre mode de réalisation, les différentes étapes de l'invention peuvent être réalisées dans un ordre différent. Par exemple, l'enveloppe temporelle est modifiée avant que les modifications ne soient faites sur le signal. Ainsi, les modifications sont apportées sur le résidu avec sa nouvelle enveloppe temporelle et non sur le résidu normalisé comme dans l'exemple décrit précédemment. Selon un autre mode de réalisation, les étapes de normalisation du résidu et de détermination de nouvelles caractéristiques temporelles sont combinées. Dans un tel mode de réalisation, le résidu est directement modifié par un facteur temporel déterminé à partir de son enveloppe temporelle et des consignes de modification. Ce facteur temporel permet à la fois de supprimer la dépendance du résidu avec ses caractéristiques temporelles d'origine et d'appliquer de nouvelles caractéristiques temporelles. Par ailleurs, l'invention peut être mise en oeuvre par un programme contenant des instructions spécifiques qui, lorsqu'elles sont exécutées par un calculateur, entraînent la réalisation des étapes décrites précédemment. L'invention peut également être mise en oeuvre par un dispositif comportant des moyens appropriés, tels que des microprocesseurs, microcalculateurs et mémoires associées, ou encore des composants électroniques programmés. Un tel dispositif peut être adapté pour mettre en oeuvre n'importe quel mode de réalisation du procédé décrit précédemment.

Claims (11)

REVENDICATIONS
1. Procédé de modification des caractéristiques acoustiques d'un signal de parole (s(n)) caractérisé en ce qu'il comporte : - une décomposition (12) du signal en une partie paramétrique et un résidu non paramétrique (e(n)) ; une estimation (14) de l'enveloppe temporelle du résidu ; - une modification (22) de caractéristiques acoustiques de la partie paramétrique et du résidu selon des consignes de modification ; - une détermination (30), selon lesdites consignes de modification, d'une nouvelle enveloppe temporelle pour le résidu modifié ; et - une synthèse (40) d'un signal de parole modifié à partir de la partie paramétrique modifiée et du résidu tel que modifié et avec la nouvelle enveloppe temporelle.
2. Procédé selon la revendication 1, caractérisé en ce que ladite décomposition du signal est une décomposition selon un modèle de type excitation û filtre.
3. Procédé selon l'une quelconque des revendications 1 et 2, caractérisé en ce que l'estimation de l'enveloppe temporelle du résidu comprend l'estimation d'une première enveloppe puis un lissage temporel de cette première enveloppe.
4. Procédé selon l'une quelconque des revendications 1 à 3, caractérisé en ce qu'il comprend en outre une normalisation temporelle (16) du résidu en fonction de l'estimation de l'enveloppe temporelle.
5. Procédé selon la revendication 4, caractérisé en ce que la normalisation temporelle du résidu comprend la division du résidu par l'estimation de l'enveloppe temporelle.
6. Procédé selon l'une quelconque des revendications 1 à 5, caractérisé en ce que la détermination d'une nouvelle enveloppe temporellepour le résidu comprend une modification (32) de paramètres de l'enveloppe temporelle du résidu selon lesdites consignes de modification et une application (34) de l'enveloppe temporelle modifiée au résidu normalisé.
7. Procédé selon l'une quelconque des revendications 1 et 5, caractérisé en ce que l'estimation de l'enveloppe temporelle et la détermination d'une nouvelle enveloppe temporelle sont confondues.
8. Procédé selon l'une quelconque des revendications 1 à 7, caractérisé en ce que la modification de caractéristiques acoustiques comprend une modification d'informations de fréquence fondamentale et de durée de la partie paramétrique et dru résidu.
9. Programme pour un dispositif de modification d'un signal de parole (s(n)), caractérisé en ce qu'il comporte des instructions qui, lorsqu'elles sont exécutées sur un calculateur de ce dispositif, entraînent la mise en oeuvre d'un procédé selon l'une quelconque des revendications 1 à 8.
10. Dispositif de modification d'un signal de parole, caractérisé en ce qu'il comporte : - des moyens de décomposition du signal en une partie paramétrique et un résidu non paramétrique (e(n)) ; - des moyens d'estimation de l'enveloppe temporelle du résidu ; - des moyens de modification de caractéristiques acoustiques de la partie paramétrique et du résidu selon des consignes de modification ; - des moyens de détermination, selon lesdites consignes de modification, d'une nouvelle enveloppe temporelle pour le résidu modifié ; et - des moyens de synthèse d'un signal de parole modifié à partir de la partie paramétrique modifiée et du résidu tel que modifié et avec la nouvelle enveloppe temporelle.
11. Dispositif selon la revendication 10, caractérisé en ce qu'il comporte des moyens aptes à la mise en oeuvre d'un procédé selon l'une quelconque des revendications 2 à 8.5
FR0700257A 2007-01-15 2007-01-15 Modification d'un signal de parole Withdrawn FR2911426A1 (fr)

Priority Applications (5)

Application Number Priority Date Filing Date Title
FR0700257A FR2911426A1 (fr) 2007-01-15 2007-01-15 Modification d'un signal de parole
DE602008000802T DE602008000802D1 (de) 2007-01-15 2008-01-14 Veränderung eines Wortsignals
AT08100453T ATE461514T1 (de) 2007-01-15 2008-01-14 Veränderung eines wortsignals
EP08100453A EP1944755B1 (fr) 2007-01-15 2008-01-14 Modification d'un signal de parole
US12/007,798 US20080208599A1 (en) 2007-01-15 2008-01-15 Modifying a speech signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR0700257A FR2911426A1 (fr) 2007-01-15 2007-01-15 Modification d'un signal de parole

Publications (1)

Publication Number Publication Date
FR2911426A1 true FR2911426A1 (fr) 2008-07-18

Family

ID=38232910

Family Applications (1)

Application Number Title Priority Date Filing Date
FR0700257A Withdrawn FR2911426A1 (fr) 2007-01-15 2007-01-15 Modification d'un signal de parole

Country Status (5)

Country Link
US (1) US20080208599A1 (fr)
EP (1) EP1944755B1 (fr)
AT (1) ATE461514T1 (fr)
DE (1) DE602008000802D1 (fr)
FR (1) FR2911426A1 (fr)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4246792B2 (ja) * 2007-05-14 2009-04-02 パナソニック株式会社 声質変換装置および声質変換方法
US9502073B2 (en) * 2010-03-08 2016-11-22 Magisto Ltd. System and method for semi-automatic video editing
US9554111B2 (en) 2010-03-08 2017-01-24 Magisto Ltd. System and method for semi-automatic video editing
US9189137B2 (en) 2010-03-08 2015-11-17 Magisto Ltd. Method and system for browsing, searching and sharing of personal video by a non-parametric approach
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
BR112012029132B1 (pt) 2011-02-14 2021-10-05 Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V Representação de sinal de informações utilizando transformada sobreposta
EP2661745B1 (fr) 2011-02-14 2015-04-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Appareil et procédé pour la dissimulation d'erreur en codage vocal et audio unifié (usac) à faible retard
EP3471092B1 (fr) 2011-02-14 2020-07-08 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Décodage des positions des impulsions des voies d'un signal audio
JP5969513B2 (ja) 2011-02-14 2016-08-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 不活性相の間のノイズ合成を用いるオーディオコーデック
KR101525185B1 (ko) 2011-02-14 2015-06-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법
ES2681429T3 (es) * 2011-02-14 2018-09-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Generación de ruido en códecs de audio
MX2013009344A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral.
AU2012217153B2 (en) 2011-02-14 2015-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
US9508329B2 (en) * 2012-11-20 2016-11-29 Huawei Technologies Co., Ltd. Method for producing audio file and terminal device
CN111798831B (zh) * 2020-06-16 2023-11-28 武汉理工大学 一种声音粒子合成方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996016533A2 (fr) * 1994-11-25 1996-06-06 Fink Fleming K Procede destine a transformer un signal vocal au moyen d'un manipulateur de hauteur
WO2006106466A1 (fr) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Procede et processeur de signaux permettant de modifier des signaux audio

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US7394833B2 (en) * 2003-02-11 2008-07-01 Nokia Corporation Method and apparatus for reducing synchronization delay in packet switched voice terminals using speech decoder modification
CN100508030C (zh) * 2003-06-30 2009-07-01 皇家飞利浦电子股份有限公司 一种编码/解码音频信号的方法及相应设备
GB0326263D0 (en) * 2003-11-11 2003-12-17 Nokia Corp Speech codecs
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1996016533A2 (fr) * 1994-11-25 1996-06-06 Fink Fleming K Procede destine a transformer un signal vocal au moyen d'un manipulateur de hauteur
WO2006106466A1 (fr) * 2005-04-07 2006-10-12 Koninklijke Philips Electronics N.V. Procede et processeur de signaux permettant de modifier des signaux audio

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAMIEN VINCENT: "Analyse et contrôle du signal glottique en synthèse de la parole.", 15 January 2007, ENST BRETAGNE ET UNIVERSTITÉ DE RENNES 1, RENNES, FRANCE, XP002442389 *
VINCENT D ET AL: "A new method for speech synthesis and transformation based on an ARX-LF source-filter decomposition and HNM modeling", 2007 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, 15 April 2007 (2007-04-15) - 20 April 2007 (2007-04-20), HONOLULU, HI, USA, pages IV - 525, XP002442991, ISBN: 1-4244-0727-3 *
YANNIS STYLIANOU: "Applying the Harmonic Plus Noise Model in Concatenative Speech Synthesis", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, IEEE SERVICE CENTER, NEW YORK, NY, US, vol. 9, no. 1, January 2001 (2001-01-01), XP011054068, ISSN: 1063-6676 *

Also Published As

Publication number Publication date
US20080208599A1 (en) 2008-08-28
EP1944755B1 (fr) 2010-03-17
EP1944755A1 (fr) 2008-07-16
DE602008000802D1 (de) 2010-04-29
ATE461514T1 (de) 2010-04-15

Similar Documents

Publication Publication Date Title
EP1944755B1 (fr) Modification d&#39;un signal de parole
DK2579249T3 (en) PARAMETER SPEECH SYNTHESIS PROCEDURE AND SYSTEM
BE1005622A3 (fr) Methodes de codage de segments du discours et de reglage du pas pour des systemes de synthese de la parole.
EP1970894A1 (fr) Procédé et dispositif de modification d&#39;un signal audio
EP1593116B1 (fr) Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d&#39;effets spéciaux et dispositif pour la mise en oeuvre dudit procédé
CA2909401C (fr) Correction de perte de trame par injection de bruit pondere
EP1730729A1 (fr) Procede et systeme ameliores de conversion d&#39;un signal vocal
EP0195441B1 (fr) Procédé de codage à faible débit de la parole à signal multi-impulsionnel d&#39;excitation
EP1730728A1 (fr) Procede et systeme de conversion rapides d&#39;un signal vocal
EP1606792B1 (fr) Procede d analyse d informations de frequence fondament ale et procede et systeme de conversion de voix mettant en oeuvre un tel procede d analyse
EP1526508A1 (fr) Procédé de sélection d&#39;unités de synthèse
EP3175443A1 (fr) Détermination d&#39;un budget de codage d&#39;une trame de transition lpd/fd
EP3138095B1 (fr) Correction de perte de trame perfectionnée avec information de voisement
Cavaliere et al. Granular synthesis of musical signals
EP1895433A1 (fr) Procédé d&#39;estimation de phase pour la modélisation sinusoidale d&#39;un signal numérique
EP1846918B1 (fr) Procede d&#39;estimation d&#39;une fonction de conversion de voix
FR2910996A1 (fr) Codage d&#39;unites acoustiques par interpolation
Kawahara et al. Spectral envelope recovery beyond the nyquist limit for high-quality manipulation of speech sounds.
EP1192618B1 (fr) Codage audio avec liftrage adaptif
FR2823361A1 (fr) Procede et dispositif d&#39;extraction acoustique d&#39;un signal vocal
FR2796189A1 (fr) Procedes et dispositifs de codage et de decodage audio
FR2796190A1 (fr) Procede et dispositif de codage audio
EP1192620A1 (fr) Codage et decodage audio incluant des composantes non harmoniques du signal
EP1194923A1 (fr) Procedes et dispositifs d&#39;analyse et de synthese audio

Legal Events

Date Code Title Description
ST Notification of lapse

Effective date: 20081029