CA1324670C - Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde - Google Patents
Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'ondeInfo
- Publication number
- CA1324670C CA1324670C CA000610127A CA610127A CA1324670C CA 1324670 C CA1324670 C CA 1324670C CA 000610127 A CA000610127 A CA 000610127A CA 610127 A CA610127 A CA 610127A CA 1324670 C CA1324670 C CA 1324670C
- Authority
- CA
- Canada
- Prior art keywords
- phoneme
- window
- synthesis
- period
- diphones
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000002194 synthesizing effect Effects 0.000 title 1
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 58
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 23
- 230000004044 response Effects 0.000 claims abstract description 9
- 210000001260 vocal cord Anatomy 0.000 claims abstract description 7
- 230000005284 excitation Effects 0.000 claims abstract description 4
- 238000001914 filtration Methods 0.000 claims abstract 8
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 4
- 230000007704 transition Effects 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000003340 mental effect Effects 0.000 claims description 2
- 150000001768 cations Chemical class 0.000 claims 3
- 238000001308 synthesis method Methods 0.000 claims 1
- 230000001755 vocal effect Effects 0.000 abstract description 7
- 230000003247 decreasing effect Effects 0.000 abstract description 4
- 238000001228 spectrum Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 8
- 206010011878 Deafness Diseases 0.000 description 7
- 230000004048 modification Effects 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 230000005428 wave function Effects 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 241001163743 Perlodes Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- DUUCJSJYISFGCI-WBPXWQEISA-N (2r,3r)-2,3-dihydroxybutanedioic acid;2-(dimethylamino)ethanol Chemical compound CN(C)CCO.OC(=O)[C@H](O)[C@@H](O)C(O)=O.OC(=O)[C@H](O)[C@@H](O)C(O)=O DUUCJSJYISFGCI-WBPXWQEISA-N 0.000 description 1
- 101100166829 Mus musculus Cenpk gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde. La synthèse de parole est effectuée à partir d'éléments tels que des diphones. On effectue, au moins sur les sons voisés des éléments sonores, une analyse par fenêtrage sensiblement centrée sur le début de chaque réponse impulsionnelle du conduit vocal l'excitation des cordes vocales à l'aide d'une fenêtre de filtrage présentant une amplitude décroissant jusqu'à zéro aux bords de la fenêtre de largeur au moins égale à deux fois la période fondamentale d'origine ou deux fois la période fondamentale de synthèse, on replace les signaux résultant du fenêtrage correspondant à chaque élément sonore, avec un décalage temporel de ceux-ci égal à la période fondamentale de synthèse, inférieure ou supérieure à la période fondamentale d'origine, suivant l'information prosodique concernant la fréquence de synthèse, on effectue la synthèse par sommation des signaux ainsi décalés.
Description
~ 3 ~ ~t ~ r~
''. '. .
Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde.
L'invention concerne les proc~dés et dispositifs de synthèse de la parole ; elle concerne, plus particu-lièrement, la synthèse à partir d'un dictionnaire d'éléments sonores par découpage du texte ~ synth~tiser en microtrames identifiées chacune par un numéro d'ordre d'élément sonore correspondant et par des paramètres 10 prosodiques (information de hauteur de son au d~but et à ~ -la fin de l'élément sonore et durée de l'élément sono-re), puis par adaptation et concaténation des éléments ~- -sonores par une procédure d'addition-recouvrement. ~ -Les éléments sonores stockés dans le diction-nalre seront fréquemmen~ des diphones, c'est-à-dire des transitions entre phonèmes, ce qul permet, pour la langue françalse, de se contenter d'un dlctionnaire d'environ 1300 él~ments sonores ; on peut cependant utiliser des éléments sonores diff~rents, par exemple des syllabes ou même des mots. Les paramètres prosodi-ques sont détermlnés en fonction de critères portant sur le contexte : la hauteur de son qui correspond à
l'intonation, dépend de l'emplacement de l'élément sonors dans un mot et dans la phrase et la durée donnée à l'élément sonore est fonction du rythme de la phrase.
Il faut rappeler au passage que les méthodes de synthèse de la parole se subdivisent en deux groupes.
Celles qui utilisent un modèle mathématique du conduit vocal (synthèse par prédictlon llnéalre, synthèse à
formants et synthèse à transformée de Fourier raplde) font intervenir une déconvolution de la source et de la fonctlon de transfert du condult vocal et exlgent en géneral une cinquantaine d'opérations arlthmétiques par échantillon numérique de la parole avant conversion numérique-analogique et restitution.
~ .
~ 3 ~ F,~
Cette déconvolution source-conduit vocal permet d'une part ~a modification de la valeur de la fréquence fondamentale des sons voisés, c'est-~-dire des sons qui ont une structure harmonique et sont provoqués par vibration des cordes vocales, et d'autre part la com-pression des données représentant le signal de parole.
Celles qui appartiennent au second groupe de procédés utillsent la synthèse dans le domaine temporel par concaténatlon de formes d'onde. Cette solutlon a l'avantage de la flexiblllté d'emploi et de la possi-blllté de rédulre consldérablement le nombre d'opéra-tlons arithmétlques par échantlllons. En contrepartie, ells ne permet pas de rédulre le débit nécessaire à la transmission autant que les m~thodes basées sur un modèle mathématique. Mais cet lnconvénient dlsparait lorsqu'on recherche essentiellement une bonne qualité de restltution sans être gêné par la nécessité de trans-mettre des données sur un canal étroit.
La synthège de parole suivant la présente lnvention appartlent au second groupe. Elle trouve une appllcatlon partlcullèrement lmportante dans le domaine de la transformatlon d'une chaIne orthographlque (cons-tltu~e par exemple p~r le texte fournl par une lmpri-mante) en un signal de parole, par exemple restitué
dlrectement ou émis sur une llgne téléphonique normale.
On connait dé~à (Dlphone synthesis using an overlap-add technlque for speech waveforms concatenatlon, CHARPENTIER et al, ICASSP 1986, IEEE-IECEJ-ASJ Internatlonal Conference on Acoustlcs Speech and Slgnal Processlng, pages 2 015-2 018)un procédé de synthèse de parole à partlr d'éléments sonores utlllsant une technlque d'addltion-recouvrement de slgnaux ~ court-terme. Mals 11 s'aglt de slgnaux à
court-terme de synthese, avec normallsation du recouvrement de8 fenetre8 de ~ynthese, obtenu8 par un processus tres complexe :
''''''~''''''. '"''.''' ''.',' ,....
i J 3 - analyse du signal original par fenêtrage synchrone du voisement ;
- transfGrmée de Fourier du signal à court-terme ;
- d~etection d'enveloppe ;
- homothétie de l'axe fréquentiel sur le spectre de la source ;
- pondération du spectre modifié de la source par l'enveloppe du signal d'origine ;
- transform~e de Fourier inverse.
La présente invention vise notamment à fournir un procédé relativement simple et permettant une reproduction acceptable de la parole. Elle part de ~- ' l'hypothèse qu'on peut considérer les sons voisés comme la somme des réponses impulsionnelles d'un filtre, stationnaire durant plusieurs millisecondes, (correspondant au conduit vocal) excit~ par une suite de Dirac, c'est-à-dire par un "peigne d'impulsions", de façon synchrone de la fréquence fondamentale de la source, c'est-à-dire des cordes vocales, ce qui se traduit dans le domaine spectral par un spectre harmonique, les harmoniques étant espacés de la fréquence fondamentale et pondérés par une enveloppe pré8entant des maxima appelés formants, dépendant de la fonction de transfert du conduit vocal.
On a dé~à proposé (Micro-phonemic method of speech synthesis, Lucaszewic et al, ICASSP 1987, IEEE, pa~es 1426-1429) d'effectuer une synthèse de parole où
la diminution de la fréquence fondamentale des sons voisés, lorsqu'elle est nécessaire pour respecter des données prosodlques, est effectuée par lnsertion de zéros, les microphonèmes stockés devant alors obliga-toirement correspondre à la hauteur maximale posslble du son à restituer, ou bien (brevet US 4 692 941) de dlminuer de la meme manlère par lnsertlon de zéros la frequence fondamentale, et d'augmenter celle-ci en dimlnuant la tallle de chaque perlode. Ces deux méthodes ".': ' -:, '.,: .
" ' . ' ' ' . . ', ' ' ', ' ., '', ' ,' " , ' ' " ' . ' ' ' . ."j '' ' 1 ~, ' ' ' ,., , , , ,. - .. , . ~ ., . .,~,.. ..... , , ; . ,, :. .: .. .. ~ . -:
1 ~ 2 ~ (~ rl ~
introduisent sur le signal de parole des distorsions non négligeables lors de la modification de la fréquence fondamentale.
La présente invention vise à fournir un procédé
et un dispositif de synthèse à concait~nation de formes d'onde ne présentant pas la limitation ci-dessus et permettant de fournir une parole de bonne gualité, tout en ne n~cessitant qu'un faible volume de calculs arithmétiques.
Dans ce but, l'lnvention propose notamment un procédé caractérisé en ce que :
- on effectue, au moins sur les sons vo~sés des éléments sonores, un fenêtrage centré sur le début de chaque réponse $mpulsionnelle du conduit vocal à
l'excitation des cordes vocales (ce début pouvant être mémorisé dans un dictionnaire) à l'aide d'une fenêtre présentant un maximum pour ledit début et une amplitude décroissant ~usqu'à zéro au bord de la fenêtre, et - on replace les signaux fenêtrés correspondant à chaque élément sonore avec un décalage temporel égal à
la période fondamentale de synthèse à obtenir, inférieur ou supérieur à la période fondamentale d'origine suivant l'information prosodique de hauteur de la fréquence fon-damentale et on effectue une sommation de ces signaux.
Ces opératlons constltuent la procédure de re-couvrement puis addltion des formes d'onde élémentaires obtenues par fenêtrage du slgnal de parole.
En général, on utilisera des éléments sonores constitués par des diphones.
La largeur de la fenêtre peut varier entre des valeurs inf~rieures et supérieures à deux fois la pé-riode d'origine. Dans 1' xPmple de mise en oeuvre qui sera décrit plus loln, la largeur de la fenêtre est cholsle avantageusement égale à environ deux fols la pérlode d'origlne en cas d'augmentation de la période fondamentale ou environ deux fols la pérlode flnale de ~ 3 ~
synthèse en cas d'augmentation de la fréquence fondamen-tale, afin de compenser partiellement les modifications d'énergie dues au changement de la fréquence fondamen-tale, non compensées par une normalisation possible de l'éne-gie, tenant compte de la contribution de chaque fenêtre à l'amplitude des échantillons du signal numérique de synthèse : dans le cas d'une diminution de la période fondamentale, la largeur de la fenêtre sera donc inférieure à deux fois la période fondamentale d'origine. Il est peu souhaitable de descendre au dessous de cette valeur.
Du fait qu'll est posslble de modlfier la valeur de la frequence fondamentale dans les deux sens, les dlphones sont mémorlsés avec la fréquence fondamentale naturelle du locuteur.
Avec une fenêtre de durée égale à deux périodes fondamentales consécutives dans le cas volsé, on obtient des formes d'onde élémentalres dont le spectre représen-te senslblement l'enveloppe du spectre du slgnal de parole ou spectre à court terme large bande -du fait que ce spectre est obtenu par convolution du spectre harmo-nique du signal de parole et de la réponse fréquentielle de la fenêtre, qul dans ce cas possède une largeur de bande supérieure a la distance entre harmonlques- ; la redlstrlbutLon temporelle de ces formes d'onde élémen-taires donnera un signal pogsédant sensiblement la même enveloppe que le slgnal d'orlglne mais une dlstance entre harmoniques modifiée.
Avec une fenêtre de durée supérieure ~ deux pé-riodes fondamentales, on obtient des formes d'ondeélémentaires dont le spectre est encore harmonlque, ou spectre à court terme bande étrolte -du falt que cette fois~cl la réponse fréquentlelle de la fenêtre est moins large que la distance entre harmoniques- ; la redistri-bution temporelle de ces formes d'onde élémentairesdonnera un slgnal possédant, comme le slgnal de synthèse - - : :-, - - : - . . - :. - . ,: ~. .. . - . , ... - - . . . -: :: , ...
pr~cédent, sensiblement la même enveloppe que le si~nal d'origine à ceci près qu'on aura introduit des termes de réverbération (signaux dont le spectre possède une amplitude moindre, une phase différente, mais la même forme que le spectre d'amplitude du signal d'origine), dont l'effet ne sera audible qu'au deli~ de largeurs de fenêtre d'environ trois périodes, cet effet de réverbé-ration ne dégradant pas la qualité du signal de synth~se lorsque son amplitude est faible.
On peut notamment utiliser une fen~tre de Han-ning, bien que d'autres formes de fenêtre soient éga-lement acceptables.
Le traitement défini ci-dessus peut ~galement être appliqué aux sons dits sourds ou non vois~s, pou-vant être repré~entés par un signal dont la formes'apparente a celle d'un bruit blanc, mai~ sans synchronisation des signaux fenêtrés : ceci a pour but d'homogénéiser le traitement sur les sons sourds et les sons voisés, ce qui permet d'une part le lissage entre éléments sonores (diphones) et entre phonèmes sourds et voisés, et d'autre part une modification du rythme. Il se pose un problème a la ~onction entre diphone~. Une solution pour écarter cette difficulté conslste à
omettre l'extraction de formes d'onde élémentaires partlr de~ deux périodes fondamentales ad~acentes de transltion entre dlphones (dans le cas des sons sourds, les marques de volsement sont remplacées par des marques posées arbltrairement) : on pourra soit définir une trolslème fonction d'onde élementaire en calculant la moyenne des deux fonctlons d'onde elémentaires extraltes de part et d'autre du dlphone, solt utlllser la procé-dure d'addltlon-recouvrement directement sur ce~ deux fonctlons d'onde élémentalres.
L'lnventlon sera mieux comprise à la lecture de la descriptlon qui suit d'un mode particuller de mlse en oeuvre de l'invention, donné à titre d'exemple non l32~r~a 7 . .
limitatif. La description se réfère aux dessins qui l'accompagnent, dans lesquels :
- la Figure 1 est un graphe destiné à illustrer la synthèse de la parole par concaténation de diphones et modification des paramètres prosodiques dans le domaine temporel, conform~ment à l'invention ; .: .
- la Figure 2 est un schéma synoptique montrant ~ ;
une constitution possible du dispositif de synthèse, implanté sur un calculateur hôte ;
- la Figure 3 montre, à titre d'exemple, comment on modifie les paramètres prosodiques d'un signal natu-rel, dans le cas d'un phonème particuller ; ~ -- les Figures 4A, 4B et 4C sont des graphiques . ~-destlnés a montrer des modificatlons spectrales appor-tées à des signaux de synthèse voisés, la Figure 4A
montrant le spectre d'origine, la Figure 4B le spectre .:
avec dlminutlon de la fréquence fondamentale et la . .
Figure 4C le spectre avec augmentation de cette fréquence ;
- la Flgure 5 est un graphlque montrant un prin-clpe d'atténuatlon des dlscontinuités entre dlphones ;
- la Flgure 6 est un schéma montrant le fenetrage sur plus de deux pérlode~.
La synthèse d'un phonème est effectuée ~ partir de deux diphone8 8tockés dans un dictionnaire, chaque phonème étant composé de deux deml-dlphones. Le son "é" ~ -dans "pérlode~ par exemple sera obtenu à partlr du ~-second deml-dlphone de ~pai" et du premier deml-diphone de "alr~. ~
Un module de traductlon orthographlque phoné-::
tlque et de calcul de la prosodle (qul ne falt pas .
partle de l'lnventlon) fournit ~ un ln~tant donné, des - -lndlcatlons identlflant - le phonème ~ restltuer, d'ordre P ~ ~
35 - le phoneme précédent, d'ordre P-l - :
- le phonème sulvant, d'ordre P~
' et donnant la durée à affecter au phonème P ainsi que les p~riodes au début et à la fin (Flgure 1).
Une première opératlon d'analyse, qui n'est pas modlfiée par l'invention, consiste a déterminer, par décodage du nom des phonemes et des indications proso-diques, les deux diphones retenus pour le phonème ~
utiliser et le voisement.
Tous les diphones disponibles (au nombre de 1300 par exemple) sont mémorisés dans un dictionnaire 10 muni d'une table constituant le descripteur 12 et contenant l'adresse du début de chaque diphone (en nombre de blocs de 256 octets) la longueur du diphone et le milieu du dlphone (ces deux derniers parametres ~tant exprimés en nombre d'échantillons à partir du début) et des marques de voisement repérant le début de la r~ponse du conduit vocal à l'excltation des cordes vocales dans le cas d'un son voisé (au nombre de 35 par exemple). Des diction-naires de diphones répondant à ces critères sont dispo-nibles par exemple aupres du Centre National d'Etudes des Télécommunications.
Les diphones sont alors utilisés dans un processus d'analyse et de synthèse schématisé sur la Figure l. On décrira ce processus en supposant qu'il est mls en oeuvre dan8 un dl8posltlf de synthèse ayant la constitution montrée en flguse 2, destiné à être relié à
un calculateur hOte, tel que le processeur central d'un ordinateur personnel. On supposera également que la fréquence d'échantillonnage donnant la représentation des diphones est de 16 kHz.
Le dispositlf de synthèse (Figure 2) comporte alors une mémoire vlve prlncipale 16 qui contient un micro-programme de calcul, le dictionnaire de diphones 10 (c'est-~-dire des formes d'onde représentées par des echantlllon~) ranges dans l'ordre des adresses du descrlpteur, la table 12 constituant le descripteur de dlctlonnalre, et une fenetre de Hannlng, échantlllonnée ' ~ 3 ~ 3 - ~
g : -, par exemple sur 500 points. La mémolre vive 16 constitue également mémoire de micro-trame et mémoire de travail.
Elle est reliée par un bus de données 18 et un bus d'adresses 20 à un accès 22 au calculateur h~te.
Chaque micro-trame émise pour restituer un phonème (Figure 2) est constituée, pour chacun des deux phonèmes P et P+l qui interviennent - du numéro d'ordre du phonème, - de la valeur de la période au début du phonème, de la valeur de période à la fin du phonème, et - de la durée totale du phon~me pouvant ~tre remplacée par la durée du diphone pour le s~cond phonème.
Le dispositif comprend encore, reli~s aux bus 18 et 20, une unité de calcul locale 24 et un circuit d'a$guillage 26. Ce dernier permet de relier une mémoire vive 28 servant de tampon de sortie solt vers le calcu-lateur, soit vers un controleur 30 de convertisseur numérique/analogique 32 de sortie. Ce dernier attaque un filtre passe-bas 34, généralement limité à 8 kHz, qui alimente un amplificateur de parole 36.
Le fonctionnement du dispositif est le suivant.
Le calculateur hôte (non représenté) charge les micro-trames dan~ le tableau réservé en mémoire 16, par l'lntermédlalre de l'accès 22 st des bus 18 et 20, puis 11 commande le début de synthèse à l'unité de calcul 24.
Cette unité de calcul recherche le numéro du phon~me courant P, du phonème suivant P+l et du phonème précé-dent P-l dans le tableau de micro-trames, à l'aide d'un index mémorisé dans la mémoire de travail, initialisée à
1. Dans le cas du premier phonème, l'unité de calcul vlent chercher uniquement les numéros du phonème courant ~- -et du phonème suivant. Dans le cas du dernier phonème, elle vlant chercher le numéro du phonème précédent et 35 celul du phonème courant. -Dans le cas général, un phonème est constitué de ~ -" .' k -~ 3 2 f ~
' deux demi-diphones ; l'adresse de chaque diphone est recherch~e par adressage matriciel dans le descripteur ' du dictionnaire par la formule suivante :
5 numéro du descripteur de diphone ~ -num~ro du ler phonème+ (numéro du 2ème phonème-l)*nombre ~-de diphones Sons voisés L'unité de calcul charge, en mémoire de travail 16, l'adresse du diphone, sa longueur, son milieu ainsi que les trente-clnq marques de voisement. Elle charge ensuite, dans un tableau descripteur du phonème, les marques de voisement correspondant à la deuxième partie du diphone. Puis elle recherche, dans le dictionnaire de formes d'onde, la deuxième partie du diphone, qu'elle place dans un tableau représentant le signal du phon~me d'analyse. Les marques conservées dans le tableau descrlpteur du phonème sont décrémentées de la valeur du milieu du diphone. -Cette opération est répétée pour la deuxième partle du phon~me constituée par la première partie du deuxième diphone. Les marques de voisement de la première partle du deuxième diphone sont a~outées aux marques de volsement du phonème et incrémentées de la valeur du mllleu du phonème.
Dans le cas des sons voisés, l'unité de calcul, à partlr des paramètres prosodique~ (durée, période début et période fin du phonème) détermine alors le nombre de pérlodes nécessaire à la durée du phonème, suivant la formule : '' nombre de périodss~2*durée du phonème / (période d~butlpériode fin) , : - ,, . .. : : ,,, ., .. , ~ ",: : ': j , . . .. ., ! .
?.. t~ i rl t~
L'unité de calcul range en mémoire le nombre de marques du phonème naturel, égal au nombre de marques de voisement, puis détermine le nombre de périodes à
éliminer ou à aJouter en effectuant la différence entre le nombre de périodes de synthèse et le nombre de périodes d'analyse, différence qui est fixée par la modif~cation de tonalité à introduire à partir de celle qui correspond au dictionnaire.
Pour chaque période de synthèse retenue, l'unit~
de calcul détermine ensuite la période d'analyse retenue parmi les périodes du phonème à partir des considéra-tions suivantes ~
- la modification de la durée peut être considérée comme la mise en correspondance, par déformation de l'axe des tempC du signal de synthèse, des n marques de voisement du signal d'analyse et des p marques du signal de synthèse, n et p étant des entiers prédé-terminés ;
- ~ chacune des p marques du signal de synthèse doit etre associée la marque la plus proche du signal d'analyse.
La duplication ou, au contraire, l'éllmination de pérlodes également réparties sur tout le phonème modifie la durée de celui-ci.
Il faut noter qu'on n'aura pas à extra~re une forme d'onde élémentaire à partir des deux périodes adJacentes de transition entre diphones : llopération d'addltlon-recouvrement des fonctions elémentaires extraites des deux dernlères périodes du premler dlphone et des deux premières périodes du deuxième dlphone permet le lissage entre ces diphones comme le montre la figure 5.
~ 3 ~ r! 3 12 ::
Pour chaque période de synthèse, l'unité de calcul détermine le nombre de points ~ a~outer ou ~
supprimer à la période d'analyse en effectuant la différence entre cette dernière et la pérlode de synthèse.
Comme on l'a indiqué plus haut, il est avanta-geux de choisir la largeur de la fenêtre d'analyse de la façon suivante, illustrée en Figure 3 :
10 - 8i la période de synthèse est inférieure à la période d'analyse (lignes A et B de la Figure 3), la tallle de la fenêtre 38 est le double de la période de synthèse ;
: ,: ,.'.' - dans le cas contraire, la taille de la fenêtre 40 est obtenue en multipliant par deux la plus faible des valeurs de la période d'analyse courante et de la période d'analyse précédente (lignes C et D). ;
L'unité de calcul détermine un pas d'avancement dans la lecture des valeurs de la fenêtre, tabulée par exemple sur 500 points, le pas étant alors égal à 500 divisé par la taille de la fenêtre précédemment calculée. Elle lit dans la mémoire tampon de signal du phonème d'analyse 28 les échantillons de la période précédente et de la periode courante, les pondère par la valeur de la fenêtre de Hanning 38 ou 40 indexée par le numero de l'échantillon courant multiplié par le pas d'avancement dans la fenêtre tabulée et a~oute, au fur et à me8ure, les valeurs calculées à la mémoire tampon du signal de sortie indexé par la somme du compteur de l'échantillon courant de sortie et de l'index de recherche des échantillons du phoneme d'analyse. Le compteur de sortle courant est ensuite incremente de la valeur de la période de synthese.
~ ~ 2 l . i ' Sons sourds (non voisés) :
Pour les phonèmes sourds, le traitement est analogue au précédent, excepte que la valeur des --pseudo-périodes (distance entre deux marques de voisement) n'est ~amais modi~iée : l'élimination de pseudo-périodes au centre du phonème diminue simplemen~
la durée de celui-ci.
On n'augmente pas la durée de phonèmes sourds, excepté par addition de z~ros au milieu des phonèmes ~sllence".
Le fenêtrage s'effectue par p~riode pour norma- - -llser la somme des valeurs des fenêtres appliqu~es au signal :
- du début de la période précédente à la fin de la période précédente, le pas d'avancement dans la lecture de la fenêtre tabulée est (dans le cas d'une tabulation sur 500 points) égal à 500 divisé par deux fois la durée de la période précédente ;
- du début de la période- courante à la fin de la période courante, le pas d'avancement dans la fenêtre tabulée est égal à 500 divlsé par deux fois la durée de la p~riode courante plus un décalage constant de 250 points, A la fin du calcul du signal d'un phonème de synthèse, l'unité de calcul range la dernière période du phonème d'analyse et de synthèse dans la mémoire tampon 28 qui permet la transition entre phonèmes. Le compteur de l'échantlllon courant de sortie est décrémenté de la ~-valeur de la dernière période de synthèse.
Le signal ainsi généré est envoyé, par blocs de 2048 échantlllons, dans un de deux espaces mémoire reserves à la communication entre l'unit~ de calcul et ~32 !3,~
1 4 . .
le contrôleur 30 du convertisseur numérique/analogique 32. Dès que le premier bloc est charg~ dans la première zone tampon, le contrôleur 30 est activé par l'unité de calcul et vide cette première zone tampon. Pendant ce temps, l'unité de calcul remplit une deuxième zone tampon de 2048 échantillons. L'unité de calcul vient ~ -ensuite alternativement tester ces deux zones tampons grâce à un drapeau pour y char~er le signal numérique de synthèse à la fin de chaque séquence de synthèse d'un phonème. Le contrôleur 30, en fin de lecture de chaque zone tampon, positiQnne le drapeau correspondant. En fin de synthèse, le contr~leur vide la derni~re zone tampon et positionne un drapeau de fin de synthèse que le cal-culateur hôte peut lire via l'accès de communication 22.
15L'exemple de spectre de si~nal de parole voisé -d'analyse et de synthèse illustré en Figures 4A-4C -montre que les transformations temporelles du signal numérique de parole n'affectent pas l'enveloppe du signal de synthèse, tout en modifiant la distance entre harmoniqùes, c'est-à-dire la fréquence fondamentale du signal de parole.
La complexlté du calcul reste faible : le nombre d'opératlons par échantillon est en moyenne de deux multiplicatlons et deux addltlons pour la pondératlon et la 80mmatlon de8 fonctlons él~mentalres fournies par l'analyse.
L'invention est susceptible de nombreuses varlantes de réalisation et, en particulier, comme on l'a lndiqué plus haut, une fenêtre de largeur supérieure à deux periodes, comme le montre la Figure 6, éventuel-lement de tallle flxe, peut donner des résultats acceptables.
On peut aussl utiliser le proc~dé de modlflca-tlon de la fréquence fondamentale sur des slgnaux numerlques de parole en dehors de son appllcatlon a la synthase par dlphones.
: ' ,,, .. " , i ... , . ,, ,. . ,, ., . ,,, ,, . .,, . ~, .. .
''. '. .
Procédé et dispositif de synthèse de la parole par addition-recouvrement de formes d'onde.
L'invention concerne les proc~dés et dispositifs de synthèse de la parole ; elle concerne, plus particu-lièrement, la synthèse à partir d'un dictionnaire d'éléments sonores par découpage du texte ~ synth~tiser en microtrames identifiées chacune par un numéro d'ordre d'élément sonore correspondant et par des paramètres 10 prosodiques (information de hauteur de son au d~but et à ~ -la fin de l'élément sonore et durée de l'élément sono-re), puis par adaptation et concaténation des éléments ~- -sonores par une procédure d'addition-recouvrement. ~ -Les éléments sonores stockés dans le diction-nalre seront fréquemmen~ des diphones, c'est-à-dire des transitions entre phonèmes, ce qul permet, pour la langue françalse, de se contenter d'un dlctionnaire d'environ 1300 él~ments sonores ; on peut cependant utiliser des éléments sonores diff~rents, par exemple des syllabes ou même des mots. Les paramètres prosodi-ques sont détermlnés en fonction de critères portant sur le contexte : la hauteur de son qui correspond à
l'intonation, dépend de l'emplacement de l'élément sonors dans un mot et dans la phrase et la durée donnée à l'élément sonore est fonction du rythme de la phrase.
Il faut rappeler au passage que les méthodes de synthèse de la parole se subdivisent en deux groupes.
Celles qui utilisent un modèle mathématique du conduit vocal (synthèse par prédictlon llnéalre, synthèse à
formants et synthèse à transformée de Fourier raplde) font intervenir une déconvolution de la source et de la fonctlon de transfert du condult vocal et exlgent en géneral une cinquantaine d'opérations arlthmétiques par échantillon numérique de la parole avant conversion numérique-analogique et restitution.
~ .
~ 3 ~ F,~
Cette déconvolution source-conduit vocal permet d'une part ~a modification de la valeur de la fréquence fondamentale des sons voisés, c'est-~-dire des sons qui ont une structure harmonique et sont provoqués par vibration des cordes vocales, et d'autre part la com-pression des données représentant le signal de parole.
Celles qui appartiennent au second groupe de procédés utillsent la synthèse dans le domaine temporel par concaténatlon de formes d'onde. Cette solutlon a l'avantage de la flexiblllté d'emploi et de la possi-blllté de rédulre consldérablement le nombre d'opéra-tlons arithmétlques par échantlllons. En contrepartie, ells ne permet pas de rédulre le débit nécessaire à la transmission autant que les m~thodes basées sur un modèle mathématique. Mais cet lnconvénient dlsparait lorsqu'on recherche essentiellement une bonne qualité de restltution sans être gêné par la nécessité de trans-mettre des données sur un canal étroit.
La synthège de parole suivant la présente lnvention appartlent au second groupe. Elle trouve une appllcatlon partlcullèrement lmportante dans le domaine de la transformatlon d'une chaIne orthographlque (cons-tltu~e par exemple p~r le texte fournl par une lmpri-mante) en un signal de parole, par exemple restitué
dlrectement ou émis sur une llgne téléphonique normale.
On connait dé~à (Dlphone synthesis using an overlap-add technlque for speech waveforms concatenatlon, CHARPENTIER et al, ICASSP 1986, IEEE-IECEJ-ASJ Internatlonal Conference on Acoustlcs Speech and Slgnal Processlng, pages 2 015-2 018)un procédé de synthèse de parole à partlr d'éléments sonores utlllsant une technlque d'addltion-recouvrement de slgnaux ~ court-terme. Mals 11 s'aglt de slgnaux à
court-terme de synthese, avec normallsation du recouvrement de8 fenetre8 de ~ynthese, obtenu8 par un processus tres complexe :
''''''~''''''. '"''.''' ''.',' ,....
i J 3 - analyse du signal original par fenêtrage synchrone du voisement ;
- transfGrmée de Fourier du signal à court-terme ;
- d~etection d'enveloppe ;
- homothétie de l'axe fréquentiel sur le spectre de la source ;
- pondération du spectre modifié de la source par l'enveloppe du signal d'origine ;
- transform~e de Fourier inverse.
La présente invention vise notamment à fournir un procédé relativement simple et permettant une reproduction acceptable de la parole. Elle part de ~- ' l'hypothèse qu'on peut considérer les sons voisés comme la somme des réponses impulsionnelles d'un filtre, stationnaire durant plusieurs millisecondes, (correspondant au conduit vocal) excit~ par une suite de Dirac, c'est-à-dire par un "peigne d'impulsions", de façon synchrone de la fréquence fondamentale de la source, c'est-à-dire des cordes vocales, ce qui se traduit dans le domaine spectral par un spectre harmonique, les harmoniques étant espacés de la fréquence fondamentale et pondérés par une enveloppe pré8entant des maxima appelés formants, dépendant de la fonction de transfert du conduit vocal.
On a dé~à proposé (Micro-phonemic method of speech synthesis, Lucaszewic et al, ICASSP 1987, IEEE, pa~es 1426-1429) d'effectuer une synthèse de parole où
la diminution de la fréquence fondamentale des sons voisés, lorsqu'elle est nécessaire pour respecter des données prosodlques, est effectuée par lnsertion de zéros, les microphonèmes stockés devant alors obliga-toirement correspondre à la hauteur maximale posslble du son à restituer, ou bien (brevet US 4 692 941) de dlminuer de la meme manlère par lnsertlon de zéros la frequence fondamentale, et d'augmenter celle-ci en dimlnuant la tallle de chaque perlode. Ces deux méthodes ".': ' -:, '.,: .
" ' . ' ' ' . . ', ' ' ', ' ., '', ' ,' " , ' ' " ' . ' ' ' . ."j '' ' 1 ~, ' ' ' ,., , , , ,. - .. , . ~ ., . .,~,.. ..... , , ; . ,, :. .: .. .. ~ . -:
1 ~ 2 ~ (~ rl ~
introduisent sur le signal de parole des distorsions non négligeables lors de la modification de la fréquence fondamentale.
La présente invention vise à fournir un procédé
et un dispositif de synthèse à concait~nation de formes d'onde ne présentant pas la limitation ci-dessus et permettant de fournir une parole de bonne gualité, tout en ne n~cessitant qu'un faible volume de calculs arithmétiques.
Dans ce but, l'lnvention propose notamment un procédé caractérisé en ce que :
- on effectue, au moins sur les sons vo~sés des éléments sonores, un fenêtrage centré sur le début de chaque réponse $mpulsionnelle du conduit vocal à
l'excitation des cordes vocales (ce début pouvant être mémorisé dans un dictionnaire) à l'aide d'une fenêtre présentant un maximum pour ledit début et une amplitude décroissant ~usqu'à zéro au bord de la fenêtre, et - on replace les signaux fenêtrés correspondant à chaque élément sonore avec un décalage temporel égal à
la période fondamentale de synthèse à obtenir, inférieur ou supérieur à la période fondamentale d'origine suivant l'information prosodique de hauteur de la fréquence fon-damentale et on effectue une sommation de ces signaux.
Ces opératlons constltuent la procédure de re-couvrement puis addltion des formes d'onde élémentaires obtenues par fenêtrage du slgnal de parole.
En général, on utilisera des éléments sonores constitués par des diphones.
La largeur de la fenêtre peut varier entre des valeurs inf~rieures et supérieures à deux fois la pé-riode d'origine. Dans 1' xPmple de mise en oeuvre qui sera décrit plus loln, la largeur de la fenêtre est cholsle avantageusement égale à environ deux fols la pérlode d'origlne en cas d'augmentation de la période fondamentale ou environ deux fols la pérlode flnale de ~ 3 ~
synthèse en cas d'augmentation de la fréquence fondamen-tale, afin de compenser partiellement les modifications d'énergie dues au changement de la fréquence fondamen-tale, non compensées par une normalisation possible de l'éne-gie, tenant compte de la contribution de chaque fenêtre à l'amplitude des échantillons du signal numérique de synthèse : dans le cas d'une diminution de la période fondamentale, la largeur de la fenêtre sera donc inférieure à deux fois la période fondamentale d'origine. Il est peu souhaitable de descendre au dessous de cette valeur.
Du fait qu'll est posslble de modlfier la valeur de la frequence fondamentale dans les deux sens, les dlphones sont mémorlsés avec la fréquence fondamentale naturelle du locuteur.
Avec une fenêtre de durée égale à deux périodes fondamentales consécutives dans le cas volsé, on obtient des formes d'onde élémentalres dont le spectre représen-te senslblement l'enveloppe du spectre du slgnal de parole ou spectre à court terme large bande -du fait que ce spectre est obtenu par convolution du spectre harmo-nique du signal de parole et de la réponse fréquentielle de la fenêtre, qul dans ce cas possède une largeur de bande supérieure a la distance entre harmonlques- ; la redlstrlbutLon temporelle de ces formes d'onde élémen-taires donnera un signal pogsédant sensiblement la même enveloppe que le slgnal d'orlglne mais une dlstance entre harmoniques modifiée.
Avec une fenêtre de durée supérieure ~ deux pé-riodes fondamentales, on obtient des formes d'ondeélémentaires dont le spectre est encore harmonlque, ou spectre à court terme bande étrolte -du falt que cette fois~cl la réponse fréquentlelle de la fenêtre est moins large que la distance entre harmoniques- ; la redistri-bution temporelle de ces formes d'onde élémentairesdonnera un slgnal possédant, comme le slgnal de synthèse - - : :-, - - : - . . - :. - . ,: ~. .. . - . , ... - - . . . -: :: , ...
pr~cédent, sensiblement la même enveloppe que le si~nal d'origine à ceci près qu'on aura introduit des termes de réverbération (signaux dont le spectre possède une amplitude moindre, une phase différente, mais la même forme que le spectre d'amplitude du signal d'origine), dont l'effet ne sera audible qu'au deli~ de largeurs de fenêtre d'environ trois périodes, cet effet de réverbé-ration ne dégradant pas la qualité du signal de synth~se lorsque son amplitude est faible.
On peut notamment utiliser une fen~tre de Han-ning, bien que d'autres formes de fenêtre soient éga-lement acceptables.
Le traitement défini ci-dessus peut ~galement être appliqué aux sons dits sourds ou non vois~s, pou-vant être repré~entés par un signal dont la formes'apparente a celle d'un bruit blanc, mai~ sans synchronisation des signaux fenêtrés : ceci a pour but d'homogénéiser le traitement sur les sons sourds et les sons voisés, ce qui permet d'une part le lissage entre éléments sonores (diphones) et entre phonèmes sourds et voisés, et d'autre part une modification du rythme. Il se pose un problème a la ~onction entre diphone~. Une solution pour écarter cette difficulté conslste à
omettre l'extraction de formes d'onde élémentaires partlr de~ deux périodes fondamentales ad~acentes de transltion entre dlphones (dans le cas des sons sourds, les marques de volsement sont remplacées par des marques posées arbltrairement) : on pourra soit définir une trolslème fonction d'onde élementaire en calculant la moyenne des deux fonctlons d'onde elémentaires extraltes de part et d'autre du dlphone, solt utlllser la procé-dure d'addltlon-recouvrement directement sur ce~ deux fonctlons d'onde élémentalres.
L'lnventlon sera mieux comprise à la lecture de la descriptlon qui suit d'un mode particuller de mlse en oeuvre de l'invention, donné à titre d'exemple non l32~r~a 7 . .
limitatif. La description se réfère aux dessins qui l'accompagnent, dans lesquels :
- la Figure 1 est un graphe destiné à illustrer la synthèse de la parole par concaténation de diphones et modification des paramètres prosodiques dans le domaine temporel, conform~ment à l'invention ; .: .
- la Figure 2 est un schéma synoptique montrant ~ ;
une constitution possible du dispositif de synthèse, implanté sur un calculateur hôte ;
- la Figure 3 montre, à titre d'exemple, comment on modifie les paramètres prosodiques d'un signal natu-rel, dans le cas d'un phonème particuller ; ~ -- les Figures 4A, 4B et 4C sont des graphiques . ~-destlnés a montrer des modificatlons spectrales appor-tées à des signaux de synthèse voisés, la Figure 4A
montrant le spectre d'origine, la Figure 4B le spectre .:
avec dlminutlon de la fréquence fondamentale et la . .
Figure 4C le spectre avec augmentation de cette fréquence ;
- la Flgure 5 est un graphlque montrant un prin-clpe d'atténuatlon des dlscontinuités entre dlphones ;
- la Flgure 6 est un schéma montrant le fenetrage sur plus de deux pérlode~.
La synthèse d'un phonème est effectuée ~ partir de deux diphone8 8tockés dans un dictionnaire, chaque phonème étant composé de deux deml-dlphones. Le son "é" ~ -dans "pérlode~ par exemple sera obtenu à partlr du ~-second deml-dlphone de ~pai" et du premier deml-diphone de "alr~. ~
Un module de traductlon orthographlque phoné-::
tlque et de calcul de la prosodle (qul ne falt pas .
partle de l'lnventlon) fournit ~ un ln~tant donné, des - -lndlcatlons identlflant - le phonème ~ restltuer, d'ordre P ~ ~
35 - le phoneme précédent, d'ordre P-l - :
- le phonème sulvant, d'ordre P~
' et donnant la durée à affecter au phonème P ainsi que les p~riodes au début et à la fin (Flgure 1).
Une première opératlon d'analyse, qui n'est pas modlfiée par l'invention, consiste a déterminer, par décodage du nom des phonemes et des indications proso-diques, les deux diphones retenus pour le phonème ~
utiliser et le voisement.
Tous les diphones disponibles (au nombre de 1300 par exemple) sont mémorisés dans un dictionnaire 10 muni d'une table constituant le descripteur 12 et contenant l'adresse du début de chaque diphone (en nombre de blocs de 256 octets) la longueur du diphone et le milieu du dlphone (ces deux derniers parametres ~tant exprimés en nombre d'échantillons à partir du début) et des marques de voisement repérant le début de la r~ponse du conduit vocal à l'excltation des cordes vocales dans le cas d'un son voisé (au nombre de 35 par exemple). Des diction-naires de diphones répondant à ces critères sont dispo-nibles par exemple aupres du Centre National d'Etudes des Télécommunications.
Les diphones sont alors utilisés dans un processus d'analyse et de synthèse schématisé sur la Figure l. On décrira ce processus en supposant qu'il est mls en oeuvre dan8 un dl8posltlf de synthèse ayant la constitution montrée en flguse 2, destiné à être relié à
un calculateur hOte, tel que le processeur central d'un ordinateur personnel. On supposera également que la fréquence d'échantillonnage donnant la représentation des diphones est de 16 kHz.
Le dispositlf de synthèse (Figure 2) comporte alors une mémoire vlve prlncipale 16 qui contient un micro-programme de calcul, le dictionnaire de diphones 10 (c'est-~-dire des formes d'onde représentées par des echantlllon~) ranges dans l'ordre des adresses du descrlpteur, la table 12 constituant le descripteur de dlctlonnalre, et une fenetre de Hannlng, échantlllonnée ' ~ 3 ~ 3 - ~
g : -, par exemple sur 500 points. La mémolre vive 16 constitue également mémoire de micro-trame et mémoire de travail.
Elle est reliée par un bus de données 18 et un bus d'adresses 20 à un accès 22 au calculateur h~te.
Chaque micro-trame émise pour restituer un phonème (Figure 2) est constituée, pour chacun des deux phonèmes P et P+l qui interviennent - du numéro d'ordre du phonème, - de la valeur de la période au début du phonème, de la valeur de période à la fin du phonème, et - de la durée totale du phon~me pouvant ~tre remplacée par la durée du diphone pour le s~cond phonème.
Le dispositif comprend encore, reli~s aux bus 18 et 20, une unité de calcul locale 24 et un circuit d'a$guillage 26. Ce dernier permet de relier une mémoire vive 28 servant de tampon de sortie solt vers le calcu-lateur, soit vers un controleur 30 de convertisseur numérique/analogique 32 de sortie. Ce dernier attaque un filtre passe-bas 34, généralement limité à 8 kHz, qui alimente un amplificateur de parole 36.
Le fonctionnement du dispositif est le suivant.
Le calculateur hôte (non représenté) charge les micro-trames dan~ le tableau réservé en mémoire 16, par l'lntermédlalre de l'accès 22 st des bus 18 et 20, puis 11 commande le début de synthèse à l'unité de calcul 24.
Cette unité de calcul recherche le numéro du phon~me courant P, du phonème suivant P+l et du phonème précé-dent P-l dans le tableau de micro-trames, à l'aide d'un index mémorisé dans la mémoire de travail, initialisée à
1. Dans le cas du premier phonème, l'unité de calcul vlent chercher uniquement les numéros du phonème courant ~- -et du phonème suivant. Dans le cas du dernier phonème, elle vlant chercher le numéro du phonème précédent et 35 celul du phonème courant. -Dans le cas général, un phonème est constitué de ~ -" .' k -~ 3 2 f ~
' deux demi-diphones ; l'adresse de chaque diphone est recherch~e par adressage matriciel dans le descripteur ' du dictionnaire par la formule suivante :
5 numéro du descripteur de diphone ~ -num~ro du ler phonème+ (numéro du 2ème phonème-l)*nombre ~-de diphones Sons voisés L'unité de calcul charge, en mémoire de travail 16, l'adresse du diphone, sa longueur, son milieu ainsi que les trente-clnq marques de voisement. Elle charge ensuite, dans un tableau descripteur du phonème, les marques de voisement correspondant à la deuxième partie du diphone. Puis elle recherche, dans le dictionnaire de formes d'onde, la deuxième partie du diphone, qu'elle place dans un tableau représentant le signal du phon~me d'analyse. Les marques conservées dans le tableau descrlpteur du phonème sont décrémentées de la valeur du milieu du diphone. -Cette opération est répétée pour la deuxième partle du phon~me constituée par la première partie du deuxième diphone. Les marques de voisement de la première partle du deuxième diphone sont a~outées aux marques de volsement du phonème et incrémentées de la valeur du mllleu du phonème.
Dans le cas des sons voisés, l'unité de calcul, à partlr des paramètres prosodique~ (durée, période début et période fin du phonème) détermine alors le nombre de pérlodes nécessaire à la durée du phonème, suivant la formule : '' nombre de périodss~2*durée du phonème / (période d~butlpériode fin) , : - ,, . .. : : ,,, ., .. , ~ ",: : ': j , . . .. ., ! .
?.. t~ i rl t~
L'unité de calcul range en mémoire le nombre de marques du phonème naturel, égal au nombre de marques de voisement, puis détermine le nombre de périodes à
éliminer ou à aJouter en effectuant la différence entre le nombre de périodes de synthèse et le nombre de périodes d'analyse, différence qui est fixée par la modif~cation de tonalité à introduire à partir de celle qui correspond au dictionnaire.
Pour chaque période de synthèse retenue, l'unit~
de calcul détermine ensuite la période d'analyse retenue parmi les périodes du phonème à partir des considéra-tions suivantes ~
- la modification de la durée peut être considérée comme la mise en correspondance, par déformation de l'axe des tempC du signal de synthèse, des n marques de voisement du signal d'analyse et des p marques du signal de synthèse, n et p étant des entiers prédé-terminés ;
- ~ chacune des p marques du signal de synthèse doit etre associée la marque la plus proche du signal d'analyse.
La duplication ou, au contraire, l'éllmination de pérlodes également réparties sur tout le phonème modifie la durée de celui-ci.
Il faut noter qu'on n'aura pas à extra~re une forme d'onde élémentaire à partir des deux périodes adJacentes de transition entre diphones : llopération d'addltlon-recouvrement des fonctions elémentaires extraites des deux dernlères périodes du premler dlphone et des deux premières périodes du deuxième dlphone permet le lissage entre ces diphones comme le montre la figure 5.
~ 3 ~ r! 3 12 ::
Pour chaque période de synthèse, l'unité de calcul détermine le nombre de points ~ a~outer ou ~
supprimer à la période d'analyse en effectuant la différence entre cette dernière et la pérlode de synthèse.
Comme on l'a indiqué plus haut, il est avanta-geux de choisir la largeur de la fenêtre d'analyse de la façon suivante, illustrée en Figure 3 :
10 - 8i la période de synthèse est inférieure à la période d'analyse (lignes A et B de la Figure 3), la tallle de la fenêtre 38 est le double de la période de synthèse ;
: ,: ,.'.' - dans le cas contraire, la taille de la fenêtre 40 est obtenue en multipliant par deux la plus faible des valeurs de la période d'analyse courante et de la période d'analyse précédente (lignes C et D). ;
L'unité de calcul détermine un pas d'avancement dans la lecture des valeurs de la fenêtre, tabulée par exemple sur 500 points, le pas étant alors égal à 500 divisé par la taille de la fenêtre précédemment calculée. Elle lit dans la mémoire tampon de signal du phonème d'analyse 28 les échantillons de la période précédente et de la periode courante, les pondère par la valeur de la fenêtre de Hanning 38 ou 40 indexée par le numero de l'échantillon courant multiplié par le pas d'avancement dans la fenêtre tabulée et a~oute, au fur et à me8ure, les valeurs calculées à la mémoire tampon du signal de sortie indexé par la somme du compteur de l'échantillon courant de sortie et de l'index de recherche des échantillons du phoneme d'analyse. Le compteur de sortle courant est ensuite incremente de la valeur de la période de synthese.
~ ~ 2 l . i ' Sons sourds (non voisés) :
Pour les phonèmes sourds, le traitement est analogue au précédent, excepte que la valeur des --pseudo-périodes (distance entre deux marques de voisement) n'est ~amais modi~iée : l'élimination de pseudo-périodes au centre du phonème diminue simplemen~
la durée de celui-ci.
On n'augmente pas la durée de phonèmes sourds, excepté par addition de z~ros au milieu des phonèmes ~sllence".
Le fenêtrage s'effectue par p~riode pour norma- - -llser la somme des valeurs des fenêtres appliqu~es au signal :
- du début de la période précédente à la fin de la période précédente, le pas d'avancement dans la lecture de la fenêtre tabulée est (dans le cas d'une tabulation sur 500 points) égal à 500 divisé par deux fois la durée de la période précédente ;
- du début de la période- courante à la fin de la période courante, le pas d'avancement dans la fenêtre tabulée est égal à 500 divlsé par deux fois la durée de la p~riode courante plus un décalage constant de 250 points, A la fin du calcul du signal d'un phonème de synthèse, l'unité de calcul range la dernière période du phonème d'analyse et de synthèse dans la mémoire tampon 28 qui permet la transition entre phonèmes. Le compteur de l'échantlllon courant de sortie est décrémenté de la ~-valeur de la dernière période de synthèse.
Le signal ainsi généré est envoyé, par blocs de 2048 échantlllons, dans un de deux espaces mémoire reserves à la communication entre l'unit~ de calcul et ~32 !3,~
1 4 . .
le contrôleur 30 du convertisseur numérique/analogique 32. Dès que le premier bloc est charg~ dans la première zone tampon, le contrôleur 30 est activé par l'unité de calcul et vide cette première zone tampon. Pendant ce temps, l'unité de calcul remplit une deuxième zone tampon de 2048 échantillons. L'unité de calcul vient ~ -ensuite alternativement tester ces deux zones tampons grâce à un drapeau pour y char~er le signal numérique de synthèse à la fin de chaque séquence de synthèse d'un phonème. Le contrôleur 30, en fin de lecture de chaque zone tampon, positiQnne le drapeau correspondant. En fin de synthèse, le contr~leur vide la derni~re zone tampon et positionne un drapeau de fin de synthèse que le cal-culateur hôte peut lire via l'accès de communication 22.
15L'exemple de spectre de si~nal de parole voisé -d'analyse et de synthèse illustré en Figures 4A-4C -montre que les transformations temporelles du signal numérique de parole n'affectent pas l'enveloppe du signal de synthèse, tout en modifiant la distance entre harmoniqùes, c'est-à-dire la fréquence fondamentale du signal de parole.
La complexlté du calcul reste faible : le nombre d'opératlons par échantillon est en moyenne de deux multiplicatlons et deux addltlons pour la pondératlon et la 80mmatlon de8 fonctlons él~mentalres fournies par l'analyse.
L'invention est susceptible de nombreuses varlantes de réalisation et, en particulier, comme on l'a lndiqué plus haut, une fenêtre de largeur supérieure à deux periodes, comme le montre la Figure 6, éventuel-lement de tallle flxe, peut donner des résultats acceptables.
On peut aussl utiliser le proc~dé de modlflca-tlon de la fréquence fondamentale sur des slgnaux numerlques de parole en dehors de son appllcatlon a la synthase par dlphones.
: ' ,,, .. " , i ... , . ,, ,. . ,, ., . ,,, ,, . .,, . ~, .. .
Claims (8)
1. Procédé de synthèse de parole à partir de diphones mémorisés dans un dictionnaire sous forme de formes d'onde, pour la conversion de texte en parole, suivant lequel : on fournit une séquence de codes de phonèmes et une information prosodique respective comportant la période fondamentale d'origine au début et à la fin du phonème et la durée du phonème et, pour chaque phonème, on analyse et on synthétise chaque phonème : puis on fait la concaténation des phonèmes synthétisés, ladite analyse comportant, pour chaque phonème, la sélection de deux diphones parmi les diphones mémorisés et la détermination de la présence d'un voisement, caractérisé
en ce que, de plus, au cours de l'analyse, on soumet, pour les phonèmes voisés, les formes d'onde respec-tives des deux diphones qui constituent le phonème à un filtrage par une fenêtre ayant une position prédéterminée par rapport à la forme d'onde et sélectionnée de façon que la fenêtre soit sensiblement centrée sur un point de la forme d'onde représentative du début d'une réponse impul-sionnelle des cordes vocales à leur excitation, ladite fenêtre ayant une largeur au moins sensiblement égale à deux fois la plus petite de ladite période fondamentale d'origine et de la période fondamentale de synthèse et ayant une amplitude qui décroit progressivement à partir du centre de la fenêtre jusqu'à zéro aux bords de la fenêtre et on décale temporellement les signaux résultant du filtrage et obtenus pour chaque diphone d'une quantité telle qu'ils soient séparés d'une durée égale à la période de synthèse fondamen-tale, et en ce que, au cours de la synthèse, on ajoute les signaux ainsi décalés.
en ce que, de plus, au cours de l'analyse, on soumet, pour les phonèmes voisés, les formes d'onde respec-tives des deux diphones qui constituent le phonème à un filtrage par une fenêtre ayant une position prédéterminée par rapport à la forme d'onde et sélectionnée de façon que la fenêtre soit sensiblement centrée sur un point de la forme d'onde représentative du début d'une réponse impul-sionnelle des cordes vocales à leur excitation, ladite fenêtre ayant une largeur au moins sensiblement égale à deux fois la plus petite de ladite période fondamentale d'origine et de la période fondamentale de synthèse et ayant une amplitude qui décroit progressivement à partir du centre de la fenêtre jusqu'à zéro aux bords de la fenêtre et on décale temporellement les signaux résultant du filtrage et obtenus pour chaque diphone d'une quantité telle qu'ils soient séparés d'une durée égale à la période de synthèse fondamen-tale, et en ce que, au cours de la synthèse, on ajoute les signaux ainsi décalés.
2. Procédé de synthèse de parole à partir de diphones mémorisés dans un dictionnaire sous forme de formes d'onde, en vue de la conversion de texte en parole, suivant lequel : on fournit une séquence de codes de phonèmes et une information prosodique respective comportant la période fondamentale d'origine au début et à la fin du phonème et la durée du phonème et, pour chaque phonème, on analyse et on synthétise chaque phonème ; puis on fait la concaténation des phonèmes synthétisés, ladite analyse comportant, pour chaque phonème, utilisant un descripteur de phénomène pour sélectionner deux diphones parmi les diphones mémorisés et déterminer la présence d'un voisement, caractérisé
en ce que, de plus, au cours de l'analyse, on soumet, pour les phonèmes voisés, les formes d'onde respec-tives des deux diphones qui constituent le phonème respectif à un filtrage par une fenêtre ayant une position prédétermi-née par rapport à la forme d'onde et sélectionnée de façon que la fenêtre soit sensiblement centrée sur un point de la forme d'onde représentative du début de la réponse impul-sionnelle des cordes vocales à leur excitation, ladite fenêtre ayant une largeur au moins sensiblement égale à deux fois la plus petite de ladite période fondamentale d'origine et de la période fondamentale de synthèse et ayant une amplitude qui décroit progressivement à partir du centre de la fenêtre jusqu'à zéro aux bords de la fenêtre et on redistribue les signaux, qui présentent un recouvrement temporel, résultant du filtrage et obtenus pour chaque diphone pour leur donner un écartement tel qu'ils soient séparés par une durée égale à la période de synthèse fonda-mentale, et en ce que, au cours de la synthèse, on ajoute les signaux redistribués.
en ce que, de plus, au cours de l'analyse, on soumet, pour les phonèmes voisés, les formes d'onde respec-tives des deux diphones qui constituent le phonème respectif à un filtrage par une fenêtre ayant une position prédétermi-née par rapport à la forme d'onde et sélectionnée de façon que la fenêtre soit sensiblement centrée sur un point de la forme d'onde représentative du début de la réponse impul-sionnelle des cordes vocales à leur excitation, ladite fenêtre ayant une largeur au moins sensiblement égale à deux fois la plus petite de ladite période fondamentale d'origine et de la période fondamentale de synthèse et ayant une amplitude qui décroit progressivement à partir du centre de la fenêtre jusqu'à zéro aux bords de la fenêtre et on redistribue les signaux, qui présentent un recouvrement temporel, résultant du filtrage et obtenus pour chaque diphone pour leur donner un écartement tel qu'ils soient séparés par une durée égale à la période de synthèse fonda-mentale, et en ce que, au cours de la synthèse, on ajoute les signaux redistribués.
3. Procédé selon la revendication 2, comprenant une étape préliminaire consistant à fractionner le texte à
synthétiser en des microtrames identifiées chacune par le numéro d'un diphone correspondant dans un dictionnaire de diphones mémorisant lesdites formes d'onde.
synthétiser en des microtrames identifiées chacune par le numéro d'un diphone correspondant dans un dictionnaire de diphones mémorisant lesdites formes d'onde.
4. Procédé de synthèse de parole selon la revendica-tion 1 2 ou 3, caractérise en ce que la fenêtre est une fenêtre de Hanning.
5. Procédé de synthèse de parole suivant la revendi-cation 1 ou 2, dans lequel la largeur de ladite fenêtre ne dépasse pas trois fois la période synthétisée.
6. Procédé de synthèse de parole suivant la revendi-cation 2, dans lequel le descripteur est prévu pour détermi-ner l'adresse de chaque diphone pour un premier phonème ou pour un second phonème en tant que numéro d'ordre de descripteur de diphone égal au numéro d'ordre du premier phonème + (numéro d'ordre du second phonème - 1)*nombre de diphones.
7. Procédé de synthèse de parole suivant la revendi-cation 1, 2 ou 3, dans lequel on effectue la transition entre diphones successifs en calculant la moyenne de deux formes d'ondes élémentaires extraites de chaque côté du diphone.
8. Dispositif de synthèse de parole en vue de la conversion de texte en parole, comprenant, connecté à des bus de données et d'adresse :
une mémoire vive principale contenant :
un dictionnaire de diphones mémorisant des formes d'onde chacun mémorisée sous forme de plu-sieurs échantillons et représentant chacune un diphone parmi plusieurs, une table de descripteur comportant, pour chaque diphone et à; une adresse respective, des données identifiant le début du diphone, la longueur du diphone, le milieu du diphone et des marques de voisement, lesdites formes d'onde étant mémorisées dans un dictionnaire dans l'ordre des adresses respectives dans la table de descripteurs, une fenêtre de filtrage de Hanning sous forme échantillonnée, un microprogramme de calcul, et un espace de table réservé pour recevoir des microtrames successives représentant chacune un phonème et comportant chacune les numéros d'ordre d'un diphone dans le dictionnaire et une information prosodique relative au diphone, ladite information prosodique incorporant au moins les périodes fonda-tmentales au début et à la fin du phonème à synthé-tiser ;
une unité locale de calcul fonctionnant en réponse au microprogramme et prévue pour lire, dans le descripteur, les données d'identification des deux diphones voisés respectifs de chaque phonème identifié à son tour par l'une desdites microtrames, en vue de soumettre les formes d'onde respectives à
un filtrage par la fenêtre de Hanning échantillonnée afin de lui donner une largeur sensiblement égale à
deux fois la période de synthèse fournie par la microtrame respective, en vue de redistribuer les signaux provenant du filtrage des formes d'onde respectives avec une période égale à la période de synthèse fondamentale et pour faire la somme des signaux redistribués ;
une mémoire tampon ;
un circuit d'alguillage pour relier alternative-ment une entrée de la mémoire tampon à une sortie de l'unité de calcul et une sortie de la mémoire tampon à un convertisseur numérique-analogique de sortie par l'intermédiaire d'un contrôleur , et un amplificateur de parole attaqué par le convertisseur numérique-analogique.
une mémoire vive principale contenant :
un dictionnaire de diphones mémorisant des formes d'onde chacun mémorisée sous forme de plu-sieurs échantillons et représentant chacune un diphone parmi plusieurs, une table de descripteur comportant, pour chaque diphone et à; une adresse respective, des données identifiant le début du diphone, la longueur du diphone, le milieu du diphone et des marques de voisement, lesdites formes d'onde étant mémorisées dans un dictionnaire dans l'ordre des adresses respectives dans la table de descripteurs, une fenêtre de filtrage de Hanning sous forme échantillonnée, un microprogramme de calcul, et un espace de table réservé pour recevoir des microtrames successives représentant chacune un phonème et comportant chacune les numéros d'ordre d'un diphone dans le dictionnaire et une information prosodique relative au diphone, ladite information prosodique incorporant au moins les périodes fonda-tmentales au début et à la fin du phonème à synthé-tiser ;
une unité locale de calcul fonctionnant en réponse au microprogramme et prévue pour lire, dans le descripteur, les données d'identification des deux diphones voisés respectifs de chaque phonème identifié à son tour par l'une desdites microtrames, en vue de soumettre les formes d'onde respectives à
un filtrage par la fenêtre de Hanning échantillonnée afin de lui donner une largeur sensiblement égale à
deux fois la période de synthèse fournie par la microtrame respective, en vue de redistribuer les signaux provenant du filtrage des formes d'onde respectives avec une période égale à la période de synthèse fondamentale et pour faire la somme des signaux redistribués ;
une mémoire tampon ;
un circuit d'alguillage pour relier alternative-ment une entrée de la mémoire tampon à une sortie de l'unité de calcul et une sortie de la mémoire tampon à un convertisseur numérique-analogique de sortie par l'intermédiaire d'un contrôleur , et un amplificateur de parole attaqué par le convertisseur numérique-analogique.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8811517 | 1988-09-02 | ||
FR8811517A FR2636163B1 (fr) | 1988-09-02 | 1988-09-02 | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
Publications (1)
Publication Number | Publication Date |
---|---|
CA1324670C true CA1324670C (fr) | 1993-11-23 |
Family
ID=9369671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CA000610127A Expired - Lifetime CA1324670C (fr) | 1988-09-02 | 1989-09-01 | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
Country Status (9)
Country | Link |
---|---|
US (2) | US5327498A (fr) |
EP (1) | EP0363233B1 (fr) |
JP (1) | JP3294604B2 (fr) |
CA (1) | CA1324670C (fr) |
DE (1) | DE68919637T2 (fr) |
DK (1) | DK175374B1 (fr) |
ES (1) | ES2065406T3 (fr) |
FR (1) | FR2636163B1 (fr) |
WO (1) | WO1990003027A1 (fr) |
Families Citing this family (218)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69228211T2 (de) * | 1991-08-09 | 1999-07-08 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Apparat zur Handhabung von Höhe und Dauer eines physikalischen Audiosignals |
EP0527529B1 (fr) * | 1991-08-09 | 2000-07-19 | Koninklijke Philips Electronics N.V. | Procédé et appareil pour manipuler la durée d'un signal audio physique et support de données contenant une représentation d'un tel signal audio physique |
DE69231266T2 (de) * | 1991-08-09 | 2001-03-15 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
FR2689667B1 (fr) * | 1992-04-01 | 1995-10-20 | Sagem | Recepteur de bord d'aide a la navigation d'un vehicule automobile. |
US5613038A (en) * | 1992-12-18 | 1997-03-18 | International Business Machines Corporation | Communications system for multiple individually addressed messages |
US5490234A (en) * | 1993-01-21 | 1996-02-06 | Apple Computer, Inc. | Waveform blending technique for text-to-speech system |
US6122616A (en) * | 1993-01-21 | 2000-09-19 | Apple Computer, Inc. | Method and apparatus for diphone aliasing |
JP2782147B2 (ja) * | 1993-03-10 | 1998-07-30 | 日本電信電話株式会社 | 波形編集型音声合成装置 |
JPH0736776A (ja) * | 1993-07-23 | 1995-02-07 | Reader Denshi Kk | 線形フィルタ処理した複合信号の発生装置及び発生方法 |
US6502074B1 (en) * | 1993-08-04 | 2002-12-31 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
US5987412A (en) * | 1993-08-04 | 1999-11-16 | British Telecommunications Public Limited Company | Synthesising speech by converting phonemes to digital waveforms |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
US5970454A (en) * | 1993-12-16 | 1999-10-19 | British Telecommunications Public Limited Company | Synthesizing speech by converting phonemes to digital waveforms |
US5787398A (en) * | 1994-03-18 | 1998-07-28 | British Telecommunications Plc | Apparatus for synthesizing speech by varying pitch |
US5633983A (en) * | 1994-09-13 | 1997-05-27 | Lucent Technologies Inc. | Systems and methods for performing phonemic synthesis |
JP3093113B2 (ja) * | 1994-09-21 | 2000-10-03 | 日本アイ・ビー・エム株式会社 | 音声合成方法及びシステム |
IT1266943B1 (it) * | 1994-09-29 | 1997-01-21 | Cselt Centro Studi Lab Telecom | Procedimento di sintesi vocale mediante concatenazione e parziale sovrapposizione di forme d'onda. |
US5694521A (en) * | 1995-01-11 | 1997-12-02 | Rockwell International Corporation | Variable speed playback system |
NZ304418A (en) * | 1995-04-12 | 1998-02-26 | British Telecomm | Extension and combination of digitised speech waveforms for speech synthesis |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
BE1010336A3 (fr) * | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
SE509919C2 (sv) * | 1996-07-03 | 1999-03-22 | Telia Ab | Metod och anordning för syntetisering av tonlösa konsonanter |
US5751901A (en) | 1996-07-31 | 1998-05-12 | Qualcomm Incorporated | Method for searching an excitation codebook in a code excited linear prediction (CELP) coder |
US5832441A (en) * | 1996-09-16 | 1998-11-03 | International Business Machines Corporation | Creating speech models |
US5950162A (en) * | 1996-10-30 | 1999-09-07 | Motorola, Inc. | Method, device and system for generating segment durations in a text-to-speech system |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6377917B1 (en) | 1997-01-27 | 2002-04-23 | Microsoft Corporation | System and methodology for prosody modification |
US5924068A (en) * | 1997-02-04 | 1999-07-13 | Matsushita Electric Industrial Co. Ltd. | Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion |
US6020880A (en) * | 1997-02-05 | 2000-02-01 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for providing electronic program guide information from a single electronic program guide server |
US6130720A (en) * | 1997-02-10 | 2000-10-10 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for providing a variety of information from an information server |
KR100269255B1 (ko) * | 1997-11-28 | 2000-10-16 | 정선종 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
WO1999033050A2 (fr) * | 1997-12-19 | 1999-07-01 | Koninklijke Philips Electronics N.V. | Elimination de la periodicite d'un signal audio allonge |
JP3902860B2 (ja) * | 1998-03-09 | 2007-04-11 | キヤノン株式会社 | 音声合成制御装置及びその制御方法、コンピュータ可読メモリ |
DE19837661C2 (de) * | 1998-08-19 | 2000-10-05 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
DE19861167A1 (de) * | 1998-08-19 | 2000-06-15 | Christoph Buskies | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
US6178402B1 (en) | 1999-04-29 | 2001-01-23 | Motorola, Inc. | Method, apparatus and system for generating acoustic parameters in a text-to-speech system using a neural network |
US6298322B1 (en) | 1999-05-06 | 2001-10-02 | Eric Lindemann | Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal |
JP2001034282A (ja) * | 1999-07-21 | 2001-02-09 | Konami Co Ltd | 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体 |
AU7991900A (en) * | 1999-10-04 | 2001-05-10 | Joseph E. Pechter | Method for producing a viable speech rendition of text |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
WO2002023523A2 (fr) * | 2000-09-15 | 2002-03-21 | Lernout & Hauspie Speech Products N.V. | Synchronisation rapide de la forme d'onde pour la concatenation et la modification a echelle de temps de la parole |
US7280969B2 (en) * | 2000-12-07 | 2007-10-09 | International Business Machines Corporation | Method and apparatus for producing natural sounding pitch contours in a speech synthesizer |
US7683903B2 (en) | 2001-12-11 | 2010-03-23 | Enounce, Inc. | Management of presentation time in a digital media presentation system with variable rate presentation capability |
US6950798B1 (en) * | 2001-04-13 | 2005-09-27 | At&T Corp. | Employing speech models in concatenative speech synthesis |
JP3901475B2 (ja) * | 2001-07-02 | 2007-04-04 | 株式会社ケンウッド | 信号結合装置、信号結合方法及びプログラム |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US7546241B2 (en) * | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
US8145491B2 (en) * | 2002-07-30 | 2012-03-27 | Nuance Communications, Inc. | Techniques for enhancing the performance of concatenative speech synthesis |
KR101029493B1 (ko) | 2002-09-17 | 2011-04-18 | 코닌클리즈케 필립스 일렉트로닉스 엔.브이. | 음성 신호 합성 방법, 컴퓨터 판독가능 저장 매체 및 컴퓨터 시스템 |
JP4510631B2 (ja) | 2002-09-17 | 2010-07-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声波形の連結を用いる音声合成 |
DE60305944T2 (de) | 2002-09-17 | 2007-02-01 | Koninklijke Philips Electronics N.V. | Verfahren zur synthese eines stationären klangsignals |
US7805295B2 (en) | 2002-09-17 | 2010-09-28 | Koninklijke Philips Electronics N.V. | Method of synthesizing of an unvoiced speech signal |
EP1628288A1 (fr) * | 2004-08-19 | 2006-02-22 | Vrije Universiteit Brussel | Procédé et système pour la synthèse de son |
DE102004044649B3 (de) * | 2004-09-15 | 2006-05-04 | Siemens Ag | Verfahren zur integrierten Sprachsynthese |
JP5032314B2 (ja) * | 2005-06-23 | 2012-09-26 | パナソニック株式会社 | オーディオ符号化装置、オーディオ復号化装置およびオーディオ符号化情報伝送装置 |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070106513A1 (en) * | 2005-11-10 | 2007-05-10 | Boillot Marc A | Method for facilitating text to speech synthesis using a differential vocoder |
CN101490740B (zh) * | 2006-06-05 | 2012-02-22 | 松下电器产业株式会社 | 声音合成装置 |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP4805121B2 (ja) * | 2006-12-18 | 2011-11-02 | 三菱電機株式会社 | 音声合成装置、音声合成方法及び音声合成プログラム |
EP2135231A4 (fr) * | 2007-03-01 | 2014-10-15 | Adapx Inc | Système et procédé d'apprentissage dynamique |
EP1970894A1 (fr) | 2007-03-12 | 2008-09-17 | France Télécom | Procédé et dispositif de modification d'un signal audio |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8706496B2 (en) * | 2007-09-13 | 2014-04-22 | Universitat Pompeu Fabra | Audio signal transforming by utilizing a computational cost function |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10255566B2 (en) | 2011-06-03 | 2019-04-09 | Apple Inc. | Generating and processing task items that represent tasks to perform |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
EP2451076B1 (fr) * | 2009-06-29 | 2018-10-03 | Mitsubishi Electric Corporation | Dispositif de traitement de signal audio |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US8977584B2 (en) | 2010-01-25 | 2015-03-10 | Newvaluexchange Global Ai Llp | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012160767A1 (fr) * | 2011-05-25 | 2012-11-29 | 日本電気株式会社 | Dispositif de génération d'informations de fragment, dispositif de composition audio, procédé de composition audio et programme de composition audio |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US20120310642A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Automatically creating a mapping between text data and audio data |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
JPWO2013014876A1 (ja) * | 2011-07-28 | 2015-02-23 | 日本電気株式会社 | 素片処理装置、素片処理方法および素片処理プログラム |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
AU2014227586C1 (en) | 2013-03-15 | 2020-01-30 | Apple Inc. | User training by intelligent digital assistant |
WO2014168730A2 (fr) | 2013-03-15 | 2014-10-16 | Apple Inc. | Gestion d'interruptions dépendante du contexte |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014144579A1 (fr) | 2013-03-15 | 2014-09-18 | Apple Inc. | Système et procédé pour mettre à jour un modèle de reconnaissance de parole adaptatif |
WO2014197336A1 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé pour détecter des erreurs dans des interactions avec un assistant numérique utilisant la voix |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (fr) | 2013-06-07 | 2014-12-11 | Apple Inc. | Système et procédé destinés à une prononciation de mots spécifiée par l'utilisateur dans la synthèse et la reconnaissance de la parole |
WO2014197335A1 (fr) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interprétation et action sur des commandes qui impliquent un partage d'informations avec des dispositifs distants |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
EP3008964B1 (fr) | 2013-06-13 | 2019-09-25 | Apple Inc. | Système et procédé d'appels d'urgence initiés par commande vocale |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
WO2015184186A1 (fr) | 2014-05-30 | 2015-12-03 | Apple Inc. | Procédé d'entrée à simple énoncé multi-commande |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
DE102014114845A1 (de) * | 2014-10-14 | 2016-04-14 | Deutsche Telekom Ag | Verfahren zur Interpretation von automatischer Spracherkennung |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10015030B2 (en) * | 2014-12-23 | 2018-07-03 | Qualcomm Incorporated | Waveform for transmitting wireless communications |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
WO2017129270A1 (fr) | 2016-01-29 | 2017-08-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Appareil et procédé pour améliorer une transition d'une partie de signal audio cachée à une partie de signal audio suivante d'un signal audio |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
US11450339B2 (en) * | 2017-10-06 | 2022-09-20 | Sony Europe B.V. | Audio file envelope based on RMS power in sequences of sub-windows |
US10594530B2 (en) * | 2018-05-29 | 2020-03-17 | Qualcomm Incorporated | Techniques for successive peak reduction crest factor reduction |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4398059A (en) * | 1981-03-05 | 1983-08-09 | Texas Instruments Incorporated | Speech producing system |
US4692941A (en) | 1984-04-10 | 1987-09-08 | First Byte | Real-time text-to-speech conversion system |
US4833718A (en) * | 1986-11-18 | 1989-05-23 | First Byte | Compression of stored waveforms for artificial speech |
US4852168A (en) * | 1986-11-18 | 1989-07-25 | Sprague Richard P | Compression of stored waveforms for artificial speech |
-
1988
- 1988-09-02 FR FR8811517A patent/FR2636163B1/fr not_active Expired - Lifetime
-
1989
- 1989-09-01 US US07/487,942 patent/US5327498A/en not_active Expired - Lifetime
- 1989-09-01 CA CA000610127A patent/CA1324670C/fr not_active Expired - Lifetime
- 1989-09-01 ES ES89402394T patent/ES2065406T3/es not_active Expired - Lifetime
- 1989-09-01 DE DE68919637T patent/DE68919637T2/de not_active Expired - Lifetime
- 1989-09-01 EP EP89402394A patent/EP0363233B1/fr not_active Expired - Lifetime
- 1989-09-01 WO PCT/FR1989/000438 patent/WO1990003027A1/fr unknown
- 1989-09-01 JP JP50962189A patent/JP3294604B2/ja not_active Expired - Fee Related
-
1990
- 1990-05-01 DK DK199001073A patent/DK175374B1/da not_active IP Right Cessation
-
1994
- 1994-04-04 US US08/224,652 patent/US5524172A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE68919637T2 (de) | 1995-07-20 |
EP0363233A1 (fr) | 1990-04-11 |
FR2636163A1 (fr) | 1990-03-09 |
JPH03501896A (ja) | 1991-04-25 |
US5327498A (en) | 1994-07-05 |
DK107390D0 (da) | 1990-05-01 |
FR2636163B1 (fr) | 1991-07-05 |
DE68919637D1 (de) | 1995-01-12 |
WO1990003027A1 (fr) | 1990-03-22 |
ES2065406T3 (es) | 1995-02-16 |
US5524172A (en) | 1996-06-04 |
DK175374B1 (da) | 2004-09-20 |
JP3294604B2 (ja) | 2002-06-24 |
DK107390A (da) | 1990-05-30 |
EP0363233B1 (fr) | 1994-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA1324670C (fr) | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde | |
Alsteris et al. | Short-time phase spectrum in speech processing: A review and some experimental results | |
EP1593116B1 (fr) | Procédé pour le traitement numérique différencié de la voix et de la musique, le filtrage de bruit, la création d'effets spéciaux et dispositif pour la mise en oeuvre dudit procédé | |
FR2553555A1 (fr) | Procede de codage de la parole et dispositif pour sa mise en oeuvre | |
JPH0677200B2 (ja) | デジタル化テキストの音声合成用デジタルプロセッサ | |
BE1010336A3 (fr) | Procede de synthese de son. | |
FR3062945A1 (fr) | Methode et appareil de modification dynamique du timbre de la voix par decalage en frequence des formants d'une enveloppe spectrale | |
US5452398A (en) | Speech analysis method and device for suppyling data to synthesize speech with diminished spectral distortion at the time of pitch change | |
FR2653557A1 (fr) | Appareil et procede pour le traitement de la parole. | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
Wang et al. | Revealing the processing history of pitch-shifted voice using CNNs | |
EP0621582B1 (fr) | Procédé de reconnaissance de parole à apprentissage | |
US20060178873A1 (en) | Method of synthesis for a steady sound signal | |
CN114420099A (zh) | 一种多声源融合场景的人声检测方法及装置 | |
EP0595950B1 (fr) | Procede et dispositif de reconnaissance de la parole en temps reel | |
Permana et al. | Improved Feature Extraction for Sound Recognition Using Combined Constant-Q Transform (CQT) and Mel Spectrogram for CNN Input | |
Singh | pyAudioProcessing: Audio Processing, Feature Extraction, and Machine Learning Modeling. | |
Tappert | A preliminary investigation of adaptive control in the interaction between segmentation and segment classification in automatic recognition of continuous speech | |
Tomas et al. | Influence of emotions to pitch harmonics parameters of vowel/a | |
Tomas et al. | Determination and evaluation pitch harmonics parameters with emotions classification | |
US5899974A (en) | Compressing speech into a digital format | |
Dhoundiyal et al. | A Multilingual Text to Speech Engine Hindi-English: Hinglish | |
CN119274543A (zh) | 一种基于深度神经网络的声学特征动态提取方法 | |
FR2689292A1 (fr) | Procédé et système de reconnaissance vocale à réseau neuronal. | |
Gopalan | Speech modification by selective fourier-bessel series expansion of speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MKEX | Expiry |
Effective date: 20101123 |