FR2691829A1 - Speech recognition system using neural network and fuzzy logic processing - Google Patents
Speech recognition system using neural network and fuzzy logic processing Download PDFInfo
- Publication number
- FR2691829A1 FR2691829A1 FR9306412A FR9306412A FR2691829A1 FR 2691829 A1 FR2691829 A1 FR 2691829A1 FR 9306412 A FR9306412 A FR 9306412A FR 9306412 A FR9306412 A FR 9306412A FR 2691829 A1 FR2691829 A1 FR 2691829A1
- Authority
- FR
- France
- Prior art keywords
- speech
- data
- signal
- input
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
Description
Système de reconnaissance de la parole.Speech recognition system.
La présente invention a trait à un système de reconnaissance de la parole, et plus particulièrement à un système de reconnaissance de la parole monosyllabique coréenne. Lorsque des caractéristiques sont extraites en vue de la reconnaissance de la parole, la perception d'une caractéristique intrinsèque utilisée pour distinguer les syllabes parlées est très difficle par suite du débit vocal, de l'accent et des habitudes de prononciation d'un parleur donné, des variations environnementales durant la parole, l'état émotionnel du parleur etc De plus, par suite des variations du langage articulé, même un phonème représente différentes caractéristiques phonétiques qui, The present invention relates to a speech recognition system, and more particularly to a Korean monosyllabic speech recognition system. When features are extracted for speech recognition, the perception of an intrinsic characteristic used to distinguish spoken syllables is very difficult as a result of speech rate, accent, and pronunciation habits of a given speaker , environmental variations during the speech, the emotional state of the speaker, etc. Moreover, as a result of the variations of the articulated language, even a phoneme represents different phonetic characteristics which,
sont, à leur tour, affectéespar les phonèmes le précé- are, in turn, affected by the above phonemes
dant et le suivant Ces facteurs provoquent des difficultés These factors cause difficulties
pour développer un algorithme pour extraire les caracté- to develop an algorithm to extract the characteristics
ristiques particulières de la parole, et rendent l'expres- particular characteristics of speech, and make expression
-sion et l'intégration de la connaissance obtenue au moyen -sion and the integration of knowledge obtained through
de l'algorithme incommode.of the inconvenient algorithm.
Une recherche dans l'usage de systèmes établis a Research into the use of established systems has
été largement effectuée pour résoudre les problèmes pré- been largely done to solve the pre-existing problems
cités On connait ainsi différents procédés tels qu'une ana- In this way, we know different processes such as ana-
lyse de formant pour placer des sons vocaux en fonction d'une composante vocale, un procédé de distorsion de temps dynamique (DTW) selon lequel une distorsion entre les articulations individuelles d'un seul mot est diminuée au moyen d'une technique de programmation dynamique de sorte que la parole la plus cohérente peut être sélectionnée en vue d'une reconnaissance, et un procédé à modèle de Markov caché (HMM) pour une reconnaissance de la parole formant lysis for placing vocal sounds according to a voice component, a dynamic time distortion (DTW) method in which a distortion between the individual articulations of a single word is decreased by means of a dynamic programming technique so that the most consistent speech can be selected for recognition, and a Hidden Markov Model (HMM) method for speech recognition
par visualisation d'un-signal composé phonétiquement. by visualization of a signal composed phonetically.
Toutefois, puisque la plupart des systèmes de reconnaissance de la parole jusqu'ici réalisés utilisant les procédés précités exigent une quantité considérable However, since most of the speech recognition systems heretofore realized using the aforementioned methods require a considerable amount of
de calculs pour reconnaître une voix humaine parlée natu- calculations to recognize a natural spoken human voice
rellement et acceptant les différentes articulations de la parole, leur utilisation et pertinence réelles est douteuse et une reconnaissance de la parole en temps réel genuinely and accepting the different articulations of speech, their actual use and relevance is dubious and a recognition of speech in real time
devient difficile Un modèle à réseau - becomes difficult A network model -
la théorie des ensembles flous est proposé en tant que fuzzy set theory is proposed as
procédé pouvant résoudre les problèmes généraux de recon- process which can solve the general problems of recognition
naissance de configuration (par exemple, reconnaissance birth of configuration (for example, recognition
de la parole).of speech).
A la différence d'un calculateur de Fbhn-Noimann, le modèle à réseau neuronal peut non seulement apprendre les règles correctes pour résoudre les questions surgissant de données ambiguës, incomplètes et discordantes, mais également traiter en parallèle une multitude de neurones, de sorte que le modèle à réseau neuronal peut être utilisé dans un domaine nécessitant un traitement parallèle, tel que la reconnaissance de parole Le modèle à réseau neuronal Unlike a Fbhn-Noimann calculator, the neural network model can not only learn the correct rules to resolve issues arising from ambiguous, incomplete and discordant data, but also parallelize a multitude of neurons, so that the neural network model can be used in a field requiring parallel processing, such as speech recognition The neural network model
possède trois avantages principaux. has three main advantages.
Tout d'abord, il est hautement adaptable C'est- First of all, it is highly adaptable
à-dire qu'une voie humaine est diversifiée selon le bruit to say that a human path is diversified according to the noise
environnant et les caractéristiques d'un parleur qui peu- environment and the characteristics of a speaker who can
vent être effectivement appris par le modèle à réseau neuronal En second lieu, la procédure d'apprentissage est raisonnable Tandis qu'un traitement algorithmique en extrayant correctement une caractéristique intangible d'une variété de données de parole est très difficile, In the second place, the learning procedure is reasonable While an algorithmic processing by correctly extracting an intangible characteristic from a variety of speech data is very difficult,
le modèle à réseau neuronal peut extraire lui-même la carac- the neural network model can extract itself the characteristic
téristique pour apprendre par l'intermédiaire de l'appro- to learn through the appro-
che l'étude-par-l' exemple.study-by-example.
En troisième lieu, le traitement parallèle ci- Thirdly, the parallel processing
dessus peut être exécuté dans le modèle à réseauneuronal,le above can be executed in the network model, the
résultant étant obtenu par les nombreux neurones fondamen- resulting from the many fundamental neurons
taux qui accomplissent le traitement parallèle, de sorte qu'une énorme quantité de temps nécessaire pour l'appren- rates that perform parallel processing, so that a huge amount of time is required for learning.
tissage peut être manipulée par le traitement parallèle. weaving can be manipulated by parallel processing.
Dans les procédés établis, une configuration de référence spécifique est déterminée préalablement, ou une abondance de règles ayant trait à des données de parole sont programmées une par une Tandis que dans le système utilisant le réseau neuronal, puisque les caractéristiques révélées extérieurement d'information sont apprises, des configurations peuvent être classées sans nécessiter une instruction spécifique pour une information de variation de caractéristiques, et de meilleures performances peuvent In the established procedures, a specific reference configuration is determined beforehand, or an abundance of rules relating to speech data are programmed one by one while in the system using the neural network, since the externally revealed characteristics of information are learned configurations can be categorized without requiring specific instruction for feature variation information, and better performance can be
être obtenues par rapport à une configuration modifiée. be obtained with respect to a modified configuration.
Un modèle de réseau neuronal représentatif qui introduit A representative neural network model that introduces
réellement le réseau neuronal en tant que procédé de-recon- actually the neural network as a de-recognizing process
naissance de la parole pour améliorer des performances de la parole est un réseau neuronal à retard temporel (TDNN) qui a montré des performances dans la reconnaissance de la parole par phonème syllabique Egalement, une expérience dans laquelle un sous-réseau correspondant à un groupe phonologique est formé en tant que module s'est traduite par une extension de la plage d'objets reconnus, sans birth of speech to improve speech performance is a time-delay neural network (TDNN) that has shown performance in speech recognition by syllabic phoneme Also, an experiment in which a sub-network corresponding to a phonological group is formed as a module resulted in an extended range of recognized objects without
abaisser la vitesse de reconnaissance élevée du sous- lower the high recognition speed of the sub-
reseau.network.
Afin d'appliquer réellement et d'utiliser suf- In order to actually apply and use suf-
fisamment les caractéristiques du réseau neuronal décrit ci-dessus, une réalisation de circuit est nécessaire mais, contrairement à une simulation par logiciel, celle-ci présente de nombreuses limitations Par conséquent, un réseau neuronal de perception à couches multiples à entrée In addition to the characteristics of the neural network described above, a circuit realization is necessary but, unlike software simulation, this has many limitations. Therefore, an input multi-layered neural grating
commandée (IDMLP) est proposé.ordered (IDMLP) is proposed.
Egalement, puisque la caractéristique de fréquence diffère selon chaque parleur même bien que le même mot soit prononcé (c'est-à-dire dûe à la diversité de vitesse de parole), la théorie des ensembles flous est introduite. Also, since the frequency characteristic differs according to each speaker even though the same word is pronounced (i.e., due to speech rate diversity), the fuzzy set theory is introduced.
Un des buts de la présente invention est de pro- One of the aims of the present invention is to
poser un système de reconnaissance de la parole de mono- to set up a system of speech recognition of mono-
syllabes coréennes, utilisant un réseau neuronal et un algo- Korean syllables, using a neural network and an algo-
rithme s'adaptant à une configuration floue. rithm that adapts to a fuzzy configuration.
Pour atteindre le but précité de la présente invention, on prévoit un système de reconnaissance de la parole comportant: des moyens d'entrée de parole pour entrer un signal de parole; des moyens d'analyse de parole pour diviser le signal de parole provenant des moyens d'entrée de parole en des bandes de fréquences prédéterminées pour exprimer le signal de parole divisé en tant que niveau d'énergie dans chaque bande de fréquences; et To achieve the above object of the present invention, there is provided a speech recognition system comprising: speech input means for inputting a speech signal; speech analysis means for dividing the speech signal from the speech input means into predetermined frequency bands for expressing the divided speech signal as the energy level in each frequency band; and
un calculateur hôte pour entrer le signal pro- a host computer to enter the signal
venant des moyens d'analyse de parole, numériser le signal de parole en comparant le niveau d'énergie de chaque bande de fréquences par rapport au niveau d'énergie d'une bande de fréquences voisine, et délivrer extérieurement from the speech analysis means, digitizing the speech signal by comparing the energy level of each frequency band with respect to the energy level of a neighboring frequency band, and outputting externally
un signal de parole correspondant à des données numérisées. a speech signal corresponding to digitized data.
Les buts précités et avantages de la présente The aforementioned aims and advantages of this
invention ressortiront mieux de la description détaillée invention will be better apparent from the detailed description
d'un mode de réalisation préféré de celle-ci en référence aux dessins annexés sur lesquels: la Figure 1 est un schéma synoptique représentant une structure de circuit pour effectuer une analyse de la parole selon la présente invention la Figure 2 représente un mode de réalisation d'un amplificateur analogique de la Figure 1 selon la présente invention; la Figure 3 représente un mode de réalisation de l'analyseur de parole de la Figure 1 selon la présente invention; la Figure 4 représente un signal de sortie à une seule trame de l'analyseur de parole par rapport à une voyelle coréenne parlée; la Figure 5 est un organigramme représentant l'analyse de parole de l'analyseur de parole; la Figure 6 est un organigramme représentant une étape d'extraction de données d'analyse de la parole; la Figure 7 représente la réponse spectrale d'un signal de parole of a preferred embodiment thereof with reference to the accompanying drawings in which: Fig. 1 is a block diagram showing a circuit structure for performing speech analysis according to the present invention; Fig. 2 shows an embodiment an analog amplifier of Figure 1 according to the present invention; Figure 3 shows an embodiment of the speech analyzer of Figure 1 according to the present invention; Figure 4 shows a single-frame output signal of the speech analyzer relative to a spoken Korean vowel; Figure 5 is a flowchart showing speech analysis of the speech analyzer; Fig. 6 is a flowchart showing a step of extracting speech analysis data; Figure 7 shows the spectral response of a speech signal
la Figure 8 représente une réponse spectrale nu- FIG. 8 represents a spectral response
mérisée du signal de parole de la Figure 7; la Figure 9 représente les étapes de numérisation de données rendues floues; merited the speech signal of Figure 7; Figure 9 shows the steps of digitizing data made fuzzy;
la Figure 10 représente une structure d'un ré- Figure 10 shows a structure of a
seau neuronal modulaire IDMLP; la Figure 11 est un tableau représentant des syllabes à classer en consonnes-voyelles monosyllabiques; et les Figures 12 A à 12 E représentent un taux de modular neuronal bucket IDMLP; Figure 11 is an array of syllables to classify into monosyllabic consonants-vowels; and FIGS. 12A to 12E show a rate of
classification respectif par rapport à chaque module. respective classification with respect to each module.
Sur la Figure 1, un système de reconnaissance de la parole comprend: un microphone 10 pour entrer une parole; un amplificateur analogique 20 pour amplifier la parole du microphone 10; un analyseur de parole 30 pour analyser un signal de parole provenant de l'amplificateur analogique 20; un panneau d'interface 40 pour assurer In Figure 1, a speech recognition system comprises: a microphone 10 for inputting speech; an analog amplifier 20 for amplifying the speech of the microphone 10; a speech analyzer 30 for analyzing a speech signal from the analog amplifier 20; an interface panel 40 to ensure
l'interface avec un calculateur personnel (PC); des mé- the interface with a personal computer (PC); some
l O canismes d'entraînement de disques durs et souples (HDD et FDD) 50 pour échanger des données avec le calculateur un calculateur hôte 60 relié au panneau d'interface 40 et aux HDD et FDD 50; un clavier 70 qui constitue une unité d'entrée du calculateur hôte 60; et un moniteur 80 qui hard disk drive and flexible drive mechanisms (HDD and FDD) for exchanging data with the computer a host computer 60 connected to the interface panel 40 and the HDD and FDD 50; a keyboard 70 which constitutes an input unit of the host computer 60; and a monitor 80 that
constitue une unité de sortie du calculateur hôte 60. constitutes an output unit of the host computer 60.
Le circuit analogique pour l'entrée de la parole comme représenté sur la Figure 2 est conçu pour régler le volume de la parole entrée, en utilisant une résistance variable Un amplificateur différentiel 90 (par exemple une puce TLO 72 CP) possède une largeur de bande de fréquence au-delà de 10 K Hz puisque les fréquences vocales humaines normales vont jusqu'à 7 K Hz Puisque les signaux numériques et analogiques sont mélangés dans la partie d'analyse de The analog circuit for speech input as shown in Figure 2 is designed to adjust the volume of speech input, using a variable resistor. A differential amplifier 90 (eg, a TLO 72 chip) has a bandwidth. frequency above 10 KHz since normal human speech frequencies are up to 7 KHz. Since digital and analog signals are mixed in the analysis portion of
la parole, une grande attention doit être prêtée au bruit. speech, great attention must be paid to noise.
Dans la présente invention, un tel bruit est éliminé en utilisant un condensateur présentant une capacité d'environ In the present invention, such noise is eliminated by using a capacitor having a capacitance of about
0,1 RF Le signal de sortie de l'étage amplificateur ana- 0.1 RF The output signal of the analog amplifier stage
logique est utilisé en tant que signal d'entrée pour logic is used as an input signal for
l'analyseur de parole 30 qui délivre des données à 8 bits. the speech analyzer 30 which delivers 8-bit data.
La Figure 3 est un schéma synoptique représentant un mode de réalisation de l'analyseur de parole 30 qui est divisé en deux parties L'une est une partie d'interface comprenant un comparateur à 8 bits 31 (par exemple une puce 74 L 5688) et une puce d'interface 32 (par exemple, Fig. 3 is a block diagram showing an embodiment of the speech analyzer 30 which is divided into two parts. One is an interface part comprising an 8-bit comparator 31 (for example a chip 74 L 5688). and an interface chip 32 (for example,
un 8255 PPI), et la partie effectuant l'analyse de la pa- 8255 PPI), and the party performing the analysis of the
role (chiffre de référence 33 désignant par exemple, une puce p PD 7763) Puisque la puce 74 L 5688 est une puce du type à collecteur ouvert, une résistance élévatrice 35 est For example, since chip 74 L 5688 is an open-collector type chip, a resistor 35 is
montée entre la sortie (broche 19) et une source d'ali- mounted between the output (pin 19) and a power source
mentation (Vcc) En utilisant la puce 8255 P Pl pour consti- (Vcc) Using the 8255 P Pl chip for
tuer l'interface avec le PC, le panneau d'interface est conçu et fabriqué de façon simple Les puces 8255 P Pl et p PD 7763 sont commandées au moyen du calculateur hôte kill the interface with the PC, the interface panel is designed and manufactured in a simple way The chips 8255 P Pl and p PD 7763 are controlled by means of the host computer
, qui sera décrit plus en détail en référence au logiciel. , which will be described in more detail with reference to the software.
L'entrée d'adresse et de signaux de données à la puce d'analyseur de parole 33 utilise les bus de données et des bus d'adresses et une horloge à 4 M Hz est nécessaire pour synchroniser le fonctionnement de son circuit intérieur, ce qui est résolu au moyen d'un oscillateur à cristal The address and data signal input to the speech analyzer chip 33 uses data buses and address buses, and a 4 MHz clock is required to synchronize the operation of its internal circuit. which is solved by means of a crystal oscillator
à 4 M Hz 34.at 4 M Hz 34.
Une entrée RESTAURATION à la puce d'interface 32 A RESTORE entry to the interface chip 32
restaure automatiquement lorsque le calculateur est ini- restores automatically when the calculator is
tialisé en reliant la borne de restauration dans un secteur tialized by connecting the bollard in one area
I/O du calculateur hôte 60.I / O of the host computer 60.
La restauration de la puce d'analyseur de parole 33 doit être effectuée avant de fixer un mode d'entrée, mais le circuit global devient excessivement encombrant en opérant ainsi Ce problème est résolu dans la présente invention par l'emploi de la puce 8255 P Pl et du logiciel associé Plus en détail, une valeur correspondant au signal de restauration est transférée le long du bus de données jusqu'à la borne de restauration de la puce d'analyseur de parole 33 par l'intermédiaire d'un port de sortie de The restoration of the speech analyzer chip 33 must be performed before setting an input mode, but the overall circuit becomes excessively cumbersome thereby operating. This problem is solved in the present invention by the use of the 8255P chip. Pl and the associated software In more detail, a value corresponding to the restoration signal is transferred along the data bus to the restoration terminal of the speech analyzer chip 33 via an output port of
la puce d'interface 32.the interface chip 32.
Lorsqu'une borne de trame TRAME de la puce 33 When a FRAME frame terminal of the chip 33
de l'analyseur de parole délivre un " 1 " logique qui repré- the speech analyzer delivers a logical "1" that represents
sente l'achèvement de l'analyse d'une trame, le calcula teur lit la valeur d'une série de filtres à 16 canaux à l'intérieur de la puce de l'analyseur de parole lui-même. En utilisant la puce d'interface 32 en tant qu'interface de cette partie, la partie de prétraitement exigeant le plus de temps pour reconnaître la parole est constituée At the completion of the analysis of a frame, the calculator reads the value of a series of 16-channel filters inside the chip of the speech analyzer itself. By using the interface chip 32 as the interface of this part, the pretreatment part requiring the most time to recognize speech is constituted
au moyen de circuits constituant ainsi un système de recon- by means of circuits thus constituting a system of recognition
naissance de la parole en temps réel dans son ensemble. birth of speech in real time as a whole.
Ainsi, bien qu'une quantité importante de temps est gaspillée pour analyser des signaux de parole en So, although a significant amount of time is wasted to analyze speech signals in
utilisant une simulation logicielle générale, dans la pré- using a general software simulation, in the pre-
sente invention, le signal de sortie d'un filtre passe- In this invention, the output signal of a pass filter is
bande à 16 canaux est obtenue dans le circuit, de sorte que le temps nécessaire est réduit pour ainsi former un système pouvant être utilisé pour une reconnaissance de 16-channel band is obtained in the circuit, so that the time required is reduced to thus form a system that can be used for a recognition of
la parole en temps réel.speech in real time.
Le tableau 1 ci-après représente les caractéris- Table 1 below represents the characteristics of
tiques de fréquence des 16 filtres passe-bande à l'inté- frequency ticks of the 16 bandpass filters in the
rieur de l'analyseur de parole 30 de la Figure 1. of the speech analyzer 30 of Figure 1.
TABLEAU 1TABLE 1
La Figure 5 représente les signaux de sortie d'une trame provenant de l'analyseur de parole 30 (Figure Figure 5 shows the output signals of a frame from the speech analyzer 30 (FIG.
1) par rapport à une voyelle coréenne, permettant l'obser- 1) in relation to a Korean vowel, allowing observation of
vation du formant de la voyelle Ainsi, le système d'ana- of the vowel trainer Thus, the system of analysis
lyse de la parole conçu et fabriqué selon la présente Speech lysis designed and manufactured according to this
invention ne présente pas des inconvénients tels que l'exi- invention does not present disadvantages such as the requirement
gence d'un panneau de prétraitement. a pre-treatment panel.
FILTRE # FREQUENCE DE FREQUENCE FREQUENCE DE FILTER # FREQUENCY FREQUENCY FREQUENCY OF
COUPURE CENTRALE COUPURECENTRAL CUT-OFF
(BASSE) (HAUTE)(BASS) (HIGH)
BPF 1 40 Hz 250 Hz 640 Hz BPF 2 120 Hz 450 Hz 820 Hz BPF 3 250 Hz 650 Hz 1060 Hz BPF 4 380 Hz 850 Hz 1240 Hz BPF 5 660 Hz 1050 Hz 1400 Hz BPF 6 850 Hz 1250 Hz 1650 Hz BPF 7 1080 Hz 1450 Hz 1940 Hz BPF 8 1210 Hz 1650 Hz 2140 Hz BPF 9 1450 Hz 1900 Hz 2500 Hz BPF 10 1510 Hz 2150 Hz 2800 Hz BPF 11 1810 Hz 2500 Hz 3280 Hz BPF 12 2200 Hz 2900 Hz 3720 Hz BPF I 3 2560 Hz 3300 Hz 4280 Hz BPF 14 2900 Hz 3800 Hz 4740 Hz BPF 15 3100 Hz 4500 Hz 6440 Hz BPF 16 3720 Hz 5400 Hz 7400 Hz La constitution du logiciel est double Tout d'abord, un programme de commande permet à un utilisateur d'utiliser aisément le panneau d'analyse de parole conçu et fabriqué comme dans ce qui précède Un tel programme de commande fixe les modes de fonctionnement de la puce d'interface 32 et de la puce d'analyseur de parole 33, et rythme l'entrée et/ou la sortie de données En second lieu, un autre programme détecte un intervalle de parole à partir des données interprétées comme se trouvant dans une région de fréquences spécifique après avoir traversé la puce d'analyseur de parole 33, normalise différemment des longueurs articulées, et enfin numérise des données GMP 1 40 Hz 250 Hz 640 Hz GMP 2 120 Hz 450 Hz 820 Hz GMP 3 250 Hz 650 Hz 1060 Hz GMP 4 380 Hz 850 Hz 1240 Hz GMP 5 660 Hz 1050 Hz 1400 Hz GMP 6 850 Hz 1250 Hz 1650 Hz GMP 7 1080 Hz 1450 Hz 1940 Hz GMP 8 1210 Hz 1650 Hz 2140 Hz GMP 9 1450 Hz 1900 Hz 2500 Hz GMP 10 1510 Hz 2150 Hz 2800 Hz GMP 11 1810 Hz 2500 Hz 3280 Hz GMP 12 2200 Hz 2900 Hz 3720 Hz GMP I 3 2560 Hz 3300 Hz 4280 Hz BPF 14 2900 Hz 3800 Hz 4740 Hz BPF 15 3100 Hz 4500 Hz 6440 Hz BPF 16 3720 Hz 5400 Hz 7400 Hz The constitution of the software is twofold First of all, a control program allows a user to easily use the speech analysis panel designed and manufactured as in the foregoing Such a control program sets the operating modes of the interface chip 32 and the speech analyzer chip 33, and paces the input and / or the data output Second, another program detects a speech interval from the data interpreted as being in a region of specific equations after traversing the speech analyzer chip 33, normalizes differently articulated lengths, and finally digitizes data
utilisées en tant qu'entrée au réseau neural IDMLP. used as input to the IDMLP neural network.
La détermination du mode de fonctionnement de la puce d'interface 32 est de désigner un point de connexion The determination of the mode of operation of the interface chip 32 is to designate a connection point
qui effectue l'entrée et la sortie selon un mode opération- which makes the entry and exit in an operating mode
nel fondamental Dans la présente invention, "PAO" et "P Bl" sont fixés en tant que ports de sortie, et le port "PBI" est désigné également en tant que port In the present invention, "PAO" and "P Bl" are set as output ports, and the "PBI" port is also designated as a port.
d'entrée Le mode de fonctionnement ci-dessus est détermi- The above operating mode is determin-
né en utilisant des commandes de logiciel de langage C Port de sortie b(Ox 307, Ox 82);/*Sortie Port A&B, Entrée Port B*/ Dans la structure du circuit, la puce d'interface 32 est utilisée pour initialiser la puce d'analyseur de parole 33 et vérifier l'achèvement de l'analyse de la parole Par conséquent, le premier programme ci-dessus born using C language software commands Output port b (Ox 307, Ox 82); / * Port A & B output, Port B input * / In the circuit structure, the interface chip 32 is used to initialize the port. speech analyzer chip 33 and check the completion of the speech analysis Therefore, the first program above
pour commander la puce d'interface 32 est très simple. to control the interface chip 32 is very simple.
Ensuite, le second programme ci-dessus pour com- Then the second program above to compare
mander la puce d'analyseur de parole 33 est nécessaire. it is necessary to call the speech analyzer chip 33.
A cet instant, le temps requis pour analyser les données At this moment, the time required to analyze the data
et lire les données analysées doit être calculé soigneuse- and read the analyzed data must be calculated carefully
ment pour s'assurer que la totalité du système est stable. to ensure that the entire system is stable.
La puce d'analyse de parole doit être initialisée The speech analysis chip must be initialized
en utilisant la puce d'interface 32 en exécutant les comman- using the interface chip 32 by executing the commands
des en langage C suivantes: Port de sortie b( O x OO);/*Signal de Restauration p PD 7763 */ Retard( 1);/*Durée du Signal de Restauration*/ Port de sortie b( O xll);/*Signal de Restauration Libre*/ Puisque le signal de restauration initialise le the following C language: Output port b (O x OO); / * Restore signal p PD 7763 * / Delay (1); / * Restore Signal Time * / Output port b (O xll); * Free Restore Signal * / Since the restore signal initializes the
système, la commande ci-dessus retard (int) devient nécessaire. system, the command above delay (int) becomes necessary.
Le contrôleur d'entrée/sortie de la puce d'analy- The input / output controller of the analyzer chip
seur de parole 33 commande les opérations de données d'en- Speech Manager 33 controls the data operations of
trée/sortie extérieures, en utilisant les bornes de bus external trea / output, using the bus terminals
de données DBO-DB 7.DBO-DB 7.
Le tableau 2 ci-dessous est donné pour expliquer des opérations selon cinq signaux de commande CS, WR, RD, Table 2 below is given to explain operations according to five control signals CS, WR, RD,
A O et A 1.At O and A 1.
TABLEAU 2TABLE 2
CS RD WR A O A 1 Opération O 1 O O PC CSR-0 (gain & durée trame) 0 1 O 1 PC CSR-1 (fréquence coupure basse & ég marche/arrêt) CS RD WR A O A 1 Operation O 1 O O PC CSR-0 (gain & frame duration) 0 1 O 1 PC CSR-1 (low cutoff frequency & on / off)
0 O 1 1 O CSR-0 ->PC0 O 1 1 O CSR-0 -> PC
0 O 1 1 1 CSR-1 _>PC0 O 1 1 1 CSR-1 _> PC
0 O 1 O Premier entrée-premier sorti -> PC Après libération du signal de restauration, un mode de fonctionnement doit être fixé à l'intérieur de 378 gs Le mode de fonctionnement de la puce d'analyseur 0 O 1 O First in-first out -> PC After the recovery signal is released, an operating mode must be set within 378 gs The operating mode of the analyzer chip
de parole 33 est fixé en écrivant des données sur un re- 33 is fixed by writing data on a re-
gistre de commande/état (CSR) à l'intérieur de la puce par l'intermédiaire du bus de données, dans lequel les types de mode de fonctionnement pouvant être commandés par le calculateur sont: ( 1) la durée d'une trame analysée, ( 2) le gain du préamplificateur, ( 3) la fonction marche/ arrêt d'un égaliseur, et ( 4) la fréquence de coupure d'un control / status register (CSR) within the chip via the data bus, wherein the types of operating mode that can be controlled by the computer are: (1) the duration of a scanned frame , (2) the preamplifier gain, (3) the on / off function of an equalizer, and (4) the cutoff frequency of a
filtre passe-bas.low pass filter.
Ces quatre informations élémentaires sont obte- These four basic information are obtained
nues en écrivant des données sur le CSR par l'intermédiaire du bus de données à l'intérieur du calculateur Ici, en utilisant à nouveau le langage C, elles peuvent être obtenues comme suit: Port de sortie b(Ox 304, Ox 4 c);/*Od B, 16 ms*/ Port de sortie b(Ox 304, Ox 02);/* 25 Hz, EQ ARRET*/ La Figure 5 représente un organigramme global naked by writing data on the CSR via the data bus inside the calculator Here, using the C language again, they can be obtained as follows: Output port b (Ox 304, Ox 4 c ) / * Od B, 16 ms * / Output port b (Ox 304, Ox 02); / * 25 Hz, OFF EQ * / Figure 5 represents a global flowchart
depuis l'entrée de la parole jusqu'à la lecture des résul- from the speech input to the reading of the results
tats -analysés.state-analyzed.
La Figure 6 représente une étape de détection Figure 6 shows a detection step
de l'intervalle de parole et d'obtention de données nu- the range of speech and the obtaining of nu-
mérisées à utiliser en tant qu'entrée du réseau neuronal IDMLP, qui est exécutée après mémorisation du signal de sortie de l'analyseur de parole dans une mémoire du merited to use as an input of the IDMLP neural network, which is executed after storing the output signal of the speech analyzer in a memory of the
calculateur par l'intermédiaire de la puce d'interface 32. computer via the interface chip 32.
Dans la présente invention, une longueur de trame est fixée à 16 ms L'intervalle de parole doit être détecté In the present invention, a frame length is set at 16 ms. The speech interval must be detected
en données complètement analysées Dans la présente inven- in completely analyzed data In the present invention
tion, lorsque le niveau d'énergie d'une trame est supérieur when the energy level of a frame is higher than
à une tension de seuil prédéterminée, la trame est détermi- at a predetermined threshold voltage, the frame is determined
née comme étant égale à la longueur de l'intervalle de parole Lorsqu'une personne répète plusieurs fois le même mot, les longueurs des mots prononcés sont rarement les mêmes, de sorte qu'une normalisation d'axe des temps doit être effectuée Lorsqu'un mot monosyllabique est répété, il dure généralement de 8 à 26 trames Ainsi, 15 trames sont fixées comme référence, la normalisation d'axe des temps est effectuée, et les données obtenues ci-dessus equal to the length of the speech interval When a person repeats the same word several times, the lengths of the spoken words are rarely the same, so that a time axis normalization must be performed When a monosyllabic word is repeated, it generally lasts from 8 to 26 frames Thus, 15 frames are fixed as reference, the time axis normalization is performed, and the data obtained above
sont numérisées.are digitized.
Conformément à la présente invention, afin d'être utilisées en tant qu'entrée d'un réseau neuronal IDMLP, l'étape depuis l'entrée du microphone à la sortie de la série de filtres à 16 canaux est réalisée en circuit, pour ainsi économiser le temps de collecte des données d'entrée. L'étape d'extraction des données d'entrée est de saisir les données décrites ci-dessus finalement nor malisées et numérisées, et est effectuée comme ci-dessous In accordance with the present invention, in order to be used as input to an IDMLP neural network, the step from the input of the microphone to the output of the 16-channel filter series is performed in circuit, thereby save time collecting input data. The step of extracting the input data is to enter the data described above finally standardized and digitized, and is performed as below
1 Le signal de parole est reçu par l'intermé- 1 The speech signal is received through the
diaire du microphone.microphone.
2 En utilisant le circuit de la Figure 2, le signal de parole reçu est amplifié à un volume correct pour être utilisé en tant qu'entrée de l'analyseur de 2 Using the circuit of FIG. 2, the received speech signal is amplified to a correct volume to be used as input to the speech analyzer.
parole 30.word 30.
3 Le résultat de l'analyse est lu de l'analyseur 3 The result of the analysis is read from the analyzer
de parole.of speech.
4 L'intervalle de parole est détecté, en utili- 4 The speech interval is detected, using
sant la valeur de seuil prédéterminée. the predetermined threshold value.
L'intervalle de parole est normalisé par rapport à l'axe des temps correspondant à la trame de référence. 6 La sortie de chaque filtre passe-bande est comparée à celle de son filtre adjacent, en numérisant The speech interval is normalized with respect to the time axis corresponding to the reference frame. 6 The output of each bandpass filter is compared to that of its adjacent filter, by digitizing
ainsi leurs niveaux d'énergie relatifs. thus their relative energy levels.
Le tableau 3 ci-après représente les données résultant de l'étape de détection d'intervalle de parole ci-dessus. 0 ú 1 Ol ú J 9 o Oz LZ LZ L L 91 IL O 6 11 0 O Il It 9 si 91 zi IL 8 V LI HI 8 O UL 09 811 O O 9 9 r 1V ZI L V Lú I 1 1 L L LIú Ol L 6 9 V Vz LE IL 9 V 8 V L Lz LI Vu L 98 911 0 t I Oz 81 Lt 61 LZ 6 Z 99 V 9 El' ti Ol VI L L 6 9 Iú 0 ú 8 8 S LZ 9 z 91 01 9 V 8 V 8 U 9 L IL Voi t II Vi 9 t I I UL O ú 1 Vz LZ oz IV z i Zú V 6 LIJI L LZ Iz si 91 zz PZ LE L E Il 1 VI i z 6 V 01 Z Il O ZI Vz s Z 9 1 91 Vz Vg 88 97 Z oz L I 8 V tzzl II s I 8 9 z 9 z 1 Vt 9 z 91 Vi Z 8 ú 9 9 V 6 L O V 09 LZ 011 L zz 81 zz Lt 61 CI VV Os Z 9 19 811 901 LJI 861 Z 91 1 it 61 Oz OL 9 V LC úZ 9 ú 9 V 19 IL 98 L O ZZI L 81 OLU 9 V 1 98 81 It 61 6 V t V OV çz 6 L Z: EL LOI M 6 99 V 81 91 Z OLI 8 L LI zi t I 1 z LL LL LL 8 Z LV 99 6 V Vt 011 O Vi 901 ZOI 91 ZI 91 8 Z 6 81 ZL O Lg OZ O i Z 69 69 Lú z 8 9 I 0 z VI ZI 9 ú 1 01 LI OL Vz 61 LI LZ LL 6 L 1 g t I z O Z 6 61 91 8 O I LI oz 61 Lz 91 9 9 z OV Uú 91 Ol z O 8 zz 8 i O 8 9 Il si O Il l I it lú ZI 81 ZI O ú ZI LI LT 61 L V Ll 1 91 z I IZ 91 t 1 tdzg l_Id 1,012 f_ 69 _J_ 8 L _ 9 9 A _V_ L _ 1Ii-_ I__ E flïa 1 'IúlVl On Lf, to 0, Nt La Figure 7 représente la réponse spectrale du Table 3 below represents the data resulting from the speech interval detection step above. 0 ú 1 Ol ú J 9 o Oz LZ LZ LL 91 IL O 6 11 0 O Il It 9 if 91 zi IL 8 V LI HI 8 O UL 09 811 OO 9 9 r 1V ZI LV Lú I 1 1 LL LIú Ol L 6 9 V VZ LE IL 9 V 8 VL Lz LI Seen L 98 911 0 t I Oz 81 Lt 61 LZ 6 Z 99 V 9 El 'ti Ol VI LL 6 9 Iú 0 ú 8 8 S LZ 9 z 91 01 9 V 8 V 8 U 9 L IL Voi t II Vi 9 t II UL O ú 1 Vz LZ oz IV zi Zú V 6 LIJI L LZ Iz if 91 zz PZ THE LE Il 1 VI iz 6 V 01 Z Il O ZI VZ Z 9 1 91 Vz Vg 88 97 Z oz LI 8 V tzzl II s I 8 9 z 9 z 1 Vt 9 z 91 Vi Z 8 ú 9 9 V 6 LOV 09 LZ 011 L zz 81 zz Lt 61 CI VV Bone Z 9 19 811 901 LJI 861 Z 91 1 it 61 Oz OL 9 V LC úZ 9 ú 9 V 19 IL 98 LO ZZI L 81 OLU 9 V 1 98 81 It 61 6 V t V OV çz 6 LZ: EL LAW M 6 99 V 81 91 Z OLI 8 L LI zi t I 1 z LL LL LL 8 Z LV 99 6 V Vt 011 O Vi 901 ZOI 91 ZI 91 8 Z 6 81 ZL O Lg OZ O i Z 69 69 L u z 8 9 I 0 z VI ZI 9 ú 1 01 LI OL Vz 61 LI LZ LL 6 L 1 gt I z OZ 6 61 91 8 OI LI oz 61 Lz 91 9 9 z OV Uu 91 O l z O 8 zz 8 i O 8 9 Il o O l I it lú ZI 81 ZI O º ZI LI LT 61 LV Ll 1 91 z Figure 7 shows the spectral response of the system, and is shown in Figure 7.
signal de parole.speech signal.
La Figure 8 représente un spectre de fréquences Figure 8 shows a frequency spectrum
numérisé Ici, le niveau d'énergie de chaque filtre passe- Here, the energy level of each filter passes
bande lu de l'analyseur de parole est comparé à la sortie du filtre dont la bande est immédiatement inférieure, de sorte qu'un " 1 " logique est fixé en tant que sortie du filtre lorsque sa valeur de sortie est supérieure à celle du filtre de fréquence inférieure (lorsque Ef Nî 1 C Ef N) et un "" logique est fixé dans le cas d'une valeur plus faible (lorsque Ef Nî > Ef N> Le tableau 4 ci-après représente le signal de sortie de parole numérisé obtenu en utilisant le procédé The read band of the speech analyzer is compared to the output of the filter whose band is immediately below, so that a logical "1" is set as the output of the filter when its output value is greater than that of the filter. of lower frequency (when Ef Nl 1 C Ef N) and a logic "" is fixed in the case of a lower value (when Ef N1> Ef N> Table 4 below represents the digitized speech output signal obtained using the process
décrit ci-dessus (Ici, le nombre de bits d'entrée corres- described above (Here, the number of input bits corre-
pondant à une trame est quinze).laying at one frame is fifteen).
o I T O O O O O O O O O O O I 1 l O O O O O I I O O T T T T O O 1 Il o I T O O O O O O O O I 1 O O O O I I O O T T T O O 1
I O O O O T T O O T O O I O O I 111I O O O T O O T O O I O O I 111
O O I I O O O O O I I I O O O ZI IlO O I I O O O O I I I O O O ZI It
O O O O T I O O I I I O O O IILO O O T I O O I I I O O O IIL
I I O O O I O O O O I I O O O O llI I O O O I O O O I I O O O O L
O O O I O O O O I I I T O O 61O O O I O O O I I T IO O 61
_ O O O O I T O O I t I O O O 8 L 1 I O I O O O O O O O I O O I I Li _ O O O I T O O I T I O O O 8 L 1 I O I O O O O O I O O I I Li
O O I I I O O O O I O O O I _ 9 LO O I I O O O I O O O I _ 9 L
I O O O T O I O O I I O O I II O O T O I O O I I O O I I I
O I T O O O O O T I O O I I O t ILO I T O O O O T I O O I I O IT
O O O O _ I O O O I O I _ O O ú 1O O O O I O O O I O I _ O O 1
I t O O I I I I O O I O O I ZLI t O O I I I O O I O O I ZL
O _ I O O O I O I O O O O TLO _ I O O O O O O O O O O TL
| _I_ |bl Ia |Z If | _Ia I| 01 Jl 6 _ | 8 J_ LJ | 9 I_ t_ afa J _L ___ - | _I_ | bl Ia | Z If | _Ia I | 01 Jl 6 _ | 8 J_ LJ | 9 I_ t_ afa J _L ___ -
17 flvt IE Li/ on a' Co O) to a' N Le tableau 4 représente le signal de sortie de Figure 4 shows the output signal of
parole numérisé obtenu en utilisant le procédé décrit ci- digitized speech obtained using the method described above.
dessus (Ici, le nombre de bits d'entrée correspondant à (Here, the number of input bits corresponding to
une trame est quinze).a frame is fifteen).
Dans la présente invention, en tant qu'étape In the present invention, as a step
antécédente de reconnaissance de parole coréenne monosyl- antecedent of Korean speech recognition monosyl-
labique, la théorie des ensembles flous et la capacité labics, fuzzy set theory and the ability
d'adaptation précédente du réseau neuronal IDMLP sont expé- previous adaptation of the IDMLP neural network are
rimentées pour reconnaître des chiffres prononcés de " O " à " 9 " (qui sont monosyllabiques en coréen) Egalement, dans la reconnaissance utilisant le réseauneuronal IDMLP, chaque syllabe des données de parole est rendue floue avec le résultat appris, de sorte que les expériences de reconnaissance sont effectuées par rapport au résultat appris au moyen d'une syllabe de données de parole, et la possibilité de combinaison du réseau neuronal et de la to recognize pronounced numbers from "O" to "9" (which are monosyllabic in Korean) Also, in the recognition using the IDMLP network, each syllable of the speech data is blurred with the learned result, so that the experiments recognition of the learned result by means of a syllable of speech data, and the possibility of combining the neural network and the
théorie des ensembles flous est mesurée. fuzzy set theory is measured.
La Figure 9 représente l'étape de numérisation Figure 9 represents the scanning step
des données rendues floues.data made fuzzy.
Chaque syllabe des données de parole obtenue en prononçant les chiffres de " O " à " 9 " dix fois est doublée Each syllable of the speech data obtained by pronouncing the numbers from "O" to "9" ten times is doubled
et rendue floue, et les données rendues floues sont en- and blurred, and the blurred data is
suite numérisées à une valeur de seuil appropriée. digitized to an appropriate threshold value.
Le tableau 5 ci-après représente le résultat Table 5 below represents the result
de la numérisation ci-dessus des données rendues floues. from the above digitization of the data made fuzzy.
I O O I O O I O O I O O O O SILI O O I O O I O O O O O O SIL
O O O O I O I O O I O O O O 17 ilO O O O I O I O O O O O O 17
O O O I O I O O O O I O O () I ú 11 O O O I O I O O O O O O () I ú 11
O O O i O I O O O O I O O O I ú 11 0 0 0 t 0 t 0 0 0 0 t 0 0 0 l Etú O O O 1 O O O O O I O O O 1 til O O O O O O O O O O O I ú 11 0 0 0 t 0 t 0 0 0 0 t 0 0 0 l Et O O O O O O O O O O O 1 til
0 O O I O I O O O O I O O I I 0110 O O I O I O O O I O O I I 011
O O O I O I O O O O I O O I I 6 L 1O O O I O I O O O I O O I I 6 1
0 O O I O I O O O O I O O I I 810 O O I O I O O O I O O I I 81
0 O O I O I O O O O I O O I I Li0 O O I O I O O O I O O I I Li
0 O O I O I I O O I O O I I 910 O O I O I I O O I O O I I 91
0 0 0 t 0 t t 0 0 I t 0 0 t S Ig 0 O I O o I O O O I O O I I t'L 0 O O I O O O O I T 00 I I b L 0 O o O 1 O O O O O O Iúl 0 _ _ I O l t I O O J O O O O IL | Pl úId|bt 1 Zlà | J 14 01 J 6 J | 84 | L-4 | 9-q |d 5 q új | Zj | d s fl VîIa Ev J on Co t O on CO o. Puisque le nombre de noeuds d'entrée est régulier durant l'apprentissage du réseau, les longueurs des sons 0 0 0 t 0 t t 0 0 I t 0 0 t I 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 I 0 0 0 I 0 0 0 I 0 0 0 0 0 Pl úId | bt 1 Zlà | J 14 01 J 6 J | 84 | L-4 | 9-q | d 5 q új | Zj | Evidence on Co O. Since the number of input nodes is regular during the learning of the network, the lengths of the sounds
prononcés différemment doivent être normalisées par rap- pronounced differently must be standardized
port à l'axe des temps Dans la présente invention, en uti- In the present invention, using the time axis
lisant 15 trames en tant que référence, si la trame d'une reading 15 frames as a reference, if the frame of a
configuration d'entrée est plus longue que la trame de ré- input configuration is longer than the frame
férence, la normalisation selon l'axe des temps est réalisée priority, normalization along the time axis is achieved
pour établir progressivement un intervalle de trame approprié. to progressively establish an appropriate frame interval.
Ici, 200 syllabes de données de parole prononcées par une personne sont utilisées en tant que données d'étude du réseau neural IDMLP, et l'expérience de reconnaissance est effectuée au moyen de 100 syllabes de données de parole à reconnaître qui sont extraites durant trois périodes de Here, 200 syllables of speech data uttered by a person are used as the study data of the neural network IDMLP, and the recognition experiment is performed by means of 100 syllables of speech data to be recognized which are extracted during three periods of
temps différentes (le matin, à midi et le soir), respec- different times (morning, noon and evening), respec-
tivement, afin de déterminer la capacité d'adaptation du système de reconnaissance de parole selon la présente to determine the adaptability of the speech recognition system in accordance with this
invention par rapport à la diversité de données de parole. invention with respect to the diversity of speech data.
Après apprentissage, par rapport aux données d'étude, à la fois les données numérisées et les données rendues After learning, in relation to the study data, both the digitized data and the data rendered
floues présentent un taux de reconnaissance de 100 %. blurs have a recognition rate of 100%.
De plus, par rapport aux données d'essai, l'apprentissage au moyen des données numérisées et des données rendues floues présentent tous deux un taux de reconnaissance élevé (plus de 94 %) Ces résultats expérimentaux sont In addition, with respect to the test data, learning using digitized data and fuzzy data both has a high recognition rate (over 94%). These experimental results are
représentés sur les tableaux suivants. represented on the following tables.
Lorsque le réseau neuronal IDMLP est instruit au moyen des données numérisées, le taux de reconnaissance de l'expérience de reconnaissance est 94 % le matin (tableau 6 A), 99 % à midi (tableau 6 B) et 96 % le soir (tableau 6 C), When the IDMLP neural network is educated using digitized data, the recognition rate for the recognition experiment is 94% in the morning (Table 6A), 99% at noon (Table 6B) and 96% in the evening (Table 6A). 6 C),
pour un taux de reconnaissance global de 96,3 %. for an overall recognition rate of 96.3%.
TABLEAU 6 ATABLE 6 A
X 1 " O " 1 " 1 " i" 2 " | " 3 g" 1 " 4 " 1 51 " ' " 6 " <<" 7 " " 8 ' " 911 reconnaissance X 1 "O" 1 "1" i "2" | "3 g" 1 "4" 1 51 "'" 6 "<<" 7 "" 8' "911 recognition
___ (%)___ (%)
" O " 10 100"O" 10 100
" 1 " 9 i 90"1" 9 i 90
" 2 " 10 100"2" 10 100
" 3 " 10 100"3" 10 100
" 4 "' 10 100"4" '10 100
I " 5 " 10 100I "5" 10 100
1 " 6 " 2 7 1 701 "6" 2 7 1 70
" 7 "' 2 8 80"7" '2 8 80
" 8 " 10 100"8" 10 100
" 9 " 10 100"9" 10 100
TABLEAU 6 BTABLE 6 B
* i" O " " 1 " 1 " 21 '3 " 1 " 411 " 5 " 161 " 711 | 7 8 " 9 " ire onnaissance* i "O" "1" 1 "21 '3" 1 "411" 5 "161" 711 | 7 8 "9" ire onnaissance
" 1 " 10 100"1" 10 100
" 2 "< 10 100"2" <10 100
" 2 " 10 100"2" 10 100
" 31 10 1000"31 10 1000
" 14 " 1 0 100"14" 1 0 100
l'5 " 10 100the 5 "10 100
" 6 " 9 I 90"6" 9 I 90
1 " 7 "q 10 100 g" 8 " l 10 1001 "7" q 10 100 g "8" l 10 100
19 " 10 10019 "10 100
TABLEAU 6 CTABLE 6C
D'autre part, lorsque le réseau neuronal IDMLP est instruit au moyen des données rendues floues, le taux de reconnaissance est 97 % le matin (tableau 6 D), 99 % à midi (tableau 6 E) et 98 % le soir (tableau 6 F), ou un taux de reconnaissance global de 98 %. j f O " s" 1 "'211 tg 3 " 1411 5115 " 6 " 7 " 11 " 8 11 9 recoimnnaissance On the other hand, when the IDMLP neural network is educated using fuzzy data, the recognition rate is 97% in the morning (Table 6D), 99% at noon (Table 6E) and 98% in the evening (Table 6 F), or an overall recognition rate of 98%. j f O "s" 1 "'211 tg 3" 1411 5115 "6" 7 "11" 8 11 9 Reconnaissance
:0 " 10 100" 1 "X 9 1 90: 0 "10 100" 1 "X 9 1 90
" 2 " 10 100"2" 10 100
1 " 3 " 10 1001 "3" 10 100
" 4 " 10 100"4" 10 100
" 5 " 10 100"5" 10 100
" 6 " 1 2 7 1 70"6" 1 2 7 1 70
lt" 7 " 10 100lt "7" 10 100
" 8 " 10 100"8" 10 100
" 9 19-10 100"9 19-10 100
TABLEAU 6 DTABLE 6 D
| O " 1 " | 1 "" 2 " |" 3 " |" 4 " 5 " 1 " 6 " -Q 7 " |" 8 " 1 " 9 " reconnaissance | O "1" | 1 "" 2 "|" 3 "|" 4 "5" 1 "6" -Q 7 "|" 8 "1" 9 "recognition
" 10 I O 100"10 I O 100
t 111 " 9 1 90t 111 "9 1 90
" 2 " 1 10 100"2" 1 10 100
3 " 1 10 1003 "1 10 100
11 " 4 " l 10 10011 "4" l 10 100
11 " 511 10 10011 "511 10 100
11 " 6 " 1 8 1 8011 "6" 1 8 1 80
11 " 711 10 10011 "711 10 100
11811 10 10011811 10 100
" 19 " 1 '10 100"19" 1 '10 100
TABLEAU 6 ETABLE 6 E
" 011 111 11211 3 t" 3 11411 11511 11611 11711 " 8 " " 119 l econnaissance "011 111 11211 3 t" 3 11411 11511 11611 11711 "8" "119 l acknowledgment
___ (%)___ (%)
t" O " 10 100 " 1 "k 10 100t "O" 10 100 "1" k 10 100
211 10 100211 10 100
3 "' 10 1003 "10 100
14 " 11 10 10014 "11 10 100
t 5 10 100t 5 10 100
1 " 6 " I 9 901 "6" I 9 90
11711 10 10011711 10 100
11811 10 10011811 10 100
" 19 " 10 100"19" 10 100
TABLEAU 6 FTABLE 6 F
Ainsi qu'on peut le comprendre des tableaux ci- As can be understood from the tables
dessus, le taux de reconnaissance à midi est le plus élevé parmi les trois instants d'expériences, et les données ayant le taux de reconnaissance le plus mauvais est le chiffre prononcé " 6 " (en coréen). L'apprentissage du réseau neuronal IDMLP est terminé en une fois par rapport à l'apprentissage,soit par les données numérisées, soit par les données rendues floues Bien que la caractéristique structurale du réseau above, the recognition rate at noon is the highest among the three moments of experiments, and the data with the worst recognition rate is the pronounced number "6" (in Korean). The learning of the IDMLP neural network is completed in one time with respect to the learning, either by the digitized data or by the data made fuzzy Although the structural characteristic of the network
neuronal IDMLP n'ait pas été vérifiéei le ésultat de recon- neuronal IDMLP has not been verified as a result of recognition
naissance ne-présente pas une grande différence lorsque l'apprentissage est effectué à l'aide des données rendues floues, tandis que le taux de reconnaissance des chiffres birth does not make a big difference when learning is done using data made fuzzy, while the rate of recognition of numbers
prononcés est légèrement accru.pronounced is slightly increased.
" 1 | O " 1 l " 1 " " 12 " 3 "# 41 " 5 "' " 611 " 7 8 " " 9 " |reconnaissance "1 | O" 1 l "1" "12" 3 "# 41" 5 "'" 611 "7 8" "9" | recognition
11 " O10 10011 "O10 100
"Iit 9 1 90"Iit 9 1 90
" 2 "' 10 100"2" '10 100
11311 10 10011311 10 100
I 14 " 1 10 100I 14 "1 10 100
1 " 5 " { 10 1001 "5" {10 100
11 " 6 " 11 9 9011 "6" 11 9 90
" 7 " 10 100"7" 10 100
1 " 8 " 10 1001 "8" 10 100
" 9 " 1 -10 100"9" 1 -10 100
Aux fins d'application du réseau neuronal IDMLP For the purpose of applying the IDMLP neural network
à la reconnaissance de mots monosyllabiques coréens, un ré- to the recognition of Korean monosyllabic words, a
seau neuronal de classification de type pour classer les mots en cinq modules orientés sur des voyelles est tout d'abord réalisé, et le réseau total est constitué de six modules de manière à être finalement reconnu par chaque type classification neural bucket to classify the words into five vowel-oriented modules is first realized, and the total network consists of six modules so as to be finally recognized by each
sous-réseau par types classifiés Chaque module est consti- subnet by classified types Each module consists of
tué d'un réseau neuronal IDMLP, la Figure 10 représente la killed by an IDMLP neural network, Figure 10 represents the
structure du réseau neuronal IDMLP modulaire. modular IDMLP neural network structure.
Durant la classification de type, en utilisant During the classification of type, using
cinq sons de voyelles en tant que référence, un son d'en- five vowel sounds as a reference, a sound of
trée est classé en cinq groupes Les phonèmes objectifs à classer sont 70 monosyllabes coréennes d'une structure consonne-voyelle (C-V) formée conjointement avec cinq is classified into five groups The objective phonemes to be classified are 70 Korean monosyllables of a consonant-vowel structure (C-V) formed together with five
voyelles coréennes, comme représenté sur la Figure 11. Korean vowels, as shown in Figure 11.
Les données utilisées pour instruire le réseau Y-neu- The data used to instruct the Y-neu-
ronal de classification de type qui classe le son d'en- type classification which classifies the sound of
trée en cinq groupes sont obtenues en extrayant uniquement la partie voyelle du son d'entrée, en effectuant ainsi l'apprentissage Dans chaque cas, les données utilisées sont de structure monosyllabique C-V et par conséquent, les voyelles peuvent être extraites simplement Puisqu'une in five groups are obtained by extracting only the vowel portion of the input sound, thus performing the learning In each case, the data used are of monosyllabic structure C-V and therefore, the vowels can be extracted simply Because a
voyelle est positionnée à la fin du mot prononcé, l'extrac- vowel is positioned at the end of the spoken word, the extrac-
tion de plusieurs trames présentes à la fin des trames de référence (par exemple 15 trames) est suffisante pour être utilisée pour classer les types Cependant, si l'on considère l'extension progressive des mots objectifs à reconnaître, c'est-à-dire en considérant une parole ayant une structure monosyllabique consonne-voyelle-consonne of several frames present at the end of the reference frames (for example 15 frames) is sufficient to be used to classify the types. However, if we consider the progressive extension of the objective words to be recognized, that is, say by considering a word having a monosyllabic consonant-vowel-consonant structure
(C-V-C), l'algorithme ci-dessus ne convient pas. (C-V-C), the algorithm above is not suitable.
Par conséquent, dans la présente invention, seule la partie centrale de la totalité de la trame est extraite pour être utilisée en tant que données d'étude du réseau neural de classification de type En utilisant un réseau Therefore, in the present invention, only the central portion of the entire frame is extracted for use as neural network type classification data.
neural instruit au moyen des données extraites comme ci- neural instructed using the data extracted as
dessus, la classification de type est expérimentée le matin, à midi et le soir, en tant qu'expérience de recon- above, the type classification is tested in the morning, at noon and in the evening, as a recognition experiment.
naissance numérique prononcée.pronounced digital birth.
Les données d'étude utilisent des données saisies en extrayant les parties voyelle de 350 syllabes de données de parole ( 70 syllabes formées conjointement avec les cinq The study data uses data entered by extracting the vowel parts from 350 syllables of speech data (70 syllables formed together with the five
voyelles et chacune prononcée cinq fois par une personne). vowels and each pronounced five times by one person).
Les données d'essai utilisent environ 420 syllabes de don- The test data uses about 420 syllables of data.
nées de parole pour chacun de cinq modules, et au total 2500 syllabes, en effectuant ainsi le test d'analyse de module. Les Figures 12 A-F représentent un taux d'analyse Speech count for each of five modules, and a total of 2500 syllables, thus performing the module analysis test. Figures 12A-F represent a rate of analysis
par rapport à des données de parole d'une structure mono- compared to speech data of a mono-
syllabique C-V, représentant, en moyenne, un taux de succès syllabic C-V, representing, on average, a success rate
de classification de type de 98,4 % Les taux de classifi- type classification of 98.4% Classifi-
cation de type respectifs sont mesurés à 97,6 % pour le module "a", 98, 6 % pour le module "e", 98,1 % pour le module respective type are measured at 97.6% for module "a", 98.6% for module "e", 98.1% for module
"i", 98,3 % pour le module "o", et 98,1 % pour le module "u". "i", 98.3% for the "o" module, and 98.1% for the "u" module.
Ici, bien que l'apprentissage ait été effectué en extrayant les données à partir des données de parole monosyllabiques C-V, un taux de classification de type supérieur à 90 % est Here, although the learning was done by extracting the data from the C-V monosyllabic speech data, a classification rate of greater than 90% is
obtenu en expérimentant une classification de type par rap- obtained by experimenting with a type classification
port à des données de parole monosyllabiques C-V-C. port to monosyllabic C-V-C speech data.
En résultat, le système de reconnaissance de la parole selon la présente invention peut obtenir un As a result, the speech recognition system according to the present invention can obtain a
résultat satisfaisant pour la reconnaissance de monosylla- satisfactory result for the recognition of monosylla-
bes coréennes, ainsi que pour une reconnaissance de parole au-delà de cette parole monosyllabique, c'est-à-dire une parole à syllabes multiples, grâce une telle expérience Korean needs, as well as for a word recognition beyond this monosyllabic word, that is to say a word with multiple syllables, thanks to such an experience
de reconnaissance De plus, un nouveau système de recon- In addition, a new system of recognition
naissance de la parole peut être réalisé. birth of the word can be realized.
Bien que la présente invention ait été représentée Although the present invention has been shown
et décrite en particulier en référence à des modes de réali- and described in particular with reference to embodiments of
sation particuliers de celle-ci, l'homme de l'art compren- of the latter, the person skilled in the art understood
dra que différentes variations de forme et de détails peu- that different variations in shape and detail may
vent être effectuées sans s'écarter de l'esprit et de la be carried out without departing from the spirit and
portée de l'invention.scope of the invention.
Claims (2)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9306412A FR2691829B1 (en) | 1993-05-28 | 1993-05-28 | Speech recognition system. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9306412A FR2691829B1 (en) | 1993-05-28 | 1993-05-28 | Speech recognition system. |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2691829A1 true FR2691829A1 (en) | 1993-12-03 |
FR2691829B1 FR2691829B1 (en) | 1995-03-31 |
Family
ID=9447542
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR9306412A Expired - Fee Related FR2691829B1 (en) | 1993-05-28 | 1993-05-28 | Speech recognition system. |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2691829B1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3619509A (en) * | 1969-07-30 | 1971-11-09 | Rca Corp | Broad slope determining network |
DE2347738A1 (en) * | 1972-09-21 | 1974-03-28 | Threshold Tech | VOICE RECOGNITION METHOD AND DEVICE FOR IMPLEMENTING THE SAME |
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
-
1993
- 1993-05-28 FR FR9306412A patent/FR2691829B1/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3619509A (en) * | 1969-07-30 | 1971-11-09 | Rca Corp | Broad slope determining network |
US3812291A (en) * | 1972-06-19 | 1974-05-21 | Scope Inc | Signal pattern encoder and classifier |
DE2347738A1 (en) * | 1972-09-21 | 1974-03-28 | Threshold Tech | VOICE RECOGNITION METHOD AND DEVICE FOR IMPLEMENTING THE SAME |
Also Published As
Publication number | Publication date |
---|---|
FR2691829B1 (en) | 1995-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0594480B1 (en) | Speech detection method | |
US8566088B2 (en) | System and method for automatic speech to text conversion | |
US5621857A (en) | Method and system for identifying and recognizing speech | |
FR2520913A1 (en) | METHOD AND APPARATUS FOR RECOGNIZING KEYWORDS IN WORDS | |
FR2522179A1 (en) | METHOD AND APPARATUS FOR RECOGNIZING WORDS FOR RECOGNIZING PARTICULAR PHONEMES OF THE VOICE SIGNAL WHATEVER THE PERSON WHO SPEAKS | |
FR2520911A1 (en) | ANALYSIS METHOD AND APPARATUS FOR SPEECH RECOGNITION | |
EP1535276A2 (en) | Method and apparatus for classifying sound signals | |
Yue et al. | Acoustic modelling from raw source and filter components for dysarthric speech recognition | |
Dwivedi et al. | Analysing the impact of lstm and mfcc on speech emotion recognition accuracy | |
Vu et al. | Improved speech emotion recognition based on music-related audio features | |
Harby et al. | Exploring Sequential Feature Selection in Deep Bi-LSTM Models for Speech Emotion Recognition. | |
Barnard et al. | Real-world speech recognition with neural networks | |
FR2691829A1 (en) | Speech recognition system using neural network and fuzzy logic processing | |
Jegan et al. | MFCC and texture descriptors based stuttering dysfluencies classification using extreme learning machine | |
Cerna et al. | An iot-based language recognition system for indigenous languages using integrated cnn and rnn | |
Shahriar et al. | Identification of spoken language using machine learning approach | |
International Neural Network Society (INNS), the IEEE Neural Network Council Cooperating Societies et al. | Text-dependent speaker identification using learning vector quantization | |
EP0595950B1 (en) | Real-time speech recognition device and method | |
Grigaliūnaitė | Accent identification using machine learning | |
Shantoash et al. | Speech accent recognition | |
Borrelli | Data driven and signal processing techniques for audio forensics | |
KR950003390B1 (en) | Food Recognition System and Speech Analysis Data Extraction Method Using the Food Recognition System | |
Ghai et al. | Speaker Recognition for Hindi Language Using Deep Neural Network | |
Hossain | Classification of bangla regional languages and recognition of artificial bangla speech using deep learning | |
Kruthika et al. | Forensic Voice Comparison Approaches for Low‐Resource Languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R1 | Appeal | ||
DS | Decision of the director general to state about an appeal | ||
ST | Notification of lapse |
Effective date: 20070131 |