[go: up one dir, main page]

FR2691829A1 - Speech recognition system using neural network and fuzzy logic processing - Google Patents

Speech recognition system using neural network and fuzzy logic processing Download PDF

Info

Publication number
FR2691829A1
FR2691829A1 FR9306412A FR9306412A FR2691829A1 FR 2691829 A1 FR2691829 A1 FR 2691829A1 FR 9306412 A FR9306412 A FR 9306412A FR 9306412 A FR9306412 A FR 9306412A FR 2691829 A1 FR2691829 A1 FR 2691829A1
Authority
FR
France
Prior art keywords
speech
data
signal
input
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR9306412A
Other languages
French (fr)
Other versions
FR2691829B1 (en
Inventor
Ho-Sun Chung
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SK Hynix Inc
Original Assignee
Goldstar Electron Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Goldstar Electron Co Ltd filed Critical Goldstar Electron Co Ltd
Priority to FR9306412A priority Critical patent/FR2691829B1/en
Publication of FR2691829A1 publication Critical patent/FR2691829A1/en
Application granted granted Critical
Publication of FR2691829B1 publication Critical patent/FR2691829B1/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

The speech recognition system receives an input from a microphone (10) that is amplified (20) and received by an analyser (30). The analyser output is transferred via an interface (40) to a personal computer (60) complete with hard and floppy discs (50), keyboard (70) and display screen (80).The speech analyser divides the speech signal into predetermined frequency bands in which energy levels are defined. The personal computer received the defined energy signal levels and compares the signal levels of adjacent bands. A binary data value is then generated for identification. The processing is based upon a neural network and fuzzy logic theory.

Description

Système de reconnaissance de la parole.Speech recognition system.

La présente invention a trait à un système de reconnaissance de la parole, et plus particulièrement à un système de reconnaissance de la parole monosyllabique coréenne. Lorsque des caractéristiques sont extraites en vue de la reconnaissance de la parole, la perception d'une caractéristique intrinsèque utilisée pour distinguer les syllabes parlées est très difficle par suite du débit vocal, de l'accent et des habitudes de prononciation d'un parleur donné, des variations environnementales durant la parole, l'état émotionnel du parleur etc De plus, par suite des variations du langage articulé, même un phonème représente différentes caractéristiques phonétiques qui,  The present invention relates to a speech recognition system, and more particularly to a Korean monosyllabic speech recognition system. When features are extracted for speech recognition, the perception of an intrinsic characteristic used to distinguish spoken syllables is very difficult as a result of speech rate, accent, and pronunciation habits of a given speaker , environmental variations during the speech, the emotional state of the speaker, etc. Moreover, as a result of the variations of the articulated language, even a phoneme represents different phonetic characteristics which,

sont, à leur tour, affectéespar les phonèmes le précé-  are, in turn, affected by the above phonemes

dant et le suivant Ces facteurs provoquent des difficultés  These factors cause difficulties

pour développer un algorithme pour extraire les caracté-  to develop an algorithm to extract the characteristics

ristiques particulières de la parole, et rendent l'expres-  particular characteristics of speech, and make expression

-sion et l'intégration de la connaissance obtenue au moyen  -sion and the integration of knowledge obtained through

de l'algorithme incommode.of the inconvenient algorithm.

Une recherche dans l'usage de systèmes établis a  Research into the use of established systems has

été largement effectuée pour résoudre les problèmes pré-  been largely done to solve the pre-existing problems

cités On connait ainsi différents procédés tels qu'une ana-  In this way, we know different processes such as ana-

lyse de formant pour placer des sons vocaux en fonction d'une composante vocale, un procédé de distorsion de temps dynamique (DTW) selon lequel une distorsion entre les articulations individuelles d'un seul mot est diminuée au moyen d'une technique de programmation dynamique de sorte que la parole la plus cohérente peut être sélectionnée en vue d'une reconnaissance, et un procédé à modèle de Markov caché (HMM) pour une reconnaissance de la parole  formant lysis for placing vocal sounds according to a voice component, a dynamic time distortion (DTW) method in which a distortion between the individual articulations of a single word is decreased by means of a dynamic programming technique so that the most consistent speech can be selected for recognition, and a Hidden Markov Model (HMM) method for speech recognition

par visualisation d'un-signal composé phonétiquement.  by visualization of a signal composed phonetically.

Toutefois, puisque la plupart des systèmes de reconnaissance de la parole jusqu'ici réalisés utilisant les procédés précités exigent une quantité considérable  However, since most of the speech recognition systems heretofore realized using the aforementioned methods require a considerable amount of

de calculs pour reconnaître une voix humaine parlée natu-  calculations to recognize a natural spoken human voice

rellement et acceptant les différentes articulations de la parole, leur utilisation et pertinence réelles est douteuse et une reconnaissance de la parole en temps réel  genuinely and accepting the different articulations of speech, their actual use and relevance is dubious and a recognition of speech in real time

devient difficile Un modèle à réseau -  becomes difficult A network model -

la théorie des ensembles flous est proposé en tant que  fuzzy set theory is proposed as

procédé pouvant résoudre les problèmes généraux de recon-  process which can solve the general problems of recognition

naissance de configuration (par exemple, reconnaissance  birth of configuration (for example, recognition

de la parole).of speech).

A la différence d'un calculateur de Fbhn-Noimann, le modèle à réseau neuronal peut non seulement apprendre les règles correctes pour résoudre les questions surgissant de données ambiguës, incomplètes et discordantes, mais également traiter en parallèle une multitude de neurones, de sorte que le modèle à réseau neuronal peut être utilisé dans un domaine nécessitant un traitement parallèle, tel que la reconnaissance de parole Le modèle à réseau neuronal  Unlike a Fbhn-Noimann calculator, the neural network model can not only learn the correct rules to resolve issues arising from ambiguous, incomplete and discordant data, but also parallelize a multitude of neurons, so that the neural network model can be used in a field requiring parallel processing, such as speech recognition The neural network model

possède trois avantages principaux.  has three main advantages.

Tout d'abord, il est hautement adaptable C'est-  First of all, it is highly adaptable

à-dire qu'une voie humaine est diversifiée selon le bruit  to say that a human path is diversified according to the noise

environnant et les caractéristiques d'un parleur qui peu-  environment and the characteristics of a speaker who can

vent être effectivement appris par le modèle à réseau neuronal En second lieu, la procédure d'apprentissage est raisonnable Tandis qu'un traitement algorithmique en extrayant correctement une caractéristique intangible d'une variété de données de parole est très difficile,  In the second place, the learning procedure is reasonable While an algorithmic processing by correctly extracting an intangible characteristic from a variety of speech data is very difficult,

le modèle à réseau neuronal peut extraire lui-même la carac-  the neural network model can extract itself the characteristic

téristique pour apprendre par l'intermédiaire de l'appro-  to learn through the appro-

che l'étude-par-l' exemple.study-by-example.

En troisième lieu, le traitement parallèle ci-  Thirdly, the parallel processing

dessus peut être exécuté dans le modèle à réseauneuronal,le  above can be executed in the network model, the

résultant étant obtenu par les nombreux neurones fondamen-  resulting from the many fundamental neurons

taux qui accomplissent le traitement parallèle, de sorte qu'une énorme quantité de temps nécessaire pour l'appren-  rates that perform parallel processing, so that a huge amount of time is required for learning.

tissage peut être manipulée par le traitement parallèle.  weaving can be manipulated by parallel processing.

Dans les procédés établis, une configuration de référence spécifique est déterminée préalablement, ou une abondance de règles ayant trait à des données de parole sont programmées une par une Tandis que dans le système utilisant le réseau neuronal, puisque les caractéristiques révélées extérieurement d'information sont apprises, des configurations peuvent être classées sans nécessiter une instruction spécifique pour une information de variation de caractéristiques, et de meilleures performances peuvent  In the established procedures, a specific reference configuration is determined beforehand, or an abundance of rules relating to speech data are programmed one by one while in the system using the neural network, since the externally revealed characteristics of information are learned configurations can be categorized without requiring specific instruction for feature variation information, and better performance can be

être obtenues par rapport à une configuration modifiée.  be obtained with respect to a modified configuration.

Un modèle de réseau neuronal représentatif qui introduit  A representative neural network model that introduces

réellement le réseau neuronal en tant que procédé de-recon-  actually the neural network as a de-recognizing process

naissance de la parole pour améliorer des performances de la parole est un réseau neuronal à retard temporel (TDNN) qui a montré des performances dans la reconnaissance de la parole par phonème syllabique Egalement, une expérience dans laquelle un sous-réseau correspondant à un groupe phonologique est formé en tant que module s'est traduite par une extension de la plage d'objets reconnus, sans  birth of speech to improve speech performance is a time-delay neural network (TDNN) that has shown performance in speech recognition by syllabic phoneme Also, an experiment in which a sub-network corresponding to a phonological group is formed as a module resulted in an extended range of recognized objects without

abaisser la vitesse de reconnaissance élevée du sous-  lower the high recognition speed of the sub-

reseau.network.

Afin d'appliquer réellement et d'utiliser suf-  In order to actually apply and use suf-

fisamment les caractéristiques du réseau neuronal décrit ci-dessus, une réalisation de circuit est nécessaire mais, contrairement à une simulation par logiciel, celle-ci présente de nombreuses limitations Par conséquent, un réseau neuronal de perception à couches multiples à entrée  In addition to the characteristics of the neural network described above, a circuit realization is necessary but, unlike software simulation, this has many limitations. Therefore, an input multi-layered neural grating

commandée (IDMLP) est proposé.ordered (IDMLP) is proposed.

Egalement, puisque la caractéristique de fréquence diffère selon chaque parleur même bien que le même mot soit prononcé (c'est-à-dire dûe à la diversité de vitesse de parole), la théorie des ensembles flous est introduite.  Also, since the frequency characteristic differs according to each speaker even though the same word is pronounced (i.e., due to speech rate diversity), the fuzzy set theory is introduced.

Un des buts de la présente invention est de pro-  One of the aims of the present invention is to

poser un système de reconnaissance de la parole de mono-  to set up a system of speech recognition of mono-

syllabes coréennes, utilisant un réseau neuronal et un algo-  Korean syllables, using a neural network and an algo-

rithme s'adaptant à une configuration floue.  rithm that adapts to a fuzzy configuration.

Pour atteindre le but précité de la présente invention, on prévoit un système de reconnaissance de la parole comportant: des moyens d'entrée de parole pour entrer un signal de parole; des moyens d'analyse de parole pour diviser le signal de parole provenant des moyens d'entrée de parole en des bandes de fréquences prédéterminées pour exprimer le signal de parole divisé en tant que niveau d'énergie dans chaque bande de fréquences; et  To achieve the above object of the present invention, there is provided a speech recognition system comprising: speech input means for inputting a speech signal; speech analysis means for dividing the speech signal from the speech input means into predetermined frequency bands for expressing the divided speech signal as the energy level in each frequency band; and

un calculateur hôte pour entrer le signal pro-  a host computer to enter the signal

venant des moyens d'analyse de parole, numériser le signal de parole en comparant le niveau d'énergie de chaque bande de fréquences par rapport au niveau d'énergie d'une bande de fréquences voisine, et délivrer extérieurement  from the speech analysis means, digitizing the speech signal by comparing the energy level of each frequency band with respect to the energy level of a neighboring frequency band, and outputting externally

un signal de parole correspondant à des données numérisées.  a speech signal corresponding to digitized data.

Les buts précités et avantages de la présente  The aforementioned aims and advantages of this

invention ressortiront mieux de la description détaillée  invention will be better apparent from the detailed description

d'un mode de réalisation préféré de celle-ci en référence aux dessins annexés sur lesquels: la Figure 1 est un schéma synoptique représentant une structure de circuit pour effectuer une analyse de la parole selon la présente invention la Figure 2 représente un mode de réalisation d'un amplificateur analogique de la Figure 1 selon la présente invention; la Figure 3 représente un mode de réalisation de l'analyseur de parole de la Figure 1 selon la présente invention; la Figure 4 représente un signal de sortie à une seule trame de l'analyseur de parole par rapport à une voyelle coréenne parlée; la Figure 5 est un organigramme représentant l'analyse de parole de l'analyseur de parole; la Figure 6 est un organigramme représentant une étape d'extraction de données d'analyse de la parole; la Figure 7 représente la réponse spectrale d'un signal de parole  of a preferred embodiment thereof with reference to the accompanying drawings in which: Fig. 1 is a block diagram showing a circuit structure for performing speech analysis according to the present invention; Fig. 2 shows an embodiment an analog amplifier of Figure 1 according to the present invention; Figure 3 shows an embodiment of the speech analyzer of Figure 1 according to the present invention; Figure 4 shows a single-frame output signal of the speech analyzer relative to a spoken Korean vowel; Figure 5 is a flowchart showing speech analysis of the speech analyzer; Fig. 6 is a flowchart showing a step of extracting speech analysis data; Figure 7 shows the spectral response of a speech signal

la Figure 8 représente une réponse spectrale nu-  FIG. 8 represents a spectral response

mérisée du signal de parole de la Figure 7; la Figure 9 représente les étapes de numérisation de données rendues floues;  merited the speech signal of Figure 7; Figure 9 shows the steps of digitizing data made fuzzy;

la Figure 10 représente une structure d'un ré-  Figure 10 shows a structure of a

seau neuronal modulaire IDMLP; la Figure 11 est un tableau représentant des syllabes à classer en consonnes-voyelles monosyllabiques; et les Figures 12 A à 12 E représentent un taux de  modular neuronal bucket IDMLP; Figure 11 is an array of syllables to classify into monosyllabic consonants-vowels; and FIGS. 12A to 12E show a rate of

classification respectif par rapport à chaque module.  respective classification with respect to each module.

Sur la Figure 1, un système de reconnaissance de la parole comprend: un microphone 10 pour entrer une parole; un amplificateur analogique 20 pour amplifier la parole du microphone 10; un analyseur de parole 30 pour analyser un signal de parole provenant de l'amplificateur analogique 20; un panneau d'interface 40 pour assurer  In Figure 1, a speech recognition system comprises: a microphone 10 for inputting speech; an analog amplifier 20 for amplifying the speech of the microphone 10; a speech analyzer 30 for analyzing a speech signal from the analog amplifier 20; an interface panel 40 to ensure

l'interface avec un calculateur personnel (PC); des mé-  the interface with a personal computer (PC); some

l O canismes d'entraînement de disques durs et souples (HDD et FDD) 50 pour échanger des données avec le calculateur un calculateur hôte 60 relié au panneau d'interface 40 et aux HDD et FDD 50; un clavier 70 qui constitue une unité d'entrée du calculateur hôte 60; et un moniteur 80 qui  hard disk drive and flexible drive mechanisms (HDD and FDD) for exchanging data with the computer a host computer 60 connected to the interface panel 40 and the HDD and FDD 50; a keyboard 70 which constitutes an input unit of the host computer 60; and a monitor 80 that

constitue une unité de sortie du calculateur hôte 60.  constitutes an output unit of the host computer 60.

Le circuit analogique pour l'entrée de la parole comme représenté sur la Figure 2 est conçu pour régler le volume de la parole entrée, en utilisant une résistance variable Un amplificateur différentiel 90 (par exemple une puce TLO 72 CP) possède une largeur de bande de fréquence au-delà de 10 K Hz puisque les fréquences vocales humaines normales vont jusqu'à 7 K Hz Puisque les signaux numériques et analogiques sont mélangés dans la partie d'analyse de  The analog circuit for speech input as shown in Figure 2 is designed to adjust the volume of speech input, using a variable resistor. A differential amplifier 90 (eg, a TLO 72 chip) has a bandwidth. frequency above 10 KHz since normal human speech frequencies are up to 7 KHz. Since digital and analog signals are mixed in the analysis portion of

la parole, une grande attention doit être prêtée au bruit.  speech, great attention must be paid to noise.

Dans la présente invention, un tel bruit est éliminé en utilisant un condensateur présentant une capacité d'environ  In the present invention, such noise is eliminated by using a capacitor having a capacitance of about

0,1 RF Le signal de sortie de l'étage amplificateur ana-  0.1 RF The output signal of the analog amplifier stage

logique est utilisé en tant que signal d'entrée pour  logic is used as an input signal for

l'analyseur de parole 30 qui délivre des données à 8 bits.  the speech analyzer 30 which delivers 8-bit data.

La Figure 3 est un schéma synoptique représentant un mode de réalisation de l'analyseur de parole 30 qui est divisé en deux parties L'une est une partie d'interface comprenant un comparateur à 8 bits 31 (par exemple une puce 74 L 5688) et une puce d'interface 32 (par exemple,  Fig. 3 is a block diagram showing an embodiment of the speech analyzer 30 which is divided into two parts. One is an interface part comprising an 8-bit comparator 31 (for example a chip 74 L 5688). and an interface chip 32 (for example,

un 8255 PPI), et la partie effectuant l'analyse de la pa-  8255 PPI), and the party performing the analysis of the

role (chiffre de référence 33 désignant par exemple, une puce p PD 7763) Puisque la puce 74 L 5688 est une puce du type à collecteur ouvert, une résistance élévatrice 35 est  For example, since chip 74 L 5688 is an open-collector type chip, a resistor 35 is

montée entre la sortie (broche 19) et une source d'ali-  mounted between the output (pin 19) and a power source

mentation (Vcc) En utilisant la puce 8255 P Pl pour consti-  (Vcc) Using the 8255 P Pl chip for

tuer l'interface avec le PC, le panneau d'interface est conçu et fabriqué de façon simple Les puces 8255 P Pl et p PD 7763 sont commandées au moyen du calculateur hôte  kill the interface with the PC, the interface panel is designed and manufactured in a simple way The chips 8255 P Pl and p PD 7763 are controlled by means of the host computer

, qui sera décrit plus en détail en référence au logiciel.  , which will be described in more detail with reference to the software.

L'entrée d'adresse et de signaux de données à la puce d'analyseur de parole 33 utilise les bus de données et des bus d'adresses et une horloge à 4 M Hz est nécessaire pour synchroniser le fonctionnement de son circuit intérieur, ce qui est résolu au moyen d'un oscillateur à cristal  The address and data signal input to the speech analyzer chip 33 uses data buses and address buses, and a 4 MHz clock is required to synchronize the operation of its internal circuit. which is solved by means of a crystal oscillator

à 4 M Hz 34.at 4 M Hz 34.

Une entrée RESTAURATION à la puce d'interface 32  A RESTORE entry to the interface chip 32

restaure automatiquement lorsque le calculateur est ini-  restores automatically when the calculator is

tialisé en reliant la borne de restauration dans un secteur  tialized by connecting the bollard in one area

I/O du calculateur hôte 60.I / O of the host computer 60.

La restauration de la puce d'analyseur de parole 33 doit être effectuée avant de fixer un mode d'entrée, mais le circuit global devient excessivement encombrant en opérant ainsi Ce problème est résolu dans la présente invention par l'emploi de la puce 8255 P Pl et du logiciel associé Plus en détail, une valeur correspondant au signal de restauration est transférée le long du bus de données jusqu'à la borne de restauration de la puce d'analyseur de parole 33 par l'intermédiaire d'un port de sortie de  The restoration of the speech analyzer chip 33 must be performed before setting an input mode, but the overall circuit becomes excessively cumbersome thereby operating. This problem is solved in the present invention by the use of the 8255P chip. Pl and the associated software In more detail, a value corresponding to the restoration signal is transferred along the data bus to the restoration terminal of the speech analyzer chip 33 via an output port of

la puce d'interface 32.the interface chip 32.

Lorsqu'une borne de trame TRAME de la puce 33  When a FRAME frame terminal of the chip 33

de l'analyseur de parole délivre un " 1 " logique qui repré-  the speech analyzer delivers a logical "1" that represents

sente l'achèvement de l'analyse d'une trame, le calcula teur lit la valeur d'une série de filtres à 16 canaux à l'intérieur de la puce de l'analyseur de parole lui-même. En utilisant la puce d'interface 32 en tant qu'interface de cette partie, la partie de prétraitement exigeant le plus de temps pour reconnaître la parole est constituée  At the completion of the analysis of a frame, the calculator reads the value of a series of 16-channel filters inside the chip of the speech analyzer itself. By using the interface chip 32 as the interface of this part, the pretreatment part requiring the most time to recognize speech is constituted

au moyen de circuits constituant ainsi un système de recon-  by means of circuits thus constituting a system of recognition

naissance de la parole en temps réel dans son ensemble.  birth of speech in real time as a whole.

Ainsi, bien qu'une quantité importante de temps est gaspillée pour analyser des signaux de parole en  So, although a significant amount of time is wasted to analyze speech signals in

utilisant une simulation logicielle générale, dans la pré-  using a general software simulation, in the pre-

sente invention, le signal de sortie d'un filtre passe-  In this invention, the output signal of a pass filter is

bande à 16 canaux est obtenue dans le circuit, de sorte que le temps nécessaire est réduit pour ainsi former un système pouvant être utilisé pour une reconnaissance de  16-channel band is obtained in the circuit, so that the time required is reduced to thus form a system that can be used for a recognition of

la parole en temps réel.speech in real time.

Le tableau 1 ci-après représente les caractéris-  Table 1 below represents the characteristics of

tiques de fréquence des 16 filtres passe-bande à l'inté-  frequency ticks of the 16 bandpass filters in the

rieur de l'analyseur de parole 30 de la Figure 1.  of the speech analyzer 30 of Figure 1.

TABLEAU 1TABLE 1

La Figure 5 représente les signaux de sortie d'une trame provenant de l'analyseur de parole 30 (Figure  Figure 5 shows the output signals of a frame from the speech analyzer 30 (FIG.

1) par rapport à une voyelle coréenne, permettant l'obser-  1) in relation to a Korean vowel, allowing observation of

vation du formant de la voyelle Ainsi, le système d'ana-  of the vowel trainer Thus, the system of analysis

lyse de la parole conçu et fabriqué selon la présente  Speech lysis designed and manufactured according to this

invention ne présente pas des inconvénients tels que l'exi-  invention does not present disadvantages such as the requirement

gence d'un panneau de prétraitement.  a pre-treatment panel.

FILTRE # FREQUENCE DE FREQUENCE FREQUENCE DE  FILTER # FREQUENCY FREQUENCY FREQUENCY OF

COUPURE CENTRALE COUPURECENTRAL CUT-OFF

(BASSE) (HAUTE)(BASS) (HIGH)

BPF 1 40 Hz 250 Hz 640 Hz BPF 2 120 Hz 450 Hz 820 Hz BPF 3 250 Hz 650 Hz 1060 Hz BPF 4 380 Hz 850 Hz 1240 Hz BPF 5 660 Hz 1050 Hz 1400 Hz BPF 6 850 Hz 1250 Hz 1650 Hz BPF 7 1080 Hz 1450 Hz 1940 Hz BPF 8 1210 Hz 1650 Hz 2140 Hz BPF 9 1450 Hz 1900 Hz 2500 Hz BPF 10 1510 Hz 2150 Hz 2800 Hz BPF 11 1810 Hz 2500 Hz 3280 Hz BPF 12 2200 Hz 2900 Hz 3720 Hz BPF I 3 2560 Hz 3300 Hz 4280 Hz BPF 14 2900 Hz 3800 Hz 4740 Hz BPF 15 3100 Hz 4500 Hz 6440 Hz BPF 16 3720 Hz 5400 Hz 7400 Hz La constitution du logiciel est double Tout d'abord, un programme de commande permet à un utilisateur d'utiliser aisément le panneau d'analyse de parole conçu et fabriqué comme dans ce qui précède Un tel programme de commande fixe les modes de fonctionnement de la puce d'interface 32 et de la puce d'analyseur de parole 33, et rythme l'entrée et/ou la sortie de données En second lieu, un autre programme détecte un intervalle de parole à partir des données interprétées comme se trouvant dans une région de fréquences spécifique après avoir traversé la puce d'analyseur de parole 33, normalise différemment des longueurs articulées, et enfin numérise des données  GMP 1 40 Hz 250 Hz 640 Hz GMP 2 120 Hz 450 Hz 820 Hz GMP 3 250 Hz 650 Hz 1060 Hz GMP 4 380 Hz 850 Hz 1240 Hz GMP 5 660 Hz 1050 Hz 1400 Hz GMP 6 850 Hz 1250 Hz 1650 Hz GMP 7 1080 Hz 1450 Hz 1940 Hz GMP 8 1210 Hz 1650 Hz 2140 Hz GMP 9 1450 Hz 1900 Hz 2500 Hz GMP 10 1510 Hz 2150 Hz 2800 Hz GMP 11 1810 Hz 2500 Hz 3280 Hz GMP 12 2200 Hz 2900 Hz 3720 Hz GMP I 3 2560 Hz 3300 Hz 4280 Hz BPF 14 2900 Hz 3800 Hz 4740 Hz BPF 15 3100 Hz 4500 Hz 6440 Hz BPF 16 3720 Hz 5400 Hz 7400 Hz The constitution of the software is twofold First of all, a control program allows a user to easily use the speech analysis panel designed and manufactured as in the foregoing Such a control program sets the operating modes of the interface chip 32 and the speech analyzer chip 33, and paces the input and / or the data output Second, another program detects a speech interval from the data interpreted as being in a region of specific equations after traversing the speech analyzer chip 33, normalizes differently articulated lengths, and finally digitizes data

utilisées en tant qu'entrée au réseau neural IDMLP.  used as input to the IDMLP neural network.

La détermination du mode de fonctionnement de la puce d'interface 32 est de désigner un point de connexion  The determination of the mode of operation of the interface chip 32 is to designate a connection point

qui effectue l'entrée et la sortie selon un mode opération-  which makes the entry and exit in an operating mode

nel fondamental Dans la présente invention, "PAO" et "P Bl" sont fixés en tant que ports de sortie, et le port "PBI" est désigné également en tant que port  In the present invention, "PAO" and "P Bl" are set as output ports, and the "PBI" port is also designated as a port.

d'entrée Le mode de fonctionnement ci-dessus est détermi-  The above operating mode is determin-

né en utilisant des commandes de logiciel de langage C Port de sortie b(Ox 307, Ox 82);/*Sortie Port A&B, Entrée Port B*/ Dans la structure du circuit, la puce d'interface 32 est utilisée pour initialiser la puce d'analyseur de parole 33 et vérifier l'achèvement de l'analyse de la parole Par conséquent, le premier programme ci-dessus  born using C language software commands Output port b (Ox 307, Ox 82); / * Port A & B output, Port B input * / In the circuit structure, the interface chip 32 is used to initialize the port. speech analyzer chip 33 and check the completion of the speech analysis Therefore, the first program above

pour commander la puce d'interface 32 est très simple.  to control the interface chip 32 is very simple.

Ensuite, le second programme ci-dessus pour com-  Then the second program above to compare

mander la puce d'analyseur de parole 33 est nécessaire.  it is necessary to call the speech analyzer chip 33.

A cet instant, le temps requis pour analyser les données  At this moment, the time required to analyze the data

et lire les données analysées doit être calculé soigneuse-  and read the analyzed data must be calculated carefully

ment pour s'assurer que la totalité du système est stable.  to ensure that the entire system is stable.

La puce d'analyse de parole doit être initialisée  The speech analysis chip must be initialized

en utilisant la puce d'interface 32 en exécutant les comman-  using the interface chip 32 by executing the commands

des en langage C suivantes: Port de sortie b( O x OO);/*Signal de Restauration p PD 7763 */ Retard( 1);/*Durée du Signal de Restauration*/ Port de sortie b( O xll);/*Signal de Restauration Libre*/ Puisque le signal de restauration initialise le  the following C language: Output port b (O x OO); / * Restore signal p PD 7763 * / Delay (1); / * Restore Signal Time * / Output port b (O xll); * Free Restore Signal * / Since the restore signal initializes the

système, la commande ci-dessus retard (int) devient nécessaire.  system, the command above delay (int) becomes necessary.

Le contrôleur d'entrée/sortie de la puce d'analy-  The input / output controller of the analyzer chip

seur de parole 33 commande les opérations de données d'en-  Speech Manager 33 controls the data operations of

trée/sortie extérieures, en utilisant les bornes de bus  external trea / output, using the bus terminals

de données DBO-DB 7.DBO-DB 7.

Le tableau 2 ci-dessous est donné pour expliquer des opérations selon cinq signaux de commande CS, WR, RD,  Table 2 below is given to explain operations according to five control signals CS, WR, RD,

A O et A 1.At O and A 1.

TABLEAU 2TABLE 2

CS RD WR A O A 1 Opération O 1 O O PC CSR-0 (gain & durée trame) 0 1 O 1 PC CSR-1 (fréquence coupure basse & ég marche/arrêt)  CS RD WR A O A 1 Operation O 1 O O PC CSR-0 (gain & frame duration) 0 1 O 1 PC CSR-1 (low cutoff frequency & on / off)

0 O 1 1 O CSR-0 ->PC0 O 1 1 O CSR-0 -> PC

0 O 1 1 1 CSR-1 _>PC0 O 1 1 1 CSR-1 _> PC

0 O 1 O Premier entrée-premier sorti -> PC Après libération du signal de restauration, un mode de fonctionnement doit être fixé à l'intérieur de 378 gs Le mode de fonctionnement de la puce d'analyseur  0 O 1 O First in-first out -> PC After the recovery signal is released, an operating mode must be set within 378 gs The operating mode of the analyzer chip

de parole 33 est fixé en écrivant des données sur un re-  33 is fixed by writing data on a re-

gistre de commande/état (CSR) à l'intérieur de la puce par l'intermédiaire du bus de données, dans lequel les types de mode de fonctionnement pouvant être commandés par le calculateur sont: ( 1) la durée d'une trame analysée, ( 2) le gain du préamplificateur, ( 3) la fonction marche/ arrêt d'un égaliseur, et ( 4) la fréquence de coupure d'un  control / status register (CSR) within the chip via the data bus, wherein the types of operating mode that can be controlled by the computer are: (1) the duration of a scanned frame , (2) the preamplifier gain, (3) the on / off function of an equalizer, and (4) the cutoff frequency of a

filtre passe-bas.low pass filter.

Ces quatre informations élémentaires sont obte-  These four basic information are obtained

nues en écrivant des données sur le CSR par l'intermédiaire du bus de données à l'intérieur du calculateur Ici, en utilisant à nouveau le langage C, elles peuvent être obtenues comme suit: Port de sortie b(Ox 304, Ox 4 c);/*Od B, 16 ms*/ Port de sortie b(Ox 304, Ox 02);/* 25 Hz, EQ ARRET*/ La Figure 5 représente un organigramme global  naked by writing data on the CSR via the data bus inside the calculator Here, using the C language again, they can be obtained as follows: Output port b (Ox 304, Ox 4 c ) / * Od B, 16 ms * / Output port b (Ox 304, Ox 02); / * 25 Hz, OFF EQ * / Figure 5 represents a global flowchart

depuis l'entrée de la parole jusqu'à la lecture des résul-  from the speech input to the reading of the results

tats -analysés.state-analyzed.

La Figure 6 représente une étape de détection  Figure 6 shows a detection step

de l'intervalle de parole et d'obtention de données nu-  the range of speech and the obtaining of nu-

mérisées à utiliser en tant qu'entrée du réseau neuronal IDMLP, qui est exécutée après mémorisation du signal de sortie de l'analyseur de parole dans une mémoire du  merited to use as an input of the IDMLP neural network, which is executed after storing the output signal of the speech analyzer in a memory of the

calculateur par l'intermédiaire de la puce d'interface 32.  computer via the interface chip 32.

Dans la présente invention, une longueur de trame est fixée à 16 ms L'intervalle de parole doit être détecté  In the present invention, a frame length is set at 16 ms. The speech interval must be detected

en données complètement analysées Dans la présente inven-  in completely analyzed data In the present invention

tion, lorsque le niveau d'énergie d'une trame est supérieur  when the energy level of a frame is higher than

à une tension de seuil prédéterminée, la trame est détermi-  at a predetermined threshold voltage, the frame is determined

née comme étant égale à la longueur de l'intervalle de parole Lorsqu'une personne répète plusieurs fois le même mot, les longueurs des mots prononcés sont rarement les mêmes, de sorte qu'une normalisation d'axe des temps doit être effectuée Lorsqu'un mot monosyllabique est répété, il dure généralement de 8 à 26 trames Ainsi, 15 trames sont fixées comme référence, la normalisation d'axe des temps est effectuée, et les données obtenues ci-dessus  equal to the length of the speech interval When a person repeats the same word several times, the lengths of the spoken words are rarely the same, so that a time axis normalization must be performed When a monosyllabic word is repeated, it generally lasts from 8 to 26 frames Thus, 15 frames are fixed as reference, the time axis normalization is performed, and the data obtained above

sont numérisées.are digitized.

Conformément à la présente invention, afin d'être utilisées en tant qu'entrée d'un réseau neuronal IDMLP, l'étape depuis l'entrée du microphone à la sortie de la série de filtres à 16 canaux est réalisée en circuit, pour ainsi économiser le temps de collecte des données d'entrée. L'étape d'extraction des données d'entrée est de saisir les données décrites ci-dessus finalement nor malisées et numérisées, et est effectuée comme ci-dessous  In accordance with the present invention, in order to be used as input to an IDMLP neural network, the step from the input of the microphone to the output of the 16-channel filter series is performed in circuit, thereby save time collecting input data. The step of extracting the input data is to enter the data described above finally standardized and digitized, and is performed as below

1 Le signal de parole est reçu par l'intermé-  1 The speech signal is received through the

diaire du microphone.microphone.

2 En utilisant le circuit de la Figure 2, le signal de parole reçu est amplifié à un volume correct pour être utilisé en tant qu'entrée de l'analyseur de  2 Using the circuit of FIG. 2, the received speech signal is amplified to a correct volume to be used as input to the speech analyzer.

parole 30.word 30.

3 Le résultat de l'analyse est lu de l'analyseur  3 The result of the analysis is read from the analyzer

de parole.of speech.

4 L'intervalle de parole est détecté, en utili-  4 The speech interval is detected, using

sant la valeur de seuil prédéterminée.  the predetermined threshold value.

L'intervalle de parole est normalisé par rapport à l'axe des temps correspondant à la trame de référence. 6 La sortie de chaque filtre passe-bande est comparée à celle de son filtre adjacent, en numérisant  The speech interval is normalized with respect to the time axis corresponding to the reference frame. 6 The output of each bandpass filter is compared to that of its adjacent filter, by digitizing

ainsi leurs niveaux d'énergie relatifs.  thus their relative energy levels.

Le tableau 3 ci-après représente les données résultant de l'étape de détection d'intervalle de parole ci-dessus. 0 ú 1 Ol ú J 9 o Oz LZ LZ L L 91 IL O 6 11 0 O Il It 9 si 91 zi IL 8 V LI HI 8 O UL 09 811 O O 9 9 r 1V ZI L V Lú I 1 1 L L LIú Ol L 6 9 V Vz LE IL 9 V 8 V L Lz LI Vu L 98 911 0 t I Oz 81 Lt 61 LZ 6 Z 99 V 9 El' ti Ol VI L L 6 9 Iú 0 ú 8 8 S LZ 9 z 91 01 9 V 8 V 8 U 9 L IL Voi t II Vi 9 t I I UL O ú 1 Vz LZ oz IV z i Zú V 6 LIJI L LZ Iz si 91 zz PZ LE L E Il 1 VI i z 6 V 01 Z Il O ZI Vz s Z 9 1 91 Vz Vg 88 97 Z oz L I 8 V tzzl II s I 8 9 z 9 z 1 Vt 9 z 91 Vi Z 8 ú 9 9 V 6 L O V 09 LZ 011 L zz 81 zz Lt 61 CI VV Os Z 9 19 811 901 LJI 861 Z 91 1 it 61 Oz OL 9 V LC úZ 9 ú 9 V 19 IL 98 L O ZZI L 81 OLU 9 V 1 98 81 It 61 6 V t V OV çz 6 L Z: EL LOI M 6 99 V 81 91 Z OLI 8 L LI zi t I 1 z LL LL LL 8 Z LV 99 6 V Vt 011 O Vi 901 ZOI 91 ZI 91 8 Z 6 81 ZL O Lg OZ O i Z 69 69 Lú z 8 9 I 0 z VI ZI 9 ú 1 01 LI OL Vz 61 LI LZ LL 6 L 1 g t I z O Z 6 61 91 8 O I LI oz 61 Lz 91 9 9 z OV Uú 91 Ol z O 8 zz 8 i O 8 9 Il si O Il l I it lú ZI 81 ZI O ú ZI LI LT 61 L V Ll 1 91 z I IZ 91 t 1 tdzg l_Id 1,012 f_ 69 _J_ 8 L _ 9 9 A _V_ L _ 1Ii-_ I__ E flïa 1 'IúlVl On Lf, to 0, Nt La Figure 7 représente la réponse spectrale du  Table 3 below represents the data resulting from the speech interval detection step above. 0 ú 1 Ol ú J 9 o Oz LZ LZ LL 91 IL O 6 11 0 O Il It 9 if 91 zi IL 8 V LI HI 8 O UL 09 811 OO 9 9 r 1V ZI LV Lú I 1 1 LL LIú Ol L 6 9 V VZ LE IL 9 V 8 VL Lz LI Seen L 98 911 0 t I Oz 81 Lt 61 LZ 6 Z 99 V 9 El 'ti Ol VI LL 6 9 Iú 0 ú 8 8 S LZ 9 z 91 01 9 V 8 V 8 U 9 L IL Voi t II Vi 9 t II UL O ú 1 Vz LZ oz IV zi Zú V 6 LIJI L LZ Iz if 91 zz PZ THE LE Il 1 VI iz 6 V 01 Z Il O ZI VZ Z 9 1 91 Vz Vg 88 97 Z oz LI 8 V tzzl II s I 8 9 z 9 z 1 Vt 9 z 91 Vi Z 8 ú 9 9 V 6 LOV 09 LZ 011 L zz 81 zz Lt 61 CI VV Bone Z 9 19 811 901 LJI 861 Z 91 1 it 61 Oz OL 9 V LC úZ 9 ú 9 V 19 IL 98 LO ZZI L 81 OLU 9 V 1 98 81 It 61 6 V t V OV çz 6 LZ: EL LAW M 6 99 V 81 91 Z OLI 8 L LI zi t I 1 z LL LL LL 8 Z LV 99 6 V Vt 011 O Vi 901 ZOI 91 ZI 91 8 Z 6 81 ZL O Lg OZ O i Z 69 69 L u z 8 9 I 0 z VI ZI 9 ú 1 01 LI OL Vz 61 LI LZ LL 6 L 1 gt I z OZ 6 61 91 8 OI LI oz 61 Lz 91 9 9 z OV Uu 91 O l z O 8 zz 8 i O 8 9 Il o O l I it lú ZI 81 ZI O º ZI LI LT 61 LV Ll 1 91 z Figure 7 shows the spectral response of the system, and is shown in Figure 7.

signal de parole.speech signal.

La Figure 8 représente un spectre de fréquences  Figure 8 shows a frequency spectrum

numérisé Ici, le niveau d'énergie de chaque filtre passe-  Here, the energy level of each filter passes

bande lu de l'analyseur de parole est comparé à la sortie du filtre dont la bande est immédiatement inférieure, de sorte qu'un " 1 " logique est fixé en tant que sortie du filtre lorsque sa valeur de sortie est supérieure à celle du filtre de fréquence inférieure (lorsque Ef Nî 1 C Ef N) et un "" logique est fixé dans le cas d'une valeur plus faible (lorsque Ef Nî > Ef N> Le tableau 4 ci-après représente le signal de sortie de parole numérisé obtenu en utilisant le procédé  The read band of the speech analyzer is compared to the output of the filter whose band is immediately below, so that a logical "1" is set as the output of the filter when its output value is greater than that of the filter. of lower frequency (when Ef Nl 1 C Ef N) and a logic "" is fixed in the case of a lower value (when Ef N1> Ef N> Table 4 below represents the digitized speech output signal obtained using the process

décrit ci-dessus (Ici, le nombre de bits d'entrée corres-  described above (Here, the number of input bits corre-

pondant à une trame est quinze).laying at one frame is fifteen).

o I T O O O O O O O O O O O I 1 l O O O O O I I O O T T T T O O 1 Il  o I T O O O O O O O O I 1 O O O O I I O O T T T O O 1

I O O O O T T O O T O O I O O I 111I O O O T O O T O O I O O I 111

O O I I O O O O O I I I O O O ZI IlO O I I O O O O I I I O O O ZI It

O O O O T I O O I I I O O O IILO O O T I O O I I I O O O IIL

I I O O O I O O O O I I O O O O llI I O O O I O O O I I O O O O L

O O O I O O O O I I I T O O 61O O O I O O O I I T IO O 61

_ O O O O I T O O I t I O O O 8 L 1 I O I O O O O O O O I O O I I Li  _ O O O I T O O I T I O O O 8 L 1 I O I O O O O O I O O I I Li

O O I I I O O O O I O O O I _ 9 LO O I I O O O I O O O I _ 9 L

I O O O T O I O O I I O O I II O O T O I O O I I O O I I I

O I T O O O O O T I O O I I O t ILO I T O O O O T I O O I I O IT

O O O O _ I O O O I O I _ O O ú 1O O O O I O O O I O I _ O O 1

I t O O I I I I O O I O O I ZLI t O O I I I O O I O O I ZL

O _ I O O O I O I O O O O TLO _ I O O O O O O O O O O TL

| _I_ |bl Ia |Z If | _Ia I| 01 Jl 6 _ | 8 J_ LJ | 9 I_ t_ afa J _L ___ -  | _I_ | bl Ia | Z If | _Ia I | 01 Jl 6 _ | 8 J_ LJ | 9 I_ t_ afa J _L ___ -

17 flvt IE Li/ on a' Co O) to a' N Le tableau 4 représente le signal de sortie de  Figure 4 shows the output signal of

parole numérisé obtenu en utilisant le procédé décrit ci-  digitized speech obtained using the method described above.

dessus (Ici, le nombre de bits d'entrée correspondant à  (Here, the number of input bits corresponding to

une trame est quinze).a frame is fifteen).

Dans la présente invention, en tant qu'étape  In the present invention, as a step

antécédente de reconnaissance de parole coréenne monosyl-  antecedent of Korean speech recognition monosyl-

labique, la théorie des ensembles flous et la capacité  labics, fuzzy set theory and the ability

d'adaptation précédente du réseau neuronal IDMLP sont expé-  previous adaptation of the IDMLP neural network are

rimentées pour reconnaître des chiffres prononcés de " O " à " 9 " (qui sont monosyllabiques en coréen) Egalement, dans la reconnaissance utilisant le réseauneuronal IDMLP, chaque syllabe des données de parole est rendue floue avec le résultat appris, de sorte que les expériences de reconnaissance sont effectuées par rapport au résultat appris au moyen d'une syllabe de données de parole, et la possibilité de combinaison du réseau neuronal et de la  to recognize pronounced numbers from "O" to "9" (which are monosyllabic in Korean) Also, in the recognition using the IDMLP network, each syllable of the speech data is blurred with the learned result, so that the experiments recognition of the learned result by means of a syllable of speech data, and the possibility of combining the neural network and the

théorie des ensembles flous est mesurée.  fuzzy set theory is measured.

La Figure 9 représente l'étape de numérisation  Figure 9 represents the scanning step

des données rendues floues.data made fuzzy.

Chaque syllabe des données de parole obtenue en prononçant les chiffres de " O " à " 9 " dix fois est doublée  Each syllable of the speech data obtained by pronouncing the numbers from "O" to "9" ten times is doubled

et rendue floue, et les données rendues floues sont en-  and blurred, and the blurred data is

suite numérisées à une valeur de seuil appropriée.  digitized to an appropriate threshold value.

Le tableau 5 ci-après représente le résultat  Table 5 below represents the result

de la numérisation ci-dessus des données rendues floues.  from the above digitization of the data made fuzzy.

I O O I O O I O O I O O O O SILI O O I O O I O O O O O O SIL

O O O O I O I O O I O O O O 17 ilO O O O I O I O O O O O O 17

O O O I O I O O O O I O O () I ú 11  O O O I O I O O O O O O () I ú 11

O O O i O I O O O O I O O O I ú 11 0 0 0 t 0 t 0 0 0 0 t 0 0 0 l Etú O O O 1 O O O O O I O O O 1 til  O O O O O O O O O O O I ú 11 0 0 0 t 0 t 0 0 0 0 t 0 0 0 l Et O O O O O O O O O O O 1 til

0 O O I O I O O O O I O O I I 0110 O O I O I O O O I O O I I 011

O O O I O I O O O O I O O I I 6 L 1O O O I O I O O O I O O I I 6 1

0 O O I O I O O O O I O O I I 810 O O I O I O O O I O O I I 81

0 O O I O I O O O O I O O I I Li0 O O I O I O O O I O O I I Li

0 O O I O I I O O I O O I I 910 O O I O I I O O I O O I I 91

0 0 0 t 0 t t 0 0 I t 0 0 t S Ig 0 O I O o I O O O I O O I I t'L 0 O O I O O O O I T 00 I I b L 0 O o O 1 O O O O O O Iúl 0 _ _ I O l t I O O J O O O O IL | Pl úId|bt 1 Zlà | J 14 01 J 6 J | 84 | L-4 | 9-q |d 5 q új | Zj | d s fl VîIa Ev J on Co t O on CO o. Puisque le nombre de noeuds d'entrée est régulier durant l'apprentissage du réseau, les longueurs des sons  0 0 0 t 0 t t 0 0 I t 0 0 t I 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 I 0 0 0 I 0 0 0 I 0 0 0 0 0 Pl úId | bt 1 Zlà | J 14 01 J 6 J | 84 | L-4 | 9-q | d 5 q új | Zj | Evidence on Co O. Since the number of input nodes is regular during the learning of the network, the lengths of the sounds

prononcés différemment doivent être normalisées par rap-  pronounced differently must be standardized

port à l'axe des temps Dans la présente invention, en uti-  In the present invention, using the time axis

lisant 15 trames en tant que référence, si la trame d'une  reading 15 frames as a reference, if the frame of a

configuration d'entrée est plus longue que la trame de ré-  input configuration is longer than the frame

férence, la normalisation selon l'axe des temps est réalisée  priority, normalization along the time axis is achieved

pour établir progressivement un intervalle de trame approprié.  to progressively establish an appropriate frame interval.

Ici, 200 syllabes de données de parole prononcées par une personne sont utilisées en tant que données d'étude du réseau neural IDMLP, et l'expérience de reconnaissance est effectuée au moyen de 100 syllabes de données de parole à reconnaître qui sont extraites durant trois périodes de  Here, 200 syllables of speech data uttered by a person are used as the study data of the neural network IDMLP, and the recognition experiment is performed by means of 100 syllables of speech data to be recognized which are extracted during three periods of

temps différentes (le matin, à midi et le soir), respec-  different times (morning, noon and evening), respec-

tivement, afin de déterminer la capacité d'adaptation du système de reconnaissance de parole selon la présente  to determine the adaptability of the speech recognition system in accordance with this

invention par rapport à la diversité de données de parole.  invention with respect to the diversity of speech data.

Après apprentissage, par rapport aux données d'étude, à la fois les données numérisées et les données rendues  After learning, in relation to the study data, both the digitized data and the data rendered

floues présentent un taux de reconnaissance de 100 %.  blurs have a recognition rate of 100%.

De plus, par rapport aux données d'essai, l'apprentissage au moyen des données numérisées et des données rendues floues présentent tous deux un taux de reconnaissance élevé (plus de 94 %) Ces résultats expérimentaux sont  In addition, with respect to the test data, learning using digitized data and fuzzy data both has a high recognition rate (over 94%). These experimental results are

représentés sur les tableaux suivants.  represented on the following tables.

Lorsque le réseau neuronal IDMLP est instruit au moyen des données numérisées, le taux de reconnaissance de l'expérience de reconnaissance est 94 % le matin (tableau 6 A), 99 % à midi (tableau 6 B) et 96 % le soir (tableau 6 C),  When the IDMLP neural network is educated using digitized data, the recognition rate for the recognition experiment is 94% in the morning (Table 6A), 99% at noon (Table 6B) and 96% in the evening (Table 6A). 6 C),

pour un taux de reconnaissance global de 96,3 %.  for an overall recognition rate of 96.3%.

TABLEAU 6 ATABLE 6 A

X 1 " O " 1 " 1 " i" 2 " | " 3 g" 1 " 4 " 1 51 " ' " 6 " <<" 7 " " 8 ' " 911 reconnaissance  X 1 "O" 1 "1" i "2" | "3 g" 1 "4" 1 51 "'" 6 "<<" 7 "" 8' "911 recognition

___ (%)___ (%)

" O " 10 100"O" 10 100

" 1 " 9 i 90"1" 9 i 90

" 2 " 10 100"2" 10 100

" 3 " 10 100"3" 10 100

" 4 "' 10 100"4" '10 100

I " 5 " 10 100I "5" 10 100

1 " 6 " 2 7 1 701 "6" 2 7 1 70

" 7 "' 2 8 80"7" '2 8 80

" 8 " 10 100"8" 10 100

" 9 " 10 100"9" 10 100

TABLEAU 6 BTABLE 6 B

* i" O " " 1 " 1 " 21 '3 " 1 " 411 " 5 " 161 " 711 | 7 8 " 9 " ire onnaissance* i "O" "1" 1 "21 '3" 1 "411" 5 "161" 711 | 7 8 "9" ire onnaissance

" 1 " 10 100"1" 10 100

" 2 "< 10 100"2" <10 100

" 2 " 10 100"2" 10 100

" 31 10 1000"31 10 1000

" 14 " 1 0 100"14" 1 0 100

l'5 " 10 100the 5 "10 100

" 6 " 9 I 90"6" 9 I 90

1 " 7 "q 10 100 g" 8 " l 10 1001 "7" q 10 100 g "8" l 10 100

19 " 10 10019 "10 100

TABLEAU 6 CTABLE 6C

D'autre part, lorsque le réseau neuronal IDMLP est instruit au moyen des données rendues floues, le taux de reconnaissance est 97 % le matin (tableau 6 D), 99 % à midi (tableau 6 E) et 98 % le soir (tableau 6 F), ou un taux de reconnaissance global de 98 %. j f O " s" 1 "'211 tg 3 " 1411 5115 " 6 " 7 " 11 " 8 11 9 recoimnnaissance  On the other hand, when the IDMLP neural network is educated using fuzzy data, the recognition rate is 97% in the morning (Table 6D), 99% at noon (Table 6E) and 98% in the evening (Table 6 F), or an overall recognition rate of 98%. j f O "s" 1 "'211 tg 3" 1411 5115 "6" 7 "11" 8 11 9 Reconnaissance

:0 " 10 100" 1 "X 9 1 90: 0 "10 100" 1 "X 9 1 90

" 2 " 10 100"2" 10 100

1 " 3 " 10 1001 "3" 10 100

" 4 " 10 100"4" 10 100

" 5 " 10 100"5" 10 100

" 6 " 1 2 7 1 70"6" 1 2 7 1 70

lt" 7 " 10 100lt "7" 10 100

" 8 " 10 100"8" 10 100

" 9 19-10 100"9 19-10 100

TABLEAU 6 DTABLE 6 D

| O " 1 " | 1 "" 2 " |" 3 " |" 4 " 5 " 1 " 6 " -Q 7 " |" 8 " 1 " 9 " reconnaissance  | O "1" | 1 "" 2 "|" 3 "|" 4 "5" 1 "6" -Q 7 "|" 8 "1" 9 "recognition

" 10 I O 100"10 I O 100

t 111 " 9 1 90t 111 "9 1 90

" 2 " 1 10 100"2" 1 10 100

3 " 1 10 1003 "1 10 100

11 " 4 " l 10 10011 "4" l 10 100

11 " 511 10 10011 "511 10 100

11 " 6 " 1 8 1 8011 "6" 1 8 1 80

11 " 711 10 10011 "711 10 100

11811 10 10011811 10 100

" 19 " 1 '10 100"19" 1 '10 100

TABLEAU 6 ETABLE 6 E

" 011 111 11211 3 t" 3 11411 11511 11611 11711 " 8 " " 119 l econnaissance  "011 111 11211 3 t" 3 11411 11511 11611 11711 "8" "119 l acknowledgment

___ (%)___ (%)

t" O " 10 100 " 1 "k 10 100t "O" 10 100 "1" k 10 100

211 10 100211 10 100

3 "' 10 1003 "10 100

14 " 11 10 10014 "11 10 100

t 5 10 100t 5 10 100

1 " 6 " I 9 901 "6" I 9 90

11711 10 10011711 10 100

11811 10 10011811 10 100

" 19 " 10 100"19" 10 100

TABLEAU 6 FTABLE 6 F

Ainsi qu'on peut le comprendre des tableaux ci-  As can be understood from the tables

dessus, le taux de reconnaissance à midi est le plus élevé parmi les trois instants d'expériences, et les données ayant le taux de reconnaissance le plus mauvais est le chiffre prononcé " 6 " (en coréen). L'apprentissage du réseau neuronal IDMLP est terminé en une fois par rapport à l'apprentissage,soit par les données numérisées, soit par les données rendues floues Bien que la caractéristique structurale du réseau  above, the recognition rate at noon is the highest among the three moments of experiments, and the data with the worst recognition rate is the pronounced number "6" (in Korean). The learning of the IDMLP neural network is completed in one time with respect to the learning, either by the digitized data or by the data made fuzzy Although the structural characteristic of the network

neuronal IDMLP n'ait pas été vérifiéei le ésultat de recon-  neuronal IDMLP has not been verified as a result of recognition

naissance ne-présente pas une grande différence lorsque l'apprentissage est effectué à l'aide des données rendues floues, tandis que le taux de reconnaissance des chiffres  birth does not make a big difference when learning is done using data made fuzzy, while the rate of recognition of numbers

prononcés est légèrement accru.pronounced is slightly increased.

" 1 | O " 1 l " 1 " " 12 " 3 "# 41 " 5 "' " 611 " 7 8 " " 9 " |reconnaissance  "1 | O" 1 l "1" "12" 3 "# 41" 5 "'" 611 "7 8" "9" | recognition

11 " O10 10011 "O10 100

"Iit 9 1 90"Iit 9 1 90

" 2 "' 10 100"2" '10 100

11311 10 10011311 10 100

I 14 " 1 10 100I 14 "1 10 100

1 " 5 " { 10 1001 "5" {10 100

11 " 6 " 11 9 9011 "6" 11 9 90

" 7 " 10 100"7" 10 100

1 " 8 " 10 1001 "8" 10 100

" 9 " 1 -10 100"9" 1 -10 100

Aux fins d'application du réseau neuronal IDMLP  For the purpose of applying the IDMLP neural network

à la reconnaissance de mots monosyllabiques coréens, un ré-  to the recognition of Korean monosyllabic words, a

seau neuronal de classification de type pour classer les mots en cinq modules orientés sur des voyelles est tout d'abord réalisé, et le réseau total est constitué de six modules de manière à être finalement reconnu par chaque  type classification neural bucket to classify the words into five vowel-oriented modules is first realized, and the total network consists of six modules so as to be finally recognized by each

sous-réseau par types classifiés Chaque module est consti-  subnet by classified types Each module consists of

tué d'un réseau neuronal IDMLP, la Figure 10 représente la  killed by an IDMLP neural network, Figure 10 represents the

structure du réseau neuronal IDMLP modulaire.  modular IDMLP neural network structure.

Durant la classification de type, en utilisant  During the classification of type, using

cinq sons de voyelles en tant que référence, un son d'en-  five vowel sounds as a reference, a sound of

trée est classé en cinq groupes Les phonèmes objectifs à classer sont 70 monosyllabes coréennes d'une structure consonne-voyelle (C-V) formée conjointement avec cinq  is classified into five groups The objective phonemes to be classified are 70 Korean monosyllables of a consonant-vowel structure (C-V) formed together with five

voyelles coréennes, comme représenté sur la Figure 11.  Korean vowels, as shown in Figure 11.

Les données utilisées pour instruire le réseau Y-neu-  The data used to instruct the Y-neu-

ronal de classification de type qui classe le son d'en-  type classification which classifies the sound of

trée en cinq groupes sont obtenues en extrayant uniquement la partie voyelle du son d'entrée, en effectuant ainsi l'apprentissage Dans chaque cas, les données utilisées sont de structure monosyllabique C-V et par conséquent, les voyelles peuvent être extraites simplement Puisqu'une  in five groups are obtained by extracting only the vowel portion of the input sound, thus performing the learning In each case, the data used are of monosyllabic structure C-V and therefore, the vowels can be extracted simply Because a

voyelle est positionnée à la fin du mot prononcé, l'extrac-  vowel is positioned at the end of the spoken word, the extrac-

tion de plusieurs trames présentes à la fin des trames de référence (par exemple 15 trames) est suffisante pour être utilisée pour classer les types Cependant, si l'on considère l'extension progressive des mots objectifs à reconnaître, c'est-à-dire en considérant une parole ayant une structure monosyllabique consonne-voyelle-consonne  of several frames present at the end of the reference frames (for example 15 frames) is sufficient to be used to classify the types. However, if we consider the progressive extension of the objective words to be recognized, that is, say by considering a word having a monosyllabic consonant-vowel-consonant structure

(C-V-C), l'algorithme ci-dessus ne convient pas.  (C-V-C), the algorithm above is not suitable.

Par conséquent, dans la présente invention, seule la partie centrale de la totalité de la trame est extraite pour être utilisée en tant que données d'étude du réseau neural de classification de type En utilisant un réseau  Therefore, in the present invention, only the central portion of the entire frame is extracted for use as neural network type classification data.

neural instruit au moyen des données extraites comme ci-  neural instructed using the data extracted as

dessus, la classification de type est expérimentée le matin, à midi et le soir, en tant qu'expérience de recon-  above, the type classification is tested in the morning, at noon and in the evening, as a recognition experiment.

naissance numérique prononcée.pronounced digital birth.

Les données d'étude utilisent des données saisies en extrayant les parties voyelle de 350 syllabes de données de parole ( 70 syllabes formées conjointement avec les cinq  The study data uses data entered by extracting the vowel parts from 350 syllables of speech data (70 syllables formed together with the five

voyelles et chacune prononcée cinq fois par une personne).  vowels and each pronounced five times by one person).

Les données d'essai utilisent environ 420 syllabes de don-  The test data uses about 420 syllables of data.

nées de parole pour chacun de cinq modules, et au total 2500 syllabes, en effectuant ainsi le test d'analyse de module. Les Figures 12 A-F représentent un taux d'analyse  Speech count for each of five modules, and a total of 2500 syllables, thus performing the module analysis test. Figures 12A-F represent a rate of analysis

par rapport à des données de parole d'une structure mono-  compared to speech data of a mono-

syllabique C-V, représentant, en moyenne, un taux de succès  syllabic C-V, representing, on average, a success rate

de classification de type de 98,4 % Les taux de classifi-  type classification of 98.4% Classifi-

cation de type respectifs sont mesurés à 97,6 % pour le module "a", 98, 6 % pour le module "e", 98,1 % pour le module  respective type are measured at 97.6% for module "a", 98.6% for module "e", 98.1% for module

"i", 98,3 % pour le module "o", et 98,1 % pour le module "u".  "i", 98.3% for the "o" module, and 98.1% for the "u" module.

Ici, bien que l'apprentissage ait été effectué en extrayant les données à partir des données de parole monosyllabiques C-V, un taux de classification de type supérieur à 90 % est  Here, although the learning was done by extracting the data from the C-V monosyllabic speech data, a classification rate of greater than 90% is

obtenu en expérimentant une classification de type par rap-  obtained by experimenting with a type classification

port à des données de parole monosyllabiques C-V-C.  port to monosyllabic C-V-C speech data.

En résultat, le système de reconnaissance de la parole selon la présente invention peut obtenir un  As a result, the speech recognition system according to the present invention can obtain a

résultat satisfaisant pour la reconnaissance de monosylla-  satisfactory result for the recognition of monosylla-

bes coréennes, ainsi que pour une reconnaissance de parole au-delà de cette parole monosyllabique, c'est-à-dire une parole à syllabes multiples, grâce une telle expérience  Korean needs, as well as for a word recognition beyond this monosyllabic word, that is to say a word with multiple syllables, thanks to such an experience

de reconnaissance De plus, un nouveau système de recon-  In addition, a new system of recognition

naissance de la parole peut être réalisé.  birth of the word can be realized.

Bien que la présente invention ait été représentée  Although the present invention has been shown

et décrite en particulier en référence à des modes de réali-  and described in particular with reference to embodiments of

sation particuliers de celle-ci, l'homme de l'art compren-  of the latter, the person skilled in the art understood

dra que différentes variations de forme et de détails peu-  that different variations in shape and detail may

vent être effectuées sans s'écarter de l'esprit et de la  be carried out without departing from the spirit and

portée de l'invention.scope of the invention.

Claims (2)

R E V E N D I C A T I O N SR E V E N D I C A T IO N S 1 Système de reconnaissance de la parole caractérisé  1 speech recognition system characterized en ce qu'il comporte -in that it includes - des moyens d'entrée de parole ( 10, 20) pour en-  speech input means (10, 20) for en- trer un signal de parole, des moyens d'analyse de parole ( 30) pour diviser ledit signal de parole provenant desdits moyens d'entrée de parole en des bandes de fréquences prédéterminées pour exprimer le signal de parole divisé sous la forme d'un niveau d'énergie dans chaque bande de fréquences; et un calculateur hôte ( 60) pour entrer le signal provenant desdits moyens d'analyse de parole, numériser ledit signal de parole en comparant le niveau d'énergie  generating a speech signal, speech analysis means (30) for dividing said speech signal from said speech input means into predetermined frequency bands for expressing the divided speech signal as a level of energy in each frequency band; and a host computer (60) for inputting the signal from said speech analyzing means, digitizing said speech signal by comparing the energy level de chaque bande de fréquences par rapport au niveau d'éner-  each frequency band in relation to the energy level gie d'une bande de fréquences adjacente, et délivrer exté-  of an adjacent frequency band, and to deliver rieurement un signal de parole correspondant aux données numérisées. -2 Système de reconnaissance de la parole selon la revendication 1, caractérisé en ce qu'il comporte en outre des moyens d'interface ( 40) pour assurer l'interface entre lesdits moyens d'analyse de parole ( 30) et ledit  a speech signal corresponding to the digitized data. -2 speech recognition system according to claim 1, characterized in that it further comprises interface means (40) for providing the interface between said speech analysis means (30) and said calculateur hôte ( 60).host computer (60). 3 Procédé de reconnaissance de la parole dans un système de reconnaissance de la parole comprenant des moyens d'entrée de parole ( 10) pour entrer un signal de  A method of recognizing speech in a speech recognition system comprising speech input means (10) for inputting a speech signal parole, des moyens d'analyse de la parole ( 30) pour divi-  speech analysis means (30) for dividing speech ser ledit signal de parole provenant desdits moyens d'en-  said speech signal from said means for trée de parole en des bandes de fréquences prédéterminées pour exprimer le signal divisé sous la forme d'un niveau  speech in predetermined frequency bands to express the divided signal as a level d'énergie dans chaque bande de fréquences, et un calcula-  of energy in each frequency band, and a calculation teur hôte ( 60) pour entrer le signal provenant desdits moyens d'analyse de la parole, numériser ledit signal d'entrée en comparant le niveau d'énergie de chaque bande  host (60) to input the signal from said speech analyzing means, digitizing said input signal by comparing the energy level of each band de fréquences par rapport au niveau d'énergie d'une bande de fréquences adjacente, et délivrer extérieurement un si-  frequencies relative to the energy level of an adjacent frequency band, and externally gnal de parole correspondant aux données numérisées, le-  speech program corresponding to the digitized data, the dit procédé étant caractérisé en ce qu'il comporte: une première étape d'entrée de données d'analyse de la parole dans ledit calculateur hôte; une seconde étape de détection dans l'intervalle de parole, en utilisant des données provenant de ladite première étape;  said method being characterized in that it comprises: a first step of inputting speech analysis data into said host computer; a second detection step in the speech interval, using data from said first step; une troisième étape d'exécution d'une normalisa-  a third stage of execution of a standardization tion selon l'axe des temps, en utilisant des données pro-  along the time axis, using data from venant de ladite seconde étape; une quatrième étape de numérisation des données qui ont été normalisées selon l'axe des temps; et une cinquième étape de mémorisation du résultat de ladite quatrième étape dans une mémoire dudit calculateur hôte.  from said second step; a fourth step of digitizing data that has been normalized along the time axis; and a fifth step of storing the result of said fourth step in a memory of said host computer.
FR9306412A 1993-05-28 1993-05-28 Speech recognition system. Expired - Fee Related FR2691829B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR9306412A FR2691829B1 (en) 1993-05-28 1993-05-28 Speech recognition system.

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR9306412A FR2691829B1 (en) 1993-05-28 1993-05-28 Speech recognition system.

Publications (2)

Publication Number Publication Date
FR2691829A1 true FR2691829A1 (en) 1993-12-03
FR2691829B1 FR2691829B1 (en) 1995-03-31

Family

ID=9447542

Family Applications (1)

Application Number Title Priority Date Filing Date
FR9306412A Expired - Fee Related FR2691829B1 (en) 1993-05-28 1993-05-28 Speech recognition system.

Country Status (1)

Country Link
FR (1) FR2691829B1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3619509A (en) * 1969-07-30 1971-11-09 Rca Corp Broad slope determining network
DE2347738A1 (en) * 1972-09-21 1974-03-28 Threshold Tech VOICE RECOGNITION METHOD AND DEVICE FOR IMPLEMENTING THE SAME
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3619509A (en) * 1969-07-30 1971-11-09 Rca Corp Broad slope determining network
US3812291A (en) * 1972-06-19 1974-05-21 Scope Inc Signal pattern encoder and classifier
DE2347738A1 (en) * 1972-09-21 1974-03-28 Threshold Tech VOICE RECOGNITION METHOD AND DEVICE FOR IMPLEMENTING THE SAME

Also Published As

Publication number Publication date
FR2691829B1 (en) 1995-03-31

Similar Documents

Publication Publication Date Title
EP0594480B1 (en) Speech detection method
US8566088B2 (en) System and method for automatic speech to text conversion
US5621857A (en) Method and system for identifying and recognizing speech
FR2520913A1 (en) METHOD AND APPARATUS FOR RECOGNIZING KEYWORDS IN WORDS
FR2522179A1 (en) METHOD AND APPARATUS FOR RECOGNIZING WORDS FOR RECOGNIZING PARTICULAR PHONEMES OF THE VOICE SIGNAL WHATEVER THE PERSON WHO SPEAKS
FR2520911A1 (en) ANALYSIS METHOD AND APPARATUS FOR SPEECH RECOGNITION
EP1535276A2 (en) Method and apparatus for classifying sound signals
Yue et al. Acoustic modelling from raw source and filter components for dysarthric speech recognition
Dwivedi et al. Analysing the impact of lstm and mfcc on speech emotion recognition accuracy
Vu et al. Improved speech emotion recognition based on music-related audio features
Harby et al. Exploring Sequential Feature Selection in Deep Bi-LSTM Models for Speech Emotion Recognition.
Barnard et al. Real-world speech recognition with neural networks
FR2691829A1 (en) Speech recognition system using neural network and fuzzy logic processing
Jegan et al. MFCC and texture descriptors based stuttering dysfluencies classification using extreme learning machine
Cerna et al. An iot-based language recognition system for indigenous languages using integrated cnn and rnn
Shahriar et al. Identification of spoken language using machine learning approach
International Neural Network Society (INNS), the IEEE Neural Network Council Cooperating Societies et al. Text-dependent speaker identification using learning vector quantization
EP0595950B1 (en) Real-time speech recognition device and method
Grigaliūnaitė Accent identification using machine learning
Shantoash et al. Speech accent recognition
Borrelli Data driven and signal processing techniques for audio forensics
KR950003390B1 (en) Food Recognition System and Speech Analysis Data Extraction Method Using the Food Recognition System
Ghai et al. Speaker Recognition for Hindi Language Using Deep Neural Network
Hossain Classification of bangla regional languages and recognition of artificial bangla speech using deep learning
Kruthika et al. Forensic Voice Comparison Approaches for Low‐Resource Languages

Legal Events

Date Code Title Description
R1 Appeal
DS Decision of the director general to state about an appeal
ST Notification of lapse

Effective date: 20070131