FR2533513A1 - Method and system for communicating, on board a motor vehicle, complex information relating to the vehicle and its environment - Google Patents
Method and system for communicating, on board a motor vehicle, complex information relating to the vehicle and its environment Download PDFInfo
- Publication number
- FR2533513A1 FR2533513A1 FR8216066A FR8216066A FR2533513A1 FR 2533513 A1 FR2533513 A1 FR 2533513A1 FR 8216066 A FR8216066 A FR 8216066A FR 8216066 A FR8216066 A FR 8216066A FR 2533513 A1 FR2533513 A1 FR 2533513A1
- Authority
- FR
- France
- Prior art keywords
- acoustic
- mode
- phase
- speech recognition
- central unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 14
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 29
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000004891 communication Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 230000000007 visual effect Effects 0.000 claims description 13
- 238000012986 modification Methods 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000005693 optoelectronics Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 230000037213 diet Effects 0.000 claims 1
- 235000005911 diet Nutrition 0.000 claims 1
- 238000012360 testing method Methods 0.000 description 29
- 230000009471 action Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000008859 change Effects 0.000 description 9
- 230000007704 transition Effects 0.000 description 9
- 210000000056 organ Anatomy 0.000 description 7
- 238000010200 validation analysis Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 210000004556 brain Anatomy 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000287828 Gallus gallus Species 0.000 description 1
- 241001417501 Lobotidae Species 0.000 description 1
- UOZODPSAJZTQNH-UHFFFAOYSA-N Paromomycin II Natural products NC1C(O)C(O)C(CN)OC1OC1C(O)C(OC2C(C(N)CC(N)C2O)OC2C(C(O)C(O)C(CO)O2)N)OC1CO UOZODPSAJZTQNH-UHFFFAOYSA-N 0.000 description 1
- 238000012896 Statistical algorithm Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 235000013330 chicken meat Nutrition 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- ALEXXDVDDISNDU-JZYPGELDSA-N cortisol 21-acetate Chemical compound C1CC2=CC(=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@@](C(=O)COC(=O)C)(O)[C@@]1(C)C[C@@H]2O ALEXXDVDDISNDU-JZYPGELDSA-N 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000001595 flow curve Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- JFRJCQJVFMHZOO-QZHHGCDDSA-N n-(2-aminoethyl)-2-[4-[[2-[4-[[9-[(2r,3r,4s,5r)-3,4-dihydroxy-5-(hydroxymethyl)oxolan-2-yl]purin-6-yl]amino]phenyl]acetyl]amino]phenyl]acetamide Chemical compound C1=CC(CC(=O)NCCN)=CC=C1NC(=O)CC(C=C1)=CC=C1NC1=NC=NC2=C1N=CN2[C@H]1[C@H](O)[C@H](O)[C@@H](CO)O1 JFRJCQJVFMHZOO-QZHHGCDDSA-N 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 235000015277 pork Nutrition 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000011514 reflex Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 238000011076 safety test Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000007858 starting material Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 238000011179 visual inspection Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60R—VEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
- B60R16/00—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
- B60R16/02—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
- B60R16/037—Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
- B60R16/0373—Voice control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
Landscapes
- Engineering & Computer Science (AREA)
- Mechanical Engineering (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
Description
PROCEDE ET SYSTEME POUR COMMUNIQUER A BORD D'UN VEHICULE AUTOMOBILE 3aES INFORMATIONS COMPLEXES RELATIVES AU VEHICULE ET A SON ENVIRONNEMENT
La présente invention concerne un système pour communiquer, à bord d'un véhicule automobile, des informations complexes relatives au véhicule et à son environnement, ainsi qu'un procédé d'exploitation de ce système.METHOD AND SYSTEM FOR COMMUNICATING ABOARD A MOTOR VEHICLE 3aES COMPLEX INFORMATION RELATING TO THE VEHICLE AND ITS ENVIRONMENT
The present invention relates to a system for communicating, on board a motor vehicle, complex information relating to the vehicle and its environment, as well as a method of operating this system.
I1 permet de commander des organes plus ou moins simples, d'accéder à de l'information ou de donner de 1' information, comme par exemple de commander des fonctions d'ordre secondaire (essuie-glace, phares, cli gnotants, démarrage du moteur, etc...), de sélectionner une station d'auto-radio particulière, d'obtenir des informations précises au moyen de synthèse de parole ou d'affichages lumineux (capacite réservoir, distances parcourues, etc...), d'émettre de l'information (programma- tion d'un ordinateur de bord, etc...), et cela au moyen de la recon- naissance et de la synthèse de la parole, obéissant à un schéma de communication parlée homme-machine, en complément des appréciations vi- suelles et tactiles. It makes it possible to control more or less simple organs, to access information or to provide information, such as, for example, to control secondary-order functions (windshield wipers, headlamps, lights, start-up). engine, etc ...), to select a particular car radio station, to obtain precise information by means of speech synthesis or light displays (tank capacity, distances traveled, etc ...), d. emitting information (programming of an on-board computer, etc.), by means of recognition and synthesis of speech, obeying a man-machine speech communication scheme , in addition to visual and tactile assessments.
En règle générale le conducteur d'un véhicule automobile utilise des moyens visuels et tactiles (yeux, mains et pieds) pour mouvoir son véhicule et commander des organes soit d'ordre primaire (volant, frein, accélérateur, etc...), soit d'ordre secondaire (clignotants, essuieglace, phares, etc...)
Au delà d'un certain espace visuel, le conducteur ne peut plus apprécier toutes lexs informations que ses yeux reçoivent et par ce fait, entre autre, en sélectionne une partie, on l'acquière beaucoup moins vites I1 en est de même avec l'action manuelle sur les touches, commutateurs, etc..., 01, au-delà d'une certaine quantité, le système devient en partie inexploité.Pour-la réception des ondes acoustiques, le problème se posera aussi de la même façon dès que l'on dépassera un certain nombre de sources sonores utiles ou perturbatrices.As a general rule, the driver of a motor vehicle uses visual and tactile means (eyes, hands and feet) to move his vehicle and to order organs that are of primary order (steering wheel, brake, accelerator, etc.), or secondary order (flashers, wipers, headlights, etc ...)
Beyond a certain visual space, the driver can no longer appreciate all the information that his eyes receive and thereby, among other things, selects a part of it, it is acquired much less quickly. It is the same with the manual action on the keys, switches, etc ..., 01, beyond a certain amount, the system becomes partly untapped. For the reception of acoustic waves, the problem will also arise in the same way as soon as a number of useful or disruptive sound sources will be passed.
Si les yeux et les oreilles sont estimés commerécepteurs où une information complexe circule et est ensuite traité, par notre cerveau, les mains sont plutôt ressenties comme des actionneurs commandés à la suite de décisions prises par notre cerveau Au regard des actions comme les arcs-réflexes, par exemple, il n'est pas facile de juger si l'informa- tion émise par notre cerveau possède un caractère complexe ou non. Par contre le fait de demander à nos actionneurs tactiles de passer des commandes, des recherches de commutateurs, etc..., pour réaliser des actions plus ou moins complexes (allant de l'ordre simple du contact jusqu'au passage d'informations utiles pour la programmation d'un système dit "intelligent"), apparaît fastidieux, complexe et parfois inadapté.If the eyes and the ears are considered commercial receivers where a complex information circulates and is then treated, by our brain, the hands are rather felt like controlled actuators as a result of decisions taken by our brain With regard to the actions like the arcs-reflexes For example, it is not easy to judge whether the information emitted by our brain is complex or not. On the other hand, to ask our tactile actuators to place orders, search switches, etc ..., to perform more or less complex actions (ranging from the simple order of contact to the passage of useful information for the programming of a system called "intelligent"), appears tedious, complex and sometimes inappropriate.
L'interface manuelle, dans ces cas-là, apparat comme un moyen ne pouvant pas rendre rapidement les services attendus.The manual interface, in these cases, appears as a means that can not quickly render the services expected.
L'évolution du véhicule automobile tend à apporter beaucoup plus de pres tatios que dans le passé, notamment sur le plan informationnel, et nécéssite parfois de la part du conducteur une phase plus active, ce dernier étant déjà très sollicité par le milieu environnant intérieur et extérieur.The evolution of the motor vehicle tends to provide a lot more pres tatios than in the past, especially in terms of information, and sometimes requires the driver to a more active phase, the latter is already very much solicited by the inner environment and outside.
Pour que le service rendu soit optimal, il faut que l'on accède à l'information le plus vite possible et avec la plus grande souplesse permise.For the service rendered to be optimal, it is necessary to access the information as quickly as possible and with the greatest flexibility allowed.
Donc ce support de commuhicsion doit avoir un débit informationnel très grand, chaque entité d'information étant compressée le plus possible.So this communication support must have a very large information rate, each information entity being compressed as much as possible.
En effet, pour un support ayant un débit informationnel donné, plus on réduit le codage de chaque entité, plus on passe d'entités dans un laps de temps donné. Ceci est permis par la parole (passage d'uncodage de quelques dizaines de ? < ilobits/s à quelques dizaines de bits/s). Indeed, for a medium having a given information rate, the more the coding of each entity is reduced, the more entities are passed in a given period of time. This is allowed by the speech (uncoding passage from a few tens of? <Ilobits / s to a few tens of bits / s).
Ce moyen de communication doit être vu comme un complément à ceux déjà existants (visuels et tactiles) et être ajusté de la façon la plus rationnelle et harmonieuse qu'il soit. Le véhicule sera perçu avec des aspects différents, allant dans le sens de son évolution, laissant entrevoir des possibilités non permises auparavant.This means of communication must be seen as a complement to existing ones (visual and tactile) and to be adjusted in the most rational and harmonious way. The vehicle will be perceived with different aspects, going in the direction of its evolution, revealing possibilities previously unauthorized.
A cet effet, l'invention a pour objet un système pour communiquer, à bord d'un véhicule automobile, des informations complexes relatives au véhicule et à son environnement, comprenant un récepteur d'informations acoustiques tel qu'un microphone, un dispositif de reconnaissance de la parole couplé au récepteur, un dispositif de synthèse de la parole cou plé à un haut.- parleur, un dispositif d'actionnement d'organes du véhicule, un ensemble de capteurs de paramètres du véhicule connectés à un module d'interface et une unité centrale couplée au dispositif de reconnaissance, au dispositif de synthèse, au dispositif dractionnement et au module d'interface et commandant le dispositif d'actionnement et le dis positif de synthèse de la parole en fonction d'instruclions transmises et décodées par le dispositif de reconnaissance de la parole.To this end, the subject of the invention is a system for communicating, on board a motor vehicle, complex information relating to the vehicle and its environment, comprising an acoustic information receiver such as a microphone, a device for speech recognition coupled to the receiver, speech synthesizer coupled to a loudspeaker, vehicle organ actuator, set of vehicle parameter sensors connected to an interface module and a central unit coupled to the recognition device, the synthesis device, the operating device and the interface module and controlling the actuating device and the speech synthesis positive as a function of instrucions transmitted and decoded by the device. speech recognition device.
De préférence, le système de communication comprend également un calculateur de bord et/ou un auto-radio et/ou un terminal pourvu d'un clavier et d'un écran d'affichage commandés par l'unité centrale en fonction d'instructions transmises et décodées par le dispositif de reconnaissance de la parole.Preferably, the communication system also comprises an on-board computer and / or a car radio and / or a terminal provided with a keyboard and a display screen controlled by the central unit according to transmitted instructions. and decoded by the speech recognition device.
D'autres caractéristiques et avantages de l'invention ressortiront de la description qui va suivre, faite en se référent aux dessins annexés sur lesquels - la figure i est un schéma-bloc de ltensemble du système de communica- tion suivant l'invention - la figure 2 est un schéma-bloc d'un exemple de dispositif de reconnaissance de la parole utilisé dans le système de la figure i - la figure 3 est un schéma-bloc du dispositif d'actionnement d'organes utilisé dans le système devra figure l - la figure 4a est un schéma-bloc d'un auto-radio utilisé dans le système de la figure I - la figure 4b représente le circuit de commande du volume de l'auto-radio de la figure 4a - la figure 5 est un schéma-bloc d'un calculateur de bord utilisé dans le système de la figure I - la figure 6 est un schéma à deux niveaux d'arborescence illustrant le fonctionnement du système de la figure l en mode de reconnaissance de la parole - la figure 7 est un schéma-bloc d'un dispositif de synthèse de la pa role utilisé dans le système de la figure 1; - la figure 8 est un schéma-bloc de l'unité centrale du système de la figure I - la figure 9 est un schéma-bloc d'un système d'expansion de ports parallèles en sortie utilisé dans l'unité centrale représentée à
la figure 8 - la figure 10 est un diagramme de signaux logiques explicitant le fonctionnement du système de la figure 9 ;; - la figure il est l'organigramme principal du logicial de l'unité centrale du système de la figure I - la figure i2 est un organigramme illustrant le mode "apprentissage de vocabulaire" du système de la figure 1 - la figure 13 est un organigramme illustrant le chargement ou la sauvegarde dans la mémoire de l'unité centrale du système d'un vocabulaire de références - la figure 14 est un organigramme illustrant un mode de fonctionnement du système permettant de modifier ou d'ajouter des références acoustiques au vocabulaire mémorisé dans le dispositif de reconnaissance de la parole - les figures 15a et 15b représentent ensemble un algorithme de fonctionnement du système en mode reconnaissance de la parole, et - la figure 16 représente un algorithme utilisé pour gérer le système d'expansion illustré à la figure 9.Other features and advantages of the invention will emerge from the description which follows, with reference to the appended drawings in which: - Figure i is a block diagram of the whole communication system according to the invention - the FIG. 2 is a block diagram of an exemplary speech recognition device used in the system of FIG. 1; FIG. 3 is a block diagram of the organ actuator used in the system; FIG. FIG. 4a is a block diagram of a car radio used in the system of FIG. 1; FIG. 4b represents the volume control circuit of the car radio of FIG. 4a; FIG. block diagram of an on-board computer used in the system of FIG. 1 - FIG. 6 is a two-level tree diagram illustrating the operation of the system of FIG. 1 in speech recognition mode - FIG. is a block diagram of a synt device hess the role used in the system of Figure 1; FIG. 8 is a block diagram of the central unit of the system of FIG. 1; FIG. 9 is a block diagram of an output parallel expansion system used in the central unit represented in FIG.
Fig. 8 - Fig. 10 is a logic signal diagram explaining the operation of the system of Fig. 9; FIG. 11 is the main flow diagram of the central system log of the system of FIG. 1; FIG. 12 is a flowchart illustrating the "vocabulary learning" mode of the system of FIG. 1; FIG. 13 is a flowchart; illustrating the loading or the saving in the memory of the central unit of the system of a reference vocabulary - FIG. 14 is a flowchart illustrating a mode of operation of the system making it possible to modify or add acoustic references to the vocabulary stored in the speech recognition device - Figs. 15a and 15b together represent a system operation algorithm in speech recognition mode, and - Fig. 16 shows an algorithm used to manage the expansion system illustrated in Fig. 9.
En se reportant à la figure l, le système de communication comprend une unité centrale il à laquelle sont couplés un dispositif de reconnaissance de la parole 2 pourvu d'un microphone récepteur 1 un dispositif de synthèse de la parole 12 équipé d'un heut-parleur 13, un dispositif 3 d'actionnement d'un certain nombre d'organes A1-A2- An du véhicule, un système 4 d'affichage et de dialogue manuel, un auto-radio 6 équipé d'un haut-parleur 5 et d'une antenne 7, un ordinateur de bord 8 recevant des informations d'un certain nombre de capteurs Col, Co2 -Con, un module d'interface 9 avec d'autres capteurs Ci,C2-Cn de paramètres de fonctionnement du véhicule, ainsi qu'un ensemble 10 de mémoires mortes et vives. Referring to FIG. 1, the communication system comprises a central unit 11 to which are coupled a speech recognition device 2 provided with a receiver microphone 1 a speech synthesis device 12 equipped with a receiver. 13, a device 3 for actuating a number of A1-A2-An organs of the vehicle, a display system 4 and manual dialogue, a car radio 6 equipped with a speaker 5 and an antenna 7, an onboard computer 8 receiving information from a number of sensors Col, Co2 -Con, an interface module 9 with other sensors Ci, C2-Cn of vehicle operating parameters, as well as a set of 10 dead and alive memories.
Le microphone 1 sert à capter les informations acoustiques provenant, en général, du conducteur. Ce microphone est nécessaire pour utiliser le système ou dispositif de reconnaissance de la parole 2. Depuis quelque temps, des systèmes de reconnaissance de la parole sont proposés pour un prix raisonnable, avec une intégration ne posant pas de problème et des possibilités permettant de réaliser des applications précises.The microphone 1 is used to pick up the acoustic information coming, in general, from the driver. This microphone is required to use the speech recognition system or device 2. For some time now, speech recognition systems have been offered for a reasonable price, with a problem-free integration and opportunities to perform speech recognition. precise applications.
Ces systèmes se différencient entre eux par plusieurs critères dont les principaux sont la méthode d'analyse (temporelle, fréquentielle, pseudo-temporelle, etc...), le niveau sur lequel porte l'algorithme de reconnaissance (niveau acoustique, phonétique, etc...), le principe de traitement de l'information, etc...).These systems differ from one another by several criteria, the main ones being the method of analysis (temporal, frequential, pseudo-temporal, etc ...), the level on which the recognition algorithm carries (acoustic level, phonetic, etc. ...), the principle of information processing, etc ...).
Si certains systèmes utilisent une méthode liée à une structure de langage donnée, d'autres systèmes ont la possibilité de s'affranchir de ce critère en utilisant une méthode opérant au niveau acoustique C'est cette deuxième méthode qui est de préférence utilisée dans le système suivant l'invention, pour différentes raisons dont on peut énoncer les principales.If some systems use a method related to a given language structure, other systems have the possibility to overcome this criterion using a method operating at the acoustic level It is this second method which is preferably used in the system according to the invention, for various reasons which can be stated the main ones.
Le premier point est que le critère niveau acoustique offre une forme d'universalité pour l'utilisation Cette universalité existe'car le système nécessite d'avoir fait au préalable au moins une fois la phase de caractérisation avant l'utilisation de la phase de reconnaissance.The first point is that the criterion acoustic level offers a form of universality for the use This universality exists because the system requires to have done at least once the characterization phase before the use of the recognition phase .
Cette phase de caractérisation, par exemple, peut disparaitre quand on utilise le critère phonétique en offrant une orientation multilocuteur, mais restreint l'utilisation de l'application car l'étude repose en général sur un langage donné.This characterization phase, for example, may disappear when using the phonetic criterion by offering a multilocutor orientation, but restricts the use of the application because the study is generally based on a given language.
Un deuxième point est qu?actuellement, ce sont ces types de systèmes de reconnaissance de la parole qui offrent le meilleur compromis inté gration-qual it é-prix. A second point is that currently, it is these types of speech recognition systems that offer the best compromise between price and quality.
Il est intéressant de donner une description succinte de ce type de système de reconnaissance de la parole, afin de mieux comprendre une partie du logiciel gérant le système et décrit plus loin.It is interesting to give a brief description of this type of speech recognition system, to better understand some of the software managing the system and described later.
Le système 2 est représenté à la figure 2 où 20 désigne le signal acous
tique (provenant du microphone 1 ou d'une bande magnétique ou tout sys
tème pouvant reproduire un signal original acoustique dont on veut fai
re raz la reconnaissance). Ce signal attaque un étage amplificateur-correc-
teur 21, un banc de filtres 22 extrayant un spectre d'énergie sur une gamme
de 200 /hz a 7khz, un multiplexeur 23 cadencé par une horloge découpant le si-
gnal temporel tous les 10 à 20 ms environ, un convertisseur analogiquenumérique 24, un processeur 25, de la mémoire R.O.M. 28 contenant l'al
gorithme, les règles et la gestion globale du système, de la mémoire
R.A.M. 29 contenant le dictionnaire (c'est-à-dire les caractérisations
des références acoustiques créées au moment de l'apprentissage) ainsi
que des paramètres programmables intervenant sur l'algorithme de recon
naissance, et un système de communication d'entrées/sorties 26 avec l'unité centrale Il qui constitue un système décisionnel supérieur permet
tant d'exploiter l'ensemble du système de reconnaissance de la parole pour l'application envisagée.System 2 is shown in FIG. 2 where 20 designates the acoustic signal
tick (from microphone 1 or magnetic tape or any other
which can reproduce an original acoustic signal
re acknowledge the recognition). This signal attacks an amplifier-correct stage
21, a bank of filters 22 extracting a spectrum of energy over a range of
from 200 / hz to 7khz, a multiplexer 23 clocked by a clock
10 to 20 ms approximately, a digital analog converter 24, a processor 25, of the ROM 28 containing the al
gorithm, rules and overall system management, memory
RAM 29 containing the dictionary (i.e., the characterizations
acoustic references created at the time of learning) as well
that programmable parameters intervening on the algorithm of recon
birth, and an input / output communication system 26 with the central unit II which is a superior decision-making system allows
both to exploit the entire speech recognition system for the intended application.
Les deux phases importantes de fonctionnement du système de reconnais
sance de la parole 2 sont l'apprentissage et la reconnaissance, mais
d'autres phases sont adjointes et sont traitées par le logiciel de l'u
nité centrale, permettant de donner une exploitation plus riche du sys
tème Un exemple illustrant ce propos est celui de l'analyse, par le lo
giciel central, du sonogramme du mot prononcé en cours pour en déduire
des conclusions quant à la nature des bruits parasites, de la plus ou moins bonne validité de la forme acoustique reconnue pour un classement
dans un sens de suivi d'évolution du locuteur, etc....The two important phases of operation of the recognition system
speech session 2 are learning and recognition but
other phases are adjoined and are processed by the software of the u
central unit, allowing a richer exploitation of the sys
An example illustrating this point is that of the analysis, by the lo
central software, of the spoken word sonogram in order to deduce
conclusions as to the nature of the parasitic noises, the more or less good validity of the recognized acoustic form for a classification
in a sense of evolution of the speaker, etc.
La phase d'apprentissage consiste à créer le dictionnaire des références
acoustiques. Ce dictionnaire créé, la phase de reconnaissance consiste
à prononcer une référence parmi celles apprises pour être comparée Le
système de reconnaissance de la parole 2 en déduit alors un ensemble de
critères de reconnaissance qui sont analysés par le logiciel central.The learning phase consists of creating the reference dictionary
acoustic. This dictionary created, the recognition phase consists
to pronounce a reference among those learned to be compared
speech recognition system 2 then deduces a set of
recognition criteria that are analyzed by the central software.
Un ensemble de critères ou un groupe d'ensembles de critères est associé
à une décision, avec un caractère intéractif. Cet ensemble de critères
est composé d'une indication mot reconnu ou pas. Dans le cas du mot non reconnu il y a les cas des formes acoustiques trop courtes, trop
fortes ou trop faibles en énergie, une mauvaise détection au départ. A set of criteria or a set of criteria sets is associated
to a decision, with an interactive character. This set of criteria
is composed of a recognized word indication or not. In the case of the unrecognized word there are cases of acoustic forms too short, too
strong or too weak in energy, bad detection at the start.
Dans le cas d'un mot reconnu, il y a l'indication du numéro de la première référence la mieux reconnue avec son seuil de confiance, ainsi que la deuxième référence avec son seuil de confiance. On comprend qu?à la suite de cet ensemble de critères, le logiciel central puisse programmer le système de reconnaissance de la parole 2 dans une autre configuration pour les références acoustiques qui seront prononcées.In the case of a recognized word, there is the indication of the number of the first reference best recognized with its confidence level, as well as the second reference with its confidence threshold. It is understood that following this set of criteria, the central software can program the speech recognition system 2 in another configuration for the acoustic references that will be pronounced.
Cette programmation peut, par exemple, limiter ou augmenter le champ des références du dictionnaire pour faire la recherche, jouer sur la valeur du seuil de confiance pour la reconnaissance, décider du fait que la référence prononcée peut servir de référence temporaire en supplément dans le dictionnaire, enlever du ajouter une partie des références du dictionnaire. Des exemples plus précis seront cités plus loin
Des systèmes qui peuvent être utilisés sont le VRM-102 de la société I.E.C.(U.S.A.) et MOISE de la société V.E.C.SY.S. (France). De structures à peu près identiques (voir figure 2), ils possèdent des différences importantes.Le premier système utilise un algorithme par méthode statistique (10 à 15 passes d'apprentissage pour obtenir un taux de reconnaissance de 99 fo, dans un milieu pas trop bruités et avec un corpus de références du dictionnaire de quelques dizaines). Chaque référence du dictionnaire utilise une zone mémoire de 34 octets de R.A.M. Le deuxième système, pour lesmemes conditions d'utilisation, nécessite une seule passe d'apprentissage car l'algorithme travaille sur les variations de l'information. L'espace mémoire pour une référence est de 100 octets. Les deux systèmes sont du type monolocuteur.This programming can, for example, limit or increase the field of the references of the dictionary to make the search, to play on the value of the confidence threshold for the recognition, to decide that the reference pronounced can serve as temporary reference in supplement in the dictionary , remove from add some of the references in the dictionary. More specific examples will be cited later
Systems that can be used are VRM-102 from IEC (USA) and MOISE from VECSY.S. (La France). Of roughly identical structures (see Figure 2), they have significant differences.The first system uses a statistical algorithm (10 to 15 training passes to obtain a recognition rate of 99 fo, in a medium not too much noisy and with a body of references from the dictionary of a few tens). Each reference in the dictionary uses a memory zone of 34 bytes of RAM. The second system, for the same conditions of use, requires a single learning curve because the algorithm works on the variations of the information. The memory space for a reference is 100 bytes. Both systems are of the monolocutor type.
Le bloc 3 constitue le dispositif d'actionnement du système. Cette partie transforme des signaux électriques émis par l'unité centrale il en actions mécaniques ou électriques de puissance . En effet, ce bloc remplace les actions manuelles réalisées habituellement par le conducteur. Plus précisément, ces actions sont regroupées sous le terme d'acctions secondaires par opposition aux actions dites primaires. Les acctions primaires sont représentées par une grandeur analogique, à savoir la manoeuvre du volant (de part sa nature de changement de direction), des pédales d'accélération, de freinage et d'embrayage. Suivant qu'il s?agit d'un véhicule à transmission automatique ou non, les différences se font au niveau de la pédale d'embrayage et du sys tème de changement de vitesses.Dans le cas de l'automatique on peut prévoir d'installer un actionneur pour le système de changement de vi
tesses.Block 3 constitutes the device for actuating the system. This part transforms electrical signals emitted by the central unit into mechanical or electrical power actions. Indeed, this block replaces the manual actions usually performed by the driver. More specifically, these actions are grouped under the term secondary acceleration as opposed to so-called primary actions. The primary acceleration is represented by an analog variable, namely the maneuvering of the steering wheel (due to its nature of change of direction), the acceleration, braking and clutch pedals. Depending on whether it is a vehicle with an automatic transmission or not, the differences are with the clutch pedal and the gearshift system. In the case of the automatic, it is possible to install an actuator for the vi change system
tesses.
La figure 3 représente les différentes parties de ce bloc 3. Il com pend un module dladaptation-interface 31 auquel est appliqué un signal é
lectrique 30 provenant de l'unité centrale 11, une partie sécurités é
lectriques 32 reconstituant celles réalisées habituellement mécaniquement (par exemple l'action de mettre l'indicateur de direction, soit à
gauche, soit à droite, tout en laissant la possibilité supérieure de
faire fonctionner les feux de détresse), un organe de découplage élec
trique 33 du type opto-électronique, une partie amplification 34 et une partie actionneurs 35 (relais, transistors de puissance, thyristors,
etc...> reliés aux différents organes A. à commander Ces différents
organes Ai (Al, A2,---An sur la figure 1) comprennent: les trois posi
tions des phares (feux de code, croisement et route dont ces derniers peuvent être couplés avec des feux anti-brouillard ou autres comme l'exi-
ge la règlementation routière. L'appel de phares est réalisé par logi
ciel En effet, à chaque fois quelle conducteur désire faire un appel
de phares manuellement, il agit trois à quatre fois sur une commande
possédant un rappel. Chaque action dure un certain temps et est séparée
d'une autre action par un autre temps.Lorsque le conducteur prononce
la forme acoustique correspondant à l'appel de phares, le logiciel cen
tral du bloc Il réalisera la même commande, compte-tenu des temps de
temporisation, en utilisant la commande feux de route. La partie du lo
giciel traitant cette fonction est decrite plus loin); l'indicateur de
direction (le système mécanique arrêtant l'indicateur après un certain
angle de direction est remplacé par un capteur électronique placé sur
la colonne de direction, mais une temporisation peut-être faite par le
logiciel central); les feux de détresse les différents modes de fonc
tionnement pour les essuie-glaces (vitesse normale, rapide et cadencée
bien que ce dernier cas puisse être réalisé par le logiciel central en
utilisant des temporisations); le lave-vitre (chaque jet d'eau est tem
porisé et accompagné de quelques coups d'essuie-glaces, réalisés eux
aussi par logiciel); les commandes de montée. et de descente des vitres
latérales munies d'une sécurité de temps faite par logiciel (cette tem
porisation est légèrement supérieure au temps maximal que met une vitre pour passer d'une position limite à l'autre. Ceci permet d'éviter la détérioration du moteur électrique lorsque la vitre est bloquée dans une des positions limites); la condamnation électromagnétique des portes qui est une commande exclusive; le dégivrage de la lunette arrière; la commande des liseuses et du plafonnier; le démarrage et l'arrêt du moteur du véhicule sous certaines conditions; l'avertisseur avec certaines combinaisons faites par logiciel; la commande du ventilateur; les essuie - glaces de la lunette arrière.FIG. 3 represents the different parts of this block 3. It comprises an interface adaptation module 31 to which a signal is applied.
electrical system 30 from the central unit 11, a security part
32 mechanically reconstructing those usually performed mechanically (for example, the action of
left, on the right, while leaving the superior possibility of
run the hazard warning lights), a decoupling device
33 of the opto-electronic type, an amplification portion 34 and an actuator portion 35 (relays, power transistors, thyristors,
etc ...> connected to different organs A. to order These different
Ai organs (Al, A2, --- An in Figure 1) include: the three posi
lighthouses (code lights, crossing lights and road lights, which may be coupled with fog or
road regulations. The call of lighthouses is done by logi
sky In fact, each time which driver wants to make a call
of headlights manually, it acts three to four times on a command
having a reminder. Each action lasts a certain time and is separated
another action at another time. When the driver utters
the acoustic form corresponding to the call of lighthouses, the cen software
He will make the same order, taking into account the times of
time delay, using the high beam control. The part of the lo
software processing this function is described later); the indicator of
direction (the mechanical system stopping the indicator after a certain
steering angle is replaced by an electronic sensor placed on
the steering column but a time delay maybe made by the
central software); the hazard lights the different modes of operation
windshield wipers (normal, fast and clock speed
although this last case can be realized by the central software in
using timers); the window washer (each jet of water is tem
porisé and accompanied by a few strokes of wipers, made them
also by software); climb controls. and down the windows
equipped with time security made by software (this time
porisation is slightly greater than the maximum time that a glass pane passes from one limit position to the other. This makes it possible to avoid deterioration of the electric motor when the window is locked in one of the limit positions); the electromagnetic condemnation of the doors which is an exclusive command; defrosting the rear window; the control of the reading lights and the ceiling lamp; starting and stopping the vehicle engine under certain conditions; the horn with certain combinations made by software; fan control; windshield wipers on the rear window.
Cette liste n'est pas exhaustive en soi et l'on comprend aisément la facilité d'utilisation que precu,"e la reconnaissance de la parole quand le nombre de commandes à remplir devient plus important. Et cette notion de facilité prend encore plus deimportance lorsque l'on sait que, en temps normal, l'implantation des différentes commandes manuelles sur le tableau de bord varie beaucoup d'un type de véhicule à l'autre. A chaque changement de véhicule il sgen suit une gêne au départ qui dis- parait en partie dans le temps1 du fait de 19accomodation du conducteur au véhicule.L'habitude se fait en général avec l'aide des arcsréflexes pour des commandes que 1Von utilise avec une grande fréquence (indicateur de direction, appel de phare et Klaxon) Mais les commandes peu sollicitées font souvent l'objet d'un certain temps de recherche
On peut ainsi, par ce système de commande vocale, contourner la difficulté du problème de non-universalité de l'implantation des commandes manuelles. Il est possible, par le biais d'un support de stockage d'in- formations facilement transportable (badge, carte magnétique, etc. This list is not exhaustive in itself and it is easy to understand the ease of use that precedes the speech recognition when the number of commands to be filled becomes more important and this notion of facility takes on even more importance. when it is known that, in normal times, the implementation of the various hand controls on the dashboard varies a lot from one type of vehicle to another, with each change of vehicle it follows a discomfort at the beginning that says - appears partly in time1 because of the driver's compatibility with the vehicle. The habit is usually done with the aid of arcs reflexes for controls that are used with great frequency (direction indicator, lighthouse call and horn) But unsolicited orders are often the subject of some research time
Thus, by this voice control system, it is possible to circumvent the difficulty of the problem of non-universality of the implementation of manual controls. It is possible, through an easily transportable information storage medium (badge, magnetic card, etc.).
de charger son propre dictionnaire de références dans le système du ve- hicule que lton désire ensuite utiliser avec ce mode de commande. On peut estimer qu'un ordre de grandeur de 30 à 50 mots ou formes acoustiques (mots pour commander, décommander et redondants) suffisent pour cette partie d'application, ce qui représente quelques kilo-octets d'information à transporter. Pour l'application, les dictionnaires de références sont sauvegardés en mémoire vive ou morte, programmable (partie du bloc 10, figure 1). Avant chaque utilisation, le conducteur charge son propre dictionnaire, soit manuellement, soit vocalement.to load its own reference dictionary into the vehicle system which it then wishes to use with this command mode. We can estimate that an order of magnitude of 30 to 50 words or acoustic forms (words to command, cancel and redundant) suffice for this part of application, which represents a few kilobytes of information to be transported. For the application, the reference dictionaries are saved in RAM or dead, programmable (part of block 10, Figure 1). Before each use, the driver loads his own dictionary, either manually or by voice.
Bien entendu, ce système peut être multiutilisateur, c'est-à-dire que chacun possède son propre dictionnaire, la seule limitation provenant de la taille de la mémoire. Of course, this system can be multiuser, that is to say that each has its own dictionary, the only limitation from the size of the memory.
Un autre caractère important qui se dégage est que l'on peut personnaliser son véhicule. En effet, à chaque action désirée est associée une forme acoustique ou un groupe de formes acoustiques, mais plusieurs formes acoustiques ou groupes de formes acoustiques distinctes peuvent aboutir à la meme action. Par exemple, pour mettre l'indicateur de direction en position deaie,on peut prendre la forme acoustique "clignotant- droit" prononcé en entier ou "clignotant" puis "droit" en marquant un silence, entre les deux formes acoustiques, de quelques centaines de ms, ou bien associer une ou plusieurs autres formes acoustiques correspondant en finalité à la même action D'ailleurs le silence peut être omis quand on utilise un système de reconnaissance de la parole opérant avec une méthode de mots connectés.Ce dernier aspect, faisant apparaître une arborescence, sera abordé plus loin Donc,l'utilisateur choisit les mots qu?il veut associer à l'action désirée. Le caractère redondant (2 à 3 formes acoustiques pour le même état) offre, en général, plus de souplesse pour l'utilisateur. Cette notion est facultative et laissée au libre arbitrage du conducteur
Un autre aspect important, pour cette partie, est celui de la sécurité
En effet, la plupart des systèmes de reconnaissance sont monolocutéur, ctest-à-dire qutun utilisateur, opérant en phase de reconnaissance sur un dictionnaire de références créé auparavant par un autre locuteur, obtient des résultats moins bons.Donc en utilisant le seuil de confiance et une chaîne de deux ou trois formes acoustiques à prononcer, on réalise ainsi une clé vocale En général, deux ou trois conducteurs utilisent le meme véhicule Quand l'un des conducteurs, ou un intrus, se présente devant le système, il doit prononcer un motclé qui peut être Soit son nom, soit un code particulier, etc. , laissé au choix. La forme acoustique ainsi prononcée est comparée à un dictionnaire de références dit commun. Ce dictionnaire contient tous les mots-clés des utilisateurs et est chargé automatiquement par le bloc 11, à partir de la mémoire 10, dans le système de reconnaissance de la parole (bloc 2) à chaque mise sous tension du système général A la suite de cette opération de comparaison, on obtient un résultat du système de reconnaissance de la parole indiquant si un mot a été reconnu ou non par rapport à un seuil de confiance fixé au départ. Au bout de quelques tentatives, le système arrete sa phase de reconnaissance Si, par contre, un mot est reconnu1 on examine s'il répond bien à un mot-clé et dans ce cas on charge le dictionnaire des références correspondant au locuteur ainsi vérifié. Puis le locuteur peut soit passer les commandes vocales liées au fonctionnement du bloc 3, soit demander le démarrage du moteur.Another important feature that emerges is that you can customize your vehicle. Indeed, each desired action is associated with an acoustic form or a group of acoustic forms, but several acoustic forms or groups of distinct acoustic forms can lead to the same action. For example, to put the direction indicator in the deaie position, we can take the acoustic form "flashing- right" pronounced in full or "flashing" then "right" by marking a silence, between the two acoustic forms, a few hundred of ms, or to associate one or several other acoustic forms corresponding in finality to the same action Moreover the silence can be omitted when one uses a system of recognition of the speech operating with a method of connected words. This last aspect, making appear a tree, will be discussed later So the user chooses the words he wants to associate with the desired action. The redundant nature (2 to 3 acoustic forms for the same state) offers, in general, more flexibility for the user. This notion is optional and left to the free arbitration of the driver
Another important aspect for this part is that of security
Indeed, most recognition systems are monolocuteur, that is to say that a user, operating in the recognition phase on a reference dictionary previously created by another speaker, gets worse results. So using the confidence threshold and a string of two or three acoustic forms to be pronounced, so a vocal key is made. In general, two or three drivers use the same vehicle. When one of the drivers, or an intruder, comes to the system, he must pronounce a keyword that can be either its name or a particular code, etc. , left to choose. The acoustic form thus pronounced is compared with a reference dictionary said common. This dictionary contains all the keywords of the users and is loaded automatically by the block 11, from the memory 10, into the speech recognition system (block 2) each time the general system is powered up. this comparison operation, we obtain a result of the speech recognition system indicating whether a word has been recognized or not with respect to a confidence threshold initially set. After a few attempts, the system stops its recognition phase If, on the other hand, a word is recognized, we examine whether it responds to a keyword and in this case we load the reference dictionary corresponding to the speaker thus verified. Then the speaker can either pass the voice commands related to the operation of block 3, or request the engine start.
Il prononce deux formes acoustiques ("démarrager' puis, si cette forme est bien reconnue1 la forme "moteur", mais d'autres mots-clés peuvent être choisis), dont le seuil de confiance à atteindre est du même ordre de grandeur que pour le premier mot-clé. Et ces formes acoustiques ne sont comparées qucavec les références du dictionnaire commun appartenant au locuteur dont on a reconnu le premier mot-clé. Au bout de quelques tentatives aboutissant à une "non-reconnaissance" de ces deux autres mots-clés, le système arrête sa phase de reconnaissance et revient en position initiale. Les résultats ont montré que ce principe de sécurité était satisfaisant.Dans le cas de la reconnaissance de la channe des mots-clés, le moteur démarre par le moyen d'un actionneur assurant correctement le démarrage d'un moteur (start-o-matic, start-stop, etc..).It pronounces two acoustic forms ("to start" then, if this form is well recognized1 the "motor" form, but other keywords can be chosen), whose confidence threshold to reach is of the same order of magnitude as for the first keyword and these acoustic forms are compared only with the references of the common dictionary belonging to the speaker whose first keyword has been recognized.After a few attempts leading to a "non-recognition" of these two other words key, the system stops its recognition phase and returns to the initial position.The results showed that this principle of security was satisfactory.In the case of the recognition of the channe keywords, the engine starts by the means of an actuator ensuring the correct starting of an engine (start-o-matic, start-stop, etc.).
Ensuite le véhicule peut évoluer normalement, avec la commande vocale.Then the vehicle can evolve normally, with the voice command.
Pour arrêter le moteur, il suffira de prononcer deux mots-clés correspondants, moyennant certaines conditions sur la vitesse du véhicule (cette sécurité existe déjà dans l'actionneur de démarrage).To stop the engine, it suffices to pronounce two corresponding keywords, subject to certain conditions on the speed of the vehicle (this security already exists in the starter actuator).
Le logiciel du système de reconnaissance de la parole effectue un fixé trage des formes acoustiques en éliminant celles qui sont trop courtes (inférieures à 300 ms, c'est-à-dire les bruits parasites brefs), celles qui sont trop longues (supérieures à 2s), celles qui sont trop faibles ou trop fortes en énergie spectrales et celles ayant un mauvais départ (il faut 100 ms de silence ou une très faible énergie avant chaque forme acoustique à prononcer et 200 ms de silence en fin de forme acoustique).The speech recognition system software performs a fixed acoustic pattern by eliminating those that are too short (less than 300 ms, ie short spurious noise), those that are too long (greater than 2s), those which are too weak or too strong in spectral energy and those having a bad start (it takes 100 ms of silence or a very weak energy before each acoustic form to be pronounced and 200 ms of silence at the end of acoustic form).
L'utilisation de cette partie peut prendre un caractère très important pour des applications précises. Si l'aspect de simplification et de sécurité existe déjà pour un conducteur normalement constitué, il devient primordial et même nécessaire pour des applications avec des conducteurs ayant une forme de déficience manuelle, voire même une absence de commande manuelle. Si, dans des conditions normales, la fonction manuelle accepte une forme de multiplexage pour la commande, ce n'est pas le cas pour la fonction réalisée par le pied (tout au plus permet-elle de dé frire une ou deux valeurs analogiques multiplexées comme, par exemple, commander la pédale de freinage et d'accélération) Ces cas défavorisés physiquement nécessitent alors un moyen de communication très riche, avec un certain taux de sécurité, conditions remplies par la commande vocale.The use of this part can be very important for specific applications. If the aspect of simplification and security already exists for a normally constituted driver, it becomes essential and even necessary for applications with drivers having a form of manual impairment, or even a lack of manual control. If, under normal conditions, the manual function accepts a form of multiplexing for the control, this is not the case for the function performed by the foot (at most it allows to defring one or two analog values multiplexed as for example, control the brake pedal and acceleration) These physically disadvantaged cases then require a very rich means of communication, with a certain level of security, conditions fulfilled by the voice command.
Un dernier point qui se dégage de l'utilisation de la commande vocale est son aspect description d'état. En effet, à chaque entité ou association d'entités acoustiques prononcées est liée une action. Cette action est donc, d'une certaine manière, assez bien décrite par cette image acoustique Avec l'action manuelle, il arrive souvent que, pour définir l'état d'une commande, on ait besoin d'un certain repèrage spatial et donc de déclencher une analyse par transition d'état.Pour fixer les idées, on peut citer un exemple caractéristique : souvent, lorsque la luminosité extérieure dans laquelle le véhicule évolue laisse l'ambiguité sur la position d'éclairage des phares, il arrive que le conducteur procède, à une commutation feux de position - croisement route, avec un contrôle visuel extérieur et intérieur éventuel, ce qui lui permet de déterminer s'il était dans la bonne position ou non. Faire la même commande par la voix apparaît plus simple car ne nécessite pas de connaître l'état précédent, même dans le pire des cas, car cela n'est qu'une confirmation d'un état déjà existant.A final point that emerges from the use of the voice command is its description state aspect. Indeed, to each entity or association of pronounced acoustic entities is linked an action. This action is, in a way, fairly well described by this acoustic image With the manual action, it often happens that, to define the state of a command, one needs a certain spatial repre- triggering a state transition analysis.To set the ideas, we can cite a typical example: often, when the external brightness in which the vehicle evolves leaves ambiguity on the lighting position of the headlights, it happens that the driver proceeds, switching traffic lights - crossing road, with an external visual inspection and interior possible, which allows him to determine if he was in the right position or not. To make the same command by the voice appears simpler because it does not need to know the previous state, even in the worst case, because it is only a confirmation of an already existing state.
Dans le cas dgune évolution du véhicule avec un système de multiplexage, quelque soit le mode d'organisation de la gestion des différents modules électroniques gérant les fonctions du véhicule, le fait de mettre un système de commande vocale connecté à ce réseau et doublant ou non le système de commande manuel n'a, de par son principe, que peu d'influence sur le coût total de l'équipement déjà installé car son insertion en est aisée.In the case of an evolution of the vehicle with a multiplexing system, whatever the mode of organization of the management of the various electronic modules managing the functions of the vehicle, the fact of putting a voice control system connected to this network and doubling or not the manual control system has, by its principle, little influence on the total cost of the equipment already installed because its insertion is easy.
Le bloc 4 de la figure 1 représente toute la partie affichage et dialogue manuel avec le système général. La liaison avec le bloc principal Il est du type série et pork parallèles. Ce bloc se compose d'un terminal de poche et de quelques témoins lumineux de contrôle. Ce terminal de poche de la taille d'une calculatrice est constitué de 40 touches dont une grande partie multiplexée sur 4 niveaux et d'une partie affichage de 8 caractères alphanumériques. Ce système permet de diffuser des messages ou ordres relatifs à I'utilisation. Ce bloc représente la communication vocale-graphique mais peut être réduit à un ou deux boutons et quelques témoins lumineux.Les messages diffusés contiennent des informations relatives au fonctionnement du bloc 2 (mots reconnus ou non, les diffétes phases, etc...) et à l'état global du véhicule. Mais trop d'informations visuelles à surveiller par le conducteur entraine une gêne et une.Block 4 of FIG. 1 represents the entire display and manual dialogue part with the general system. The link with the main block It is of the series type and parallel pork. This block consists of a pocket terminal and some control lights. This calculator-sized pocket terminal consists of 40 keys, of which a large part is multiplexed on 4 levels and a display part of 8 alphanumeric characters. This system makes it possible to broadcast messages or commands relating to the use. This block represents the voice-graphic communication but can be reduced to one or two buttons and some indicator lights. The broadcast messages contain information relating to the operation of the block 2 (words recognized or not, the different phases, etc ...) and to the overall condition of the vehicle. But too much visual information to monitor by the driver causes discomfort and a.
forme d'insécurité pour la conduite du véhicule.form of insecurity for driving the vehicle.
Le bloc 6 représente un auto-radio avec7interfaces adjoint de ses hautsparleurs 5 et de son antenne 7. L'appareil utilisé est un PIONCER KE 5 300 dont la plupart des commandes manuelles peuvent être actionnées par la voix. La figure 4a représente l'auto-radio proprement dit 47, muni de son antenne 48 (ou 7 de la figure 1) et de son interface avec les signaux électriques 40 provenant du bloc principal 116 la commande de mise sous tension 41, le sélecteur de gammes 42(FM, GO, PO), la commande d'une des 5 stations programmées 439 les commandes de programma-' tion et de recherche de stations (Seek, Scan et mémorisation) 44, la commande du volume, de la balance et de la tonalité des deux voies 45
La figure 4b décrit le principe de la commande du volume avec un signal
B.F. 50, un potentiomètre 51 actionne habitueTteme2/un curseur 522 un
ur système de commutation de résistances 53 permettant de diminuer plus ou moins le signal du curseur, et un signal de valeur binaire 54 de commande du commutateur de résistances 53. Ensuite le signal de sortie 55 attaque un étage de puissance qui est connecté à un haut-parleur. Block 6 represents a car radio with the adjacent interfaces of its speakers 5 and its antenna 7. The apparatus used is a PIONCER KE 5 300, most of which manual controls can be operated by voice. FIG. 4a shows the actual car radio 47, provided with its antenna 48 (or 7 of FIG. 1) and its interface with the electrical signals 40 coming from the main block 116, the power-up control 41, the selector 42 (FM, GO, PO), the control of one of the 5 stations programmed 439 the commands for programming and searching stations (Seek, Scan and memorizing) 44, the control of the volume, of the balance and the tone of the two tracks 45
Figure 4b describes the principle of volume control with a signal
BF 50, a potentiometer 51 actuates habitTeme2 / a cursor 522 a
a resistor switching system 53 for decreasing more or less the cursor signal, and a binary switch control signal 54 of the resistor switch 53. Then the output signal 55 drives a power stage which is connected to a high loudspeaker.
Pour la commande de balance et de tonalité, le principe est identique.For balance and tone control, the principle is the same.
Avec un signal 54 de quatre poids binaires, on obtient 16 valeurs possibles pour le signal 55. On fixe une dynamique de la courbe avec deux limites. Une des limites va fixer le rapport résistif du potentiomètre (lorsque l'xmpédance du groupe 53 tend vers l'infini), l'autre limite sera prise en compte pour la sécurité (lorsque l'impédance du groupe 53 est nulle). Ce rapport de résistances du potentiomètre fixé, on en déduit les valeurs des différentes résistances en tenant compte de la dynamique de la courbe désirée en sortie 550
Deux aspects se dégagent de la fonction auto-radio : la commande (augmentation ou dimillution du volante, changement de gammes, etc...) et la programmation (recherche d'une station particulière et mémorisation sur l'une des 5 positions programmables). Cette mémorisation dure tant que la partie mémoire R.A.M. de l'auto-radio est alimentée, tout en ayant la position OFF de la mise en route. La mise sous tension ou l'arrêt (ON/OFF) de l'auto-radio se fait en prononçant successivement deux formes acoustiques.Un changement de gammes (FM, PO ou GO) peut se faire en prononçant une forme acoustique (i' auto-radio étant déjà en fonctionnement) ou deux formes acoustiques comme s'il s'agissait de le mettre en route bien qu'ille soit déjà. A chaque mise en route de l'auto-radio, le système programme une valeur moyenne, par défaut, pour le volume,
Le conducteur a toujours la possibilité d'augmenter ou de diminuer ensuite le volume, de changer la tonalité et la balance. Pour programmer une station sur l'une des Spositions, il prononce deux formes acoustiques pour indiquer le mode "programmation". Puis il prononce les formes acoustiques correspondalt aux ordres adéquats permettant d'arrêter l'autoradio sur la station désirée et de la mémoriser sur l'une des Spositions.With a signal 54 of four bit weights, 16 possible values for the signal 55 are obtained. A dynamic of the curve is fixed with two limits. One of the limits will set the resistive ratio of the potentiometer (when the xedrive of the group 53 goes to infinity), the other limit will be taken into account for the safety (when the impedance of the group 53 is zero). This resistance ratio of the potentiometer fixed, one deduces the values of the different resistances taking into account the dynamics of the desired curve at the output 550
Two aspects emerge from the auto-radio function: control (increase or dimillution of the flywheel, change of ranges, etc ...) and programming (search for a particular station and memorization on one of the 5 programmable positions) . This storage lasts as long as the RAM portion of the car radio is powered, while having the OFF position of the start. Turning the car on or off (ON / OFF) is done by successively pronouncing two acoustic forms. A range change (FM, PO or GO) can be made by pronouncing an acoustic form (i ' auto-radio is already in operation) or two acoustic forms as if it were to start it although it is already. Each time the radio is switched on, the system programs an average value, by default, for the volume,
The driver can always increase or decrease the volume, change the tone and balance. To program a station on one of the Spositions, it pronounces two acoustic forms to indicate the "programming" mode. Then he pronounces the acoustic forms corresponding to the appropriate orders to stop the car radio on the desired station and memorize it on one of the Spositions.
En cas d'erreur, le dialogue peut se faire soit visuellement trace au terminal), soit par la synthèse décrite plus loin. On peut aussi programmer tout auto-radio ayant des possibilités d'accès pour envoyer une série de valeurs permettant de choisir une fréquence particulière. Si la plupart des stations importantes ont des fréquences bien connues(souvent installées sur l'auto-radio en touches prérèglées), alors ce genre de données peut être établi dans un tableau exploité par le logiciel. Mais le problème devient plus complexe dans la bande F.M. du fait du grand nombre de stations qui y résident et qui sont diffusées sur une petite région. En général seulement quelques unes intéressent le conducteur.In case of error, the dialogue can be done visually trace to the terminal), or by the synthesis described below. It is also possible to program any radio with access possibilities to send a series of values to select a particular frequency. If most important stations have well-known frequencies (often installed on the radio as pre-set keys), then this kind of data can be established in a table operated by the software. But the problem becomes more complex in the F.M. band because of the large number of stations that reside there and are broadcast over a small area. In general only a few interest the driver.
La possibilité d'associer la forme acoustique de son choix à la station désirée et de l'obtenir ainsi en évitant tout une recherche fastidieuse laisse entrevoir un agrément certain.The possibility of associating the acoustic form of one's choice with the desired station and to obtain it thus avoiding a fastidious search suggests a certain approval.
La souplesse de programmation par le moyen vocal dépend de la puissance décisionnelle du logiciel central. Cette puissance est liée à la tolérance accordée pour le dialogue par biais du bloc 2 et de la synthèse 12 (décrit plus loin).The flexibility of programming by the vocal means depends on the decisional power of the central software. This power is related to the tolerance granted for the dialogue through block 2 and synthesis 12 (described below).
Le-bloc 8 est un ordinateur de bord muni de différents capteurs COI,
C02,----,COn. L'ordinateur utilisé peut être l'A.D.A.C. commercialisé par la Régie Nationale des Usines Renault ou tout autre calculateur ou ordinateur de bord similaire orienté dans le sens de l'aide à la conduite. Block 8 is an on-board computer equipped with various COI sensors,
C02 ----, COn. The computer used may be the ADAC marketed by the Régie Nationale des Usines Renault or any other computer or similar onboard computer oriented in the direction of driving assistance.
Le calculateur possède deux modes de fonctionnement. L'un est orienté pour obtenir des informations concernant l'heure, la température extérieure, la vitesse, le kilomètrage et la consommation de carburant. Le deuxième concerne la programmation du parcours et délivre des informations prévisionnelles compte-tenu de ce qui lui a été programmé et des données en cours.The computer has two modes of operation. One is geared for information on time, outside temperature, speed, mileage and fuel consumption. The second concerns the programming of the route and delivers forecasting information given what has been programmed and data in progress.
La figure 5 montre ce calculateur associé à des capteurs de température 60, de débit 61 et de vitesse 62 Le calculateur proprement dit avec son système d'affichage et son clavier est désigné par 63. La plupart des touches (23 au total) servant habituellement à la programmation sont remplacées par une liaison aboutissant à l'unité centrale ou bloc principal ll. FIG. 5 shows this calculator associated with temperature sensors 60, flow rate 61 and speed sensors 62. The actual calculator with its display system and its keyboard is designated 63. Most of the keys (23 in total) usually serve to the programming are replaced by a connection leading to the central unit or main block ll.
En fonctionnement, on affiche en permanence l'heure et, à la suite d'une commande vocale, on délivre sur le disp6sitif dsaffichage l'information correspondante (consommation et vitesse La peuvent être moyennes ou instantanées, capacité restante en litres du réservoir, automomie, etc..). In operation, the time is permanently displayed and, following a voice command, the corresponding information is provided on the display device (consumption and speed La can be average or instantaneous, remaining capacity in liters of the tank, automatic , etc.).
L'information est ainsi affichée pendant un certain temps (déterminée par logiciel) puis diSparaît pour laisser de nouveau place à l'affichage de l'heure.The information is thus displayed for a certain time (determined by software) and then disappears to leave the time display again.
Ainsi le conducteur, jugeant le moment opportun pour regarder, demande vocalement l'information plutôt que de faire soit une recherche d'un bouton parmi plusieurs-, soit une scrutation cyclique du bouton si celui-ci contient plusieurs informations. Ce dernier cas est réalisé, saros modifier le principe du calculateur, par le logiciel qui prend en charge cette recherche, sans que le conducteur s'en apperçoive. Thus, the driver, judging the opportune moment to look, vocally requests the information rather than doing either a search for a button among several, or a cyclic scanning of the button if it contains more information. This last case is realized, saros modify the principle of the calculator, by the software which supports this research, without the driver perceives it.
Pour le logiciel, il s'agit juste d'un tableau de données,connaissant la position de chaque information dans le cycle, pour un bouton donné, et leur correspondance avec les formes acoustiques prononcées. Si cet aspect est déjà très intéressant, celui de la programmation du calculateur devient presque primordial. En effet, la programmation consiste à donner des informations, par le moyen du clavier, relatives au parcours que le conducteur va réaliser. Le parcours peut être découpé en tronçons (route, autoroute, ville) avec le kilomètrage correspondant, la durée estimée de traversée des villes, la capacité du réservoir, etc.... For the software, it is just a table of data, knowing the position of each piece of information in the cycle, for a given button, and their correspondence with the pronounced acoustic forms. If this aspect is already very interesting, that of the programming of the calculator becomes almost primordial. Indeed, the programming consists of giving information, by means of the keyboard, relating to the course that the driver will achieve. The route can be divided into sections (road, motorway, city) with the corresponding mileage, the estimated duration of crossing cities, the capacity of the tank, etc.
Le calculateur de-bord est d'une taille assez petite et les touches de
programmation du clavier ont les dimensions de celles d'une calculatrice.The outboard calculator is a fairly small size and the keys
Keyboard programming have the dimensions of those of a calculator.
d'utiliser
Les résultats ont montré que nombre de conducteurs refusent/le système
à cause de la difficulté de programmation (recherche des touches et com
préhension du principe de programmation entrainant beaucoup d'erreurs).
to use
The results showed that many drivers refuse / the system
because of the programming difficulty (search for keys and com
prehension of the programming principle leading to many errors).
Le fait de programmer chaque fonction par une forme acoustique ou deux,
prononcées tout en conduisant, avec un contrôle par un retour visuel
ou acoustique (blocs 12 et 13) éventuellement, démontre une amélioration
certaine quant à l'exploitation du calculateur de bord. Certaines infor mationsFpeuvent être même implicitement connues du logiciel (distance en
km entre les villes importantes, par exemple, où doit circuler le véhi
cule).The fact of programming each function by an acoustic form or two,
pronounced while driving, with control by visual feedback
or acoustic (blocks 12 and 13) possibly, demonstrates an improvement
certain as to the operation of the on-board computer. Some information may even be implicitly known to the software (distance to
km between major cities, for example, where should the vehi go
cule).
Bien entendu, plus la programnation du calculateur de bord sera riche,
plus la quantité de formes acoustiques à utiliser sera importante, mais
en progression moins rapide. En effet, le système décisionnel organise
la commande ou programmation de certaines fonctions en demandant de pro
noncer une, deux ou plusieurs formes acoustiques chainées.Cela permet,
comme pour les autres fonctions, de réduire le nombre total de formes
acoustiques et de réduire le nombre de formes acoustiques à comparer pour un niveau donné de l'arborescence Si le premier point offre un in
térêt (simplification, pour le conducteur, de mémorisation de toutes les
formes acoustiques, temps de réponse plus rapide du système de reconnais
sance car moins d'ambiguités acoustiques, etc.,.), le deuxième point
l'est encore pl--ls car, pour un niveau d'arborescence donné, on limite
le champ des formes acoustiques candidates tout en connaissant leur
passé et leur avenir, pour certains niveaux, et à partir d'une base de
suppositions établies dans le logiciel de l'unité centrale 2. Of course, the more programming of the onboard computer will be rich,
the more the number of acoustic forms to use will be important, but
in progress less fast. Indeed, the decision-making system organizes
the control or programming of certain functions by asking for pro
denominate one, two or more chained acoustic forms.
as for other functions, reduce the total number of shapes
acoustic and reduce the number of acoustic forms to compare for a given level of the tree If the first point offers a
interest (simplification, for the driver, of memorizing all
acoustic forms, faster response time of the recognition system
because there are fewer acoustic ambiguities, etc.,.), the second point
is still fine because, for a given tree level, we limit
the field of candidate acoustic forms while knowing their
past and their future, for certain levels, and from a base of
assumptions made in the CPU software 2.
La figure 6 illustre un exemple permettant de'préciser ces deux points
Elle représente deux niveaux d'arborescence 90 et 91, les entités cli
gnotant (92), montée (93), descente (94) et stop (95) pour 90 et droit
196) et gauche (97) pour 91. Les entités 92,93,94,96 et 97 permettent,
en deux temps, de créer les fonctions clignotant-droit (92-96), cligno
tant-gauche (92-97), montée-droite (93-96), montée-gauche (93-97), des
cente-droite (94-96) et descente-gauche (94-97). On réalise 6 fonctions
à l'aide de 5 entités acoustiques chaînées. L'entité stop (95) reboucle sur le meme niveau car elle annonce une fonction inhibitrice précisée par la deuxième entité. Le niveau 91 n'est pas obligatoire dans ce cas.Figure 6 illustrates an example to specify these two points
It represents two levels of tree 90 and 91, the entities cli
gnoting (92), climb (93), descent (94) and stop (95) for 90 and right
196) and left (97) for 91. The entities 92,93,94,96 and 97 allow,
in two steps, to create the functions flashing-right (92-96), blink
left-hand (92-97), right-hand climb (93-96), left-hand climb (93-97),
cente-right (94-96) and descent-left (94-97). We realize 6 functions
using 5 chained acoustic entities. The stop entity (95) loops back to the same level because it announces an inhibitory function specified by the second entity. Level 91 is not required in this case.
En effet, si le conducteur a mis son indicateur de direction dans une des positions, et qu'il désire l'arrêter il prononcera 95-92. Par contre,pour arrêter une vitre latérale, le conducteur devra préciser celle de gauche ou celle de droite, et donc prononcer une troisième entité. Des fonctions réalisées en prononçant deux entités acoustiques séparées par un silence peuvent être aussi réalisées en prononçant une seule entité, en créant ainsi une redondance sur le niveau darborescence de départ.Indeed, if the driver has put his direction indicator in one of the positions, and he wants to stop it he will pronounce 95-92. By cons, to stop a side window, the driver must specify the left or right, and therefore pronounce a third entity. Functions performed by pronouncing two acoustic entities separated by a silence can also be realized by pronouncing a single entity, thereby creating a redundancy on the starting tree level.
Cela crée une augmentation du vocabulaire de référence mais laisse un peu plus de souplesse au conducteur par diminution des contraintes Cette notion disparaît si le logiciel du bloc 2 utilise un algorithme de reconnaissance sur les mots connectés (logiciel MOZART sur le système de la société VECSYS). Un algorithme de détection de mots dans les phrases offre beaucoup d'intérêt pour la phase programmation
Cette structure d'arborescence repose sur des décisions prises sur la validité de la première entité mais des sécurités, dans une limite donnée, peuvent être jointes, nécessitant alors un dialogue visuel ou aacoustique en complément.Pour cela, on fixe deux seuils pour les taux de confiance attribués aux formes acoustiques un seuil où toutes les formes acoustiques inférieures'sont refusées, un autre où toutes les formes acoustiques supérieures sont acceptées. Entre les deux seuils, on demande au conducteur, par voie visuelle ou acoustique, si la forme acoustique qu?il a prononcée est bien celle-ci. On attend alors du conducteur une réponse affirmative ou négative, et la reconnaissance se fait sur deux formes acoustiques avec un seuil un peu plus fort. On a une très bonne reconnaissance permettant de distinguer l'une des deux réponses. Les cas non reconnus mais voisins du seuil impliquent de reposer la question au conducteur. Pour le reste des cas, on évite cette boucle reposant la question en restant en attente d'une nouvelle forme acoustique pour la réponse.Cette attente est limitée par une sécurité temporelle (réalisée au niveau du logiciel central) afin d'éviter le blocage du système. Dans ce cas le conducteur devra reprononcer (ou non s'il désire suspendre sa commande) la forme acoustique qui avait créée l'ambiguite en se situant entre les deux seuils pour le taux de confiance
Le dialogue sonore (retour par la synthèse) semble plus intéressant car
il perturbe moins le conducteur quand celui-ci conduit son véhicule. Ce
principe n'est pas systèmatiquement appliqué sur toutes les formes a
coustiques mais seulement sur celles correspondant aux fonctions im
portantes (programmation, arrêt du moteur, etc...). This creates an increase in the vocabulary of reference but leaves a little more flexibility to the driver by reducing the constraints This notion disappears if the software of the block 2 uses a recognition algorithm on the connected words (software MOZART on the system of the company VECSYS) . A word detection algorithm in sentences offers a lot of interest for the programming phase
This tree structure is based on decisions taken on the validity of the first entity but security, within a given limit, can be joined, requiring a visual or aacoustic dialogue in addition.For this, we set two thresholds for the rates. confidence of acoustic forms a threshold where all lower acoustic forms are refused, another where all higher acoustic forms are accepted. Between the two thresholds, the driver is asked, by visual or acoustic way, if the acoustic form that he has pronounced is this one. The driver is then asked for an affirmative or negative answer, and the recognition is made on two acoustic forms with a threshold a little stronger. We have a very good recognition to distinguish one of the two answers. Cases unrecognized but close to the threshold imply asking the driver the question. For the rest of the cases, one avoids this loop resting the question while waiting for a new acoustic form for the answer. This waiting is limited by a temporal security (realized at the level of the central software) in order to avoid the blocking of the system. In this case the driver will have to repeat (or not if he wishes to suspend his order) the acoustic form which created the ambiguity by being between the two thresholds for the confidence rate
The sound dialogue (return by synthesis) seems more interesting because
it disturbs the driver less when he drives his vehicle. This
principle is not systematically applied to all forms
but only on those corresponding to the functions im
load bearing (programming, stopping the engine, etc ...).
Le bloc 9 représente l'interface de tous les autres capteurs C1, C2,--- dont le système a besoin pour donner des informations au conducteur. Block 9 represents the interface of all the other sensors C1, C2, --- whose system needs to give information to the driver.
Ces capteurs sont complémentaires de ceux déjà connectés au calculateur
de bord 8. L'interface, en liaison avec le bloc 11, se compose d'une
partie mise en forme et traitement du signal, de type classique, et d'un
tampon de données avec des signaux de contrôle. Un des signaux de con
trôle déclenche cycliquement une interruption afin que le bloc 11 fasse
l'acquisition des données. Mais on peut très bien regrouper tous les
capteurs COI, C02,---,COn et Cl, C2 Cn sur un même module afin d'a
voir une meilleure intégration du système. Le système utilise des cap
teurs fournissant des informations sur le régime moteur (nombre de tours/
mn), la température du moteur, de l'huile, mais cette liste peut bien
entendu être plus ou moins importante.These sensors are complementary to those already connected to the calculator
The interface, in conjunction with block 11, consists of a
formatted part and signal processing, of conventional type, and a
data buffer with control signals. One of the con signals
control triggers a cyclical interruption so that block 11
data acquisition. But we can very well group all the
COI, C02, ---, COn and Cl, C2 Cn sensors on the same module in order to
see a better integration of the system. The system uses heading
providing information on engine speed (number of revolutions /
mn), the engine temperature, the oil, but this list may well
heard to be more or less important.
Le bloc 10 représente toutes les ressources du système exploitées par
le bloc 11. Ce sont les mémoires mortes (contenant le logiciel princi
pal, les données fixes, etc...) et les mémoires vives dont une partie
est en technologie C-MOS permettant de sauvegarder des informations en
ayant une très faible consommation. On peut donc couper l'alimentation
du système général pendant une longue période. Les blocs 2,8 et 12 ont
leur propre logiciel et donc leurs mémoires propres. La partie mémoire
vive sert au stockage de ltévènement acoustique et du dictionnaire des
références pour le bloc 2.Pour les blocs 8 et 12, cette mémoire sert
au passage des paramètres de programmation
Le bloc 12 représente le module de synthèse, associé à un haut-parieur
13 pour restituer le message sonore Ce module est employé, comme cela
a été déjà mentionné auparavant, dans le sens du dialogue homme-machine
complet, c'est-à-dire la partie complétant la communication vocale du
conducteur avec son véhicule. Deux statégies peuvent être utilisées.Block 10 represents all system resources exploited by
block 11. These are the read only memories (containing the main software
pal, fixed data, etc ...) and memories of which a part
is in C-MOS technology to save information in
having a very low consumption. So we can cut the power
of the general system for a long time. Blocks 2,8 and 12 have
their own software and therefore their own memories. The memory part
live is used for the storage of the acoustic event and the dictionary of
references for block 2.For blocks 8 and 12, this memory serves
when passing programming parameters
Block 12 represents the synthesis module, associated with a high-bettor
13 to restore the sound message This module is used, like this
has already been mentioned before, in the sense of the man-machine dialogue
complete part, that is to say the part completing the voice communication of the
driver with his vehicle. Two strategies can be used.
Soit on limite l'espace des possibilités de la communication de messages, mais en utilisant des produits de synthèse de bonne qualité (méthode par L.P.C., par formants, etc...), soit on élargit l'horizon des possibilités de la communication de messages, mais en utilisant une méthode différente. Pour ce dernier cas on peut, soit procéder avec un support de données important ~, soit utiliser une synthèse à partir du texte. L'avantage d'utiliser une synthèse à partir du texte est sa facilité de programmation (ensemble des caractères alphabétiques de la langue munis de quelques marqueurs grammaticaux et prosodiques). L'inconvénient est la qualité très moyenne efferte à l'écoute du conducteur. Either we limit the space of the possibilities of the communication of messages, but by using products of synthesis of good quality (method by LPC, by formants, etc ...), or we widen the horizon of the possibilities of the communication of messages. messages, but using a different method. For this last case one can, either proceed with a support of important data ~, or use a synthesis from the text. The advantage of using a synthesis from the text is its ease of programming (set of alphabetic characters of the language provided with some grammatical and prosodic markers). The disadvantage is the very average quality effected to the listening of the driver.
Les produits qui peuvent être utilisés sont ICOLOG de la société VECSYS ou SPARTE du C.N.E.T L'architecture en est semblable et une illustration en est donnée à la figure 7. Le signal 110 représente la chaîne de caractères, provenant du texte que l'on désire émettre en forme sonore, munie de ses paramètres de ponctuation. Ce signai, provenant du bloc 11, est traité en texte orthographié par un bloc 111. Ce texte est ensuite traduit en une chaîne phonétique et prosodique par un bloc 112. A partir de cette chaîne, on élabore grâce à un module 113 une liste de paramètres de commande qui sont envoyés à un bloc 114, qui génére un signal analogique.Ce signal analogique est ensuite filtré, lissé et am plifié à l'aide d'un module 115 permettant de fournir l'onde sonore par le biais d'un haut-parleur 116 (ou 13 sur la figure 1). L'un et l'autre des systèmes évoqués plus haut possède aussi des règles de.grammaire agissant au niveau du module 112. Ce logiciel est appelé aussi conversion graphème-phonème et son importance dépend devra langue traitée (langue dont l'orthographe est peu ou beaucoup phonétique). Ce logiciel permet de résoudre des problèmes comme par exemple "les poules du couvent couvent" ou "les présidents président".The products that can be used are ICOLOG from the company VECSYS or SPARTE CNET The architecture is similar and an illustration is given in Figure 7. The signal 110 represents the string of characters, from the text that you want transmit in sound form, provided with its punctuation parameters. This signal, coming from block 11, is processed in text spelled by block 111. This text is then translated into a phonetic and prosodic string by a block 112. From this chain, a list 113 control parameters that are sent to a block 114, which generates an analog signal. This analog signal is then filtered, smoothed and amplified using a module 115 for providing the sound wave through a speaker 116 (or 13 in Figure 1). Both of the systems mentioned above also have grammar rules acting at the level of the module 112. This software is also called grapheme-phoneme conversion and its importance depends on the language to be treated (language whose spelling is not or a lot of phonetics). This software solves problems such as "chickens convent convent" or "president presidents".
Les deux stratégies ont été essayées et l'importance faible de la quantité de messages à annoncer a permis d'utiliser la synthèse par L.P.C. Both strategies were tried and the low importance of the quantity of messages to be announced allowed the use of the synthesis by L.P.C.
en raison de sa qualité. Le circuit S.D.P. du C.N.E.T. offre un avan taxe très intéressant dans la mesure où ce circuit peut à la fois être utilisé avec des données de synthèse par L.P.C. et des données à partir du texte. Des exemples de messages annoncés sont "Quel est votre code 9??, ??Répétez, s > il vous plait", "Avez-vous dit XXX ?", XXX étant la forme acoustique sur laquelle l'ambiguité réside, etc. because of its quality. The S.D.P. of C.N.E.T. offers a very interesting tax advance insofar as this circuit can be used at the same time with data of synthesis by L.P.C. and data from the text. Examples of announced messages are "What is your code?", "Repeat, please", "Did you say XXX?", XXX being the acoustic form on which the ambiguity resides, etc.
La figure 8 montre l'architecture de l'unité centrale il de la figure l. Figure 8 shows the architecture of the CPU II of Figure l.
Cette unité se compose d'une partie horloge 120 utilisée pour les temporisations, bases de temps des communications séries et du processeur, d'une partie R.O.M. 121, d'une partie R.A.M. 122, d'un microprocesseur 123, d'un circuit de traitement 124 des interruptions 125 provenant des capteurs, de l'horloge, etc... , d'un système de communication série 126 avec une interface série 127 pour le terminal de poche 128 (ou 4 de la figure l), une interface série 129 avec le système de reconnaissance de la parole 130 (ou 2 de la figure i), une interface série 131 avec le système de synthèse de la parole 132 (ou 12 de la figure 1), d'un système de communication par ports parallèles 140 avec tout un système d'expansion de ports parallèles en sortie 133 (décrit en détail plus loin) permettant la connexion avec l'auto-radio 134 (ou 6 de la figure 1), avec le dispositif d'actionnement 135 (ou 3 de la figure 1) et avec l'ordinateur de bord 136 (ou 8 de la figure 1).This unit consists of a clock portion 120 used for time delays, timebases of serial communications and processor, part of R.O.M. 121, part of R.A.M. 122, a microprocessor 123, a processing circuit 124 interrupts 125 from the sensors, the clock, etc ..., a serial communication system 126 with a serial interface 127 for the handheld terminal 128 (or 4 of FIG. 1), a serial interface 129 with the speech recognition system 130 (or 2 of FIG. 1), a serial interface 131 with the speech synthesis system 132 (or 12 of the FIG. 1), a parallel port communication system 140 with an entire parallel port expansion system at output 133 (described in detail below) allowing the connection with the car radio 134 (or FIG. 1), with the actuating device 135 (or 3 of FIG. 1) and with the on-board computer 136 (or 8 of FIG. 1).
De même 137 est un système d'expansion de ports en entrée avec des signaux provenant des capteurs 138 (ou CI, C2,---, Cn du bloc 9 de la figure 1) et d'indicatess de contacts 139 (par exemple usure des plaquettes de freins, portières mal fermées, mode automatique ou manuel, etc...).Similarly, 137 is an input port expansion system with signals from sensors 138 (or CI, C2, ---, Cn of block 9 of FIG. 1) and contact indicatess 139 (for example, wear brake pads, badly closed doors, automatic or manual mode, etc ...).
La figure 9 représente plus en détails le bloc 133 de la figure 8. Ce bloc 133 permet de faire une expansion de deux ports parallèles de 8 bits en sortie 71 et 72 (programmés à partir du processeur 123 de la figure 8 par la liaison 70) en sept ports parallèles en sortie, de 8 bits, représentés par des blocs 79 à 85. Chaeun de ces blocs 79 à 85 est constitué de deux parties. Une partie est un registre à décalage de 8 cases permettant de transformer un message série en parallèle, tandis que l'autre partie est un port de 8 cases permettant de recopier les données du registre à décalage. Toutes les sorties sont suivies d'amplificateurs trois états.FIG. 9 shows in more detail block 133 of FIG. 8. This block 133 makes it possible to expand two parallel 8-bit output ports 71 and 72 (programmed from the processor 123 of FIG. 8 by the link 70 ) into seven parallel output ports of 8 bits, represented by blocks 79 to 85. Chaeun of these blocks 79 to 85 consists of two parts. One part is an 8-space shift register to transform a serial message in parallel, while the other part is an 8-cell port for copying the data from the shift register. All outputs are followed by three-state amplifiers.
Le signal 73 représente la donnée commune à tous les blocs 79 à 85. Sept signaux de validation 74 inversés en 75 permettent de sélectionner le bloc dans lequel on veut faire le transfert parallèle de la donnée provenant du registre à décalage. Sept signaux d'horloge 76 permettent de sélectionner le bloc dans lequel on veut faire entrer la donnée de 8 bits dans le registre à décalage. Un signal 77 inversé en 78 et commun à tous les blocs permet de faire la validation en sortie (logique trois états). Ces signaux de sortie attaquent des interfaces 86 pour l'auto-radio 6,87 pour le dispositif d'actionnement 3 et 88 pour le calculateur de bord 8.The signal 73 represents the data common to all the blocks 79 to 85. Seven validation signals 74 inverted at 75 make it possible to select the block in which it is desired to carry out the parallel transfer of the data coming from the shift register. Seven clock signals 76 make it possible to select the block into which the 8-bit data is to be entered in the shift register. A signal 77 inverted at 78 and common to all the blocks allows the output validation (three-state logic). These output signals drive interfaces 86 for the radio 6.87 for the actuating device 3 and 88 for the on-board computer 8.
La figure 10 représente le diagramme des signaux logiques qui rentrent dans les blocs 79 à 85 de la figure 9. Le signal 100 (ou 73 de la figure 9) représente la donnée de 8 bits qui va évoluer en série depuis Dl T jusqu'à D8. Ce groupe 107 est appelé QNT, chaque Di (D1 à D8) devenant
T
Qi quand il est en sortie. Le signal 101 est celui de horloge permet- tant de faire un décalage en série d'une case, dans le registre, à chaque transition positive (indiquéepar les flèches). On enregistre donc ainsi la valeur binaire présente sur le fil de données.La référence 102 désigne le groupe QT-1 qui est la donnée en sortie, générée au coup
N d'avant. Cette donnée en sortie devient Q (ou 103) lorsque le signal de validation 105 réalise une transition négative Le signal 106, qui
T est la validation en sortie, transforme le groupe QN (103) en état haute impédance ZN (104) Cet état haute impédance est produit sur l'état bas du signal 1060 Toute commande se fait par un niveau logique "O" et tous les fils de liaison avec les commandes smB polarisés par des ré- sistancesfixées à la borne positive de l'alimentation En cas de rupture du fil ou destruction d'une sortie (en plus de la sécurité existant déjà par logiciel, c'est-à-dire le niveau "1" imposé pour la sortie ou l'état haute impédance éventuellement), la commande n'est pas réalisée.FIG. 10 represents the diagram of the logic signals that enter the blocks 79 to 85 of FIG. 9. The signal 100 (or 73 of FIG. 9) represents the 8-bit data which will evolve in series from D1 T to D8. This group 107 is called QNT, each Di (D1 to D8) becoming
T
Qi when he is out. The signal 101 is that of clock allowing a series shift of a box in the register at each positive transition (indicated by the arrows). Thus, the binary value present on the data wire is recorded. The reference 102 designates the QT-1 group which is the output data, generated at the time
N from before. This output data becomes Q (or 103) when the enable signal 105 makes a negative transition. The signal 106, which
T is the output validation, transforms the QN group (103) into a high impedance state ZN (104) This high impedance state is generated on the low state of the signal 1060 All control is by a logic level "O" and all wires connected to the smB commands polarized by resistors attached to the positive terminal of the power supply In case of wire breakage or destruction of an output (in addition to the existing software security, ie say the level "1" imposed for the output or the high impedance state possibly), the command is not carried out.
Le bloc 137 de la figure 8 obéit à une même structure d'organisation que le bloc 133, mais i3: fonctionne en entrée (lecture de données).The block 137 of FIG. 8 obeys the same organization structure as the block 133, but i3: operates as input (data read).
La figure Il représente l'organigramme principal du logiciel de l'unité centrale 11 gérant tout le système. A la mise sous tension du système
150 par le biais de la clé de contact, on déroule la routine 151 qui est l'initialisation à la mise sous tension. Cela permet d'assurer le bon déroulement du logiciel (initialisation du pointeur de pile, des registres, des interruptions, etc...) ainsi que la bonne initialisation des systèmes périphériques (en général les systèmes périphériques ayant déjà un logiciel propre contenant une routine similaire réalisent cette sécurité. Dans le cas contraire, le logiciel central vient refaire l'initialisation par programmation).Puis la routine 152 organise toute l'initialisation du matériel du bloc Il (figure 1), à savoir les bases de temps, les liaisons séries et parallèles ainsi que leurs programma tions en mode sécurité, le système d'interruptions, etc.... Puis, les modes de liaison ainsi assurés, on initialise tous les systèmes périphériques avec le bloc 153. On teste d'abord pour savoir si chaque système périphérique répond correctement par sa liaison établie auparavant, avant de lui envoyer les paramètres d'initialisation, Pour le système de reconnaissance de la parole 2, on verifie son initialisation et stil s'il est en attente d'un ordre (reconnaissance, apprentissage, etc...).Figure 11 shows the main flowchart of the software of the central unit 11 managing the entire system. When the system is turned on
150 by means of the ignition key, it runs the routine 151 which is the initialization at power on. This ensures the smooth running of the software (initialization of the stack pointer, registers, interrupts, etc ...) as well as the good initialization of the peripheral systems (generally the peripheral systems already having a clean software containing a routine If this is not the case, the central software will redo the initialization by programming.) Then routine 152 organizes all the initialization of the hardware of block Il (FIG. 1), namely time bases, links series and parallel as well as their programming in security mode, the system of interruptions, etc. Then, the modes of connection thus assured, one initializes all the peripheral systems with the block 153. One tests first to know if each peripheral system responds correctly by its previously established link, before sending it the initialization parameters, For the recognition system of the paro the 2, we check its initialization and stil if it is waiting for an order (recognition, learning, etc ...).
Pour le terminal de poche 4, après le test de la liaison, on positionne la fenêtre de 8. caractères, parmi 32, à droite, avec un rafraichissement de la R.A.M. et un positionnement du curseur et un coup de signal sonore bref. Pour le calculateur de bord,on s'assure qutil n'y a pas eu de perte de ses paramètres. En effet, le calculateur est défini pour toute une gamme de véhicules et nécessite des paramètres de caractérisation du véhicule dans lequel il est installé (courbes de débit du moteur, diamètre des roues montées, boite manuelle ou automatique , etc...). For the hand-held terminal 4, after the test of the link, the window of 8 characters, from 32, is positioned on the right, with a refreshing of the R.A.M. and a cursor position and a short sound signal. For the on-board computer, it is ensured that there has been no loss of its parameters. Indeed, the calculator is defined for a whole range of vehicles and requires characterization parameters of the vehicle in which it is installed (engine flow curves, mounted wheel diameter, manual or automatic gearbox, etc ...).
Or ce calculateur est toujours alimenté par la batterie, en ayant une très faible consommation, même si le système général ntest pas lui même alimenté ou si le véhicule ne circule pas Dans le cas d'une perte de paramètres, on réinitialise le calculateur et, dans le cas d'une nouvelle réponse synonyme d'erreur, on teste pour savoir si un de ses capteurs est déficient ou détecter toute autre anomalie. Si l'information persiste, on abandonne cette routine et l'affichage clignote, indiquant une anomalie D'ailleurs, quelque soit le cas, on affiche l'heure (même erronée) par défaut. S'il y a eu une réinitialisation, le conducteur devra reprogrammer certaines paramètres (l'heure, la capacité réservoir, les kilomètrages des tronçons, etc...).Now this computer is always powered by the battery, having a very low consumption, even if the general system is not itself powered or if the vehicle does not circulate In the case of a loss of parameters, it resets the computer and, in the case of a new answer synonymous with error, one tests to see if one of its sensors is deficient or detect any other anomaly. If the information persists, we abandon this routine and the display flashes, indicating an anomaly Moreover, whatever the case, we display the time (even erroneous) by default. If there has been a reset, the driver will have to reprogram certain parameters (the time, the tank capacity, the mileage of the sections, etc ...).
Le système de synthèse de la parole 2 est programmé de façon à être en mode "silence" (signal analogique sortant du bloc 115 de la figure 7 ayant une amplitude nulle).The speech synthesis system 2 is programmed to be in "silence" mode (analog signal leaving the block 115 of FIG. 7 having a zero amplitude).
Une fois cette phase 153 réalisée, on exécute la phase 154 consistant à initialiser le bloc 11 et les paramètres. Certains paramètres sont propres au bloc 11 (mise à zéro des mémoires-compteurs pour les temporisations, des sécurités pour les fonctions secondaires, etc..,), d'autres sont envoyés aux systèmes périphériques, comme par exemple la gé nervation d'un coup de signal sonore par le terminal de poche 4 pour si gnaler que le système général est prêt, ou bien la nécessité pour le conducteur de charger son propre vocabulaire de références par le clavier du terminal de poche, ou de passer directement par la commande vocale pour chargerson vocabulaire et démarrer le véhicule.Once this phase 153 has been completed, phase 154 of initializing block 11 and the parameters is executed. Some parameters are specific to block 11 (zeroing of the counters for timers, security for secondary functions, etc.), others are sent to peripheral systems, such as, for example, the generation of a device. sound signal by the handheld terminal 4 to signal that the general system is ready, or the need for the driver to load his own vocabulary of references by the keyboard of the handheld terminal, or to go directly through the voice command to load vocabulary and start the vehicle.
Dans ce dernier cas, on programme le système de reconnaissance de la parole 2 pour recevoir le dictionnaire des références commun aux différents utilisateurs du véhicule, tester le bon chargement de ce vocabulaire, envoyer le seuil de reconnaissance et programmer le système en mode reconnaissance. Puis, si le conducteur satisfait aux conditions de cette sécurité vocale, le bloc Il programme le système de reconnaissance pour charger le vocabulaire d'utilisation du conducteur et passe ensuite en phase de reconnaissance. Ce mode, qui peut être appelé mode automatique, passe directement de la phase 154 à la phase 159.In the latter case, the speech recognition system 2 is programmed to receive the reference dictionary common to the various users of the vehicle, to test the correct loading of this vocabulary, to send the recognition threshold and to program the system in recognition mode. Then, if the driver satisfies the conditions of this voice security, the block It programs the recognition system to load the vocabulary of use of the driver and then goes into the recognition phase. This mode, which can be called automatic mode, goes directly from phase 154 to phase 159.
L'organigramme de la figure ii représente,lautre mode, appelé mode manuel. La différence entre ces deux modes peut être faite, par exemple, par le positionnement d'un interrupteur lu à la mise sous tension (lecture faite par l'intermédiaire du bloc 137, figure 8). Pour une utilisation normale, c'est le mode automatique qui opère, mais en ayant fait au moins une fois l'apprentissage afin de créer le dictionnaire des références. Pour compléter cette phase 154, on peut utiliser soit le terminal de poche pour indiquer qu'il n'y a aucune anomalie (affichage + coup de signal sonore), soit utiliser la synthèse pour envoyer un message dans le même sens (par exemple "système prêt", "bonjour", "prononcez votre code1?, etc...).The flowchart of Figure ii represents the other mode, called the manual mode. The difference between these two modes can be made, for example, by the positioning of a switch read at power up (read through block 137, Figure 8). For normal use, it is the automatic mode that operates, but having done at least once learning to create the dictionary references. To complete this phase 154, one can use either the pocket terminal to indicate that there is no anomaly (display + sound signal), or use the synthesis to send a message in the same direction (for example " ready system "," hello "," pronounce your code1 ?, etc ...).
Cette phase terminée, on exécute la phase 155 où on demande au conducteur, par le biais de l'affichage du terminal de poche 4, d'envoyer un caractère sur le clavier afin de sélectionner un mode. Ces différents modes sont, en entrant un caractère au clavier 157, A pour l'apprentissage 158, R pour la reconnaissance 159, M pour l'aide à lecompréhen- sion du système 160, S pour la sauvegarde d'un vocabulaire 161, C pour le chargement d'un vocabulaire 162, M pour la modification 163, P pour les paramètres 164. Tout autre caractère est interdit et, dans ce cas, un message d'erreur apparaît sur le terminal de poche. Cette routine est représentée par la phase 165. Once this phase is completed, phase 155 is executed, where the driver is asked, by means of the display of the handheld terminal 4, to send a character on the keyboard in order to select a mode. These different modes are, by entering a character on the keyboard 157, A for learning 158, R for recognition 159, M for help in understanding the system 160, S for saving a vocabulary 161, C for the loading of a vocabulary 162, M for the modification 163, P for the parameters 164. Any other character is forbidden and, in this case, an error message appears on the pocket terminal. This routine is represented by phase 165.
Le passage de la phase 151 à la phase 155 représente l'initialisation générale 156 du système et apparaît à chaque mise sous tension (au moyen de la clé de contact). Le passage de la phase 157 à l'un des modes, puis le retour, représente la boucle principale 1660 Ce retour est réalisé quand l'un des modes se termine. Toutefois, le mode reconnaissance 159 peut être bouclé sur lui-même et se terminer soit en coupant la mise sous tension du système avec la clé de contact, soit en prononçant une forme acoustique particulière.The transition from phase 151 to phase 155 represents the general initialization 156 of the system and appears at each power up (by means of the ignition key). The transition from phase 157 to one of the modes, then the return, represents the main loop 1660 This return is made when one of the modes ends. However, the recognition mode 159 can be looped on itself and terminate either by cutting off the power of the system with the ignition key, or by pronouncing a particular acoustic form.
Le mode compréhension du système 160 permet, par l'intermédiaire de l'affichage sur le terminal de poche 4, de donner tous les renseiUne- ments utiles pour l'exploitation du système général. Ce mode, faisant usage d'un manuel d'utilisation, ne présente pas un caractère obligatoire dans le cadre d'une application courante.The understanding mode of the system 160 allows, through the display on the pocket terminal 4, to provide all the information useful for the operation of the general system. This mode, making use of a user manual, is not mandatory in the context of a current application.
Le mode paramètre 164 permet, grâce au dialogue affichage-clavier sur le terminal de poche, de lire ou d'écrire des valeurs propres à l'exploi- tation du système. On peut connaître, par exemple, le taux de recon-.The parameter mode 164 makes it possible, by means of the display-keyboard dialogue on the handheld terminal, to read or write values specific to the operation of the system. For example, the recognition rate can be known.
naissance (nombre de mots reconnus ou non reconnus) après une période d'utilisation, faire ressortir les formes acoustiques qui sont plus ou moins bien reconnues, ce qui permet de décider de changer une forme acoustique par une autre en vue d'améliorer les performances du système,
charger des données, etc... Ce mode, lui aussi, n'a pas un caractère
obligatoire mais est très utile pour établir des résultats d'expériences,
codes statistiques en fonction de divers critères (temps d'utilisation,
milieu urbain, route ou autoroute, qualité de microphones, etc...). birth (number of recognized or unrecognized words) after a period of use, bring out the acoustic forms that are more or less well recognized, which allows to decide to change one acoustic form by another to improve performance of the system,
load data, etc ... This mode, too, does not have a character
mandatory but is very useful for establishing results of experiments,
statistical codes according to various criteria (time of use,
urban, road or highway, quality of microphones, etc ...).
La figure 12 décrit le mode apprentissage. La phase 170 représente le passage de paramètres (pointeurs pour la chaîne de commande symbolique du système de reconnaissance de la parole) ainsi que le test pour savoir si l'apprentissage que l'on désire éxécuter va réaliser une nouvelle création de vocabulaire, c'est-à-dire si la mémoire R.A.M. du système de reconnaissance contient un vocabulaire de référence ou non
(on détermine ainsi si on a déjà fait une création ou un changement d'un vocabulaire de références auparavant. Ceci permet d'éviter des fausses manoeuvres. Dans le cas d'une non-présence de vocabulaire ,on n'exécute par la phase 171).La phase 171, par l'intermédiaire de l'écran du ter minal de poche, pose la question de savoir s'il faut effacer ou non le vocabulaire présent dans le système de reconnaissance. La réponse peut être soit positive (écrasement du vocabulaire), soit négative (on sort alors du mode apprentissage), soit une indication d'erreur et dans ce cas on rééxécute la phase 171.Figure 12 describes the learning mode. The phase 170 represents the passage of parameters (pointers for the symbolic command chain of the speech recognition system) as well as the test to know if the learning that one wishes to execute will realize a new vocabulary creation, it that is, if the RAM of the recognition system contains a reference vocabulary or not
(It is thus determined whether a creation or a change of a vocabulary of references has already been made before.This makes it possible to avoid false maneuvers.In the case of a non-presence of vocabulary, one does not execute by the phase 171). Phase 171, through the pocket ter minal screen, raises the question of whether or not to delete the vocabulary present in the recognition system. The answer can be either positive (overwriting the vocabulary), or negative (we leave the learning mode), or an error indication and in this case we re-execute the phase 171.
La phase 172, par l'intermédiaire du clavier, demande- au conducteur-le nombre total de mots qu'il veut constituer pour ce vocabulaire ainsi que le nombre de passes d'apprentissageç Muni,, de ces renseignements, la phase 173 réalise la programmation du système de reconnaissance 2 et lance Ba commande pour le démarrer A chaque forme acoustique que le conducteur doit prononcer, on associe une référence symbolique graphique qui apparaît sur lsécran du terminal Ceci est une aide très utile et cette forme graphique est en fait l'écriture de de la forme acoustique qui est bien plus préférable qu'un simple numéro A la phase 174, le logiciel central envoie sur le terminal de poche la forme graphique et est en attente de la réponse du système de reconnaissance faisant lVac- quisition du signal acoustique Lorsque cette acquisition est assurée suivant les conditions de lgalgorithme du système de reconnaissance 2, le conducteur reçoit une réponse indiquant s'il y a eu un problème, (forme acoustique trop courte ou trop longue, avec trop ou pas assez.Phase 172, via the keyboard, asks the driver-the total number of words that he wants to constitute for this vocabulary as well as the number of learning passes. With this information, phase 173 realizes the programming the recognition system 2 and launch Ba command to start it At each acoustic form that the driver must pronounce, we associate a graphical symbolic reference that appears on the screen of the terminal This is a very useful help and this graphic form is in fact the writing of the acoustic form which is much more preferable than a simple number At phase 174, the central software sends the graphic form to the handheld terminal and is waiting for the response of the recognition system making the acquisition of the signal acoustic When this acquisition is ensured according to the conditions of the recognition system 2 algorithm, the driver receives a response indicating whether there has been a problem th, (acoustic form too short or too long, with too much or not enough.
d'énergie, avec un mauvais départ, etc,.,)o La lecture-et le test sont éxécutés à la phase 175 qui reboucle avec la phase 174 dans le cas d'une erreur. Sinon, on passe à la forme acoustique suivante et, à la phase 176, on teste si l'on a déjà enregistre la dernière forme acoustique.of energy, with a bad start, etc.,.,) o The read-and-test are executed at the phase 175 which loops back with the phase 174 in the case of an error. Otherwise, we go on to the next acoustic form and, in phase 176, we test if we have already recorded the last acoustic form.
Dans le cas négatif, on reboucle avec la phase 174 Sinon on passe à la phase i77 qui teste si l'on a réalisé la deuxième passe d'apprentissage (une passe d'apprentissage consiste à prononcer les formes acoustiques allant du premier au dernier mot constituant le vocabulaire). On reboucle sur la phase 174 tant que l'on n'a pas réalisé la dernière passe d'apprentissage. La phase 178 teste si une anomalie quelconque de programmation, de transmission de donnée avec le système de reconnaissance ou une erreur inhérente à ce dernier s'est produite. Dans ce cas la phase 179 génère un message d'erreur, visuel et sonore, sur le terminal et on abandonne la routine d'apprentissage en réinitialisant, au préalable, le système de reconnaissance 2. Dans le cas d'un fonctionnement normal, il est indiqué qu'une créatioh- de vocabulaire a été réalisée et on passe des paramètres utilisés par les autres sous-programmessrepré- sentés par la phase 180, puis la routine d'apprentissage est terminée.In the negative case, we loop back to phase 174 Otherwise we go to phase i77 which tests if we made the second learning curve (a learning curve consists in pronouncing acoustic forms from the first to the last word constituting the vocabulary). We go back to phase 174 until we have completed the last learning pass. Phase 178 tests whether any anomaly in programming, data transmission with the recognition system or an inherent error in the recognition system has occurred. In this case, the phase 179 generates an error message, visual and sound, on the terminal and the training routine is abandoned by reinitializing, in advance, the recognition system 2. In the case of normal operation, it It is indicated that a vocabulary creation has been carried out and parameters used by the other subprograms presented by phase 180 are passed, and then the training routine is terminated.
Cet organigramme décrit celui utilisé avec le système V.R.M. de la société I.E.C. Celui utilisé avec le système MOISE, de la société VECSYS, en diffère par le mode de programmation, la nature des erreurs et le test sur le nombre de passes d'apprentissages (en effet ce dernier système possède un algorithme travaillant sur une seule passe d'apprentissage).This flowchart describes that used with the V.R.M. I.E.C. The one used with the MOISE system, from the company VECSYS, differs in the programming mode, the nature of the errors and the test on the number of learning passes (indeed the latter system has an algorithm working on a single pass of 'learning).
La figure 13 représente l'organigramme pour le chargement ou la sauvegarde d'un vocabulaire de références. La sauvegarde consiste à lire les informations caractérisazt les formes acoustiques dans le système de reconnaissance 2 et à les écrire ensuite dans la mémoire centrale 10. Le mode chargement opère dans l'autre sens et donc l'organigramme de la figure 13 correspond aux deux modes, à de petites différences près. La phase 190 représente le passage des paramètres et la préparation des données et des indexes pour les tableaux. Cela permet, connaissant la structure des -données de caractérisation d'une référence acoustique, de les agencer dans le bon ordre et de réduire la taille d'occupation de la mémoire centrale. La phase 191 fait l'acquisition du numéro du fichier, soit à charger, soit dans lequel on veut faire la sauvegarde.La phase 192 teste si dans le cas d'un chargement,on a le fichier correspondant au numéro existant et si le système de reconnaissance ne possède pas encore de vocabulaire dans sa mémoire, ou si, dans le cas d'une sauvegarde, on ne va pas écraser un fichier déjà présent ; dans ce cas, on pose la question à l'utilisateur. La phase 193 est déclenchée,en cas d'erreur consécutive aux tests de la phase 192, et on envoie un message d'erreur adéquat sur le terminal avant d'abandonner la routine. Les phases 191-192 ne sont pas exécutées lorsque le logiciel évolue avec la routine de reconnaissance (phase 159) suivant des conditions particulières.Par exemple, lorsque le conducteur met sous tension sys-tème, ou après qutil ait prononcé son code pour démarrer la voiture, ou après que des décisions ont été prises au niveau de l'arborescence liant les formes acoustiques, etc... ,l'algorithme,qui possède des tables
de données, va chercher ou ranger des vocabulaires de références acoustiques, ou parties de vocabulaires de références acoustiques, dans la mémoire centrale. La phase 192 exécutée normalement, on passe à la phase 194 consistant à programmer le système de reconnaissance 2, à transmettre la commande et à traiter au fur et à mesure les informations circulant. Puis la phase 195 teste si une erreur de programmation ou de transmission d'informations ou une erreur propre au système de reconnaissance a eu lieu.Certaines erreurs entrainent la réexécution de la phase 194 mais cette boucle est limitée à quelques essais afin d'éviter un blocage. Dans ce cas là, et avec les autres types d'erreurs, on envoie un message d'erreur et on procède à une réinitialisation du sytème de reconnaissance avant d'abandonner la routine Dans le cas d'un fonctionnement normal, on passe les paramètres et les données propres au mode utilisé (phase 197) et le sous-programme est terminé
La figure 14 représente l'organigramme du mode modification 163 de la figure 11.Ce mode, en ayant passé les paramètres à la phase 200, permet de modifier ou d'ajouter (test fait à la phase 201) des références acoustiques (avec leurs symboles graphiques associés) au vocabulaire résidant dans le sytème de reconnaissance 2 (dont on peut ensuite faire la sauvegarde). Dans le cas d'une modification, on teste à la phase 202 si elle est symbolique ou acoustique. La modification symbolique est faite à la phase 203. Pour la modification acoustique,on fait l'acqui- sition des informations nécessaires pour connaître les formes acoustiques à modifier (phase 204). Si le test -201 aboutit au mode adjonction (ou création supplémentaire à un vocabulaire déjà existant), on exécute la phase 205 où l'on fait l'acquisition du nombre de formes symboliques.Figure 13 shows the flowchart for loading or saving a reference vocabulary. The backup consists in reading the information characterizing the acoustic forms in the recognition system 2 and then writing them in the central memory 10. The loading mode operates in the other direction and therefore the flowchart of FIG. 13 corresponds to the two modes , with small differences. Phase 190 represents the passing of parameters and the preparation of data and indexes for the tables. This makes it possible, knowing the structure of the characterization data of an acoustic reference, to arrange them in the right order and to reduce the occupation size of the central memory. The phase 191 acquires the number of the file, either to load, or in which one wants to make the safeguard. The phase 192 tests if in the case of a loading, one has the file corresponding to the existing number and if the system Recognition does not yet have a vocabulary in its memory, or if, in the case of a backup, we will not overwrite a file already present; in this case, the user is asked the question. The phase 193 is triggered, in case of error following the tests of the phase 192, and one sends an adequate message of error on the terminal before giving up the routine. Phases 191-192 are not executed when the software evolves with the recognition routine (phase 159) according to particular conditions. For example, when the driver turns on the system, or after he has pronounced his code to start the program. car, or after decisions have been made at the level of the tree linking the acoustic forms, etc ..., the algorithm, which has tables
of data, retrieves or stores vocabularies of acoustic references, or parts of vocabularies of acoustic references, in the central memory. Phase 192 executed normally, we go to phase 194 consisting of programming the recognition system 2, to transmit the command and to process the information as and when circulating. Then phase 195 tests whether a programming or information transmission error or an error specific to the recognition system has taken place. Certain errors lead to the rerun of phase 194 but this loop is limited to a few tests in order to avoid a blocking. In this case, and with the other types of errors, an error message is sent and the recognition system is reset before abandoning the routine In the case of normal operation, the parameters are passed. and the data specific to the mode used (phase 197) and the subroutine is finished
FIG. 14 represents the flowchart of the modification mode 163 of FIG. 11.This mode, having passed the parameters to the phase 200, makes it possible to modify or add (test made at the phase 201) acoustic references (with their graphic symbols associated with) the vocabulary residing in the recognition system 2 (which can then be saved). In the case of a modification, phase 202 is tested whether it is symbolic or acoustic. The symbolic modification is made in phase 203. For the acoustic modification, the information necessary to know the acoustic forms to be modified (phase 204) is acquired. If the -201 test results in the addition mode (or additional creation to an already existing vocabulary), we execute the phase 205 where we acquire the number of symbolic forms.
A la phase 206, on réalise la création symbolique et l'attribution fonctionnelle (ctest-à-dire que l'on associe une forme acoustique à une action ou à d'autres formes acoustiques pour une action en sachant que l'on fige au départ l'espace des actions décrites par des tables de données. Bien entendu, ces tables sont étroitement liées à l'application que l'on veut réaliser). Les phases 204 et 206 aboutissent à la phase 207 où lton fait l'acquisation du nombre de passes d'apprentissage (phase Supprimée avec le système de reconnaissance MOISE)o La phase 208 réalise toute la programmation du système de reconnaissance 2 suivant le parcours qui a été fait auparavant dans l'organigramme et lance la commande.La phase 209 permet d'afficher la forme symboliqué associée à la forme acoustique sur le terminal de poche et est en attentepour l'acquisition du signal via le système de reconnaissance. In phase 206, symbolic creation and functional attribution are realized (that is, we associate an acoustic form with an action or other acoustic forms for an action knowing that we freeze starting from the space of the actions described by tables of data.Of course, these tables are closely related to the application that one wants to realize). The phases 204 and 206 lead to the phase 207 where it acquires the number of learning passes (Phase Deleted with the MOISE recognition system) o The phase 208 carries out all the programming of the recognition system 2 according to the course which has been done before in the flowchart and starts the command. The phase 209 makes it possible to display the symbolic form associated with the acoustic form on the pocket terminal and is waiting for the acquisition of the signal via the recognition system.
La phase 210 teste si une erreur s'est produite et reboucle sur la phase 209 dans le cas positif Les phases 211 et 212 testent successivement le passage du dernier mot et de la deuxième passe d'apprentissage.Phase 210 tests whether an error has occurred and loops back to phase 209 in the positive case. The phases 211 and 212 successively test the passage of the last word and the second learning pass.
La phase 214 exécute une réinitialisation si une erreur de programmation, de transmission ou une erreur propre au système de reconnaissance est détectée à la phase 213. La phase 215 passe tous les paramètres et données pour terminer le sous-programme.Phase 214 performs a reset if a programming, transmission, or recognition system-specific error is detected in phase 213. Phase 215 passes all parameters and data to complete the routine.
Les figures 15a et 15b représentent ensemble ltorganigramme du mode reconnaissance 159 de la figure 11. ta phase 220 permet de passer les paramètres et les données (mode manuel ou automatique nature du système de reconnaissance, etc...). La phase 221 teste si le système général évolue en mode automatiqlle (après la mise sous tension par la clé de contact et toutes les procédures d'initialisations et de sécurités déroulées, on passe directement en mode reconnaissance) ou en mode manuel (manipulations manuelles de la part du conducteur avec le- clavier du terminal de poche). Dans ce dernier cas, on exécute la phase 222 où lton fait l'acquisition du numéro du vocabulaire de références, de la valeur du seuil de confiance, de l'arborescence entière ou partielle, etc....FIGS. 15a and 15b together represent the flow chart of the recognition mode 159 of FIG. 11. phase 220 makes it possible to pass the parameters and the data (manual mode or automatic nature of the recognition system, etc.). Phase 221 tests whether the general system is operating in automatic mode (after power-on using the ignition key and all the initialization and safety procedures that have been carried out, we go directly to the recognition mode) or in manual mode (manual manipulations of the driver's share with the keypad of the handheld terminal). In the latter case, phase 222 is executed where it acquires the reference vocabulary number, the value of the confidence threshold, the whole or partial tree, etc.
Si le conducteur se met en mode reconnaissance sans avoir préalablement chargé le système de reconnaissance avec un vocabulaire de références, alors on exécute la phase 245 représentant l'envoi dtun message d'erreur (visuel et sonore) sur le terminal de poche et une réinitialisation du système de reconnaissance avant d'abandonner la la routine reconnais-. If the driver goes into recognition mode without having previously loaded the recognition system with a vocabulary of references, then we execute the phase 245 representing the sending of an error message (visual and audible) on the pocket terminal and a reset of the recognition system before abandoning the recognizable routine.
sance. Dans le cas d'un bon déroulement de l'acquisition de données, on passe à la phase 232.ciency. In the case of a good data acquisition, we go to phase 232.
Si le test 221 indique que l'on évolue en mode automatique, on charge le système de reconnaissance du vocabulaire commun aux utilisateurs et contenant les références acoustiques clés, utilisées comme moyen de sécurité. Puis la phase 224 envoie des informations, concernant le bon déroulement des opérations précédentes, sur le terminal de poche. Le système de synthèse 12 délivre un message invitant le conducteur à prononcer son code afin de charger le vocabulaire adéquat. Dans le même laps de temps, on programme le système de reconnaissance 2 en mode reconnaissance sur ce vocabulaire commun et on lance la commande. La phase 225 est en attente de l'acquisition du signal acoustique. La phase 226, en cas d'erreur, reboucle sur la phase 225 (même type. d'erreur qu'avec les phases d'apprentissage ou de modification.Ces types d'erreurs arrivent aussi bien aux bons utilisateurs qu'aux eventuels intrus).If the test 221 indicates that one evolves in automatic mode, one loads the system of recognition of the vocabulary common to the users and containing the key acoustic references, used as means of safety. Phase 224 then sends information about the smooth running of the previous operations to the handheld terminal. The synthesis system 12 delivers a message inviting the driver to pronounce his code in order to load the appropriate vocabulary. In the same period of time, the reconnaissance system 2 is programmed in recognition mode on this common vocabulary and the command is issued. Phase 225 is waiting for the acquisition of the acoustic signal. Phase 226, in the event of an error, loops back to phase 225 (the same type of error as during the learning or modification phases) .These types of errors arrive as much to the good users as to the possible intruders. ).
Dnas le cas normal (forme acoustique prononcée suivant les critères du test 226), on éxécute la phase 227 réalisant les tests de seuil de confiance, de validité de mot et de chaPnage. Si le seuil de confiance n'est pas atteint (donc inférieur à celui programmé) ou qu'un mot ayant atteint ou dépassé ce seuil ntest pas valable, on exécute la phase 228 appeléecomptabilité. Enfin le troisième critère indique la position de la forme acoustique dans l'arborescence de la chalne de commande vocale utilisée comme sécurité au départ. A la phase 228, on tient à jour le nombre de formes acoustiques prononcées depuis le passage de la phase 221 en mode automatique ainsi que les scores des seuils réalisés.La phase 229 teste Si, dans ces tables de comptabilité, on a franchi ou pas le seuil de sécurité Pour le premier critère, au delà d'un certain nombre d'essais (allant de 5 à 10 environ), on exécute la phase 230 qui réinitialise le système de reconnaissance et repositionne le système général en attente d'un mode principal (1572 figure 11) dans le cas contraire, on examine si la forme acoustique ayant dépassé le seuil de confiance correspond bien au niveau de l'arborescence.In the normal case (acoustic form pronounced according to the criteria of the test 226), one executes the phase 227 carrying out the tests of threshold of confidence, of validity of word and chaPnage. If the confidence threshold is not reached (therefore less than that programmed) or a word having reached or exceeded this threshold is not valid, the phase 228 called accounting is executed. Finally, the third criterion indicates the position of the acoustic form in the tree structure of the voice command string used as initial security. In phase 228, we keep updated the number of acoustic forms pronounced since the passage of phase 221 in automatic mode as well as the scores of the thresholds achieved. Phase 229 tests If, in these accounting tables, we have crossed or not the safety threshold For the first criterion, beyond a certain number of tests (ranging from about 5 to 10), phase 230 is performed which resets the recognition system and repositions the general system waiting for a mode principal (1572 figure 11) in the opposite case, it is examined whether the acoustic form having exceeded the confidence threshold corresponds to the level of the tree structure.
Il se peut, par exemple, que le conducteur ait bien prononcé la première forme acoustique (niveau l de l'arborescence) et continue de la prononcer, en ayant oublié de regarder lVindication de la bonne reconnaissance grâce au terminal de poche, alors que le système général est en attente d'autres formes acoustiques correpondant au niveau 2 de 1' l'arborecence. It may be, for example, that the driver has pronounced the first acoustic form (level 1 of the tree) and continues to pronounce it, having forgotten to look at the indication of good recognition with the handheld terminal, while the The general system is waiting for other acoustic forms corresponding to level 2 of the arborecence.
Dans le cas normal d'une réponse affirmative aux tests 227, og éxécute la phase 231 qui charge le vocabulaire des références correspondant aux informations contenues dans la teblewcomptabilité. Dans le même temps, on envoie des informations visuelles et sonores indiquant que la sécurité a été franchie (avec le terminal de poche et le système de syn thèse) Le vocabulaire adéquat chargé, la phase 232 programme le système de reconnaissance et lance la commande. Cette phase est aussi réalisée en mode manuel, après avoir éxécuté la phase 222. In the normal case of an affirmative answer to the tests 227, og executes the phase 231 which loads the vocabulary of the references corresponding to the information contained in the chargeable account. At the same time, we send visual and audio information indicating that the security has been crossed (with the pocket terminal and the syn thesis system). The correct vocabulary is loaded, the phase 232 programs the recognition system and starts the command. This phase is also performed in manual mode, after executing phase 222.
A la phase 232, on rnet à jour d'autres tables de comptabilité propres au déroulement du reste du programme (structure de l'arborescence, nombre de formes acoustiques candidates par niveau d'arborescence, différents seuils, etc...)
La phase 233 est assimilable à la phase 225 (attente de la bonne acquisition du signal acoustique). La phase 234 reboucle avec la phase 233 en cas d'erreur. Une fois le signal acquis suivant les critères de la phase 234, on éxécute la phase 235 qui teste le seuil de confiance réalisé,suivant la nature de la forme acoustique. Certaines formes acoustiques ont leur seuil de confiance déterminé par rapport à une valeur donnée. Dans le cas où le seuil n'est pas atteint, on reboucle sur la phase 233, sinon on poursuit en séquence.Par contre d'autres formes acoustiques ont leur seuil de confiance déterminé par rapport à deux valeurs données. Dans le cas où l'on est inférieur à la plus petite des deux, on reboucle avec la phase 233. Dans le cas où l'on est supérieur à la plus grande des deux, on poursuit en séquence. Dans le troisième cas, on pose la question de la validité de la forme acoustique prononcée par le biais de la synthèse de la parole (avec un affichage sur le terminal de poche). Dans ce cas, le conducteur doit, soit confirmer ou non la validité (réponse par oui ou non), soit reprononcer la forme acoustique ayant laissé l'ambiguité. Dans les deux cas, on repasse par la phase 233. La première solution est plus intéressante.Si la réponse est négative, on reste au niveau 1 de l'arborescence1 sinon on poursuit en séquence en laissant une trace dans la table de comptabilité.In phase 232, we update other accounting tables specific to the progress of the rest of the program (structure of the tree structure, number of candidate acoustic forms per tree level, different thresholds, etc ...)
Phase 233 is comparable to phase 225 (waiting for good acquisition of the acoustic signal). Phase 234 loops back with phase 233 in case of error. Once the signal acquired according to the criteria of phase 234, phase 235 is executed which tests the confidence threshold achieved, according to the nature of the acoustic form. Certain acoustic forms have their confidence threshold determined with respect to a given value. In the case where the threshold is not reached, we loop back to the phase 233, otherwise we continue in sequence. However, other acoustic forms have their confidence threshold determined with respect to two given values. In the case where one is smaller than the smaller of the two, one loops back with the phase 233. In the case where one is greater than the greater one of the two, one continues in sequence. In the third case, we ask the question of the validity of the acoustic form pronounced through the synthesis of speech (with a display on the pocket terminal). In this case, the driver must either confirm the validity (yes or no answer) or repeat the acoustic form that left the ambiguity. In both cases, we go back to phase 233. The first solution is more interesting. If the answer is negative, we stay at level 1 of the tree1 otherwise we continue in sequence leaving a trace in the accounting table.
La poursuite en séquence aboutit à la phase 236 où lton teste, suivant les cas, la validité du mot dans l'arborescence (même scénario avec la procédure sécurité au démarrage). Dans un cas de non validité, on reboucle sur la phase 233. Dans le cas de validité ou de positionnement dans une chaine de commande, la phase 237 réalise l'affichage de la forme symbolique associée sur le terminal de poche La phase 238 tient à jour la table de comptabilité A la suite du positionnement de la forme acoustique dans l'arborescence, on éxécute ou non la phase 239 permettant de charger des vocabulaires partiels de références (par exemple, si le conducteur demande 1' auto-radio, on chargera le vocabulaire par tiel de références contenant les formes acoustiques permettant de choissir une station, d'augmenter ou diminuer le son, de changer de gammes, etc...). Bien entendu on supprime aussi des vocabulaires partiels de références (par exemple, si le conducteur demande d'arrêter son autoradio).The sequence continuation leads to the phase 236 where it tests, as the case may be, the validity of the word in the tree (same scenario with the procedure security at startup). In a case of invalidity, it is looped back to the phase 233. In the case of validity or positioning in a control chain, the phase 237 carries out the display of the associated symbolic shape on the pocket terminal. the accounting table As a result of the positioning of the acoustic form in the tree structure, phase 239 is executed or not to load partial vocabularies of references (for example, if the driver asks for the car radio, we will load the vocabulary by tiel of references containing the acoustic forms making it possible to choose a station, to increase or decrease the sound, to change ranges, etc ...). Of course we also remove partial vocabularies of references (for example, if the driver asks to stop his car radio).
La phase 240, suivant les informations contenues dans la table de comtabilité, teste si l'action, associée à la forme acoustique ou à la chaîne de formes acoustiques, est valide ou noh. Dans le cas de non va lidité, on reboucle sur la phase 233. Si l'action à déclencher est valide, on éxécute la phase 241qui est un test de sécurité supérieure
Par exemple, pour arrêter le moteur, même si le conducteur satisfait à la commande vocale munie de sécurités (dialogue avec la synthèse), cette action ne sera éxécutée quten dessous d'une certaine vitesse du véhicule (quelques km/h). La seule possibilité supérieure dont le conducteur dispose est celle de couper le contact au moyen de la clé.Phase 240, according to the information contained in the accounting table, tests whether the action, associated with the acoustic form or the string of acoustic forms, is valid or noh. In the case of non-validity, we go back to phase 233. If the action to be triggered is valid, we execute phase 241 which is a superior safety test
For example, to stop the engine, even if the driver complies with the voice command provided with security (dialogue with the summary), this action will only be performed below a certain speed of the vehicle (a few km / h). The only superior possibility that the driver has is to turn off the ignition with the key.
A la phase 241, on éxécute les actions ainsi que les inhibitions des actions à l'aide de tables de données. Ces tables sont organisées avec les commandes électriques à passer, munies des sécurités reproduisant celles existant habituellement. Il existe donc, en plus des sécurités électroniques contenues dans le bloc 3 de la figure 1 (ou plus précisément le bloc 32 de la figure 3), les mêmes sécurités au niveau du lo giciel. L'action (ou l'inhibition) étant réalisée à la phase 241, on éxécute la phase 242. La phase 242 permet d'arrêter le mode reconnaissance par un ordre vocal. Si le test est négatif, on reboucle avec la phase 233. Dans le cas contraire, on s'assure, par la synthèse, que le conducteur désire effectivement sortir du programme reconnaissance, en mode automatique. En mode manuel, le conducteur agit au moyen d'une touche ou d'un code spécial entré par le clavier du terminal de poche.In phase 241, actions and inhibitions of actions are executed using data tables. These tables are organized with electrical controls to pass, equipped with security reproducing those usually existing. There is therefore, in addition to electronic security contained in block 3 of Figure 1 (or more precisely the block 32 of Figure 3), the same security in the software. The action (or inhibition) being carried out in phase 241, phase 242 is executed. Phase 242 makes it possible to stop the recognition mode by a voice command. If the test is negative, it loops back with phase 233. In the opposite case, it is ensured, by the synthesis, that the driver actually wants to exit the recognition program, in automatic mode. In manual mode, the driver acts by means of a key or a special code entered by the keypad of the pocket terminal.
La phase 243 réinitialise le système de reconnaissance. La phase 244 permet de passer les paramètres et les données du mode reconnaissance avant d'abandonner le sous-programme. On peut aussi, à la phase 242, laisser le système général en état de veille, c'est-à-dire rester en mode reconnaissance qui sera réactivé, soit en prononçant une forme acoustique particulière, soit en actionnant un contact fugitif. Phase 243 resets the recognition system. Phase 244 is used to pass parameters and recognition mode data before dropping the subroutine. It is also possible, in phase 242, to leave the general system in a standby state, ie to remain in recognition mode which will be reactivated, either by pronouncing a particular acoustic form or by actuating a fugitive contact.
La figure 16 représente le sous-programme utilisé pour gérer le bloc 133 de la figure 8 qui est détaillé par les figures 9 et 10. Sur la figure 10, le signal d'horloge 101 est au repos à l'état "1" et réalise le décalage du registre sur une transition positive tandis que le signal validation 105 est au repos à l'état "0" et réalise le transfert en parallèle sur les sorties sur une tension négative. Il en résulte qu'il suffit de passer 2 valeurs au sous-programme, V1 (données 8 bits à sortir sur un des blocs 79 à 85) et V2 (état horloge-validation permettant de sélecter l'un des blocs 79 à 85).FIG. 16 represents the subroutine used to manage the block 133 of FIG. 8 which is detailed in FIGS. 9 and 10. In FIG. 10, the clock signal 101 is at rest in state "1" and performs the shift of the register on a positive transition while the enable signal 105 is at rest in the state "0" and performs the transfer in parallel on the outputs on a negative voltage. As a result, it suffices to pass 2 values to the subroutine, V1 (8-bit data to be output on one of the blocks 79 to 85) and V2 (clock-enable state to select one of the blocks 79 to 85) .
- V1 est représentée comme suit :
D8 D7 D6 D5 D4 D3 D2 D1
bit 8 bit 7 bit 6 bit 5 bit 4 bit 3 bit 2 bit 1 - V2 est représentée comme suit
Etat
haute impédance bloc 79 bloc 80 bloc 81 bloc 82 bloc 83 bloc 84 bloc 85
V1 is represented as follows:
D8 D7 D6 D5 D4 D3 D2 D1
bit 8 bit 7 bit 6 bit 5 bit 4 bit 3 bit 2 bit 1 - V2 is represented as follows
State
high impedance block 79 block 80 block 81 block 82 block 83 block 84 block 85
<tb> bit <SEP> 8 <SEP> bit <SEP> 7 <SEP> bit <SEP> 6 <SEP> bit <SEP> 5 <SEP> bit <SEP> 4 <SEP> bit <SEP> 3 <SEP> bit <SEP> 2 <SEP> bit <SEP> I <SEP>
<tb> <SEP> horloge <SEP> ou <SEP> validation
<tb>
La phase 250 initialise le compteur C à 8 pour envoyer en série les 8 bits de la valeur V1. La phase 251 fait une sauvegarde temporaire de
V1.La phase 252 isole le bit 8 de la valeur V1. La phase 253 compare, à laide de la valeur V2, l'état "0" de l'entrée d'horloge du bloc à sélectionner (79 à 85) avec le bit 8 de VI, puis envoie cette donnée (bloc 254) sur la liaison 70 puis7i::(fig. 9). Puis, sans affecter le bit-8 pour avoir son état stable en sortie, on fait passer l'entrée d'horloge du bloc sélectionné à l'état "1" (passage à l'état 1 des bits 7 à I de la donnée) permettant de faire entrer le bit de V1 dans le bloc sélectionné (79 à 85) ainsi que de décaler le registre (phase 255 > . On récupère ensuite la valeur VI (phase 256) et l'on fait un décalage à gauche d'une case (la valeur du bit 1 passe dans le bit 2, la valeur du bit 2 dans le bit 3, etc..., la valeur du bit 8 dans le bit 1) et l'on teste en 258 si le compteur C vaut O Si C est différent de 0, on reboucle sur la phase 252, cé qui permet d'envoyer la valeur de V1 (D81 puis D7,..., et D1). Si C vaut 0, on exécute la phase 259 qui compare le bit 8 à l'état normal (contraire de l'état haute impédance) avec l'état V2 inversé en 75 (passage à l'état 1 du signal validation pour le bloc sélectionné où on a envoyé la valeur VI) Puis, on réalise le transfert (phase 260) en parallèle de la valeur Vi sur les sorties en passant à l'état "O" le. signal validation du bloc sélectionné (passage à l'état "O" des bits 7 à 1 de la donnée envoyée en 70 puis 72, figure 9).Le sous-programme est alors terminée
Bien entendu de nombreuses modifications peuvent être apportées à l'exemple décrit sans sortir du cadre de l'invention Ceest ainsi que, par exemple, comme, indiqué précédemment, le terminal de poche peut être remplacé par tout dispositif permettant d'introduire une information (par exemple choix du mode de fonctionnement) ou d'afficher une information (mot reconnu ou pas, rapport signal/bruit, etc ) En ce qui concerne l'information mot reconnu ou pas, il doit être précisé que, de préférence, le système assure dans tous les cas une fonction "accusé de réception, ctest-à-dire qu'il indique par tout moyen sonore (synthèse de la parole), ou visuel (affichage graphique ou symbolique ou témoins lumineux) la position qui a prise par rapport : la forme acoustique émise, à savoir mot reconnus mot non reconnut" où "mot rejetée (n'ayant donné lieu à aucune phase de reconnaissance pour les raisons indiquées précédemment: mot trop court, trop long,etc...). <tb> bit <SEP> 8 <SEP> bit <SEP> 7 <SEP> bit <SEP> 6 <SEP> bit <SEP> 5 <SEP> bit <SEP> 4 <SEP> bit <SEP> 3 <SEP > bit <SEP> 2 <SEP> bit <SEP> I <SEP>
<tb><SEP> clock <SEP> or <SEP> validation
<Tb>
Phase 250 initializes the counter C to 8 to send in series the 8 bits of the value V1. Phase 251 makes a temporary backup of
Phase 252 isolates bit 8 from the value V1. The phase 253 compares, using the value V2, the state "0" of the clock input of the block to be selected (79 to 85) with the bit 8 of VI, then sends this data (block 254) on the link 70 then 7i: :( fig 9). Then, without affecting the bit-8 to have its stable state output, it passes the clock input of the selected block to the state "1" (transition to the state 1 bits 7 to I of the data ) to enter the bit of V1 in the selected block (79 to 85) and to shift the register (phase 255> .The value VI (phase 256) is then recovered and a shift to the left of a box (the value of bit 1 passes in bit 2, the value of bit 2 in bit 3, etc ..., the value of bit 8 in bit 1) and it is tested in 258 if the counter C If C is different from 0, we loop back to phase 252, which sends the value of V1 (D81 then D7, ..., and D1) If C is 0, we execute phase 259 which compares the bit 8 with the normal state (opposite of the high impedance state) with the inverted V2 state at 75 (transition to the state 1 of the validation signal for the selected block where the value VI has been sent) Then, the transfer (phase 260) is carried out in parallel Releases the value Vi on the outputs by changing to state "O" on. signal validation of the selected block (transition to the "O" state of the bits 7 to 1 of the data sent in 70 then 72, Figure 9) .The routine is then complete
Of course many modifications can be made to the example described without departing from the scope of the invention Ceest and, for example, as indicated above, the pocket terminal can be replaced by any device for introducing information ( for example choice of operating mode) or to display information (word recognized or not, signal / noise ratio, etc.) Regarding the word information recognized or not, it should be specified that, preferably, the system ensures in all cases a function "acknowledgment of receipt, that is to say it indicates by any means sound (speech synthesis), or visual (graphic or symbolic display or indicator lights) the position that has taken relative : the acoustic form emitted, ie word recognized word not recognized "where" word rejected (not giving rise to any recognition phase for the reasons indicated above: word too short, too long, etc ...).
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8216066A FR2533513B1 (en) | 1982-09-23 | 1982-09-23 | METHOD AND SYSTEM FOR COMMUNICATING ON BOARD A MOTOR VEHICLE COMPLEX INFORMATION RELATING TO THE VEHICLE AND ITS ENVIRONMENT |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR8216066A FR2533513B1 (en) | 1982-09-23 | 1982-09-23 | METHOD AND SYSTEM FOR COMMUNICATING ON BOARD A MOTOR VEHICLE COMPLEX INFORMATION RELATING TO THE VEHICLE AND ITS ENVIRONMENT |
Publications (2)
Publication Number | Publication Date |
---|---|
FR2533513A1 true FR2533513A1 (en) | 1984-03-30 |
FR2533513B1 FR2533513B1 (en) | 1989-03-03 |
Family
ID=9277692
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR8216066A Expired FR2533513B1 (en) | 1982-09-23 | 1982-09-23 | METHOD AND SYSTEM FOR COMMUNICATING ON BOARD A MOTOR VEHICLE COMPLEX INFORMATION RELATING TO THE VEHICLE AND ITS ENVIRONMENT |
Country Status (1)
Country | Link |
---|---|
FR (1) | FR2533513B1 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0145669A2 (en) * | 1983-07-15 | 1985-06-19 | AUTOVOX S.p.A. | Device for the control by voice of a signal receiver |
EP0175503A1 (en) * | 1984-09-06 | 1986-03-26 | BRITISH TELECOMMUNICATIONS public limited company | Method and apparatus for use in interactive dialogue |
FR2581461A1 (en) * | 1985-05-03 | 1986-11-07 | Dana Corp | Voice-activated system for adjusting the speed of a vehicle and method of receiving and storing voice-model signals |
FR2642882A1 (en) * | 1989-02-07 | 1990-08-10 | Ripoll Jean Louis | SPEECH PROCESSING APPARATUS |
EP0450193A1 (en) * | 1990-03-28 | 1991-10-09 | Blaupunkt-Werke GmbH | Vehicle communication central |
EP0488733A2 (en) * | 1990-11-30 | 1992-06-03 | Fujitsu Ten Limited | Method and apparatus for speech recognition |
US5247705A (en) * | 1990-03-20 | 1993-09-21 | Robert Bosch Gmbh | Combination broadcast receiver and mobile telephone |
WO1996011122A1 (en) * | 1994-10-06 | 1996-04-18 | Roessle Manfred | Process and device for limiting the speed of a motor vehicle |
US11153472B2 (en) | 2005-10-17 | 2021-10-19 | Cutting Edge Vision, LLC | Automatic upload of pictures from a camera |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
US4158750A (en) * | 1976-05-27 | 1979-06-19 | Nippon Electric Co., Ltd. | Speech recognition system with delayed output |
EP0034373A1 (en) * | 1980-02-18 | 1981-08-26 | Nippondenso Co., Ltd. | Apparatus for controlling an air conditioner for a vehicle |
JPS57118949A (en) * | 1981-01-13 | 1982-07-24 | Toshiba Corp | Charge voice responder |
GB2094509A (en) * | 1981-03-09 | 1982-09-15 | Toyota Motor Co Ltd | Apparatus for controlling air conditioner by voice |
EP0059952A1 (en) * | 1981-03-05 | 1982-09-15 | Nippondenso Co., Ltd. | Method and apparatus for controlling a plurality of devices |
EP0041741B1 (en) * | 1980-06-11 | 1985-01-30 | Nippondenso Co., Ltd. | Method and device for displaying vehicle operating parameters in a variable format |
-
1982
- 1982-09-23 FR FR8216066A patent/FR2533513B1/en not_active Expired
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4158750A (en) * | 1976-05-27 | 1979-06-19 | Nippon Electric Co., Ltd. | Speech recognition system with delayed output |
US4087630A (en) * | 1977-05-12 | 1978-05-02 | Centigram Corporation | Continuous speech recognition apparatus |
EP0034373A1 (en) * | 1980-02-18 | 1981-08-26 | Nippondenso Co., Ltd. | Apparatus for controlling an air conditioner for a vehicle |
EP0041741B1 (en) * | 1980-06-11 | 1985-01-30 | Nippondenso Co., Ltd. | Method and device for displaying vehicle operating parameters in a variable format |
JPS57118949A (en) * | 1981-01-13 | 1982-07-24 | Toshiba Corp | Charge voice responder |
EP0059952A1 (en) * | 1981-03-05 | 1982-09-15 | Nippondenso Co., Ltd. | Method and apparatus for controlling a plurality of devices |
GB2094509A (en) * | 1981-03-09 | 1982-09-15 | Toyota Motor Co Ltd | Apparatus for controlling air conditioner by voice |
Non-Patent Citations (3)
Title |
---|
FUNKSCHAU, no.15, juillet 1981, MÜNCHEN (DE), J. NEILS. 'Hifi fernsteuerbar', pages 55 -57 * |
PATENTS ABSTRACTS OF JAPAN, vol.6, no.213, (M-167), 1091, 26 octobre 1982 & JP - A - 57 118 949 (TOKYO SHIBAURA DENKI K.K.)(24-07-1982) * |
PROCEEDINGS: 19th IEEE COMPUTER SOCIETY INTERNATIONAL CONFERENCE, Washington, 4-7 septembre 1979, NEW YORK (US), S. SUGAYA et al.: 'Voice remote controlled TV set', pages 392 - 395 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0145669A2 (en) * | 1983-07-15 | 1985-06-19 | AUTOVOX S.p.A. | Device for the control by voice of a signal receiver |
EP0145669A3 (en) * | 1983-07-15 | 1986-02-26 | AUTOVOX S.p.A. | Device for the control by voice of a signal receiver |
EP0175503A1 (en) * | 1984-09-06 | 1986-03-26 | BRITISH TELECOMMUNICATIONS public limited company | Method and apparatus for use in interactive dialogue |
FR2581461A1 (en) * | 1985-05-03 | 1986-11-07 | Dana Corp | Voice-activated system for adjusting the speed of a vehicle and method of receiving and storing voice-model signals |
FR2642882A1 (en) * | 1989-02-07 | 1990-08-10 | Ripoll Jean Louis | SPEECH PROCESSING APPARATUS |
WO1990009656A1 (en) * | 1989-02-07 | 1990-08-23 | Alcept | Speech processing machine |
US5247705A (en) * | 1990-03-20 | 1993-09-21 | Robert Bosch Gmbh | Combination broadcast receiver and mobile telephone |
EP0450193A1 (en) * | 1990-03-28 | 1991-10-09 | Blaupunkt-Werke GmbH | Vehicle communication central |
EP0488733A2 (en) * | 1990-11-30 | 1992-06-03 | Fujitsu Ten Limited | Method and apparatus for speech recognition |
EP0488733A3 (en) * | 1990-11-30 | 1992-10-14 | Fujitsu Ten Limited | Method and apparatus for speech recognition |
US5852804A (en) * | 1990-11-30 | 1998-12-22 | Fujitsu Limited | Method and apparatus for speech recognition |
WO1996011122A1 (en) * | 1994-10-06 | 1996-04-18 | Roessle Manfred | Process and device for limiting the speed of a motor vehicle |
US11153472B2 (en) | 2005-10-17 | 2021-10-19 | Cutting Edge Vision, LLC | Automatic upload of pictures from a camera |
US11818458B2 (en) | 2005-10-17 | 2023-11-14 | Cutting Edge Vision, LLC | Camera touchpad |
Also Published As
Publication number | Publication date |
---|---|
FR2533513B1 (en) | 1989-03-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0127534B1 (en) | Training apparatus for practising a mother tongue or a foreign language with regard to its complete assimilation | |
US6243675B1 (en) | System and method capable of automatically switching information output format | |
CA1260068A (en) | Radiotelephone system, namely for automotive vehicles | |
JP4353212B2 (en) | Word string recognition device | |
FR2744277A1 (en) | VOICE RECOGNITION METHOD IN NOISE AMBIENCE, AND IMPLEMENTATION DEVICE | |
KR20240037205A (en) | Vision-assisted speech processing | |
US20030055643A1 (en) | Method for controlling a voice input and output | |
JP4156563B2 (en) | Word string recognition device | |
CN101292282A (en) | Mobile systems and methods of supporting natural language human-machine interactions | |
JP2001034292A (en) | Word string recognizing device | |
FR2533513A1 (en) | Method and system for communicating, on board a motor vehicle, complex information relating to the vehicle and its environment | |
WO2017057172A1 (en) | Dialogue device and dialogue control method | |
FR2466812A1 (en) | VOICE WARNING DEVICE FOR A MOTOR VEHICLE EQUIPPED WITH A SYSTEM FOR AUTOMATIC SPEED CONTROL | |
EP0564353A1 (en) | Car receiver for assisting the navigation of an automotive vehicle | |
US7986974B2 (en) | Context specific speaker adaptation user interface | |
US12145595B2 (en) | In-vehicle soundscape and melody generation system and method using continuously interpreted spatial contextualized information | |
FR2464167A1 (en) | VOLUME CONTROL SYSTEM FOR A VOICE WARNING SYSTEM FOR DIFFUSION OF INFORMATION IN A MOTOR VEHICLE | |
CN115079989A (en) | Vehicle and control method thereof | |
CN111968611A (en) | Karaoke method, vehicle-mounted terminal and computer-readable storage medium | |
WO1996029216A1 (en) | Method of controlling vehicles with prevention of unauthorised access based on speech analysis, and a system for applying the proposed method | |
FR3032575A1 (en) | METHOD FOR COMMUNICATING A VOICE MESSAGE INCLUDING A VOCAL MESSAGE TRANSCRIPTION DISPLAY STEP AND A PRIOR DETERMINED CALLER IDENTIFIER AND DEVICE FOR IMPLEMENTING THE SAME | |
FR2771982A1 (en) | ANTI-THEFT DEVICE OF A MOTOR VEHICLE | |
FR2468169A1 (en) | PARKING ALERT SYSTEM FOR MOTOR VEHICLES | |
CN117437912A (en) | Speech recognition processing method and electronic equipment | |
FR2674660A1 (en) | COMPARATIVE EVALUATION SYSTEM FOR IMPROVING PRONUNCIATION. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
ST | Notification of lapse |