Tp2 3

Correction des TP sur les données Desbois.
Bruno PORTIER
INSA – GM4 – Machine Learning.
2021-2022
(B. Portier) Correction Desbois Page 1 / 26

1. Introduction Générale.
On présente ici une correction partielle du TP sur les données Desbois.

2. Etude descriptive des données ”Desbois”.
2.1. Etude de la variable d’intérêt DIFF.
La répartition des exploitations est légèrement déséquilibrée puisque l’on a :
Sain Défaillant
653 (51,83%) 607 (48,17%)
La construction aléatoire des échantillons d’apprentissage et de test

respecte à peu près cette répartition :
Sain Défaillant
dataApp 494 (52,28%) 451 (47,72%)
dataTest 159 (50,48%) 156 (49,52%)

2.2. Statistiques descriptives des variables explicatives.
On peut constater que les plages de valeurs et les écart-types des
régresseurs ne présentent pas de grosses différences.
Min. 1st Qu. Median Mean 3rd Qu. Max. ecart.type
R1 0.12 0.34 0.53 0.58 0.78 3.49 0.33
R2 0.00 0.32 0.57 0.52 0.76 1.00 0.29
R3 -1.51 0.22 0.36 0.37 0.52 1.00 0.22
R4 -0.49 0.08 0.16 0.23 0.32 1.11 0.19
R5 0.00 0.20 0.33 0.36 0.47 2.79 0.22
R6 0.18 0.57 0.92 1.05 1.36 4.36 0.69
R7 0.00 0.33 0.56 0.66 0.88 3.12 0.47
R8 -0.93 0.14 0.28 0.38 0.55 1.85 0.34
R11 -0.91 -0.01 0.29 0.27 0.54 2.31 0.42
R12 -1.16 -0.01 0.44 0.44 0.86 3.97 0.64
R14 -0.69 0.22 0.46 0.70 1.01 5.17 0.65
R17 0.01 0.04 0.06 0.06 0.08 0.19 0.03
R18 0.00 0.03 0.06 0.07 0.10 0.30 0.06
R19 0.02 0.10 0.16 0.18 0.23 1.65 0.13
R21 0.01 0.09 0.17 0.28 0.34 5.08 0.36
R22 0.05 0.29 0.49 0.70 0.81 13.67 0.83
R24 0.01 0.14 0.19 0.20 0.24 0.75 0.09
R28 0.03 0.26 0.33 0.32 0.39 0.71 0.10
2.3. Etude des corrélations.
L’étude des corrrélations montre que quelques variables sont assez

fortement corrélées. En particulier R11 et R12. Se pose alors la question de
retirer l’une des deux variables.
row column cor p

28 R11 R12 0.98 0.0e+00
97 R2 R1 -0.91 0.0e+00
10 R28 R32 0.89 0.0e+00
153 R21 R22 0.89 0.0e+00
190 R6 R7 0.88 0.0e+00
9 R30 R32 0.87 0.0e+00
43 R11 R14 -0.85 0.0e+00
44 R12 R14 -0.84 0.0e+00
139 R30 R22 -0.83 4.3e-314
213 R30 R19 -0.83 6.3e-317

2.4. Vérification graphique des corrélations.
Le graphique des scatter-plots montre qu’effectivement les variables R11 et
R12 sont fortement corrélées linéairement, cette conclusion étant à
modérer pour les variables R1 et R2 lorsque R2 prend des valeurs nulles.
0.0 0.2 0.4 0.6 0.8 1.0 −1 0 1 2 3 4
3.0
2.0
R1
1.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0
R2
2.0
1.0
R11
0.0
−1.0
4
3
2
R12
1
0
−1
0.0 1.0 2.0 3.0 −1.0 0.0 1.0 2.0

2.5. Etude des multi-colinéarités.
L’étude des VIF montre des valeurs assez fortes. Il serait peut-être
préférable de retirer certaines variables.
R32 R30 R6 R1 R19 R7 R12 R11 R28 R18 R4 R8

97.82 93.45 89.08 63.67 57.64 46.87 39.46 39.34 39.19 34.72 31.05 30.89
R5 R21 R22 R2 R14 R3 R36 R24 R17
30.39 17.59 16.58 8.14 6.08 5.59 5.44 4.81 4.07
On observe des VIF très élevés.

2.6. Etude des distributions conditionnellles (R1–R11).
Les boxplots montrent que les distributions conditionnelles des variables
sont différentes pour l’ensemble des régresseurs à l’exception, peut-être de
R3.
3.0
0.8
0.5
2.0
R1
R2
R3
−0.5
0.4
1.0
−1.5
0.0
0.0
1 2 1 2 1 2
Y Y Y
1.0
4
2.0
3
0.5
R4
R5
R6
2
1.0
0.0
1
−0.5
0.0
1 2 1 2 1 2
Y Y Y
3.0
2.0
1.0
2.0
1.0
R11
R7
R8
0.0
1.0
0.0
−1.0
−1.0
0.0
1 2 1 2 1 2
Y Y Y

sont différentes.
0.20
4
5
3
4
3
2
0.10
R12
R14
R17
2
1
1
−1 0
0.00
1 2 1 2 1 2
Y Y Y
0.30
5
1.5
4
0.20
1.0
3
R18
R19
R21
0.10
2
0.5
1
0.00
0.0
0
1 2 1 2 1 2
Y Y Y
0.7
12
0.6
0.5
8
0.4
R22
R24
R28
0.3
0.2
4
0.1
0.0
0
1 2 1 2 1 2
Y Y Y

sont différentes pour R30 et R37 mais pas pour R36 et R37.
0.5
0.6
0.4
0.0
R30
R32
0.2
−0.5
0.0
−1.0
1 2 1 2
Y Y
5
2.0
4
1.5
3
R36
R37
1.0
2
1
0.5
0
1 2 1 2
Y Y

2.9. Mise en oeuvre d’une ACP.
2.9.1. Contribution des valeurs propres.
Le graphique ci-dessous montre que les deux premières valeurs propres
contribuent à 63,45% de l’inertie du nuage de points.
40
Valeurs Propres
30
20
10
0
5 10 15 20
Nombre de facteurs

2.9. Mise en oeuvre d’une ACP.
2.9.2. Projection sur le premier plan factoriel.
La projection du nuage de points sur le premier plan factoriel montre
qu’une partie des entreprises est bien séparée en fonction de son statut.
Projection dans le 1er plan factoriel
5
0
z2
−5
sain
défaillant
−5 0 5 10 15
z1

3. LDA et QDA.
3.1. Introduction.
On met en oeuvre dans cette partie l’analyse discriminante linéaire et
quadratique sur le jeu de données ’Desbois”.
library(MASS)
# Préparation des données
xApp = as.matrix(dataApp[,-1])
y.app = dataApp[,1]
# Construction des modèles
mod.lda = lda(xApp, y.app)
mod.qda = qda(xApp, y.app)
# Prédiction sur Eapp
y.lda = predict(mod.lda)$class
y.qda = predict(mod.qda)$class
# Prévision sur Etest
xTest = as.matrix(dataTest[,-1])
y.test = dataTest[,1]
yt.lda = predict(mod.lda, newdata=xTest)$class
yt.qda = predict(mod.qda, newdata=xTest)$class
3.2. Analyse discriminante linéaire.
3.2.1. Caractéristiques du modèle.
print(mod.lda, digits=4)
Prior probabilities of groups:

0 1
0.5228 0.4772
Group means:
R1 R2 R3 R4 R5 R6 R7 R8 R11
0 0.3792 0.6948 0.3213 0.1129 0.2659 0.682 0.4835 0.1953 0.48572 0.7
1 0.8096 0.3260 0.4239 0.3479 0.4581 1.473 0.8649 0.5931 0.02361 0.0
R22 R24 R28 R30 R32 R36 R37
0 0.3662 0.2139 0.3564 0.23207 0.3161 1.134 0.6013
1 1.0827 0.1749 0.2834 0.03151 0.1758 1.262 0.6131
Coefficients of linear discriminants:

LD1
R1 2.40393
R2 -2.20996
3.2.2. Etude des performances.
# Sur Eapp
y.lda
y.app 0 1
0 455 39
1 75 376
Taux bons Class. Sensibilité Spécificité
87.94 92.11 83.37
# Sur Etest
yt.lda
y.test 0 1
0 150 9
1 28 128
88.25 94.34 82.05
On constate que le modèle se généralise bien et que le modèle a plus de

mal à prévoir les 1 c’est à dire les exploitations défaillantes.

3.3. Analyse discriminante quadratique.
3.3.1. Performance de la QDA.
# Sur Eapp
y.qda
y.app 0 1
0 467 27
1 144 307
81.90 94.53 68.07
# Sur Etest
yt.qda
y.test 0 1
0 156 3
1 50 106
83.17 98.11 67.95
On constate que le modèle se généralise bien et que le modèle a plus de

mal à prévoir les 1 c’est à dire les exploitations défaillantes.
3.3.2. Comparaison des performances entre LDA et QDA.
Eapp Etest
LDA QDA LDA QDA
Taux bons Class. 87.94 81.90 88.25 83.17
Sensibilité 92.11 94.53 94.34 98.11
Spécificité 83.37 68.07 82.05 67.95
Il est clair que la méthode LDA est plus performante que la méthode
QDA, même si au niveau de la sensibilité la méthode QDA est un peu plus
performante.

3.3.3. Mise en oeuvre du Test de Mc Nemar.
Le test de Mc Nemar confirme la conclusion précédente, même si sur Etest
le test est moins significatif puisqu’à 1%, on ne rejette pas l’hypothèse
selon laquelle les deux méthodes sont comparables.
# Sur Eapp
mcnemar.test(table((y.app==y.lda),(y.app==y.qda)))
McNemar’s Chi-squared test with continuity correction
data: table((y.app == y.lda), (y.app == y.qda))

McNemar’s chi-squared = 24.693, df = 1, p-value = 6.723e-07
# Sur Etest
mcnemar.test(table((y.test==yt.lda),(y.test==yt.qda)))
McNemar’s Chi-squared test with continuity correction
data: table((y.test == yt.lda), (y.test == yt.qda))

McNemar’s chi-squared = 6.25, df = 1, p-value = 0.01242
4. Régression logistique.
4.1. Introduction.
On modélise dans cette partie les données Desbois à l’aide d’un modèle de
régression logistique.
La construction du modèle se fait à l’aide de la fonction glm.
mod.glm.c = glm(DIFF ~. , family = binomial, data=dataApp)

summary(mod.glm.c)

4.2 Etude du modèle complet.
4.2.1. Construction du modèle.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.68505 5.14935 -2.075 0.03798 *
R1 27.54215 8.89439 3.097 0.00196 **
R2 2.23316 4.28988 0.521 0.60267
R3 1.40397 2.41300 0.582 0.56068
R4 -10.42335 8.16987 -1.276 0.20202
R5 -19.69429 9.16935 -2.148 0.03173 *
R6 -1.18951 1.98879 -0.598 0.54977
R7 2.66581 2.38468 1.118 0.26361
R8 -3.79600 2.50861 -1.513 0.13023
R11 1.04082 2.53611 0.410 0.68151
R12 0.02808 1.79473 0.016 0.98752
R14 2.69786 0.93076 2.899 0.00375 **
R17 32.85101 11.69119 2.810 0.00496 **
R18 -9.37586 21.30608 -0.440 0.65990
R19 -3.12918 12.87840 -0.243 0.80802
R21 2.27401 4.68204 0.486 0.62719
R22 1.28458 2.10230 0.611 0.54118
R24 -1.09947
(B. Portier)
6.75271 -0.163
Correction Desbois
0.87066 Page 20 / 26
4.2.2. Analyse du modèle complet.
On constate que 18 variables explicatives sont jugées non significatives à

5%. Il est donc raisonnable de mettre en oeuvre une sélection de variables.
La déviance résiduelle est très largement inférieure à la déviance nulle :
l’apport des variables explicatives est donc significatif.
Les performances du modèle sont bonnes, avec une légère dégradation des
résultats au passage de Eapp à Etest.

Eapp 89.42 91.30 87.36
Etest 87.94 92.45 83.33

4.3. Etude du modèle réduit.
4.3.1. Sélection de variables.
La méthode pas à pas descendante conduit à éliminer les variables :
>
"R12" "R28" "R24" "R30" "R18" "R21" "R2" "R6" "R3" "R32" "
et à ne garder que 9 variables explicatives.

4.3.2. Caractéristiques du modèle réduit.
On constate que, comme attendu, la déviance résiduelle du modèle
complet est plus petite, mais l’A.I.C. est plus grand.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.8981 0.9676 -11.263 < 2e-16 ***
R1 15.3566 2.8167 5.452 4.98e-08 ***
R5 -8.3714 2.8615 -2.926 0.003438 **
R8 -3.2133 1.1356 -2.830 0.004659 **
R11 1.7596 0.6266 2.808 0.004984 **
R14 2.7402 0.8285 3.307 0.000942 ***
R17 34.0087 6.0634 5.609 2.04e-08 ***
R19 -9.7223 2.7314 -3.559 0.000372 ***
R22 2.8461 0.5822 4.889 1.01e-06 ***
R36 1.6867 0.3522 4.788 1.68e-06 ***
Null deviance: 1308.09 on 944 degrees of freedom

Residual deviance: 503.87 on 935 degrees of freedom
AIC: 523.87
4.3.3. Performances du modèle logistique réduit.
Le modèle réduit conduit aux scores suivants :

Eapp 89.42 91.90 86.70
Etest 87.62 92.45 82.69
On observe le même phénomène que pour le mdoèle complet : de bonnes

performances globales, une légère dégradation des scores quand on passe
de Eapp à Etest, et une plus grande difficulté à prévoir les 1.

4.4. Comparaison des modèles réduit et complet.
ON peut constater que les performances des deux modèles sont les mêmes.
Sans surprise, à des p-values supérieures à 5%. le test de Mc Nemar
conduit
On préconise donc de garder le modèle logistique réduit.
Eapp Etest
GLMc GLMr GLMc GLMr
Taux bons Class. 89.42 89.42 87.94 87.62
Sensibilité 91.30 91.90 92.45 92.45
Spécificité 87.36 86.70 83.33 82.69

4.5. Conclusion : comparaison des 4 modèles.
au vu des résultats, et si ’lon sohaite un modèle ”équilibré’, on préconisera

de prendre le modèle logistique réduit.
Eapp Etest
LDA QDA GLMc GLMr LDA QDA GLMc GLM
Taux bons Class. 87.94 81.90 89.42 89.42 88.25 83.17 87.94 87.6
Sensibilité 92.11 94.53 91.30 91.90 94.34 98.11 92.45 92.4
Spécificité 83.37 68.07 87.36 86.70 82.05 67.95 83.33 82.6

Tp2 3

Transféré par

Informations du documentcliquez pour développer les informations du document

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Tp2 3

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tp2 3

Transféré par

Droits d'auteur :

Formats disponibles

Correction des TP sur les données Desbois.

INSA – GM4 – Machine Learning.

(B. Portier) Correction Desbois Page 1 / 26

On présente ici une correction partielle du TP sur les données Desbois.

(B. Portier) Correction Desbois Page 2 / 26

La répartition des exploitations est légèrement déséquilibrée puisque l’on a :

La construction aléatoire des échantillons d’apprentissage et de test

(B. Portier) Correction Desbois Page 3 / 26

L’étude des corrrélations montre que quelques variables sont assez

row column cor p

(B. Portier) Correction Desbois Page 5 / 26

0.0 0.2 0.4 0.6 0.8 1.0 −1 0 1 2 3 4

0.0 1.0 2.0 3.0 −1.0 0.0 1.0 2.0

(B. Portier) Correction Desbois Page 6 / 26

R32 R30 R6 R1 R19 R7 R12 R11 R28 R18 R4 R8

On observe des VIF très élevés.

(B. Portier) Correction Desbois Page 7 / 26

(B. Portier) Correction Desbois Page 8 / 26

(B. Portier) Correction Desbois Page 9 / 26

(B. Portier) Correction Desbois Page 10 / 26

(B. Portier) Correction Desbois Page 11 / 26

Projection dans le 1er plan factoriel

(B. Portier) Correction Desbois Page 12 / 26

Prior probabilities of groups:

Coefficients of linear discriminants:

On constate que le modèle se généralise bien et que le modèle a plus de

(B. Portier) Correction Desbois Page 15 / 26

On constate que le modèle se généralise bien et que le modèle a plus de

(B. Portier) Correction Desbois Page 17 / 26

McNemar’s Chi-squared test with continuity correction

data: table((y.app == y.lda), (y.app == y.qda))

McNemar’s Chi-squared test with continuity correction

data: table((y.test == yt.lda), (y.test == yt.qda))

mod.glm.c = glm(DIFF ~. , family = binomial, data=dataApp)

(B. Portier) Correction Desbois Page 19 / 26

On constate que 18 variables explicatives sont jugées non significatives à

Taux bons Class. Sensibilité Spécificité

(B. Portier) Correction Desbois Page 21 / 26

La méthode pas à pas descendante conduit à éliminer les variables :

et à ne garder que 9 variables explicatives.

(B. Portier) Correction Desbois Page 22 / 26

Null deviance: 1308.09 on 944 degrees of freedom

Le modèle réduit conduit aux scores suivants :

Taux bons Class. Sensibilité Spécificité

On observe le même phénomène que pour le mdoèle complet : de bonnes

(B. Portier) Correction Desbois Page 24 / 26

(B. Portier) Correction Desbois Page 25 / 26

au vu des résultats, et si ’lon sohaite un modèle ”équilibré’, on préconisera

(B. Portier) Correction Desbois Page 26 / 26

Vous aimerez peut-être aussi