[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
24 vues26 pages

Tp2 3

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 26

Correction des TP sur les données Desbois.

Bruno PORTIER

INSA – GM4 – Machine Learning.

2021-2022

(B. Portier) Correction Desbois Page 1 / 26


1. Introduction Générale.

On présente ici une correction partielle du TP sur les données Desbois.

(B. Portier) Correction Desbois Page 2 / 26


2. Etude descriptive des données ”Desbois”.
2.1. Etude de la variable d’intérêt DIFF.

La répartition des exploitations est légèrement déséquilibrée puisque l’on a :

Sain Défaillant
653 (51,83%) 607 (48,17%)

La construction aléatoire des échantillons d’apprentissage et de test


respecte à peu près cette répartition :

Sain Défaillant
dataApp 494 (52,28%) 451 (47,72%)
dataTest 159 (50,48%) 156 (49,52%)

(B. Portier) Correction Desbois Page 3 / 26


2.2. Statistiques descriptives des variables explicatives.
On peut constater que les plages de valeurs et les écart-types des
régresseurs ne présentent pas de grosses différences.
Min. 1st Qu. Median Mean 3rd Qu. Max. ecart.type
R1 0.12 0.34 0.53 0.58 0.78 3.49 0.33
R2 0.00 0.32 0.57 0.52 0.76 1.00 0.29
R3 -1.51 0.22 0.36 0.37 0.52 1.00 0.22
R4 -0.49 0.08 0.16 0.23 0.32 1.11 0.19
R5 0.00 0.20 0.33 0.36 0.47 2.79 0.22
R6 0.18 0.57 0.92 1.05 1.36 4.36 0.69
R7 0.00 0.33 0.56 0.66 0.88 3.12 0.47
R8 -0.93 0.14 0.28 0.38 0.55 1.85 0.34
R11 -0.91 -0.01 0.29 0.27 0.54 2.31 0.42
R12 -1.16 -0.01 0.44 0.44 0.86 3.97 0.64
R14 -0.69 0.22 0.46 0.70 1.01 5.17 0.65
R17 0.01 0.04 0.06 0.06 0.08 0.19 0.03
R18 0.00 0.03 0.06 0.07 0.10 0.30 0.06
R19 0.02 0.10 0.16 0.18 0.23 1.65 0.13
R21 0.01 0.09 0.17 0.28 0.34 5.08 0.36
R22 0.05 0.29 0.49 0.70 0.81 13.67 0.83
R24 0.01 0.14 0.19 0.20 0.24 0.75 0.09
R28 0.03 0.26 0.33 0.32 0.39 0.71 0.10
(B. Portier) Correction Desbois Page 4 / 26
2.3. Etude des corrélations.

L’étude des corrrélations montre que quelques variables sont assez


fortement corrélées. En particulier R11 et R12. Se pose alors la question de
retirer l’une des deux variables.

row column cor p


28 R11 R12 0.98 0.0e+00
97 R2 R1 -0.91 0.0e+00
10 R28 R32 0.89 0.0e+00
153 R21 R22 0.89 0.0e+00
190 R6 R7 0.88 0.0e+00
9 R30 R32 0.87 0.0e+00
43 R11 R14 -0.85 0.0e+00
44 R12 R14 -0.84 0.0e+00
139 R30 R22 -0.83 4.3e-314
213 R30 R19 -0.83 6.3e-317

(B. Portier) Correction Desbois Page 5 / 26


2.4. Vérification graphique des corrélations.
Le graphique des scatter-plots montre qu’effectivement les variables R11 et
R12 sont fortement corrélées linéairement, cette conclusion étant à
modérer pour les variables R1 et R2 lorsque R2 prend des valeurs nulles.

0.0 0.2 0.4 0.6 0.8 1.0 −1 0 1 2 3 4

3.0
2.0
R1

1.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0

R2

2.0
1.0
R11

0.0
−1.0
4
3
2

R12
1
0
−1

0.0 1.0 2.0 3.0 −1.0 0.0 1.0 2.0

(B. Portier) Correction Desbois Page 6 / 26


2.5. Etude des multi-colinéarités.

L’étude des VIF montre des valeurs assez fortes. Il serait peut-être
préférable de retirer certaines variables.

R32 R30 R6 R1 R19 R7 R12 R11 R28 R18 R4 R8


97.82 93.45 89.08 63.67 57.64 46.87 39.46 39.34 39.19 34.72 31.05 30.89
R5 R21 R22 R2 R14 R3 R36 R24 R17
30.39 17.59 16.58 8.14 6.08 5.59 5.44 4.81 4.07

On observe des VIF très élevés.

(B. Portier) Correction Desbois Page 7 / 26


2.6. Etude des distributions conditionnellles (R1–R11).
Les boxplots montrent que les distributions conditionnelles des variables
sont différentes pour l’ensemble des régresseurs à l’exception, peut-être de
R3.

3.0

0.8

0.5
2.0
R1

R2

R3

−0.5
0.4
1.0

−1.5
0.0
0.0

1 2 1 2 1 2

Y Y Y
1.0

4
2.0

3
0.5
R4

R5

R6

2
1.0
0.0

1
−0.5

0.0

1 2 1 2 1 2

Y Y Y
3.0

2.0
1.0
2.0

1.0
R11
R7

R8

0.0
1.0

0.0
−1.0

−1.0
0.0

1 2 1 2 1 2

Y Y Y

(B. Portier) Correction Desbois Page 8 / 26


2.7. Etude des distributions conditionnellles (R12–R28).
Les boxplots montrent que les distributions conditionnelles des variables
sont différentes.

0.20
4

5
3

4
3
2

0.10
R12

R14

R17
2
1

1
−1 0

0.00
1 2 1 2 1 2

Y Y Y
0.30

5
1.5

4
0.20

1.0

3
R18

R19

R21
0.10

2
0.5

1
0.00

0.0

0
1 2 1 2 1 2

Y Y Y

0.7
12

0.6

0.5
8

0.4
R22

R24

R28

0.3
0.2
4

0.1
0.0
0

1 2 1 2 1 2

Y Y Y

(B. Portier) Correction Desbois Page 9 / 26


2.8. Etude des distributions conditionnellles (R30–R37).
Les boxplots montrent que les distributions conditionnelles des variables
sont différentes pour R30 et R37 mais pas pour R36 et R37.

0.5

0.6
0.4
0.0
R30

R32

0.2
−0.5

0.0
−1.0

1 2 1 2

Y Y
5

2.0
4

1.5
3
R36

R37

1.0
2
1

0.5
0

1 2 1 2

Y Y

(B. Portier) Correction Desbois Page 10 / 26


2.9. Mise en oeuvre d’une ACP.
2.9.1. Contribution des valeurs propres.
Le graphique ci-dessous montre que les deux premières valeurs propres
contribuent à 63,45% de l’inertie du nuage de points.

40
Valeurs Propres
30
20
10
0

5 10 15 20

Nombre de facteurs

(B. Portier) Correction Desbois Page 11 / 26


2.9. Mise en oeuvre d’une ACP.
2.9.2. Projection sur le premier plan factoriel.
La projection du nuage de points sur le premier plan factoriel montre
qu’une partie des entreprises est bien séparée en fonction de son statut.

Projection dans le 1er plan factoriel

5
0
z2

−5

sain
défaillant

−5 0 5 10 15
z1

(B. Portier) Correction Desbois Page 12 / 26


3. LDA et QDA.
3.1. Introduction.
On met en oeuvre dans cette partie l’analyse discriminante linéaire et
quadratique sur le jeu de données ’Desbois”.
library(MASS)
# Préparation des données
xApp = as.matrix(dataApp[,-1])
y.app = dataApp[,1]
# Construction des modèles
mod.lda = lda(xApp, y.app)
mod.qda = qda(xApp, y.app)
# Prédiction sur Eapp
y.lda = predict(mod.lda)$class
y.qda = predict(mod.qda)$class
# Prévision sur Etest
xTest = as.matrix(dataTest[,-1])
y.test = dataTest[,1]
yt.lda = predict(mod.lda, newdata=xTest)$class
yt.qda = predict(mod.qda, newdata=xTest)$class
(B. Portier) Correction Desbois Page 13 / 26
3.2. Analyse discriminante linéaire.
3.2.1. Caractéristiques du modèle.
print(mod.lda, digits=4)

Prior probabilities of groups:


0 1
0.5228 0.4772

Group means:
R1 R2 R3 R4 R5 R6 R7 R8 R11
0 0.3792 0.6948 0.3213 0.1129 0.2659 0.682 0.4835 0.1953 0.48572 0.7
1 0.8096 0.3260 0.4239 0.3479 0.4581 1.473 0.8649 0.5931 0.02361 0.0
R22 R24 R28 R30 R32 R36 R37
0 0.3662 0.2139 0.3564 0.23207 0.3161 1.134 0.6013
1 1.0827 0.1749 0.2834 0.03151 0.1758 1.262 0.6131

Coefficients of linear discriminants:


LD1
R1 2.40393
R2 -2.20996
(B. Portier) Correction Desbois Page 14 / 26
3.2.2. Etude des performances.

# Sur Eapp
y.lda
y.app 0 1
0 455 39
1 75 376
Taux bons Class. Sensibilité Spécificité
87.94 92.11 83.37

# Sur Etest
yt.lda
y.test 0 1
0 150 9
1 28 128
Taux bons Class. Sensibilité Spécificité
88.25 94.34 82.05

On constate que le modèle se généralise bien et que le modèle a plus de


mal à prévoir les 1 c’est à dire les exploitations défaillantes.

(B. Portier) Correction Desbois Page 15 / 26


3.3. Analyse discriminante quadratique.
3.3.1. Performance de la QDA.

# Sur Eapp
y.qda
y.app 0 1
0 467 27
1 144 307
Taux bons Class. Sensibilité Spécificité
81.90 94.53 68.07
# Sur Etest
yt.qda
y.test 0 1
0 156 3
1 50 106
Taux bons Class. Sensibilité Spécificité
83.17 98.11 67.95

On constate que le modèle se généralise bien et que le modèle a plus de


mal à prévoir les 1 c’est à dire les exploitations défaillantes.
(B. Portier) Correction Desbois Page 16 / 26
3.3.2. Comparaison des performances entre LDA et QDA.

Eapp Etest
LDA QDA LDA QDA
Taux bons Class. 87.94 81.90 88.25 83.17
Sensibilité 92.11 94.53 94.34 98.11
Spécificité 83.37 68.07 82.05 67.95

Il est clair que la méthode LDA est plus performante que la méthode
QDA, même si au niveau de la sensibilité la méthode QDA est un peu plus
performante.

(B. Portier) Correction Desbois Page 17 / 26


3.3.3. Mise en oeuvre du Test de Mc Nemar.
Le test de Mc Nemar confirme la conclusion précédente, même si sur Etest
le test est moins significatif puisqu’à 1%, on ne rejette pas l’hypothèse
selon laquelle les deux méthodes sont comparables.
# Sur Eapp
mcnemar.test(table((y.app==y.lda),(y.app==y.qda)))

McNemar’s Chi-squared test with continuity correction

data: table((y.app == y.lda), (y.app == y.qda))


McNemar’s chi-squared = 24.693, df = 1, p-value = 6.723e-07

# Sur Etest
mcnemar.test(table((y.test==yt.lda),(y.test==yt.qda)))

McNemar’s Chi-squared test with continuity correction

data: table((y.test == yt.lda), (y.test == yt.qda))


McNemar’s chi-squared = 6.25, df = 1, p-value = 0.01242
(B. Portier) Correction Desbois Page 18 / 26
4. Régression logistique.
4.1. Introduction.

On modélise dans cette partie les données Desbois à l’aide d’un modèle de
régression logistique.
La construction du modèle se fait à l’aide de la fonction glm.

mod.glm.c = glm(DIFF ~. , family = binomial, data=dataApp)


summary(mod.glm.c)

(B. Portier) Correction Desbois Page 19 / 26


4.2 Etude du modèle complet.
4.2.1. Construction du modèle.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.68505 5.14935 -2.075 0.03798 *
R1 27.54215 8.89439 3.097 0.00196 **
R2 2.23316 4.28988 0.521 0.60267
R3 1.40397 2.41300 0.582 0.56068
R4 -10.42335 8.16987 -1.276 0.20202
R5 -19.69429 9.16935 -2.148 0.03173 *
R6 -1.18951 1.98879 -0.598 0.54977
R7 2.66581 2.38468 1.118 0.26361
R8 -3.79600 2.50861 -1.513 0.13023
R11 1.04082 2.53611 0.410 0.68151
R12 0.02808 1.79473 0.016 0.98752
R14 2.69786 0.93076 2.899 0.00375 **
R17 32.85101 11.69119 2.810 0.00496 **
R18 -9.37586 21.30608 -0.440 0.65990
R19 -3.12918 12.87840 -0.243 0.80802
R21 2.27401 4.68204 0.486 0.62719
R22 1.28458 2.10230 0.611 0.54118
R24 -1.09947
(B. Portier)
6.75271 -0.163
Correction Desbois
0.87066 Page 20 / 26
4.2.2. Analyse du modèle complet.

On constate que 18 variables explicatives sont jugées non significatives à


5%. Il est donc raisonnable de mettre en oeuvre une sélection de variables.
La déviance résiduelle est très largement inférieure à la déviance nulle :
l’apport des variables explicatives est donc significatif.
Les performances du modèle sont bonnes, avec une légère dégradation des
résultats au passage de Eapp à Etest.

Taux bons Class. Sensibilité Spécificité


Eapp 89.42 91.30 87.36
Etest 87.94 92.45 83.33

(B. Portier) Correction Desbois Page 21 / 26


4.3. Etude du modèle réduit.
4.3.1. Sélection de variables.

La méthode pas à pas descendante conduit à éliminer les variables :

>
"R12" "R28" "R24" "R30" "R18" "R21" "R2" "R6" "R3" "R32" "

et à ne garder que 9 variables explicatives.

(B. Portier) Correction Desbois Page 22 / 26


4.3.2. Caractéristiques du modèle réduit.
On constate que, comme attendu, la déviance résiduelle du modèle
complet est plus petite, mais l’A.I.C. est plus grand.
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -10.8981 0.9676 -11.263 < 2e-16 ***
R1 15.3566 2.8167 5.452 4.98e-08 ***
R5 -8.3714 2.8615 -2.926 0.003438 **
R8 -3.2133 1.1356 -2.830 0.004659 **
R11 1.7596 0.6266 2.808 0.004984 **
R14 2.7402 0.8285 3.307 0.000942 ***
R17 34.0087 6.0634 5.609 2.04e-08 ***
R19 -9.7223 2.7314 -3.559 0.000372 ***
R22 2.8461 0.5822 4.889 1.01e-06 ***
R36 1.6867 0.3522 4.788 1.68e-06 ***

Null deviance: 1308.09 on 944 degrees of freedom


Residual deviance: 503.87 on 935 degrees of freedom
AIC: 523.87
(B. Portier) Correction Desbois Page 23 / 26
4.3.3. Performances du modèle logistique réduit.

Le modèle réduit conduit aux scores suivants :

Taux bons Class. Sensibilité Spécificité


Eapp 89.42 91.90 86.70
Etest 87.62 92.45 82.69

On observe le même phénomène que pour le mdoèle complet : de bonnes


performances globales, une légère dégradation des scores quand on passe
de Eapp à Etest, et une plus grande difficulté à prévoir les 1.

(B. Portier) Correction Desbois Page 24 / 26


4.4. Comparaison des modèles réduit et complet.

ON peut constater que les performances des deux modèles sont les mêmes.
Sans surprise, à des p-values supérieures à 5%. le test de Mc Nemar
conduit
On préconise donc de garder le modèle logistique réduit.

Eapp Etest
GLMc GLMr GLMc GLMr
Taux bons Class. 89.42 89.42 87.94 87.62
Sensibilité 91.30 91.90 92.45 92.45
Spécificité 87.36 86.70 83.33 82.69

(B. Portier) Correction Desbois Page 25 / 26


4.5. Conclusion : comparaison des 4 modèles.

au vu des résultats, et si ’lon sohaite un modèle ”équilibré’, on préconisera


de prendre le modèle logistique réduit.

Eapp Etest
LDA QDA GLMc GLMr LDA QDA GLMc GLM
Taux bons Class. 87.94 81.90 89.42 89.42 88.25 83.17 87.94 87.6
Sensibilité 92.11 94.53 91.30 91.90 94.34 98.11 92.45 92.4
Spécificité 83.37 68.07 87.36 86.70 82.05 67.95 83.33 82.6

(B. Portier) Correction Desbois Page 26 / 26

Vous aimerez peut-être aussi