Tp2 3
Tp2 3
Tp2 3
Bruno PORTIER
2021-2022
Sain Défaillant
653 (51,83%) 607 (48,17%)
Sain Défaillant
dataApp 494 (52,28%) 451 (47,72%)
dataTest 159 (50,48%) 156 (49,52%)
3.0
2.0
R1
1.0
0.0
0.0 0.2 0.4 0.6 0.8 1.0
R2
2.0
1.0
R11
0.0
−1.0
4
3
2
R12
1
0
−1
L’étude des VIF montre des valeurs assez fortes. Il serait peut-être
préférable de retirer certaines variables.
3.0
0.8
0.5
2.0
R1
R2
R3
−0.5
0.4
1.0
−1.5
0.0
0.0
1 2 1 2 1 2
Y Y Y
1.0
4
2.0
3
0.5
R4
R5
R6
2
1.0
0.0
1
−0.5
0.0
1 2 1 2 1 2
Y Y Y
3.0
2.0
1.0
2.0
1.0
R11
R7
R8
0.0
1.0
0.0
−1.0
−1.0
0.0
1 2 1 2 1 2
Y Y Y
0.20
4
5
3
4
3
2
0.10
R12
R14
R17
2
1
1
−1 0
0.00
1 2 1 2 1 2
Y Y Y
0.30
5
1.5
4
0.20
1.0
3
R18
R19
R21
0.10
2
0.5
1
0.00
0.0
0
1 2 1 2 1 2
Y Y Y
0.7
12
0.6
0.5
8
0.4
R22
R24
R28
0.3
0.2
4
0.1
0.0
0
1 2 1 2 1 2
Y Y Y
0.5
0.6
0.4
0.0
R30
R32
0.2
−0.5
0.0
−1.0
1 2 1 2
Y Y
5
2.0
4
1.5
3
R36
R37
1.0
2
1
0.5
0
1 2 1 2
Y Y
40
Valeurs Propres
30
20
10
0
5 10 15 20
Nombre de facteurs
5
0
z2
−5
sain
défaillant
−5 0 5 10 15
z1
Group means:
R1 R2 R3 R4 R5 R6 R7 R8 R11
0 0.3792 0.6948 0.3213 0.1129 0.2659 0.682 0.4835 0.1953 0.48572 0.7
1 0.8096 0.3260 0.4239 0.3479 0.4581 1.473 0.8649 0.5931 0.02361 0.0
R22 R24 R28 R30 R32 R36 R37
0 0.3662 0.2139 0.3564 0.23207 0.3161 1.134 0.6013
1 1.0827 0.1749 0.2834 0.03151 0.1758 1.262 0.6131
# Sur Eapp
y.lda
y.app 0 1
0 455 39
1 75 376
Taux bons Class. Sensibilité Spécificité
87.94 92.11 83.37
# Sur Etest
yt.lda
y.test 0 1
0 150 9
1 28 128
Taux bons Class. Sensibilité Spécificité
88.25 94.34 82.05
# Sur Eapp
y.qda
y.app 0 1
0 467 27
1 144 307
Taux bons Class. Sensibilité Spécificité
81.90 94.53 68.07
# Sur Etest
yt.qda
y.test 0 1
0 156 3
1 50 106
Taux bons Class. Sensibilité Spécificité
83.17 98.11 67.95
Eapp Etest
LDA QDA LDA QDA
Taux bons Class. 87.94 81.90 88.25 83.17
Sensibilité 92.11 94.53 94.34 98.11
Spécificité 83.37 68.07 82.05 67.95
Il est clair que la méthode LDA est plus performante que la méthode
QDA, même si au niveau de la sensibilité la méthode QDA est un peu plus
performante.
# Sur Etest
mcnemar.test(table((y.test==yt.lda),(y.test==yt.qda)))
On modélise dans cette partie les données Desbois à l’aide d’un modèle de
régression logistique.
La construction du modèle se fait à l’aide de la fonction glm.
>
"R12" "R28" "R24" "R30" "R18" "R21" "R2" "R6" "R3" "R32" "
ON peut constater que les performances des deux modèles sont les mêmes.
Sans surprise, à des p-values supérieures à 5%. le test de Mc Nemar
conduit
On préconise donc de garder le modèle logistique réduit.
Eapp Etest
GLMc GLMr GLMc GLMr
Taux bons Class. 89.42 89.42 87.94 87.62
Sensibilité 91.30 91.90 92.45 92.45
Spécificité 87.36 86.70 83.33 82.69
Eapp Etest
LDA QDA GLMc GLMr LDA QDA GLMc GLM
Taux bons Class. 87.94 81.90 89.42 89.42 88.25 83.17 87.94 87.6
Sensibilité 92.11 94.53 91.30 91.90 94.34 98.11 92.45 92.4
Spécificité 83.37 68.07 87.36 86.70 82.05 67.95 83.33 82.6