TD - Analyse de données
(Logiciel pour l’évaluation → trideux.cloud)
15/11
Analyse de données qualitative (être généralisé) ou quantitative (bc de chiffre, bcp de
données). Les deux ne sont pas antagoniste
T’es un puceau Corentin
Données Quantitatives :
(3 grands types d’analyses)
● Approche exploratoire = Tris à plat
- échantillon :
→ ALÉA “représentatif” (Aléatoire)
→ Quota (Toute la catégorisation de ce que l’on étudie)
→ Stratifié (On prends des strats par rapport à notre Pbl)
● Approche grâce à un tableau = Tris croisés
- 2 entrés (Ligne & Colonne)
● Approche par filtre = Analyse factorielle / Régulation logistique
Approche grâce à un tableau = Tris croisés
- Variables de statuts / Indépendante de la volonté des gens (âge, sexe, …) /
(Mise en ligne)
- Variable Dépendante de la volonté des gens (opinions, biens, pratiques, …) /
(mise en colonne)
Exemple 1
Tableau de référence :
Science / Bio Pédag / Didactique Sc Hum & Social Total
Licence 1 13 2 5 20
Licence 2 20 2 8 30
Licence 3 10 5 5 20
MASTER 7 1 22 30
Total 50 10 40 100
Tableau des pourcentages :
Science / Bio Pédag / Didactique Sc Hum & Social
Licence 1 65% 10% 25%
Licence 2 66% 6% 27%
Licence 3 50% 25% 25%
MASTER 23% 3% 73%
XX = Plus gros pourcentage
Question à se poser :
- Est ce qu’on peut tirer des résultats aussi fiables avec un si petit panel ? → OUI
- Les % ne sont-ils pas trompeurs → Si !
- Est ce qu’il y a une marge d’erreur → Oui
- Quels sont les résultats les plus marquants du tableau ?
- Comment repérer les résultats les plus significatifs
PARADOXE DE SIMPSON
Khi² ou X² ou Chi ²
Tableau T (Tableau de Départ) :
Science / Bio Pédag / Didactique Sc Hum & Social Total
Licence 1 13 2 5 20
Licence 2 20 2 8 30
Licence 3 10 5 5 20
MASTER 7 1 22 30
Total 50 10 40 100
Tableau T0 (Tableau d’indépendance entre les lignes et les colonnes) :
On imagine qu’il n’y a pas de différence entre les années d’études dans le choix de la discipline en
fonction de l’effectif total
Science / Bio Pédag / Didactique Sc Hum & Social Total
Licence 1 10 (0,5 x 20) 2 (0,1 x 20) 8 (0,4 x 20) 20
Licence 2 15 (0,5 x 30) 3 (0,1 x 30) 12 (0,4 x 30) 30
Licence 3 10 (0,5 x 20) 2 (0,1 x 20) 8 (0,4 x 20) 20
MASTER 15 (0,5 x 30) 3 (0,1 x 30) 12 (0,4 x 30) 30
Total (Coef 50 (=0,5) 10 (=0,1) 40 (=0,4) 100
X)
On multiplie le coef multiplicateur du total de choix par discipline par le total de personne en L1, L2,
L3 ou Master.
On souhaite avoir un T0 élevé afin que notre tableau d’indépendance présente des résultats différents
de notre vrai tableau.
Tableau R (Tableau d’écart à l’indépendance) :
Science / Bio Pédag / Didactique Sc Hum & Social
Licence 1 3 0 -3
Licence 2 5 -1 -4
Licence 3 0 3 -3
MASTER -8 -2 10
T0 + R = T
Tableau Khi² :
Khi² = R²/T0 Science / Bio Pédag / Didactique Sc Hum & Social
Licence 1 0,9 0 1,1
Licence 2 1,6 0,3 1,3
Licence 3 0 4,5 1,1
MASTER 4,2 1,3 8,3
Khi² = R²/T0 (=Tableau R au carré divisé par l’équivalent de la case dans T0)
Khi² Complet du tableau = 24,6
xx = Chiffre significatif
Pour vérifier si Khi² est significatif on prend a ligne -1 par rapport au nbr de ligne dans notre
tableau (ici on a 4 lignes donc 4 - 1 = 3 → Donc on regarde sur la 3ème ligne où notre Khi²
(24,6) se trouve
Khi² = 24,6 > 12,84 donc on est très significatifs
Plus Khi² est a droite sur la ligne plus il est significatif
Nouvel exemple :
Obtention ou non du CAPEPS mis en relation avec la satisfaction ou non des cours
Tableau T (Tableau de Départ) :
Non Satisfait Ni Oui Ni Non Satisfait TOTAL
CAPEPS - 27 13 10 50
CAPEPS + 3 2 5 10
TOTAL 30 15 15 60
Tableau des pourcentages :
Non Satisfait Ni Oui Ni Non Satisfait
CAPEPS - 54% 26% 20%
CAPEPS + 30% 20% 50%
XX = Plus gros pourcentage
Tableau T0 (Tableau d’indépendance entre les lignes et les colonnes) :
Non Satisfait Ni Oui Ni Non Satisfait TOTAL
CAPEPS - 25 12,5 12,5 50
CAPEPS + 5 2,5 2,5 10
TOTAL (Coef 30 (30/60=0,5) 15 (15/60=0,25) 15 (15/60=0,25) 60
X)
Tableau R (Tableau d’écart à l’indépendance) :
Non Satisfait Ni Oui Ni Non Satisfait
CAPEPS - 2 0,5 -2,5
CAPEPS + -2 -0,5 2,5
Tableau Khi² :
Khi² = R²/T0 Non Satisfait Ni Oui Ni Non Satisfait
CAPEPS - 0,16 0,02 0,5
CAPEPS + 0,8 0,1 2,5
Khi² = R²/T0 (=Tableau R au carré divisé par l’équivalent de la case dans T0)
Khi² Complet du tableau = 4,08 DONC P<0,05
xx = Chiffre significatif
Nouvel exemple :
Être prof d’EPS par goût pour les jeunes ou pour le sport en F° de la CS
Tableau T (Tableau de Départ) :
Enseignant Sport Autre TOTAL
CSP - 30 5 15 50
CSP = 60 25 15 100
CSP + 10 30 10 50
TOTAL 100 60 40 200
Tableau des pourcentages :
Enseignant Sport Autre
CSP - 60% 10% 30%
CSP = 60% 25% 15%
CSP + 20% 60% 20%
XX = Plus gros pourcentage
Tableau T0 (Tableau d’indépendance entre les lignes et les colonnes) :
Enseignant Sport Autre TOTAL
CSP - 25 15 10 50
CSP = 50 30 20 100
CSP + 25 15 10 50
TOTAL (Coef 100 (0,5) 60 (0,3) 40 (0,2) 200
X)
Tableau R (Tableau d’écart à l’indépendance) :
Enseignant Sport Autre
CSP - 5 -10 5
CSP = 10 -5 -5
CSP + -15 15 0
Tableau Khi² :
Enseignant Sport Autre
CSP - 1 6,67 2,5
CSP = 2 0,83 1,25
CSP + 9 15 0
Khi² = R²/T0 (=Tableau R au carré divisé par l’équivalent de la case dans T0)
Khi² Complet du tableau = 38,25 P<0,005
xx = Chiffre significatif
29/11
AFC = Analyse Factorielle des Correspondances
(Valeur du graph = exemple 1)
Sur le plan de l’AFC on parle de modalité, il y a 3 relations possible avec ces modalités :
- Angle = 90° → Quadrature
- Angle > 90° → Les modalités sont en opposition
- Angle < 90° –< Les modalités sont en conjonction
FEUILLE : ANNEXE 1
Valeurs brut de la feuille annexe 1
Tableau T (Tableau de Départ) :
CAPEPS - CAPEPS + TOTAL
CSP - 51 9 60
CSP + 17 23 40
TOTAL 68 32 100
Tableau T0 (Tableau d’indépendance entre les lignes et les colonnes) :
CAPEPS - CAPEPS + TOTAL
CSP - 40,8 19,2 60
CSP + 27,2 12,8 40
TOTAL (Coef X) 68 (0,68) 32 (0,32) 100
Tableau R (Tableau d’écart à l’indépendance) :
CAPEPS - CAPEPS +
CSP - 10,2 -10,2
CSP + -10,2 10,2
PEM → Philippe Cibois
60 0 60
8 32 40
68 32 100
Enlever la plus petite marge (explication corentin)
PEM
=
T0
+
Tableau RMAX : (=100% PEM)
19,2 -19,2
-19,2 19,2
(~la différence entre T0 est le total 60 - 40,8 + 19,2, …)
19,2(RMAX) = 100% du PEM
10,2(R) = 53,1% du PEM (Calculer avec une règle de 3 : 10,2 x 100 / 19,2)
Dnc R = 53% du PEM
→ Si PEM > 40% alors c’est significatif (corrélation significative entre les
lignes et les colonnes)
En général :
> 40% du PEM = Liaison *** (3 étoiles = très significatifs)
V de CRAMER (compris entre 0 et 1) = Ratio (Racine carré) entre le Khi² divisé par le Khi²
MAX
→ Si V de Cramer > 0,4 alors lien entre valeur en ligne et colonne