Corrigé DEVOIR ECRIT ANALYSE DE DONNEES - juin 2014
Exercice 1 : Démonstration de cours 3 points
1. Rappeler l’expression de l’inertie totale R dans l’AFC du tableau disjonctif complet.
2. Démontrer cette formule.
Exercice n°2 : 3 points
1. Quel type d’analyse peut-on réaliser sur ces données ? Pourquoi ?
Données quantitatives de même importance donc ACP. 0,75 pt
2. Quelle problématique peut-on envisager ?
Etude des caractéristiques économiques et sociales dans l’UE 0,25 pt
3. Lors de l’analyse, on met en évidence un axe factoriel dont la contribution à l’inertie totale est d’environ
90%.
a. Etait-ce prévisible ? Pourquoi ?
Oui car toutes les variables sont corrélées à la « taille » du pays 0,5 pt
b. Quel est cet axe ?
L’axe de l’importance ou de la taille du pays 0,25 pt
c. Quel problème soulève ce phénomène ?
On ne peut rien tirer comme interprétation et analyse de ces données 0,25 pt
d. Comment y remédier ?
En relativisant certaines variables : PIB/hab ; % de – de 20 ans, % de + de60 ans ; % de
chômeurs ; dépenses par hab ; % de pauvres. 1 pt
Exercice n°3 : 4,5 points
1. Quel est le type d’analyse de données que l’on peut effectuer sur ce type de données ?
ACM car plusieurs variables non quantitatives 0,5 pt
2. Déterminer le tableau disjonctif complet associé à ce tableau de données. Attention, le tableau fourni n’a pas
forcément la bonne dimension ! 1 pt
continent religion peine de mort
asie afrique europe am am islam boud christ oui non
sud nord
Arabie 1 0 0 0 0 1 0 0 1 0
saoudite
Brésil 0 0 0 1 0 0 0 1 0 1
Chine 1 0 0 0 0 0 1 0 1 0
France 0 0 1 0 0 0 0 1 0 1
Égypte 0 1 0 0 0 1 0 0 1 0
Canada 0 0 0 0 1 0 0 1 0 1
Sénégal 0 1 0 0 0 1 0 0 0 1
Etats-Unis 0 0 0 0 1 0 0 1 1 0
Russie 0 0 1 0 0 0 0 1 1 0
Colombie 0 0 0 1 0 0 0 1 1 0
Japon 1 0 0 0 0 0 1 0 0 1
Iran 1 0 0 0 0 1 0 0 1 0
3. Quel est l’inertie totale de ces données ?
4. Construire le tableau de BURT associé à ces données. 1 pt
asie afrique europe am am islam boud christ oui non
sud nord
asie 4 0 0 0 0 2 2 0 3 1
afrique 2 0 0 0 2 0 0 1 1
europe 2 0 0 0 0 2 1 1
am sud 2 0 0 0 2 1 1
am nord 2 0 0 2 1 1
islam 4 0 0 3 1
boud 2 0 1 1
christ 6 3 3
oui 7 0
non 5
5. Lorsque l’on réalise cette analyse, est-il préférable de travailler à partir du tableau disjonctif complet ou à
partir du tableau de Burt ? Argumenter.
Il est préférable de partir du tableau de BURT car :
Inertie totale plus faible en général
Concentration de l’inertie sur les plus grandes vp donc meilleure qge
Point modalité centre géométrique (isobarycentre) des individus associés.
Exercice n°4 : 12 points
On effectue une AFC sur une population de jeunes adultes, les deux variables étudiées étant la profession du père
dont les modalités sont en majuscule et la profession du jeune dont les modalités sont en minuscule. Les diverses
modalités sont :
AGRIculteur Profession Intermédiaire
Artisan, Commerçant, Chef d’Entreprise EMPloyé
Cadre et Professions Intellectuelles OUVrier
Supérieures
effectifs AGRI ACCE CPIS PI EMP OUV total
agri 258 81 108 153 84 365 1049
acce 14 246 180 168 56 167 831
cpis 3 54 266 104 42 34 503
pi 5 46 225 190 61 97 624
emp 1 49 148 215 74 180 667
ouv 19 204 228 568 251 1068 2338
total 300 680 1155 1398 568 1911 6012
fréquence AGRI ACCE CPIS PI EMP OUV total
agri 0,043 0,013 0,018 0,025 0,014 0,061 0,174
acce 0,002 0,041 0,030 0,028 0,009 0,028 0,138
cpis 0,000 0,009 0,044 0,017 0,007 0,006 0,084
pi 0,001 0,008 0,037 0,032 0,010 0,016 0,104
emp 0,000 0,008 0,025 0,036 0,012 0,030 0,111
ouv 0,003 0,034 0,038 0,094 0,042 0,178 0,389
total 0,050 0,113 0,192 0,233 0,094 0,318 1,000
1. Quelle est la problématique de l’étude ?
La profession du père a t 'elle de l’influence sur celle de l’enfant ? 0,25 pt
2. Les tableaux suivants sont les tableaux des profils : l’un est celui des PFL, l’autre celui des PFC.
a. Rappeler ce que sont les PFL et les PFC.
Les PFL sont les fréquences des modalités en colonne par rapport au total de chaque
ligne ; les PFC, le contraire 0,5 pt
b. Identifier chacun de ces tableaux en expliquant vos raisons et vous indiquerez les PFC ou
PFL moyens dans le tableau correspondant.
La somme de chaque ligne du tableau des PFL doit être égale à 1
Tableau des profils ....LIGNES.......
AGRI ACCE CPIS PI EMP OUV
agri 0,246 0,077 0,103 0,146 0,080 0,348 1,000
acce 0,017 0,296 0,217 0,202 0,067 0,201 1,000
cpis 0,006 0,107 0,529 0,207 0,083 0,068 1,000
pi 0,008 0,074 0,361 0,304 0,098 0,155 1,000
emp 0,001 0,073 0,222 0,322 0,111 0,270 1,000
ouv 0,008 0,087 0,098 0,243 0,107 0,457 1,000
0,050 0,113 0,192 0,233 0,094 0,318 1,000
Tableau des profils COLONNES
AGRI ACCE CPIS PI EMP OUV
agri 0,860 0,119 0,094 0,109 0,148 0,191 0,174
acce 0,047 0,362 0,156 0,120 0,099 0,087 0,138
cpis 0,010 0,079 0,230 0,074 0,074 0,018 0,084
pi 0,017 0,068 0,195 0,136 0,107 0,051 0,104
emp 0,003 0,072 0,128 0,154 0,130 0,094 0,111
ouv 0,063 0,300 0,197 0,406 0,442 0,559 0,389
1 1 1 1 1 1 1
3. Quelle est la signification des nombres soulignés dans les 3 tableaux précédents ? 1 pt (-0,5 par erreur)
Tableau des fréquences : la fréquence de cpis dont le père est ouvrier est de 0,006
Tableau des PFL : parmi les cpis, la fréquence de père ACCE est de 0,107
Tableau des PFC :parmi les enfants de PI, la fréquence de cpis est de 0,074.
4. Faire une analyse des PFC et des PFL. Vous pourrez utiliser les tableaux précédents et faire une synthèse.
Les sur représentations sont indiquées en jaune et les sous représentations en vert. 1pt +1 synthèse
Sur représentation de la prof du père apr rapport à la prof du jeune
Sous-représentation des agri par rapport à toutes les autres catégories, de même pour ouvriers ; sous-
représentation des cpis et acce par rapport à agri et ouv
Sur représentation des emp et pi par rapport à emp, pi et cpis
5. Va-t-on effectuer l’AFC à partir des PFL ou à partir des PFC ? Argumenter.
Il y a autant de lignes que de colonnes donc peu importe 0,25 pt
6. Quelle est le nombre de valeurs propres que l’on va obtenir ?
Le nombre de vp est égal au nombre de lignes ou de colonnes soit 6 dont la vp triviale égale à 1 0,5pt
7. On obtient alors les valeurs propres suivantes : 0,200 ; 0,119 ; 0,050 ; 0,005. Effectuer un test
d’indépendance de ces données. Que peut-on en déduire?
Inertie totale=R=0,200+0,119+0,050+0,005=0,374 0,5 pt
Effectif total = N=6012
nombre de degrés de liberté : (6-1)(6-1)=25 0,5pt
H0 : il y a indépendance entre la profession du père et celle du jeune.
donc on rejette l’hypothèse H0. Il n’y a pas d’indépendance. 0,5 pt
8. Justifier le choix des deux premiers axes.
Contribution de l’axe 1 à l’inertie totale : 0,2*100/0,374=53% ; axe 2 : 0,119*100/0,374=32% donc la
qge est égale à 85% ce qui est très satisfaisant 1 pt
9. Quelle est la différence entre « qlt » et « cr » ? A quoi servent ces paramètres ?
Qlt permet de savoir si un point est bien représenté par rapport à un axe ; cr permet de savoir si un
point explique bien un axe. 0,5 pt
10. On donne ci - après les tableaux de composantes principales des profils.
On sélectionne les profils dont la qualité cumulée est bonne (proche de 1) en rouge dans les tableaux
1pt
Composantes principales des lignes
axe 1 axe 2
coord qlt cr coord qlt cr
agri 0,861 0,862 0,649 0,343 0,137 0,173
acce -0,269 0,193 0,050 0,149 0,059 0,026
cpis -0,640 0,493 0,172 0,604 0,440 0,258
pi -0,425 0,599 0,094 0,253 0,212 0,056
emp -0,246 0,549 0,034 -0,073 0,048 0,005
ouv 0,030 0,006 0,002 -0,383 0,978 0,482
Composantes principales des colonnes
axe 1 axe 2
coord qlt cr coord qlt cr
AGRI 1,602 0,786 0,642 0,836 0,214 0,294
ACCE -0,186 0,081 0,020 0,114 0,031 0,012
CPIS -0,486 0,499 0,227 0,461 0,448 0,344
PI -0,154 0,433 0,028 -0,094 0,160 0,017
EMP -0,024 0,021 0,000 -0,121 0,538 0,012
OUV 0,228 0,296 0,083 -0,346 0,679 0,321
11. Représenter les profils intéressants sur le graphique ci-dessous. 1 pt
12. Finir l’interprétation de ces données.
D’après l’étude les ouvriers, les agriculteurs ont principalement des enfants de la même catégorie et
inversement. Les cadres ont des enfants cadres ou profession intermédiaire 1 pt