Cours D'add 2024
Cours D'add 2024
SOMMAIRE
INTRODUCTION ....................................................................................................................................... 2
1. Analyse Composantes Principales (ACP) ......................................................................................... 3
1.1. Configuration des données de l’ACP ....................................................................................... 3
1.2. Conduite du l’ACP .................................................................................................................... 3
1.3. Interprétation des résultats d’une ACP ................................................................................... 7
2. Analyse Factorielle des Correspondances (AFC) ........................................................................... 11
2.1. Tableau de contingence, données et notation...................................................................... 11
2.2. Présentation de l’AFC ............................................................................................................ 12
2.3. Interprétation des résultats de l’AFC ........................................................................................ 14
2.4. Généralisation de l’AFC : Analyse des Correspondances Multiples .......................................... 16
2.4.1. Données, notations et définitions ........................................................................................... 16
2.4.2. Description de l’ACM ......................................................................................................... 18
4. Méthodes de classification ............................................................................................................ 20
3.1. La classification hiérarchique ..................................................................................................... 20
3.2. La classification non hiérarchique .............................................................................................. 20
3.3. Méthode mixte ........................................................................................................................... 21
1
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
INTRODUCTION
L’analyse de données regroupe un ensemble de méthodes statistiques qui cherchent à analyser les
données en tenant compte de leur caractère multidimensionnel. Ces méthodes tentent de synthétiser
les informations contenues dans de vastes ensembles de valeurs numériques, sous forme graphique,
de tableau ou par construction d’indicateurs.
En se fondant sur des analyses univariées, elle va bien au-delà des analyses bivariées qui ignorent d’une
part les liaisons multiples qui peuvent exister entre les variables et d’autre part les ressemblances
entre individus au regard de plus de deux variables.
1. Méthodes factorielles
- 1. L’Analyse des Composantes Principales ;
- 2. L’Analyse des Correspondance
2. Méthodes de classification
- Classification Hiérarchique
- Classification non Hiérarchique
2
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
- Etablir un bilan des ressemblances entre les individus afin d’une part de repérer et caractériser
les groupes d’individus homogènes et identifier les individus atypiques dont le comportement
est différents de l’ensemble des autres individus.
- dégager la corrélation entre les variables.
𝑋 𝑋 ….. 𝑋 …… 𝑋
2
…
𝑖
...
Parmi les variables, il y a celles qui sont dites actives et celles qualifiées d’illustratives. En général, avant
de procéder à l’analyse des données, il convient de définir un thème précis et de choisir un groupe de
variables qui décrit ce thème. Ces variables choisies constituent les variables actives et ce sont elles
qui participent aux calculs qu’implique l’ACP. Les autres variables qui ne sont pas choisies et qui donc
n’entrent pas dans les calculs de l’ACP sont dites illustratives ou supplémentaires. Ces dernières
peuvent être quantitatives ou qualitatives.
3
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
C’est pour cela, dans la pratique, il est préférable de travailler sur des données affranchies des unités
de mesure. En centrant et en réduisant les variables on obtient des données centrées réduites qui sont
donc maintenant affranchies des unités de mesure et variant entre -1 et 1.
𝑋 −𝑋
𝑋∗ =
𝜎 /√𝑛
On obtient, après centrage et réduction des variables, un nuage de points qui possède les propriétés
suivantes :
On réalise la plus part des ACP sur un tableau des données centrées réduites. Une ACP réalisée sur
des données centrées réduites est dite normée.
𝑑 (𝑀 , 𝑀 ) = ‖𝑀 − 𝑀 ‖ = 𝑋 −𝑋
Au nuage de point-individu, on associe un point moyen dont les coordonnées sont les moyennes des
𝑝 variables. On peut le noter 𝑀 𝑥̅ , . . , 𝑥̅ , … , 𝑥̅
1
𝐼 = 𝑑 (𝑀 , 𝑀)
𝑛
1
𝐼 = 𝑋 −𝑋
𝑛
4
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
𝐼 mesure la dispersion ou l’étalement des points autour du point moyen. On peut aussi définir
l’inertie d’un nuage par rapport à une droite ou à un plan. Dans ce cas, il s’agit de l’inertie du nuage
projeté sur la droite ou sur le plan et il s’interprète comme étalement du nuage le long de la droite ou
du plan.
Soit ∆ la meilleure droite de projection caractérisée par son vecteur directeur 𝑢 . Un individu 𝑀
projeté sur l’axe ∆ a pour coordonnées P (𝑖). L’ensemble des projections des 𝑛 individus sur ∆ est
donné par :
𝑃 (1)
𝑃 = 𝑃…(2)
𝑃 (𝑛)
Δ est l’axe qui dans cette direction rend maximal l’étalement, c’est-à-dire l’axe maximise
globalement les distances entre l’origine O et les points 𝑃 (𝑖) projetés respectifs des points-individus
𝑀 sur l’axe Δ . Lorsque l’on projette les points-individus 𝑀 sur cet axe, on conserve au mieux
globalement les distancse réelles dans l’espace entre ces points.
L’étalement du nuage projeté sur Δ ou encore la dispersion globale des points du nuage sur l’axe Δ
est donné par :
𝐼 = 𝑃 (𝑖)
5
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
Finalement le problème de l’ACP revient à trouver le vecteur 𝑢 qui maximise l’étalement. Le meilleur
axe de projection Δ est engendré par le vecteur propre 𝑢 associé à la plus grande valeur propre de la
matrice 𝑋 𝑋.
𝑋 𝑋𝑢 = 𝜆 𝑢
D’une manière générale, le meilleur sous espace de dimension 𝑘 est celui engendré par les 𝑘 vecteurs
propres relatifs aux 𝑘 plus grandes valeurs propres de la matrice 𝑋 𝑋 et l’inertie du nuage projeté
sur le sous espace de dimension 𝑘 est égale à la somme des 𝑘 valeurs propres.
𝐼 = 𝜆
Les vecteurs propres donnant les directions d’inertie maximale sont appelés les axes principaux
d’inertie. Les projections des individus sur ces axes constituent les composantes principales. Ces sont
de nouvelles variables qui s’obtiennent par combinaison linéaire des variables actives.
1 1
𝑋 = 𝑋 𝜎 = 𝑋 −𝑋
𝑛 𝑛
L’ajustement du nuage des variables se fait de la même façon que celui du nuage des individus. On
construit des axes orthogonaux deux à deux qui représentent le mieux possible le nuage de point.
Ensuite, on utilise ces axes pour construire des représentations planes optimales. A ces nouveaux axes
factoriels sont associées à de nouvelles variables appelées composantes principales. Ces nouvelles
variables sont synthétiques et non corrélées linéairement deux à deux. Elles constituent les meilleurs
résumés des variables d’origine 𝑋 .
La coordonnée d’un point-variable 𝑋 sur l’axe de rang 𝑘 est égale au coefficient de corrélation linéaire
entre la variable d’origine 𝑋 et la composante principale associée à l’axe 𝑘. Ainsi, on peut interpréter
les composantes principales en étudiant leur corrélation avec les variables d’origine 𝑋 .
Par ailleurs, comme on l’a fait pour le nuage de points-individus, on considère des représentations
planes du nuage des points-variable. Ces représentations en forme de coupe hypersphère sont
appelées cercle de corrélation. En d’autres termes, un cercle de corrélation un plan de projection du
nuage des points-variables défini par deux axes factoriels.
- L’inertie totales des deux nuages est identique et égale au nombre de 𝑝 variables ;
- Les deux décompositions de l’inertie totale sont également identiques, c’est-à-dire que
l’inertie projetée sur l’axe factoriel de rang 𝛼 est la même sur les deux représentations.
6
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
- Les composantes principales 𝐶 obtenues en projetant les points-variables sur chacun des axes
définis dans l’espace des individus se confondent à la norme près, avec les variables 𝑉
obtenues dans la projection des points-individus du nuage dans l’espace associé aux variables
- On montre ainsi des relations de transition entre les projections des points-individus et les
projections des points-variables sur les axes factoriels de même ordre 𝛼 :
⎧ 1
⎪𝜓 =
𝜆
𝑥 𝜑
⎨ 1
⎪𝜑 = 𝑥 𝜓
⎩ 𝜆
Avec 𝜓 et 𝜑 étant les vecteurs de projection respectivement des individus sur l’axe factoriel
d’ordre 𝛼 et des variables sur l’axe factoriel d’ordre 𝛼.
Selon la règle de la part d’inertie, on examinera les axes jusqu’à ce que l’on atteigne un cumul
d’informations jugé satisfaisant. Néanmoins, il faut tenir compte de la forme dégressive des valeurs
propres. Par exemple une part d’information de 90% peut s’obtenir de trois façons :
Selon le critère de Kaiser, l’on retient les axes associés à des valeurs propres supérieures ou égales à
1. Ces axes sont plus informatifs.
Enfin selon la règle du coude, on cherche à identifier les axes les plus riches en informations. Les valeurs
propres formant une suite décroissante, cette règle cherche à détecter sur un diagramme appelé
Histogramme des valeurs propres l’existence d’un coude correspondant à une chute brutale des
valeurs propres.
L’interprétation du nuage des individus se fait en termes de proximité. On cherche à savoir qui
ressemble à qui et de quel point de vue. On cherche également à repérer une structuration des
individus en groupe homogènes.
7
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
Toutefois, il convient d’être prudent dans l’interprétation des positionnements des variables et des
individus. En effet, les graphiques étant des projections, des proximités apparentes peuvent ne
correspondre à aucune proximité réelle dans l’espace. Pour démasquer ces fausses proximités et faire
l’interprétation avec plus de rigueur, on utilise des éléments appelés aides à l’interprétation dont les
plus importants sont le cosinus carré et la contribution.
𝜃 Δ
O
𝑃 (𝑖)
- Si le 𝐶𝑜𝑠 = 1 le point se situe exactement sur l’axe de projection et ce cas est révélateur
d’une bonne représentation. Dans ce cas l’angle 𝜃 formé par 𝑂𝑀 et 𝑂𝑃 (𝑖) est proche de 0
ou de 180°
- Si le 𝐶𝑜𝑠 = 0 on a le cas d’une mauvaise représentation. l’angle 𝜃 formé par 𝑂𝑀 et 𝑂𝑃 (𝑖)
est proche de 90° ou de 270°.
Le 𝐶𝑜𝑠 d’une variable indique le pourcentage (%) de l’information apporté par cette variable qui est
expliquée par l’axe factoriel. Le 𝐶𝑜𝑠 d’un individu mesure la part de l’originalité de l’individu expliqué
par l’axe factoriel.
Le 𝐶𝑜𝑠 d’un point 𝑀 par rapport à un plan s’obtient en additionnant les 𝐶𝑜𝑠 relatifs aux deux axes
définissant le plan. Si dans un plan, deux points sont proches et que leur 𝐶𝑜𝑠 est élevé (supérieur à
0,60) alors ces deux points sont proches dans la réalité. Mais si l’un au moins des deux points a un
𝐶𝑜𝑠 faible alors la proximité graphique n’est pas réelle. Néanmoins, deux points proches dans tous
les plans se ressemblent à tout point de vue, même si leurs 𝐶𝑜𝑠 sont faibles dans tous les plans de
projection.
Cas particulier du nuage des variables : le fait que les variables soient centrées et réduites apporte des
simplifications dans l’interprétation des nuages de variables. En effet le 𝐶𝑜𝑠 ‘une variable coïncide
8
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
avec la coordonnée de cette variable sur l’axe factoriel considéré. De manière générale, on dira que
les 𝐶𝑜𝑠 des variables coïncident avec les coordonnées factorielles. Ainsi les variables bien
représentées par un axe sont celles dont les coordonnées factorielles sont proches de 1. De même une
variable sera d’autant bien représentée par un plan qu’elle est proche du bord du cercle de corrélation.
Par ailleurs, le 𝐶𝑜𝑠 d’une variable par rapport à un axe mesure la corrélation entre la variable et la
composante principale correspondant à l’axe.
Ainsi deux variables bien représentées formant un angle (petit soit-il) sont positivement corrélées ;
elles évoluent donc dans le même sens. Deux variables bien représentées et formant un angle plat
sont négativement corrélées ; ces deux variables évoluent en sens opposé. Deux variables formant
un angle presque droit sont indépendantes ; il n’existe aucune corrélation entre les deux variables.
1.3.2.2. La contribution
Un axe factoriel restitue une partie de l’information initiale contenue dans les données. Cette part de
l’information est mesurée par la valeur propre associée à l’axe. Celle-ci peut être décomposée point
par point afin d’évaluer la part de chaque point dans la formation de l’axe. On définit ainsi la
contribution (CTR) d’un élément actif comme étant sa part dans la formation des axes.
𝐼 = 𝑃 (𝑖) = 𝜆
On définit la contribution de l’individu 𝑖 par la part de l’inertie du nuage le long de l’axe Δ imputable
à l’individu 𝑖. Ce qui est donné par :
𝑃 (𝑖)
𝐶𝑇𝑅 (𝑖) =
𝜆
Les points les plus contributifs à l’inertie d’un axe sont les points qui permettent d’expliquer le
positionnement de l’axe. Les CTR permettent d’identifier les points très influents et éventuellement
aberrants pouvant à eux seuls déterminer l’orientation des axes. Il est indiqué d’identifier rapidement
ces points, de les interpréter puis de procéder à une seconde analyse (ACP) en mettant ces individus
en supplémentaires (illustratifs) de façon à permettre aux axes de mieux différencier les autres points.
9
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
10
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
𝑦 … 𝑦 … 𝑦 Total
𝑥 𝑛 … 𝑛 … 𝑛 𝑛 .
…
𝑥 𝑛 … … 𝑛 𝑛.
…
𝑥 𝑛 … 𝑛 … 𝑛 𝑛 .
Total 𝑛. 𝑛. 𝑛. 𝑛
NB : les fréquences relatives 𝑓 peuvent être calculées en lieu et place des effectifs 𝑛 . On 𝑓 = .
𝑛. = 𝑛 =𝑛 + 𝑛 +. . +𝑛 + ⋯ + 𝑛 +𝑛 (𝑆𝑜𝑚𝑚𝑒𝑠 𝑒𝑛 𝑐𝑜𝑙𝑜𝑛𝑛𝑒)
11
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
𝑛= 𝑛 = 𝑛.= 𝑛.
CSP (Y)
Cadre (𝑦 ) Maîtrise (𝑦 ) Ouvrier (𝑦 ) Total
Sexes (X)
Masculin (𝑥 ) 20 25 35 𝑦 . = 80
Féminin (𝑥 ) 5 20 15 𝑦 . = 40
Total 𝑛. = 25 𝑛. = 45 𝑛. = 50 𝑛 = 120
Pour cette raison, il est préférable de s’intéresser aux profils. On distingue deux profils :
Profil-ligne profil-colonne
12
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
Le centre de gravité de ce nuage est la moyenne des profils-lignes affectés de leurs poids et correspond
au profil moyen. Ces coordonnées sont égales aux fréquences marginales des colonnes 𝑓. .
Le centre de gravité de ce nuage est la moyenne des profils-colonnes affectés de leurs poids et
correspond au profil moyen. Ces coordonnées sont égales aux fréquences marginales des lignes 𝑓. .
1 1 𝑓 𝑓
𝑑 (𝑖, 𝑖 ) = 𝑓 −𝑓 = −
𝑓. 𝑓. 𝑓 . 𝑓 .
1 1 𝑓 𝑓
𝑑 (𝑗, 𝑗 ) = 𝑓 −𝑓 = −
𝑓. 𝑓 . 𝑓. 𝑓.
L’inertie totale 𝐼 du nuage de points par rapport au centre de gravité est donnée par :
𝑓 − 𝑓 . 𝑓. 𝜒 (𝑋, 𝑌)
𝐼= 𝑓 . 𝑑 (𝑖, 𝐺) = 𝑓. 𝑑 (𝑗, 𝐺) = =
𝑓 . 𝑓. 𝑛
L’AFC décompose la liaison entre les deux variables suivant les axes factoriels. L’inertie d’un axe
mesurera l’importance de la part de liaison qu’il représente. Les deux variables seront indépendantes
si les profils de leurs modalités sont identiques aux profils moyens. L’inertie totale est faible et il
n’existe pas de directions privilégiées. Graphiquement cela signifie que tous les points sont regroupés
autour du point moyen suivant une forme sphérique.
13
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
- Dans l’espace 𝑅
𝑓
𝜓 (𝑖) = − 𝑓. 𝑢
𝑓 . 𝑓.
- Dans l’espace 𝑅
𝑓
𝜑 (𝑗) = − 𝑓. 𝑣
𝑓. 𝑓.
Cette propriété garantit une certaine invariance des résultats quelle que soit la nomenclature choisie
pour la construction des modalités d’une variable, sous condition de regrouper des modalités aux
profils identiques. En d’autres termes, on ne perd pas d’information en agrégeant certaines classes et
l’on n’en gagne pas en subdivisant des classes homogènes.
𝑓 . 𝜓 (𝑖)
𝐶𝑇𝑅 (𝑖) =
𝜆
Ce quotient permet de savoir dans quelle proportion un point 𝑖 contribue à l’inertie 𝜆 du nuage
projeté sur l’axe 𝛼.
14
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
𝑓. 𝜑 (𝑗)
𝐶𝑇𝑅 (𝑗) =
𝜆
La contribution d’un point dépend à la fois de sa coordonnée sur l’axe et de son poids. Ainsi un point
peut avoir une forte coordonnée sur l’axe sans pour autant contribuer fortement à son
positionnement. Par ailleurs un point peut avoir une faible coordonnée et avoir une contribution forte.
En sommes, l’examen des graphiques factoriels qui ne renseigne que sur des coordonnées n’est plus
suffisant pour repérer les points qui jouent le plus dans la formation des axes factoriels. il devient alors
important de bien examiner les contributions des points, leur poids et leurs coordonnées afin de faire
la part de l’effet poids et l’effet éloignement (originalité) dans la contribution.
Pour trouver une éventuelle signification à un axe, on s’intéresse d’abord aux points ayant une forte
contribution. Ce sont eux qui fixent la position de l’axe de dans 𝑅 pour les points 𝑖, et dans 𝑅 pour
le point 𝑗.
𝑑 (𝑖) 𝜓 (𝑖)
𝐶𝑜𝑠 (𝑖) = =
𝑑 (𝑖, 𝐺) 𝑑 (𝑖, 𝐺)
Cette quantité, appelée cosinus carré, représente la part de la distance au centre prise en compte dans
la direction 𝛼. On appelle aussi la contribution relative du facteur à la position du point 𝑖.
Plus le cosinus carré est proche de 1, plus la position du point observé en projection est proche de la
position réelle du point dans l’espace. Si le cosinus carré est proche de 0, on a alors une mauvaise
représentation de 𝑖 sur l’axe 𝛼.
Par analogie, on définit la contribution relative du facteur 𝛼 à la position du point 𝑗 par le cosinus carré
de 𝑗 :
𝑑 (𝑗) 𝜑 (𝑗)
𝐶𝑜𝑠 (𝑗) = =
𝑑 (𝑗, 𝐺) 𝑑 (𝑗, 𝐺)
Pour analyser les proximités entre points, on s’intéresse surtout aux points ayant un cosinus carré
élevé. Les proximités entre ces points, observés dans le sous espace factoriel, donnent une bonne
image de leurs proximités réelles.
1 1
⎧𝑢 = 𝑋𝑣 ⎧𝜓 (𝑖) = 𝑓 𝜑 (𝑗)
⎪ 𝜆 ⎪ 𝜆
⎨𝑣 = 1 ⎨𝜑 (𝑗) = 1
⎪ 𝑋𝑢 ⎪ 𝑓 𝜓 (𝑖)
⎩ 𝜆 ⎩ 𝜆
15
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
- En projection sur l’axe 𝛼, une modalité de la ligne 𝑖 est placée au coefficient près au
barycentre de toutes les modalités colonne.
- En projection sur l’axe 𝛼, une modalité de la colonne 𝑗 est placée au coefficient près au
barycentre de toutes les modalités lignes.
Remarque : toutes ces relations permettent d’établir que toutes les valeurs propres sont inférieures à
L’intérêt de cette approche est qu’elle permet de mettre en évidence les proximités entre les profils
lignes et les profils colonnes, par conséquent elle permet d’apprécier les liaisons entre les variables.
Dans les plans factoriels, les points éloignés de l’origine retiennent particulièrement l’attention car ce
sont les profils les plus différents du profil moyen. De plus, on trouvera pour un même axe factoriel de
même côté qu’une modalité 𝑖 les modalités 𝑗 auxquelles elle s’associe le plus et à l’opposé celles
auxquelles elle s’associe le moins.
Toutefois, l’interprétation des positionnements mutuels doit se faire avec une certaine précaution. En
effet, une modalité 𝑖 de 𝑋 attire d’autant plus une modalité 𝑗 de 𝑌 que la part de 𝑖 dans la colonne 𝑗
est élevé. Mais ce n’est pas parce que 𝑗 est proche 𝑖 que c’est nécessairement 𝑖 qui l’active, sa position
pouvant en effet être le résultat d’attractions diverses.
16
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
Un tel tableau ( 𝑠 = 3; 𝑛 = 7) n’est pas exploitable. En effet, les sommes en ligne et en colonne n’ont
pas de sens. D’où la transformation de celui-ci à partir d’un recodage de type binaire des variables.
𝑝= 𝑝
Le sous 𝑍 , à 𝑛 lignes et 𝑝 colonnes, est tel que sa 𝑖 è ligne contient 𝑝 − 1 fois la valeur 0 et une
fois la valeur 1 dans la colonne correspondant à la modalité de la question 𝑞 choisie par le sujet 𝑖.
Autrement dit le tableau 𝑍 décrit la partition des à 𝑛 individus induite par les réponses à la question
𝑞.
Le tableau 𝑍 = 𝑍 , 𝑍 , … , 𝑍 , … , 𝑍 est appelé tableau disjonctif complet. Il est construit de telle sorte
que pour tout individu 𝑖𝜖𝐼 et pour toute question 𝑞𝜖𝑄 on pose 𝑘 (𝑞) = 1 si l’individu i a choisi la
modalité j de la question q et 𝑘 (𝑞) = 0 sinon.
17
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
𝐵=𝑍𝑍
𝐵 est appelé tableau de contingence de Burt associé au tableau disjonctif complet 𝑍.
1 𝑓 𝑓 1
𝑑 (𝑖, 𝑖 ) = − = 𝑘 −𝑘
𝑓. 𝑓 . 𝑓 . 𝑛. 𝑝
1 𝑓 𝑓 𝑘 𝑘
𝑑 (𝑗, 𝑗 ) = − = 𝑛 −
𝑓 . 𝑓. 𝑓. 𝑘. 𝑘.
Deux modalités possédées par le même individu sont confondues. Les modalités rares ont tendance à
être éloignées des autres modalités. On interprétera la proximité entre deux modalités d’une même
question comme une similitude.
Comme en AFC, on définit le centre de gravité du nuage des modalités. Celui-ci se confond avec le
profil marginal colonne dont la ième coordonnée vaut 𝑓 . = . La distance d’une modalité j au centre
de gravité est donnée par :
1 𝑓 1
𝑑 𝑗, 𝑔 = −
𝑓 . 𝑓. 𝑛
L’inertie du nuage des modalités par rapport au centre de gravité est donnée par :
1 𝐽
𝐼 = 𝑑 𝑗, 𝑔 = −1
𝑓. 𝑝
18
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
Contrairement à l’AFC, l’inertie du nuage des modalités 𝐼 n’a pas de signification statistique en ce sens
qu’elle n’est pas liée à la nature des données. Elle dépend également du nombre de questions et du
nombre de modalités.
Au coefficient près, l’individu i se trouve au point moyen du nuage des modalités qu’il a choisies.
Avant la dilatation sur l’axe 𝛼, la modalité j se trouve au point moyen du nuage des individus qui l’ont
choisie comme réponse.
Remarque : les axes associés à des valeurs propres nulles n’apportent aucune information particulière.
𝑓. 𝜓 (𝑗)
𝐶𝑇𝑅(𝑗) =
𝐼
La contribution d’une modalité est d’autant plus grande que sa fréquence d’apparition est faible. Cela
induit sur le plan pratique que les modalités à faibles fréquences risquent d’avoir trop d’importance
dans la formation des axes factoriels. En conséquence, on évitera au moment du codage des modalités
à faible effectif.
Pour interpréter un axe factoriel, cela se fait à l’aide des contributions des modalités et des variables.
La contribution d’une variable à la formation d’un axe se détermine en faisant la somme des
contributions des modalités de cette variable sur cet axe.
Une forte contribution relative à une modalité indique que la suppression de celle-ci modifie l’axe de
façon importante. L’interprétation de l’axe, c’est-à-dire la propriété générale qu’il met en évidence,
est très liée aux modalités à forte contribution.
19
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
3. Méthodes de classification
Bien souvent les individus d’une population faisant l’objet d’une étude sont très différents les uns des
autres. Il peut s’agit des abonnés d’une compagnie de téléphonie, des clients d’une banque, des
souscripteurs à un produit, des paysans d’une région, les villes d’un pays, l’ensemble ou groupes de
pays etc. toutefois au regard de certains critères, il est possible regrouper les individus en groupes
homogènes. Ces regroupement peuvent se faire selon plusieurs méthodes : les méthodes
hiérarchiques, les méthodes non hiérarchiques, les méthodes mixtes.
A l’inverse, les méthodes hiérarchiques descendantes partent du groupe complet et créent des
divisions successives de plus en plus fines.
20
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
21
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données
INTRODUCTION ....................................................................................................................................... 2
1. Analyse Composantes Principales (ACP) ......................................................................................... 3
1.1. Configuration des données de l’ACP ....................................................................................... 3
1.2. Conduite du l’ACP .................................................................................................................... 3
1.2.1. Les étapes préliminaires .................................................................................................. 3
1.2.2. Représentation du nuage des points-individus ............................................................... 4
1.2.3. Représentation du nuage des points-variables ............................................................... 6
1.2.4. Relation de transition entre les deux représentations.................................................... 6
1.3. Interprétation des résultats d’une ACP ................................................................................... 7
1.3.1. Choix du nombre d’axes à interpréter ............................................................................ 7
1.3.2. Eléments d’aide à l’interprétation................................................................................... 7
2. Analyse Factorielle des Correspondances (AFC) ........................................................................... 11
2.1. Tableau de contingence, données et notation...................................................................... 11
2.2. Présentation de l’AFC ............................................................................................................ 12
2.2.1. Profil-ligne et profil-colonne ............................................................................................... 12
2.2.2. Caractérisation des nuages de profil ............................................................................. 13
2.3. Interprétation des résultats de l’AFC ........................................................................................ 14
2.3.1. Usage des aides à interprétation......................................................................................... 14
2.4. Généralisation de l’AFC : Analyse des Correspondances Multiples .......................................... 16
2.4.1. Données, notations et définitions ........................................................................................... 16
2.4.1.1. Tableau disjonctif complet ............................................................................................... 17
2.4.1.2. Tableau de Burt ................................................................................................................ 18
2.4.2. Description de l’ACM ......................................................................................................... 18
2.4.2.1. Nuage des profils lignes............................................................................................. 18
2.4.2.2. Nuage des profils colonnes ....................................................................................... 18
2.4.2.3. Relation quasi-barycentrique ........................................................................................... 19
2.4.2.4. Interprétation d’une ACM ................................................................................................ 19
4. Méthodes de classification ............................................................................................................ 20
3.1. La classification hiérarchique ..................................................................................................... 20
3.1.1. Principe ................................................................................................................................ 20
3.1.2. Algorithme de la classification............................................................................................. 20
3.2. La classification non hiérarchique .............................................................................................. 20
3.2.1. Algorithme de la méthode d’agrégation autour des centres mobiles ................................ 21
3.2.2. Algorithme de la méthode des nuées dynamiques ............................................................. 21
3.3. Méthode mixte ........................................................................................................................... 21
22
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr