[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
55 vues23 pages

Cours D'add 2024

Transféré par

ange willy zebly
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues23 pages

Cours D'add 2024

Transféré par

ange willy zebly
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 23

Support de cours Analyse de données :

ACP, AFC, ACM et Classification

UPGC / Département Economie


KOFFI YAO JEAN EUDES
Analyse de données

SOMMAIRE
INTRODUCTION ....................................................................................................................................... 2
1. Analyse Composantes Principales (ACP) ......................................................................................... 3
1.1. Configuration des données de l’ACP ....................................................................................... 3
1.2. Conduite du l’ACP .................................................................................................................... 3
1.3. Interprétation des résultats d’une ACP ................................................................................... 7
2. Analyse Factorielle des Correspondances (AFC) ........................................................................... 11
2.1. Tableau de contingence, données et notation...................................................................... 11
2.2. Présentation de l’AFC ............................................................................................................ 12
2.3. Interprétation des résultats de l’AFC ........................................................................................ 14
2.4. Généralisation de l’AFC : Analyse des Correspondances Multiples .......................................... 16
2.4.1. Données, notations et définitions ........................................................................................... 16
2.4.2. Description de l’ACM ......................................................................................................... 18
4. Méthodes de classification ............................................................................................................ 20
3.1. La classification hiérarchique ..................................................................................................... 20
3.2. La classification non hiérarchique .............................................................................................. 20
3.3. Méthode mixte ........................................................................................................................... 21

1
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

INTRODUCTION
L’analyse de données regroupe un ensemble de méthodes statistiques qui cherchent à analyser les
données en tenant compte de leur caractère multidimensionnel. Ces méthodes tentent de synthétiser
les informations contenues dans de vastes ensembles de valeurs numériques, sous forme graphique,
de tableau ou par construction d’indicateurs.

En se fondant sur des analyses univariées, elle va bien au-delà des analyses bivariées qui ignorent d’une
part les liaisons multiples qui peuvent exister entre les variables et d’autre part les ressemblances
entre individus au regard de plus de deux variables.

Dans ce cours, deux familles de méthodes sont traitées :

1. Méthodes factorielles
- 1. L’Analyse des Composantes Principales ;
- 2. L’Analyse des Correspondance
2. Méthodes de classification
- Classification Hiérarchique
- Classification non Hiérarchique

Logiciels : SPAD, SPSS

2
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

1. Analyse en Composantes Principales (ACP)


L’ACP est une méthode d’analyse multivariée descriptive qui permet d’obtenir une représentation
synthétique, descriptive, sous forme graphique de l’information contenue dans un vaste tableau de
données quantitatives. Elle vise deux objectifs principaux :

- Etablir un bilan des ressemblances entre les individus afin d’une part de repérer et caractériser
les groupes d’individus homogènes et identifier les individus atypiques dont le comportement
est différents de l’ensemble des autres individus.
- dégager la corrélation entre les variables.

1.1. Configuration des données de l’ACP


L’ACP se déroule sur des données qui se présentent généralement sous la forme d’un tableau dont les
individus sont en ligne et les variables en colonne. Elle s’applique sur des variables quantitatives.

𝑋 𝑋 ….. 𝑋 …… 𝑋

2

𝑖
...

Parmi les variables, il y a celles qui sont dites actives et celles qualifiées d’illustratives. En général, avant
de procéder à l’analyse des données, il convient de définir un thème précis et de choisir un groupe de
variables qui décrit ce thème. Ces variables choisies constituent les variables actives et ce sont elles
qui participent aux calculs qu’implique l’ACP. Les autres variables qui ne sont pas choisies et qui donc
n’entrent pas dans les calculs de l’ACP sont dites illustratives ou supplémentaires. Ces dernières
peuvent être quantitatives ou qualitatives.

1.2. Conduite du l’ACP


Dans une étude empirique, on fait le plus souvent face à une taille beaucoup plus grande du tableaux
des données brutes (𝑖 ≥ 2, 𝑗 ≥ 2), soit X ce tableau. Pour explorer l’information contenue aussi bien
dans le nuage des individus que dans celui des variables, il faut trouver un moyen de représenter
graphiquement ces nuages ; d’où l’intérêt de l’ACP. En effet, l’ACP cherche des plans de projection
dans lesquels les nuages se projettent en restant le plus fidèle possible des nuages réels en minimisant
la perte de distance entre les points.

1.2.1. Les étapes préliminaires


1.2.1.1. Construire et analyser le tableau centré réduit
Généralement les variables considérées pour faire une ACP sont exprimées dans des unités différentes
avec des ordres des grandeurs des valeurs également très différents. Cette présentation des choix très
hétérogènes des unités de mesure des variables rend délicate la comparaison des individus car elle
influence les distances et l’ordre de proximité entre les individus et même la dispersion du nuage par
rapport au point moyen.

3
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

C’est pour cela, dans la pratique, il est préférable de travailler sur des données affranchies des unités
de mesure. En centrant et en réduisant les variables on obtient des données centrées réduites qui sont
donc maintenant affranchies des unités de mesure et variant entre -1 et 1.

𝑋 −𝑋
𝑋∗ =
𝜎 /√𝑛

On obtient, après centrage et réduction des variables, un nuage de points qui possède les propriétés
suivantes :

- Les variables sont de moyenne nulle ;


- Les point-variables appartiennent tous à la sphère unité
- L’inertie totale du nuage centré réduit est égale au nombre de de variable active.
- Le point moyen du nuage individu coïncide avec l’origine du repère.

On réalise la plus part des ACP sur un tableau des données centrées réduites. Une ACP réalisée sur
des données centrées réduites est dite normée.

1.2.1.2. Construire et analyser le tableau des corrélations


La matrice de corrélation fournit tous les coefficients de corrélation linéaire entre les variables
considérées deux à deux. Son analyse vise à se faire une première idée sur l’intérêt d’une construction
factorielle. Dans le cas où les coefficients sont faibles, l’ACP risque d’être de peu d’intérêt. Il en est de
même si les variables sont toutes fortement corrélées linéairement entre elles ; les variables mesurent
dans ce cas un même et seul phénomène. De façon générale, l’intérêt de la construction d’un tableau
de corrélation est de repérer, à ce stade préliminaire, des groupes de variables liées entre elles.

1.2.2. Représentation du nuage des points-individus


1.2.2.1. Nuage des individus
Chaque ligne de la matrice X peut être considérée comme un vecteur 𝑀 dont les coordonnées sont
les valeurs des 𝑝 variables pour l’individu 𝑖. Deux individus sont proches l’un de l’autre si leurs
𝑝 coordonnées sont proches. On mesure la proximité entre individus par la distance euclidienne :

𝑑 (𝑀 , 𝑀 ) = ‖𝑀 − 𝑀 ‖ = 𝑋 −𝑋

Au nuage de point-individu, on associe un point moyen dont les coordonnées sont les moyennes des
𝑝 variables. On peut le noter 𝑀 𝑥̅ , . . , 𝑥̅ , … , 𝑥̅

1.2.2.2. Notion d’inertie


L’inertie d’un nuage de points est la dispersion pondérée de ces points autour de leur centre de
gravité.
1
𝐼 = (𝑀 − 𝑀)
𝑛

1
𝐼 = 𝑑 (𝑀 , 𝑀)
𝑛

1
𝐼 = 𝑋 −𝑋
𝑛

4
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

𝐼 mesure la dispersion ou l’étalement des points autour du point moyen. On peut aussi définir
l’inertie d’un nuage par rapport à une droite ou à un plan. Dans ce cas, il s’agit de l’inertie du nuage
projeté sur la droite ou sur le plan et il s’interprète comme étalement du nuage le long de la droite ou
du plan.

1.2.2.3. Principe factoriel de l’ACP


Représenter le nuage des points-individus revient à caractériser le meilleur espace de projection du
nuage des individus. Un espace de projection du nuage des individus est meilleur s’il donne un
étalement maximal. Le problème revient alors à identifier les grands axes de dispersion des points qui
représentent les individus dans l’espace défini par les 𝑝 variables d’origine et qui garantissent cet
étalement maximal. Ces axes sont appelés axes factoriels, chacun étant caractérisés par sa direction
(vecteur directeur).

Soit ∆ la meilleure droite de projection caractérisée par son vecteur directeur 𝑢 . Un individu 𝑀
projeté sur l’axe ∆ a pour coordonnées P (𝑖). L’ensemble des projections des 𝑛 individus sur ∆ est
donné par :
𝑃 (1)
𝑃 = 𝑃…(2)
𝑃 (𝑛)

Δ est l’axe qui dans cette direction rend maximal l’étalement, c’est-à-dire l’axe maximise
globalement les distances entre l’origine O et les points 𝑃 (𝑖) projetés respectifs des points-individus
𝑀 sur l’axe Δ . Lorsque l’on projette les points-individus 𝑀 sur cet axe, on conserve au mieux
globalement les distancse réelles dans l’espace entre ces points.

L’étalement du nuage projeté sur Δ ou encore la dispersion globale des points du nuage sur l’axe Δ
est donné par :

𝐼 = 𝑃 (𝑖)

5
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

Finalement le problème de l’ACP revient à trouver le vecteur 𝑢 qui maximise l’étalement. Le meilleur
axe de projection Δ est engendré par le vecteur propre 𝑢 associé à la plus grande valeur propre de la
matrice 𝑋 𝑋.

𝑋 𝑋𝑢 = 𝜆 𝑢
D’une manière générale, le meilleur sous espace de dimension 𝑘 est celui engendré par les 𝑘 vecteurs
propres relatifs aux 𝑘 plus grandes valeurs propres de la matrice 𝑋 𝑋 et l’inertie du nuage projeté
sur le sous espace de dimension 𝑘 est égale à la somme des 𝑘 valeurs propres.

𝐼 = 𝜆

Les vecteurs propres donnant les directions d’inertie maximale sont appelés les axes principaux
d’inertie. Les projections des individus sur ces axes constituent les composantes principales. Ces sont
de nouvelles variables qui s’obtiennent par combinaison linéaire des variables actives.

1.2.3. Représentation du nuage des points-variables


Chaque colonne de la matrice 𝑋 peut être considérée comme un vecteur 𝑋 dont les coordonnées
sont les 𝑛 valeurs de la variable pour l’ensemble des individus. Le nuage de variables est obtenu en
représentant les vecteurs 𝑋 dans l’espace 𝑅 . Pour chaque variable on peut alors calculer la moyenne
arithmétique et l’écart type.

1 1
𝑋 = 𝑋 𝜎 = 𝑋 −𝑋
𝑛 𝑛

L’ajustement du nuage des variables se fait de la même façon que celui du nuage des individus. On
construit des axes orthogonaux deux à deux qui représentent le mieux possible le nuage de point.
Ensuite, on utilise ces axes pour construire des représentations planes optimales. A ces nouveaux axes
factoriels sont associées à de nouvelles variables appelées composantes principales. Ces nouvelles
variables sont synthétiques et non corrélées linéairement deux à deux. Elles constituent les meilleurs
résumés des variables d’origine 𝑋 .

La coordonnée d’un point-variable 𝑋 sur l’axe de rang 𝑘 est égale au coefficient de corrélation linéaire
entre la variable d’origine 𝑋 et la composante principale associée à l’axe 𝑘. Ainsi, on peut interpréter
les composantes principales en étudiant leur corrélation avec les variables d’origine 𝑋 .

Par ailleurs, comme on l’a fait pour le nuage de points-individus, on considère des représentations
planes du nuage des points-variable. Ces représentations en forme de coupe hypersphère sont
appelées cercle de corrélation. En d’autres termes, un cercle de corrélation un plan de projection du
nuage des points-variables défini par deux axes factoriels.

1.2.4. Relation de transition entre les deux représentations


Les deux nuages, points-individus et points-variables, sont deux représentations du même tableau. Par
conséquent, il existe des relations fortes, appelées relation de dualité ou encore relation de transition
entre les deux représentations géométriques :

- L’inertie totales des deux nuages est identique et égale au nombre de 𝑝 variables ;
- Les deux décompositions de l’inertie totale sont également identiques, c’est-à-dire que
l’inertie projetée sur l’axe factoriel de rang 𝛼 est la même sur les deux représentations.

6
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

- Les composantes principales 𝐶 obtenues en projetant les points-variables sur chacun des axes
définis dans l’espace des individus se confondent à la norme près, avec les variables 𝑉
obtenues dans la projection des points-individus du nuage dans l’espace associé aux variables
- On montre ainsi des relations de transition entre les projections des points-individus et les
projections des points-variables sur les axes factoriels de même ordre 𝛼 :

⎧ 1
⎪𝜓 =
𝜆
𝑥 𝜑

⎨ 1
⎪𝜑 = 𝑥 𝜓
⎩ 𝜆

Avec 𝜓 et 𝜑 étant les vecteurs de projection respectivement des individus sur l’axe factoriel
d’ordre 𝛼 et des variables sur l’axe factoriel d’ordre 𝛼.

1.3. Interprétation des résultats d’une ACP


1.3.1. Choix du nombre d’axes à interpréter
Après une ACP, la question qui se pose est celle de savoir combien d’axes factoriels faut-il interpréter.
En effet le nombre d’axes factoriels obtenus à l’issu d’une ACP est 𝑝 sauf si certaines variables sont
parfaitement corrélées entre elles. Chacun de ces axes explique une partie de l’information mesurée
par ses valeurs propres. Comme l’ACP cherche à mesurer, à synthétiser l’information à travers les
points saillants qui structurent les données alors il est claire que l’on ne cherchera pas à interpréter
tous les axes. Il faut alors se limiter à quelques axes. La question est de savoir combien d’axes retenir
dans l’analyse. Il n’existe pas de règles absolues fixant le nombre d’axes optimal à retenir, mais dans
la pratique, on peut adopter trois techniques : la part de l’inertie, le critère de Kaiser et le critère de
coude.

Selon la règle de la part d’inertie, on examinera les axes jusqu’à ce que l’on atteigne un cumul
d’informations jugé satisfaisant. Néanmoins, il faut tenir compte de la forme dégressive des valeurs
propres. Par exemple une part d’information de 90% peut s’obtenir de trois façons :

- 1ère : 46 24 20  on retient trois axes


- 2ème : 60 25 5  on retient deux axes
- 3ème : 80 8 5  on retient un axe

Selon le critère de Kaiser, l’on retient les axes associés à des valeurs propres supérieures ou égales à
1. Ces axes sont plus informatifs.

Enfin selon la règle du coude, on cherche à identifier les axes les plus riches en informations. Les valeurs
propres formant une suite décroissante, cette règle cherche à détecter sur un diagramme appelé
Histogramme des valeurs propres l’existence d’un coude correspondant à une chute brutale des
valeurs propres.

1.3.2. Eléments d’aide à l’interprétation


Interpréter c’est donner du sens aux axes, à des proximités ou regroupements entre individus ou entre
variables. Interpréter une ACP, c’est interpréter le nuage des individus et celui des variables.

L’interprétation du nuage des individus se fait en termes de proximité. On cherche à savoir qui
ressemble à qui et de quel point de vue. On cherche également à repérer une structuration des
individus en groupe homogènes.

7
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

L’interprétation du nuage des variables se fait en termes de corrélation. Il s’agit principalement


d’examiner en termes de corrélation le positionnement des variables les unes par rapport aux autres
de même que par rapport aux axes factoriel, ainsi que le sens des composantes principales
correspondant à ces axes.

Toutefois, il convient d’être prudent dans l’interprétation des positionnements des variables et des
individus. En effet, les graphiques étant des projections, des proximités apparentes peuvent ne
correspondre à aucune proximité réelle dans l’espace. Pour démasquer ces fausses proximités et faire
l’interprétation avec plus de rigueur, on utilise des éléments appelés aides à l’interprétation dont les
plus importants sont le cosinus carré et la contribution.

1.3.2.1. Le Cosinus carré (COS2)


Le COS2 d’un point sur un axe factoriel Δ mesure le cosinus carré de l’angle que fait le point avec cet
axe.
𝑀

𝜃 Δ
O
𝑃 (𝑖)

Il est donné par le rapport :


𝑃 (𝑖)
𝐶𝑜𝑠 =
𝑑 (𝑂, 𝑀 )
Il permet de mesurer la qualité de représentation d’un point par rapport à son positionnement réel
dans l’espace. Les points les mieux représentés et donc facilement interprétables sont ceux dont le
𝐶𝑜𝑠 est proche de 1.

- Si le 𝐶𝑜𝑠 = 1 le point se situe exactement sur l’axe de projection et ce cas est révélateur
d’une bonne représentation. Dans ce cas l’angle 𝜃 formé par 𝑂𝑀 et 𝑂𝑃 (𝑖) est proche de 0
ou de 180°
- Si le 𝐶𝑜𝑠 = 0 on a le cas d’une mauvaise représentation. l’angle 𝜃 formé par 𝑂𝑀 et 𝑂𝑃 (𝑖)
est proche de 90° ou de 270°.

Le 𝐶𝑜𝑠 d’une variable indique le pourcentage (%) de l’information apporté par cette variable qui est
expliquée par l’axe factoriel. Le 𝐶𝑜𝑠 d’un individu mesure la part de l’originalité de l’individu expliqué
par l’axe factoriel.

Le 𝐶𝑜𝑠 d’un point 𝑀 par rapport à un plan s’obtient en additionnant les 𝐶𝑜𝑠 relatifs aux deux axes
définissant le plan. Si dans un plan, deux points sont proches et que leur 𝐶𝑜𝑠 est élevé (supérieur à
0,60) alors ces deux points sont proches dans la réalité. Mais si l’un au moins des deux points a un
𝐶𝑜𝑠 faible alors la proximité graphique n’est pas réelle. Néanmoins, deux points proches dans tous
les plans se ressemblent à tout point de vue, même si leurs 𝐶𝑜𝑠 sont faibles dans tous les plans de
projection.

Cas particulier du nuage des variables : le fait que les variables soient centrées et réduites apporte des
simplifications dans l’interprétation des nuages de variables. En effet le 𝐶𝑜𝑠 ‘une variable coïncide

8
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

avec la coordonnée de cette variable sur l’axe factoriel considéré. De manière générale, on dira que
les 𝐶𝑜𝑠 des variables coïncident avec les coordonnées factorielles. Ainsi les variables bien
représentées par un axe sont celles dont les coordonnées factorielles sont proches de 1. De même une
variable sera d’autant bien représentée par un plan qu’elle est proche du bord du cercle de corrélation.

Par ailleurs, le 𝐶𝑜𝑠 d’une variable par rapport à un axe mesure la corrélation entre la variable et la
composante principale correspondant à l’axe.

𝐶𝑜𝑠 (𝑗) = 𝜓 (𝑗) = 𝐶𝑜𝑟𝑟 (𝑗)


Cette formule joue un rôle important dans l’interprétation des résultats graphique d’une ACP. Elle
met en relation le graphique des individus avec celui des variables. Elle indique que si une variable
possède une forte corrélation sur un axe, les individus possédant une coordonnée forte le même axe
auront des valeurs fortes pour cette variable.

Ainsi deux variables bien représentées formant un angle (petit soit-il) sont positivement corrélées ;
elles évoluent donc dans le même sens. Deux variables bien représentées et formant un angle plat
sont négativement corrélées ; ces deux variables évoluent en sens opposé. Deux variables formant
un angle presque droit sont indépendantes ; il n’existe aucune corrélation entre les deux variables.

1.3.2.2. La contribution
Un axe factoriel restitue une partie de l’information initiale contenue dans les données. Cette part de
l’information est mesurée par la valeur propre associée à l’axe. Celle-ci peut être décomposée point
par point afin d’évaluer la part de chaque point dans la formation de l’axe. On définit ainsi la
contribution (CTR) d’un élément actif comme étant sa part dans la formation des axes.

L’inertie du nuage sur l’axe Δ est donnée par :

𝐼 = 𝑃 (𝑖) = 𝜆

On définit la contribution de l’individu 𝑖 par la part de l’inertie du nuage le long de l’axe Δ imputable
à l’individu 𝑖. Ce qui est donné par :

𝑃 (𝑖)
𝐶𝑇𝑅 (𝑖) =
𝜆
Les points les plus contributifs à l’inertie d’un axe sont les points qui permettent d’expliquer le
positionnement de l’axe. Les CTR permettent d’identifier les points très influents et éventuellement
aberrants pouvant à eux seuls déterminer l’orientation des axes. Il est indiqué d’identifier rapidement
ces points, de les interpréter puis de procéder à une seconde analyse (ACP) en mettant ces individus
en supplémentaires (illustratifs) de façon à permettre aux axes de mieux différencier les autres points.

9
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

10
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

2. Analyse Factorielle des Correspondances (AFC)


L’Analyse Factorielle des Correspondances étudie les proximités entre individus décrits par deux
variables qualitatives ainsi que les proximités ou encore la liaison (dite de correspondance) entre les
modalités de ces variables. Elle a un domaine d’application différent de l’ACP. Alors que l’ACP est
réservée aux tableaux de mesures éventuellement hétérogènes et au traitement de variables
numériques continues, l’analyse des correspondances est une méthode adaptée aux tableaux de
contingence et permet d’étudier les éventuelles relations entre deux variables qualitatives.

2.1. Tableau de contingence, données et notation


Le tableau de contingence appelé aussi tableau croisé ou tableau de dépendance est obtenu en
ventilant une population selon deux variables qualitatives. L’ensemble des colonnes du tableau
représente les modalités d’une variable et l’ensemble des lignes correspond aux modalités de l’autre
variable. De ce fait, les lignes et les colonnes, qui désignent deux partitions d’une même population,
jouent des rôles symétriques et sont traités de façon analogue.

Si on considère un échantillon de 𝑛 individus décrits suivant deux caractères qualitatifs, 𝑋 et 𝑌, ayant


respectivement , 𝑝 et 𝑞 modalités, le tableau de contingence se présente comme suit :

𝑦 … 𝑦 … 𝑦 Total

𝑥 𝑛 … 𝑛 … 𝑛 𝑛 .

𝑥 𝑛 … … 𝑛 𝑛.

𝑥 𝑛 … 𝑛 … 𝑛 𝑛 .

Total 𝑛. 𝑛. 𝑛. 𝑛
NB : les fréquences relatives 𝑓 peuvent être calculées en lieu et place des effectifs 𝑛 . On 𝑓 = .

 𝑛 est le nombre d’individus présentant à la fois la modalité 𝑥 et la modalité 𝑦 ;


(𝑎𝑣𝑒𝑐 𝑖 = 1, … , 𝑝 𝑒𝑡 𝑗 = 1, … 𝑞)
 𝑛 . est l’ensemble des individus présentant la modalité 𝑥 .

𝑛.= 𝑛 = 𝑛 + 𝑛 +. . +𝑛 + ⋯ + 𝑛 +𝑛 (Sommes en ligne)

 𝑛. est l’ensemble des individus présentant la modalité 𝑦

𝑛. = 𝑛 =𝑛 + 𝑛 +. . +𝑛 + ⋯ + 𝑛 +𝑛 (𝑆𝑜𝑚𝑚𝑒𝑠 𝑒𝑛 𝑐𝑜𝑙𝑜𝑛𝑛𝑒)

 𝑛 est l’effectif total de tous les individus.

11
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

𝑛= 𝑛 = 𝑛.= 𝑛.

Exemple 1. Répartition de la population selon le sexe et la catégorie socio professionnelle.

CSP (Y)
Cadre (𝑦 ) Maîtrise (𝑦 ) Ouvrier (𝑦 ) Total
Sexes (X)
Masculin (𝑥 ) 20 25 35 𝑦 . = 80
Féminin (𝑥 ) 5 20 15 𝑦 . = 40
Total 𝑛. = 25 𝑛. = 45 𝑛. = 50 𝑛 = 120

2.2. Présentation de l’AFC


2.2.1. Profil-ligne et profil-colonne
En AFC, le tableau brut des effectifs n’est pas directement analysé car la seule comparaison des lignes
et des colonnes à partir du tableau initial risque d’être influencée principalement par les effectifs
marginaux et la proximité entre ligne et entre colonne ne ferait que traduire des différences d’effectifs.

Pour cette raison, il est préférable de s’intéresser aux profils. On distingue deux profils :

- Le profil-ligne : il s’obtient en divisant l’effectif de chaque case du tableau de contingence par


l’effectif marginal de la ligne :
𝑓 𝑛 𝑛 𝑛.
𝑓 = = 𝑎𝑣𝑒𝑐 𝑓 = 𝑒𝑡 𝑓 . =
𝑓. 𝑛. 𝑛 𝑛
Il représente la fréquence de la modalité (𝑦 ) dans le profil ligne (𝑖. ) c’est-à-dire dans
l’ensemble des individus présentant la modalité (𝑥 ).
- Le profil-colonne : il s’obtient en divisant l’effectif de chaque case du tableau de contingence
par l’effectif marginal de la colonne :
𝑓 𝑛 𝑛 𝑛.
𝑓 = = 𝑎𝑣𝑒𝑐 𝑓 = 𝑒𝑡 𝑓. =
𝑓. 𝑛. 𝑛 𝑛

Il représente la fréquence de la modalité (𝑥 )dans le profil ligne (. 𝑗) c’est-à-dire dans


l’ensemble des individus présentant la modalité (𝑦 ) .

Profil-ligne profil-colonne

12
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

2.2.2. Caractérisation des nuages de profil


2.2.2.1. Le nuage des p lignes
L’ensemble des profils lignes forme un nuage de 𝑝 points dans l’espace 𝑅 et chaque profil ligne est
affecté d’un poids qui est sa fréquence marginale 𝑓 . . Chaque point 𝑖 a pour coordonnées dans 𝑅 :
𝑓
; 𝑗 = 1,2, … , 𝑞}
𝑓.

Le centre de gravité de ce nuage est la moyenne des profils-lignes affectés de leurs poids et correspond
au profil moyen. Ces coordonnées sont égales aux fréquences marginales des colonnes 𝑓. .

2.2.2.2. Le nuage des q colonnes


De même, l’ensemble des profils-colonnes forme un nuage de 𝑞 points dans l’espace 𝑅 et chaque
profil-colonne est affecté d’un poids qui sa fréquence marginale 𝑓. . Chaque point 𝑗 a pour
coordonnées dans 𝑅 :
𝑓
; 𝑖 = 1,2, … , 𝑝}
𝑓.

Le centre de gravité de ce nuage est la moyenne des profils-colonnes affectés de leurs poids et
correspond au profil moyen. Ces coordonnées sont égales aux fréquences marginales des lignes 𝑓. .

2.2.2.3. Distance entre profils et calcul de l’inertie


La proximité entre deux profils est mesurée à l’aide de la distance de Khi-deux (𝜒 ). Ainsi la distance
entre deux profils lignes 𝑖 et 𝑖 est donnée par :

1 1 𝑓 𝑓
𝑑 (𝑖, 𝑖 ) = 𝑓 −𝑓 = −
𝑓. 𝑓. 𝑓 . 𝑓 .

On définit de la même manière la distance entre les profils-colonnes par :

1 1 𝑓 𝑓
𝑑 (𝑗, 𝑗 ) = 𝑓 −𝑓 = −
𝑓. 𝑓 . 𝑓. 𝑓.

L’inertie totale 𝐼 du nuage de points par rapport au centre de gravité est donnée par :

𝑓 − 𝑓 . 𝑓. 𝜒 (𝑋, 𝑌)
𝐼= 𝑓 . 𝑑 (𝑖, 𝐺) = 𝑓. 𝑑 (𝑗, 𝐺) = =
𝑓 . 𝑓. 𝑛

L’inertie s’exprime également par :

𝐼= 𝜆 𝑠𝑜𝑚𝑚𝑒 𝑑𝑒𝑠 𝑣𝑎𝑙𝑒𝑢𝑟𝑠 𝑝𝑟𝑜𝑝𝑟𝑒𝑠 𝑛𝑜𝑛 𝑡𝑟𝑖𝑣𝑖𝑎𝑙𝑒𝑠

L’AFC décompose la liaison entre les deux variables suivant les axes factoriels. L’inertie d’un axe
mesurera l’importance de la part de liaison qu’il représente. Les deux variables seront indépendantes
si les profils de leurs modalités sont identiques aux profils moyens. L’inertie totale est faible et il
n’existe pas de directions privilégiées. Graphiquement cela signifie que tous les points sont regroupés
autour du point moyen suivant une forme sphérique.

13
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

2.2.2.4. Axes factoriels


La coordonnée d’une modalité 𝑖 sur un axe 𝑢 est donnée par :

- Dans l’espace 𝑅

𝑓
𝜓 (𝑖) = − 𝑓. 𝑢
𝑓 . 𝑓.

L’inertie du nuage sur l’axe 𝑢 est :


𝐼 (𝑖) = 𝑓 . 𝜓 (𝑖)

- Dans l’espace 𝑅

𝑓
𝜑 (𝑗) = − 𝑓. 𝑣
𝑓. 𝑓.

L’inertie du nuage sur l’axe 𝑣 est :

𝐼 (𝑗) = 𝑓. 𝜑 (𝑗) = 𝐼 (𝑖) = 𝑓 . 𝜓 (𝑖)

2.2.2.5. Propriété d’équivalence distributionnelle


Selon cette propriété, lorsque deux modalités d’une même variable, ayant des profils identiques, sont
agrégées en une nouvelle modalité dont la masse est la somme des deux profils, les distances entre
les modalités de cette variable restent inchangées, de même que les distances entre les modalités de
l’autre variable.

Cette propriété garantit une certaine invariance des résultats quelle que soit la nomenclature choisie
pour la construction des modalités d’une variable, sous condition de regrouper des modalités aux
profils identiques. En d’autres termes, on ne perd pas d’information en agrégeant certaines classes et
l’on n’en gagne pas en subdivisant des classes homogènes.

2.3. Interprétation des résultats de l’AFC


2.3.1. Usage des aides à interprétation
Tout comme dans l’ACP, on utilise la contribution et le cosinus carré comme deux coefficients d’aide
à l’interprétation.

2.3.1.1. Les contributions


Parfois appelées contributions absolues, les contributions expriment la part prise par une modalité de
la variable dans l’inertie (ou variance) expliquée par un facteur. Avec les contributions, on cherche à
connaître les éléments responsables de la construction de l’axe 𝛼. La contribution d’un point 𝑖 à
l’inertie d’un axe 𝛼 est :

𝑓 . 𝜓 (𝑖)
𝐶𝑇𝑅 (𝑖) =
𝜆
Ce quotient permet de savoir dans quelle proportion un point 𝑖 contribue à l’inertie 𝜆 du nuage
projeté sur l’axe 𝛼.

14
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

On définit de façon analogue la contribution de l’élément 𝑗 à la l’axe 𝛼 :

𝑓. 𝜑 (𝑗)
𝐶𝑇𝑅 (𝑗) =
𝜆
La contribution d’un point dépend à la fois de sa coordonnée sur l’axe et de son poids. Ainsi un point
peut avoir une forte coordonnée sur l’axe sans pour autant contribuer fortement à son
positionnement. Par ailleurs un point peut avoir une faible coordonnée et avoir une contribution forte.

En sommes, l’examen des graphiques factoriels qui ne renseigne que sur des coordonnées n’est plus
suffisant pour repérer les points qui jouent le plus dans la formation des axes factoriels. il devient alors
important de bien examiner les contributions des points, leur poids et leurs coordonnées afin de faire
la part de l’effet poids et l’effet éloignement (originalité) dans la contribution.

Pour trouver une éventuelle signification à un axe, on s’intéresse d’abord aux points ayant une forte
contribution. Ce sont eux qui fixent la position de l’axe de dans 𝑅 pour les points 𝑖, et dans 𝑅 pour
le point 𝑗.

2.3.1.2. Les cosinus carrés


On cherche à apprécier si un point est bien représenté sur un sous espace factoriel. La qualité de la
représentation du point 𝑖 sur l’axe 𝛼 peut être évaluée par le cosinus carré de l’angle entre l’axe et le
vecteur joignant le centre de gravité du nuage au point 𝑖 :

𝑑 (𝑖) 𝜓 (𝑖)
𝐶𝑜𝑠 (𝑖) = =
𝑑 (𝑖, 𝐺) 𝑑 (𝑖, 𝐺)
Cette quantité, appelée cosinus carré, représente la part de la distance au centre prise en compte dans
la direction 𝛼. On appelle aussi la contribution relative du facteur à la position du point 𝑖.

Plus le cosinus carré est proche de 1, plus la position du point observé en projection est proche de la
position réelle du point dans l’espace. Si le cosinus carré est proche de 0, on a alors une mauvaise
représentation de 𝑖 sur l’axe 𝛼.

Par analogie, on définit la contribution relative du facteur 𝛼 à la position du point 𝑗 par le cosinus carré
de 𝑗 :

𝑑 (𝑗) 𝜑 (𝑗)
𝐶𝑜𝑠 (𝑗) = =
𝑑 (𝑗, 𝐺) 𝑑 (𝑗, 𝐺)

Pour analyser les proximités entre points, on s’intéresse surtout aux points ayant un cosinus carré
élevé. Les proximités entre ces points, observés dans le sous espace factoriel, donnent une bonne
image de leurs proximités réelles.

2.3.1.3. Relations de transition et propriétés barycentrique


Comme en ACP, il existe des relations entre les vecteurs propres des nuages des modalités lignes et
colonnes.

1 1
⎧𝑢 = 𝑋𝑣 ⎧𝜓 (𝑖) = 𝑓 𝜑 (𝑗)
⎪ 𝜆 ⎪ 𝜆
⎨𝑣 = 1 ⎨𝜑 (𝑗) = 1
⎪ 𝑋𝑢 ⎪ 𝑓 𝜓 (𝑖)
⎩ 𝜆 ⎩ 𝜆

15
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

Ces relations s’interprètent de la façon suivante :

- En projection sur l’axe 𝛼, une modalité de la ligne 𝑖 est placée au coefficient près au
barycentre de toutes les modalités colonne.
- En projection sur l’axe 𝛼, une modalité de la colonne 𝑗 est placée au coefficient près au
barycentre de toutes les modalités lignes.

Remarque : toutes ces relations permettent d’établir que toutes les valeurs propres sont inférieures à

2.3.1.4. Représentation simultanée


Il est possible de représenter simultanément les deux nuages, c’est-à-dire le nuage des profils lignes
et le nuage des profils colonnes, sur un même plan factoriel par superposition des plans factoriels des
deux nuages, les plans étant de même rang (situation idéale). Cette représentation est possible grâce
aux relations barycentriques

L’intérêt de cette approche est qu’elle permet de mettre en évidence les proximités entre les profils
lignes et les profils colonnes, par conséquent elle permet d’apprécier les liaisons entre les variables.

Dans les plans factoriels, les points éloignés de l’origine retiennent particulièrement l’attention car ce
sont les profils les plus différents du profil moyen. De plus, on trouvera pour un même axe factoriel de
même côté qu’une modalité 𝑖 les modalités 𝑗 auxquelles elle s’associe le plus et à l’opposé celles
auxquelles elle s’associe le moins.

On interprète la proximité entre deux modalités de variables différentes en tant qu’association de


modalités et la proximité entre modalités d’une même variable en tant que ressemblance entre deux
classes d’individus.

Toutefois, l’interprétation des positionnements mutuels doit se faire avec une certaine précaution. En
effet, une modalité 𝑖 de 𝑋 attire d’autant plus une modalité 𝑗 de 𝑌 que la part de 𝑖 dans la colonne 𝑗
est élevé. Mais ce n’est pas parce que 𝑗 est proche 𝑖 que c’est nécessairement 𝑖 qui l’active, sa position
pouvant en effet être le résultat d’attractions diverses.

2.4. Généralisation de l’AFC : Analyse des Correspondances Multiples


L’AFC peut se généraliser de plusieurs façons au cas où plus de deux ensembles sont mis en
correspondance. Une des généralisations la plus utilisée est l’analyse des correspondances multiples
qui permet de décrire de vastes tableaux binaires, dont les fichiers d’enquêtes socioéconomiques
constituent un exemple privilégié.

2.4.1. Données, notations et définitions


Les tableaux à décrire sont des bases de données conçues suite à des enquêtes. Les lignes représentent
donc les individus et les colonnes des variables qui sont les réponses aux questions posées dans les
questionnaires. Si on désigne par 𝑠 le nombre de questions posées à 𝑛 individus, on dispose ainsi d’un
tableau de données 𝑅 ayant 𝑛 lignes et 𝑠 colonnes mis sous forme de codage condensé.

16
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

Exemple de tableau de données sous forme de codage condensé

Sexe Diplôme CSP


2 1 2
2 1 3
1 4 3
2 3 4
1 4 2
1 2 1
1 1 2

Un tel tableau ( 𝑠 = 3; 𝑛 = 7) n’est pas exploitable. En effet, les sommes en ligne et en colonne n’ont
pas de sens. D’où la transformation de celui-ci à partir d’un recodage de type binaire des variables.

2.4.1.1. Tableau disjonctif complet


On désigne par 𝐼 l’ensemble des 𝑛 sujets ayant répondu au questionnaire et par 𝑝 le nombre total
des modalités des 𝑠 questions.

𝑝= 𝑝

On construit à partir du tableau 𝑅 , le tableau disjonctif complet 𝑍 à n lignes et dont le nombre p de


colonnes est le nombre total de modalités des variables. Le tableau 𝑍 est la juxtaposition des s sous
tableaux 𝑍 , 𝑍 , … , 𝑍 , … , 𝑍 .

Le sous 𝑍 , à 𝑛 lignes et 𝑝 colonnes, est tel que sa 𝑖 è ligne contient 𝑝 − 1 fois la valeur 0 et une
fois la valeur 1 dans la colonne correspondant à la modalité de la question 𝑞 choisie par le sujet 𝑖.
Autrement dit le tableau 𝑍 décrit la partition des à 𝑛 individus induite par les réponses à la question
𝑞.

Le tableau 𝑍 = 𝑍 , 𝑍 , … , 𝑍 , … , 𝑍 est appelé tableau disjonctif complet. Il est construit de telle sorte
que pour tout individu 𝑖𝜖𝐼 et pour toute question 𝑞𝜖𝑄 on pose 𝑘 (𝑞) = 1 si l’individu i a choisi la
modalité j de la question q et 𝑘 (𝑞) = 0 sinon.

17
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

2.4.1.2. Tableau de Burt


On construit à partir du tableau disjonctif complet, un tableau symétrique 𝐵 d’ordre (𝑝, 𝑝) qui
rassemble les croisements deux à deux de toutes les variables :

𝐵=𝑍𝑍
𝐵 est appelé tableau de contingence de Burt associé au tableau disjonctif complet 𝑍.

2.4.2. Description de l’ACM


L’ACM d’un tableau de données R est l’AFC du tableau disjonctif complet Z. Ces principes sont donc
identiques à ceux de l’AFC, à savoir :

- Même transformation du tableau de contingence en profils lignes et profils colonnes ;


- Même critère d’ajustement avec pondération des points égal à leurs profils marginaux
- Utilisation de la distance du Khi-deux (X2).

2.4.2.1. Nuage des profils lignes


Deux individus sont proches s’ils ont choisi les mêmes réponses. Chaque individu est affecté du poids
𝑓 . . la distance entre deux individus 𝑖 𝑒𝑡 𝑖′ est :

1 𝑓 𝑓 1
𝑑 (𝑖, 𝑖 ) = − = 𝑘 −𝑘
𝑓. 𝑓 . 𝑓 . 𝑛. 𝑝

2.4.2.2. Nuage des profils colonnes


Chaque modalité j est pondérée par sa fréquence marginale. La distance entre deux modalités j et j’
est donnée par :

1 𝑓 𝑓 𝑘 𝑘
𝑑 (𝑗, 𝑗 ) = − = 𝑛 −
𝑓 . 𝑓. 𝑓. 𝑘. 𝑘.

Deux modalités possédées par le même individu sont confondues. Les modalités rares ont tendance à
être éloignées des autres modalités. On interprétera la proximité entre deux modalités d’une même
question comme une similitude.

Comme en AFC, on définit le centre de gravité du nuage des modalités. Celui-ci se confond avec le
profil marginal colonne dont la ième coordonnée vaut 𝑓 . = . La distance d’une modalité j au centre
de gravité est donnée par :

1 𝑓 1
𝑑 𝑗, 𝑔 = −
𝑓 . 𝑓. 𝑛

L’inertie du nuage des modalités par rapport au centre de gravité est donnée par :
1 𝐽
𝐼 = 𝑑 𝑗, 𝑔 = −1
𝑓. 𝑝

18
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

Contrairement à l’AFC, l’inertie du nuage des modalités 𝐼 n’a pas de signification statistique en ce sens
qu’elle n’est pas liée à la nature des données. Elle dépend également du nombre de questions et du
nombre de modalités.

2.4.2.3. Relation quasi-barycentrique


L’AMC possède comme l’AFC une propriété reliant le nuage des individus au nuage des colonnes. Cette
dualité entre les deux analyses permet de passer d’un nuage à l’autre et d’interpréter la proximité
entre un individu et une modalité. En outre elle permet d’établir les relations quasi-barycentriques
suivantes :

La coordonnée factorielle de l’individu i sur l’axe 𝛼 est donné par :


1 𝑘
𝜑 (𝑖) = 𝜓 (𝑗)
𝜆 𝑘.

Au coefficient près, l’individu i se trouve au point moyen du nuage des modalités qu’il a choisies.

De même, la coordonnée de la modalité j sur l’axe 𝛼 est donnée par :


1 𝑘
𝜓 (𝑗) = 𝜑 (𝑖)
𝜆 𝑘.

Avant la dilatation sur l’axe 𝛼, la modalité j se trouve au point moyen du nuage des individus qui l’ont
choisie comme réponse.

Remarque : les axes associés à des valeurs propres nulles n’apportent aucune information particulière.

2.4.2.4. Interprétation d’une ACM


Comme en ACP et en AFC, on utilise les mêmes éléments d’aide à l’interprétation, à savoir le cosinus
carré et la contribution.

La contribution d’une modalité j à l’inertie est donnée par :

𝑓. 𝜓 (𝑗)
𝐶𝑇𝑅(𝑗) =
𝐼
La contribution d’une modalité est d’autant plus grande que sa fréquence d’apparition est faible. Cela
induit sur le plan pratique que les modalités à faibles fréquences risquent d’avoir trop d’importance
dans la formation des axes factoriels. En conséquence, on évitera au moment du codage des modalités
à faible effectif.

Pour interpréter un axe factoriel, cela se fait à l’aide des contributions des modalités et des variables.
La contribution d’une variable à la formation d’un axe se détermine en faisant la somme des
contributions des modalités de cette variable sur cet axe.

Une forte contribution relative à une modalité indique que la suppression de celle-ci modifie l’axe de
façon importante. L’interprétation de l’axe, c’est-à-dire la propriété générale qu’il met en évidence,
est très liée aux modalités à forte contribution.

19
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

3. Méthodes de classification
Bien souvent les individus d’une population faisant l’objet d’une étude sont très différents les uns des
autres. Il peut s’agit des abonnés d’une compagnie de téléphonie, des clients d’une banque, des
souscripteurs à un produit, des paysans d’une région, les villes d’un pays, l’ensemble ou groupes de
pays etc. toutefois au regard de certains critères, il est possible regrouper les individus en groupes
homogènes. Ces regroupement peuvent se faire selon plusieurs méthodes : les méthodes
hiérarchiques, les méthodes non hiérarchiques, les méthodes mixtes.

3.1. La classification hiérarchique


3.1.1. Principe
Les méthodes hiérarchiques consistent à effectuer un ensemble de partitions successives emboîter les
unes dans les autres. Elles peuvent être ascendantes ou descendante. Dans le cas des méthodes
hiérarchique ascendantes, le principe consiste à créer à chaque étape une partition obtenue en
agrégeant deux à deux les éléments les plus proches. L’algorithme permet d’obtenir une hiérarchie de
partitions se présentant sous la forme d’arbres appelés dendrogrammes et contenant 𝑛 − 1 partitions
pour une population de 𝑛 individus. L’intérêt de ces arbres est qu’ils peuvent donner une idée du
nombre de classes existant effectivement dans la population. Chaque coupure d’un arbre fournit une
partition, ayant d’autant moins de classes et des classes d’autant moins homogènes que l’on coupe
plus haut.

A l’inverse, les méthodes hiérarchiques descendantes partent du groupe complet et créent des
divisions successives de plus en plus fines.

3.1.2. Algorithme de la classification


L’algorithme fondamental de la classification ascendante hiérarchique se déroule de la façon suivante :

- Etape 1 : il y a 𝑛 individus à classer


- Etape 2 : on construit la matrice des distance entre les a 𝑛 éléments et l’on cherche les deux
plus proches, que l’on agrège en un nouvel élément. On obtient alors une première partition
à 𝑛 − 1 classes ;
- Etape 3 : on construit une nouvelle matrice des distances qui résulte de l’agrégation, en
calculant les distances entre le nouvel élément et les éléments restants (les autres distances
restent inchangées). On se trouve dans les mêmes conditions qu’à l’étape 1, mais avec (𝑛 −
1) éléments à classer et en ayant choisi un critère d’agrégation (règles de calcul des distances
entre groupements disjoints d’individus : saut minimal, saut maximal, ou distance moyenne).
On cherche de nouveau les deux éléments les plus proches, que l’on agrège. On obtient une
deuxième partition avec (𝑛 − 2) classes et qui englobe la première ;
- Etape m : on calcule les nouvelles distances, et l’on réitère le processus jusqu’à n’avoir plus
qu’un seul élément regroupant tous les objets et qui constitue la dernière partition.

3.2. La classification non hiérarchique


Les méthodes non hiérarchiques regroupent, par itérations successives, les individus en un nombre
de classes fixés au départ. On distingue la méthode de l’agrégation autour des centres mobiles et la
méthode des nuées dynamiques.

20
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

3.2.1. Algorithme de la méthode d’agrégation autour des centres mobiles


Dans la méthode de l’agrégation autour des centres mobiles, on forme 𝑘 classes autour des 𝑘
individus sélectionnés aléatoirement parmi les 𝑛 individus de l’ensemble à partitionner. L’algorithme
se présente comme suit :

- Etape 1 : On choisit aléatoirement k individus comme centres initiaux des classes.


- Etape 2 : On attribue chaque objet à la classe la plus proche, ce qui définit k classes ;
- Etape 3 : Connaissant les membres de chaque classe on recalcule les centres d’inertie de
chaque classe.
- Etape 4 : On redistribue les objets dans la classe qui leur est la plus proche en tenant des
nouveaux centres de classe calculés à l’étape précédente.
- Etape 5 : On retourne à l’étape 3 jusqu’à ce qu’il y a convergence, c'est-à-dire jusqu’à ce qu’il
n’y a plus aucun individu à changer de classe.

3.2.2. Algorithme de la méthode des nuées dynamiques


On forme 𝑘 groupes d’individus appelés noyaux. Ces classes regroupent les individus les plus proches
des 𝑘 noyaux. Puis on remplace les 𝑘 noyaux par les 𝑘 centres de gravité des classes définies dans
l’étape précédente. Les individus sont à nouveau affectés aux noyaux qui leur est plus proches,
aboutissant à former 𝑘 nouvelles classes. La procédure est ainsi réitérée jusqu’à ce que les classes
soient stables, c’est-à-dire lorsque l’inertie intraclasse cesse de décroitre ou décroit de façon très
négligeable.

3.3. Méthode mixte


Dans la pratique, il est fréquent d’utiliser une classification mixte, c’est-à-dire une méthode qui
combine à la fois les méthodes hiérarchiques et les méthodes non hiérarchiques. Dans une première
étape on applique une méthode hiérarchique en vue de déterminer le nombre de classes. Ensuite on
réalise une méthode non hiérarchique dont l’objectif sera d’affecter les individus à la classe dont ils
sont les plus proches (distance la plus faible au centre de gravité de la classe). Quelques individus
changent de classe entre la première et la seconde étape.

21
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr
Analyse de données

INTRODUCTION ....................................................................................................................................... 2
1. Analyse Composantes Principales (ACP) ......................................................................................... 3
1.1. Configuration des données de l’ACP ....................................................................................... 3
1.2. Conduite du l’ACP .................................................................................................................... 3
1.2.1. Les étapes préliminaires .................................................................................................. 3
1.2.2. Représentation du nuage des points-individus ............................................................... 4
1.2.3. Représentation du nuage des points-variables ............................................................... 6
1.2.4. Relation de transition entre les deux représentations.................................................... 6
1.3. Interprétation des résultats d’une ACP ................................................................................... 7
1.3.1. Choix du nombre d’axes à interpréter ............................................................................ 7
1.3.2. Eléments d’aide à l’interprétation................................................................................... 7
2. Analyse Factorielle des Correspondances (AFC) ........................................................................... 11
2.1. Tableau de contingence, données et notation...................................................................... 11
2.2. Présentation de l’AFC ............................................................................................................ 12
2.2.1. Profil-ligne et profil-colonne ............................................................................................... 12
2.2.2. Caractérisation des nuages de profil ............................................................................. 13
2.3. Interprétation des résultats de l’AFC ........................................................................................ 14
2.3.1. Usage des aides à interprétation......................................................................................... 14
2.4. Généralisation de l’AFC : Analyse des Correspondances Multiples .......................................... 16
2.4.1. Données, notations et définitions ........................................................................................... 16
2.4.1.1. Tableau disjonctif complet ............................................................................................... 17
2.4.1.2. Tableau de Burt ................................................................................................................ 18
2.4.2. Description de l’ACM ......................................................................................................... 18
2.4.2.1. Nuage des profils lignes............................................................................................. 18
2.4.2.2. Nuage des profils colonnes ....................................................................................... 18
2.4.2.3. Relation quasi-barycentrique ........................................................................................... 19
2.4.2.4. Interprétation d’une ACM ................................................................................................ 19
4. Méthodes de classification ............................................................................................................ 20
3.1. La classification hiérarchique ..................................................................................................... 20
3.1.1. Principe ................................................................................................................................ 20
3.1.2. Algorithme de la classification............................................................................................. 20
3.2. La classification non hiérarchique .............................................................................................. 20
3.2.1. Algorithme de la méthode d’agrégation autour des centres mobiles ................................ 21
3.2.2. Algorithme de la méthode des nuées dynamiques ............................................................. 21
3.3. Méthode mixte ........................................................................................................................... 21

22
UPGC / Département d’économie / KOFFI Yao Jean Eudes / E-mail : eudkof@yahoo.fr

Vous aimerez peut-être aussi