[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
25 vues12 pages

Analyse de Donnees

Transféré par

pedr7683
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
25 vues12 pages

Analyse de Donnees

Transféré par

pedr7683
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats DOCX, PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 12

SOMMAIRE

1 Introduction.........................................................................................................................3

2 Réalisation d’une ACP sur les variables quantitatives........................................................4

2.1 Statistiques descriptive sur l’ensemble des variables...................................................4

2.2 Résultats de l’ACP sur les variables quantitatives.......................................................5

2.3 Cercle des corrélations.................................................................................................7

2.4 Graphique des deux premières composantes principales.............................................7

2.5 Présentation graphique de f1 et f2................................................................................8

3 Réalisation d’une AFC sur deux variables qualitative........................................................8

3.1 Cercle des corrélations...............................................................................................10

3.2 Graphique des deux premières composantes principales...........................................11

4 Classification.....................................................................................................................11

Conclusion................................................................................................................................12
Figures obtenues

Figure 1 : Charges des composants.............................................................................................8


Figure 2 : Scree plot des valeurs propres après pca....................................................................9
Figure 3 : Présentation graphique de f1 et f2............................................................................10
Figure 4 : Cercle des corrélations.............................................................................................12
Figure 5 : Graphique des deux premières composantes principales.........................................13

Tableaux obtenus
Tableau 1 : Statistiques descriptive sur l’ensemble des variables..............................................5
Tableau 2 : chargements des variables sur chaque composante principale................................6
Tableau 3 : résultats de l'Analyse Factorielle Exploratoire......................................................11
Tableau 4 : charges factorielles.................................................................................................12
1 Introduction
L'analyse de données est un domaine issu du monde des statistiques qui vise à faire le lien
entre les différentes données statistiques pour les classer, les décrire et les analyser de manière

succincte . Dans ce monde en mutation, la compréhension approfondie des dynamiques


socio-économiques et environnementales est une nécessité absolue pour orienter les décisions
politiques, les stratégies de développement et les actions des gouvernants, des banques mais
aussi des ONG. Bien que l'Analyse en Composantes Principales (ACP) soit utilisée pour
explorer les données multidimensionnelles, le projet soumis a notre réflexion fait appel
notamment de l'Analyse Factorielle des Correspondances (AFC) dans cette démarche
analytique. En mettant en œuvre l'ACP, nous visons à découvrir les structures sous-jacentes et
à identifier les tendances significatives entre une variété d'indicateurs socio-économiques et
environnementaux à l'échelle mondiale.

Ceci nous permettra de répondre à des questions cruciales telles que la détermination des
dimensions principales de variabilité des indicateurs selon les pays, la détection de clusters
présentant des profils similaires, et l'identification des facteurs déterminants des disparités
observées entre les nations. Toutefois, en intégrant également l'AFC dans notre méthodologie,
nous cherchons à mieux comprendre les relations entre les variables qualitatives telles que les
catégories de revenus par habitant et les niveaux de fréquentation scolaire secondaire. Cette
approche enrichira notre analyse en tenant compte des interactions complexes entre les
variables qualitatives et quantitatives, renforçant ainsi la robustesse de nos conclusions et
recommandations.
La combinaison les avantages respectifs de l'ACP et de l'AFC, notre étude permet à fournir
des informations approfondies et pertinentes aux acteurs politiques, aux chercheurs et aux
organisations internationales, contribuant ainsi à une meilleure compréhension des défis
mondiaux et à la promotion d'un développement durable et inclusif.
2 Réalisation d’une ACP sur les variables quantitatives
L'ACP permet de calculer des matrices pour projeter les variables dans un nouvel espace en
utilisant une nouvelle matrice qui montre le degré de similarité entre les variables. Il est
courant d'utiliser le coefficient de corrélation de Pearson ou la covariance comme indice de
similarité.

2.1 Statistiques descriptive sur l’ensemble des variables


Ce tableau ci apres présente des statistiques descriptives pour un ensemble de variables,
notamment le nombre d'observations (Obs), la moyenne (Mean), l'écart type (Std. Dev.), la
valeur minimale (Min) et la valeur maximale (Max) de chaque variable. Les variables incluent
des mesures telles que la valeur ajoutée de l'agriculture, les émissions de CO2, les
exportations, le PIB, les importations, la valeur ajoutée de l'industrie, l'inflation, l'espérance
de vie, la densité de population, les recettes publiques, l'inscription scolaire primaire, les
recettes fiscales et l'inscription scolaire secondaire. Les valeurs moyennes proches de zéro
indiquent une distribution centrée autour de zéro pour chaque variable. Les écarts types de 1
pour toutes les variables indiquent une dispersion similaire autour de la moyenne pour
l'ensemble des variables. Les valeurs minimales et maximales fournissent des informations
sur la plage des données pour chaque variable, mettant en évidence les variations dans les
mesures observées. Les statistiques descriptives permettent une compréhension initiale de la
distribution et de la variabilité des données, aidant ainsi à déterminer la portée et la nature de
l'analyse à suivre.

Tableau 1 : Statistiques descriptive sur l’ensemble des variables

Variable Obs Mean Std, Dev, Min Max


agricultur~r 50 2,7E-09 1 -0,93 2,82
co2_emissi~r 50 -3,8E-09 1 -0,92 2,58
exports_go~r 50 -4,2E-09 1 -1,01 5,26
gdp_centr 50 -3,9E-09 1 -0,41 5,55
imports_go~r 50 -6,4E-09 1 -1,18 5,67
industry_c~r 50 -4,5E-10 1 -1,65 3,43
inflation_~r 50 5,4E-09 1 -0,77 4,68
life_expec~r 50 -1,7E-08 1 -2,12 1,30
population~r 50 1,1E-09 1 -0,19 6,92
revenue_ex~r 50 1,2E-08 1 -1,44 2,98
school_enr~r 50 -1,1E-08 1 -3,13 2,23
tax_revenu~r 50 1,3E-08 1 -2,22 2,99
school_centr 50 3,7E-09 1 -2,05 2,34

2.2 Résultats de l’ACP sur les variables quantitatives


Le tableau suivant présente les chargements des variables sur chaque composante principale
non rotative. Les chargements représentent les corrélations entre les variables d'origine et les
composantes principales extraites lors de l'Analyse en Composantes Principales (ACP). Les
valeurs sont normalisées de telle sorte que la somme des carrés des chargements pour chaque
composante principale soit égale à 1, ce qui facilite l'interprétation relative de l'importance des
variables pour chaque composante.
Comp1 : Cette composante principale montre des chargements élevés pour des variables telles
que "agriculture", "life_expectancy", "population_density" et "school_enrollment". Bien que
ces variables soient principalement socio-démographiques, la présence de "agriculture"
suggère une possible association avec des aspects économiques, notamment dans les pays où
l'agriculture occupe une part importante de l'économie. Ainsi, Comp1 peut être interprétée
comme une composante socio-économique qui capture des aspects démographiques et
économiques liés à l'agriculture et au développement humain.
Comp2 : Cette composante principale présente des chargements significatifs pour des
variables telles que "exports_of_goods_and_services", "imports_of_goods_and_services" et
"tax_revenue". Ces variables économiques sont toutes liées au commerce international et aux
finances publiques. Par conséquent, Comp2 semble être fortement associée à des aspects
économiques tels que le commerce extérieur et la fiscalité, ce qui peut indiquer une dimension
économique importante dans la variation des données.
Tableau 2 : chargements des variables sur chaque composante principale

Comp1 Comp2 Comp3 Comp4 Comp5


agricultur~r -0,42 -0,04 -0,28 -0,12 -0,03
co2_emissi~r 0,39 -0,18 0,23 -0,05 -0,04
exports_go~r 0,01 0,47 0,42 0,01 -0,01
gdp_centr 0,19 -0,27 0,13 -0,36 -0,26
imports_go~r -0,08 0,52 0,30 -0,04 -0,06
industry_c~r -0,09 -0,31 0,40 0,41 0,04
inflation_~r -0,16 -0,17 0,09 0,69 0,14
life_expec~r 0,48 -0,03 0,04 -0,01 0,02
population~r 0,11 0,12 -0,08 -0,14 0,92
revenue_ex~r 0,31 0,30 -0,21 0,30 -0,11

school_enr~r 0,13 -0,15 -0,47 0,08 0,00


tax_revenu~r 0,13 0,37 -0,39 0,27 -0,21
school_centr 0,47 -0,06 0,01 0,13 0,05

Comp3 : On observe des chargements élevés pour des variables comme


"industry_value_added", "tax_revenue" et "exports_of_goods_and_services". Cela suggère
que Comp3 est également fortement liée à des aspects économiques, en mettant l'accent sur
l'industrie, le commerce extérieur et les finances publiques. Cette composante peut être
interprétée comme représentant des aspects économiques liés à l'industrialisation et au
commerce international.
Comp4 et Comp5 : Ces composantes semblent avoir des chargements moins prononcés pour
les variables économiques, ce qui peut indiquer qu'elles capturent d'autres aspects des
données, tels que des dimensions sociales ou environnementales.

En examinant les chargements des variables économiques sur chaque composante principale,
nous pouvons identifier plusieurs composantes qui capturent des aspects économiques
importants de nos données, notamment le commerce international, l'industrialisation et les
finances publiques. Ces informations peuvent être utiles pour comprendre les dynamiques
économiques sous-jacentes dans notre ensemble de données et pour guider les analyses et les
décisions futures dans un contexte économique.
-.2

-.4
.6

.4

.2

0
2.3 Cercle des corrélations

Component loadings

imports_go~r
exports_go~r
6

0
tax_revenu~r
revenue_ex~r

population~r

agricultur~r life_expec~r
school_centr

school_enr~r co2_emissi~r
inflation_~r
gdp_centr
industry_c~r

-.4 -.2 0 .2 .4

Figure 1 : Charges des composants


4

2.4 Graphique des deux premières composantes principales

Scree plot des valeurs propres après pca Scree plot des valeurs propres après pca

0 5 10 15
Number

95% CI Eigenvalues
0 5 10 15

Figure 2 : Scree plot des valeurs propres après pca


Scores for co
-2

-4
4

0
2.5 Présentation graphique de f1 et f2

-2 0 2 4 6 8
Scores for component 2

Figure 3 : Présentation graphique de f1 et f2

3 Réalisation d’une AFC sur deux variables qualitative


L'Analyse Factorielle des Correspondances (AFC) est une méthode qui permet d'étudier
l'association entre deux variables qualitatives. Cette méthode est basée sur l'inertie. Quatre
approches de l'Analyse Factorielle des Correspondances sont proposées : Analyse Factorielle
des Correspondances classique (AFC). Ce tableau présente les résultats de l'Analyse
Factorielle Exploratoire (AFE) avec des informations sur les valeurs propres des facteurs
extraits. Chaque facteur est associé à une valeur propre qui mesure la variance expliquée, avec
une différence indiquant la quantité de variance unique expliquée par chaque facteur. Les
proportions de variance expliquée par chaque facteur sont également fournies, montrant
comment chaque facteur contribue à la variance totale des données. La somme cumulative des
proportions de variance expliquée jusqu'à chaque facteur est présentée pour mettre en
évidence l'accumulation de la variance expliquée. Bien que les résultats du test de rapport de
vraisemblance ne soient pas fournis, le message "Beware: solution is a Heywood case"
soulève des préoccupations potentielles concernant la validité du modèle, suggérant la
nécessité d'examiner attentivement les valeurs propres et la spécification du modèle pour
détecter toute anomalie ou problème dans l'analyse.

Tableau 3 : résultats de l'Analyse Factorielle Exploratoire


Factor Eigenvalue Difference Proportion Cumulative
Factor1 1,96 0,71 0,34 0,34
Factor2 1,25 0,00 0,22 0,56
Factor3 1,25 0,00 0,22 0,78
Factor4 1,25 1,25 0,22 1,00
Factor5 0,00 0,00 0,00 1,00
Factor6 0,00 , 0,00 1,00
LR test: independent vs, saturated : chi2(15) = 0, Prob>chi2 = 0

Le tableau 4 présente les charges factorielles (ou les coefficients de corrélation) entre les
variables originales et les facteurs extraits lors de l'Analyse Factorielle Exploratoire (AFE),
ainsi que les variances uniques de chaque variable qui ne sont pas expliquées par les facteurs.
Chaque variable est associée à des charges factorielles pour chaque facteur, indiquant la force
et la direction de la relation entre la variable et le facteur. Les valeurs de charge factorielle
proches de 0 indiquent une faible corrélation entre la variable et le facteur, tandis que des
valeurs proches de ±1 indiquent une corrélation forte. Les variances uniques indiquent la
quantité de variance de chaque variable qui n'est pas expliquée par les facteurs. Dans ce
tableau, les variables niv_pib_1 à niv_pib_5 sont des indicateurs de niveau de PIB, tandis que
Freq_scol_sec est un indicateur de fréquence de scolarisation secondaire. Les valeurs de
variances uniques indiquent que toutes les variables ont des variances uniques nulles, ce qui
signifie que la totalité de la variance de chaque variable est expliquée par les facteurs. Les
charges factorielles fournissent des informations sur la contribution de chaque variable à
chaque facteur, ce qui peut aider à interpréter la signification des facteurs extraits dans le
contexte des variables originales.
Tableau 4 : charges factorielles
Variable Factor1 Factor2 Factor3 Uniqueness
Factor4
niv_pib_1 -0,33 0,08 -0,82 0,46 0,00
niv_pib_2 -0,83 -0,13 0,45 -0,31 0,00
niv_pib_3 0,30 0,76 0,46 0,35 0,00
niv_pib_4 0,43 -0,80 0,25 0,34 0,00
niv_pib_5 0,43 0,09 -0,33 -0,84 0,00
Freq_scol_~d 0,84 0,00 0,00 0,00 0,29
Factor 2

-.5

-1
.5
1

3.1 Cercle des corrélations

Factor loadings

niv_pib_3

niv_pib_1 niv_pib_5
Freq_scol_~d
niv_pib_2

niv_pib_4

-1 -.5 0 .5 1
Factor 1

Figure 4 : Cercle des corrélations


Eigenvalues
1.5

.5
2

0
3.2 Graphique des deux premières composantes principales

Scree plot of eigenvalues after factor

1 2 3 4 5 6
Number

Figure 5 : Graphique des deux premières composantes principales


Conclusion
Au vu de notre analyse on se rend compte que l'application de l'Analyse en Composantes
Principales (ACP) et de l'Analyse Factorielle des Correspondances (AFC) a permis de
découvrir des structures sous-jacentes et des relations entre un large éventail d'indicateurs
socio-économiques et environnementaux pour différents Etats.

. Nous avons pu identifier plusieurs dimensions principales qui expliquent la variabilité des
indicateurs à travers les pays, mettant en évidence l'importance des facteurs économiques,
environnementaux et sociaux dans la compréhension des défis mondiaux tels que le
changement climatique, la pauvreté et les inégalités.
De plus, nos analyses ont révélé l'existence de clusters de pays présentant des profils socio-
économiques et environnementaux similaires, ce qui suggère des similitudes dans les
politiques et les contextes régionaux. Enfin, nous avons observé des tendances émergentes et
des anomalies dans les données, soulignant l'importance d'une enquête plus approfondie pour
comprendre les implications de ces observations. Dans l'ensemble, notre étude fournit des
informations précieuses aux décideurs, aux chercheurs et aux organisations internationales, et
souligne l'importance d'une approche holistique et intégrée pour promouvoir un
développement durable et équitable à l'échelle mondiale.

Vous aimerez peut-être aussi