Empirical Example (PCA)
Les données suivantes présentent un aperçu complet des crimes commis dans 20 états
des États-Unis en 2023.
STATE Environmental_Crimes Cybercrimes Fraud TheŌ Drug_Trafficking Murder
Alabama 142 25200 968 2783 11355 188
Alaska 108 51600 968 2840 13317 337
Arizona 95 34200 1382 3123 23461 447
Arkansas 88 27600 832 2034 9726 186
California 115 49400 2870 3580 21394 350
Colorado 63 42000 1707 2929 19352 390
ConnecƟcut 42 16800 1295 1318 13460 262
Delaware 60 24900 1570 1942 16826 368
Florida 102 39600 1879 4491 18599 384
Georgia 117 31100 1405 2565 13511 217
Hawaii 72 25500 1280 641 19115 392
Idaho 55 19400 396 1725 10508 260
Illinois 99 21800 2113 2090 10850 283
Indiana 74 26500 1232 1535 10862 250
Iowa 23 10600 412 898 8125 269
Kansas 66 22000 1007 1805 12704 274
Kentucky 101 19100 811 1233 8722 166
Louisiana 155 30900 1429 3355 11655 247
Maine 24 13500 387 1700 12531 235
Maryland 80 34800 2921 3589 14000 318
Pour mieux comprendre les relations entre ces variables, une Analyse en Composantes
Principales (ACP) standardisée (Normée) a été réalisée à l’aide du logiciel XLStat.:
1. Summary statistics (Quantitative data):
Variable Minimum Maximum Moyenne Écart type
Environmental_Crimes 23.000 155.000 84.050 35.193
Cybercrimes 10600.000 51600.000 28325.000 11093.472
Fraud 387.000 2921.000 1343.200 708.341
Theft 641.000 4491.000 2308.800 1012.151
Drug_Trafficking 8125.000 23461.000 14003.650 4341.108
Murder 166.000 447.000 291.150 78.596
Les données montrent une forte dispersion, justifiant l’utilisation d’une ACP Normée pour
mieux interpréter les tendances et les relations entre les variables.
2. Matrice des corrélations (Pearson (n)) :
Variables Environmental_Crimes Cybercrimes Fraud TheŌ Drug_Trafficking Murder
Environmental_Crimes 1 0.534 0.353 0.586 0.101 -0.106
Cybercrimes 0.534 1 0.590 0.750 0.598 0.517
Fraud 0.353 0.590 1 0.619 0.530 0.452
TheŌ 0.586 0.750 0.619 1 0.468 0.352
Drug_Trafficking 0.101 0.598 0.530 0.468 1 0.864
Murder -0.106 0.517 0.452 0.352 0.864 1
Principales observations
A. Corrélations fortes (r ≥ 0,7) :
• Cybercrimes et vol (r = 0,750) : Forte corrélation, probablement en raison de
facteurs socio-économiques ou technologiques partagés.
• Trafic de drogue (Drug_TraƯicking ) et meurtre (Murder) (r = 0,864) : Association
forte, reflétant probablement l'activité du crime organisé.
B. Corrélations modérées (0,4 ≤ r < 0,7) :
• Crimes environnementaux (Environmental_Crimes ) et Cybercrimes (r = 0,534) :
Indique des défis socio-politiques communs.
• Cybercrimes et fraude (r = 0,590) : Liés par des motivations financières ou
technologiques.
• Fraude et vol (Theft) (r = 0,619) : Corrélation influencée par des facteurs
économiques.
• Meurtre (Murder ) et Cybercrimes (r = 0,517) : Lien indirect, probablement à
travers la criminalité urbaine.
C. Corrélations faibles et négatives :
• Crimes environnementaux (Environmental_Crimes ) et meurtre (Murder) (r = -
0,106) : Pas de relation significative.
• Crimes environnementaux et trafic de drogue(Drug_TraƯicking ) (r = 0,101) :
Association minimale.
3. Test de sphéricité de Bartlett (Bartlett's sphericity test):
Chi-square (Valeur observée (Calculée)) 66.722
Chi-square (Valeur criƟque(Tabulée)) 7.261
DDL (DF) 15
p-value (Two-tailed) < 0.0001
Alpha (seuil de confiance) 0.95
L'hypothèse nulle (H₀) suppose l'absence de corrélations significatives entre les variables.
Étant donné que la p-value est inférieure à 0,05, nous rejetons H₀, ce qui valide l'existence
de corrélations suƯisantes pour procéder à une analyse factorielle et justifie ainsi la
réalisation d'une analyse en composantes principales (PCA).
4. Résultats de l'ACP:
4.1. Valeurs propres et inertie associée
Valeur propre Variabilité (%) (%) Cumul (%)
F1 3.485 58.086 58.086
F2 1.422 23.704 81.790
F3 0.473 7.877 89.667
F4 0.294 4.905 94.573
F5 0.219 3.645 98.217
F6 0.107 1.783 100.000
4.2. Sélection du nombre d'axes retenus
• On observe que plus de 80 % de l'inertie totale est expliquée par les deux
premiers axes.
• Suivant la règle de Kaiser, nous ne retenons que les valeurs propres de R
supérieures à 1, ce qui nous conduit à retenir les deux premiers axes.
4.3. Interpretation of the Axes:
Individuals
Axe 1 Axe2
Coordonnées Contribution Qualité (Cos²) Coordonnées Contribution Qualité (Cos²)
Alabama -0.474 0.323 0.040 -2.173 16.604 0.834
Alaska 1.374 2.710 0.310 -0.610 1.306 0.061
Arizona 2.461 8.688 0.593 1.525 8.175 0.228
Arkansas -1.388 2.764 0.544 -1.127 4.465 0.358
California 3.714 19.781 0.931 -0.174 0.107 0.002
Colorado 1.969 5.559 0.654 1.260 5.586 0.268
Connecticut -1.510 3.269 0.598 0.969 3.300 0.246
Delaware 0.299 0.128 0.039 1.419 7.082 0.881
Florida 2.872 11.831 0.867 -0.033 0.004 0.000
Georgia 0.118 0.020 0.007 -1.320 6.130 0.865
Hawaii 0.005 0.000 0.000 1.981 13.801 0.627
Idaho -1.970 5.564 0.866 0.328 0.377 0.024
Illinois -0.159 0.036 0.010 -0.555 1.082 0.127
Indiana -1.098 1.730 0.755 -0.158 0.088 0.016
Iowa -3.170 14.410 0.856 1.113 4.355 0.106
Kansas -1.068 1.637 0.904 0.339 0.403 0.091
Kentucky -2.234 7.160 0.716 -1.274 5.705 0.233
Louisiana 0.737 0.780 0.089 -2.233 17.533 0.815
Maine -2.405 8.293 0.732 1.013 3.606 0.130
Maryland 1.925 5.317 0.501 -0.289 0.293 0.011
Règle de sélection sur l'Axe 1:
1- Contribution des individus : Nous retenons les individus qui satisfont à la
condition:
1 1
contribution de (xi/ܨ1) > ⇒ (xi/ܨ1) > ⇒ contribution de (xi /F1) > (5%)
n 20
ou ;
ࢂࢇࢋ࢛࢘ ࢇ࢈࢙࢛ࢋ ࢊࢋ ࢇ ࢉ࢘ࢊéࢋ |ห ห > ඥࣅ ⇒ ห ห > √. ૡ ⇒ ห ห > . ૡ
2- Cos²: mesure dans quelle mesure une variable est représentée par une composante
principale ; cela quantifie la variance expliquée (plus proche de 1 indique une
meilleure représentation).
Règle de sélection sur l'Axe 2
1- Contribution des individus : Nous retenons les individus qui satisfont à la
condition:
1 1
contribution de (xi/ܨ1) > ⇒ (xi/ܨ2) > ⇒ contribution de (xi /F1) > (5%)
n 20
ou ;
ࢂࢇࢋ࢛࢘ ࢇ࢈࢙࢛ࢋ ࢊࢋ ࢇ ࢉ࢘ࢊéࢋ ห ห > ඥࣅ ⇒ ห ห > √. ⇒ ห ห > . ૢ
2- Nous retenons uniquement les observations avec cos² > 0,5.
Variables
F1 (Axe1) F2 (Axe 2)
Qualité Qualité
Coordonnées Contribution (Cos²) Coordonnées Contribution (Cos²)
Environmental_Crimes 0.501 7.202 0.251 -0.774 42.104 0.599
Cybercrimes 0.885 22.475 0.783 -0.161 1.820 0.026
Fraud 0.788 17.796 0.620 -0.054 0.203 0.003
Theft 0.832 19.865 0.692 -0.343 8.292 0.118
Drug_Trafficking 0.802 18.474 0.644 0.491 16.971 0.241
Murder 0.703 14.188 0.495 0.660 30.609 0.435
Règle de sélection sur l'Axe 1:
1. Pour l'interprétation, nous retenons les variables dont la contribution est
supérieure à 1/q, soit en pourcentage (16,66%).
Ou
ඥࣅ √. ૡ
ࢂࢇࢋ࢛࢘ ࢇ࢈࢙࢛ࢋ ࢊࢋ ࢇ ࢉ࢘ࢊéࢋ หࢊ ห > ⇒ หࢊ ห > ⇒ หࢊ ห > . ૠ
2. Nous retenons uniquement les observations avec cos² > 0,5
Règle de sélection sur l'Axe 2:
1. Pour l'interprétation, nous retenons les variables dont la contribution est
supérieure à 1/q, soit en pourcentage (16,66%).
Ou
ඥࣅ √.
ࢂࢇࢋ࢛࢘ ࢇ࢈࢙࢛ࢋ ࢊࢋ ࢇ ࢉ࢘ࢊéࢋ หࢊ ห > ⇒ หࢊ ห > ⇒ หࢊ ห > . ૡ
2. Nous retenons uniquement les observations avec cos² > 0,5
Interprétation de l'Axe 1
Individus Variables :
- + - +
Iowa, Maine, Californie, Floride Murder
Kentuky,Idaho Arizona,Maryland, Fraud
Colorado TheŌ
Drug_Trafficking
Cybercrimes
Conclusion: Les crimes Meurtre (Murder), Fraude (Fraud), Vol(TheŌ), Trafic de drogue
(Drug_Trafficking), et Cybercrimes se situent dans la partie positive du premier axe (eƯet de
taille) et sont bien représentés (voir cos²). Cet axe représente les taux de criminalité
globaux qui diƯérencient des états comme l'Iowa, le Maine, le Kentucky, et l'Idaho, des
états comme la Californie, la Floride, l'Arizona, le Maryland et le Colorado. Ces derniers
états présentent une forte proportion de crimes.
Interpretation of Axis 2
Individus Variables :
- + - +
Alabama, Georgia , Arizona, Colorado, Environmental_Crimes Drug_Trafficking
Kentucky Louisiana Delaware, Hawaii Murder
Conclusion: Les états de l'Arizona, du Colorado, du Delaware et d'Hawaii présentent un
taux plus élevé de crimes majeurs par rapport aux états du Kentucky, de l'Alabama, de la
Géorgie et de la Louisiane. En revanche, ces derniers sont caractérisés par un taux
relativement plus élevé de Crimes environnementaux (Environmental_Crimes). Les Crimes
environnementaux se situent dans la partie négative du deuxième axe, tandis que les
crimes de Trafic de drogue (Drug_Trafficking)et de Murder se trouvent dans sa partie positive
(eƯet de forme). Cet axe représente la gravité des crimes.
Variables (axes F1 and F2: 81.79 %)
1
0.75 Murder
Drug_Trafficki
0.5 ng
0.25
F2 (23.70 %)
0
Fraud
-0.25 Cybercrimes
Theft
-0.5
-0.75 Environmenta
l_Crimes
-1
-1 -0.75 -0.5 -0.25 0 0.25 0.5 0.75 1
F1 (58.09 %)
Active variables
Observations (axes F1 and F2: 81.80 %)
2.5
2
Hawaii
Delaware Arizona
1.5
Iowa Maine Colorado
1
Connecticut
F2 (23.70 %)
0.5 Idaho Kansas
0
Indiana Florida California
-0.5 Maryland
Illinois Alaska
-1
-1.5 KentuckyArkansas Georgia
-2
-2.5 Alabama Louisiana
-4 -3 -2 -1 0 1 2 3 4 5
F1 (58.10 %)
Active observations
Biplot (axes F1 and F2: 81.79 %)
4
Murder
3 Drug_Trafficking
Hawaii
2 Arizona
Delaware
Iowa Colorado
MaineConnecticut
1
Idaho Kansas
F2 (23.70 %)
0
Indiana Florida California
Maryland Fraud
Illinois Alaska
-1 Cybercrimes
Kentucky Arkansas
Georgia
-2 Theft
Alabama Louisiana
-3
-4
Environmental_Crimes
-5
-4 -3 -2 -1 0 1 2 3 4 5
F1 (58.09 %)
Active variables Active observations
Sur le premier plan factoriel (F1), On observe que certains états se disƟnguent en foncƟon de
leur comportement criminel :
Colorado, Arizona : taux élevé de divers crimes, mais de plus grande gravité (Meurtre
(Murder) , Trafic de drogue (Drug_Trafficking)).
Californie, Floride et Maryland : caractérisés par un taux élevé de divers crimes avec une
gravité moyenne (Fraude, Cybercrimes, Vol).
Louisiane, Alabama et Géorgie : taux moyen de divers crimes, mais avec un taux élevé de
Crimes environnementaux (Environmental_Crimes ) (gravité plus faible).
Iowa et Maine : Peu de crimes et de gravité faible.