Université Gaston Berger de Saint Louis
UFR des Lettres et Sciences Humaines
Section Géographie
Statistiques
Licence 3
UE GEO354 : Outils et méthodes
Dr SARR
SYLLABUS A VISITER
2
Préférable
Ordinateur Curiosité Logiciels statistiques
Attentif au cours
Prise de notes
Retard accepté pour les 10 premières minutes
Silence Téléphone en vibreur
Etat des connaissances
La statistique descriptive Echantillon
Population ? Variable statistique
Médiane
Variable qualitative
Corrélation
Variance
Variable dépendante Variable quantitative
Variable indépendante
Coefficient et amplitude de variation
4. Indicateurs de dispersion
Les caractéristiques de dispersion sont nombreux : intervalle de variation,
variance, écart-type, coefficient de variation, intervalles interquartiles.
Fabrice Mazerolle, 2006
4.1. Intervalle de variation
L’intervalle, c’est la différence entre la plus grande valeur et la plus petite valeur
de la variable.
Exemple : Soit deux élèves dont les notes dans 4 matières ont été les suivantes :
Elève A : {8, 9, 10, 11, 12} et Elève B : {2, 4, 16, 18}
L’étendue des notes de A est 12-8 = 4, tandis que l’étendue des notes de B est
18-2 = 16.
La moyenne des 2 élèves est de 10.
Les Notes de B sont plus dispersées que celles de A. En fait, si on fait le
rapport 16/4, on constate que les notes de B sont 4 fois plus dispersées que
celles de A.
L’intervalle de variation donne une première idée d’une dispersion de la série
mais reste très sensible aux valeurs extrêmes.
4.2. Variance
La variance renseigne sur la dispersion des données autour de la moyenne.
La variance est le moment d’ordre deux de la distribution ; c’est aussi la
moyenne des écarts quadratiques à la moyenne.
Elle est symbolisée par :
4.3. Ecart type
L’écart type d’une distribution n’est autre que la racine carrée de la
variance.
Les propriétés de la variance et de l’écart type sont :
• Si toutes les observations sont d’égale valeur, la variance est nulle ;
• Plus les données s’avèrent inégales ou dispersées, plus la variance est
grande;
• La variance est très sensible aux valeurs exceptionnelles (forte
augmentation);
• La variance est toujours positive ou nulle;
• L’écart type s’exprime dans les mêmes unités que la moyenne
4.3. Ecart type (suite)
https://www.youtube.com/watch?v=vEzuS_KAid0
4.4. Coefficient de variation
Le coefficient de variation est très utile pour faciliter l’interprétation de la
variation, contrairement à la variance et l’écart type. Elle est symbolisée
par :
CV = pour la population statistique
CV = pour l’échantillon statistique
4.5. Intervalle interquartile
L’intervalle interquartile est une mesure de la variation qui n’est pas
influencée par les valeurs extrêmes, contrairement à l’intervalle de
variation.
Elle mesure l’étendue des 50% des valeurs situées au milieu d’une série
de données classées.
4.5. Intervalle interquartile
La distribution est divisée en 3 parties :
Si les deux parties sont d’égale importance, il s’agit de la
médiane
Si la première partie comporte 25% des valeurs, on parlera de
premier quartile
Si la troisième partie comporte 75% des valeurs, on dira le
troisième quartile
4.5. Intervalle interquartile
Il se calcule en 4 étapes :
a) Classement des données par ordre croissant ;
b) Trouver la médiane pour avoir les deux sous ensembles (Cf.
partie sur la médiane)
c) Déterminer la médiane des deux sous ensembles, sans inclure
dans chacun d’eux la médiane de l’ensemble initial. La Me du
premier sous ensemble est appelée « premier quartile » et
désignée par Q1. La Me du second sous ensemble est appelée
« second quartile » et désignée par Q3
d) Calculer l’intervalle interquartile par : IQ = Q3 – Q1
4.5. Intervalle interquartile
Fabrice Mazerolle, 2006
4.5. Intervalle interquartile
Exemple : Soit la série de chiffres suivantes : {19, 4, 13, 17, 7, 1, 3, 9, 14, 12, 20,
16, 15, 11, 6, 5}
a) Ordonnons : {1, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 19, 20}
b) Déterminons les 2 sous ensembles et la Me de l’ensemble et les Me des sous
ensembles :
{1, 3, 4, 5, 6, 7, 9, 11, 12, 13, 14, 15, 16, 17, 19, 20}
c) Calculons Intervalle interquartile :
IQ = Q3 – Q1 = 16 – 5 = 11
5. Régression bivariée
5.1. Série statistique bivariée
On s’intéresse à deux variables x et y. Ces deux variables sont mesurées sur
les n unités d’observation. Pour chaque unité, on obtient donc deux mesures.
La série statistique est alors une suite de n couples des valeurs prises par les
deux variables sur chaque individu :
(x1, y1), . . . , (xi, yi), . . . , (xn, yn).
Chacune des deux variables peut être soit quantitative, soit qualitative.
A. Représentation graphique de deux variables
Dans ce cas, chaque couple est composé
de deux valeurs numériques. Un couple de yi xi yi xi
60 155 75 180
nombres (entiers ou réels) peut toujours
61 162 76 175
ˆetre représenté comme un point dans un
64 157 78 173
plan
67 170 80 175
68 164 85 179
(x1 , y1 ), . . . , (xi, yi), . . . , (xn, yn).
69 162 90 175
Exemple. On mesure le poids Y et la taille X
70 169 96 180
de 20 individus.
70 170 96 185
72 178 98 189
73 173 101 187
B. Analyse des variables
Les variables x et y peuvent être analysées séparément. On peut calculer
tous les paramètres dont les moyennes, les écarts types et les variances
Nuage de points
La dispersion des points sur chacun des axes est la variance de chacune
des variables.
L’inclinaison de la projection du nuage de points sur un plan composé de 2
axes symbolisant 2 variables est fournie par la covariance.
C. Covariance
Le centre de gravité du nuage indique la position du nuage
La variance en X et en Y renseignent sur l’étalement du nuage dans la
direction de X et dans celle de Y
La covariance fournira une indication sur l’inclinaisondu nuage de points.
La covariance est le produit des moments centrés d’ordre un et est
une quantité décrivant la variation conjointe de deux variables aléatoires
La covariance peut prendre des valeurs
positives, négatives ou nulles.
Quand xi = yi, pour tout i = 1, . . . n, la
covariance est égale à la variance.
C. Covariance
Nous notons par Cov(X,Y) la covariance entre les variables
X et Y. La covariance est un paramètre qui donne la
variabilité de X par rapport à Y
Coefficient de corrélation
Coefficient de la droite
d’ajustement de Y en X
C. Covariance
EXERCICE :
Comment calculer la Covariance
Xi 4 12 23 40
yi 10 12 11 15
C. Covariance ------- exercice de calcul
Som. Moy.
Xi 4 12 23 40 79 19,75
yi 10 12 11 15 48 12
Xi - Moy -15,75 -7,75 3,25 20,25
Yi - Moy -2 0 -1 3
31,5 0 -3,25 60,75 89
Cov (x;y) = ¼ 4 représente le nombre de valeurs du tableau
Xi ou yi représente une valeur
représente les moyennes de x et y
ETAPE 1.
Calculer les sommes pour ensuite avoir les moyennes
ETAPE 2.
Calculer séparément les
ETAPE 3.
Calculer le produit
ETAPE 4.
Calculer la Covariance
D. Coefficient de corrélation de Pearson
La corrélation de Pearson, parfois appelée de Bravais-Pearson, est une
mesure symétrique de liaison linéaire existant entre 2 variables
quantitatives aléatoires. On l’appelle aussi coefficient de corrélation
linéaire entre les variables X et Y. Il est aussi la covariance divisée par les
deux écart-types marginaux.
Ce coefficient est égale à :
D. Coefficient de corrélation de Pearson
La corrélation de Pearson renvoie à la relation entre 2 variables
quantitatives aléatoires. Elle est symétrique ou asymétrique c’est-à-dire
la permutation X et Y est possible. L’intensité de la relation est mesurée
par le coefficient de corrélation. Il se définit comme suit :
Il varie entre -1 et 1 ;
Le signe indique le sens de la relation (linéaire positive ou négative). Le
signe du coefficient est celui de la pente de la tendance linéaire. Il sera
donc positif si une valeur élevée de Xj est associée à une valeur élevée
de Xp et il est négatif si une valeur élevée de Xj est associée à une valeur
faible de Xp ;
S’il est proche de 0, la relation, symbolisée par (r) entre les 2 variables est
faible ;
La corrélation est forte si (r) est proche de 1 ou de -1.
D. Coefficient de corrélation de Pearson
Relation forte
D. Coefficient de corrélation de Pearson
Aucune relation
D. Coefficient de corrélation de Pearson
E. Régression linéaire simple
Une relation fonctionnelle entre une variable
explicative/indépendante X et une variable expliquée/dépendante Y
est une fonction mathématique de la forme Y = f(X).
Si cette relation est linéaire, elle s’écrit Y = aX + b, et le graphe
qui la représente est une droite.
a: est l’ordonnée à l’origine ou coefficient directeur (valeur de Y
pour X=0)
b: est l’intercept (variation moyenne de Y quand X augmente d’une
unité) – l’erreur
6. Régression linéaire simple
Ainsi, si un comprimé contient 100 mg de principe actif
et si la production d’un lot de comprimés nécessite de
conserver 20 comprimés pour les contrôles, la relation
fonctionnelle entre la quantité totale Y de principe actif
à synthétiser et le nombre total X de comprimés à
délivrer s’écrit :
Y = 100X + 2000.
Tous les points de coordonnées (xi, yi) sont
parfaitement alignés.
6. Régression linéaire simple
6. Régression linéaire simple
Contrairement à la relation fonctionnelle, la relation statistique n’est pas
parfaite, et tous les points de coordonnées (xi, yi) ne tombent pas sur
la courbe de la fonction.
La relation entre le nombre total d’arbres dénombrés dans une
parcelle échantillon positionnée au hasard dans une foret et la taille
de la parcelle est une relation statistique, car la répartition spatiale des
arbres n’est pas parfaitement régulière.
6. Régression linéaire simple
Les points de coordonnées (xi, yi) forment alors un nuage de points. Une
droite, qui traverse au mieux le nuage de points, permet d’estimer une valeur ^y
pour chaque valeur x.
Cette droite porte le nom de droite d’estimation ou de droite de régression.
Le terme de régression remonte à l’étude de Sir Francis Galton (1889), qui
constata que les fils de père de petite étaient petits, mais en général plus
grands que leur père et que l’inverse se produisait pour les fils de père de
grande taille.
6. Régression linéaire simple
Une relation causale est une relation fonctionnelle ou statistique dans
laquelle le facteur X est effectivement le facteur qui détermine
totalement ou partiellement la valeur de la variable Y dans le système
étudié.
On parle également de relation de cause à effet.
6. Régression linéaire simple
Droite de régression :
L’idée est de transformer un nuage de point en une droite. Celle-ci
doit être la plus proche possible de chacun des points. On
cherchera donc à minimiser les écarts entre les points et la droite.
6. Régression linéaire simple
EXERCICE :
Droite de régression – Coefficient de corrélation
Année 2011 2012 2013 2014 2015 2016 2017
Rang xi 1 2 3 4 5 6 7
Production yi 76 81,7 83 89,8 90,7 91 93
en million
1. Représenter graphiquement le nuage de points Mi (xi ; yi) avec 1 ≤ i ≤ 7
2. Déterminer le coefficient de corrélation linéaire r entre x et y et interpréter le
3. Donner l’équation de la droite de régression de y en x
4. On suppose que l’évolution de cette production se poursuit ainsi, donc,
Estimer quand la production mondiale de véhicules dépassera 100 millions
CORRIGE : Titre du graphique
Droite de régression – Coefficient de corrélation 100
95
90
85
80
75
70 y = 2,7607x + 75,414
65 R² = 0,9021
60
0 1 2 3 4 5 6 7 8
Représenter graphiquement le nuage de points Mi (xi ; yi) avec 1 ≤ i ≤ 7
Déterminer le coefficient de corrélation linéaire r entre x et y et interpréter le
Vue la valeur de R2, il existe une bonne relation/corrélation entre le nombre de voitures
produits et les années ------ donc notre modèle est bon pour nous permettre d’estimer
les années à venir.
Donner l’équation de la droite de régression de y en x
a = 2,7607 ; b = 75,414 ; y = 2,7607x + 75,414
On suppose que l’évolution de cette production se poursuit ainsi. Donc, Estimer quand la
production mondiale de véhicules dépassera 100 millions.
Il suffit de remplacer x par 8, 9 10, etc. pour voir à quel moment y serait égale à 100
millions
7. Résumé
SUITE