Introduction à la Statistique 2019-2020
Introduction à la Statistique 2019-2020
UCAO-IEG : Licence 1
Année Universitaire 2019-2020
Armel Yodé 3
Armel Yodé
Armel Yodé 4
Table des matières
1 Introduction 9
1.1 Terminologie de base . . . . . . . . . . . . . . . . . . . . 9
1.2 Caractères . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Caractère qualitatif . . . . . . . . . . . . . . . . 10
1.2.2 Caractère quantitatif . . . . . . . . . . . . . . . . 11
1.2.2.1 Caractère quantitatif discret . . . . . . 11
1.2.2.2 Caractère quantitatif continu . . . . . . 11
1.3 Effectif, fréquences . . . . . . . . . . . . . . . . . . . . . 12
1.4 Présentation générale des tableaux statistiques . . . . . 13
2 Représentations graphiques 15
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2 Diagrammes à secteurs . . . . . . . . . . . . . . . . . . . 15
2.3 Diagramme en barres, diagramme en bâtons . . . . . . . 17
2.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . 19
2.5 Diagramme de fréquences cumulées . . . . . . . . . . . . 21
2.5.1 Cas d’un caractère qualitatif ordinal . . . . . . . 21
2.5.2 Cas d’un caractère quantitatif discret . . . . . . 21
2.5.3 Cas d’un caractère quantitatif continu . . . . . . 23
3 Paramètres numériques 27
3.1 Paramètres de tendance centrale . . . . . . . . . . . . . 27
3.1.1 Le mode . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1.1 Caractère quantitatif discret . . . . . . 27
3.1.1.2 Caractère quantitatif continu . . . . . . 27
3.1.1.3 Remarques . . . . . . . . . . . . . . . . 28
3.1.2 La moyenne arithmétique . . . . . . . . . . . . . 28
3.1.2.1 Données brutes . . . . . . . . . . . . . 28
5
Armel Yodé
4 Indices statistiques 45
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Indices élémentaires . . . . . . . . . . . . . . . . . . . . 45
4.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . 45
4.2.2 Propriétés d’un indice . . . . . . . . . . . . . . . 46
4.2.2.1 Circularité (ou transférabilité ou tran-
sitivité) . . . . . . . . . . . . . . . . . . 46
4.2.2.2 Réversibilité . . . . . . . . . . . . . . . 47
4.3 Indices synthétiques . . . . . . . . . . . . . . . . . . . . 47
4.3.1 Indice de Laspeyres . . . . . . . . . . . . . . . . 48
Armel Yodé 6
Armel Yodé
Armel Yodé 7
Armel Yodé
Armel Yodé 8
Chapitre 1
Introduction
9
Armel Yodé
1.2 Caractères
On distingue deux types de caractères : le caractère qualitatif et le
caractère quantitatif.
Armel Yodé 10
Armel Yodé
- Individu : un étudiant
- Caractère : groupe sanguin.
- Modalités : A, B, AB et O.
Armel Yodé 11
Armel Yodé
k
X
n = n1 + . . . + nk = ni .
i=1
Armel Yodé 12
Armel Yodé
Armel Yodé 13
Armel Yodé
Armel Yodé 14
Chapitre 2
Représentations
graphiques
2.1 Introduction
La représentation graphique a pour objectif de visualiser la distribu-
tion des données. Dans ce chapitre, nous passons en revue les principales
représentations graphiques utilisées dans les analyses statistiques. Se-
lon le type de variable statistique étudié, on a recours à des graphiques
différents.
ni
αi = × 360 = fi × 360.
n
15
Armel Yodé
Afrique
Oceanie
Asie
Amerique
Europe
Armel Yodé 16
Armel Yodé
Groupe sanguin A B AB O
Effectif 25 10 12 3
Armel Yodé 17
Armel Yodé
25
20
15
10
5
0
A B AB O
Armel Yodé 18
Armel Yodé
2.4 Histogramme
L’histogramme est la représetation graphique de la distribution des
effectifs ou des fréquences d’une variable statistique continue. Pour
construire l’histogramme, on place en abscisse les différentes extrémités
ai des classes, puis on trace, pour chaque classe, un rectangle parallèle
aux axes, de telle sorte que la partie parallèle à l’axe des abscisses ait
une longueur correspondant à l’amplitude de la classe et que la surface
du rectangle soit proportionnelle à l’effectif (ou à la fréquence) de la
classe (ceci afin de bien visualiser l’importance de chaque classe).
- Choix de l’unité d’amplitude u : on retiendra par exemple le
pgcd des diverses amplitudes.
- Expression des amplitudes dans cette nouvelle unité d’ampli-
tude :
ai − ai−1
ei =
u
- La hauteur hi de chaque rectangle est égale à
fi
hi =
ai
de telle sorte que la surface des rectangles représentatifs est égale
à la fréquence de la classe correspondante.
Armel Yodé 19
Armel Yodé
60
50
40
30
20
10
0
1 2 3 4 5
Armel Yodé 20
Armel Yodé
Table 2.2 – Répartition des ouvriers selon leur salaire mensuel net (en
milliers francs).
ou
0 si x < x1
FX (x) = Ni si xi ≤ x < xi+1 i = 1, . . . , k − 1,
n si x ≥ xk
Armel Yodé 21
Armel Yodé
0.04
0.03
0.02
0.01
0.00
Armel Yodé 22
Armel Yodé
0 si x < 1
10 si 1 ≤ x < 2
30 si 2 ≤ x < 3
F (x) =
50 si 3 ≤ x < 4
80 si 4 ≤ x < 5
100 x ≥ 5
F (80) = 0
F (100) = 0.186
F (110) = 0.421
F (120) = 0.879
F (130) = 0.929
F (150) = 1.
Armel Yodé 23
Armel Yodé
1.0
0.8
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6
Armel Yodé 24
Armel Yodé
1.0
0.8
0.6
0.4
0.2
0.0
Armel Yodé 25
Armel Yodé
Armel Yodé 26
Chapitre 3
Paramètres numériques
3.1.1 Le mode
Le mode peut être calculé pour tous les types de caractère (quanti-
tatif ou qualitatif). Le mode n’est pas nécessairement unique.
27
Armel Yodé
la classe modale. La classe modale n’est pas la classe de plus grande fré-
quence mais la classe de plus grande densité c’est à dire de plus grande
fréquence par amplitude. Il est néanmoins possible de déterminer une
valeur unique comme mode.
La classe modale [xi , xi+1 [ étant déterminée, le mode M0 est égale est :
∆1
M0 = x i + (xi+1 − xi ).
∆1 + ∆2
Lorsque les classes adjacentes à la classe modale ont des densités de
fréquences égales, le mode coincide avec le centre de la classe modale.
3.1.1.3 Remarques
- Le mode dépend beaucoup de la répartition en classes.
-
Armel Yodé 28
Armel Yodé
3.1.2.4 Remarques
- La moyenne n’est pas nécessairement une valeur observable du
caractère.
- La moyenne est sensible aux valeurs extrêmes ou atypiques.
Armel Yodé 29
Armel Yodé
3.1.6 La médiane
La médiane Me est la valeur du caractère pour laquelle la fréquence
cumulée est égale à 0.5. Elle correspond donc au centre de la série
statistique classée par ordre croissant ou à la valeur pour laquelle 50%
des valeurs observées sont supérieures et 50% sont inférieures.
3.1.6.3 Remarques
- La médiane peut être calculéee pour un caractère quantitatif et
pour un caractère qualitatif ordinal.
- La médiane est plus robuste que la moyenne car elle n’est pas
influencée par les valeurs extrêmes.
- La médiane est influencée par le nombre d’observations.
Armel Yodé 30
Armel Yodé
ai−1 Fi−1
xα α
ai Fi
Armel Yodé 31
Armel Yodé
100 18.6
Q1 25
110 42.1
Par suite
25 − 18.6
Q1 = 100 + (110 − 100) = 102.72
42.1 − 18.6
110 42.1
Q2 50
120 87.9
Par suite
50 − 42.1
Q2 = 110 + (120 − 110) = 111.72
87.9 − 42.1
110 42.1
Q3 75
120 87.9
Par suite
75 − 42.1
Q3 = 110 + (120 − 110) = 117.18
87.9 − 42.1
Armel Yodé 32
Armel Yodé
b− = Q1 − 1.5(Q3 − Q1 )
b+ = Q3 + 1.5(Q3 − Q1 ).
Les valeurs au-délà des moustaches sont des valeurs hors norme
éventuellement suspectes ou aberrantes mais pas nécessairement.
Ce diagramme est utilisé notamment pour comparer un même caractère
dans deux ou plusieurs échantillons de tailles différentes.
Groupe 1 2 5 10 10 10 15 18
Groupe 2 8 9 10 10 10 11 12
Armel Yodé 33
Armel Yodé
3.2.1 L’étendue
On appelle étendue l’écart entre la plus grande valeur et la plus
petite valeur. Posons
xmin = min(x1 , . . . , xn ) xmax = max(x1 , . . . , xn ).
L’etendue est définie par
E = xmax − xmin .
Plus l’étendue est faible, plus la série est moins dispersée. L’inconvé-
nient majeur de l’étendue est qu’il ne dépend que des valeurs extrêmes
qui sont souvent exceptionnelles et aberrantes.
Armel Yodé 34
Armel Yodé
k
1X
EM A1 = n i | x i − Me | .
n i=1
k
1X
σ2 = ni (xi − x̄)2 .
n i=1
k
1X
σ2 = ni (ci − x̄)2 .
n i=1
ai + ai+1
où ci = est le centre de la classe [ai , ai+1 [.
2
L’écart-type σ est la racine carrée de la variance.
Armel Yodé 35
Armel Yodé
Armel Yodé 36
Armel Yodé
3.3.1 La médiale
La médiale est la valeur du caractère qui partage la valeur totale
ou la masse totale en deux parties égales. La médiale se détermine par
interpolation linéaire sur les valeurs globales relatives cumulées crois-
santes.
Soit X un caractère continu dont les observations sont rangées dans les
classes [ai−1 , ai [, k = 1, . . . , k. Soit ni l’effectif de la classe [ai−1 , ai [ et
ai−1 + ai
ci = son centre.
2
• On appelle ni ci la valeur globale (v.g.) associée à la classe [ai−1 , ai [.
Xn
• ni ci est appelée valeur totale ou masse totale du caractère
i=1
étudié.
ni ci
• qi = n est la valeur globale relative (v.g.r.) associée à la
X
n i ci
i=1
classe [ai−1 , ai [. qi désigne la part, dans la valeur totale, detenur
par les individus ayant une valeur du caractère appartenant à la
classe [ai−1 , ai [.
i
X
• V (ai ) = Vi = qj est appelée valeur globale relative cumulée
j=1
croissante (v.g.r.c.c). Elle indique la part, dans la valeur totale,
detenue par les individus ayant une valeur du caractère appar-
tenant à la classe [ai−1 , ai [.
ai−1 Vi−1
M 0.5
ai Vi
Armel Yodé 37
Armel Yodé
110 37.59
M 50
120 85.26
Armel Yodé 38
Armel Yodé
50 − 37.59
M = 110 + (120 − 110) × .
65.26 − 37.59
Armel Yodé 39
Armel Yodé
Figure 3.2 –
3.4.1 Moments
Pour un caractère quantitatif discret dont les n observations sont
rangées selon ses k modalités x1 , . . . , xk d’effectifs respectifs n1 , . . . , nk ,
le moment centré d’ordre r est défini par
k
1X
µr = ni (xi − x̄)r .
n i=1
Armel Yodé 40
Armel Yodé
ai + ai+1
où ci = est le centre de la classe [ai , ai+1 [.
2
Remarque 4. µ0 = 1, µ1 = 0 et µ2 est la variance.
3.4.2 Asymétrie
Le coefficient d’asymétrie de Pearson
Dans une distribution faiblement asymétrique, c’est la position du
mode par rapport à la moyenne (ou à la médiane) qui caractérise l’asy-
métrie. Le coefficient d’asymétrie de Pearson est défini par :
X̄ − M0
s= .
σ
Armel Yodé 41
Armel Yodé
Interprétation
Quelque soit la formule adoptée, nous avons l’interprétation sui-
vante. Ces coefficients n’ont d’intérât que dans la mesure où ils per-
mettent de comparer les formes de deux ou plusieurs distributions ;
bien entendu, les comparaison ne sont valables que si la même formule
est retenue pour les diverses distributions.
1. s = 0 indique une distribution parfaitement symétrique. Dans
ce cas Me = M0 = x̄.
2. s > 0 indique une distribution unimodale étalée vers la droite.
Dans ce cas M0 < Me < x̄
3. s < 0 indique une distribution unimodale étalée vers la gauche.
Dans ce cas x̄ < Me < M0
3.4.3 L’aplatissement
Le coefficient d’aplatissement (kurtosis) permet de mesurer le re-
lief ou la platitude d’une courbe issue d’une distribution de fréquences.
On compare la courbe de fréquence de la distribution à la courbe de
fréquence de la distribution normale considérée comme la distribution
Armel Yodé 42
Armel Yodé
Armel Yodé 43
Armel Yodé
Armel Yodé 44
Chapitre 4
Indices statistiques
4.1 Introduction
Un indice est un instrument statistique permettant de caractériser
la variation relative d’un ensemble complexe entre deux situations de
temps ou de lieu appelées date de référence et date courante. Deux
catégories d’indices peuvent être distinguées selon le type de grandeur
étudiée. Ainsi, si l’on considère le prix d’un produit, la production d’une
entreprise donnée, le cours de l’action d’une société particulière, il s’agit
de grandeurs simples au sens où la grandeur est un nombre ne prenant
qu’une seule valeur dans une situation donnée. Les indices calculés sur
la base de ces grandeurs sont appelés indices élémentaires. En re-
vanche, le niveau général des prix, la production industrielle, le cours
des actions sont des grandeurs complexes dans la mesure où leur calcul
nécessite d’agréger un ensemble de valeurs hétérogènes (prix des diffé-
rents produits, production de diverses industries, cours de différentes
actions). Les indices calculés sur la base de ces grandeurs sont appelés
indices synthétiques.
45
Armel Yodé
Armel Yodé 46
Armel Yodé
4.2.2.2 Réversibilité
1
I1/0 = .
I0/1
X 1, . . . , X k .
Armel Yodé 47
Armel Yodé
i Xti
It/0 = .
X0i
Soient
- ω0i l’importance relative de la grandeur simple X i à la date de
référence 0
- ωti l’importance relative de la grandeur simple X i à la date cou-
rante t
Armel Yodé 48
Armel Yodé
4.3.4 Comparaison
Il n’existe pas de critère général permettant de statuer sur la supé-
riorité d’un indice synthétique par rapport à un autre. Il est cependant
possible de présenter les principaux avantages et inconvénients de ceux-
ci.
Supposons que l’on étudie l’évolution de la consommation d’un pa-
nier composé de plusieurs biens.
— Indice de Laspeyres. Les coefficients de pondération sont
fixes, c’est-à-dire que l’on suppose que la structure de la consom-
mation ne se modifie pas sur la période étudiée. En conséquence,
si l’on considère que les coefficients de pondération sont fixés à
la date de référence, plus la date courante est éloignée de cette
date, plus il est probable que la structure du panier de biens du
consommateur se soit modifiée et plus le risque que les coeffi-
cients de pondŕation soient obsolètes est important. Pour cette
raison, le principal inconvénient attribué à l’indice de Laspeyres
est qu’il tend à surestimer l’effet de l’évolution des prix sur le
pouvoir d’achat du consommateur dans la mesure où il ne tient
pas compte d’éventuelles substitutions entre les biens du panier
considéré.
— Indice de Paasche. Les coefficients de pondération sont ceux
de la date courante. Ceux-ci évoluent donc avec les prix, c’est-
à-dire que la part des différents biens au sein du panier consi-
déré évolue en même temps que les prix. Le calcul de l’indice
de Paasche nécessite en conséquence de disposer simultanément
des données relatives aux prix et aux quantités à chaque date
considéré (et non plus seulement des prix comme dans le cas
de l’indice de Laspeyres). Le principal inconvénient tient ici en
une difficulté de calcul supplémentaire liée à la disponibilité des
données, expliquant pourquoi l’indice de Laspeyres est plus fré-
quemment utilisé que l’indice de Paasche. Du fait de la variabi-
lité des coefficients de pondération, l’indice de Paasche tend, au
contraire de l’indice de Laspeyres, à sous-estimer l’effet de l’évo-
lution des prix sur le pouvoir d’achat du consommateur. Il est
important de souligner que les modifications de la structure de
Armel Yodé 49
Armel Yodé
Exemple 15. Entre janvier 2006 et janvier 2010, l’évolution des prix
et du nombre d’exemplaires de journaux vendus en un mois par une
société de presse éditant trois journaux mensuels A, B et C a été la
suivante :
Armel Yodé 50
Armel Yodé
Armel Yodé 51
Armel Yodé
Armel Yodé 52