Cours 1 Final
Cours 1 Final
Cours 1 Final
Statistiques descriptives
1.1 Introduction
Voici une définition de statistique :
Les statistiques ont pour objet l’étude de populations en général nombreuses : des-
cription de leurs propriétés à l’aide de tableaux, graphiques et traitements numé-
riques (paramètres tels que moyennes, médiane, variance ...). Ce sont les statistiques
descriptives ou déductives
La statistique est d’un point de vue théorique une science, une méthode
et une technique. La statistique comprend : la collecte des données, le
traitement des données collectées, l’interprétation des données et la pré-
sentation afin de rendre les données compréhensibles par tous.
Donnons quelques exemples d’utilisation de la statistique dans divers domaines.
• économie, assurance, nance : prévisions économétriques, analyse de la consom-
mation des ménages, fixation des primes d’assurance et franchises, études
quantitatives de marchés, gestion de portefeuille, évaluation d’actifs financiers,
···
• biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des
populations, analyse du génôme, · · ·
• sciences de la terre : prévisions météorologiques, exploration pétrolière, · · ·
• sciences humaines : enquêtes d’opinion, sondages, études de populations, · · ·
• sciences de l’ingénieur : contrôle de qualité, maîtrise statistique des procé-
dés (méthode « six-sigma »), sûreté de fonctionnement (fiabilité, disponibilité,
sécurité,...), maîtrise des risques industriels, évaluation des performances des
systèmes complexes, · · ·
• sciences de l’information et de la communication : traitement des images
et des signaux, reconnaissance des formes et de la parole, analyse exploratoire
des grandes bases de données, analyse des réseaux de communication, · · ·
1
• physique : mécanique statistique, théorie cinétique des gaz, · · ·
Dans ce cours nous nous intéresserons à un type de statistique en particulier : celle
qui n’étudie qu’un caractère ou qu’une variable à la fois ; on parle alors de statistique
unidimensionnelle ou de statistique à une seule variable.
Dénition 1. Une étude statistique unidimensionnelle porte sur une caractéristique
bien définie que l’on désigne par caractère ou variable et qui est présente chez
chacun des éléments ou individus d’un ensemble donné appelé population.
Par exemple la population peut être les étudiants d’une classe et le caractère peut être
les notes à l’examen de fin d’année.
On distingue deux types de caractères.
Dénition 2. Une variable, ou caractère, statistique est dite qualitative si ses valeurs
s’expriment de façon littérale ou par un codage sur lequel les opérations arithmé-
tiques n’ont pas de sens.
Par exemple le sexe des personnes interrogées, le numéro de leur département de
naissances (bien que cela soit des nombres et que les opérations arithmétiques usuelles
soient valides, il n’y a aucun sens à considérer la somme de numéro de département
ou la moyenne de ces numéros ; il s’agit ici d’un codage), leur situation familiale, la
mention recalé, passable, assez bien, bien et très bien que peut avoir un étudiant à un
examen.
Dans ce dernier exemple on dit que le caractère est ordinal car on peut tout de même
ordonner les valeurs du caractères. Dans les autres exemples, on parle de caractère,
ou variable, nominale (ne sont décrit que par leur nom).
Dénition 3. Une variable, ou caractère, statistique est dite quantitative si ses va-
leurs sont des nombres sur lesquels les opérations arithmétiques ont un sens. Elle
peut être de deux formes :
• Discrète : si elle ne prend qu’un nombre fini de valeur. Ces valeurs sont appelées
des modalités.
• Continue : si elle prend ses valeurs dans un intervalle. Ces intervalles sont appe-
lées des classes.
Dénition 4. Une série statistique est l’ensemble des modalités ou classes corres-
pondant à tous les individus de la population considérée.
12 11 7 10 9 3
12 15 8 8 14 11
7 2 0 18 11 14
16 11 9 12 11 11
15 10 15 7 14 10
Caractères x1 x2 · · · xk
Effectifs n1 n2 · · · nk
Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Par construction on a la proposition suivante.
1 + 1 + 1 + 3 + 2 + 2 + 3 + 6 + 3 + 3 + 3 + 1 + 1 = 30
Caractères x1 x2 · · · xk
Effectifs n1 n2 · · · nk
Fréquences f1 f2 · · · fk
Pourcentages p1 p2 · · · pk
Ce qui donne dans notre exemple :
Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Fréquences 1
30
1
30
1
30
1
10
1
15
1
15
1
10
1
5
1
10
1
10
1
10
1
30
1
30
Pourcentages 10
3%
10
3%
10
3% 10% 20
3%
20
3%
10% 20% 10% 10% 10% 10
3%
10
3%
On interprète cela en observant, par exemple, que 20% des étudiants ont obtenu un
1120 à leur examen.
Dénition 8. L’effectif cumulé croissant (resp. décroissant) pour la modalité xi est
la somme des effectifs des modalités qui lui sont inférieures (resp. supérieures).
i
∑
Ni = nj
j=1
k
∑
resp. Ni′ = nj
j=i
k
∑
On observe en particulier que Nk (resp. N1′ ) = nj = n (l’effectif total). On com-
j=1
plète le tableau :
Caractères x1 x2 ··· xk
Effectifs n1 n2 ··· nk
Effectifs cumulés croissants n1 n1 + n2 · · · n1 + · · · + nk
Effectifs cumulés décroissants n1 + · · · + nk n2 + · · · + nk · · · nk
Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Effectifs cumulés croissants 1 2 3 6 8 10 13 19 22 25 28 29 30
Effectifs cumulés décroissant 30 29 28 27 24 22 20 17 11 8 5 2 1
On peut interpréter ces résultats en observant, par exemple, que 10 étudiants ont
obtenu une note strictement inférieure à 10.
Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Fréquences 1
30
1
30
1
30
1
10
1
15
1
15
1
10
1
5
1
10
1
10
1
10
1
30
1
30
Pourcentages 10
3 %
10
3 %
10
3 % 10% 20
3 %
20
3 % 10% 20% 10% 10% 10% 10
3 %
10
3 %
Effectifs cumulés
1 2 3 6 8 10 13 19 22 25 28 29 30
croissants
Fréquences cumulés 1 1 1 1 4 1 13 19 11 5 14 29
1
croissantes 30 15 10 5 15 3 30 30 15 6 15 30
Fréquences cumulés
1 29 14 5 23 7 3 2 3 1 1 1 1
décroissantes 30 15 6 30 10 5 5 10 5 10 15 30
On interprète cela en observant, par exemple, que 80% des étudiants on obtenu une
note supérieur ou égale à 8.
6
6
Effectifs
4 3 3 3 3 3
2 2
2 1 1 1 1 1
0
0 2 3 7 8 9 10 11 12 14 15 16 18
Notes
Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Angles 12 12 12 36 24 24 36 72 36 36 36 12 12
Le diagramme circulaire correspondant est alors :
9 8
7
10
24 24 3
36
36
12 2
12 0
12
72 12 18
11 12
36 16
36 36
15
12
14
Axe : modalités
min Q1 M e Q3 max de la série
Pour renormaliser cette donnée (le passage au carré), on considère plus sou-
vent l’écart-type.
L’écart-type d’une série statistique est définie comme la racine carrée de la va-
riance : √
σs = vs
26 22 41 43 18 31 34 28 26 21 44
52 60 62 34 38 23 31 40 58 60 33
33 26 28 30 29 29 29 29 33 35 33
26 42 24 22 44 41 47 30 49 32 37
26 51 28 55 52 61 47 22 19 27 25
Exemple 1 : 35 33 25 34 43 42 41 30 29 27 51
52 31 32 29 25 21 31 41 21 31 51
32 22 42 52 23 44 50 51 29 29 29
28 27 29 35 43 49 57 57 57 31 33
33 48 49 22 18 19 20 21 22 23 23
23 19 44 55 33 48 28 42 54 25 29
Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Effectif 16 18 28 15 10 9 14 6 5
Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Centre des classes 20.5 25.5 30.5 35.5 40.5 45.5 50.5 55.5 60.5
Effectif 16 18 28 15 10 9 14 6 5
Dénition 12. La série statistique discrète associé à S est la série dont les modalités
sont les centres de classe et les effectifs correspondant aux classes respectives.
On peut donc appliquer dans ce cadre les définitions d’effectifs, effectif total, effec-
tifs cumulés, fréquences, fréquences cumulées.
Dénition 13. Soit S une série statistique à caractère continue. La densité d’effectif
de la classe [bi ; bi+1 [ est le rapport entre l’effectif du centre de classe correspondant
par l’amplitude de la classe.
ni
bi+1 − bi
Lors de la réalisation d’un histogramme, il est indispensable de distinguer deux cas.
1. Si les amplitudes de classes sont égales, la hauteur des rectangles correspondra
aux effectifs (ou aux fréquences) des classes.
2. Si les amplitudes sont différentes, afin de constituer l’histogramme, il est né-
cessaire de :
• calculer, pour chaque classe, l’amplitude ai
ni fi
• calculer la densité di = pour un histogramme des effectifs, et di =
ai ai
pour un histogramme des fréquences
• affecter à chaque rectangle une hauteur proportionnelle à la densité di de
la classe correspondante.
Soit min(ai ) l’amplitude minimale de classe, la hauteur est alors appelée
effectif corrigé et notée
ni c = di × min(ai )
fi c = di × min(ai )
Puisque la hauteur d’un rectangle est la densité d’effectif, l’aire d’un rectangle de
ni
l’histogramme, qui est le produit de la hauteur par la longueur bi+1 − bi , est
bi+1 − bi
égale à l’effectif ; ceci permet donc une meilleur illustration de la série étudiée.
Avec notre exemple 1, comme les classes ont la même amplitude, cela donne :
Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Effectif 16 18 28 15 10 9 14 6 5
hauteur 3, 2cm 3,6 cm 5,6 cm 3 cm 2 cm 1,8 cm 2,8 cm 1,2 cm 1 cm
56
36
Effectifs
32
3
28
2
18
12
1
0
18 23 28 33 38 43 48 53 58 63
Classes
Voici un deuxième exemple dans lequel les amplitudes des classes sont différentes :
Exemple 2 :
Une entreprise a effectué une enquète auprès de son personnel en leur demandant la
distance en km qui sépare l’usine de leur domicile. On a obtenu le tableau statistique
suivant :
Distance (en km ) [0 ;10[ [10 ;20[ [20 ;30[ [30 ;50[ [50 ;100[
Effectif 150 75 50 100 100
Pour construire l’histogramme, on complète le tableau comme suit :
Distance (en km ) [0 ;10[ [10 ;20[ [20 ;30[ [30 ;50[ [50 ;100[
Amplitude 10 10 10 20 50
Effectif 150 75 50 100 100
Ef f ectif
Densité = 15 7,5 5 5 2
Amplitude
Effectif corrigé 150 75 50 50 20
Hauteur de la bande 3 cm 1,5 cm 1 cm 1 cm 0,4 cm
On l’obtient l’histogramme :
Effectifs corrigés
15
1
0
0 10 20 30 50 100
Classes
Les quantiles se calculent par interpolation linéaire, via les relations suivantes :
On détermine la classe médiane, par exemple [bi−1 , bi [. On sait que l’effectif cumulé
n 1
de la médiane est égale à et sa fréquence cumulée croissante est égale à .
2 2
bi−1 Me bi bi−1 Me bi
n ou 1
ECC(bi−1 ) ECC(bi ) f cc(bi−1 ) f c(bi )
2 2
où ECC(bi−1 ) est l’effectif cumulé croissant de la classe précédant la classe médiale
et ECC(bi ) est l’effectif cumulé croissant de la classe médiane ; f cc(bi−1 ) est la fré-
quence cumulée croissante de la classe précédant la classe médiane et f cc(bi ) est lla
fréquence cumulée croissante de la classe médiane.
L’un des tableaux ci dessus permettent de mémoriser la formule d’interpolation li-
néaire :
Me − bi−1 bi − bi−1
n =
− ECC(bi−1 ) ECC(bi ) − ECC(bi−1 )
2
ou
Me − bi−1 bi − bi−1
=
1 f cc(bi ) − f cc(bi−1 )
− f cc(bi−1 )
2
On obtient des formules similaires pour les premier et deuxième quartiles Q1 et Q3
n 3n 1 3
en remarquant que ECC(Q1 ) = , ECC(Q3 ) = , f cc(Q1 ) = et f cc(Q3 ) = .
4 4 4 4
Avec notre exemple :
Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Centre des classes 20,5 25,5 30,5 35,5 40,5 45,5 50,5 55,5 60,5
Effectif 16 18 28 15 10 9 14 6 5
Effectif cumulé croissant 16 34 62 76 87 96 110 116 121
Fréquence cumulée croissante 0,132 0,281 0,512 0,628 0,719 0,793 0,909 0,959 1
n 121
= = 60, 5. Donc la classe médiane est [28; 33[ et
2 2
Me − 28 33 − 28
=
60, 5 − 34 62 − 34
Me = 32, 73