[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
43 vues19 pages

Cours 1 Final

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 19

Chapitre 1

Statistiques descriptives
1.1 Introduction
Voici une définition de statistique :
Les statistiques ont pour objet l’étude de populations en général nombreuses : des-
cription de leurs propriétés à l’aide de tableaux, graphiques et traitements numé-
riques (paramètres tels que moyennes, médiane, variance ...). Ce sont les statistiques
descriptives ou déductives
La statistique est d’un point de vue théorique une science, une méthode
et une technique. La statistique comprend : la collecte des données, le
traitement des données collectées, l’interprétation des données et la pré-
sentation afin de rendre les données compréhensibles par tous.
Donnons quelques exemples d’utilisation de la statistique dans divers domaines.
• économie, assurance, nance : prévisions économétriques, analyse de la consom-
mation des ménages, fixation des primes d’assurance et franchises, études
quantitatives de marchés, gestion de portefeuille, évaluation d’actifs financiers,
···
• biologie, médecine : essais thérapeutiques, épidémiologie, dynamique des
populations, analyse du génôme, · · ·
• sciences de la terre : prévisions météorologiques, exploration pétrolière, · · ·
• sciences humaines : enquêtes d’opinion, sondages, études de populations, · · ·
• sciences de l’ingénieur : contrôle de qualité, maîtrise statistique des procé-
dés (méthode « six-sigma »), sûreté de fonctionnement (fiabilité, disponibilité,
sécurité,...), maîtrise des risques industriels, évaluation des performances des
systèmes complexes, · · ·
• sciences de l’information et de la communication : traitement des images
et des signaux, reconnaissance des formes et de la parole, analyse exploratoire
des grandes bases de données, analyse des réseaux de communication, · · ·

1
• physique : mécanique statistique, théorie cinétique des gaz, · · ·
Dans ce cours nous nous intéresserons à un type de statistique en particulier : celle
qui n’étudie qu’un caractère ou qu’une variable à la fois ; on parle alors de statistique
unidimensionnelle ou de statistique à une seule variable.
Dénition 1. Une étude statistique unidimensionnelle porte sur une caractéristique
bien définie que l’on désigne par caractère ou variable et qui est présente chez
chacun des éléments ou individus d’un ensemble donné appelé population.
Par exemple la population peut être les étudiants d’une classe et le caractère peut être
les notes à l’examen de fin d’année.
On distingue deux types de caractères.
Dénition 2. Une variable, ou caractère, statistique est dite qualitative si ses valeurs
s’expriment de façon littérale ou par un codage sur lequel les opérations arithmé-
tiques n’ont pas de sens.
Par exemple le sexe des personnes interrogées, le numéro de leur département de
naissances (bien que cela soit des nombres et que les opérations arithmétiques usuelles
soient valides, il n’y a aucun sens à considérer la somme de numéro de département
ou la moyenne de ces numéros ; il s’agit ici d’un codage), leur situation familiale, la
mention recalé, passable, assez bien, bien et très bien que peut avoir un étudiant à un
examen.
Dans ce dernier exemple on dit que le caractère est ordinal car on peut tout de même
ordonner les valeurs du caractères. Dans les autres exemples, on parle de caractère,
ou variable, nominale (ne sont décrit que par leur nom).
Dénition 3. Une variable, ou caractère, statistique est dite quantitative si ses va-
leurs sont des nombres sur lesquels les opérations arithmétiques ont un sens. Elle
peut être de deux formes :
• Discrète : si elle ne prend qu’un nombre fini de valeur. Ces valeurs sont appelées
des modalités.
• Continue : si elle prend ses valeurs dans un intervalle. Ces intervalles sont appe-
lées des classes.
Dénition 4. Une série statistique est l’ensemble des modalités ou classes corres-
pondant à tous les individus de la population considérée.

1.2 Série statistique à caractère discret


Dans la suite de ce chapitre, on fixe une série statistique à caractère discret S. Cela
signifie que S est un ensemble fini de nombres réels. Il existe donc des nombres
αi ∈ R tel que S = α1 , α2 , · · · , αn 
On note k le nombre de modalité différente et x1 , x2 , , xk ces différentes modalités
ordonnées dans l’ordre permettant au mieux d’observer la série (dans la plupart des
cas c’est dans l’ordre croissant).
Pour illustrer les définitions et notions nous utiliserons l’exemple suivant jusqu’à la
fin du chapitre :
• La population étudiée est un groupe de TD de 30 étudiants.
• Le caractère étudié est les résultats obtenus à l’examen de mathématiques. Les
notes, sur 20, sont les suivantes :

12 11 7 10 9 3
12 15 8 8 14 11
7 2 0 18 11 14
16 11 9 12 11 11
15 10 15 7 14 10

Le nombre de modalité différente est de 13 ( k = 13 tandis que n = 30) et les


différentes modalités sont x1 = 0, x2 = 2, x3 = 3, x4 = 7, x5 = 8, x6 = 9, x7 = 10,
x8 = 11, x9 = 12, x10 = 14, x11 = 15, x12 = 16, x13 = 18. A noter que toute
modalité est une valeur mais toute valeur n’est pas une modalité. Par exemple 12 est
une valeur et aussi une modalité mais 17 est une valeur sans être une modalité ; 17
est une valeur pour le caractère (une note) mais n’est pas une modalité de la série
statistique car aucun des xi ne vaut 17.

1.2.1 Effectif et fréquence


Dénition 5. Le nombre d’élément de la série S est appelé l’effectif total de la série
statistique S.
Dénition 6. Soit xi une modalité de la série statistique S. Le nombre ni de répétition
de xi dans la série S est appelé l’effectif de xi .
Dans la pratique, on représente ces résultats dans un tableau :

Caractères x1 x2 · · · xk
Effectifs n1 n2 · · · nk

Dans notre exemple, l’effectif total vaut 30 et les effectifs sont :

Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Par construction on a la proposition suivante.

Proprosition. Notons ni l’effectif de la modalité xi .


k

n= ni
i=1

On vérifie en effet que dans notre exemple

1 + 1 + 1 + 3 + 2 + 2 + 3 + 6 + 3 + 3 + 3 + 1 + 1 = 30

Dénition 7. Soit xi une modalité de la série statistique S. On appelle fréquence


relative à la modalité xi le rapport de l’effectif de la modalité xi avec l’effectif total.
ni
fi :=
n
Naturellement puisque la somme des effectifs vaut l’effectif total, la somme des fré-
quence, vaut 1 :
k

fi = 1
i=1
Ce dernier résultat montre en fait que la somme des pi = 100fi fait 100 et donc que
les pi décrivent le pourcentage de l’effectif total ayant xi pour caractère. On complète
alors le tableau :

Caractères x1 x2 · · · xk
Effectifs n1 n2 · · · nk
Fréquences f1 f2 · · · fk
Pourcentages p1 p2 · · · pk
Ce qui donne dans notre exemple :
Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Fréquences 1
30
1
30
1
30
1
10
1
15
1
15
1
10
1
5
1
10
1
10
1
10
1
30
1
30
Pourcentages 10
3%
10
3%
10
3% 10% 20
3%
20
3%
10% 20% 10% 10% 10% 10
3%
10
3%
On interprète cela en observant, par exemple, que 20% des étudiants ont obtenu un
1120 à leur examen.
Dénition 8. L’effectif cumulé croissant (resp. décroissant) pour la modalité xi est
la somme des effectifs des modalités qui lui sont inférieures (resp. supérieures).
i

Ni = nj
j=1
k

 
resp. Ni′ = nj
j=i

k

On observe en particulier que Nk (resp. N1′ ) = nj = n (l’effectif total). On com-
j=1
plète le tableau :

Caractères x1 x2 ··· xk
Effectifs n1 n2 ··· nk
Effectifs cumulés croissants n1 n1 + n2 · · · n1 + · · · + nk
Effectifs cumulés décroissants n1 + · · · + nk n2 + · · · + nk · · · nk

Avec notre exemple :

Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Effectifs cumulés croissants 1 2 3 6 8 10 13 19 22 25 28 29 30
Effectifs cumulés décroissant 30 29 28 27 24 22 20 17 11 8 5 2 1

On peut interpréter ces résultats en observant, par exemple, que 10 étudiants ont
obtenu une note strictement inférieure à 10.

Dénition 9. La fréquence cumulée croissante (resp. décroissante) pour la modalité


xi est la somme des fréquences qui lui sont inférieures (resp. supérieures).
i

Fi = fj
j=1
k

 
resp. Ni = fj
j=i
En générale on considèrera davantage les pourcentages que les fréquences en posant
∑i ∑k

Pi = pj (resp. Pi = pj ).
j=1 j=i
On les représente de même dans le tableau ce qui donne dans notre exemple :

Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Fréquences 1
30
1
30
1
30
1
10
1
15
1
15
1
10
1
5
1
10
1
10
1
10
1
30
1
30
Pourcentages 10
3 %
10
3 %
10
3 % 10% 20
3 %
20
3 % 10% 20% 10% 10% 10% 10
3 %
10
3 %

Effectifs cumulés
1 2 3 6 8 10 13 19 22 25 28 29 30
croissants

Fréquences cumulés 1 1 1 1 4 1 13 19 11 5 14 29
1
croissantes 30 15 10 5 15 3 30 30 15 6 15 30

Pourcentages cumu- 10 20 80 100 130 190 220 250 280 290


lés croissants 3 % 3 % 10% 20% 3 % 3 % 3 % 3 % 3 % 3 % 3 % 3 % 100%

Effectifs cumulés dé-


30 29 28 27 24 22 20 17 11 8 5 2 1
croissant

Fréquences cumulés
1 29 14 5 23 7 3 2 3 1 1 1 1
décroissantes 30 15 6 30 10 5 5 10 5 10 15 30

Pourcentages cumu- 290 280 220 200 170 110 80 50 20 10


100% 3 % 3 % 90% 80% 3 % 3 % 3 % 3 % 3 % 3 % 3 % 3 %
lés décroissants

On interprète cela en observant, par exemple, que 80% des étudiants on obtenu une
note supérieur ou égale à 8.

1.2.2 Représentation des données


Il existe plusieurs manières de représenter une série statistique à caractère discret.
Nous en proposons quelques unes :
{ }
Diagramme en bâtons. On trace les segments (xi , ni ); (xi , 0) où les xi
i∈[[1;k]]
désignent les modalités et ni les effectifs associés. En général les hauteurs des
bâtons sont proportionnelles aux effectifs ( ou aux fréquences ).
Avec notre exemple cela donne :
6
Effectifs
3
2
1
0 2 3 7 8 9 10 11 12 14 15 16 18
Notes

Diagramme en tuyau d’orgue. On procède comme le diagramme en bâtons à ceci


près que l’on dessine des rectangles pour chaque modalité ; pour ne pas confondre
avec les histogrammes (dont nous parlerons plus loin) on marque un espace
entre chaque rectangle. Pour mieux illustrer la statistique, on peut indiquer les
effectifs au dessus des rectangles. En général les hauteurs des rectangles sont
proportionnelles aux effectifs ( ou aux fréquences ).
Dans notre exemple cela donne :

6
6
Effectifs

4 3 3 3 3 3
2 2
2 1 1 1 1 1
0
0 2 3 7 8 9 10 11 12 14 15 16 18
Notes

Diagramme circulaire. Pour chaque modalité xi , on détermine l’angle en degré


360
correspondant par la formule ϑi = ni où n désigne l’effectif total et ni
n
l’effectif de la modalité xi .
Puisque la somme des ϑi vaut 360 chaque angles correspond à une partie d’un
disque. On représente alors ces angles dans un disque en indiquant à quelle
modalité correspond l’angle.
Dans notre exemple, on commence tout d’abord à déterminer les angles, en
arrondissant à l’unité (et en s’arrangeant pour la somme des angles fasses bien
360 degrés).

Notes 0 2 3 7 8 9 10 11 12 14 15 16 18
Effectifs 1 1 1 3 2 2 3 6 3 3 3 1 1
Angles 12 12 12 36 24 24 36 72 36 36 36 12 12
Le diagramme circulaire correspondant est alors :
9 8
7
10
24 24 3
36
36
12 2
12 0
12
72 12 18
11 12

36 16
36 36
15
12
14

1.2.3 Caractéristiques de position


Le mode. Le mode de S est la modalité avec le plus grand effectif.
Dans notre exemple le mode vaut 11.
La moyenne. La moyenne de S, notée S, est définie par la formule
k
1∑
S= ni xi
n i=1

où les ni désignent l’effectif de la modalité xi et n l’effectif total.


Dire qu’une statistique a S pour moyenne s’interprète en observant que c’est
comme si tous les individus de la population étudiée avaient pour modalité S.
313
Dans notre exemple, la moyenne vaut = 1043
30
La médiane. La médiane est la modalité qui sépare la série en deux sous série de
même effectif.
n
Soit i2 ∈ [[1; k]] l’indice tel que Ni2 −1 < 6 Ni2 où n désigne l’effectif total
2
et Ni l’effectif cumulé croissant de la modalité xi .
La modalité xi2 est appelé la médiane de la série S et est notée Me.
Il se peut que la médiane soit exactement entre deux modalités ; dans ce cas,
on définit la médiane comme étant la valeur moyenne de ces deux modalités.
Plus précisemment : Pour déterminer la médiane, on utilise les effectifs cumu-
lés croissants et
• lorsque l’effectif total n est un nombre impair, la médiane est la valeur
n+1
prise par le ième modalité. C’est-à-dire
2
Me = x n + 1 
2
• lorsque l’effectif totaln est un nombre pair, la médiane est la valeur prise
n n
par la moyenne des ième et + 1 ième modalités. C’est-à-dire
2 2
x n2 + x n2 +1
Me = 
2
x15 + x16
Dans notre exemple n = 30 est paire, donc la médiane Me = . On
2
n
cherche dans le tableau le premier effectif cumulé supérieur ou égal à = 15.
2
On trouve 19 qui l’effectif de la modalité 11, par conséquent le dernier 11
occupe le 19ième rang. On en déduit que x15 = 11 et x16 = 11, d’où la médiane
11 + 11
Me = = 11. Cela s’interprète en observant que environ (c’est en
2
effet une approximation car plusieurs individu peuvent avoir la modalité de la
médiane) la moitié des étudiants ont obtenus une note inférieur à 11 et l’autre
moitié supérieur à 11.
Les quantiles. La médiane sépare l’effectif en deux. On peut généraliser cette dé-
composition en remplaçant 2 par un autre nombre.

Dénition 10. Soient α un entier naturel strictement plus que 1 et q ∈ [[1; α −


1]]. Le q ième quantile d’ordre α est la modalité xiq dont l’indice est tel que
n
Niq −1 6 6 Niq où n désigne l’effectif total et Ni l’effectif cumulé croissant
α
de la modalité xi .

Dans la pratique trois quantiles sont étudiés :


La médiane. C’est le premier quantile d’ordre 2.
Les quartiles. On choisit de séparer l’effectif en quatre (α = 4). Il y a dans
ce cas trois quantiles Q1 , Q2 et Q3 appélés les quartiles de la série. Le
second quartile est la médiane.
La recherche de premier quartile Q1 nommé premier quartile et le troi-
sième quartile Q3 nommé troisième quartile d’une série se fait de la
même façon que celle de la médiane.
boîte à moustache : On représente généralement les quartiles dans un dia-
gramme en boîte (également appelé boîte à moustache) :
sur un axe représentant les modalités, on trace un rectangle dont deux des
cotés opposés marquent respectivement le premier et le dernier quartile.
On marque aussi la médiane.

Construction du diagramme en boite.

Axe : modalités
min Q1 M e Q3 max de la série

Revenons à notre exemple :


– Calcul de Q1 :
n
Dans notre exemple n = 30, on calcule = 7, 5 qui n’est pas un entier,
4
donc le premier quartile est situé au rang 8 : Q1 = x8 . On cherche dans
le tableau le premier effectif cumulé supérieur ou égal à 8. 8 est l’effectif
de la modalité 8, par conséquent x8 = 8 = Q1 . Cela s’interprète en
observant que environ (c’est en effet une approximation car plusieurs
individu peuvent avoir la modalité de la médiane) 25% des étudiants ont
obtenus une note inférieure à 8 et donc 75% des étudiants ont obtenus
une note supérieure à 8.
– Calcul de Q1 :
n
on calcule 3 = 22, 5 qui n’est pas un entier, donc le troisième quartile
4
est situé au rang 23 : Q3 = x23 . On cherche dans le tableau le premier
effectif cumulé supérieur ou égal à 23. On trouve dans le tableau 25, qui
est l’effectif de la modalité 14, par conséquent le dernier 14 occupe le
rang 25. En se servant du tableau des effectifs cumulés croissants on a
x23 = 14 = Q3 . Cela s’interprète en observant que environ (c’est en effet
une approximation car plusieurs individu peuvent avoir la modalité de la
médiane) 75% des étudiants ont obtenus une note inférieure à 14 et donc
25% des étudiants ont obtenus une note supérieure à 14.
Les déciles. On choisit de séparer l’effectif en dix (α = 10). Il y a dans ce cas
neuf quantiles d’ordre 10 D1 , D2 , D3 , D4 , D5 , D6 , D7 , D8 et D9 appélés
les déciles de la série. Le calcul des déciles se fait de la même manière
aue celle de la médiane, on peut aussi remarquer que le cinquième décile
D5 est la médiane de la série.
n
Calculons D1 dans notre exemple. On calcule = 3 qui est un nombre
10
x3 + x4 3+7
entier, donc D1 = = = 5. Il y a 10% des étudiants ont
2 2
obtenus une note inférieure à 5 et donc 90% des étudiants ont obtenus
une note supérieure à 5.

1.2.4 Caractéristiques de dispersion


L’étendue. • L’étendue etS d’une série statistique S est la différence entre le plus
grande modalité et la plus petite.

etS = max(xi xi ∈ S) − min(xi xi ∈ S)

L’étendue permet de mesurer si la série statistique est concentrée autour de sa


moyenne ou plutôt dispersée : plus l’étendue est petite plus la série est concen-
tré autour de sa moyenne et inversement.
Dans notre exemple l’étendue est de 18. Cette série est donc dispersée autour
de sa moyenne.
L’intervalle inter-quartile. Dans notre exemple, l’étendue de 18 nous indique que
la série statistique est dispersée autour sa moyenne. L’intervalle inter-quartile
permet de savoir s’il y a plus de modalité au dessus de la moyenne ou en
dessous.
• L’intervalle inter-quartile d’une série statistique est l’intervalle [Q1 , Q3 ]. Il
contient 50% des observations.
• L’l’écart inter-quartile d’une série statistique est la différence entre le troi-
sième et le premier quartile : IQ = Q3 − Q1 .
La variance et l’écart-type. Pour mieux observer la dispersion des modalités, on
calcul l’écart-type. On va étudier les écarts entre chaque modalité avec la
moyenne.
• La variance d’une série statistique S est le nombre
k
1∑
vS = ni (xi − S)2
n i=1

Dans la pratique on calcul la variance à l’aide de la formule suivante.


Soit S une série statistique. Considérons S 2 la série ou toutes les modalités
sont mis au carré. Alors
( k )
2 1 ∑ 2
vS = S 2 − S = ni x2i − S
n i=1
En effet :
k
1∑
vS = ni (xi − S)2
n i=1
k
1∑ 2
= ni (x2i − 2xi S + S )
n i=1
k k k
1∑ 1∑ 1∑ 2
= ni x2i − ni 2xi S + ni S
n i=1 n i=1 n i=1
k k k
1∑ 2 1∑ 21 ∑
= ni xi − 2S ni xi + S ni
n i=1 n i=1 n i=1
k
1∑ 2
= ni x2i − 2SS + S
n i=1
k
1∑ 2
= ni x2i − S 
n i=1

Pour renormaliser cette donnée (le passage au carré), on considère plus sou-
vent l’écart-type.

L’écart-type d’une série statistique est définie comme la racine carrée de la va-
riance : √
σs = vs

1.3 Série statistique à caractère continue


En général, les deux raisons principales qui peuvent amener à considérer comme
continue une variable sont le grand nombre d’observation distinctes (trop grand pour
une étude discrète) ou le caractère sensible d’une variable (salaire, age d’une femme,
etc).
Dans ce chapitre on fixe une série statistique à caractère continue S. On note k le
nombre de classe et chaque classe sera noté [bi ; bi+1 [ (les intervalles pouvant être
fermés ou ouverts ; la seule règle à respecter est qu’une valeur ne peut être considérée
que dans une seule classe).
Pour illustrer les notions de ce chapitre, dans l’exemple 1 nous considèrerons l’age
des 121 employés d’une entreprise

26 22 41 43 18 31 34 28 26 21 44
52 60 62 34 38 23 31 40 58 60 33
33 26 28 30 29 29 29 29 33 35 33
26 42 24 22 44 41 47 30 49 32 37
26 51 28 55 52 61 47 22 19 27 25
Exemple 1 : 35 33 25 34 43 42 41 30 29 27 51
52 31 32 29 25 21 31 41 21 31 51
32 22 42 52 23 44 50 51 29 29 29
28 27 29 35 43 49 57 57 57 31 33
33 48 49 22 18 19 20 21 22 23 23
23 19 44 55 33 48 28 42 54 25 29

Le nombre de modalité étant grand, on choisit une étude continue. On représente


alors les données dans un tableau.

Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Effectif 16 18 28 15 10 9 14 6 5

1.3.1 Liens avec le cas discret


Dénition 11. Soit S une série statistique à caractère continue.
• La borne inférieure de la classe [bi ; bi+1 [ est bi .
• La borne supérieure de la classe [bi ; bi+1 [ est bi+1 .
bi + bi+1
• Le centre de classe de [bi ; bi+1 [ est ci = .
2
• L’amplitude de la classe [bi ; bi+1 [ est ai = bi+1 − bi .

Dans la pratique, on complète le tableau en rajoutant le centre des classes.

Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Centre des classes 20.5 25.5 30.5 35.5 40.5 45.5 50.5 55.5 60.5
Effectif 16 18 28 15 10 9 14 6 5
Dénition 12. La série statistique discrète associé à S est la série dont les modalités
sont les centres de classe et les effectifs correspondant aux classes respectives.

On peut donc appliquer dans ce cadre les définitions d’effectifs, effectif total, effec-
tifs cumulés, fréquences, fréquences cumulées.

1.3.2 Représentations des données


Il existe une représentation propre au caractère continue : l’histogramme.
Chaque classe est représenté par un rectangle dont la base est délimitée par les bornes
correspondante et dont la hauteur est ( proportionnelle à) la densité d’effectif (en
général à l’effectif corrigé).

Dénition 13. Soit S une série statistique à caractère continue. La densité d’effectif
de la classe [bi ; bi+1 [ est le rapport entre l’effectif du centre de classe correspondant
par l’amplitude de la classe.
ni
bi+1 − bi
Lors de la réalisation d’un histogramme, il est indispensable de distinguer deux cas.
1. Si les amplitudes de classes sont égales, la hauteur des rectangles correspondra
aux effectifs (ou aux fréquences) des classes.
2. Si les amplitudes sont différentes, afin de constituer l’histogramme, il est né-
cessaire de :
• calculer, pour chaque classe, l’amplitude ai
ni fi
• calculer la densité di = pour un histogramme des effectifs, et di =
ai ai
pour un histogramme des fréquences
• affecter à chaque rectangle une hauteur proportionnelle à la densité di de
la classe correspondante.
Soit min(ai ) l’amplitude minimale de classe, la hauteur est alors appelée
effectif corrigé et notée

ni c = di × min(ai )

cette convention revient à adopter min(ai ) comme unité d’amplitude de


classe. Les classes ayant pour amplitudes min(ai ) sont alors représentées
par des rectangles dont la hauteur est l’effectif. De même, il est possible
de retenir comme hauteur la fréquence corrigée

fi c = di × min(ai )
Puisque la hauteur d’un rectangle est la densité d’effectif, l’aire d’un rectangle de
ni
l’histogramme, qui est le produit de la hauteur par la longueur bi+1 − bi , est
bi+1 − bi
égale à l’effectif ; ceci permet donc une meilleur illustration de la série étudiée.

Avec notre exemple 1, comme les classes ont la même amplitude, cela donne :
Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Effectif 16 18 28 15 10 9 14 6 5
hauteur 3, 2cm 3,6 cm 5,6 cm 3 cm 2 cm 1,8 cm 2,8 cm 1,2 cm 1 cm

56

36
Effectifs

32
3
28

2
18
12
1

0
18 23 28 33 38 43 48 53 58 63
Classes

Voici un deuxième exemple dans lequel les amplitudes des classes sont différentes :

Exemple 2 :
Une entreprise a effectué une enquète auprès de son personnel en leur demandant la
distance en km qui sépare l’usine de leur domicile. On a obtenu le tableau statistique
suivant :
Distance (en km ) [0 ;10[ [10 ;20[ [20 ;30[ [30 ;50[ [50 ;100[
Effectif 150 75 50 100 100
Pour construire l’histogramme, on complète le tableau comme suit :
Distance (en km ) [0 ;10[ [10 ;20[ [20 ;30[ [30 ;50[ [50 ;100[
Amplitude 10 10 10 20 50
Effectif 150 75 50 100 100
Ef f ectif
Densité = 15 7,5 5 5 2
Amplitude
Effectif corrigé 150 75 50 50 20
Hauteur de la bande 3 cm 1,5 cm 1 cm 1 cm 0,4 cm

On l’obtient l’histogramme :
Effectifs corrigés

15
1

0
0 10 20 30 50 100
Classes

1.3.3 Caractéristiques de position et de dispersion liés au cas dis-


cret
Dénition 14.
Classe modale :
La version continue du mode est la classe modale.
La classe modale d’une série continue S est la classe du plus grand effectif.
(en général le plus grand effectif corrigé.)
Dans notre exemple 1, la classe modale est [28; 33[.
De manière équivalente, la classe modale d’une série continue est la classe
correspondant au mode de la série discrète associée.
Moyenne, variance et écart-type. La moyenne (resp. la variance, resp. l’écart-type)
d’une série statistique continue, est la moyenne (resp. la variance, resp. l’écart-
type) de la série statistique discrète associée.
Étendue :
L’étendue de S est la différence entre la plus grande borne supérieur et la plus
petite borne inférieur.
 ∣   ∣ 
etS = max sup([bi ; bi+1 [ ∣i ∈ [[1; k]]) − min inf([bi ; bi+1 [ ∣i ∈ [[1; k]]) 

1.3.4 Médiane et quantiles


Dénition 15. Soient α un entier naturel différent de 1 et q ∈ [[1; α − 1]]. La q ième
n
classe-quantile d’ordre α est la classe [biq ; biq +1 [ dont l’indice iq est tel que Niq −1 < 6 N iq
Q
où n désigne l’effectif total et Ni l’effectif cumulé croissant de la classe [bi ; bi+1 [.

Les quantiles se calculent par interpolation linéaire, via les relations suivantes :
On détermine la classe médiane, par exemple [bi−1 , bi [. On sait que l’effectif cumulé
n 1
de la médiane est égale à et sa fréquence cumulée croissante est égale à .
2 2

bi−1 Me bi bi−1 Me bi
n ou 1
ECC(bi−1 ) ECC(bi ) f cc(bi−1 ) f c(bi )
2 2
où ECC(bi−1 ) est l’effectif cumulé croissant de la classe précédant la classe médiale
et ECC(bi ) est l’effectif cumulé croissant de la classe médiane ; f cc(bi−1 ) est la fré-
quence cumulée croissante de la classe précédant la classe médiane et f cc(bi ) est lla
fréquence cumulée croissante de la classe médiane.
L’un des tableaux ci dessus permettent de mémoriser la formule d’interpolation li-
néaire :
Me − bi−1 bi − bi−1
n =
− ECC(bi−1 ) ECC(bi ) − ECC(bi−1 )
2
ou
Me − bi−1 bi − bi−1
=
1 f cc(bi ) − f cc(bi−1 )
− f cc(bi−1 )
2
On obtient des formules similaires pour les premier et deuxième quartiles Q1 et Q3
n 3n 1 3
en remarquant que ECC(Q1 ) = , ECC(Q3 ) = , f cc(Q1 ) = et f cc(Q3 ) = .
4 4 4 4
Avec notre exemple :
Classe [18 ;23[ [23 ;28[ [28 ;33[ [33 ;38[ [38 ;43[ [43 ;48[ [48 ;53[ [53 ;58[ [58 ;63[
Centre des classes 20,5 25,5 30,5 35,5 40,5 45,5 50,5 55,5 60,5
Effectif 16 18 28 15 10 9 14 6 5
Effectif cumulé croissant 16 34 62 76 87 96 110 116 121
Fréquence cumulée croissante 0,132 0,281 0,512 0,628 0,719 0,793 0,909 0,959 1
n 121
= = 60, 5. Donc la classe médiane est [28; 33[ et
2 2
Me − 28 33 − 28
=
60, 5 − 34 62 − 34
Me = 32, 73

Vous aimerez peut-être aussi