Cours1 ADD

Chap I - Rappels
statistiques : Analyse
univariée et bivariée
(Outils d’aide à la décision )
Rachid MCHICH
I-1 Définition :
La statistique est l'ensemble des instruments et

de recherches mathématiques permettant de
déterminer les caractéristiques d'un ensemble de
données (généralement vaste).
Les statistiques sont le produit des analyses

reposant sur l'usage de la statistique.
Le but de la statistique est d'extraire et de
résumer des informations pertinentes d'une liste
de nombres difficile à interpréter par une simple
lecture:
Outils de la statistique:
Les outils de la statistique descriptive sont:
1.  Regrouper les observations ou mesures
2.  Utiliser des représentations graphiques

(histogrammes, secteurs, …etc)
3.  Calcul de certains paramètres et indicateurs

importants
4.  Interprétation des résultats

I-2 Vocabulaire de la statistique descriptive:
1.  Population : un ensemble de personnes,

d’objets ou d’événements, base de l’étude
statistique.
2.  Individu : Un élément de cette population.

(Exple: population d’employés d’une entreprise,
population de produits d’une usine …etc).
3.  Echantillon : c’est un sous-ensemble de la
population, ayant les mêmes caractéristiques
de la population-mère, utilisé en vue d'inférer
quelque chose à propos de cette population.
Il y a plusieurs types d’échantillon dont

l’échantillon aléatoire, l’échantillon stratifié,
l’échantillon par quotas, etc…
4.  Caractère: c’est une particularité ou propriété
caractéristique de la population. L’étude statistique
porte sur un caractère.
- Si le caractère est quantitatif, alors les

mesures sont les valeurs d’une variable
statistique (âge, taille, salaire des employés…).
- Si le caractère est qualitatif, on est

« obligé » de le quantifier (sexe, qualification des
employés…). On parle alors de variable
nominale ou ordinale.
5.  La variable est discrète si elle ne prend que
des valeurs isolées (par exple: IN). Elle est
continue si elle peut prendre toutes les
valeurs d’un intervalle (ex. IR).
6.  Effectif d’une population: c’est le nombre

total des éléments constituant cette
population, noté: N.
7.  Fréquence d’un caractère: c’est le nombre

d’individus possédant ce caractère divisé par
l’effectif total de la population: Ni.
Graphiques et tableaux
vs
Données numériques
On introduit plusieurs statistiques descriptives

pour résumer la tendance centrale, la dispersion
et la forme de la distribution d’un ensemble de
données
I-3 Tableaux et Graphiques :
(ii) Variables continues (VSC)
Dans ce cas, les valeurs du caractère appartiennent à des intervalles, qu’on regroupe en
général dans des classes adjacentes, d’amplitudes pas forcément égales :
Classes Centre des classes Effectifs Fréquences

[X0, X1[ x1=( X0+ X1)/2 n1 f1= n1/N
. . . .
. . . .
. . . .
[Xp-1, Xp[ . nk fk
La représentation se fait alors grâce à un histogramme dont les rectangles sont de largeur
égale à l’amplitude de la classe.
Exemple : Considérons les données
quantitatives indiquant le temps nécessaire (en
jours) pour effectuer l’audit de 20 clients par le
cabinet d’un expert comptable.
12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
Effectifs et fréquences cumulées croissants et
décroissants
  Pour une VSD :
Soit mi une modalité d’une VSD. L’effectif cumulé croissant

à gauche (resp. décroissant à droite) de mi est le nombre
d’individus pour lesquels la VSD prend des valeurs <= mi
(resp. >=mi ).
Ce nombre est donné par Ncc= N1+…+Ni (resp. Ncd= Ni+

…+Nk).
  Fréquence cumulée croissante à gauche de mi :

fcc= Ncc/N .
  Fréquence cumulée décroissante à droite de mi :
fcd= Ncd/N .
  Pour une VSC : Les modalités sont des intervalles .
  Effectif cumulé croissant à gauche de xi
  Effectif cumulé décroissant à droite de xi
  Fréquence cumulée croissante relative à une

classe Ii
  Fréquence cumulée décroissante relative à une

classe Ii
(iii) Caractère qualitatif
Dans ce cas, les modalités sont des qualités, qui ne

peuvent pas être ordonnées. En général, on fait une
représentation en secteurs.
I-4 Valeurs numériques :
  Statistique d’échantillon : Valeur numérique

utilisée comme mesure d’un échantillon
  Paramètre de la population : Valeur

numérique utilisée comme mesure de la
population
  Estimateur ponctuel : Statistique

d’échantillon utilisée pour estimer le paramètre
correspondant de la population
Ci-dessous certaines notations utilisées:
Statistiques Paramètres de
d’échantillon la population
Moyenne x µ
Variance s2 σ2
Ecart type s σ
Covariance s xy σ xy
Corrélation rxy ρ xy
Mesures de tendance centrale
  Moyenne : Elle est obtenue en sommant la

valeur des observations et en divisant par le
nombre d’observations.
  Moyenne d’échantillon :
x=
∑ x i
  Moyenne de la population :
µ=
∑ x i
N
  Médiane : Il s’agit de la valeur centrale de

l’ensemble des données, classés en ordre
croissant.
Exemples:
1.  Taille médiane des classes de l’échantillon :
32 42 46 46 54
à Médiane = 46
2.  Salaires :
7710 7755 7850 7880 7880 7890
7920 7940 7950 8050 8130 8325
à Médiane = (7890+7920)/2 = 7905
  Mode : Défini comme la valeur de l’observation

la plus fréquente.
Exemple:
Boisson Fréquence
Coca Cola 19
Coca light 8
Sprite 5
Hawai 13
Pom’s 5
Total 50
  Percentile : Valeur telle que, au moins p pour cent
des observations ont une valeur <= à cette valeur
et au moins (100 - p) pour cent des observations
ont une valeur >= à cette valeur. La médiane
correspond au 50e percentile.
Exemple :
Calculons le 85e et le 50e percentiles de : 7710 7755 7850
7880 7880 7890 7920 7940 7950 8050 8130 8325
1) i=(85/100)*12=10,2, on prend donc la 11e observation: 8130

2) i=(50/100)*12=6, on prend alors la moyenne des 6e et 7e
observations: (7890+7920)/2=7905
  Quartile: Les 25e, 50e et 75e percentiles sont
appelés respectivement premier quartile,
deuxième quartile (médiane) et troisième
quartile. Les quartiles divisent l’ensemble des
données en quatre parties, chacune
contenant environ 25% des données.
Mesures de dispersion
  Etendue
: égale à la différence entre la plus
grande et la plus petite valeurs.
(e.g. 8325 – 7710 = 615)
  Etendue interquartile (EIQ): égale à la

différence entre le 3e et le 1e quartiles :
EIQ = Q3 − Q1
(e.g. 8000 – 7865 = 135)

  Variance
: basée sur les écarts au carré des
observations par rapport à la moyenne :
Variance d’une population : Variance d’un échantillon :
σ2 =
∑ (x i − µ )2
s2 =
∑ (x i − x )2
N n −1
  Ecart
type : égal à la racine carrée de la
variance
σ = σ2 s= s2
II - Statistique bivariée
II-1 Mesures de la relation entre 2 variables
  Nuage de points : A chaque couple de données

(xi,yi) est associé un point M dans le plan. On obtient
ainsi ce qu’on appelle un nuage de points
représentant la série statistique.
  Point moyen : G(xG , yG ) où :
1 n
xG = X = ∑ xi
n i=1
1 n
yG = Y = ∑ yi
n i=1
II-2 Mesures par la covariance :
Covariance : Mesure de la relation linéaire
entre deux variables.
◦  Des valeurs positives indiquent une relation
linéaire positive.
◦  Des valeurs négatives indiquent une relation
linéaire négative.
∑ (x i − µ x )(yi − µ y )
  Covariance population : σ xy =
N
  Covariance échantillon : s xy =

∑ (x i − x)(yi − y)
n −1
II-3 Mesures par le coefficient de corrélation :
  Coefficient de corrélation : Mesure de la
relation linéaire entre deux variables, dont les
valeurs sont comprises entre -1 et +1:
s xy σ xy
rxy = ou ρ xy =
sx sy σ xσ y
◦  Des valeurs proches de +1 indiquent une forte
relation linéaire positive.
◦  Des valeurs proches de -1 indiquent une forte
relation linéaire négative.
◦  Des valeurs proches de 0 indiquent l’absence de
relation linéaire.
  Méthode des moindres carrés :
- Droite de régression de Y en X , (DY /X ): y = ax +b

σ xy
où a=
(σ x )2
et b =Y - a X
- Droite de régression de X en Y , (D X /Y ): x = a' y + b'
σ xy
où a' = et b'= X - a'Y
(σ y )2
(A noter que les deux droites se coupent au point moyen)

Rappelons que :
s xy σ xy
rxy = ρ xy =
sx sy σ xσ y

Cours1 ADD

Transféré par

Informations du documentcliquez pour développer les informations du documentCe document présente les concepts et outils de base de la statistique descriptive univariée et bivariée, notamment les mesures de tendance centrale, de dispersion et de relation entre variables.

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Cours1 ADD

Transféré par

Informations du document

Description originale:

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours1 ADD

Transféré par

Droits d'auteur :

Formats disponibles

Chap I - Rappels

La statistique est l'ensemble des instruments et

Les statistiques sont le produit des analyses

1. Regrouper les observations ou mesures

2. Utiliser des représentations graphiques

3. Calcul de certains paramètres et indicateurs

4. Interprétation des résultats

1. Population : un ensemble de personnes,

2. Individu : Un élément de cette population.

Il y a plusieurs types d’échantillon dont

- Si le caractère est quantitatif, alors les

- Si le caractère est qualitatif, on est

6. Effectif d’une population: c’est le nombre

7. Fréquence d’un caractère: c’est le nombre

On introduit plusieurs statistiques descriptives

Classes Centre des classes Effectifs Fréquences

 Pour une VSD :

Soit mi une modalité d’une VSD. L’effectif cumulé croissant

Ce nombre est donné par Ncc= N1+…+Ni (resp. Ncd= Ni+

 Fréquence cumulée croissante à gauche de mi :

 Effectif cumulé croissant à gauche de xi

 Effectif cumulé décroissant à droite de xi

 Fréquence cumulée croissante relative à une

 Fréquence cumulée décroissante relative à une

Dans ce cas, les modalités sont des qualités, qui ne

 Statistique d’échantillon : Valeur numérique

 Paramètre de la population : Valeur

 Estimateur ponctuel : Statistique

 Moyenne : Elle est obtenue en sommant la

 Moyenne de la population :

 Médiane : Il s’agit de la valeur centrale de

 Mode : Défini comme la valeur de l’observation

1) i=(85/100)*12=10,2, on prend donc la 11e observation: 8130

 Etendue interquartile (EIQ): égale à la

(e.g. 8000 – 7865 = 135)

Variance d’une population : Variance d’un échantillon :

 Nuage de points : A chaque couple de données

 Point moyen : G(xG , yG ) où :

 Covariance échantillon : s xy =

- Droite de régression de Y en X , (DY /X ): y = ax +b

- Droite de régression de X en Y , (D X /Y ): x = a' y + b'

(A noter que les deux droites se coupent au point moyen)

Vous aimerez peut-être aussi

1.  Regrouper les observations ou mesures

2.  Utiliser des représentations graphiques

3.  Calcul de certains paramètres et indicateurs

4.  Interprétation des résultats

1.  Population : un ensemble de personnes,

2.  Individu : Un élément de cette population.

6.  Effectif d’une population: c’est le nombre

7.  Fréquence d’un caractère: c’est le nombre

  Pour une VSD :

  Fréquence cumulée croissante à gauche de mi :

  Effectif cumulé croissant à gauche de xi

  Effectif cumulé décroissant à droite de xi

  Fréquence cumulée croissante relative à une

  Fréquence cumulée décroissante relative à une

  Statistique d’échantillon : Valeur numérique

  Paramètre de la population : Valeur

  Estimateur ponctuel : Statistique

  Moyenne : Elle est obtenue en sommant la

  Moyenne de la population :

  Médiane : Il s’agit de la valeur centrale de

  Mode : Défini comme la valeur de l’observation

  Etendue interquartile (EIQ): égale à la

  Nuage de points : A chaque couple de données

  Point moyen : G(xG , yG ) où :

  Covariance échantillon : s xy =