[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
340 vues30 pages

Cours1 ADD

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 30

Chap I - Rappels

statistiques : Analyse
univariée et bivariée
(Outils d’aide à la décision )

Rachid MCHICH
I-1 Définition :

La statistique est l'ensemble des instruments et


de recherches mathématiques permettant de
déterminer les caractéristiques d'un ensemble de
données (généralement vaste).

Les statistiques sont le produit des analyses


reposant sur l'usage de la statistique.
Le but de la statistique est d'extraire et de
résumer des informations pertinentes d'une liste
de nombres difficile à interpréter par une simple
lecture:
Outils de la statistique:
Les outils de la statistique descriptive sont:

1.  Regrouper les observations ou mesures

2.  Utiliser des représentations graphiques


(histogrammes, secteurs, …etc)

3.  Calcul de certains paramètres et indicateurs


importants

4.  Interprétation des résultats


I-2 Vocabulaire de la statistique descriptive:

1.  Population : un ensemble de personnes,


d’objets ou d’événements, base de l’étude
statistique.

2.  Individu : Un élément de cette population.


(Exple: population d’employés d’une entreprise,
population de produits d’une usine …etc).
3.  Echantillon : c’est un sous-ensemble de la
population, ayant les mêmes caractéristiques
de la population-mère, utilisé en vue d'inférer
quelque chose à propos de cette population.

Il y a plusieurs types d’échantillon dont


l’échantillon aléatoire, l’échantillon stratifié,
l’échantillon par quotas, etc…
4.  Caractère: c’est une particularité ou propriété
caractéristique de la population. L’étude statistique
porte sur un caractère.

- Si le caractère est quantitatif, alors les


mesures sont les valeurs d’une variable
statistique (âge, taille, salaire des employés…).

- Si le caractère est qualitatif, on est


«  obligé  » de le quantifier (sexe, qualification des
employés…). On parle alors de variable
nominale ou ordinale.
5.  La variable est discrète si elle ne prend que
des valeurs isolées (par exple: IN). Elle est
continue si elle peut prendre toutes les
valeurs d’un intervalle (ex. IR).

6.  Effectif d’une population: c’est le nombre


total des éléments constituant cette
population, noté: N.

7.  Fréquence d’un caractère: c’est le nombre


d’individus possédant ce caractère divisé par
l’effectif total de la population: Ni.
Graphiques et tableaux
vs
Données numériques

On introduit plusieurs statistiques descriptives


pour résumer la tendance centrale, la dispersion
et la forme de la distribution d’un ensemble de
données
I-3 Tableaux et Graphiques :
(ii) Variables continues (VSC)
Dans ce cas, les valeurs du caractère appartiennent à des intervalles, qu’on regroupe en
général dans des classes adjacentes, d’amplitudes pas forcément égales :

Classes Centre des classes Effectifs Fréquences


[X0, X1[ x1=( X0+ X1)/2 n1 f1= n1/N
. . . .
. . . .
. . . .
[Xp-1, Xp[ . nk fk

La représentation se fait alors grâce à un histogramme dont les rectangles sont de largeur
égale à l’amplitude de la classe.
Exemple : Considérons les données
quantitatives indiquant le temps nécessaire (en
jours) pour effectuer l’audit de 20 clients par le
cabinet d’un expert comptable.

12 14 19 18
15 15 18 17
20 27 22 23
22 21 33 28
14 18 16 13
Effectifs et fréquences cumulées croissants et
décroissants

—  Pour une VSD :

Soit mi une modalité d’une VSD. L’effectif cumulé croissant


à gauche (resp. décroissant à droite) de mi est le nombre
d’individus pour lesquels la VSD prend des valeurs <= mi
(resp. >=mi ).

Ce nombre est donné par Ncc= N1+…+Ni (resp. Ncd= Ni+


…+Nk).

—  Fréquence cumulée croissante à gauche de mi :


fcc= Ncc/N .
—  Fréquence cumulée décroissante à droite de mi :
fcd= Ncd/N .
—  Pour une VSC : Les modalités sont des intervalles .

—  Effectif cumulé croissant à gauche de xi 

—  Effectif cumulé décroissant à droite de xi

—  Fréquence cumulée croissante relative à une


classe Ii

—  Fréquence cumulée décroissante relative à une


classe Ii
(iii) Caractère qualitatif

Dans ce cas, les modalités sont des qualités, qui ne


peuvent pas être ordonnées. En général, on fait une
représentation en secteurs.
I-4 Valeurs numériques :

—  Statistique d’échantillon : Valeur numérique


utilisée comme mesure d’un échantillon

—  Paramètre de la population : Valeur


numérique utilisée comme mesure de la
population

—  Estimateur ponctuel : Statistique


d’échantillon utilisée pour estimer le paramètre
correspondant de la population
Ci-dessous certaines notations utilisées:

Statistiques Paramètres de
d’échantillon la population
Moyenne x µ

Variance s2 σ2

Ecart type s σ

Covariance s xy σ xy

Corrélation rxy ρ xy
Mesures de tendance centrale

—  Moyenne : Elle est obtenue en sommant la


valeur des observations et en divisant par le
nombre d’observations.
—  Moyenne d’échantillon :

x=
∑ x i

—  Moyenne de la population :

µ=
∑ x i

N
Mesures de tendance centrale

—  Médiane : Il s’agit de la valeur centrale de


l’ensemble des données, classés en ordre
croissant.

Exemples:
1.  Taille médiane des classes de l’échantillon :
32 42 46 46 54
à Médiane = 46
2.  Salaires :
7710 7755 7850 7880 7880 7890
7920 7940 7950 8050 8130 8325
à Médiane = (7890+7920)/2 = 7905
Mesures de tendance centrale

—  Mode : Défini comme la valeur de l’observation


la plus fréquente.
Exemple:
Boisson Fréquence
Coca Cola 19
Coca light 8
Sprite 5
Hawai 13
Pom’s 5
Total 50
—  Percentile : Valeur telle que, au moins p pour cent
des observations ont une valeur <= à cette valeur
et au moins (100 - p) pour cent des observations
ont une valeur >= à cette valeur. La médiane
correspond au 50e percentile.
Exemple :
Calculons le 85e et le 50e percentiles de : 7710 7755 7850
7880 7880 7890 7920 7940 7950 8050 8130 8325

1) i=(85/100)*12=10,2, on prend donc la 11e observation: 8130


2) i=(50/100)*12=6, on prend alors la moyenne des 6e et 7e
observations: (7890+7920)/2=7905
—  Quartile: Les 25e, 50e et 75e percentiles sont
appelés respectivement premier quartile,
deuxième quartile (médiane) et troisième
quartile. Les quartiles divisent l’ensemble des
données en quatre parties, chacune
contenant environ 25% des données.
Mesures de dispersion

—  Etendue
: égale à la différence entre la plus
grande et la plus petite valeurs.
(e.g. 8325 – 7710 = 615)

—  Etendue interquartile (EIQ): égale à la


différence entre le 3e et le 1e quartiles :
EIQ = Q3 − Q1

(e.g. 8000 – 7865 = 135)


Mesures de dispersion

—  Variance
: basée sur les écarts au carré des
observations par rapport à la moyenne :

Variance d’une population : Variance d’un échantillon :

σ2 =
∑ (x i − µ )2
s2 =
∑ (x i − x )2
N n −1
Mesures de dispersion

—  Ecart
type : égal à la racine carrée de la
variance

σ = σ2 s= s2
II - Statistique bivariée
II-1 Mesures de la relation entre 2 variables

—  Nuage de points : A chaque couple de données


(xi,yi) est associé un point M dans le plan. On obtient
ainsi ce qu’on appelle un nuage de points
représentant la série statistique.

—  Point moyen : G(xG , yG ) où :

1 n
xG = X = ∑ xi
n i=1
1 n
yG = Y = ∑ yi
n i=1
II-2 Mesures par la covariance :
Covariance : Mesure de la relation linéaire
entre deux variables.
◦  Des valeurs positives indiquent une relation
linéaire positive.
◦  Des valeurs négatives indiquent une relation
linéaire négative.

∑ (x i − µ x )(yi − µ y )
—  Covariance population : σ xy =
N

—  Covariance échantillon : s xy =


∑ (x i − x)(yi − y)
n −1
II-3 Mesures par le coefficient de corrélation :
—  Coefficient de corrélation : Mesure de la
relation linéaire entre deux variables, dont les
valeurs sont comprises entre -1 et +1:
s xy σ xy
rxy = ou ρ xy =
sx sy σ xσ y
◦  Des valeurs proches de +1 indiquent une forte
relation linéaire positive.
◦  Des valeurs proches de -1 indiquent une forte
relation linéaire négative.
◦  Des valeurs proches de 0 indiquent l’absence de
relation linéaire.
—  Méthode des moindres carrés :

- Droite de régression de Y en X ,  (DY /X ): y = ax +b


σ xy
où a=
(σ x )2
et b =Y - a X

- Droite de régression de X en Y , (D X /Y ): x = a' y + b'

σ xy
où a' = et b'= X - a'Y
(σ y )2

(A noter que les deux droites se coupent au point moyen)


Rappelons que :
s xy σ xy
rxy = ρ xy =
sx sy σ xσ y

Vous aimerez peut-être aussi