[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
30 vues8 pages

Cours Stat Double BEY 1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 8

USTHB-Faculté de Mathématiques.

STATISTIQUE DESCRIPTIVE DOUBLE

Introduction :

On s’intéresse à deux variables et qui sont mesurées sur les unités d’observation.
Pour chaque unité, on obtient deux mesures. La série statistique est alors une suite
( ) ( ) ( ) de couples des valeurs prises par les deux variables sur
chaque individu. Chacune des deux variables peut être, soit quantitative, soit qualitative.

1/ Tableaux de données ou de contingence :


est une variable pouvant prendre modalités et est une variable pouvant prendre
modalités. On construit le tableau de contingence qui représente la distribution d’effectif
du couple de variable ( )

Exemple : On mesure le poids et la taille de 20 individus. Les observations sont


données dans le premier tableau (à gauche), et après répartition en 5 classes d’égales
amplitudes pour chacune des deux variables, nous obtenons le tableau de contingence ci-
dessous (à droite).

2/ Représentation graphique (Nuage de points) :


Chaque couple est composé de deux valeurs numériques si les deux caractères sont
quantitatifs. Un couple de nombres (entiers ou réels) peut toujours être représenté comme
un point dans un plan de coordonnées( ).

Exemple : (Poids et taille de 20 individus)

1
3/ Distributions :
a/ Distributions marginales : Par définition on note :
: l’effectif de la cellule ( ) est le nombre d’individus présentant simultanément les
modalités de et de .

: la fréquence de la cellule( ).

: effectif des individus qui présentent la modalité de . ∑ .

Les effectifs de la dernière colonne du tableau de contingence définissent la


distribution marginale de , alors la fréquence marginale de la modalité est : .

: effectif des individus qui présentent la modalité de . ∑ .

De même, on définit la distribution marginale de par la dernière ligne et la fréquence


marginale est : .

b/ Distributions conditionnelles :
La colonne du tableau statistique décrit la sous population des individus possédant la
modalité suivant le caractère . La fréquence conditionnelle de la modalité sachant
(ou liée à ) est :
et fixé.
De même, la distribution conditionnelle sachant :
et fixé.

2
Remarque :

 ∑ et ∑
Exemple :
Distribution de conditionnée par .
classes [162,169[ [169,176[ [176,183[
165.5 172.5 179.5
1/7 4/7 2/7 1

Distribution de conditionnée par .

4/ Indépendance de deux variables : Les deux variables et sont dites indépendantes si :

est indépendante de soit alors

est indépendante de soit alors


D’où, la relation : qui nous donne , et .
Exemple : (Poids et taille de 20 individus)

5/ Paramètres marginaux:
a/ Moyenne :
Moyenne de : ̅ ∑ ∑
Moyenne de :̅ ∑ ∑
b/ Variance :
Variance de : ∑ ( ̅) ∑ ̅

∑ ( ̅) ∑ ̅

Variance de : ∑ ( ̅) ∑ ̅

∑ ( ̅) ∑ ̅

3
Exemple : Calcul des moyennes et variances marginales de et de .
[60,69[ [69,78[ [78,87[ [87,96[ [96,105[

64.5 73.5 82.5 91.5 100.5

[155,162[ 158.5 2 2 317


[162,169[ 165.5 2 1 3 496.5
[169,176[ 172.5 1 4 2 1 8 1380
[176,183[ 179.5 2 1 1 4 718
[183,190[ 186.5 3 3 559.5
5 7 3 1 4 20 3471 603693
322.5 514.5 247.5 91.5 402 1578
127809

̅ ̅

c/ Moyennes et variances conditionnelles :

 Moyenne de : ̅ ∑

 Moyenne de : ̅ ∑

 Variance de :
∑ ( ̅ ) ∑ ( ̅ )

 Variance de :
∑ ( ̅ ) ∑ (̅ )

Remarque : Si et sont indépendantes alors ̅ ̅ et ̅ ̅


Exemple : Calculer moyenne et variance de .
classes [162,169[ [169,176[ [176,183[
165.5 172.5 179.5
1/7 4/7 2/7 1
165.5/7 690/7 359/7 173.5
27390.25/7 119025/7 64440.5/7 30122.25

̅ et ( )
̅ ̅ alors et ne sont pas indépendantes.

4
6/ Covariance et coefficient de corrélation :
a/ La covariance : Elle est notée par ( ) ou , et elle est définie par :
∑ ∑ ( ̅ )( ̅) ∑ ∑ ( ̅ )( ̅) et elle peut s’écrire
comme suit : ∑ ∑ ̅̅ ∑ ∑ ̅̅
Exemple : Poids et taille de 20 individus. Calcul de la covariance.

[60,69[ [69,78[ [78,87[ [87,96[ [96,105[


64.5 73.5 82.5 91.5 100.5
[155,162[
158.5 2 2 317 12.9 20446.5
[162,169[
165.5 2 1 3 496.5 202.5 33513.75
[169,176[
172.5 1 4 2 1 8 1380 615 106087.5
[176,183[
179.5 2 1 1 4 718 330 59235
[183,190[
186.5 3 3 559.5 301.5 56229.75

5 7 3 1 4 20 3471 603693 275512.5


322.5 514.5 247.5 91.5 402 1578
127809

Propriétés :
1. la covariance est symétrique : ( ) ( ).
2. ( ) ( ) ( ) ( ).
3. ( ) ( ) ( ).
Remarque : La covariance peut prendre des valeurs positives, négatives ou nulles, et quand
, pour tout , la covariance est égale à la variance.
b/ Le coefficient de corrélation linéaire : C’est un indice qui mesure le degré de liaison
entre et . Il est noté par ( ) ou , et il est défini par :
∑ ∑ ( ̅ )( ̅)

√∑ ( ̅ ) √∑ ( ̅)
Propriétés :
1. Symétrie : ( ) ( ),
2.
3. | | ssi il existe une liaison linéaire entre et ( a, b, c IR / ),
4. Si et indépendantes alors ( ) .

5
Régression
1/ Ajustement linéaire:
a/ Droite de régression de en : ( )
Le coefficient de corrélation mesure la dépendance linéaire des variables. Si cette
dépendance est bonne, on peut exprimer la variable comme fonction linéaire de . La
méthode des moindres carrés consiste à chercher une droite telle que la somme de ses
distances aux différents points représentant les données soit minimale. La distance choisie
est le carré de la différence des ordonnées entre chaque point et le point de la droite ayant
même abscisse. Cette droite a pour équation : ̂ ( ̂ estimé n’est pas observé).
Il reste donc à déterminer les valeurs des paramètres et , qui désignent respectivement
la pente et l'ordonnée à l'origine de la droite d'ajustement.

La différence des ordonnées entre un point ( ) et le point de la droite ayant même


abscisse est : ̂ et la somme des carrés de ces différences doit être
minimum : ∑ ( ) minimum.
La solution est donnée par et
On trouve : ̂ ̅ ̂ ̅ et ̂
La forme du coefficient permet de constater que la droite d’ajustement passe par le point
moyen (centre de gravité) de coordonnées ̅ et ̅.
Son équation est : ̂ ̅ ̂( ̅ ) ou ̂ ̂ ̂

b/ Droite de régression de en : ( )

Le calcul précédent fait jouer un rôle dissymétrique aux variables et (on inverse les
rôles des deux variables). On définit une droite d’estimation de en d’équation :
̂ ̅ ̂( ̅) avec ̂ ̅ ̂ ̅ et ̂
̂ ̂ ̂

6
Remarques:

 Les deux droites d’estimation sont différentes, mais on ne peut dire laquelle qui
représente un meilleur ajustement.
 Le coefficient de corrélation linéaire est égal au produit des pentes : ̂̂ .
 Pour s’assurer que l’ajustement est valide, on calcule le coefficient de corrélation, et
s’il est voisin en valeur absolue de 1, l’ajustement est valide | | .
 Si | | alors les points sont alignés.
 Si alors et sont non corrélées.
 Si alors et croient dans le même sens.
 Si alors et croient dans le sens différent.

c/ Prévision :
 La droite de régression de en ( ) permet de prédire une valeur pour une
valeur donnée : ̂ ̂ ̂.
 La droite de régression de en ( ) permet de prédire une valeur pour une
valeur donnée : ̂ ̂ ̂.

7
2/ Ajustement non linéaire :
Dans certains cas, l’ajustement à une fonction linéaire n’est pas adéquat : un ajustement des
données à une fonction non linéaire doit être envisagé. Les deux cas que nous considérons sont
ceux où on peut se ramener par simple transformation à un ajustement affine.
a/ Ajustement à une fonction puissance : Supposons que les variables statistiques et sont
liées par une relation de la forme : . Dans ce cas, cette équation peut être transformée en
prenant le logarithme : . En effectuant les changements de variables suivants :
, nous nous ramenons au cas étudié .
b/ Ajustement à une fonction exponentielle : Supposons que les variables statistiques et
sont liées par une relation de la forme : . Dans ce cas, cette équation peut être
transformée en passant aux logarithmes : . En effectuant les changements de
variables suivants : , nous nous ramenons au cas étudié .
Exemple :
Un responsable logistique a effectué 8 observations mesurant le temps de préparation d’une
commande en minutes et le nombre de colis à préparer . Ces 8 mesures sont consignées dans
le tableau suivant, et les moyennes de chaque colonne est donnée dans la dernière ligne.

7 38
9 42
11 53
13 86
14 104
16 144
18 201
20 292
13.5 120 2.5505 4.5493 199.5 21328.75 6.6155 21.1783 1945.375 11.8259
En examinant le nuage de points, nous nous proposons d’effectuer un ajustement linéaire ainsi
qu’un ajustement à une fonction puissance pour déterminer lequel des deux ajustements est le
mieux adapté à la situation. Nous obtenons comme droite de régression :

Pour la courbe d’ajustement à une fonction puissance, en effectuant les changements de variables,
nous aurons comme droite de régression :
et comme alors

La fonction d’ajustement s’écrit donc :

Si nous calculons le coefficient de corrélation pour les deux fonctions d’ajustement, nous obtenons
pour l’ajustement linéaire , tandis que l’ajustement “puissance” donne .
Ce dernier est donc un meilleur ajustement que l’ajustement linéaire.

Vous aimerez peut-être aussi