Cours Stat Double BEY 1
Cours Stat Double BEY 1
Cours Stat Double BEY 1
Introduction :
On s’intéresse à deux variables et qui sont mesurées sur les unités d’observation.
Pour chaque unité, on obtient deux mesures. La série statistique est alors une suite
( ) ( ) ( ) de couples des valeurs prises par les deux variables sur
chaque individu. Chacune des deux variables peut être, soit quantitative, soit qualitative.
1
3/ Distributions :
a/ Distributions marginales : Par définition on note :
: l’effectif de la cellule ( ) est le nombre d’individus présentant simultanément les
modalités de et de .
: la fréquence de la cellule( ).
b/ Distributions conditionnelles :
La colonne du tableau statistique décrit la sous population des individus possédant la
modalité suivant le caractère . La fréquence conditionnelle de la modalité sachant
(ou liée à ) est :
et fixé.
De même, la distribution conditionnelle sachant :
et fixé.
2
Remarque :
∑ et ∑
Exemple :
Distribution de conditionnée par .
classes [162,169[ [169,176[ [176,183[
165.5 172.5 179.5
1/7 4/7 2/7 1
5/ Paramètres marginaux:
a/ Moyenne :
Moyenne de : ̅ ∑ ∑
Moyenne de :̅ ∑ ∑
b/ Variance :
Variance de : ∑ ( ̅) ∑ ̅
∑ ( ̅) ∑ ̅
Variance de : ∑ ( ̅) ∑ ̅
∑ ( ̅) ∑ ̅
3
Exemple : Calcul des moyennes et variances marginales de et de .
[60,69[ [69,78[ [78,87[ [87,96[ [96,105[
̅ ̅
Moyenne de : ̅ ∑
Moyenne de : ̅ ∑
Variance de :
∑ ( ̅ ) ∑ ( ̅ )
Variance de :
∑ ( ̅ ) ∑ (̅ )
̅ et ( )
̅ ̅ alors et ne sont pas indépendantes.
4
6/ Covariance et coefficient de corrélation :
a/ La covariance : Elle est notée par ( ) ou , et elle est définie par :
∑ ∑ ( ̅ )( ̅) ∑ ∑ ( ̅ )( ̅) et elle peut s’écrire
comme suit : ∑ ∑ ̅̅ ∑ ∑ ̅̅
Exemple : Poids et taille de 20 individus. Calcul de la covariance.
Propriétés :
1. la covariance est symétrique : ( ) ( ).
2. ( ) ( ) ( ) ( ).
3. ( ) ( ) ( ).
Remarque : La covariance peut prendre des valeurs positives, négatives ou nulles, et quand
, pour tout , la covariance est égale à la variance.
b/ Le coefficient de corrélation linéaire : C’est un indice qui mesure le degré de liaison
entre et . Il est noté par ( ) ou , et il est défini par :
∑ ∑ ( ̅ )( ̅)
√∑ ( ̅ ) √∑ ( ̅)
Propriétés :
1. Symétrie : ( ) ( ),
2.
3. | | ssi il existe une liaison linéaire entre et ( a, b, c IR / ),
4. Si et indépendantes alors ( ) .
5
Régression
1/ Ajustement linéaire:
a/ Droite de régression de en : ( )
Le coefficient de corrélation mesure la dépendance linéaire des variables. Si cette
dépendance est bonne, on peut exprimer la variable comme fonction linéaire de . La
méthode des moindres carrés consiste à chercher une droite telle que la somme de ses
distances aux différents points représentant les données soit minimale. La distance choisie
est le carré de la différence des ordonnées entre chaque point et le point de la droite ayant
même abscisse. Cette droite a pour équation : ̂ ( ̂ estimé n’est pas observé).
Il reste donc à déterminer les valeurs des paramètres et , qui désignent respectivement
la pente et l'ordonnée à l'origine de la droite d'ajustement.
b/ Droite de régression de en : ( )
Le calcul précédent fait jouer un rôle dissymétrique aux variables et (on inverse les
rôles des deux variables). On définit une droite d’estimation de en d’équation :
̂ ̅ ̂( ̅) avec ̂ ̅ ̂ ̅ et ̂
̂ ̂ ̂
6
Remarques:
Les deux droites d’estimation sont différentes, mais on ne peut dire laquelle qui
représente un meilleur ajustement.
Le coefficient de corrélation linéaire est égal au produit des pentes : ̂̂ .
Pour s’assurer que l’ajustement est valide, on calcule le coefficient de corrélation, et
s’il est voisin en valeur absolue de 1, l’ajustement est valide | | .
Si | | alors les points sont alignés.
Si alors et sont non corrélées.
Si alors et croient dans le même sens.
Si alors et croient dans le sens différent.
c/ Prévision :
La droite de régression de en ( ) permet de prédire une valeur pour une
valeur donnée : ̂ ̂ ̂.
La droite de régression de en ( ) permet de prédire une valeur pour une
valeur donnée : ̂ ̂ ̂.
7
2/ Ajustement non linéaire :
Dans certains cas, l’ajustement à une fonction linéaire n’est pas adéquat : un ajustement des
données à une fonction non linéaire doit être envisagé. Les deux cas que nous considérons sont
ceux où on peut se ramener par simple transformation à un ajustement affine.
a/ Ajustement à une fonction puissance : Supposons que les variables statistiques et sont
liées par une relation de la forme : . Dans ce cas, cette équation peut être transformée en
prenant le logarithme : . En effectuant les changements de variables suivants :
, nous nous ramenons au cas étudié .
b/ Ajustement à une fonction exponentielle : Supposons que les variables statistiques et
sont liées par une relation de la forme : . Dans ce cas, cette équation peut être
transformée en passant aux logarithmes : . En effectuant les changements de
variables suivants : , nous nous ramenons au cas étudié .
Exemple :
Un responsable logistique a effectué 8 observations mesurant le temps de préparation d’une
commande en minutes et le nombre de colis à préparer . Ces 8 mesures sont consignées dans
le tableau suivant, et les moyennes de chaque colonne est donnée dans la dernière ligne.
7 38
9 42
11 53
13 86
14 104
16 144
18 201
20 292
13.5 120 2.5505 4.5493 199.5 21328.75 6.6155 21.1783 1945.375 11.8259
En examinant le nuage de points, nous nous proposons d’effectuer un ajustement linéaire ainsi
qu’un ajustement à une fonction puissance pour déterminer lequel des deux ajustements est le
mieux adapté à la situation. Nous obtenons comme droite de régression :
Pour la courbe d’ajustement à une fonction puissance, en effectuant les changements de variables,
nous aurons comme droite de régression :
et comme alors
Si nous calculons le coefficient de corrélation pour les deux fonctions d’ajustement, nous obtenons
pour l’ajustement linéaire , tandis que l’ajustement “puissance” donne .
Ce dernier est donc un meilleur ajustement que l’ajustement linéaire.