Statistics">
Biostatistique
Biostatistique
Biostatistique
CHAOUADI Mustapha
1.0
Table des
matières
Introduction 3
I - Pré-test 4
1. Description ...................................................................................................................................................... 7
Afin de pouvoir comparer les paramètres des distributions tels que : les moyennes (m), les pourcentages (p) et les
variances σ2, on doit d'abord vérifier la normalité des échantillons, c'est pourquoi on a besoin d'appliquer un test de
normalité.
Les tests de normalité servent à s'assurer qu'une condition est remplie pour procéder ensuite à une analyse statistique.
En statistiques, les tests de normalité permettent de vérifier si les données suivent une loi normale ou non. Les plus
connus sont celui du khi², celui de Kolmogorov-Smirnov et celui de shapiro wilk. Il s'agit bien de vérifier
l'adéquation à la loi normale et non pas de déterminer la loi de distribution.
3
Pré-test
Pré-test
I
Avant d'entamer un test statistique, on peut faire un examen préalable des données, qui consiste tout
simplement à construire un graphique ou bien de calculer le coefficient d'asymétrie ou d'aplatissement.
Il est possible de visualiser la forme de la distribution des données à analyser en les représentant sous forme
d'histogramme puis de comparer la forme de cet histogramme avec une courbe représentant une loi normale
(les paramètres de cette loi étant calculés à partir des données à analyser). Ceci ne permet pas de conclure à la
normalité des données mais peut donner une idée du type de loi sous-jacente : loi normale ou loi de Student si la
distribution semble symétrique, loi log-normale, loi gamma, loi exponentielle ou loi bêta si la distribution est
asymétrique.
La boîte à moustaches résume seulement quelques caractéristiques de position du caractère étudié (médiane,
quartiles, minimum, maximum ou déciles). Ce diagramme est utilisé principalement pour comparer un même
caractère dans deux populations de tailles différentes.
4
Coefficient d'asymétrie et d'aplatissement
Il s'agit de tracer un rectangle allant du premier quartile au troisième quartile et coupé par la médiane. Ce
rectangle suffit pour le diagramme en boîte (figure 2). On ajoute alors des segments aux extrémités menant
jusqu'aux valeurs extrêmes, ou jusqu'aux premier et neuvième déciles (D1/D9), voire aux 5eme et 95eme
centiles. On parle alors de diagramme en boîte à moustaches ou de diagramme à pattes.
Le coefficient d'asymétrie renseigne sur l'asymétrie par rapport à une valeur centrale choisie. La distribution
d'une variable est symétrique si les observations sont également dispersées de part et d'autre d'une valeur
centrale. Ainsi, dans le cas de distributions symétriques, la moyenne et la médiane sont confondues (figure 3),
sinon elles sont distinctes.
G1 = (Moyenne-Mode)/(Ecart-type )
5
3.2. Le coefficient d'aplatissement
Le coefficient d'aplatissement, par référence à la courbe de la loi normale, indique si la distribution de la
variable est leptokurtique (pointue), mésokurtique (normale) ou une distribution aplatie (figure 4) si une forte
variation de la variable entraîne une faible variation de la fréquence relative (et inversement).
6
Test de shapiro wilk
En comparaison des autres tests, il est particulièrement puissant pour les petits effectifs (n ≤ 50).
Avec :
- aj : sont des constantes générées à partir de la moyenne et de la matrice de variance co-variance des quantiles
d'un échantillon de taille n suivant la loi normale. Ces constantes sont fournies dans des tables spécifiques (table
des coefficients) (Table 1).
Table 1 – Coefficients
La statistique W peut donc être interprétée comme le coefficient de détermination (le carré du coefficient de
corrélation) entre la série des quantiles générées à partir de la loi normale et les quantiles empiriques obtenues à
partir des données. Plus W est élevé, plus la compatibilité avec la loi normale est crédible.
Dans le cas des tests de normalité, on suppose que les échantillons sont normalement distribués, c'est-à-dire on
suppose en H0 que l'échantillon suit une loi normale.
Les valeurs critiques pour différents risques α et effectifs n sont lues dans la table de Shapiro-Wilk (Table 2).
7
Exercice d'application
Table 2 – Shapiro-wilk
2. Exercice d'application
Une expérience testant l'influence d'un parasite sur le taux d'alimentation d'un prédateur de crabe. Les données
associées sur le comportement et le taux d'alimentation sont illustrées dans le tableau ci-dessous:
8
La première étape consiste à trier les données brutes (observations) par ordre croissant, nous obtenons la série x
(i)
A partir de la table des coefficients, on fait la lecture de ces derniers. Dans notre exemple, puisque la taille de
l'échantillon égale à 11, alors on aura 5 coefficients.
Par la suite, on calcule les écarts (x(n−i+1) − x(i)). Par exemple, pour la 1ere ligne, sa sera X (11-1+1) c'est-à-
dire X11 moins X1. Pour la 2eme ligne, sa sera X (11-2+1) moins X2,......., ainsi de suite.
Après on passe à la multiplication des coefficients par les écarts obtenus, et on met la somme obtenue au carré.
On continue les calculs pour obtenir la somme des carrées des écarts à la moyenne.
A la fin on calcul la statistique de test (Wobs) qui est égale dans notre exemple à 0.97.
La statistique calculée va être comparer avec une valeur critique lu sur la table de shapiro-wilk. Il s'agit de
l'intersection entre la ligne 11 (qui correspond à la taille de notre échantillon) et la colonne 0.05 (qui correspond
au risque d'erreur α).
Puisque le W obs est supérieur à la valeur critique (Wobs > Wtable) alors on accepte l'hypothèse nulle.