LES TESTS STATISTIQUES
1. PROBLEMATIQUE
Tests statistiques = Comparaison de 2 ou plusieurs groupes
Comparaison de fréquences d’une maladie
Région I = Fréquence f1 Région II = Fréquence f2
Période I = Fréquence f1 Période II = Fréquence f2
Comparer les deux fréquences f1 et f2
Etude de la relation
entre un facteur étiologique et une maladie
Malades : f1
Sujets exposés
au facteur Non malades
Population
Sujets non exposés Malades : f2
au facteur
Non malades
Comparer les deux fréquences f1 et f2
Comparer 2 ou plusieurs groupes
=
Etudier la relation (la liaison) entre 2 variables
Répartition de 176 enfants
selon la qualité de l’eau de boisson
et la diarrhée
Diarrhée / Eau Mauvaise Bonne Total
Oui 54 17 71
Non 55 50 105
Total 109 67 176
2 Variables a tester :
- La diarrhée
- La qualité de l’eau
Comparer deux pourcentages :
- Pourcentage d’enfants diarrhéiques ayant une eau
de mauvaise qualité : P1 = 54 / 109 = 49,5 %
- Pourcentage d’enfants diarrhéiques ayant une eau
de bonne qualité : P2 = 17 / 67 = 25,4 %
A priori : P1 P2
Mais : La différence peut être due au hasard
Test statistique
Variable à plus de 2 modalités
Proportion de dysenterie selon la profession
dans une épidémie survenue dans une localité
de 8900 habitants
Profession Population Nbre de cas %
Pécheurs 900 40 4,4
Agriculteurs 1800 15 0,83
Autres 6200 29 0,47
Profession
Pourcentage plus élevé chez les pécheurs
Test statistique pour confirmation
Taux d’uricémie et diabète
Uricémie Diabétiques Non diabétiques
Effectif n1 n2
Moyenne M1 M2
Variance s21 s22
Variable qualitative : Diabète
Variable quantitative : Uricémie
Liaison entre deux variables = Liaison jamais constante
TEST STATISTIQUE
- Homogénéité entre deux ou plusieurs groupes : Comparaison
- Conformité de distributions : Ajustement
2. METHODE DU TEST D’HYPOTHESE
Liaison entre deux variables = Peut être due au hasard
(fluctuations d’échantillonnage)
Comparaison de deux traitements A et B chez 100 malades
Traitement A B
Résultat Effectif % Effectif %
Succès 43 79,6 31 67,4
Echec 11 20,4 15 32,6
Total 54 100 46 100
% de succès avec A (PA) > % de succès avec B (PB)
Hasard ????
Test d’hypothèse :
- Proportions de succès avec A et B identiques ou différentes ?
- Existe –il une liaison entre le succès et le traitement
QUANTIFIER LE ROLE DU HASARD
Hypothèse nulle :
- Hypothèse d’absence de liaison entre les deux variables
- Hypothèse d’indépendance des deux variables
1ère étape du test
Vérifiable après le test
H0 :
- Le traitement et le résultat produit sont indépendants
- Il n’existe pas de relation entre le traitement et le résultat produit
- Le résultat du traitement A n’est pas différent du résultat
du traitement B
- Il n ya pas de différence entre les résultats des deux trainements
H0 : PA = PB
Test d’hypothèse = Probabilité p
p = Probabilité que le hasard puisse expliquer les résultats
• Si p Seuil : Différence statistiquement significative
Hypothèse nulle rejetée
• Si p > Seuil : Pas de Différence statistiquement significative
Hypothèse nulle retenue
Seuil de signification habituel = 5%
p = Probabilité de rejeter à tort une hypothèse nulle
= Probabilité de conclure une différence qui n’existe pas
(due au simple hasard)
3. ETAPES DU TEST D’HYPOTHESE
1. Position du problème et choix du test statistique
2. Formulation de l’hypothèse nulle
3. Vérification des conditions d’application
4. Application du test
5. Résultats
6. Conclusion
4. LIAISON ENTRE DEUX VARIABLES
QUALITATIVES
4.1. Comparaison d’un pourcentage observé
à un pourcentage théorique :
Soit un pourcentage théorique P
On observe sur un échantillon de taille n,
un pourcentage P0
Le pourcentage observé P0 diffère-t-il
du pourcentage théorique P ?
e = z s
e = | P – P0 |
p = 5%
z = 1,96
e = 1,96 s
Plus p est élevé (z diminue) ; moins e est large
z = e/s
z = 1,96 ; IC à 95 %
La valeur de z suit celle de e
Calculer la différence absolue entre les deux
pourcentages :
| P – P0 |
Calculer l’écart-type s du pourcentage théorique P :
s=PQ/n
Calculer l’écart-réduit z
z = | P – P0 | / s
| P – P0 |
z =
PQ/n
Si z 1,96, Différence statistiquement significative
Si z < 1,96, Différence statistiquement non significative
Seuil de signification : Table de l’écart-réduit
Conditions d’application :
nP et nQ 5
Utilisation des fréquence absolues :
s = nPQ
Calculer l’écart-réduit z :
z = | x – x0 | / s | x – x0 |
z =
nPQ
Exemple :
Une variété de souris présente un cancer avec une fréquence de 20 %
Après l’administration d’une certaine substance chez un lot de 100
souris, on observe un pourcentage de cancers de 14 %
Cette substance a-t-elle un effet sur le cancer ?
P = 0,2
Q = 1 – P = 0,8
n = 100
P0 = 0,14
1. Position du problème et choix
du test statistique :
Il s’agit de la comparaison d’un pourcentage observé
à un pourcentage théorique
2. Hypothèse nulle :
La substance en question n’a pas d’effets sur le cancer
H0 : P = P0
| P – P0 |
H0 : z = < 1,96
PQ/n
3. Vérification des conditions d’application :
n p = 100 x 0,2 = 20
n q = 100 x 0,8 = 80
4. Application :
| P – P0 |
z =
PQ/n
| 0,2 – 0,14 |
z = = 1,5
0,2 x 0,8 / 100
5. Résultat :
z = 1,5 < 1,96
Il n y a pas de différence statistiquement significative
L’hypothèse nulle est retenue
6. Conclusion :
La substance en question n’a pas d’effets sur le cancer
Utilisation des fréquence absolues :
x = 20
x0 = 14
| 20 - 14 |
z = = 1,5
0,2 x 0,8 x 100
4.2. Comparaison de deux pourcentages observés
Soit un pourcentage PA observé sur un
échantillon nA
et
un pourcentage PB observé sur un échantillon nB
Le pourcentage observé PA diffère-t-il
du pourcentage observé PB ?
Calculer la différence absolue entre les deux
pourcentages :
| PA – PB |
Calculer l’écart-type s des deux pourcentages :
s = P Q / nA + P Q / nB
P et Q : Proportions estimés sur l’ensemble de deux échantillons
P = xA + xB / nA + nB
Calculer l’écart-réduit z :
z = | PA – PB | / s | PA – PB |
z =
P Q / n A + P Q / nB
Si z 1,96, Différence statistiquement significative
Si z < 1,96, Différence statistiquement non significative
Seuil de signification : Table de l’écart-réduit
Conditions d’application :
nAP , nAQ, nBP et nBQ 5
Exemple :
On sélectionne deux groupes de 200 et de 400 sujets qui reçoivent
respectivement deux traitements A et B. Les pourcentages de succès
respectifs sont de 30 % et de 45 %.
L’action des deux traitements est-elle différente?
nA= 200
nB = 400
PA= 0,30
QA = 1 – PA = 0,70
PB = 0,45
QB = 1 – PB = 0,55
Estimation de P et de Q :
xA = 0,30 x 200 = 60
xB = 0,45 x 400 = 180
P = xA + xB / nA + nB = 60 + 180 / 200 + 400 = 0,4
P = 0,4
Q = 0,6
1. Position du problème et choix
du test statistique :
Il s’agit de la comparaison de deux pourcentages observés
2. Hypothèse nulle :
L’action des deux traitements est identique
H0 : PA = PB
H0 :
| PA – PB |
z = < 1,96
PQ / nA + P Q / nB
3. Vérification des conditions d’application :
nA p = 200 x 0,4 = 80
nA q = 200 x 0,6 = 120
nB p = 400 x 0,4 = 160
nB q = 400 x 0,6 = 240
4. Application :
| PA – PB |
z =
P Q / n A + P Q / nB
| 0,35– 0,40|
z = = 3,5
0,4 x 0,6/ 200 + 0,4 x 0,6 / 400
5. Résultat :
z = 3,5 > 1,96
L’hypothèse nulle est rejetée
La différence est statistiquement significative
Le seuil de signification < 1 p. 1000
6. Conclusion :
L’action des deux traitement est différente (p < 1 p. 1000)
5. LIAISON ENTRE UNE VARIABLE
QUALITATIVE ET UNE VARIABLE
QUANTITATIVE
5.1. Comparaison d’une moyenne observée
à une valeur théorique :
On observe sur un échantillon de taille n,
une moyenne m0 avec un écart-type s;
qu’on doit comparer à une valeur théorique m
La moyenne observée m0 diffère-t-elle
de la valeur théorique m ?
Calculer l’écart-réduit z
| m – m0 |
z =
s/n
Si z 1,96, Différence statistiquement significative
Si z < 1,96, Différence statistiquement non significative
Seuil de signification : Table de l’écart-réduit
Conditions d’application :
- n 30
Exemple :
Sur un échantillon de 250 sujets, on observe une glycémie moyenne
de 1,17 g/l avec un écart-type de 0,32 g/l.
Cette mesure doit être considérée comme normale en adoptant
la valeur théorique de 1,26 g/l ?
n= 250
m0 = 1,17
s = 0,32
m = 1,26
1.Position du problème et choix
du test statistique :
Il s’agit de la comparaison d’une moyenne observée
à une valeur théorique
2. Hypothèse nulle :
La mesure observée est considérée comme normale en
adoptant une valeur théorique de 1,26 g/l
H0 : m0 = m
H0 :
| m – m0 |
z = < 1,96
s/n
3. Vérification des conditions d’application :
n = 250 > 30
4. Application :
| m – m0 |
z=
s/n
| 1,26 – 1,17 |
z= = 4,5
0,32 / 250
5. Résultat :
z = 4,5 > 1,96
L’hypothèse nulle est rejetée
La différence est statistiquement significative
Le seuil de signification < 1 p. 100000
6. Conclusion :
La mesure observée n’est pas considérée comme normale
en adoptant une valeur théorique de 1,26 g/l (p < 1 p. 1 00000)
5.2. Comparaison de deux moyennes observées
Soit une moyenne mA observée sur un
échantillon nA, avec une variance s2A
et
une moyenne mB observée sur un échantillon nB,
avec une variance s2B
La moyenne observée mA diffère-t-elle
de la moyenne observée mB ?
Calculer la différence absolue entre les deux
moyennes :
| mA – mB |
Calculer l’écart-type s des deux moyennes :
s = s2A / nA + s2B / nB
Calculer l’écart-réduit z
z = | mA – mB | / s
| mA – mB |
z =
s2A / nA + s2B / nB
Si z 1,96, Différence statistiquement significative
Si z < 1,96, Différence statistiquement non significative
Seuil de signification : Table de l’écart-réduit
Conditions d’application :
nA et nB 30
Exemple :
Le taux moyen de cholestérol sanguin chez un groupe
de 150 diabétiques est de 1,46 g/l avec un écart-type
de 0,28 g/l. Celui d’un groupe de 300 sujets non diabétiques est
de 1,45 g/L avec un écart-type de 0,25 g/l.
Existe-il une relation entre l’hypercholestérolémie et le diabète?
nA= 150
nB = 300
mA= 1,46
sA = 0,28
mB = 1,45
sB = 0,25
1. Position du problème et choix
du test statistique :
Il s’git de la comparaison de deux moyennes observées
2. Hypothèse nulle :
Il n y a pas de relation entre le diabète et l’hypercholestérolémie
H0 : mA = mB
H0 :
| mA – mB |
z = < 1,96
s2A / nA + s2B / nB
3. Vérification des conditions d’application :
nA = 150 > 30
nB = 300 > 30
4. Application :
| mA – mB |
z =
s2A / nA + s2B / nB
| 1,46 – 1,45|
z = = 3,8
(0,28)2 / 150 + (0,25)2 / 300
5. Résultat :
z = 3,8 > 1,96
L’hypothèse nulle est rejetée
La différence est statistiquement significative
Le seuil de signification < 1 p. 1000
6. Conclusion :
Il y a une relation entre le diabète et l’hypercholestérolémie
(p < 1 p. 1000)