[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
35 vues22 pages

Introduction à l'analyse de données

Transféré par

prof Kadari
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
35 vues22 pages

Introduction à l'analyse de données

Transféré par

prof Kadari
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 22

Analyse de données

L’analyse de données est l’ensemble de méthodes descriptives ayant pour


objectif de résumer et visualiser l’information pertinente dans un grand tableau de
données.
La statistique : ensemble des méthodes permettant de collecter des données, de
les organiser, les représenter, les décrire, les synthétiser, et de les analyser afin d'en
tirer de l'information utile.
La statistique descriptive se compose de 3 domaines distincts :
1. Statistique univariée: répartition d’une population selon une variable (la
taille, le poids…)
2. Statistique bivariée: étudie la relation qui peut exister entre deux variables
(entre la taille et le poids, par exemple…)
3. Statistique multivariée: étudie les relations entre plusieurs variables.
Statistiques descriptives univariées

Avant de démarrer une analyse statistique, il est nécessaire de bien connaître ses
données. (Quelle est la proportion de femmes ? Quel âge a le patient le plus âgé ? )
Les statistiques descriptives d’une seule variable répondent à ces questions, et ont
comme intérêt :

- D’identifier des outliers, c’est-à-dire des observations ayant des valeurs


Extrêmes.

-De vérifier la distribution des données : sont-elles distribuées suivant une loi
normale ?
Statistiques descriptives univariées

Vise à explorer et décrire les données résultant de l'observation d'une


variable x sur n individus.
Effectifs et fréquences cumulés.
Représentations graphiques.
Les mesures de position (le mode, et les moyennes).
Les mesures de dispersion (l'étendue, la variance, l'écart-type, les
écarts interquartile et interdécile, le box-plot, le
coefficient de variation, les écarts moyen et
médian absolus).
Les mesures de forme : (symétrie, aplatissement).
Statistiques descriptives univariées sous SPSS
L’ensemble des traitements statistiques et des graphiques est regroupé dans les menus Analyse et
Graphiques.

Analyse > Rapport > Récapitulatif des observations : permet de visualiser les données, en
affichant
l’ensemble des observations. Il est aussi possible d’afficher des statistiques descriptives (moyenne,
minimum,
maximum,. . . ) et même de demander l’affichage par groupe, suivant une variable qualitative (critère
de reGroupement).

1- Variables quantitatives
Analyse > Statistiques descriptives > Descriptives : statistiques descriptives pour des variables
quan-
titatives : moyenne, minimum, maximum, écart-type.
Graphiques > Boîtes... > Histogramme : représentation graphique, sous forme d’histogramme d’une
variable quantitative.
Statistiques descriptives univariées sous SPSS
3.2 Variables qualitatives:
Analyse > Statistiques descriptives > Fréquences : statistiques descriptives pour des
variables qualitatives : tris à plat, mode, médiane, quartiles, centiles,. . . (à préciser dans le
dialogue Statistiques).

Graphiques > Boîtes... > Barres > Simple | Récapitulatifs pour groupes d’observations :
diagramme en bâtons des modalités d’une variable qualitative. Possibilité d’afficher les
effectifs ou les pourcentages.

Effectifs préférables. Adapté aux variables qualitatives ordinales


Graphiques > Boîtes... > Circulaire > Récapitulatifs pour groupes d’observations :
diagramme en secteur (camembert) des modalités d’une variable qualitative . Possibilité
d’afficher les effectifs ou les pourcentages. Pourcentages préférables. Adapté aux variables
qualitatives nominales.::::::
Statistiques descriptives univariées sous SPSS
Autres statistiques univariées

Graphiques > Boîtes... > Boîte à moustaches > Simple | Récapitulatifs


pour variables distinctes :
construit à une boite à moustache (box-plot) permettant de déceler les
valeurs aberrantes d’une variable
quantitative.

Analyse > Statistiques descriptives >Tracès P-P ou Q-Q : graphique


Probalité-Probabilité ou Quantile-
Quantile permettant d’évaluer la normalité d’une variable.

Analyse > Tests non paramétriques > Boîtes... > K-S à 1 échantillon :
Test de Kolmogorov-Smir-nov permettant de tester la normalité d’une
variable.
LES MESURES DE TENDANCES CENTRALES
** MOYENNE : Mesure de tendance centrale la plus utilisée. Il s’agit de la somme des valeurs de toutes
les observations, divisée par le nombre d'observations.

** MÉDIANE : Valeur qui occupe la place du milieu dans le rangement ascendant ou descendant des
valeurs de la variable. Autrement dit, c’est la valeur de la variable qui divise la distribution de telle sorte
que 50% des valeurs se trouvent au-dessus d’elle et 50% des valeurs se rencontrent en-dessous d’elle.

** MODE : Valeur la plus fréquemment rencontrée dans une série de données.

** SOMME : Somme de toutes les valeurs d'une série de données .


LES MESURES DE TENDANCES CENTRALES
** ÉCART - TYPE : Mesure la dispersion des observations autour de la moyenne. Un écart-type qui est
grand par rapport à la moyenne indique la présence de données dispersées autour de la moyenne donc
hétérogènes, alors qu’un écart-type petit par rapport à la moyenne indique la présence de données
concentrées autour de la moyenne donc relativement homogènes.

** VARIANCE : Écart-type élevé au carré. S’interprète en termes d’unités carrées.

** ÉTENDUE : Différence entre la plus grande valeur et la plus petite valeur d'une série d'observations.

** MINIMUM /MAXIMUM :

Plus petite et plus grande valeurs rencontrées dans la distribution.

** ÉCART - MOYEN : Distance moyenne (en valeur absolue) séparant les observations de la moyenne.
Scores standardisés
Score Z

Si on a coché sur l’option « Enregistrer des valeurs standardisées dans des variables » dans la
boite de dialogue de la procédure Descriptives, on trouve maintenant dans la dernière colonne de
la base de données une nouvelle variable qui indique les scores de la variable selectionnée
standardisés.

Le score Z donne deux informations essentielles sur la position d’une observation à l’intérieur
d’une distribution :

L’observation est-elle au-dessus (+) ou en-dessous de la moyenne (-),

A quelle distance en écart- type se situe l’observation de la moyenne.


Que doit-on examiner dans une distribution ?
1. Les valeurs extrêmes à gauche ou à droite de la courbe de distribution ( ~ erreurs ).
2. La symétrie de la distribution : on dispose des indices d’asymétrie (skewness) et
d’aplatissement (kurtosis) fournies par le tableau Explorer.
3. Les pics du graphique : la présence de deux pics (deux bosses) suggère l’influence d’une
autre variable, comme le genre (un pic pour les femmes et un autre pour les hommes). Si
c’est le cas, on devrait procéder à la sortie de statistiques descriptives séparées selon le
genre.
* Moyenne tronquée 5 % : Moyenne calculée en enlevant 5 % de chaque côté de la
distribution, c’est-à-dire que la moyenne est calculée sur la base des valeurs comprises entre les
5 % plus basses et les 5 % plus élevées. Ceci permet d’enlever les valeurs extrêmes du calcul de
la moyenne, ce qui la rend plus précise, car moins exposée aux erreurs. C’est l’alternative à la
médiane s’il y a beaucoup de valeurs extrêmes.
* Médiane : Valeur milieu de la distribution. Le problème avec la médiane, c’est qu’elle
ignore beaucoup d’informations.
Les valeurs extrêmes : La présence de valeurs extrêmes doit interpeller le chercheur. En effet,
nous avons vu que ces valeurs peuvent être des erreurs de mesure ou bien des erreurs de saisie
de données. Peu importe, il est essentiel d’examiner la nature des valeurs extrêmes pour détecter
les erreurs systématiques de mesure ou d’entrée des données.
L’ APLATISSEMENT/ L’ ASYMÉTRIE.
L'aplatissement :mesure la "hauteur" d'une distribution.

l'aplatissement de la distribution normale est égal à 0 . On parle alors de distribution


mésokurtique.

Si le coefficient d'aplatissement est supérieur à 0, la distribution possède une forme pointue au


niveau de la moyenne avec des extrémités plus longues et étendues. On parle de distribution
leptokurtique.

Si le coefficient d'aplatissement est inférieur à 0, le pic de la distribution est plus arrondi autour de la
moyenne avec des extrémités plus courtes et resserrées. On parle alors de distribution
platykurtique.
La mesure de l’aplatissement peut s’effectuer par l’intermédiaire des coefficients suivants :

1. Coefficient de Pearson
β2 = 3 courbe normale
β2 > 3 courbe leptokurtique
β2 < 3 courbe platykurtique

2. Coefficient de Fisher
γ2 = 0 courbe normale
γ2 > 0 courbe leptokurtique
γ2 < 0 courbe platykurtique
ASYMÉTRIE
Une distribution est dite symétrique si les valeurs observées se répartissent de
façon uniforme autour des trois valeurs centrales : la moyenne, le mode et la
médiane.
Le terme anglais est "skewness".
Pour mesurer l'asymétrie d'une distribution, on dispose de différents coefficients:
Le coefficient de Yule ,Les coefficients de Pearson Coefficient de Fisher.
On distingue trois types de distributions selon qu'elles sont dissymétriques
(asymétriques) à gauche (graphique de gauche), symétriques (graphique du
milieu) ou dissymétriques (asymétriques) à droite (graphique de droite).
Statistique bivariée:
permet de préciser la relation entre deux variables : la pression artérielle
(variable 1) est-elle différente selon le genre (variable 2) ?

Le but des analyses bivariées est de répondre à la question : la différence


observée entre mes clients est-elle une vraie différence ou est-elle due au
hasard ?

Elles reposent sur des tests statistiques, permettant d’obtenir une p-value (qui
est la probabilité que la différence observée soit due au hasard).
Le choix de ces tests dépend des variables à comparer.
Statistique bivariée:
I. Tableaux croisés ou tableaux de contingence (2 variables nominales)

But: calculer la fréquence (nombres et/ou pourcentage) des participants qui sont compris dans les modalités
d'une variable nominale, croisée avec les participants qui sont compris dans les modalités d'une seconde
variable nominale (par exemple, nombre et pourcentage d'hommes et de femmes selon leur habitude à fumer).
Attention : vous n’allez utiliser que des variables nominales pour cette fonction.
Ensuite, cliquez sur Cells… pour demander les pourcentages (en ligne, en colonne et totaux).

Chemin : Analyze --> Descriptive Statistics --> Crosstabs…


Analyse > Statistiques descriptives > Tableaux croisés

Entrer une première variable dans la fenêtre Row(s): et une deuxième variable sous Column(s): toujours en les
sélectionnant et en cliquant sur la flèche qui sépare les deux fenêtres. L’ordre et la position que vous utilisez pour
entrer les variables n’est pas important pour le résultat.
Exemple 1 :

Dans une étude sur la consommation de tabac, on croise le Genre et la consommation de tabac des participants
(statut_fum : 1 = fumeurs, 2 = fumeur occasionnel, 3 = ancien fumeur,
4 = non-fumeur).
Statistique bivariée:
II. Obtention de la moyenne et de l'écart type de plusieurs sous-
groupes de l'échantillon:

But: Obtenir la moyenne d'une variable numérique pour différents sous-groupes de participants,

Donc en fonction d'une variable nominale. On a déja calculé la moyenne sur l’ensemble des
participants qui constituent l’échantillon.

Dans ce cas-ci, vous voulez calculer la moyenne de certains groupes : par exemple, quelle est la
moyenne d’âge des femmes et des hommes. Vous pouvez procéder de plusieurs manières:

On peut diviser les participants en plusieurs sous-groupes (ou sélectionner seulement les
participants qui vous intéressent). Vous pouvez utiliser cette méthode, mais il y a une autre manière
de procéder (plus élégante), qui consiste à créer des tableaux avec l’information que vous cherchez.

Attention : il est question d’une variable numérique et d’une variable nominale !!!!
Statistique bivariée:

Chemin : Analyze --> Tables --> Basic Tables…

Entrez la variable numérique dans la fenêtre Summaries: et la (ou les)


variable(s) nominale(s) dans la fenêtre Across (vous pouvez également
l’introduire dans la fenêtre down ou separate tables, le résultat est le même,
uniquement la présentation est différente, à vous d'essayer).

Exemple :

Moyenne d’âge en fonction du genre des participants.


Jusque la , il a été question de décrire les données. Dans cette partie, il est question de tester des
hypothèses. Avant de présenter les tests, nous proposons un petit tableau qui vous aidera à décider
quelle analyse est la plus adéquate selon le type de variables (nominale/ ou numérique) dont il est
question dans votre base de données et selon le rôle de chacune de celles-ci (variable dépendante ou
indépendante).
ATTENTION TRES IMPORTANT, concernant la logique des tests d’hypothèses et la notation officielle !!!!

Pour chaque test statistique, le logiciel associe une probabilité qui donne une indication du risque que vous
prenez en considérant que votre hypothèse H0 est fausse. En effet, un test d'hypothèse en statistique consiste
dans une démarche qui vous porte à rejeter ou à accepter une hypothèse nulle, sur la base d'un échantillon de
données.

Dans tous ces cas, on dit que le test est significatif : le risque de se tromper en rejetant H0 est raisonnablement
petit selon les standards.

Une notion fondamentale concernant les tests statistiques est la probabilité que l'on a de se tromper. Dans
l'idéal, on souhaiterait avoir un test qui renvoie toujours le "bon" résultat.
Par exemple on aimerait avoir un test qui choisisse toujours l'hypothèse nulle lorsque celle ci est vraie et qui
rejette tout le temps l'hypothèse nulle lorsque celle ci est fausse.

Vous pouvez constater qu’un test statistique ne teste pas si H1 est vraie, mais si H0 peut être rejetée comme
fausse.

La valeur p présentée par SPSS est calculée en tenant compte de ces deux types d’erreurs et la
communauté scientifique, s’est accordée pour considérer que lorsque la valeur du p est inférieure à .05 ( On
peut rejeter H0 comme fausse et donc accepter H1 EN PRENANT UN RISQUE RAISONNABLE
DE SE TROMPER AINSI FAISANT. Si p < .05 )

→ on dit que le test est significatif.


Par exemple, vous posez l’hypothèse selon laquelle 'il y a plus de femmes que d’hommes qui
étudient Commerce à l'université (Hypothèse 1, H1). L’hypothèse nulle, H0, sera qu’il y a la même proportion de
femmes que d’hommes qui étudient commerce à l'université. SPSS vous donne une indication du risque que
vous avez de vous tromper en rejetant H0 et en acceptant H1. Plus la valeur p est élevée (par exemple p = .98),
plus vous avez de chances de vous tromper en rejetant H0 comme fausse (dans l’exemple, 98%)

Notations :
Si p > .10 (normalement 0,10 mais en notation scientifique .10), on note ns (Non Significatif).
Le risque de rejeter H0 est trop élevé et votre hypothèse H1 n’est pas vérifiée.

Si .10 > p > .05, on note p = (valeur donnée, par exemple .06) et on considère que le teste est
tendanciel (pas significatif mais presque). Le risque de rejeter H0 est moins élevé que dans le
cas précédent, mais il est toujours trop élevé pour les standards.

1) Si .05 > p > .01, on note p < .05. Dans tous ces cas, on dit que le test est
2) Si .01 > p > .001, on note p < .01. significatif : le risque de se tromper en
3) Si p <. .001, on note p < .01. rejetant
H0 est raisonnablement petit selon les
standards.
Statistique bivariée: Le Khi carré
Principe du test :
Tester la relation entre deux variables nominales dans un tableau de contingence (un tableau des
fréquences). Plus l’écart entre les deux distributions est grand, moins la valeur réelle est proche de la
valeur de l’indépendance. Cela signifie qu’il y a dépendance entre les variables (H1 est acceptée).

Conditions de validité du test :


Théoriquement, il faut au moins cinq participants dans chaque case du tableau croisé de la
distribution théorique pour que l’analyse soit valable (le logiciel vous indique si c’est le cas).

Remarque
Dans le test du Khi carré, il n’y a pas vraiment de variable dépendante (VD) et de variable
indépendante (VI) : les deux variables sont de même niveau. Le test questionne le lien entre
Elles.
Exemple :

Tester s'il existe une relation entre le fait d’être un homme ou une femme (variable X) et le fait de
fumer (variable Y). Exemple de H1 : les hommes sont plus souvent des fumeurs que les femmes.

Dans l'onglet Statistics cochez Chi-square, puis cliquez sur Continue, puis OK.
Tester s'il existe une relation entre le fait d’être un homme ou une femme (variable X) et le
fait de fumer (variable Y).

Exemple de H1 : les hommes sont plus souvent des fumeurs que les femmes.

Chemin : Analyze > Descriptive Statistics > Cross tabs...

Dans Rows, ajouter une des variables (genre).


Dans Columns, ajouter l'autre variable (statut_fum).
Que vous placiez le genre dans columns et statut_fum dans row, ne change rien au résultat.
Dans Cells demandez les pourcentages (row, column and total).

Les autres données afférentes au χ 2 sont des variantes du test du χ 2.

Vous aimerez peut-être aussi