[go: up one dir, main page]

0% ont trouvé ce document utile (0 vote)
9 vues46 pages

EDA et Visualisation des Données en Python

L'analyse exploratoire des données (EDA) vise à obtenir des informations sur les données, identifier les relations entre les variables et détecter les anomalies. La visualisation des données est essentielle pour communiquer les résultats et utiliser des bibliothèques comme Seaborn et Plotly pour créer des graphiques variés et interactifs. L'optimisation des performances des visualisations est cruciale, surtout avec des ensembles de données volumineux, en utilisant des techniques comme l'agrégation et l'échantillonnage.

Transféré par

surveillancecamera852
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
9 vues46 pages

EDA et Visualisation des Données en Python

L'analyse exploratoire des données (EDA) vise à obtenir des informations sur les données, identifier les relations entre les variables et détecter les anomalies. La visualisation des données est essentielle pour communiquer les résultats et utiliser des bibliothèques comme Seaborn et Plotly pour créer des graphiques variés et interactifs. L'optimisation des performances des visualisations est cruciale, surtout avec des ensembles de données volumineux, en utilisant des techniques comme l'agrégation et l'échantillonnage.

Transféré par

surveillancecamera852
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
Vous êtes sur la page 1/ 46

Analyse exploratoire des données

et visualisation
Filière: Ingénierie logicielle
AU: 2024/2025
Analyse exploratoire des données
Qu'est-ce que l'EDA ? (Analyse Exploratoire des Données)
L'objectif principal de l'analyse exploratoire des données est de :
• Obtenir des informations sur les données disponibles.
• Identifier les relations entre les différentes variables.
• Détecter tout élément inhabituel, comme des valeurs aberrantes ou des anomalies.
• Tester des hypothèses ou des intuitions.
• Identifier des paramètres ou variables optimaux pour résoudre le problème posé.
Analyse exploratoire des données
Étapes de l'Analyse Exploratoire des Données
• Explorer les données.

• Formuler des hypothèses.

• Évaluer ses principales caractéristiques.

• Visualiser les données.


Analyse exploratoire des données

Exemple : Que pouvez-


vous dire à propos de ces
quatre ensembles de
données différents ?
Analyse exploratoire des données

Ces ensembles de données semblent similaires.


Analyse exploratoire des données
Cependant, ils racontent tous une histoire
différente que de simples métriques ne
peuvent pas transmettre.
• Le premier graphique montre une
relation linéaire.
• Le deuxième présente une relation non
linéaire.
• Dans le troisième graphique, on
observe que la ligne linéaire est
perturbée par un point ayant une
valeur extrême pour y.
• Une chose similaire se produit avec le
quatrième ensemble de données.
Analyse exploratoire des données
• En résumé, parcourir les données brutes fournit peu d'informations.
• Les statistiques descriptives offrent une meilleure compréhension, mais peuvent être
trompeuses.
• La visualisation, en revanche, est l'outil le plus révélateur. C'est pourquoi l'Analyse
Exploratoire des Données (EDA) repose fortement sur cette dernière technique.
Visualisation des données

Définition
La visualisation des données permet de représenter des informations sous forme
de graphiques ou d'images afin de :
• Identifier les tendances et les relations entre les variables.
• Repérer les anomalies ou valeurs atypiques dans les données.
• Communiquer efficacement les résultats de manière claire et percutante.

En Python, les bibliothèques couramment utilisées sont :

• Matplotlib : La bibliothèque de base pour les graphiques 2D.


• Seaborn : Une extension de Matplotlib pour des visualisations plus
esthétiques et informatives.
• Plotly et Bokeh : Pour des visualisations interactives.
Visualisation des données
Visualisation avec Seaborn
Seaborn est une bibliothèque de visualisation graphique statistique créée par Michael
Waskom. C'est un outil puissant et facile à utiliser pour explorer et comprendre les
données.
Chaque graphique peut être généré avec un code court et simple, ce qui rend Seaborn
bien plus rapide et pratique à utiliser que de nombreux autres outils de visualisation de
données (comme Excel, par exemple).
Visualisation des données
 Graphique linéaire (Line chart)
Un graphique linéaire est une visualisation qui représente les valeurs d'une variable continue le long
d'un axe horizontal, permettant de tracer des lignes reliant les points de données. Ce type de graphique
est particulièrement utile pour observer l'évolution de données sur une période donnée ou pour
analyser les relations entre deux variables continues
Syntaxe :
seaborn.lineplot(x, y, data, hue, style)
x : Variable de données pour l'axe des x
y : Variable de données pour l'axe des y
data : L'objet pointant vers l'ensemble de données ou les valeurs des données
hue : Permet de regrouper les différentes variables de l'ensemble de données et aide à représenter la
relation entre l'axe des x et l'axe des y
style : La valeur que l'on souhaite afficher en plus des axes x et y, et permet également de spécifier
différentes structures de lignes : tirets, points (marqueurs), etc.
Visualisation des données
Exemple
Visualisation des données
Utilisation du paramètre hue pour appliquer des nuances de couleur à plusieurs points
de données
Visualisation des données
Utilisation du paramètre style pour tracer différents types de lignes
Visualisation des données
 Diagramme en barres (Bar Chart)
Le bar chart, ou diagramme en barres, est un type de graphique utilisé pour
représenter et comparer des données catégoriques à l'aide de barres de hauteur
proportionnelle aux valeurs qu'elles représentent. Il est idéal pour visualiser des
comparaisons entre différentes catégories ou groupes.

Syntaxe:
seaborn.barplot(x, y, data)
x : Variable des données pour l'axe des x.
y : Variable des données pour l'axe des y.
data : L'objet pointant vers l'ensemble complet des données ou les valeurs des
données.
Collecte de données
Exemple:
Visualisation des données
Si des valeurs discrètes sont données
pour l'axe des y et des données
continues pour l'axe des x, les barres
seront disposées horizontalement.
Visualisation des données
Lorsque plusieurs données résident dans un graphique, Pandas.melt() permet de déplier un
DataFrame du format large (wide format) vers le format long (long format). La fonction melt()
est utile pour convertir un DataFrame dans un format où une ou plusieurs colonnes sont des
variables identifiantes, tandis que toutes les autres colonnes sont considérées comme des
variables mesurées.
Visualisation des données
L'indication dans la légende représente
quel composant correspond à quelles
données. Seaborn prendra les chaînes
(clés) du DataFrame comme labels pour la
légende.
Visualisation des données
 Carte thermique (Heatmap)
Une heatmap (carte thermique) est définie comme une représentation graphique des
données utilisant des couleurs pour visualiser les valeurs d'une matrice. Dans ce cas,
pour représenter des valeurs plus courantes ou des activités plus élevées, des couleurs
plus claires, principalement rouges, sont utilisées, et pour représenter des valeurs
moins courantes ou des activités plus faibles, des couleurs plus sombres sont
préférées.
Visualisation des données
Syntaxe:
seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, annot_kws=None,
linewidths=0, linecolor='white', cbar=True)
• data : Jeu de données 2D qui peut être converti en ndarray.
• vmin, vmax : Valeurs pour ancrer la carte de couleurs, sinon elles sont inférées à partir des données
et des autres arguments.
• cmap : La carte des couleurs, qui fait correspondre les valeurs des données à l'espace colorimétrique.
• center : La valeur à laquelle centrer la carte de couleurs lors de la représentation de données
divergentes.
• annot : Si True, écrit la valeur des données dans chaque cellule.
• fmt : Code de formatage des chaînes à utiliser lors de l'ajout des annotations.
• linewidths : Largeur des lignes qui divisent chaque cellule.
• linecolor : Couleur des lignes qui divisent chaque cellule.
• cbar : Détermine si une barre de couleur doit être dessinée.
Visualisation des données
Exemple:
Visualisation des données
Confusion matrix
Visualisation des données
 Diagramme de dispersion (Scatter Plot)
Un diagramme de dispersion utilise des points pour illustrer les valeurs des variables
numériques. Il est utilisé pour :
• analyser des points individuels,
• observer et visualiser les relations entre les variables,
• ou obtenir une vue d'ensemble générale des variables.

Syntaxe:
sns.scatterplot(data=None, x=None, y=None, hue=None)
Visualisation des données
Exemple:
Visualisation des données
 Histogramme
Un histogramme est un graphique utilisé pour représenter la distribution d’un ensemble de
données numériques. Il divise les données en intervalles (appelés bacs ou bins) et affiche la
fréquence des valeurs dans chaque intervalle sous forme de barres. Chaque barre de
l’histogramme représente un intervalle, et la hauteur de la barre indique le nombre
d’observations (ou leur proportion) dans cet intervalle.

Syntaxe:
sns.histplot(data=None, x=None, y=None, hue=None)
Visualisation des données
Exemple:
Visualisation des données
 Graphique de densité (Density plot)
Un Kde plot (Kernel Density Estimation Plot) est un graphique qui représente la
fonction de densité de probabilité des variables continues ou non paramétriques. Il
permet de visualiser la distribution des données de manière lisse, contrairement à un
histogramme qui présente des barres discrètes. Ce type de graphique est
particulièrement utile pour analyser la densité sous-jacente des données et pour
comparer les distributions de plusieurs variables.

Syntaxe:
sns.kdeplot(data=None, x=None, y=None, hue=None)
Visualisation des données
Exemple:
Visualisation des données
Exemple: 2D KDE Plot
Visualisation des données
 Diagramme en boîte (boxplot )
Le boxplot de Seaborn est un graphique très basique mais extrêmement puissant pour
visualiser la distribution d'un jeu de données. Les boxplots sont utilisés pour illustrer
les quartiles et les valeurs aberrantes dans un ensemble de données, ce qui en fait un
outil très utile pour comparer les distributions entre plusieurs groupes.

Syntaxe:

sns.boxplot(data=None, x=None, y=None, hue=None)


Visualisation des données
Exemple:
Visualisation des données
Visualisation interactive avec Plotly
 Pourquoi ajouter de l'interactivité ?
• L'interactivité rend la visualisation plus engageante et utile pour des utilisateurs non
techniques.
• Elle permet de filtrer des données en temps réel, de comparer plusieurs variables,
de zoomer sur des régions spécifiques du graphique et de visualiser des détails
contextuels.
• Dans les rapports et les dashboards, l’interactivité permet à l’utilisateur
d’approfondir ses analyses selon ses besoins.
Visualisation des données

 Créer des graphiques interactifs avec Plotly


• Plotly est une bibliothèque Python permettant de créer des graphiques interactifs et
dynamiques, tels que des courbes, des diagrammes à barres, des cartes, etc.
• Contrairement aux visualisations statiques, Plotly permet d'interagir avec les
graphiques : zoomer, filtrer des données, et afficher des informations contextuelles au
survol.
Visualisation des données

Graphique linéaire
Visualisation des données
Visualisation des données
Diagramme en barre
Visualisation des données
Visualisation des données
Nuage de points
Visualisation des données
Visualisation des données
Optimisation des performances de la visualisation

• Lorsque les ensembles de données sont volumineux, les visualisations peuvent


devenir lentes ou difficiles à gérer.
• Optimiser les performances des visualisations est crucial pour une analyse efficace
des données volumineuses.
Visualisation des données
 Filtrage et réduction des données
• Il est important de réduire les données inutiles avant de créer des graphiques.
• Cela permet de réduire la taille des ensembles de données et d’accélérer la
visualisation.
Visualisation des données
 Agrégation
L'agrégation consiste à résumer les données en regroupant plusieurs valeurs
individuelles en une seule valeur représentative (comme une moyenne, une somme ou
un compte). Cette méthode réduit la quantité de points de données à afficher tout en
préservant les informations essentielles.
Visualisation des données
 Granularité
La granularité consiste à regrouper
les données en tranches ou
catégories, réduisant ainsi la
précision des valeurs individuelles.
Cette méthode simplifie les
données tout en préservant leur
structure globale.
Visualisation des données
 Échantillonnage
L'échantillonnage consiste à
sélectionner une sous-partie
représentative des données au
lieu d'afficher l'ensemble
complet. Cela est
particulièrement utile lorsque les
données sont volumineuses et
que leur affichage complet peut
être lent ou peu lisible.
Visualisation des données
 Optimisation des graphiques avec Seaborn
Seaborn propose des outils et options pour
améliorer les performances et la clarté des
graphiques. Cela inclut des ajustements comme
l'utilisation de sous-graphiques (ax),
la limitation des points visibles sur les axes, ou
la réduction de la taille des données affichées.
Visualisation des données

Vous aimerez peut-être aussi