EDA et Visualisation des Données en Python

L'analyse exploratoire des données (EDA) vise à obtenir des informations sur les données, identifier les relations entre les variables et détecter les anomalies. La visualisation des données est essentielle pour communiquer les résultats et utiliser des bibliothèques comme Seaborn et Plotly pour créer des graphiques variés et interactifs. L'optimisation des performances des visualisations est cruciale, surtout avec des ensembles de données volumineux, en utilisant des techniques comme l'agrégation et l'échantillonnage.

Transféré par

surveillancecamera852

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

9 vues46 pages

EDA et Visualisation des Données en Python

Transféré par

surveillancecamera852

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 46

Analyse exploratoire des données

et visualisation
Filière: Ingénierie logicielle
AU: 2024/2025
Analyse exploratoire des données
Qu'est-ce que l'EDA ? (Analyse Exploratoire des Données)
L'objectif principal de l'analyse exploratoire des données est de :
• Obtenir des informations sur les données disponibles.
• Identifier les relations entre les différentes variables.
• Détecter tout élément inhabituel, comme des valeurs aberrantes ou des anomalies.
• Tester des hypothèses ou des intuitions.
• Identifier des paramètres ou variables optimaux pour résoudre le problème posé.
Analyse exploratoire des données
Étapes de l'Analyse Exploratoire des Données
• Explorer les données.

• Formuler des hypothèses.

• Évaluer ses principales caractéristiques.

• Visualiser les données.

Analyse exploratoire des données

Exemple : Que pouvez-

vous dire à propos de ces
quatre ensembles de
données différents ?
Analyse exploratoire des données

Ces ensembles de données semblent similaires.

Analyse exploratoire des données
Cependant, ils racontent tous une histoire
différente que de simples métriques ne
peuvent pas transmettre.
• Le premier graphique montre une
relation linéaire.
• Le deuxième présente une relation non
linéaire.
• Dans le troisième graphique, on
observe que la ligne linéaire est
perturbée par un point ayant une
valeur extrême pour y.
• Une chose similaire se produit avec le
quatrième ensemble de données.
Analyse exploratoire des données
• En résumé, parcourir les données brutes fournit peu d'informations.
• Les statistiques descriptives offrent une meilleure compréhension, mais peuvent être
trompeuses.
• La visualisation, en revanche, est l'outil le plus révélateur. C'est pourquoi l'Analyse
Exploratoire des Données (EDA) repose fortement sur cette dernière technique.
Visualisation des données

Définition
La visualisation des données permet de représenter des informations sous forme
de graphiques ou d'images afin de :
• Identifier les tendances et les relations entre les variables.
• Repérer les anomalies ou valeurs atypiques dans les données.
• Communiquer efficacement les résultats de manière claire et percutante.

En Python, les bibliothèques couramment utilisées sont :

• Matplotlib : La bibliothèque de base pour les graphiques 2D.

• Seaborn : Une extension de Matplotlib pour des visualisations plus
esthétiques et informatives.
• Plotly et Bokeh : Pour des visualisations interactives.
Visualisation des données
Visualisation avec Seaborn
Seaborn est une bibliothèque de visualisation graphique statistique créée par Michael
Waskom. C'est un outil puissant et facile à utiliser pour explorer et comprendre les
données.
Chaque graphique peut être généré avec un code court et simple, ce qui rend Seaborn
bien plus rapide et pratique à utiliser que de nombreux autres outils de visualisation de
données (comme Excel, par exemple).
Visualisation des données
 Graphique linéaire (Line chart)
Un graphique linéaire est une visualisation qui représente les valeurs d'une variable continue le long
d'un axe horizontal, permettant de tracer des lignes reliant les points de données. Ce type de graphique
est particulièrement utile pour observer l'évolution de données sur une période donnée ou pour
analyser les relations entre deux variables continues
Syntaxe :
seaborn.lineplot(x, y, data, hue, style)
x : Variable de données pour l'axe des x
y : Variable de données pour l'axe des y
data : L'objet pointant vers l'ensemble de données ou les valeurs des données
hue : Permet de regrouper les différentes variables de l'ensemble de données et aide à représenter la
relation entre l'axe des x et l'axe des y
style : La valeur que l'on souhaite afficher en plus des axes x et y, et permet également de spécifier
différentes structures de lignes : tirets, points (marqueurs), etc.
Visualisation des données
Exemple
Visualisation des données
Utilisation du paramètre hue pour appliquer des nuances de couleur à plusieurs points
de données
Visualisation des données
Utilisation du paramètre style pour tracer différents types de lignes
Visualisation des données
 Diagramme en barres (Bar Chart)
Le bar chart, ou diagramme en barres, est un type de graphique utilisé pour
représenter et comparer des données catégoriques à l'aide de barres de hauteur
proportionnelle aux valeurs qu'elles représentent. Il est idéal pour visualiser des
comparaisons entre différentes catégories ou groupes.

Syntaxe:
seaborn.barplot(x, y, data)
x : Variable des données pour l'axe des x.
y : Variable des données pour l'axe des y.
data : L'objet pointant vers l'ensemble complet des données ou les valeurs des
données.
Collecte de données
Exemple:
Visualisation des données
Si des valeurs discrètes sont données
pour l'axe des y et des données
continues pour l'axe des x, les barres
seront disposées horizontalement.
Visualisation des données
Lorsque plusieurs données résident dans un graphique, Pandas.melt() permet de déplier un
DataFrame du format large (wide format) vers le format long (long format). La fonction melt()
est utile pour convertir un DataFrame dans un format où une ou plusieurs colonnes sont des
variables identifiantes, tandis que toutes les autres colonnes sont considérées comme des
variables mesurées.
Visualisation des données
L'indication dans la légende représente
quel composant correspond à quelles
données. Seaborn prendra les chaînes
(clés) du DataFrame comme labels pour la
légende.
Visualisation des données
 Carte thermique (Heatmap)
Une heatmap (carte thermique) est définie comme une représentation graphique des
données utilisant des couleurs pour visualiser les valeurs d'une matrice. Dans ce cas,
pour représenter des valeurs plus courantes ou des activités plus élevées, des couleurs
plus claires, principalement rouges, sont utilisées, et pour représenter des valeurs
moins courantes ou des activités plus faibles, des couleurs plus sombres sont
préférées.
Visualisation des données
Syntaxe:
seaborn.heatmap(data, vmin=None, vmax=None, cmap=None, center=None, annot_kws=None,
linewidths=0, linecolor='white', cbar=True)
• data : Jeu de données 2D qui peut être converti en ndarray.
• vmin, vmax : Valeurs pour ancrer la carte de couleurs, sinon elles sont inférées à partir des données
et des autres arguments.
• cmap : La carte des couleurs, qui fait correspondre les valeurs des données à l'espace colorimétrique.
• center : La valeur à laquelle centrer la carte de couleurs lors de la représentation de données
divergentes.
• annot : Si True, écrit la valeur des données dans chaque cellule.
• fmt : Code de formatage des chaînes à utiliser lors de l'ajout des annotations.
• linewidths : Largeur des lignes qui divisent chaque cellule.
• linecolor : Couleur des lignes qui divisent chaque cellule.
• cbar : Détermine si une barre de couleur doit être dessinée.
Visualisation des données
Exemple:
Visualisation des données
Confusion matrix
Visualisation des données
 Diagramme de dispersion (Scatter Plot)
Un diagramme de dispersion utilise des points pour illustrer les valeurs des variables
numériques. Il est utilisé pour :
• analyser des points individuels,
• observer et visualiser les relations entre les variables,
• ou obtenir une vue d'ensemble générale des variables.

Syntaxe:
sns.scatterplot(data=None, x=None, y=None, hue=None)
Visualisation des données
Exemple:
Visualisation des données
 Histogramme
Un histogramme est un graphique utilisé pour représenter la distribution d’un ensemble de
données numériques. Il divise les données en intervalles (appelés bacs ou bins) et affiche la
fréquence des valeurs dans chaque intervalle sous forme de barres. Chaque barre de
l’histogramme représente un intervalle, et la hauteur de la barre indique le nombre
d’observations (ou leur proportion) dans cet intervalle.

Syntaxe:
sns.histplot(data=None, x=None, y=None, hue=None)
Visualisation des données
Exemple:
Visualisation des données
 Graphique de densité (Density plot)
Un Kde plot (Kernel Density Estimation Plot) est un graphique qui représente la
fonction de densité de probabilité des variables continues ou non paramétriques. Il
permet de visualiser la distribution des données de manière lisse, contrairement à un
histogramme qui présente des barres discrètes. Ce type de graphique est
particulièrement utile pour analyser la densité sous-jacente des données et pour
comparer les distributions de plusieurs variables.

Syntaxe:
sns.kdeplot(data=None, x=None, y=None, hue=None)
Visualisation des données
Exemple:
Visualisation des données
Exemple: 2D KDE Plot
Visualisation des données
 Diagramme en boîte (boxplot )
Le boxplot de Seaborn est un graphique très basique mais extrêmement puissant pour
visualiser la distribution d'un jeu de données. Les boxplots sont utilisés pour illustrer
les quartiles et les valeurs aberrantes dans un ensemble de données, ce qui en fait un
outil très utile pour comparer les distributions entre plusieurs groupes.

Syntaxe:

sns.boxplot(data=None, x=None, y=None, hue=None)

Visualisation des données
Exemple:
Visualisation des données
Visualisation interactive avec Plotly
 Pourquoi ajouter de l'interactivité ?
• L'interactivité rend la visualisation plus engageante et utile pour des utilisateurs non
techniques.
• Elle permet de filtrer des données en temps réel, de comparer plusieurs variables,
de zoomer sur des régions spécifiques du graphique et de visualiser des détails
contextuels.
• Dans les rapports et les dashboards, l’interactivité permet à l’utilisateur
d’approfondir ses analyses selon ses besoins.
Visualisation des données

 Créer des graphiques interactifs avec Plotly

• Plotly est une bibliothèque Python permettant de créer des graphiques interactifs et
dynamiques, tels que des courbes, des diagrammes à barres, des cartes, etc.
• Contrairement aux visualisations statiques, Plotly permet d'interagir avec les
graphiques : zoomer, filtrer des données, et afficher des informations contextuelles au
survol.
Visualisation des données

Graphique linéaire
Visualisation des données
Visualisation des données
Diagramme en barre
Visualisation des données
Visualisation des données
Nuage de points
Visualisation des données
Visualisation des données
Optimisation des performances de la visualisation

• Lorsque les ensembles de données sont volumineux, les visualisations peuvent

devenir lentes ou difficiles à gérer.
• Optimiser les performances des visualisations est crucial pour une analyse efficace
des données volumineuses.
Visualisation des données
 Filtrage et réduction des données
• Il est important de réduire les données inutiles avant de créer des graphiques.
• Cela permet de réduire la taille des ensembles de données et d’accélérer la
visualisation.
Visualisation des données
 Agrégation
L'agrégation consiste à résumer les données en regroupant plusieurs valeurs
individuelles en une seule valeur représentative (comme une moyenne, une somme ou
un compte). Cette méthode réduit la quantité de points de données à afficher tout en
préservant les informations essentielles.
Visualisation des données
 Granularité
La granularité consiste à regrouper
les données en tranches ou
catégories, réduisant ainsi la
précision des valeurs individuelles.
Cette méthode simplifie les
données tout en préservant leur
structure globale.
Visualisation des données
 Échantillonnage
L'échantillonnage consiste à
sélectionner une sous-partie
représentative des données au
lieu d'afficher l'ensemble
complet. Cela est
particulièrement utile lorsque les
données sont volumineuses et
que leur affichage complet peut
être lent ou peu lisible.
Visualisation des données
 Optimisation des graphiques avec Seaborn
Seaborn propose des outils et options pour
améliorer les performances et la clarté des
graphiques. Cela inclut des ajustements comme
l'utilisation de sous-graphiques (ax),
la limitation des points visibles sur les axes, ou
la réduction de la taille des données affichées.
Visualisation des données

Vous aimerez peut-être aussi

Cours Visualisation Avec Python Copy
Pas encore d'évaluation
Cours Visualisation Avec Python Copy
49 pages
Les BIB
Pas encore d'évaluation
Les BIB
11 pages
Datavisualisation: Une Image Vaut Mille Mots
Pas encore d'évaluation
Datavisualisation: Une Image Vaut Mille Mots
16 pages
Visualisation de données Python: Matplotlib et Seaborn
Pas encore d'évaluation
Visualisation de données Python: Matplotlib et Seaborn
16 pages
Semaine 3 Visualisation Des Donnees Avec Matplotlib Et Seaborn
Pas encore d'évaluation
Semaine 3 Visualisation Des Donnees Avec Matplotlib Et Seaborn
8 pages
Guide de Visualisation de Données
Pas encore d'évaluation
Guide de Visualisation de Données
8 pages
Visualisation Des Données Avec Python Seaborn - Acervo Lima
Pas encore d'évaluation
Visualisation Des Données Avec Python Seaborn - Acervo Lima
27 pages
Aar Seaborn
Pas encore d'évaluation
Aar Seaborn
4 pages
Data Visualization DIT
Pas encore d'évaluation
Data Visualization DIT
28 pages
Chapitre 4
Pas encore d'évaluation
Chapitre 4
36 pages
Rappel3 Matplotlib
Pas encore d'évaluation
Rappel3 Matplotlib
30 pages
Data Visualization
Pas encore d'évaluation
Data Visualization
79 pages
Viz 3libs 1
Pas encore d'évaluation
Viz 3libs 1
10 pages
TD Semaine5
Pas encore d'évaluation
TD Semaine5
9 pages
Final Big Data
Pas encore d'évaluation
Final Big Data
16 pages
Tuto 1-3 - Visualisation Des Donnees Avec Matplotlib Seaborn
Pas encore d'évaluation
Tuto 1-3 - Visualisation Des Donnees Avec Matplotlib Seaborn
23 pages
6) Analyse Exploratoire Des Données
100% (1)
6) Analyse Exploratoire Des Données
41 pages
Exploration Des Données
Pas encore d'évaluation
Exploration Des Données
45 pages
TP Python SEABORN
Pas encore d'évaluation
TP Python SEABORN
3 pages
4 Pandas Seaborn
100% (2)
4 Pandas Seaborn
11 pages
Loba L1
Pas encore d'évaluation
Loba L1
7 pages
Analyse Exploratoire de Donn - Es
Pas encore d'évaluation
Analyse Exploratoire de Donn - Es
22 pages
Résumé CS KacemLachkar
Pas encore d'évaluation
Résumé CS KacemLachkar
14 pages
Python Avancé-Séance 3
Pas encore d'évaluation
Python Avancé-Séance 3
80 pages
Data Mining 2
Pas encore d'évaluation
Data Mining 2
5 pages
Chapitre 3 - Pandas+visualisation
Pas encore d'évaluation
Chapitre 3 - Pandas+visualisation
40 pages
Tp1 Pandas Corrigé
100% (1)
Tp1 Pandas Corrigé
10 pages
Visualisation des Données Simplifiée
Pas encore d'évaluation
Visualisation des Données Simplifiée
2 pages
Compte Rendu Du TP
Pas encore d'évaluation
Compte Rendu Du TP
20 pages
Padas Exos
Pas encore d'évaluation
Padas Exos
6 pages
5) Visualisation de Données Avec Python
Pas encore d'évaluation
5) Visualisation de Données Avec Python
43 pages
IFRI LangagePython TP3
Pas encore d'évaluation
IFRI LangagePython TP3
4 pages
TP 5 Py Av
Pas encore d'évaluation
TP 5 Py Av
9 pages
TP Data Mining Avec NumPy, Pandas Et Matplotlib
Pas encore d'évaluation
TP Data Mining Avec NumPy, Pandas Et Matplotlib
3 pages
Atelier Graphiques pour Étudiants RT
Pas encore d'évaluation
Atelier Graphiques pour Étudiants RT
6 pages
Mini Projet
Pas encore d'évaluation
Mini Projet
5 pages
Tutoriel Seaborn Python
Pas encore d'évaluation
Tutoriel Seaborn Python
102 pages
Python Pour Les Economistes-Pandas
Pas encore d'évaluation
Python Pour Les Economistes-Pandas
43 pages
Chapitre3 - Pandas - SQL Et MatPlotLib
Pas encore d'évaluation
Chapitre3 - Pandas - SQL Et MatPlotLib
32 pages
MLenPython - PPT Compatibility Mode
Pas encore d'évaluation
MLenPython - PPT Compatibility Mode
20 pages
Chapitre3 MatplotLib
Pas encore d'évaluation
Chapitre3 MatplotLib
40 pages
Guide Mathplotlib
Pas encore d'évaluation
Guide Mathplotlib
5 pages
Python Avancé pour Data Science
Pas encore d'évaluation
Python Avancé pour Data Science
13 pages
Phy382 Cours Data Visualisation 114403
Pas encore d'évaluation
Phy382 Cours Data Visualisation 114403
11 pages
Guide Pandas: Manipulation et Analyse de Données
Pas encore d'évaluation
Guide Pandas: Manipulation et Analyse de Données
45 pages
Fonctions Principales de NumPy, Pandas, Plotly - Test
Pas encore d'évaluation
Fonctions Principales de NumPy, Pandas, Plotly - Test
5 pages
1 Liste Des Fonctions Associées À Matplotlib
Pas encore d'évaluation
1 Liste Des Fonctions Associées À Matplotlib
7 pages
R: Manipulation et Visualisation
Pas encore d'évaluation
R: Manipulation et Visualisation
27 pages
Data Engeneering - Python Post 2
Pas encore d'évaluation
Data Engeneering - Python Post 2
8 pages
Introduction
Pas encore d'évaluation
Introduction
32 pages
2021-10-26 - Visualiser Ses Données
Pas encore d'évaluation
2021-10-26 - Visualiser Ses Données
61 pages
Analyse de Donnees
Pas encore d'évaluation
Analyse de Donnees
27 pages
Data Visualisation
Pas encore d'évaluation
Data Visualisation
16 pages
Atelier 04 Synthese Visualisation
Pas encore d'évaluation
Atelier 04 Synthese Visualisation
5 pages
TP 1: Pré-Traitement Des Données: Les Méthodes de Visualisation Et de Description
Pas encore d'évaluation
TP 1: Pré-Traitement Des Données: Les Méthodes de Visualisation Et de Description
5 pages
Partie I
Pas encore d'évaluation
Partie I
33 pages
Formation Standard Actix Analyzer & Spotlight LTE ORF
Pas encore d'évaluation
Formation Standard Actix Analyzer & Spotlight LTE ORF
258 pages
Introduction & Concepts de Base en Statistiques Descriptives
Pas encore d'évaluation
Introduction & Concepts de Base en Statistiques Descriptives
62 pages
Introduction A La Visualisation Des Donnees Avec R
Pas encore d'évaluation
Introduction A La Visualisation Des Donnees Avec R
110 pages
Analyse et Traitement des Données
Pas encore d'évaluation
Analyse et Traitement des Données
41 pages
Analyse Statistique de Données
Pas encore d'évaluation
Analyse Statistique de Données
19 pages
Chapitre1 DATAVIZ
Pas encore d'évaluation
Chapitre1 DATAVIZ
66 pages
Visualisation de Donnee A L-1
Pas encore d'évaluation
Visualisation de Donnee A L-1
7 pages
Introduction à la Statistique
Pas encore d'évaluation
Introduction à la Statistique
20 pages
Chapitre 5
Pas encore d'évaluation
Chapitre 5
47 pages
Statistiques Descriptive 2021
Pas encore d'évaluation
Statistiques Descriptive 2021
120 pages
Statistique A Une Variable - Cours
Pas encore d'évaluation
Statistique A Une Variable - Cours
90 pages
Statistiques Descriptives
83% (6)
Statistiques Descriptives
22 pages
Statistiques Descriptives TD Master 1 GLT
Pas encore d'évaluation
Statistiques Descriptives TD Master 1 GLT
20 pages
Statistique Descriptive 2
Pas encore d'évaluation
Statistique Descriptive 2
28 pages
Probabilités et Statistique: Cours et QCM
Pas encore d'évaluation
Probabilités et Statistique: Cours et QCM
262 pages
Guide SPSS pour l'analyse statistique
Pas encore d'évaluation
Guide SPSS pour l'analyse statistique
35 pages
Chap1 Stat Desc 1var
Pas encore d'évaluation
Chap1 Stat Desc 1var
35 pages
L1 1LT Statistiques Descriptives
Pas encore d'évaluation
L1 1LT Statistiques Descriptives
59 pages
Synthèse Statistique Descriptive
Pas encore d'évaluation
Synthèse Statistique Descriptive
15 pages
Cours Biostatistique Descriptive - PCEM1 - LSP1
Pas encore d'évaluation
Cours Biostatistique Descriptive - PCEM1 - LSP1
51 pages