TP2 - Python

Ce document présente un TP d'analyse de données avec Python pour le Master IAE, axé sur l'exploration, le nettoyage et le prétraitement d'un jeu de données Titanic. Les exercices incluent l'utilisation de bibliothèques comme NumPy, Pandas, Matplotlib et Seaborn, et couvrent des aspects tels que la gestion des valeurs manquantes, l'encodage des variables catégorielles et la détection des outliers. Le document se termine par des consignes pour la soumission d'un script Python et un rapport d'analyse.

Transféré par

firebaseraja

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

165 vues4 pages

TP2 - Python

Transféré par

firebaseraja

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Vous êtes sur la page 1/ 4

Analyse de données avec Python

Master IAE
S1
2024/2025

TP2

Exercice 1
 Objectifs :
o Explorer un jeu de données et identifier les anomalies.
o Nettoyer les données en traitant les valeurs manquantes et les doublons.
o Prétraiter les données pour qu’elles soient prêtes à être utilisées dans un modèle
machine learning.
Bibliothèques à utiliser :
o NumPy
o Pandas
o Matplotlib
o Seaborn
Jeu de données :
Utilisez le jeu de données public Titanic, disponible via la bibliothèque Seaborn.
Partie 1 : Exploration des données
1. Chargement des données :
o Chargez le jeu de données et affichez les premières lignes.
o Décrivez la structure des données, notamment le nombre de lignes, colonnes,
et le type des variables.
o Identifiez les colonnes contenant des valeurs manquantes ainsi que le nombre
de valeurs manquantes.
2. Statistiques descriptives :
o Calculez des statistiques descriptives pour les variables numériques.
o Pour les variables catégorielles, affichez la distribution des valeurs possibles.
3. Visualisation :
o Utilisez des visualisations pour analyser la répartition des valeurs dans les
colonnes clés (âge, sexe, classe, tarif, etc.).
o Créez des histogrammes pour les variables numériques et des graphiques en
barres pour les variables catégorielles.
Code d'aide pour le chargement du jeu de données Titanic :
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Charger le jeu de données Titanic

data = sns.load_dataset('titanic')
Partie 2 : Nettoyage des données
1. Gestion des valeurs manquantes :
o Remplacez les valeurs manquantes dans la colonne age par une mesure
statistique appropriée.
o Supprimez les lignes avec des valeurs manquantes dans les colonnes qui ne
peuvent pas être imputées.
2. Gestion des doublons :
Vérifiez s'il existe des doublons dans les données et supprimez-les si nécessaire.
3. Suppression des colonnes inutiles :
Supprimez les colonnes non pertinentes pour l'analyse, telles que deck, en
justifiant votre choix.
Code d'aide minimal :
# Remplacer les valeurs manquantes dans 'age' par une mesure statistique de votre choix
# Supprimer les lignes avec des valeurs manquantes dans 'embarked'
# Suppression de doublons si nécessaire
Partie 3 : Prétraitement des données
1. Encodage des variables catégorielles :
Encodez les variables catégorielles (ex. : sexe, embarquement) pour les
transformer en variables numériques.
2. Normalisation des variables :
Normalisez les variables continues (age, fare) en utilisant une technique de
votre choix (min-max, z-score, etc.).
3. Gestion des outliers :
Identifiez les outliers dans la colonne fare en utilisant une méthode de détection
des outliers (ex. : écart interquartile, z-score) et traitez-les.
Code d'aide minimal :
# Encoder les variables catégorielles
# Normaliser les variables continues
# Détecter et traiter les outliers dans la colonne 'fare'
Exercice 2
 Objectifs :
o Approfondir la maîtrise de Pandas en manipulant un dataset
o Réaliser des analyses avancées et des transformations complexes
o Extraire des insights en effectuant des agrégations et des regroupements
Partie 1 : Chargement et Exploration des Données
1. Charger le jeu de données 'ex2_donnees_fictives_complexes' et l'afficher.
2. Lister les informations générales :
o Nombre de lignes et colonnes
o Types des variables
o Valeurs manquantes
o Résumé statistique des données numériques et catégoriques
3. Analyser la distribution des variables numériques et identifier d'éventuelles
anomalies.
Partie 2 : Nettoyage et Préparation des Données
1. Supprimer les valeurs manquantes en choisissant la meilleure stratégie
(suppression ou imputation).
2. Identifier et supprimer les doublons s’il y en a.
3. Détecter et corriger les valeurs aberrantes en utilisant des méthodes statistiques
adaptées.
4. Vérifier et uniformiser les formats des variables catégoriques (ex. : "Paris", "paris",
"PARIS" doivent être homogénéisés).
5. Créer de nouvelles colonnes pertinentes à partir des données existantes.
Partie 3 : Manipulation et Transformation des Données
1. Effectuer un filtrage avancé pour extraire un sous-ensemble de données selon
plusieurs conditions combinées.
2. Trier les données selon différents critères.
3. Regrouper et agréger les données pour obtenir des statistiques avancées sur
certaines catégories.
4. Appliquer une transformation conditionnelle sur une colonne en fonction d’une
autre.
5. Effectuer une jointure avec un second jeu de données contenant des informations
complémentaires.
Partie 4 : Analyse et Visualisation des Données
1. Calculer et analyser les corrélations entre les variables numériques.
2. Créer des histogrammes et boxplots pour visualiser les distributions.
3. Générer des graphiques avancés pour observer les tendances et relations entre
variables.
4. Extraire des insights et interpréter les résultats obtenus.
Consignes Finales
 À rendre : Un script Python bien structuré et documenté.
 Interpréter les résultats et rédiger un court rapport expliquant les principales
observations et transformations effectuées.
 Challenge Bonus : Trouver et appliquer une technique avancée (normalisation,
discrétisation, pivotement, etc.) pour améliorer l’analyse.

Vous aimerez peut-être aussi

TP 4 Analyse Exploratoire de Données AED
Pas encore d'évaluation
TP 4 Analyse Exploratoire de Données AED
5 pages
TP 02
Pas encore d'évaluation
TP 02
2 pages
Support TP DataPreprocessing
100% (1)
Support TP DataPreprocessing
2 pages
Module: Analyse Et Fouille de Données
Pas encore d'évaluation
Module: Analyse Et Fouille de Données
3 pages
Préparation et Traitement de Données avec Python
Pas encore d'évaluation
Préparation et Traitement de Données avec Python
3 pages
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
Pas encore d'évaluation
Travaux Pratiques N°2: Exploration Des Données Avec Pandas Visualisation Graphique Avec Mathplotlib Et Seaborn
2 pages
tp2 ML
Pas encore d'évaluation
tp2 ML
7 pages
TP N°1 Numpy
Pas encore d'évaluation
TP N°1 Numpy
2 pages
Atelier Python IA pour Débutants
Pas encore d'évaluation
Atelier Python IA pour Débutants
3 pages
Préparer des Données avec Python
Pas encore d'évaluation
Préparer des Données avec Python
44 pages
Pandas
Pas encore d'évaluation
Pandas
7 pages
Python Avancé : Conditions et Boucles
Pas encore d'évaluation
Python Avancé : Conditions et Boucles
16 pages
Support de TP 1 V1
Pas encore d'évaluation
Support de TP 1 V1
6 pages
TP - Matplotlib
Pas encore d'évaluation
TP - Matplotlib
2 pages
Introduction À l'IA Et Au Deep Learning: TP N°1: P P
Pas encore d'évaluation
Introduction À l'IA Et Au Deep Learning: TP N°1: P P
38 pages
1-Simple - Linear - Regression - Jupyter Notebook
Pas encore d'évaluation
1-Simple - Linear - Regression - Jupyter Notebook
9 pages
TP2: Perceptron Multi-Couche: 1 Exercice 1
Pas encore d'évaluation
TP2: Perceptron Multi-Couche: 1 Exercice 1
2 pages
Introduction à l'Apprentissage Machine
Pas encore d'évaluation
Introduction à l'Apprentissage Machine
53 pages
Tps Regression Machine Leraning
Pas encore d'évaluation
Tps Regression Machine Leraning
5 pages
Apprentissage Supervise
Pas encore d'évaluation
Apprentissage Supervise
52 pages
0725 Machine Learning Statistiques Et Programmation
Pas encore d'évaluation
0725 Machine Learning Statistiques Et Programmation
6 pages
TP 9 : Manipulation de Fichiers CSV
Pas encore d'évaluation
TP 9 : Manipulation de Fichiers CSV
3 pages
Chapitre 2. Regression Linéaire V1
100% (1)
Chapitre 2. Regression Linéaire V1
15 pages
03 Classification
Pas encore d'évaluation
03 Classification
79 pages
Énoncé tp0
Pas encore d'évaluation
Énoncé tp0
3 pages
TP Python: Structures de Contrôles
Pas encore d'évaluation
TP Python: Structures de Contrôles
5 pages
Formation Python Pour La Data Science - 3 - Introduction À Numpy
Pas encore d'évaluation
Formation Python Pour La Data Science - 3 - Introduction À Numpy
43 pages
Python: Introduction et EDI Thonny
Pas encore d'évaluation
Python: Introduction et EDI Thonny
4 pages
Chapitre 3 - Concepts de Basescsds
Pas encore d'évaluation
Chapitre 3 - Concepts de Basescsds
13 pages
TP2 Sve
100% (1)
TP2 Sve
4 pages
Gestion de Fichiers en Python: Guide Complet
100% (1)
Gestion de Fichiers en Python: Guide Complet
22 pages
Atelier Sklearn
Pas encore d'évaluation
Atelier Sklearn
4 pages
TP Regression
Pas encore d'évaluation
TP Regression
5 pages
Prétraitement Des Données en Python
Pas encore d'évaluation
Prétraitement Des Données en Python
10 pages
TP SVM
Pas encore d'évaluation
TP SVM
6 pages
2 Programmation Python 2 - Numpy Et Matplotlib
Pas encore d'évaluation
2 Programmation Python 2 - Numpy Et Matplotlib
12 pages
Pratique Analyse de Données Avec R Chap 3
Pas encore d'évaluation
Pratique Analyse de Données Avec R Chap 3
5 pages
Rapport of Machine Learning
Pas encore d'évaluation
Rapport of Machine Learning
63 pages
Régression Linéaire et Incertitudes
Pas encore d'évaluation
Régression Linéaire et Incertitudes
4 pages
TP1 Regression Lineaire
Pas encore d'évaluation
TP1 Regression Lineaire
4 pages
ML Seance 3
Pas encore d'évaluation
ML Seance 3
103 pages
4) Nettoyage Des Données
100% (1)
4) Nettoyage Des Données
54 pages
TP Les Listes
Pas encore d'évaluation
TP Les Listes
4 pages
Machine Learning Cours Complet
Pas encore d'évaluation
Machine Learning Cours Complet
2 pages
TP4 Introduction A Numpy Et Matplotlib
Pas encore d'évaluation
TP4 Introduction A Numpy Et Matplotlib
11 pages
Cours 81
100% (1)
Cours 81
28 pages
Data Science: Prétraitement et Outils
Pas encore d'évaluation
Data Science: Prétraitement et Outils
103 pages
Devoir
Pas encore d'évaluation
Devoir
2 pages
Régression Linéaire en Python
Pas encore d'évaluation
Régression Linéaire en Python
2 pages
Les Bases de Matplotlib Une Librairie Pour Realiser Des Graphiques 2d
100% (1)
Les Bases de Matplotlib Une Librairie Pour Realiser Des Graphiques 2d
8 pages
Chapitre 1-Intoduction SE
Pas encore d'évaluation
Chapitre 1-Intoduction SE
29 pages
Algorithme Exercice
Pas encore d'évaluation
Algorithme Exercice
6 pages
Control ML
Pas encore d'évaluation
Control ML
4 pages
ST Tutor2 Python Pandas
100% (1)
ST Tutor2 Python Pandas
11 pages
Python TP
Pas encore d'évaluation
Python TP
20 pages
Notions Clés du Machine Learning
Pas encore d'évaluation
Notions Clés du Machine Learning
18 pages
TP7 KMeans
Pas encore d'évaluation
TP7 KMeans
4 pages
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
Pas encore d'évaluation
D'anomalies Dans Un Jeu de Données Avec: TP 1: Analyse, Nettoyage Et Détection Python
6 pages
TP3 Et 4 Fouille de Données 2025
Pas encore d'évaluation
TP3 Et 4 Fouille de Données 2025
4 pages
TP1 1
Pas encore d'évaluation
TP1 1
4 pages
Emrys Prsentation - en - 10 - Points
Pas encore d'évaluation
Emrys Prsentation - en - 10 - Points
1 page
Techniques Dexploitation Et Economie de Projets Miniers PDF
Pas encore d'évaluation
Techniques Dexploitation Et Economie de Projets Miniers PDF
31 pages
Serrure 2
Pas encore d'évaluation
Serrure 2
3 pages
Processus Moderne de Production d'Huile d'Olive
Pas encore d'évaluation
Processus Moderne de Production d'Huile d'Olive
2 pages
Fiche Poste 11 Chalumeau PDF
100% (1)
Fiche Poste 11 Chalumeau PDF
2 pages
Convertisseurs de Type Forward (Dimensionnement)
Pas encore d'évaluation
Convertisseurs de Type Forward (Dimensionnement)
11 pages
5 - TP 7.3.2.8 Configuration GRE Sur IPsec
Pas encore d'évaluation
5 - TP 7.3.2.8 Configuration GRE Sur IPsec
5 pages
3 - SD Fébrile Prolongé
Pas encore d'évaluation
3 - SD Fébrile Prolongé
2 pages
TD Stat Fiche2
Pas encore d'évaluation
TD Stat Fiche2
3 pages
Chapitre 4 - Cycles Fixes de Perçage PDF
Pas encore d'évaluation
Chapitre 4 - Cycles Fixes de Perçage PDF
23 pages
(Support 1) Chap 1 GENERALITES SUR LE SI
Pas encore d'évaluation
(Support 1) Chap 1 GENERALITES SUR LE SI
6 pages
Fiche de TD 2 2024
Pas encore d'évaluation
Fiche de TD 2 2024
13 pages
ARES CCD Annonce D Arrivee Formulaire Unique - Stagiaire - FDS - Hervé - Pierre
Pas encore d'évaluation
ARES CCD Annonce D Arrivee Formulaire Unique - Stagiaire - FDS - Hervé - Pierre
3 pages
Chapitre1 AnalNum
Pas encore d'évaluation
Chapitre1 AnalNum
8 pages
"Nouveau Taxi ! 2 : Apprentissage A2"
Pas encore d'évaluation
"Nouveau Taxi ! 2 : Apprentissage A2"
22 pages
Gltco 124
Pas encore d'évaluation
Gltco 124
210 pages
Transfert de Chaleur Par Conduction
Pas encore d'évaluation
Transfert de Chaleur Par Conduction
51 pages
Final - 2024 - JCI BENIN - Programme 100% Efficacité 2024
Pas encore d'évaluation
Final - 2024 - JCI BENIN - Programme 100% Efficacité 2024
32 pages
Articulation Budgétaire
100% (3)
Articulation Budgétaire
3 pages
Statistiques du Commerce Extérieur Gabon 2006
Pas encore d'évaluation
Statistiques du Commerce Extérieur Gabon 2006
12 pages
Exposé de Reservoir Engineering (Les Paraffines)
Pas encore d'évaluation
Exposé de Reservoir Engineering (Les Paraffines)
38 pages
Économie Industrielle ch3 Mod
Pas encore d'évaluation
Économie Industrielle ch3 Mod
11 pages
Les Lettres de Jeff Bezos
Pas encore d'évaluation
Les Lettres de Jeff Bezos
35 pages
Cancer & Culture
Pas encore d'évaluation
Cancer & Culture
329 pages
Solution Exo 3 Examen Normal - State - Space - 2019
Pas encore d'évaluation
Solution Exo 3 Examen Normal - State - Space - 2019
4 pages
Cours de Finances Publiques FSEG 2016-1
Pas encore d'évaluation
Cours de Finances Publiques FSEG 2016-1
53 pages
Toyota L-Usine Du Desespoir
Pas encore d'évaluation
Toyota L-Usine Du Desespoir
123 pages
FDES Rockfaçade 160 mm R=4,55 K.m².W-1
Pas encore d'évaluation
FDES Rockfaçade 160 mm R=4,55 K.m².W-1
25 pages
GC 2017 LGC L3 S5 GS522 - MDC
Pas encore d'évaluation
GC 2017 LGC L3 S5 GS522 - MDC
9 pages
Base Pantalon Femme
100% (2)
Base Pantalon Femme
5 pages