0% found this document useful (0 votes)

73 views6 pages

EDA - Lab Manual

The document outlines the curriculum for the Exploratory Data Analysis Lab (N-PECCD503P) at S.B. Jain Institute of Technology, focusing on hands-on data analysis and visualization skills. It details practical exercises aimed at utilizing various tools and libraries for data analysis, including tasks like analyzing email datasets, creating visualizations, and developing advanced techniques for data cleaning. The course aims to equip students with the ability to extract insights from data and effectively communicate findings through visual representation.

Uploaded by

pratikkamble

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

73 views6 pages

EDA - Lab Manual

Uploaded by

pratikkamble

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 6

Exploratory Data Analysis Lab (N-PECCD503P)

S. B. JAIN INSTITUTE OF TECHNOLOGY, MANAGEMENT &

RESEARCH, NAGPUR.

Exploratory Data Analysis (N-PECCD503P)

Semester/Year: 5th Sem/3rd Year

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Exploratory Data Analysis Lab (N-PECCD503P)

Academic Session: 2025-26

List of Practical’s

Name of Laboratory: Exploratory Data Analysis Lab (N-PECCD503P)

Year/Semester: III/V

Course Objective
To equip students with hands-on expertise in data analysis and visualization using tools focusing on
exploratory data analysis, statistical modelling, and interactive visual representation of diverse
datasets.

Course Outcomes
After successful completion of this course, the students will be able to:

Apply: Utilize appropriate tools to install and perform data analysis and visualization
CO1
effectively.
Analyze: Conduct exploratory data analysis on datasets to extract meaningful insights
CO2
using libraries.
Create: Develop advanced techniques for data cleaning, mapping, and cartographic
CO3
visualizations in time series.

CO
Sr. No. Name of Practical
Mapped

Prelab – CO1
Pre-Lab Utilize suitable data analysis tools to install and set up the environment for effective
visualization and analysis.

Practical Analyze an email dataset to identify patterns and insights using Pandas and data visualization CO2
No. 1 libraries.

Practical Apply fundamental Python libraries to manipulate data structures and create visualizations. CO1
No. 2.

Practical Develop visualizations for time-series data to identify trends, seasonality, and patterns. CO3
No. 3.

Practical Construct interactive map-based visualizations using geographic datasets and mouse rollover CO3

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Exploratory Data Analysis Lab (N-PECCD503P)

No. 4. features.

Practical Design cartographic visualizations to represent multiple datasets across global and Indian CO3
No. 5. regions.

Practical Analyze the Wine Quality dataset to explore feature relationships and assess data quality. CO2
No. 6.

Practical Interpret bivariate relationships through scatter plots and correlation metrics to uncover CO2
No. 7. associations.

Practical Utilize automated EDA tools to summarize and visualize key aspects of datasets. CO2
No. 8.

Practical Analyze the distribution of individual features using histograms, bar charts, and pie charts. CO1
No. 9.

Practical Analyze and visualize categorical variables using group-by, cross-tabulation, and stacked bar CO2
No. 10. charts.

Post-Lab Open Ended Practical CO1,CO2,

CO3

Pre-Lab
AIM:

OBJECTIVE:

THEORY:

CONCLUSION:

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Exploratory Data Analysis Lab (N-PECCD503P)

Practical No. 1
AIM: Analyze an email dataset to identify patterns and insights using Pandas and data
visualization libraries.
Objectives:

 Load and understand the structure of an email dataset.

 Clean and preprocess data for meaningful analysis.
 Extract useful features like time of sending, sender/receiver patterns, and email length.
 Visualize patterns using plots to derive insights.
 Interpret those insights for real-world application (for ex. productivity, spam detection,
email load).

Theory:

EDA is a critical initial step in data science and machine learning pipelines. It involves using
statistical tools and visual methods to:

 Understand the structure of the data.

 Detect anomalies and relationships.
 Form hypotheses.
 Guide pre-processing, modelling, and interpretation.

Data Collection and Understanding involves gathering raw data from different sources like files,
databases, APIs, web scraping, logs, etc. and initial inspection to Understand schema, data types,
and metadata, Evaluate relevance to the business problem, and Identify data granularity and unit
of analysis.

Real-world data is often incomplete, noisy, or inconsistent. Cleaning improves data quality by:

 Handling missing values: Removing, imputing, or flagging.

 Dealing with outliers: Detecting and deciding to cap, remove, or study further.
 Fixing data type errors, duplicates, and inconsistent formatting.

Data visualization serves both exploratory and explanatory purposes. Good visualization should
reveal the structure and patterns of data, Communicate insights clearly and accurately, Allow
interactive exploration (when needed).

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Exploratory Data Analysis Lab (N-PECCD503P)

Code:

//Step 1: Loading and Exploring dataset here.

import pandas as pd

# Load the email dataset as a DataFrame.

df = pd.read_csv('write_your_csv/excel_file_name_here.csv')

# Displays the first 5 rows. Helps us inspect the structure.

print(df.head())

# Get basic structure and non-null info, Shows column names, non-null counts, and data types.
print(df.info())

# Descriptive statistics for numeric columns, Summarizes numerical columns — e.g., counts,
means, percentiles.
print(df.describe())

//Step 2: Data Cleaning process.

# Convert 'date' column to datetime format
df['date'] = pd.to_datetime(df['date'])

# Drop rows with essential missing data

df.dropna(subset=['from', 'to', 'date', 'subject', 'body'], inplace=True)

# pd.to_datetime(df['date']): Converts string dates into Python datetime format.

# dropna(): Removes rows where critical fields are missing — ensures cleaner analysis.

//Step 3: Extracting Patterns in this step.

# Extract hour of the day, weekday, and month

df['hour'] = df['date'].dt.hour
df['weekday'] = df['date'].dt.day_name()
df['month'] = df['date'].dt.month_name()
#Extracts the hour to analyze time-of-day behavior.

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Exploratory Data Analysis Lab (N-PECCD503P)

#day_name() & month_name(): Human-readable week/month names.

# Number of recipients per email. Calculates number of recipients using string split.

df['num_recipients'] = df['to'].apply(lambda x: len(str(x).split(',')))

# Length of email body. Measures content length often reflects email detail or importance.
df['body_length'] = df['body'].apply(len)

#Step 4 : Data Visualization

#Email Sent by Hourly

import matplotlib.pyplot as plt

import seaborn as sns

plt.figure(figsize=(10, 5))
sns.countplot(data=df, x='weekday', order=['Monday', 'Tuesday', 'Wednesday', 'Thursday',
'Friday', 'Saturday', 'Sunday'])
plt.title("Emails Sent per Weekday")
plt.xlabel("Day of the Week")
plt.ylabel("Number of Emails")
plt.xticks(rotation=45)
plt.show()

#countplot(): Tallies emails for each weekday.

#order=...: Ensures logical day order.

#plt.xticks(rotation=45): Rotates labels for readability.

Output:

Result:

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Knowledge Institute of Technology: (An Autonomous Institution)
No ratings yet
Knowledge Institute of Technology: (An Autonomous Institution)
33 pages
RMK Group Data Analytics Guide
No ratings yet
RMK Group Data Analytics Guide
150 pages
EXP - NO:1 Installation of Data Analysis and Visualization Tool Aim: Objectives
No ratings yet
EXP - NO:1 Installation of Data Analysis and Visualization Tool Aim: Objectives
34 pages
Ad3301-Data-Exploration-And-Visualization Lab Manual
No ratings yet
Ad3301-Data-Exploration-And-Visualization Lab Manual
24 pages
Ad3301 Data Exploration and Visualization
No ratings yet
Ad3301 Data Exploration and Visualization
24 pages
Data Exploration & Visualization Guide
No ratings yet
Data Exploration & Visualization Guide
42 pages
Data Visualization Exam Guide
100% (1)
Data Visualization Exam Guide
4 pages
Module 2
No ratings yet
Module 2
78 pages
Data Analytics Project Task Description January
No ratings yet
Data Analytics Project Task Description January
2 pages
Unit 4 DA Revised
No ratings yet
Unit 4 DA Revised
102 pages
AI & Data Science Lab Guide
No ratings yet
AI & Data Science Lab Guide
35 pages
EDA and DPA Lab Curicullam
No ratings yet
EDA and DPA Lab Curicullam
5 pages
Dev U2
No ratings yet
Dev U2
96 pages
ccs346 Eda
No ratings yet
ccs346 Eda
2 pages
EDA Lab Manual for Students
No ratings yet
EDA Lab Manual for Students
41 pages
Data Analytics Course for Beginners
No ratings yet
Data Analytics Course for Beginners
34 pages
Mini Project Report On
No ratings yet
Mini Project Report On
17 pages
Ad3301 Data Exploration and Visualization
No ratings yet
Ad3301 Data Exploration and Visualization
38 pages
Lecture 21
No ratings yet
Lecture 21
16 pages
Dev Lab Manual
No ratings yet
Dev Lab Manual
31 pages
DSP Unit - Ii
No ratings yet
DSP Unit - Ii
14 pages
Systematic Approach To Perform Task Centric Exploratory Data Analysis With Case Study
No ratings yet
Systematic Approach To Perform Task Centric Exploratory Data Analysis With Case Study
8 pages
Notes - EDA-Unit1
No ratings yet
Notes - EDA-Unit1
34 pages
IBM - Introduccion Analisis de Datos
No ratings yet
IBM - Introduccion Analisis de Datos
148 pages
DEV Manual - ESEC
No ratings yet
DEV Manual - ESEC
27 pages
Unit - Iii - Eda
No ratings yet
Unit - Iii - Eda
25 pages
5 Data Analytics Projects For Beginners - Coursera
No ratings yet
5 Data Analytics Projects For Beginners - Coursera
7 pages
Beginner Data Projects for Analysts
No ratings yet
Beginner Data Projects for Analysts
6 pages
Python Data Analysis for Beginners
No ratings yet
Python Data Analysis for Beginners
7 pages
Eda 2
No ratings yet
Eda 2
69 pages
Ccs346-Eda Lab Record
No ratings yet
Ccs346-Eda Lab Record
74 pages
Dev Record Final
No ratings yet
Dev Record Final
34 pages
Adobe Scan Aug 22, 2025
No ratings yet
Adobe Scan Aug 22, 2025
8 pages
UNIT-2 - Data Science (Partial)
No ratings yet
UNIT-2 - Data Science (Partial)
21 pages
DMV Lab Manual
No ratings yet
DMV Lab Manual
45 pages
BDA - M1 - T2 - Understanding Data Lifecycle
No ratings yet
BDA - M1 - T2 - Understanding Data Lifecycle
21 pages
Dev Answer Key
No ratings yet
Dev Answer Key
21 pages
Notes - Unit 1 - Exploratory Data Analysis
No ratings yet
Notes - Unit 1 - Exploratory Data Analysis
33 pages
Unit 2
No ratings yet
Unit 2
58 pages
Dev Practical List
No ratings yet
Dev Practical List
34 pages
Eda U1
No ratings yet
Eda U1
144 pages
Eda Lab Manual Without Output
No ratings yet
Eda Lab Manual Without Output
33 pages
MTL782 A1
No ratings yet
MTL782 A1
19 pages
PCED - Lösung en
No ratings yet
PCED - Lösung en
24 pages
Unit 3
No ratings yet
Unit 3
83 pages
DMV Lab Manual
No ratings yet
DMV Lab Manual
45 pages
AI-Powered Exploratory Data Analysis (EDA) - 25 Prompts
No ratings yet
AI-Powered Exploratory Data Analysis (EDA) - 25 Prompts
9 pages
Kasthuri M Resume
No ratings yet
Kasthuri M Resume
2 pages
Lesson 5 Exploratory Data Analysis
No ratings yet
Lesson 5 Exploratory Data Analysis
10 pages
Data Analysis Visualization Full Project
No ratings yet
Data Analysis Visualization Full Project
19 pages
Exploratory Data Analysis EDA Part of Data PreProcessing
No ratings yet
Exploratory Data Analysis EDA Part of Data PreProcessing
11 pages
Ad3301 Data Exploration and Visualization
100% (3)
Ad3301 Data Exploration and Visualization
30 pages
Unit - 1 EDA
No ratings yet
Unit - 1 EDA
123 pages
Unit 1 Dev
No ratings yet
Unit 1 Dev
26 pages
Data Analytics Interview Questions
No ratings yet
Data Analytics Interview Questions
3 pages
Exploratory Data Analysis (Eda)
No ratings yet
Exploratory Data Analysis (Eda)
10 pages
Naan Mudhalvan Data Analytics Course For Engineering Students
No ratings yet
Naan Mudhalvan Data Analytics Course For Engineering Students
18 pages
Team 56B
No ratings yet
Team 56B
17 pages
7semaids Time Table-1
No ratings yet
7semaids Time Table-1
1 page
1 - Chatter, Analytics in SF
No ratings yet
1 - Chatter, Analytics in SF
9 pages
4 - Data Loader
No ratings yet
4 - Data Loader
4 pages
EDA - Unit-1: Prerequisite of The Subject
No ratings yet
EDA - Unit-1: Prerequisite of The Subject
5 pages
Redp 5743
No ratings yet
Redp 5743
62 pages
Umaprabhakar Panatula Mob: +91 - 9848642429 Professional Summary
No ratings yet
Umaprabhakar Panatula Mob: +91 - 9848642429 Professional Summary
3 pages
System Design & Load Balancing Guide
No ratings yet
System Design & Load Balancing Guide
33 pages
Data Mining - Reference - 1
No ratings yet
Data Mining - Reference - 1
91 pages
4CS4-04 U5 L1-L8 by DR - Rajesh Kumar
No ratings yet
4CS4-04 U5 L1-L8 by DR - Rajesh Kumar
19 pages
Database Revision
No ratings yet
Database Revision
10 pages
Data Warehousing Study Guide
100% (1)
Data Warehousing Study Guide
6 pages
Toad Data Modeler Demo Tutorial
No ratings yet
Toad Data Modeler Demo Tutorial
6 pages
NetBackup for IT Professionals
No ratings yet
NetBackup for IT Professionals
2 pages
1904001-DBMS Notes 5 Units
100% (2)
1904001-DBMS Notes 5 Units
70 pages
Database Vs File Based System
No ratings yet
Database Vs File Based System
2 pages
Data Mining for Business Analysts
No ratings yet
Data Mining for Business Analysts
12 pages
Card Exchange Producer Editions (Brochure) PDF
No ratings yet
Card Exchange Producer Editions (Brochure) PDF
4 pages
Solutions ProjectMissingMoneyMatters
No ratings yet
Solutions ProjectMissingMoneyMatters
5 pages
SQL Questions and Answers
No ratings yet
SQL Questions and Answers
49 pages
RDS Aurora PostgreSQL Performance Assessment Benchmarking V1-0
No ratings yet
RDS Aurora PostgreSQL Performance Assessment Benchmarking V1-0
6 pages
Talend Component Guide
No ratings yet
Talend Component Guide
6 pages
Oracle Joins Exercises
No ratings yet
Oracle Joins Exercises
16 pages
Fragment Allocation and Replication in Distributed
No ratings yet
Fragment Allocation and Replication in Distributed
15 pages
Chapter 10
No ratings yet
Chapter 10
15 pages
Database Revision Question
No ratings yet
Database Revision Question
7 pages
Gagan Bansal (CS Practical File)
No ratings yet
Gagan Bansal (CS Practical File)
12 pages
PC 3000 Product Catalogue
No ratings yet
PC 3000 Product Catalogue
30 pages
OLAP
100% (1)
OLAP
107 pages
DataMining Course Handout
No ratings yet
DataMining Course Handout
5 pages
SQL Trace Analysis for DBAs
No ratings yet
SQL Trace Analysis for DBAs
29 pages
SAP ABAP HANA Exam Prep Guide
100% (1)
SAP ABAP HANA Exam Prep Guide
5 pages
HBase - Tutorial
No ratings yet
HBase - Tutorial
14 pages
Snowflake Cloud Data Warehouse Guide
0% (1)
Snowflake Cloud Data Warehouse Guide
15 pages
Azhar - 8.4yrs - Database Devloper and DBA
No ratings yet
Azhar - 8.4yrs - Database Devloper and DBA
4 pages

EDA - Lab Manual

Uploaded by

EDA - Lab Manual

Uploaded by

Exploratory Data Analysis Lab (N-PECCD503P)

S. B. JAIN INSTITUTE OF TECHNOLOGY, MANAGEMENT &

Exploratory Data Analysis (N-PECCD503P)

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Academic Session: 2025-26

Name of Laboratory: Exploratory Data Analysis Lab (N-PECCD503P)

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

Post-Lab Open Ended Practical CO1,CO2,

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

 Load and understand the structure of an email dataset.

 Understand the structure of the data.

 Handling missing values: Removing, imputing, or flagging.

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

//Step 1: Loading and Exploring dataset here.

# Load the email dataset as a DataFrame.

# Displays the first 5 rows. Helps us inspect the structure.

//Step 2: Data Cleaning process.

# Drop rows with essential missing data

# pd.to_datetime(df['date']): Converts string dates into Python datetime format.

//Step 3: Extracting Patterns in this step.

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

#day_name() & month_name(): Human-readable week/month names.

df['num_recipients'] = df['to'].apply(lambda x: len(str(x).split(',')))

#Step 4 : Data Visualization

import matplotlib.pyplot as plt

#countplot(): Tallies emails for each weekday.

#order=...: Ensures logical day order.

#plt.xticks(rotation=45): Rotates labels for readability.

Department of Emerging Technologies, CSE-(DS), S.B.J.I.T.M.R., Nagpur

You might also like