0% found this document useful (0 votes)

15 views5 pages

Sample Discovery

asdfghjkl;'

Uploaded by

Rishtha Kothuri03

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views5 pages

Sample Discovery

asdfghjkl;'

Uploaded by

Rishtha Kothuri03

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Sample_Discovery

August 6, 2024

[1]: import pandas as pd

# Load the dataset

df = pd.read_csv('messy_employee_data.csv')

# Descriptive Statistics
descriptive_stats = df.describe()
print(descriptive_stats)

Employee_ID Phone_Number Total_Work_Hour_per_Month Salary_per_Month

count 100.000000 9.000000e+01 79.000000 74.000000
mean 5874.450000 5.014917e+09 2631.392405 24305.405405
std 2698.235527 2.946591e+09 4317.578213 37333.773655
min 1139.000000 2.058916e+08 -10.000000 -5000.000000
25% 3639.250000 2.417400e+09 160.000000 8000.000000
50% 6168.000000 4.735941e+09 180.000000 10800.000000
75% 8183.250000 7.711621e+09 5099.500000 12600.000000
max 9957.000000 9.871025e+09 9999.000000 100000.000000

[2]: # Completeness Metric

completeness = df.notnull().mean() * 100
print("Completeness Metric:\n", completeness)

Completeness Metric:
Employee_Name 90.0
Employee_ID 100.0
Job_Role 91.0
Phone_Number 90.0
Email_ID 90.0
Total_Work_Hour_per_Month 79.0
Salary_per_Month 74.0
dtype: float64

[3]: # Accuracy Metric for Salary_per_Month (ensure non-negative values)

accuracy_salary = (df['Salary_per_Month'] >= 0).mean() * 100
print(f"Accuracy for Salary per Month: {accuracy_salary}%")

Accuracy for Salary per Month: 59.0%

1
[4]: # Consistency Metric for Job_Role
valid_job_roles = ['Engineer', 'Data Scientist', 'Manager', 'Analyst',␣
,→'Developer']

consistency_job_role = df['Job_Role'].isin(valid_job_roles).mean() * 100

print(f"Consistency for Job Role: {consistency_job_role}%")

Consistency for Job Role: 91.0%

[5]: # Correlation between Salary and Total Work Hours

correlation = df[['Total_Work_Hour_per_Month', 'Salary_per_Month']].corr()
print("Correlation:\n", correlation)

Correlation:
Total_Work_Hour_per_Month Salary_per_Month
Total_Work_Hour_per_Month 1.000000 0.600796
Salary_per_Month 0.600796 1.000000

[6]: import seaborn as sns

import matplotlib.pyplot as plt

# Plot the heatmap

plt.figure(figsize=(10, 8))
sns.heatmap(correlation, annot=True, cmap='coolwarm', vmin=-1, vmax=1)
plt.title('Correlation Matrix Heatmap')
plt.show()

2
[7]: # Missing Data Analysis
missing_values_count = df.isnull().sum()
#missing_data_pattern = df.isnull()
print("Missing Values Count:\n", missing_values_count)
#print("Missing Data Pattern:\n", missing_data_pattern)

Missing Values Count:

Employee_Name 10
Employee_ID 0
Job_Role 9
Phone_Number 10
Email_ID 10
Total_Work_Hour_per_Month 21
Salary_per_Month 26
dtype: int64

3
[14]: # Fill missing values
df['Employee_Name'].fillna('Unknown', inplace=True)
df['Employee_ID'].fillna('Unknown', inplace=True)
df['Phone_Number'].replace('unknown', None, inplace=True)
df['Phone_Number'].fillna('Unknown', inplace=True)
df['Total_Work_Hour_per_Month'].fillna(df['Total_Work_Hour_per_Month'].mean(),␣
,→inplace=True)

df['Salary_per_Month'].fillna(df['Salary_per_Month'].mean(), inplace=True)

# Correct data types

df['Employee_ID'] = df['Employee_ID'].astype(str)
df['Total_Work_Hour_per_Month'] = df['Total_Work_Hour_per_Month'].astype(float)
df['Salary_per_Month'] = df['Salary_per_Month'].astype(float)
#df['Phone_Number']= df['Phone_Number'].astype(str)
# Normalize Email IDs
df['Email_ID'] = df['Email_ID'].apply(lambda x: x if pd.isna(x) or '@' in x else␣
,→x + '@example.com')

# Ensure consistent job role naming

df['Job_Role'] = df['Job_Role'].str.title()

# Format phone numbers (dummy formatting for demonstration)

df['Phone_Number'] = df['Phone_Number'].apply(lambda x: x if pd.isna(x) or x ==␣
,→'Unknown' else x.replace('-', ''))

df['Phone_Number'] = df['Phone_Number'].astype(str)
# Ensure Employee Names are title case
df['Employee_Name'] = df['Employee_Name'].str.title()

# Remove duplicate rows (if any)

df.drop_duplicates(inplace=True)

print("Structured and Formatted Dataset:\n", df)

Structured and Formatted Dataset:

Employee_Name Employee_ID Job_Role Phone_Number Email_ID
\
0 Ospjpqptpe 9516 Manager 4733377351.0 ohvoj@sample.org
1 Arwarmgzmo 8444 Manager Unknown zsphp@example.com
2 Qwxbncqkag 2420 Manager Unknown tqhfs@example.com
3 Akmmthjndy 3445 Developer 4901793467.0 ljnkm@sample.org
4 Croxaopkbi 9378 Manager 8679802795.0 aqrpm@test.net
.. ... ... ... ... ...
95 Nsgdvhcolz 3727 Analyst 3957223288.0 hgnyu@sample.org
96 Unknown 3857 Data Scientist 7050739609.0 sttlw@sample.org
97 Vbowqqbmye 2467 Data Scientist 8921949055.0 vdszq@example.com
98 Kukowpctzv 3553 Developer 9197584574.0 NaN

4
99 Pvvicpbxnk 9638 Analyst 3176133724.0 ghjrh@example.com

Total_Work_Hour_per_Month Salary_per_Month
0 -10.000000 24305.405405
1 9999.000000 -5000.000000
2 180.000000 10800.000000
3 200.000000 12000.000000
4 180.000000 10800.000000
.. ... ...
95 200.000000 10000.000000
96 160.000000 11200.000000
97 160.000000 8000.000000
98 2631.392405 12000.000000
99 180.000000 10800.000000

[100 rows x 7 columns]

[17]: df['Employee_Name'].dtype

[17]: dtype('O')

[ ]:

Pandas
No ratings yet
Pandas
91 pages
Prints
No ratings yet
Prints
43 pages
Python
No ratings yet
Python
32 pages
Employee Data Analysis Report
No ratings yet
Employee Data Analysis Report
22 pages
Social Network Analysis: Cheruvu Nvss Suhas 21BCE8374
No ratings yet
Social Network Analysis: Cheruvu Nvss Suhas 21BCE8374
10 pages
Data Analytics
No ratings yet
Data Analytics
3 pages
Data Pre Processing and Cleaning
No ratings yet
Data Pre Processing and Cleaning
56 pages
Practical Questions
No ratings yet
Practical Questions
7 pages
EDA - Session-2 - Data Frame Basics-2
No ratings yet
EDA - Session-2 - Data Frame Basics-2
11 pages
Data Analysis with Pandas
No ratings yet
Data Analysis with Pandas
31 pages
Student Notebook HR Analysis
No ratings yet
Student Notebook HR Analysis
11 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Exp1d
No ratings yet
Exp1d
6 pages
EmployeeMgmt XII IP ProjectReprot 2022 23
No ratings yet
EmployeeMgmt XII IP ProjectReprot 2022 23
16 pages
Employee Management Project
No ratings yet
Employee Management Project
33 pages
SMARAN HR Analytics - Ipynb - Colab
No ratings yet
SMARAN HR Analytics - Ipynb - Colab
65 pages
Capstone Project Final Report Rupesh Kumar PGP-DSBA APR 21C
No ratings yet
Capstone Project Final Report Rupesh Kumar PGP-DSBA APR 21C
77 pages
Data Pre Processing and Cleaning
No ratings yet
Data Pre Processing and Cleaning
23 pages
Exp 8 - LM
No ratings yet
Exp 8 - LM
10 pages
Assignment Submitted By-Srishti Bhateja 19021141116: STR (Crew - Data)
No ratings yet
Assignment Submitted By-Srishti Bhateja 19021141116: STR (Crew - Data)
11 pages
DAP Writeups - Merged
No ratings yet
DAP Writeups - Merged
33 pages
Ip Project Dineshh
No ratings yet
Ip Project Dineshh
30 pages
Kushal Kadayat
No ratings yet
Kushal Kadayat
33 pages
Unit 4
No ratings yet
Unit 4
25 pages
Pandas
No ratings yet
Pandas
13 pages
Viksit Ip Project File
No ratings yet
Viksit Ip Project File
33 pages
Ip Kamalesh
No ratings yet
Ip Kamalesh
30 pages
Python Assignment-2
No ratings yet
Python Assignment-2
3 pages
Ip Practical
No ratings yet
Ip Practical
3 pages
Data Project
No ratings yet
Data Project
12 pages
Python2 Master
No ratings yet
Python2 Master
12 pages
Ip Kamalesh
No ratings yet
Ip Kamalesh
29 pages
2022ucd2164 1 2
No ratings yet
2022ucd2164 1 2
35 pages
Lab 3 - Working With Data Frames
No ratings yet
Lab 3 - Working With Data Frames
10 pages
Document (4) - 1
No ratings yet
Document (4) - 1
15 pages
Machine Learning Project Roadmap
No ratings yet
Machine Learning Project Roadmap
4 pages
Pandas
No ratings yet
Pandas
32 pages
Salary Prediction with Linear Regression
No ratings yet
Salary Prediction with Linear Regression
7 pages
Blended Data Cleaning
No ratings yet
Blended Data Cleaning
9 pages
Practical No. 01
No ratings yet
Practical No. 01
114 pages
AI Practical 2025
No ratings yet
AI Practical 2025
14 pages
Geo Python Doc (1) 7,8 Bavesh
No ratings yet
Geo Python Doc (1) 7,8 Bavesh
9 pages
Pandas Introduction: What Is Python Pandas Used For?
No ratings yet
Pandas Introduction: What Is Python Pandas Used For?
28 pages
EDA Guide for Data Analysts
No ratings yet
EDA Guide for Data Analysts
2 pages
ML - Preprocessing - Introduction
No ratings yet
ML - Preprocessing - Introduction
14 pages
Lab2 Day8 23BCSA84 AssignmentSolution
No ratings yet
Lab2 Day8 23BCSA84 AssignmentSolution
7 pages
Murali Internship
No ratings yet
Murali Internship
34 pages
Avinash DA 6
No ratings yet
Avinash DA 6
3 pages
Statistical Transform Data Cleaning
No ratings yet
Statistical Transform Data Cleaning
30 pages
Employ Management System
No ratings yet
Employ Management System
29 pages
Pandas 1
No ratings yet
Pandas 1
13 pages
IP Project File 2
No ratings yet
IP Project File 2
34 pages
Pps Ui22cs57lab 10
No ratings yet
Pps Ui22cs57lab 10
17 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Cleaning Data in Python
No ratings yet
Cleaning Data in Python
8 pages
Kunj Project 1
No ratings yet
Kunj Project 1
34 pages
Practical File Infomatics Practices 2024-25
No ratings yet
Practical File Infomatics Practices 2024-25
39 pages
MGNM - 801 - Ca1
No ratings yet
MGNM - 801 - Ca1
14 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
SOP Enquiry To Production Release
No ratings yet
SOP Enquiry To Production Release
5 pages
Spelling Bee Event Details 2018-19
No ratings yet
Spelling Bee Event Details 2018-19
3 pages
Construction - Responsibility and Scope Matrix
100% (2)
Construction - Responsibility and Scope Matrix
6 pages
Motivation For Operating Systems
No ratings yet
Motivation For Operating Systems
2 pages
Python Basics for Beginners
No ratings yet
Python Basics for Beginners
189 pages
Topics Covered: Physical Disk Organization Example Disk Scheduling Algorithms Research Work
No ratings yet
Topics Covered: Physical Disk Organization Example Disk Scheduling Algorithms Research Work
21 pages
Oracle® Business Intelligence Applications: Configuration Guide For Informatica Powercenter Users
No ratings yet
Oracle® Business Intelligence Applications: Configuration Guide For Informatica Powercenter Users
280 pages
Sea Games Proposal (Final) Group 4
No ratings yet
Sea Games Proposal (Final) Group 4
6 pages
MasterPlex QT: Luminex Multiplex Quantitative Analysis Software
No ratings yet
MasterPlex QT: Luminex Multiplex Quantitative Analysis Software
13 pages
TeliaSonera Incident Management Guide
No ratings yet
TeliaSonera Incident Management Guide
27 pages
Solving Exponential Equations Scavenger Hunt
No ratings yet
Solving Exponential Equations Scavenger Hunt
23 pages
Soilj: An Imagej Plugin For The Semiautomatic Processing of Three-Dimensional X-Ray Images of Soils
No ratings yet
Soilj: An Imagej Plugin For The Semiautomatic Processing of Three-Dimensional X-Ray Images of Soils
7 pages
Convert Data to Intel HEX-32 Format
No ratings yet
Convert Data to Intel HEX-32 Format
4 pages
Rationalizing
No ratings yet
Rationalizing
8 pages
Functional Programming in Scala PDF
100% (2)
Functional Programming in Scala PDF
304 pages
IMA ADPCM EncDec Core Specifications
No ratings yet
IMA ADPCM EncDec Core Specifications
11 pages
Implementation of A Functional Verification System Using Systemc
No ratings yet
Implementation of A Functional Verification System Using Systemc
4 pages
Digital Logic Circuits Objective Questions
No ratings yet
Digital Logic Circuits Objective Questions
9 pages
H61 2DIMM Report160427
No ratings yet
H61 2DIMM Report160427
3 pages
Parallel Sorting Algorithms
No ratings yet
Parallel Sorting Algorithms
29 pages
Mikrotik Load Balancing Guide
100% (1)
Mikrotik Load Balancing Guide
4 pages
Logic Definitions for Students
No ratings yet
Logic Definitions for Students
2 pages
Volume 8D Report-En
No ratings yet
Volume 8D Report-En
1 page
Rebate Processing Rebates:: Configuration Path
No ratings yet
Rebate Processing Rebates:: Configuration Path
18 pages
2019-20 ECE Placement Data
No ratings yet
2019-20 ECE Placement Data
4 pages
Arduino LCD Keypad Math Game
No ratings yet
Arduino LCD Keypad Math Game
20 pages
Scenario Questions Scheduling Algorithms
No ratings yet
Scenario Questions Scheduling Algorithms
7 pages
Basic Neo4j Code Examples 2008-05-08
No ratings yet
Basic Neo4j Code Examples 2008-05-08
16 pages
16-Bit Microcontroller IP
No ratings yet
16-Bit Microcontroller IP
2 pages
KC Lua
No ratings yet
KC Lua
2 pages