0% found this document useful (0 votes)

5 views4 pages

Second

Uploaded by

Bijin Deva

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

5 views4 pages

Second

Uploaded by

Bijin Deva

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 4

2. Apply the following Pre-processing techniques for a given dataset.

a. Attribute selection
b. Handling Missing Values
c. Discretization
d. Elimination of Outliers
import pandas as pd
import numpy as np
import sklearn

dataset=pd.read_csv(r"C:\Users\91798\Downloads\Data1.csv -
Sheet1.csv")
dataset

Country Age Salary Purchased

ATTRIBUTE SELECTION

df=dataset.copy()
x=df.iloc[:,:-1].values #Copies all values of all columns into 'x'
except the last column
y=df.iloc[:,-1].values #Copies all values of last column into y
print('Values in x: ',x)
print()
print('Values in y:',y)

Values in x: [['France' 44.0 72000.0]

['Spain' 27.0 48000.0]
['Germany' 30.0 54000.0]
['Spain' 38.0 61000.0]
['Germany' 40.0 nan]
['France' 35.0 58000.0]
['Spain' nan 52000.0]
['France' 48.0 79000.0]
['Germany' 50.0 83000.0]
['France' 37.0 67000.0]]

Values in y: ['No' 'Yes' 'No' 'No' 'Yes' 'Yes' 'No' 'Yes' 'No' 'Yes']

HANDLING MISSING VALUES-- DROPPING NULL VALUES

print(df.isnull().sum()) #Checking for null values or missing data

#DROPPING NULL VALUES
df1=df.copy()
print('Before dropping NULL Values:')
print()
print(df1)
df1.dropna(inplace=True)
print()
print('After dropping NULL Values:')
print(df1)

Country 0
Age 1
Salary 1
Purchased 0
dtype: int64
Before dropping NULL Values:

Country Age Salary Purchased

After dropping NULL Values:

Country Age Salary Purchased
0 France 44.0 72000.0 No
1 Spain 27.0 48000.0 Yes
2 Germany 30.0 54000.0 No
3 Spain 38.0 61000.0 No
5 France 35.0 58000.0 Yes
7 France 48.0 79000.0 Yes
8 Germany 50.0 83000.0 No
9 France 37.0 67000.0 Yes

HANDLING MISSING VALUES--FILLING NULL VALUES

df2=df.copy()
df2['Age']=df2['Age'].fillna(df2.Age.mean()) #Filling Null Values of
Age with mean value
df2['Salary']=df2['Salary'].fillna(df2.Salary.mean()) #Filling Null
values of Salary with mean value
df2

Country Age Salary Purchased

0 France 44.000000 72000.000000 No
1 Spain 27.000000 48000.000000 Yes
2 Germany 30.000000 54000.000000 No
3 Spain 38.000000 61000.000000 No
4 Germany 40.000000 63777.777778 Yes
5 France 35.000000 58000.000000 Yes
6 Spain 38.777778 52000.000000 No
7 France 48.000000 79000.000000 Yes
8 Germany 50.000000 83000.000000 No
9 France 37.000000 67000.000000 Yes

CONVERTING CATEGORICAL DATA INTO NUMERICAL DATA

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder
ct=ColumnTransformer(transformers=[('encoder',OneHotEncoder(),
[0])],remainder='passthrough')
X=np.array(ct.fit_transform(x))
print(df)
print('After Encoding:')
print(X)

Country Age Salary Purchased

0 France 44.0 72000.0 No
1 Spain 27.0 48000.0 Yes
2 Germany 30.0 54000.0 No
3 Spain 38.0 61000.0 No
4 Germany 40.0 NaN Yes
5 France 35.0 58000.0 Yes
6 Spain NaN 52000.0 No
7 France 48.0 79000.0 Yes
8 Germany 50.0 83000.0 No
9 France 37.0 67000.0 Yes
After Encoding:
[[1.0 0.0 0.0 44.0 72000.0]
[0.0 0.0 1.0 27.0 48000.0]
[0.0 1.0 0.0 30.0 54000.0]
[0.0 0.0 1.0 38.0 61000.0]
[0.0 1.0 0.0 40.0 nan]
[1.0 0.0 0.0 35.0 58000.0]
[0.0 0.0 1.0 nan 52000.0]
[1.0 0.0 0.0 48.0 79000.0]
[0.0 1.0 0.0 50.0 83000.0]
[1.0 0.0 0.0 37.0 67000.0]]

MIN&MAX SCALER

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.2,rando
m_state=1)
sta=StandardScaler()
X_train[:,3:]=sta.fit_transform(X_train[:,3:])
X_test[:,3:]=sta.transform(X_test[:,3:])
print(X_train[:,3:])

[[nan -1.0182239953527132]
[-0.03891021128204815 nan]
[0.5058327466666259 0.5834766714942514]
[-0.31128169025638514 -0.2974586952715791]
[-1.8093248246152385 -1.3385641287221062]
[1.0505757046152997 1.1440719048906889]
[1.3229471835896367 1.4644120382600818]
[-0.7198389087178906 -0.5377137952986237]]

print(X_test[:,3:])

[[30.000000000000004 54000.00000000001]
[37.00000000000001 67000.00000000001]]

Experiment 2
No ratings yet
Experiment 2
5 pages
Machine Learning Program
No ratings yet
Machine Learning Program
12 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Day 18-9-2023 - Jupyter Notebook
No ratings yet
Day 18-9-2023 - Jupyter Notebook
8 pages
13-9-23 Data Pre-Processing - Jupyter Notebook
No ratings yet
13-9-23 Data Pre-Processing - Jupyter Notebook
6 pages
Data Preprocessing 1
No ratings yet
Data Preprocessing 1
6 pages
Practice Questions2
No ratings yet
Practice Questions2
2 pages
Lab File
No ratings yet
Lab File
96 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
Dataframe
No ratings yet
Dataframe
19 pages
Week 01.a
No ratings yet
Week 01.a
4 pages
Dsbda Exp4 Part1
No ratings yet
Dsbda Exp4 Part1
39 pages
Programs of Python Pandas
No ratings yet
Programs of Python Pandas
15 pages
Data Visualization & Preprocessing Guide
No ratings yet
Data Visualization & Preprocessing Guide
18 pages
#Group: B (ML) : Numpy NP Pandas PD
No ratings yet
#Group: B (ML) : Numpy NP Pandas PD
9 pages
Machine Learning Record VR19
No ratings yet
Machine Learning Record VR19
46 pages
Data Integration and Missing Values Analysis
No ratings yet
Data Integration and Missing Values Analysis
23 pages
Pandas Part-2
No ratings yet
Pandas Part-2
9 pages
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
No ratings yet
"Rohit" "Janvi" "Mukesh" 'Name' 'ACC' 'BST': Import As
23 pages
Data - Analytics Lab - Manual JNTUH R22 Regulation
No ratings yet
Data - Analytics Lab - Manual JNTUH R22 Regulation
26 pages
Assignmnet 5
No ratings yet
Assignmnet 5
11 pages
IP Practic MINE
No ratings yet
IP Practic MINE
30 pages
12 Pandas
100% (1)
12 Pandas
21 pages
Answers Practical File
No ratings yet
Answers Practical File
19 pages
12 Pandas
No ratings yet
12 Pandas
14 pages
Fds Assign 3
No ratings yet
Fds Assign 3
4 pages
Suryadatta National School Class 12 CBSE Informatics Practices Practicals List
No ratings yet
Suryadatta National School Class 12 CBSE Informatics Practices Practicals List
19 pages
10) Merging Dataframes: # Detecting Duplicates
No ratings yet
10) Merging Dataframes: # Detecting Duplicates
7 pages
Ferramentas de Preprocessamento ML
No ratings yet
Ferramentas de Preprocessamento ML
2 pages
PDF&Rendition 1
No ratings yet
PDF&Rendition 1
47 pages
ML 1-10
No ratings yet
ML 1-10
53 pages
Practical File Ip
No ratings yet
Practical File Ip
27 pages
Program
No ratings yet
Program
10 pages
Prg7a - Jupyter Notebook
No ratings yet
Prg7a - Jupyter Notebook
12 pages
Create A Pandas Series From A Dictionary of Values and An Ndarray
No ratings yet
Create A Pandas Series From A Dictionary of Values and An Ndarray
15 pages
Germany Credit Analysis
No ratings yet
Germany Credit Analysis
41 pages
Practical 3
No ratings yet
Practical 3
8 pages
#Python Program To Create The Dataframe With Following Values
No ratings yet
#Python Program To Create The Dataframe With Following Values
6 pages
Data Preprocessing Techniques Guide
No ratings yet
Data Preprocessing Techniques Guide
23 pages
GR12 Record Programs 6TH Onwards
No ratings yet
GR12 Record Programs 6TH Onwards
18 pages
Pandas Syntax Revision For ML
No ratings yet
Pandas Syntax Revision For ML
10 pages
One Hot Encoding
No ratings yet
One Hot Encoding
12 pages
Data Cleaning
No ratings yet
Data Cleaning
22 pages
Pandas Cheat Sheet
No ratings yet
Pandas Cheat Sheet
17 pages
ML LAB Manual-1
No ratings yet
ML LAB Manual-1
33 pages
Revision Notes DataFrame XII IP
No ratings yet
Revision Notes DataFrame XII IP
8 pages
Data Mining - Project
100% (2)
Data Mining - Project
11 pages
Ds Pract 2 Vedanti
No ratings yet
Ds Pract 2 Vedanti
7 pages
Ass 1 ML
No ratings yet
Ass 1 ML
21 pages
Dmdw-Lab Manual
No ratings yet
Dmdw-Lab Manual
61 pages
Exp 3
No ratings yet
Exp 3
10 pages
Mini Project2 DAV Answers - Jupyter Notebook
No ratings yet
Mini Project2 DAV Answers - Jupyter Notebook
21 pages
Pandas Py
No ratings yet
Pandas Py
20 pages
Cheat Sheet
No ratings yet
Cheat Sheet
15 pages
Experiment No 11
No ratings yet
Experiment No 11
19 pages
Quantium Task 2
No ratings yet
Quantium Task 2
30 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
DSC Lab Programs
No ratings yet
DSC Lab Programs
24 pages
Introduccion A PowerBI
No ratings yet
Introduccion A PowerBI
23 pages
Clustering Analysis
No ratings yet
Clustering Analysis
30 pages
Business Analytics and Statistics Course For Class Xi-Xii Students - MIT-ADT Pune
No ratings yet
Business Analytics and Statistics Course For Class Xi-Xii Students - MIT-ADT Pune
2 pages
EXCEL EXERCISE #10: Statistical Analysis: I Bar 2
No ratings yet
EXCEL EXERCISE #10: Statistical Analysis: I Bar 2
12 pages
OIM Assessment 1 Brief
No ratings yet
OIM Assessment 1 Brief
6 pages
Python Pandas Tutorial PDF
100% (1)
Python Pandas Tutorial PDF
13 pages
(Sample 3) Research Methodology
No ratings yet
(Sample 3) Research Methodology
16 pages
B.Tech Data Mining Exam Guide
No ratings yet
B.Tech Data Mining Exam Guide
3 pages
Dissertation Data Analysis Guide
No ratings yet
Dissertation Data Analysis Guide
5 pages
RESEARCH Group 9
No ratings yet
RESEARCH Group 9
15 pages
Politics of Teachers Promotion System in Public Schools
No ratings yet
Politics of Teachers Promotion System in Public Schools
17 pages
Customer Engagement
No ratings yet
Customer Engagement
248 pages
Data Science Interview Question
No ratings yet
Data Science Interview Question
93 pages
Generic - Research Methodology
No ratings yet
Generic - Research Methodology
209 pages
Multiple Regression: Problem Set 7
No ratings yet
Multiple Regression: Problem Set 7
3 pages
IT Research Process Guide
No ratings yet
IT Research Process Guide
59 pages
Atim Romeo - Research Report Final
No ratings yet
Atim Romeo - Research Report Final
61 pages
The Dependent Variable in Social Media Use: Helana Scheepers Rosemary Stockdale
No ratings yet
The Dependent Variable in Social Media Use: Helana Scheepers Rosemary Stockdale
10 pages
Orange Green Corporate Geometric Business Case Study and Report Business Presentation
No ratings yet
Orange Green Corporate Geometric Business Case Study and Report Business Presentation
11 pages
Chapter 9 - Forecasting Techniques
No ratings yet
Chapter 9 - Forecasting Techniques
50 pages
Chapter 6
No ratings yet
Chapter 6
21 pages
Data Mining
No ratings yet
Data Mining
2 pages
Allama Iqbal Open University Islamabad (Department of Business Administration) Warning
100% (1)
Allama Iqbal Open University Islamabad (Department of Business Administration) Warning
6 pages
Market Guide For Consumer Goods Trade Promo Solutions 1
No ratings yet
Market Guide For Consumer Goods Trade Promo Solutions 1
15 pages
ML Notes (BCS602)
No ratings yet
ML Notes (BCS602)
186 pages
Machine Learning Business Analysis Report
92% (12)
Machine Learning Business Analysis Report
42 pages
Weka Overview Slides
No ratings yet
Weka Overview Slides
31 pages
Advanced Analytics Using SAS
No ratings yet
Advanced Analytics Using SAS
14 pages
Big Data and Weather Forecasting (R20CA704, 684,690)
No ratings yet
Big Data and Weather Forecasting (R20CA704, 684,690)
13 pages

Second

Uploaded by

Second

Uploaded by

2. Apply the following Pre-processing techniques for a given dataset.

Country Age Salary Purchased

Values in x: [['France' 44.0 72000.0]

HANDLING MISSING VALUES-- DROPPING NULL VALUES

print(df.isnull().sum()) #Checking for null values or missing data

Country Age Salary Purchased

After dropping NULL Values:

HANDLING MISSING VALUES--FILLING NULL VALUES

Country Age Salary Purchased

CONVERTING CATEGORICAL DATA INTO NUMERICAL DATA

from sklearn.compose import ColumnTransformer

Country Age Salary Purchased

from sklearn.preprocessing import StandardScaler

You might also like