0% found this document useful (0 votes)

44 views3 pages

Data Preprocessing with Python

This Python code defines functions for preprocessing datasets for machine learning including splitting data into training and test sets, one-hot encoding, min-max scaling, principal component analysis, and feature engineering.

Uploaded by

berniepinoy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views3 pages

Data Preprocessing with Python

Uploaded by

berniepinoy

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as TXT, PDF, TXT or read online on Scribd

You are on page 1/ 3

import numpy as np

import pandas as pd
import sklearn.preprocessing
import sklearn.decomposition
import sklearn.model_selection
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler

def tts( dataset: pd.DataFrame,

label_col: str,
test_size: float,
stratify: bool,
random_state: int) ->
tuple[pd.DataFrame,pd.DataFrame,pd.Series,pd.Series]:
features = dataset.drop(columns=[label_col])
labels = dataset[label_col]

if stratify:
train_features, test_features, train_labels, test_labels =
train_test_split(features, labels,

test_size=test_size,

stratify=labels,

random_state=random_state)
else:
train_features, test_features, train_labels, test_labels =
train_test_split(features, labels,

test_size=test_size,

random_state=random_state)
return train_features, test_features, train_labels, test_labels

class PreprocessDataset:
def __init__(self,
train_features:pd.DataFrame,
test_features:pd.DataFrame,
one_hot_encode_cols:list[str],
min_max_scale_cols:list[str],
n_components:int,
feature_engineering_functions:dict
):
self.train_features = train_features
self.test_features = test_features
self.one_hot_encode_cols = one_hot_encode_cols
self.min_max_scale_cols = min_max_scale_cols
self.n_components = n_components
self.feature_engineering_functions = feature_engineering_functions

def one_hot_encode_columns_train(self) -> pd.DataFrame:

encoder = OneHotEncoder()
encoded_data =
encoder.fit_transform(self.train_features[self.one_hot_encode_cols])
encoded_df = pd.DataFrame(encoded_data.toarray(),
columns=encoder.get_feature_names_out(self.one_hot_encode_cols))
self.train_features = pd.concat([self.train_features, encoded_df],
axis=1).drop(self.one_hot_encode_cols,

axis=1)
return self.train_features

def one_hot_encode_columns_test(self) -> pd.DataFrame:

encoder = OneHotEncoder()
encoded_data =
encoder.fit_transform(self.test_features[self.one_hot_encode_cols])
encoded_df = pd.DataFrame(encoded_data.toarray(),

columns=encoder.get_feature_names_out(self.one_hot_encode_cols))
self.test_features = pd.concat([self.test_features, encoded_df],
axis=1).drop(self.one_hot_encode_cols, axis=1)
return self.test_features

def min_max_scaled_columns_train(self) -> pd.DataFrame:

scaler = MinMaxScaler()
self.train_features[self.min_max_scale_cols] = scaler.fit_transform(
self.train_features[self.min_max_scale_cols])
return self.train_features

def min_max_scaled_columns_test(self) -> pd.DataFrame:

# Columns to be scaled: 'cost' and 'height'
columns_to_scale = ['cost', 'height']

# Create a copy of the DataFrame to avoid modifying the original data

min_max_scaled_dataset = self.data.copy()

# Initialize MinMaxScaler
scaler = MinMaxScaler()

# Fit and transform the numerical columns

min_max_scaled_dataset[columns_to_scale] =
scaler.fit_transform(min_max_scaled_dataset[columns_to_scale])

return min_max_scaled_dataset

def pca_train(self) -> pd.DataFrame:

pca = PCA(n_components=self.n_components)
pca_data = pca.fit_transform(self.train_features)
pca_df = pd.DataFrame(data=pca_data, columns=[f"PCA_{i + 1}" for i in
range(self.n_components)])
self.train_features = pd.concat([self.train_features, pca_df], axis=1)
return self.train_features

def pca_test(self) -> pd.DataFrame:

pca = PCA(n_components=self.n_components)
pca_data = pca.fit_transform(self.test_features)
pca_df = pd.DataFrame(data=pca_data, columns=[f"PCA_{i + 1}" for i in
range(self.n_components)])
self.test_features = pd.concat([self.test_features, pca_df], axis=1)
return self.test_features

def feature_engineering_train(self) -> pd.DataFrame:

for func_name, func in self.feature_engineering_functions.items():
self.train_features[func_name] = func(self.train_features)
return self.train_features

def feature_engineering_test(self) -> pd.DataFrame:

for func_name, func in self.feature_engineering_functions.items():
self.test_features[func_name] = func(self.test_features)
return self.test_features

def preprocess_train(self) -> pd.DataFrame:

self.train_features = self.one_hot_encode_columns_train()
self.train_features = self.min_max_scaled_columns_train()
self.train_features = self.pca_train()
self.train_features = self.feature_engineering_train()
return self.train_features

def preprocess_test(self) -> pd.DataFrame:

self.test_features = self.one_hot_encode_columns_test()
self.test_features = self.min_max_scaled_columns_test()
self.test_features = self.pca_test()
self.test_features = self.feature_engineering_test()
return self.test_features

Multi Classification - Py (For 1 Class TP, TN, FP, FN)
No ratings yet
Multi Classification - Py (For 1 Class TP, TN, FP, FN)
25 pages
Deep Learning Perceptron
No ratings yet
Deep Learning Perceptron
10 pages
Aiml Ex 4-7
No ratings yet
Aiml Ex 4-7
8 pages
Deep Learning: Experiment-1
No ratings yet
Deep Learning: Experiment-1
32 pages
Mercedes-Benz Greener Manufacturing Ai
0% (1)
Mercedes-Benz Greener Manufacturing Ai
16 pages
AI&ML
No ratings yet
AI&ML
9 pages
Deep Learning
No ratings yet
Deep Learning
13 pages
Deep Learning Practical Assignment:: Q-1) Code
No ratings yet
Deep Learning Practical Assignment:: Q-1) Code
59 pages
Fall Semester 2020-21 AI With Python ECE-4031
No ratings yet
Fall Semester 2020-21 AI With Python ECE-4031
5 pages
ML - Lab Manual With Woad File
No ratings yet
ML - Lab Manual With Woad File
12 pages
Ann Experiential Learning
No ratings yet
Ann Experiential Learning
43 pages
Amll
No ratings yet
Amll
1 page
ML File
No ratings yet
ML File
13 pages
Untitled Document
No ratings yet
Untitled Document
2 pages
Approachin190808095205 PDF
No ratings yet
Approachin190808095205 PDF
112 pages
Naive Bayes Classification
No ratings yet
Naive Bayes Classification
8 pages
Experiment01 Baseline Models Accuracy
No ratings yet
Experiment01 Baseline Models Accuracy
35 pages
Machine Learning Lab: Algorithms & Implementation
No ratings yet
Machine Learning Lab: Algorithms & Implementation
11 pages
TP - Ipynb - Colab
No ratings yet
TP - Ipynb - Colab
6 pages
16BCB0126 VL2018195002535 Pe003
No ratings yet
16BCB0126 VL2018195002535 Pe003
40 pages
Deeplg 2
No ratings yet
Deeplg 2
3 pages
ML Internal Questions
No ratings yet
ML Internal Questions
15 pages
Ex 3
No ratings yet
Ex 3
5 pages
C121 Exp1
No ratings yet
C121 Exp1
32 pages
Exp. 1
No ratings yet
Exp. 1
4 pages
Final-12-Lab Programs
No ratings yet
Final-12-Lab Programs
30 pages
Aiml 5-8
No ratings yet
Aiml 5-8
19 pages
ML Journal External
No ratings yet
ML Journal External
14 pages
LAB-4 Report
No ratings yet
LAB-4 Report
21 pages
AIML Project
No ratings yet
AIML Project
4 pages
Ai 28-01-25
No ratings yet
Ai 28-01-25
18 pages
C121 Exp2
No ratings yet
C121 Exp2
23 pages
Machine Learning Algorithms Guide
No ratings yet
Machine Learning Algorithms Guide
9 pages
Atul MLT Exp 4-11
No ratings yet
Atul MLT Exp 4-11
17 pages
ML Experiment WithDataset
No ratings yet
ML Experiment WithDataset
23 pages
DMA Flask
No ratings yet
DMA Flask
14 pages
Machine Learning Lab Manual
No ratings yet
Machine Learning Lab Manual
9 pages
Exp 5
No ratings yet
Exp 5
4 pages
Naive
No ratings yet
Naive
5 pages
HIV Regression Source Code
No ratings yet
HIV Regression Source Code
26 pages
ML Lab Codes
No ratings yet
ML Lab Codes
14 pages
Medical Data ML
No ratings yet
Medical Data ML
6 pages
1
No ratings yet
1
13 pages
DMLAB-2 - 4238 - 01-08-2024.ipynb - Colab
No ratings yet
DMLAB-2 - 4238 - 01-08-2024.ipynb - Colab
4 pages
Implementing KNN Algorithm On The Iris Dataset
No ratings yet
Implementing KNN Algorithm On The Iris Dataset
7 pages
Deep Learning Practical File
No ratings yet
Deep Learning Practical File
18 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
Code Diamond
No ratings yet
Code Diamond
6 pages
Image Classification Handson-Image - Test
No ratings yet
Image Classification Handson-Image - Test
5 pages
ML Functions
No ratings yet
ML Functions
12 pages
DL 5 Excuted
No ratings yet
DL 5 Excuted
13 pages
Naivebayes Labprg2
No ratings yet
Naivebayes Labprg2
3 pages
ML Lab File Batch 1
No ratings yet
ML Lab File Batch 1
20 pages
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
No ratings yet
Import As Import As Import As Import As From Import From Import From Import From Import From Import From Import From Import From Import From Import
8 pages
Slip
No ratings yet
Slip
5 pages
1st PGM
No ratings yet
1st PGM
10 pages
Chirag HOusing Price Pred
No ratings yet
Chirag HOusing Price Pred
12 pages
Assignment 2.4.1 Multiclass Classification
No ratings yet
Assignment 2.4.1 Multiclass Classification
5 pages
Repsol, Enerkem, Agbar To Build A Waste To Chemicals Plant in Tarragona - Rais
No ratings yet
Repsol, Enerkem, Agbar To Build A Waste To Chemicals Plant in Tarragona - Rais
3 pages
Webviewer Demo
No ratings yet
Webviewer Demo
3 pages
Generate SSH Key with Terraform TLS
No ratings yet
Generate SSH Key with Terraform TLS
4 pages
LAB3 - AssemblyMoveoRobot
No ratings yet
LAB3 - AssemblyMoveoRobot
6 pages
Pdf20201201 Roxtec Insulation Guidelines Ver4 en For Web Use
No ratings yet
Pdf20201201 Roxtec Insulation Guidelines Ver4 en For Web Use
18 pages
Statement of Facts Respendent
No ratings yet
Statement of Facts Respendent
29 pages
Enterprise Resource Planning Anwar
No ratings yet
Enterprise Resource Planning Anwar
7 pages
(Ebook) Culture Shock! Bolivia: A Survival Guide To Customs and Etiquette by Mark Cramer ISBN 9780761456582, 0761456589 Download
No ratings yet
(Ebook) Culture Shock! Bolivia: A Survival Guide To Customs and Etiquette by Mark Cramer ISBN 9780761456582, 0761456589 Download
73 pages
Servo Motor Basics and Controll Ciruits
No ratings yet
Servo Motor Basics and Controll Ciruits
9 pages
pg4 Sample Conference Paper
No ratings yet
pg4 Sample Conference Paper
4 pages
NX CAD Project
No ratings yet
NX CAD Project
1 page
A Hyper-Personalized Product Recommendation System
No ratings yet
A Hyper-Personalized Product Recommendation System
26 pages
Endgames - Ru Xu
No ratings yet
Endgames - Ru Xu
216 pages
Statistical Techniques Paper
No ratings yet
Statistical Techniques Paper
3 pages
SAP Business One, Version For SAP HANA: Advanced Dashboards: Use This Title Slide Only With An Image
No ratings yet
SAP Business One, Version For SAP HANA: Advanced Dashboards: Use This Title Slide Only With An Image
22 pages
Network Troubleshooting
No ratings yet
Network Troubleshooting
9 pages
Binomial Theorem for Class XI
No ratings yet
Binomial Theorem for Class XI
37 pages
Integrity: by Which Mechanism We Thwart of Counter The Treats?
No ratings yet
Integrity: by Which Mechanism We Thwart of Counter The Treats?
3 pages
dc2 n7k1
No ratings yet
dc2 n7k1
5 pages
Driveless RAN Tuning
No ratings yet
Driveless RAN Tuning
12 pages
Discrete Structures: Key Concepts and Questions
No ratings yet
Discrete Structures: Key Concepts and Questions
14 pages
Minisim 1000 User Manual
No ratings yet
Minisim 1000 User Manual
26 pages
IT 417 Chapter - 01 - Introduction - To - Information - Security
No ratings yet
IT 417 Chapter - 01 - Introduction - To - Information - Security
10 pages
SOCHUM Study Guide 2024
No ratings yet
SOCHUM Study Guide 2024
43 pages
Question and Answers
No ratings yet
Question and Answers
3 pages
Mentor EI65 Service Manual English
No ratings yet
Mentor EI65 Service Manual English
38 pages
Case Study GRIHA Building
No ratings yet
Case Study GRIHA Building
3 pages
Longtermoxidationbehaviour PDF
No ratings yet
Longtermoxidationbehaviour PDF
10 pages
KAILASH Symfony
No ratings yet
KAILASH Symfony
4 pages
Gas Detection Sensor SG895 ATEX: Installation and User Guide
No ratings yet
Gas Detection Sensor SG895 ATEX: Installation and User Guide
8 pages

Data Preprocessing with Python

Uploaded by

Data Preprocessing with Python

Uploaded by

import numpy as np

def tts( dataset: pd.DataFrame,

def one_hot_encode_columns_train(self) -> pd.DataFrame:

def one_hot_encode_columns_test(self) -> pd.DataFrame:

def min_max_scaled_columns_train(self) -> pd.DataFrame:

def min_max_scaled_columns_test(self) -> pd.DataFrame:

# Create a copy of the DataFrame to avoid modifying the original data

# Fit and transform the numerical columns

def pca_train(self) -> pd.DataFrame:

def pca_test(self) -> pd.DataFrame:

def feature_engineering_train(self) -> pd.DataFrame:

def feature_engineering_test(self) -> pd.DataFrame:

def preprocess_train(self) -> pd.DataFrame:

def preprocess_test(self) -> pd.DataFrame:

You might also like