Preprocessing

The document discusses data preprocessing techniques essential for preparing raw data for analysis, including feature scaling, encoding categorical variables, feature engineering, handling imbalanced data, and principal component analysis (PCA). It outlines various methods for each technique, such as Min-Max Scaling, One-Hot Encoding, and SMOTE for imbalanced data, along with their appropriate use cases. Additionally, PCA is highlighted as a dimensionality reduction method that maintains important information while improving model efficiency.

Uploaded by

Vikram Singh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

18 views9 pages

Preprocessing

Uploaded by

Vikram Singh

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 9

3.

Data Preprocessing
Data preprocessing transforms raw data into a format
suitable for analysis and modeling. Key preprocessing
techniques include:
3.1 Feature Scaling
Feature scaling ensures that numerical features have
comparable ranges, preventing models from being biased
towards larger values. Common techniques include:
 Min-Max Scaling (Normalization)
o Scales values between 0 and 1.
o Best for data without outliers.
 from sklearn.preprocessing import MinMaxScaler
 scaler = MinMaxScaler()
 df[['col1', 'col2']] = scaler.fit_transform(df[['col1',
'col2']])
 Standardization (Z-score Normalization)
o Centers data around zero with unit variance.
o Suitable for normally distributed data.
 from sklearn.preprocessing import StandardScaler
 scaler = StandardScaler()
 df[['col1', 'col2']] = scaler.fit_transform(df[['col1',
'col2']])
 Robust Scaling
o Uses median and IQR to scale data.
o Effective for datasets with outliers.
 from sklearn.preprocessing import RobustScaler
 scaler = RobustScaler()
 df[['col1', 'col2']] = scaler.fit_transform(df[['col1',
'col2']])
 Max Abs Scaling
o Scales data by dividing by the maximum absolute
value.
o Useful for sparse data.
 from sklearn.preprocessing import MaxAbsScaler
 scaler = MaxAbsScaler()
 df[['col1', 'col2']] = scaler.fit_transform(df[['col1',
'col2']])

When to Use Each Scaling Technique?

 Min-Max Scaling: When you need all values between a
fixed range (0,1). Useful for image processing.
 Standardization: When data follows a normal
distribution.
 Robust Scaling: When data contains outliers.
 Max Abs Scaling: When working with sparse data like
text-based features.

3.2 Encoding Categorical Variables

Many machine learning models require numerical input, so
categorical variables need to be converted into numeric
representations. Common encoding techniques include:
 One-Hot Encoding
o Converts categorical variables into binary columns.
o Suitable for nominal categorical variables.
 from sklearn.preprocessing import OneHotEncoder
 import pandas as pd
 encoder = OneHotEncoder(sparse=False, drop='first')
 encoded_cols =
encoder.fit_transform(df[['category_column']])
 df_encoded = pd.DataFrame(encoded_cols,
columns=encoder.get_feature_names_out(['category_c
olumn']))
 df =
df.join(df_encoded).drop(columns=['category_column'])
 Label Encoding
o Assigns a unique integer to each category.
o Suitable for ordinal categorical variables.
 from sklearn.preprocessing import LabelEncoder
 encoder = LabelEncoder()
 df['category_column'] =
encoder.fit_transform(df['category_column'])
 Ordinal Encoding
o Maps categories to integers based on order.
o Useful for ordinal data like education levels (e.g.,
High School < Bachelor < Master < PhD).
 from sklearn.preprocessing import OrdinalEncoder
 encoder = OrdinalEncoder(categories=[['Low', 'Medium',
'High']])
 df[['category_column']] =
encoder.fit_transform(df[['category_column']])
 Frequency Encoding
o Replaces categories with their frequency in the
dataset.
 freq_encoding =
df['category_column'].value_counts().to_dict()
 df['category_column'] =
df['category_column'].map(freq_encoding)
 Target Encoding (Mean Encoding)
o Replaces categories with the mean of the target
variable.
o Useful in supervised learning but may cause data
leakage.
 target_mean_encoding = df.groupby('category_column')
['target'].mean().to_dict()
 df['category_column'] =
df['category_column'].map(target_mean_encoding)
Choosing the Right Encoding Technique
 One-Hot Encoding: Best for nominal data with a small
number of unique values.
 Label Encoding: Suitable for ordinal data.
 Ordinal Encoding: When the categorical feature has an
inherent order.
 Frequency Encoding: When high-cardinality categorical
data is present.
 Target Encoding: Useful in supervised learning but must
be used cautiously.

3.3 Feature Engineering

Feature engineering involves creating new features or
modifying existing ones to improve model performance.
Some key techniques include:
 Feature Extraction: Deriving useful features from
existing data (e.g., extracting text length from textual
data).
 Feature Transformation: Applying mathematical
functions to normalize or scale data (e.g., log
transformations).
 Feature Selection: Choosing the most important
features to reduce dimensionality and improve
efficiency.
 Polynomial Features: Generating higher-order features
to capture complex relationships.

from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2)
df_poly = poly.fit_transform(df[['feature1', 'feature2']])

 Binning: Grouping continuous variables into discrete

bins.
 Encoding Categorical Variables: Converting categorical
variables into numerical format (One-Hot, Label, Target
Encoding).
 Time-Series Feature Engineering: Extracting features
like rolling averages, lags, and trends from time-series
data.
 Handling Missing Values: Using mean/mode
imputation, KNN imputation, or model-based methods.
Feature engineering enhances model performance by
adding meaningful transformations to raw data, ensuring
better predictions and interpretability.
3.4 Handling Imbalanced Data
Handling imbalanced data is crucial in classification
problems where one class has significantly fewer samples
than another. Techniques to address imbalanced data
include:
 Resampling Techniques:
o Oversampling (SMOTE, ADASYN): Generating
synthetic samples for the minority class.
o from imblearn.over_sampling import SMOTE
o smote = SMOTE()
X_resampled, y_resampled = smote.fit_resample(X,
y)
o Undersampling: Randomly removing samples from
the majority class to balance the dataset.
o from imblearn.under_sampling import
RandomUnderSampler
o undersample = RandomUnderSampler()
X_resampled, y_resampled =
undersample.fit_resample(X, y)
 Cost-Sensitive Learning: Assigning higher weights to the
minority class during training.
 Anomaly Detection Approaches: Treating minority class
samples as anomalies and using specialized detection
techniques.
 Data Augmentation: Using transformations, synthetic
data generation, or GANs to create more minority class
samples.

3.5 Principal Component Analysis (PCA) for

Dimensionality Reduction
PCA is a technique used to reduce the dimensionality of
large datasets while preserving important information. It
helps remove redundancy and speed up computations in
machine learning models.

Steps in PCA
1. Standardize the Data: Ensure that all features have zero
mean and unit variance.
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
2. Compute the Covariance Matrix: Understand how
features vary with each other.
3. Compute Eigenvalues and Eigenvectors: Identify the
principal components.
4. Select the Top Principal Components: Choose the
number of components based on explained variance.
from sklearn.decomposition import PCA
pca = PCA(n_components=2) # Choose 2 principal
components
X_pca = pca.fit_transform(X_scaled)
5. Transform the Data: Project data onto the selected
principal components.
6. Analyze Explained Variance:
print(pca.explained_variance_ratio_)

Advantages of PCA
 Reduces dimensionality, improving model efficiency.
 Removes multicollinearity among features.
 Helps visualize high-dimensional data in 2D or 3D.
 Reduces overfitting in models with many features.
Limitations of PCA
 Can lead to information loss if too many components
are removed.
 Difficult to interpret transformed features.
 Assumes linear relationships among variables.

(Feature Engineering) (Extended-Cheatsheet)
100% (1)
(Feature Engineering) (Extended-Cheatsheet)
9 pages
Lecture Material 3
No ratings yet
Lecture Material 3
7 pages
Exp2 - Data Visualization and Cleaning and Feature Selection
No ratings yet
Exp2 - Data Visualization and Cleaning and Feature Selection
13 pages
100 Days of Machine Learning
No ratings yet
100 Days of Machine Learning
14 pages
Unit 4 Basics of Feature Engineering
100% (1)
Unit 4 Basics of Feature Engineering
33 pages
Data Preprocessing and Feature Engineering
No ratings yet
Data Preprocessing and Feature Engineering
32 pages
Résumé-Analyse Des Données Resumee Resumee
No ratings yet
Résumé-Analyse Des Données Resumee Resumee
4 pages
UNITIV BtechIot
No ratings yet
UNITIV BtechIot
43 pages
Unit 4 Basics of Feature Engineering
No ratings yet
Unit 4 Basics of Feature Engineering
33 pages
Mtech Study Material
No ratings yet
Mtech Study Material
10 pages
Data Analysis for Beginners
No ratings yet
Data Analysis for Beginners
8 pages
Building Good Training Sets UNIT 1 PART2
No ratings yet
Building Good Training Sets UNIT 1 PART2
46 pages
Data Preprocessing Example Programs1
No ratings yet
Data Preprocessing Example Programs1
9 pages
ML - Lab Manual
No ratings yet
ML - Lab Manual
54 pages
Unit 3-2
No ratings yet
Unit 3-2
15 pages
Scikit Learn
No ratings yet
Scikit Learn
17 pages
Feature Selection for ML Experts
No ratings yet
Feature Selection for ML Experts
38 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Data Pre Processing
No ratings yet
Data Pre Processing
2 pages
# (Data Preprocessing) : (Cheatsheet)
No ratings yet
# (Data Preprocessing) : (Cheatsheet)
10 pages
Data Preprocessing
No ratings yet
Data Preprocessing
11 pages
DM Lab Cycle 2 1
No ratings yet
DM Lab Cycle 2 1
10 pages
Study Material For Machine Learning - 1 - 1754721598318
No ratings yet
Study Material For Machine Learning - 1 - 1754721598318
18 pages
Advanced Feature Engineering and Data Preprocessing in Machine Learning
No ratings yet
Advanced Feature Engineering and Data Preprocessing in Machine Learning
7 pages
ML Lec 4
No ratings yet
ML Lec 4
9 pages
Subject - Machine Learning Group - E27-24 Name
No ratings yet
Subject - Machine Learning Group - E27-24 Name
18 pages
Scikit Hca
No ratings yet
Scikit Hca
8 pages
Advance Python
No ratings yet
Advance Python
5 pages
Exp-2 ML
No ratings yet
Exp-2 ML
6 pages
Principal Component Analysis Python
No ratings yet
Principal Component Analysis Python
7 pages
PMA Unit-2 PDF
No ratings yet
PMA Unit-2 PDF
19 pages
EE2211 CheatSheet
No ratings yet
EE2211 CheatSheet
15 pages
ML-Lab05-Data Preprocessing Techniques in Python
No ratings yet
ML-Lab05-Data Preprocessing Techniques in Python
7 pages
Data Set
No ratings yet
Data Set
3 pages
10-2 Data Analysis and Pre-Processing Part 4 PDF
No ratings yet
10-2 Data Analysis and Pre-Processing Part 4 PDF
23 pages
Dsur Ea2352001010391 W7
No ratings yet
Dsur Ea2352001010391 W7
3 pages
Data Preprocessing 2
No ratings yet
Data Preprocessing 2
5 pages
Feature Engineering For Machine Learning
No ratings yet
Feature Engineering For Machine Learning
41 pages
UT-1-Machine Learning Lecture Notes-2
No ratings yet
UT-1-Machine Learning Lecture Notes-2
11 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
ML Self Unit 2
No ratings yet
ML Self Unit 2
20 pages
Data Pre-Processing Python For Beginner
No ratings yet
Data Pre-Processing Python For Beginner
12 pages
Data Pre-Processing Python For Beginner
No ratings yet
Data Pre-Processing Python For Beginner
12 pages
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
EDS - Python Cheat Sheet
0% (1)
EDS - Python Cheat Sheet
3 pages
ModuleAr Merged
No ratings yet
ModuleAr Merged
42 pages
Python in Research
No ratings yet
Python in Research
18 pages
Exp 2
No ratings yet
Exp 2
6 pages
7-8 Feature Engineering 101-Normalization
No ratings yet
7-8 Feature Engineering 101-Normalization
8 pages
Parth ML
No ratings yet
Parth ML
24 pages
Assignment1 LATEX
No ratings yet
Assignment1 LATEX
11 pages
Data Mining with Python Lab Guide
No ratings yet
Data Mining with Python Lab Guide
39 pages
Data Cleaning - Cheatsheet
100% (2)
Data Cleaning - Cheatsheet
8 pages
Ap Python
No ratings yet
Ap Python
12 pages
Assignment 2 Documentation
No ratings yet
Assignment 2 Documentation
15 pages
Day School 03
No ratings yet
Day School 03
32 pages
ML Notes
No ratings yet
ML Notes
44 pages
Discourse Analysis Assignment
No ratings yet
Discourse Analysis Assignment
2 pages
Resume (Karan Vishwakarma)
No ratings yet
Resume (Karan Vishwakarma)
1 page
Practical Research I Notes
No ratings yet
Practical Research I Notes
17 pages
Public Health
No ratings yet
Public Health
15 pages
Spelling Bee Judge Record Sheet
67% (3)
Spelling Bee Judge Record Sheet
3 pages
Book Title: Integrated Devices and Circuits For Artificial Intelligence
No ratings yet
Book Title: Integrated Devices and Circuits For Artificial Intelligence
1 page
Jackson Stewart Resume 2020
No ratings yet
Jackson Stewart Resume 2020
1 page
Standard 1 Assessment Task
No ratings yet
Standard 1 Assessment Task
3 pages
Week 3 LessonUCSP MELCWk2 MSIM2 v2
No ratings yet
Week 3 LessonUCSP MELCWk2 MSIM2 v2
10 pages
Parents' Experiences with Blind Kids
No ratings yet
Parents' Experiences with Blind Kids
18 pages
Introduction To Fracture Mechanics Robert O. Ritchie Instant Download
No ratings yet
Introduction To Fracture Mechanics Robert O. Ritchie Instant Download
92 pages
Salum 2016 CM 240829 114742
No ratings yet
Salum 2016 CM 240829 114742
11 pages
Educational Aims of Pragmatism
100% (2)
Educational Aims of Pragmatism
2 pages
Crete Shipping Interview Answers
No ratings yet
Crete Shipping Interview Answers
8 pages
3rd Grade PE: Striking Skills Lesson
No ratings yet
3rd Grade PE: Striking Skills Lesson
16 pages
Oscar Peterson
0% (1)
Oscar Peterson
9 pages
1.teaching Assessment of The Macroskills Midterm Done
No ratings yet
1.teaching Assessment of The Macroskills Midterm Done
11 pages
Topic10 - Technology Trends
No ratings yet
Topic10 - Technology Trends
11 pages
Nov2021 ExaminerDetails 06012022
No ratings yet
Nov2021 ExaminerDetails 06012022
33 pages
The Blue Print Work Book
No ratings yet
The Blue Print Work Book
28 pages
Rakovecv
No ratings yet
Rakovecv
24 pages
Election Day Voting Centers in Clark County 2022
No ratings yet
Election Day Voting Centers in Clark County 2022
5 pages
BPHO Round 2 Physics Syllabus
No ratings yet
BPHO Round 2 Physics Syllabus
4 pages
Box and Block Test (BBT) : Reference Guide
No ratings yet
Box and Block Test (BBT) : Reference Guide
8 pages
Fatih Summary
No ratings yet
Fatih Summary
2 pages
Maharashtra Slection NSJDBDJKDND
No ratings yet
Maharashtra Slection NSJDBDJKDND
3 pages
Math Lessons
No ratings yet
Math Lessons
3 pages
Department of Education: Grade 10 - Prudence Proficiency Level Cmss Characterization - 1 Quarter SY 2021-2022
No ratings yet
Department of Education: Grade 10 - Prudence Proficiency Level Cmss Characterization - 1 Quarter SY 2021-2022
6 pages
Bow - English 5
No ratings yet
Bow - English 5
6 pages
Wishful Drinking Carrie Fisher Complete Edition
No ratings yet
Wishful Drinking Carrie Fisher Complete Edition
135 pages