0% found this document useful (0 votes)

49 views16 pages

Extracting Knowledge From Data

Uploaded by

Did you KNOW

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

49 views16 pages

Extracting Knowledge From Data

Uploaded by

Did you KNOW

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 16

Extracting Knowledge from Data

Data Preparation, Enrichment, Encoding, and Standardization

Presented by: Bejaoui Ahmed

Plan

• Why is Data Preparation Important?

• Data Preparation and Cleaning
• Data Enrichment
• Data Encoding
• Data Standardization
• Data Normalization
• Challenges in Data Preparation
• Future Trends

2
Introduction

Extracting knowledge from data involves going beyond basic analysis; it

requires that data be carefully prepared, enriched, encoded, and
standardized. This process improves data quality, increases model
accuracy, and enhances decision-making. Today, we’ll explore key steps
like data cleaning, enrichment, encoding, and standardization.

3
Why is Data Preparation Important?

Data often comes in raw form with inconsistencies, missing values, and errors.
Properly prepared data:

 Increases model accuracy: Clean data improves prediction outcomes.

 Saves time and resources: Reduces the need for troubleshooting during analysis.

 Prevents unjust results: Findings and decisions can be distorted by inaccurate or

unclean data.

4
Data Preparation and Cleaning

1. Handling Missing Data 2. Handling Outliers

Use deletion to remove incomplete Use statistical methods like IQR (Interquartile
entries or imputation to fill gaps with Range) or Z-score to identify extreme values,
statistical estimates, balancing data then treat outliers by removing, transforming,
integrity and completeness. or replacing them as appropriate based on
domain knowledge.

3. Data Consistency 4. Removing Duplicates

Ensure uniform formats (e.g., dates, Identify and eliminate duplicate records
currencies) across the dataset. that may distort analysis results.

5
Data Enrichment
Adding new relevant data to enhance the existing dataset and improve
analysis.
Types of Data Enrichment:
External Data: Adding information Feature Engineering: Creating new
from other sources (e.g., social features from the existing data (e.g.,
media, weather data). combining date and time into one feature).

Benefits:
Enriched data provides deeper insights.
Improves model performance by adding relevant context or features.

6
Data Encoding
Converting categorical (non-numerical) data into numerical form so that
machine learning algorithms can use them.
Techniques:
Label Encoding:
• Assigns an integer to each category.
• Example: "Red" = 1, "Green" = 2, "Blue" = 3. Used for ordinal data.

One-Hot Encoding:
• Creates binary columns for each category.
• Example: "Color" column with values "Red," "Green," "Blue" becomes three binary
columns.

7
Data Encoding
 Frequency Encoding:
Replaces categories with their frequency in the dataset.
Example:
A column with colors: "Red," "Green," "Blue" becomes "Red" = 50%,
"Green" = 30%, "Blue" = 20%.

8
Data Standardization
Rescaling data so that it has a mean of zero and a standard deviation of
one.
Why It’s Important:
Algorithms like k-Means, SVM(Support Vector Machine), and Gradient
Descent are sensitive to data scaling.
Standardization ensures that large-scale features don’t dominate smaller-
scale features.

9
Example of data standardization

10
Data Normalization

Rescaling data to a range between 0 and 1 without

changing its distribution.
When to Use:
• It is preferred when working with algorithms that
rely on distances, such as k-NN or neural
networks.

11
Example of data Normalization

12
Challenges in Data Preparation

• High Dimensionality:
Datasets with many features can lead to overfitting or long processing times.
• Incomplete or Inconsistent External Data:
Data enrichment may introduce inconsistencies or new missing values.
• Complexity in Encoding:
Some categorical features have too many levels, making encoding
computationally expensive.

13
Future Trends

Automated Data Cleaning (AutoML): Data-Centric AI: Prioritizes data quality

Uses AI to automatically clean and prepare improvements over model tuning, ensuring
data, saving time and improving data better model performance from well-
quality. prepared data

Real-Time Data Preparation: Enables Synthetic Data Generation: Creates

on-the-fly data cleaning and artificial, privacy-safe data to supplement
transformation, essential for streaming real datasets, improving model training
analytics and IoT. without compromising sensitive
information.

14
Conclusion
Data preparation, enrichment, encoding, and standardization are
foundational to effective data analysis and machine learning.
Prioritizing these steps ensures cleaner, more consistent data and
enhances model performance.

15
References
•Aggarwal, C. C. (2015). Data Mining: The Textbook. Springer.

•Han, J., Pei, J., & Kamber, M. (2011). Data Mining: Concepts and Techniques. Morgan
Kaufmann.

•Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and

TensorFlow. O'Reilly Media.

•Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

7 Data Preprocessing Steps in Machine Learning
No ratings yet
7 Data Preprocessing Steps in Machine Learning
5 pages
Unit 2 ML
No ratings yet
Unit 2 ML
14 pages
MSDSModule 2
No ratings yet
MSDSModule 2
35 pages
Statistics For Data Science
100% (2)
Statistics For Data Science
39 pages
Module 3 Notes
No ratings yet
Module 3 Notes
5 pages
ML 1
No ratings yet
ML 1
13 pages
Unit - 2 ML
No ratings yet
Unit - 2 ML
8 pages
Aml Midsem
No ratings yet
Aml Midsem
59 pages
Data Preprocessing: Clean, Transform, Integrate
No ratings yet
Data Preprocessing: Clean, Transform, Integrate
6 pages
Session-2-CO3-Introduction To Data Preprocessing
No ratings yet
Session-2-CO3-Introduction To Data Preprocessing
39 pages
Lecture No 2 Data Preparation
No ratings yet
Lecture No 2 Data Preparation
23 pages
Exploratory Data Analysis
No ratings yet
Exploratory Data Analysis
23 pages
Unit - 2 ML
No ratings yet
Unit - 2 ML
8 pages
Data Prep and Cleaning For Machine Learning
No ratings yet
Data Prep and Cleaning For Machine Learning
22 pages
Big Data Essentials & Challenges
No ratings yet
Big Data Essentials & Challenges
71 pages
Machine Learning Data Prep Guide
No ratings yet
Machine Learning Data Prep Guide
9 pages
Machine Learning Essentials Guide
No ratings yet
Machine Learning Essentials Guide
33 pages
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
No ratings yet
Predictive Analytics Modelling (21CSH-440) : Apex Institute of Technology
20 pages
SML Updated UNIT-2
No ratings yet
SML Updated UNIT-2
43 pages
Data Munging for Data Scientists
No ratings yet
Data Munging for Data Scientists
54 pages
Data Preparation Steps for Analysis
No ratings yet
Data Preparation Steps for Analysis
3 pages
Ads Imp Qna 2025 15 04 06 06 35
No ratings yet
Ads Imp Qna 2025 15 04 06 06 35
33 pages
Module 2-b Prediction Methods and Models-Data Preperation
No ratings yet
Module 2-b Prediction Methods and Models-Data Preperation
26 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
CH 3
No ratings yet
CH 3
33 pages
Business Analytics
No ratings yet
Business Analytics
14 pages
PredictiveAnalysis U1 U2
No ratings yet
PredictiveAnalysis U1 U2
7 pages
Unit 2
No ratings yet
Unit 2
18 pages
ML Unit 2
No ratings yet
ML Unit 2
52 pages
Chap 3
No ratings yet
Chap 3
26 pages
Disruptive Technologies DA Lecture 8
No ratings yet
Disruptive Technologies DA Lecture 8
17 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Kaggle Competition Mastery Guide
100% (1)
Kaggle Competition Mastery Guide
74 pages
Week5 Modified
No ratings yet
Week5 Modified
25 pages
6-Deep Networks Basics - Shallow Neural Networks-29-07-2024
No ratings yet
6-Deep Networks Basics - Shallow Neural Networks-29-07-2024
8 pages
REVIEWER
No ratings yet
REVIEWER
9 pages
Data Science 2
100% (2)
Data Science 2
55 pages
Data Preprocessing Before Classification: Presented by
No ratings yet
Data Preprocessing Before Classification: Presented by
23 pages
ADS IA 1 Syllabus Prep
No ratings yet
ADS IA 1 Syllabus Prep
5 pages
Course 4
No ratings yet
Course 4
29 pages
1725892639module 3 The Machine Learning Process
No ratings yet
1725892639module 3 The Machine Learning Process
17 pages
Data Mining
No ratings yet
Data Mining
18 pages
Week 3
No ratings yet
Week 3
23 pages
Data Preparation For Machine Learning Mini Course
No ratings yet
Data Preparation For Machine Learning Mini Course
19 pages
Model Evaluation
No ratings yet
Model Evaluation
39 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
38 pages
Data Preparation with NumPy & Pandas
No ratings yet
Data Preparation with NumPy & Pandas
5 pages
CSC 3301-Lecture06 Introduction To Machine Learning
No ratings yet
CSC 3301-Lecture06 Introduction To Machine Learning
56 pages
Lect 04 Preprocessing Structured
No ratings yet
Lect 04 Preprocessing Structured
39 pages
DS Data Understanding and Preparation
No ratings yet
DS Data Understanding and Preparation
2 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
AIPPTMaker - Data Preprocessing and Feature Engineering - Key To Improving AI Algorithm Performance
No ratings yet
AIPPTMaker - Data Preprocessing and Feature Engineering - Key To Improving AI Algorithm Performance
35 pages
Exam Preparation Notes
No ratings yet
Exam Preparation Notes
31 pages
Step by Step Data Wrangling
No ratings yet
Step by Step Data Wrangling
4 pages
Data Mining for Business Insights
No ratings yet
Data Mining for Business Insights
38 pages
ML Lect1
100% (1)
ML Lect1
51 pages
Communication in Distributed Systems - Multicast Communication
No ratings yet
Communication in Distributed Systems - Multicast Communication
15 pages
IoT in Agriculture
No ratings yet
IoT in Agriculture
13 pages
SRS E-Commerce Catalog Management System
100% (1)
SRS E-Commerce Catalog Management System
8 pages
Cloud-Saas (Bejaoui Ahmed)
No ratings yet
Cloud-Saas (Bejaoui Ahmed)
12 pages
Sociotechnical System
No ratings yet
Sociotechnical System
15 pages
Cloud Computing Computing Edge (Ahmed Bejaoui)
No ratings yet
Cloud Computing Computing Edge (Ahmed Bejaoui)
3 pages
Computer Vision
No ratings yet
Computer Vision
17 pages
Unit 2 Machine Learning
No ratings yet
Unit 2 Machine Learning
32 pages
Kidney Ieee
No ratings yet
Kidney Ieee
26 pages
Credit Score Prediction.
No ratings yet
Credit Score Prediction.
3 pages
Synthetic ECG Generation For Data Augmentation and Transfer Learning in Arrhythmia Classification
No ratings yet
Synthetic ECG Generation For Data Augmentation and Transfer Learning in Arrhythmia Classification
23 pages
A Review of Ambient Intelligence Assisted Healthcare Monitoring
No ratings yet
A Review of Ambient Intelligence Assisted Healthcare Monitoring
10 pages
Logo
No ratings yet
Logo
23 pages
IEEE Transaction Forensic Detection of Fraudulent Alteration in Ball-Point Pen Strokes
No ratings yet
IEEE Transaction Forensic Detection of Fraudulent Alteration in Ball-Point Pen Strokes
12 pages
Major Project Report
No ratings yet
Major Project Report
10 pages
ML1 Skript 2023
No ratings yet
ML1 Skript 2023
97 pages
Rawmal-Tf: Raw Malware Dataset Labeled by Type and Family: David B Alik, Martin Jure Cek, Mark Stamp
No ratings yet
Rawmal-Tf: Raw Malware Dataset Labeled by Type and Family: David B Alik, Martin Jure Cek, Mark Stamp
32 pages
MLT by Engineering Express
No ratings yet
MLT by Engineering Express
94 pages
Imp 2
No ratings yet
Imp 2
6 pages
ML-QB-Unit 1
No ratings yet
ML-QB-Unit 1
41 pages
Machine Learning Based Prediction of Flyrock Distance in Rock Blasting
No ratings yet
Machine Learning Based Prediction of Flyrock Distance in Rock Blasting
16 pages
Integrating AIin Financial Ris
No ratings yet
Integrating AIin Financial Ris
34 pages
Fingerprint Liveliness Detection Using Stacked Ensemble and Transfer Learning Technique
No ratings yet
Fingerprint Liveliness Detection Using Stacked Ensemble and Transfer Learning Technique
7 pages
Final Documentation
No ratings yet
Final Documentation
54 pages
Machine Learning Updated
No ratings yet
Machine Learning Updated
14 pages
Machine Learning for Solubility Prediction
No ratings yet
Machine Learning for Solubility Prediction
6 pages
Syllabus MAI391 Sp24
No ratings yet
Syllabus MAI391 Sp24
16 pages
A Comparative Study of Relevant Vector Machine and
No ratings yet
A Comparative Study of Relevant Vector Machine and
5 pages
22CM1104
No ratings yet
22CM1104
2 pages
AI - ML - QBANK 23-24 Even-22.1.24
No ratings yet
AI - ML - QBANK 23-24 Even-22.1.24
29 pages
Machine Learning Based Missing Data Imputation
No ratings yet
Machine Learning Based Missing Data Imputation
13 pages
Fundamentals of Machine Learning
No ratings yet
Fundamentals of Machine Learning
23 pages
2021 10 11 - Intro ML - Inserm
No ratings yet
2021 10 11 - Intro ML - Inserm
41 pages
Predicting Ayurveda Based Constituent Balancing in
No ratings yet
Predicting Ayurveda Based Constituent Balancing in
11 pages
Rcse 001
No ratings yet
Rcse 001
2 pages
Barakat
No ratings yet
Barakat
7 pages
Predictive AI
No ratings yet
Predictive AI
5 pages

Extracting Knowledge From Data

Uploaded by

Extracting Knowledge From Data

Uploaded by

Extracting Knowledge from Data

Data Preparation, Enrichment, Encoding, and Standardization

Presented by: Bejaoui Ahmed

• Why is Data Preparation Important?

Extracting knowledge from data involves going beyond basic analysis; it

 Increases model accuracy: Clean data improves prediction outcomes.

 Prevents unjust results: Findings and decisions can be distorted by inaccurate or

1. Handling Missing Data 2. Handling Outliers

3. Data Consistency 4. Removing Duplicates

Rescaling data to a range between 0 and 1 without

Automated Data Cleaning (AutoML): Data-Centric AI: Prioritizes data quality

Real-Time Data Preparation: Enables Synthetic Data Generation: Creates

•Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and

•Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

You might also like