Lecture 2 DM

Uploaded by

123dieheart

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

2 views11 pages

Lecture 2 DM

Uploaded by

123dieheart

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 11

DATA MINING

Lecture # 02
Instructor: Mr. Sharjeel Ahmed
Slide Elements
• Data Preprocessing
• Data Representation
• Data Summarization
• Data Cleaning
• Data Integration and Transformation
DATA PREPROCESSING
Data Preprocessing
• Data Preprocessing is the process of transforming raw data into an
understandable format.

• It involves cleaning, transforming, and organizing raw data into a

format suitable for analysis.

• The goal of data preprocessing is to improve the quality of the data

and to make it more suitable for the specific data mining task.
Data Preprocessing - Steps
1. Data Representation:

• Data representation involves selecting the appropriate format or

structure for your data.
• This step includes choosing the data types (e.g., numerical,
categorical) for each attribute or feature in your dataset.
• It also includes determining how to encode and represent text, dates,
and other information.
• Common techniques for data representation include one-hot encoding
for categorical data, normalization for numerical data, and text
vectorization for text data.
Data Preprocessing - Steps
2. Data Summarization:

• Data summarization focuses on reducing the complexity of the data

while retaining important information. This can be useful for
understanding the data's characteristics and detecting outliers.

• Summarization techniques include:

• Descriptive statistics: Calculating measures like mean, median,
standard deviation, and quartiles to provide an overview of the data.
• Data visualization: Creating plots and charts to visualize data
distributions and patterns.
• Dimensionality reduction: Techniques like Principal Component
Analysis (PCA) to reduce the number of features while preserving
data variance.
Data Preprocessing - Steps
3. Data Cleaning:

• Data cleaning is the process of identifying and correcting errors,

inconsistencies, and missing values in the dataset.

• Common data cleaning tasks include:

• Handling missing data: Imputing missing values or removing rows
or columns with too many missing values.
• Handling outliers: Detecting and addressing outliers that may
skew analysis results.
• Consistency checks: Ensuring data consistency and resolving
conflicting or duplicate records.
• Noise reduction: Reducing random or irrelevant variations in the
data.
Data Preprocessing - Steps
4. Data Integration and Transformation:

• Data integration involves combining data from multiple sources into a single,
unified dataset. This is often necessary when working with real-world data
collected from various systems or databases.
• Type of Integration are:
• Tight Coupling: Data is combined together into a physical Location.
Once you have combined data, you can not again access it separately.
• Loose Coupling: Data is not actually integrated. Only an interface is
created and data is combined through the interface and also accessed
through that interface. Data remains in actual database only.

• Data transformation includes converting data into a different format or

structure to make it more suitable for analysis.
Data Preprocessing - Steps
4. Data Integration and Transformation: (Cont.)

• Some common data integration and transformation techniques include:

• Merging datasets: Combining data from different sources based on common
keys or attributes.
• Aggregation: Summarizing data by grouping it based on certain attributes (e.g.,
calculating the total sales for each product category).
• Feature engineering: Creating new features by combining, transforming, or
extracting information from existing features.
• Scaling and normalization: Scaling data to ensure that different features have
similar ranges and distributions.
Data Preprocessing – Example
Scenario: You have a dataset of daily temperature records for different cities.

Step 1: Data Representation

• Convert city names into numerical codes (e.g., 1 for New York, 2 for Los
Angeles).
• Scale temperatures to a common range (e.g., Celsius) for consistency.
Step 2: Data Summarization
• Calculate the average temperature for each city to understand typical
temperatures.
• Create a simple line chart to visualize temperature variations over time.
Step 3: Data Cleaning
• Identify and address missing temperature values.
• Handle extreme outliers (e.g., incorrect temperature readings).
• Ensure date formats are consistent and valid.
Data Preprocessing – Example (Cont. )
Step 4: Data Integration and Transformation
• Combine the temperature data with additional information, such as city
populations.
• Create a new feature, like "temperature change from the previous day," to
capture trends.
• Scale temperature values within a common range for fair comparisons.

Following these steps, you've prepared the dataset for analysis, allowing you to
gain insights into temperature trends, make predictions, or conduct data mining
tasks. Data preprocessing enhances data quality and makes it suitable for
various analytical and machine learning applications.

Data Handling and Visualization 3rd Unit
No ratings yet
Data Handling and Visualization 3rd Unit
4 pages
Chap 8 Data Preprocessing - Short
No ratings yet
Chap 8 Data Preprocessing - Short
7 pages
Unit II (DWDM)
No ratings yet
Unit II (DWDM)
19 pages
DM Unit 1
No ratings yet
DM Unit 1
18 pages
Screenshot 2025-04-09 at 10.35.12 AM
No ratings yet
Screenshot 2025-04-09 at 10.35.12 AM
31 pages
1.3 Introduction To Data Preprocessing
No ratings yet
1.3 Introduction To Data Preprocessing
16 pages
Data Preprocessing
No ratings yet
Data Preprocessing
8 pages
Data Warehouse and Data Mining - Definition and Concepts
No ratings yet
Data Warehouse and Data Mining - Definition and Concepts
20 pages
03 Preprocessing
No ratings yet
03 Preprocessing
18 pages
DM Unit 3
No ratings yet
DM Unit 3
15 pages
Pre Processing
No ratings yet
Pre Processing
43 pages
Data Mining for Business Insights
No ratings yet
Data Mining for Business Insights
38 pages
DWDM Unit 3
No ratings yet
DWDM Unit 3
16 pages
4.1 - Data Preprocessing
No ratings yet
4.1 - Data Preprocessing
28 pages
Data Mining UNIT II
No ratings yet
Data Mining UNIT II
19 pages
Lesson 7 Data Description and Diagnostics
No ratings yet
Lesson 7 Data Description and Diagnostics
14 pages
UNIT 2 Data Warehousing
No ratings yet
UNIT 2 Data Warehousing
45 pages
Data Mining
No ratings yet
Data Mining
22 pages
Data Preprocessing: Clean, Transform, Integrate
No ratings yet
Data Preprocessing: Clean, Transform, Integrate
6 pages
DS Unit 2
No ratings yet
DS Unit 2
23 pages
U1 - DA - Data Preprocessing
No ratings yet
U1 - DA - Data Preprocessing
6 pages
DM Lect3
No ratings yet
DM Lect3
41 pages
OJCST Vol13 N2-3 P 78-81
No ratings yet
OJCST Vol13 N2-3 P 78-81
4 pages
Bi Unit 4
No ratings yet
Bi Unit 4
19 pages
Data Preprocessing in Data Mining
No ratings yet
Data Preprocessing in Data Mining
11 pages
Pre Processing
No ratings yet
Pre Processing
68 pages
DWDM LS3 Fall 24 25
No ratings yet
DWDM LS3 Fall 24 25
50 pages
Preprocessing
No ratings yet
Preprocessing
90 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Lecture 3 Unit 1
No ratings yet
Lecture 3 Unit 1
61 pages
Data Preprocessing
No ratings yet
Data Preprocessing
22 pages
Data Preprocessing
No ratings yet
Data Preprocessing
5 pages
16-Data Preprocessing
No ratings yet
16-Data Preprocessing
27 pages
Data Preprocessing for Analysts
No ratings yet
Data Preprocessing for Analysts
3 pages
DataPreprocessing 2
No ratings yet
DataPreprocessing 2
68 pages
Data Preprocessing
No ratings yet
Data Preprocessing
13 pages
DS Module2 L3 L13
No ratings yet
DS Module2 L3 L13
43 pages
DM Chapter 3
No ratings yet
DM Chapter 3
60 pages
DMDW Chapter 3
No ratings yet
DMDW Chapter 3
13 pages
Data Preprocessing Part 1
No ratings yet
Data Preprocessing Part 1
14 pages
2 Data Pre-Processing
No ratings yet
2 Data Pre-Processing
50 pages
Correlation
No ratings yet
Correlation
14 pages
CMR BDA Data Pre Processing
No ratings yet
CMR BDA Data Pre Processing
10 pages
Notes - Unit01 - Data Science and Big Data Analytics
No ratings yet
Notes - Unit01 - Data Science and Big Data Analytics
7 pages
Lecture 2 Data Mining
No ratings yet
Lecture 2 Data Mining
6 pages
Unit - 2
No ratings yet
Unit - 2
17 pages
21BCAD5C01 IDA Module 2 Notes
No ratings yet
21BCAD5C01 IDA Module 2 Notes
16 pages
Data Preparation Guide COS10022
No ratings yet
Data Preparation Guide COS10022
61 pages
Data Preprocessing
No ratings yet
Data Preprocessing
15 pages
3 Preprocessing
No ratings yet
3 Preprocessing
27 pages
UNIT-2 Data Pre-Processing
No ratings yet
UNIT-2 Data Pre-Processing
57 pages
Week 3
No ratings yet
Week 3
23 pages
CS322 - Lec 3 - S25
No ratings yet
CS322 - Lec 3 - S25
42 pages
Data Preprocessing
No ratings yet
Data Preprocessing
48 pages
A Simple Guide To Retrieval Augmented Generation 1720484135
No ratings yet
A Simple Guide To Retrieval Augmented Generation 1720484135
9 pages
DCOM Configuration Guide - OPCHDAInt
No ratings yet
DCOM Configuration Guide - OPCHDAInt
53 pages
Notes GuideWire
No ratings yet
Notes GuideWire
33 pages
Swecha Stroy
No ratings yet
Swecha Stroy
28 pages
Smoke Detector Camera Guide
No ratings yet
Smoke Detector Camera Guide
28 pages
OCP HPM Common Circuit Type1 Design Spec Rev1p0 Ver1p00 RC2
No ratings yet
OCP HPM Common Circuit Type1 Design Spec Rev1p0 Ver1p00 RC2
24 pages
How To Build Your MSSP Service Offering
No ratings yet
How To Build Your MSSP Service Offering
11 pages
Resume Parsing Solution Guide
No ratings yet
Resume Parsing Solution Guide
7 pages
Digital System Design (CSE 2153) (Makeup)
No ratings yet
Digital System Design (CSE 2153) (Makeup)
2 pages
Modular NX 7 e NX 70 Catalogo
100% (1)
Modular NX 7 e NX 70 Catalogo
48 pages
College of Computer Science & IT,: House Rental Management System
No ratings yet
College of Computer Science & IT,: House Rental Management System
21 pages
PSiRA Online User Manual Guide
No ratings yet
PSiRA Online User Manual Guide
6 pages
PDF Test Bank For Linux+ and LPIC-1 Guide To Linux Certification, 5th Edition Jason Eckert Download
100% (24)
PDF Test Bank For Linux+ and LPIC-1 Guide To Linux Certification, 5th Edition Jason Eckert Download
46 pages
Seminar Topics - Few
100% (1)
Seminar Topics - Few
5 pages
MC Module-5 Notes
No ratings yet
MC Module-5 Notes
8 pages
Knowledge Management Revision Paper With Answers - OUM / VILLA COLLEGE
No ratings yet
Knowledge Management Revision Paper With Answers - OUM / VILLA COLLEGE
15 pages
Command Prompt Parameters
No ratings yet
Command Prompt Parameters
1 page
Merge Multiple Excel Sheets Project Repot
No ratings yet
Merge Multiple Excel Sheets Project Repot
7 pages
0417 s19 QP 13
No ratings yet
0417 s19 QP 13
20 pages
Terms Strikeplagiarism en 20240119
No ratings yet
Terms Strikeplagiarism en 20240119
13 pages
B032320031 Lab04
No ratings yet
B032320031 Lab04
5 pages
Unit - 1
No ratings yet
Unit - 1
14 pages
GPS Week Number Roll Over
No ratings yet
GPS Week Number Roll Over
4 pages
Knowledge Pillars Code Questions
No ratings yet
Knowledge Pillars Code Questions
46 pages
Chip and PIN Security
100% (1)
Chip and PIN Security
3 pages
MTS6000 OTDR Software Upgrade Guide
No ratings yet
MTS6000 OTDR Software Upgrade Guide
1 page
1215 - 1106 - Ceragon - XPIC - Presentation v6.7 PDF
50% (2)
1215 - 1106 - Ceragon - XPIC - Presentation v6.7 PDF
31 pages
HarmanjotSingh Lab1
No ratings yet
HarmanjotSingh Lab1
58 pages
Syllabus - Auditing in CIS Environment
100% (1)
Syllabus - Auditing in CIS Environment
4 pages
MTCINE WIZMASTER 20171103-20171108IPV6 Book PDF
100% (2)
MTCINE WIZMASTER 20171103-20171108IPV6 Book PDF
109 pages