Ads Exp2

The document discusses data imputation techniques used to replace missing values in datasets, emphasizing its importance in maintaining data integrity for analysis and modeling. Various methods are outlined, including deletion, mean/median/mode imputation, and more advanced techniques like regression imputation, each with their advantages and disadvantages. The conclusion highlights that the choice of imputation method should be tailored to the dataset and the nature of the missing data to enhance quality and predictive performance.

Uploaded by

vivaan.mansukhani03

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views3 pages

Ads Exp2

Uploaded by

vivaan.mansukhani03

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Class: BE-Computer; Semester: VIII

Subject: Applied Data Science Lab

Experiment No.: 02

AIM: Apply data imputation Techniques on the given dataset.

THEORY:

What is Imputation?

Imputation is the process of replacing missing values (null, NaN, or NA) in a dataset with
estimated values. This helps maintain the integrity of the data for analysis and modeling.

Why is Imputation Important?

1. Prevents Data Loss: Deleting rows with missing values can reduce sample size and
introduce bias.
2. Maintains Statistical Integrity: Missing values can distort averages, variances, and
distributions.
3. Enables Machine Learning Models: Many ML algorithms cannot handle missing values
and require complete datasets.
4. Improves Predictive Accuracy: Proper imputation reduces errors caused by missing data.
5. Handles Real-World Data Issues: Incomplete data is common in surveys, medical records,
and financial data.

Data Imputation Techniques

1. Deletion of Rows with Missing Data

Concept: Remove rows with missing values.

Advantages:
 Simple and easy to implement.
 Works well if missing data is random and minimal (<5% of dataset).
Disadvantages:
 Leads to data loss, reducing statistical power.
 Introduces bias if data is missing non-randomly.

2. Mean/Median Imputation

Concept: Replace missing values with the mean (for normal data) or median (for skewed data).
Advantages:
 Quick and easy to apply.
 Preserves overall distribution (for large datasets).
Disadvantages:
 Reduces variability in data.
 Distorts relationships between variables.

3. Mode Imputation

Concept: Replace missing values with the most frequent value (mode).
Advantages:
 Works well for categorical data.
 Simple and effective when missing values are random
Disadvantages:
 Can introduce bias if the most frequent value dominates.
 Less effective for continuous data.

4. Arbitrary Value Imputation

Concept: Replace missing values with an arbitrary value (e.g., -999 or 9999).
Advantages:
 Clearly distinguishes missing data from actual values.
 Useful when missing values have a special meaning.
Disadvantages:
 Can introduce outliers, affecting statistical analysis.
 May distort relationships in data.

5. End of Tail Imputation

Concept: Replace missing values with a value at the extreme end (e.g., 1st or 99th percentile).
Advantages:
 Preserves relationships without creating artificial values.
 Useful for highly skewed data.
Disadvantages:
 Can introduce extreme values that distort analysis.
 Not suitable for normally distributed data.

6. Random Sample Imputation

Concept: Replace missing values with a randomly selected value from the available data.
Advantages:
 Maintains variability in data.
 Avoids artificial bias.
Disadvantages:
 Adds randomness, making results inconsistent across runs.
 Does not work well if missing values are systematic.

7. Frequent Category Imputation

Concept: Replace missing values with the most frequent category in categorical data.
Advantages:
 Useful for categorical variables with high frequency in one category.
 Simple and effective when missing data is small.
Disadvantages:
 Can overrepresent the most frequent category.
 May not be ideal for datasets with balanced categories.

8. Adding a New Category as "Missing"

Concept: Introduce a new category labeled "Missing" for categorical variables with missing values.
Advantages:
 Keeps all data intact.
 Helps identify patterns in missing data.
Disadvantages:
 Assumes missing values have a distinct meaning.
 Can create artificial categories that may not be useful.

9. Regression Imputation
Concept: Predict missing values using a regression model based on other variables.
Advantages:
 More accurate than simple imputation methods.
 Preserves relationships between variables.
Disadvantages:
 Computationally intensive.
 Can introduce bias if the relationship is weak.

Conclusion :

Data imputation is a critical process in handling missing values, ensuring that datasets remain
complete and reliable for analysis. The choice of imputation technique depends on the nature of the
data, the proportion of missing values, and the desired balance between accuracy and computational
efficiency.
Simple methods like mean, median, and mode imputation are easy to apply but can distort
variability. More advanced approaches like random sampling, regression imputation, and end-
of-tail imputation help preserve data relationships but require careful implementation. In
categorical data, frequent category imputation or introducing a “missing” category can help
retain important information.
While deleting rows with missing values may seem like a straightforward approach, it is often not
recommended unless missing data is minimal and randomly distributed. In contrast, machine
learning-based imputation (e.g., regression or KNN) can improve accuracy but requires additional
computational resources.
Ultimately, there is no one-size-fits-all solution. The best imputation method depends on the dataset,
the extent of missing values, and the impact on analysis and modeling. Proper imputation enhances
data quality, reduces bias, and ensures meaningful statistical insights and predictive performance.
4o

Unit 2 Notes - Docx-3
No ratings yet
Unit 2 Notes - Docx-3
14 pages
Handling Missing Data in Categorical Features
No ratings yet
Handling Missing Data in Categorical Features
7 pages
Imputation Visualization Accuracy
No ratings yet
Imputation Visualization Accuracy
5 pages
Lec 45
No ratings yet
Lec 45
9 pages
SICE: An Improved Missing Data Imputation Technique: Open Access Research
No ratings yet
SICE: An Improved Missing Data Imputation Technique: Open Access Research
21 pages
Updated ABC Document
No ratings yet
Updated ABC Document
3 pages
Enhancing Missing Values Imputation Through Transformer-Based Predictive Modeling
No ratings yet
Enhancing Missing Values Imputation Through Transformer-Based Predictive Modeling
8 pages
Imputation
No ratings yet
Imputation
3 pages
Business Analytics ST1
No ratings yet
Business Analytics ST1
13 pages
Handling Missing Data
No ratings yet
Handling Missing Data
32 pages
Machine Learning Based Missing Data Imputation
No ratings yet
Machine Learning Based Missing Data Imputation
13 pages
Data Imputation For Missing Values
No ratings yet
Data Imputation For Missing Values
14 pages
Updated ABC Document
No ratings yet
Updated ABC Document
1 page
Unit - 3 - R Programming
No ratings yet
Unit - 3 - R Programming
16 pages
Intermediate Machine Learning
No ratings yet
Intermediate Machine Learning
12 pages
Missing Value Imputation Using Hybrid K-Means and Association Rules
No ratings yet
Missing Value Imputation Using Hybrid K-Means and Association Rules
9 pages
Data Cleaning - Project Work
No ratings yet
Data Cleaning - Project Work
10 pages
Da Mid1
No ratings yet
Da Mid1
32 pages
DT - Missing Values
No ratings yet
DT - Missing Values
11 pages
MIssing Data Imputation Using Machine Learning Algorithm
No ratings yet
MIssing Data Imputation Using Machine Learning Algorithm
11 pages
Chapter3 DS
No ratings yet
Chapter3 DS
17 pages
FDS U4
No ratings yet
FDS U4
93 pages
Unit 3
No ratings yet
Unit 3
30 pages
Handling Missing Values
No ratings yet
Handling Missing Values
5 pages
Adsl Exp 3 2024
No ratings yet
Adsl Exp 3 2024
11 pages
CBRG A Novel Algorithm For Handling Missing Data Using Bayesian Ridge Regression and Fea
No ratings yet
CBRG A Novel Algorithm For Handling Missing Data Using Bayesian Ridge Regression and Fea
17 pages
Exp-12 Iaiml
No ratings yet
Exp-12 Iaiml
13 pages
CS7641 Machine Learning Midterm Notes PDF
No ratings yet
CS7641 Machine Learning Midterm Notes PDF
239 pages
Missing Values
No ratings yet
Missing Values
3 pages
DA Unit 2 15m Handling Missing Data
No ratings yet
DA Unit 2 15m Handling Missing Data
3 pages
AI351 Lecture 1 - Data Preprocessing
No ratings yet
AI351 Lecture 1 - Data Preprocessing
8 pages
Platias2020 Greece
No ratings yet
Platias2020 Greece
10 pages
Mida (AE)
No ratings yet
Mida (AE)
12 pages
Unit2 - Data Cleaning and Multivariate Techniques - 26 - 01 - 2025
No ratings yet
Unit2 - Data Cleaning and Multivariate Techniques - 26 - 01 - 2025
42 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
12 pages
An Analysis of Four Missing Data Treatment Methods For Supervised Learning
No ratings yet
An Analysis of Four Missing Data Treatment Methods For Supervised Learning
16 pages
SE CSD Syllabus 01022023 Downloaded From University 01-02-2023
No ratings yet
SE CSD Syllabus 01022023 Downloaded From University 01-02-2023
94 pages
Multiple Imputation in Practice
No ratings yet
Multiple Imputation in Practice
11 pages
Data Cleaning
No ratings yet
Data Cleaning
8 pages
Data - Preprocessing - 2
No ratings yet
Data - Preprocessing - 2
10 pages
"Handling and Mitigation of Missing Data in Sensors" Course: Business Data Mining Group 13
No ratings yet
"Handling and Mitigation of Missing Data in Sensors" Course: Business Data Mining Group 13
12 pages
C12measurement WEB PDF
No ratings yet
C12measurement WEB PDF
56 pages
Centraltendencywhattoconsider 1
No ratings yet
Centraltendencywhattoconsider 1
6 pages
Table 6: Comparison of Candidates' Performance in 2008 HKALE and 2006 HKCEE
100% (2)
Table 6: Comparison of Candidates' Performance in 2008 HKALE and 2006 HKCEE
12 pages
8 Hron Et Al 2010
No ratings yet
8 Hron Et Al 2010
13 pages
The Negative Impact of Missing Value Imputation in Classification of Diabetes Dataset and Solution For Improvement
No ratings yet
The Negative Impact of Missing Value Imputation in Classification of Diabetes Dataset and Solution For Improvement
8 pages
Missing Data
100% (2)
Missing Data
35 pages
COM 201 - Inferential Statistics - 18032022-1
No ratings yet
COM 201 - Inferential Statistics - 18032022-1
58 pages
Elementary: C&E Publishing, Inc. - Basic Education Pricelist 2016
No ratings yet
Elementary: C&E Publishing, Inc. - Basic Education Pricelist 2016
19 pages
Party Wise Sales Details
No ratings yet
Party Wise Sales Details
7 pages
Missing Data
No ratings yet
Missing Data
25 pages
SAT Practice Test #3 - Sections 3 & 4 - ANSWERS
No ratings yet
SAT Practice Test #3 - Sections 3 & 4 - ANSWERS
19 pages
Missing Data Analysis: University College London, 2015
No ratings yet
Missing Data Analysis: University College London, 2015
37 pages
Missing Data Mechanisms and Imputation Methods
No ratings yet
Missing Data Mechanisms and Imputation Methods
16 pages
DADM S5 Imputation of Missing Data
No ratings yet
DADM S5 Imputation of Missing Data
15 pages
3 - Missing Values-1
No ratings yet
3 - Missing Values-1
9 pages
Experiment 5
No ratings yet
Experiment 5
4 pages
Imputation For All Kinds of Data
No ratings yet
Imputation For All Kinds of Data
1 page
Submission Format For Assignment 5.3
No ratings yet
Submission Format For Assignment 5.3
6 pages
Missing Data
No ratings yet
Missing Data
14 pages
Journal of Statistical Software: Reviewer: Abdolvahab Khademi University of Massachusetts
No ratings yet
Journal of Statistical Software: Reviewer: Abdolvahab Khademi University of Massachusetts
4 pages
1961 Casagrande1961 Control of Seepage Through Foundations and Abutments of Dams
No ratings yet
1961 Casagrande1961 Control of Seepage Through Foundations and Abutments of Dams
22 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples) - by Will Badr - Towards Data Science
10 pages
Psychological Assessment With Ratio
No ratings yet
Psychological Assessment With Ratio
6 pages
s7 1500 Compare Table en Mnemo
No ratings yet
s7 1500 Compare Table en Mnemo
71 pages
ISAT 600 Progress Report 2
No ratings yet
ISAT 600 Progress Report 2
6 pages
Algorithms (OBF) Dummies - SPARK
No ratings yet
Algorithms (OBF) Dummies - SPARK
29 pages
Imputation
No ratings yet
Imputation
10 pages
Dealing With Missing Data: Key Assumptions and Methods For Applied Analysis
No ratings yet
Dealing With Missing Data: Key Assumptions and Methods For Applied Analysis
20 pages
Missing Data Imputation Using Singular Value Decomposition
No ratings yet
Missing Data Imputation Using Singular Value Decomposition
6 pages
Ijctt V3i2p104
No ratings yet
Ijctt V3i2p104
5 pages
8 Recursion
No ratings yet
8 Recursion
8 pages
Yanbu University College General Physics-I PHYS-101: Object
No ratings yet
Yanbu University College General Physics-I PHYS-101: Object
8 pages
Class 11 Mathematics
No ratings yet
Class 11 Mathematics
9 pages
PHYS 2210 Equation Sheet 3 Chapter 12: Static Equilibrium
No ratings yet
PHYS 2210 Equation Sheet 3 Chapter 12: Static Equilibrium
1 page
George Mostow
No ratings yet
George Mostow
3 pages
Subject Verb Agreement
No ratings yet
Subject Verb Agreement
4 pages
TLE-EIM8 Q4M4Week4 PASSED NoAK
No ratings yet
TLE-EIM8 Q4M4Week4 PASSED NoAK
11 pages
How To Write Research Paper
No ratings yet
How To Write Research Paper
5 pages
M2 - Problem Set - Introduction To Statistics-2021 - Lagios
No ratings yet
M2 - Problem Set - Introduction To Statistics-2021 - Lagios
15 pages
2-Computing Limits
No ratings yet
2-Computing Limits
5 pages
25-06-23 - JR.C 120 - JEE Adv (2022-P2) - PAPER-2 - Q. Paper
No ratings yet
25-06-23 - JR.C 120 - JEE Adv (2022-P2) - PAPER-2 - Q. Paper
13 pages
The Physics of Wall Street
No ratings yet
The Physics of Wall Street
1 page
EB103 - Math 3 - MATLAB 3 - Session 5 - Single & Double Integration - Fall 2022-2023-1
No ratings yet
EB103 - Math 3 - MATLAB 3 - Session 5 - Single & Double Integration - Fall 2022-2023-1
4 pages
Tutorial and Practice Problems
No ratings yet
Tutorial and Practice Problems
2 pages
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset (Data Imputation With Examples)
10 pages
DLL For CO2
No ratings yet
DLL For CO2
4 pages
DAC Concept
No ratings yet
DAC Concept
6 pages
6 Different Ways To Compensate For Missing Values in A Dataset
No ratings yet
6 Different Ways To Compensate For Missing Values in A Dataset
6 pages
Data Analytics with Generative AI
From Everand
Data Analytics with Generative AI
Younish P
No ratings yet