0% found this document useful (0 votes)

37 views2 pages

Conversation Normalization

Standard Error of the Mean (SEM) is preferred over Standard Deviation (SD) for estimating population means from samples, as SEM reflects the accuracy of the sample mean. Normal distribution is crucial in data science due to its prevalence in real-world data and its role in various statistical tests and machine learning models. Normalization techniques, such as Min-Max Scaling and Z-Score Standardization, are essential for improving model performance and handling data distributions effectively.

Uploaded by

Aashish

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

37 views2 pages

Conversation Normalization

Uploaded by

Aashish

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Why do we need to use standard error of mean instead of standard deviation?

Standard Error of the Mean (SEM) is used instead of Standard Deviation (SD) when we are

estimating the mean of a population from a sample.

- SD measures the spread of individual data points in a sample.

- SEM measures how accurately the sample mean estimates the true population mean.

Formula:

- SD = sqrt(sum((X - mean)^2) / (N - 1))

- SEM = SD / sqrt(N)

Example:

Heights of students: [160, 165, 170, 175, 180]

SD approximately 7.91 cm, SEM approximately 3.54 cm

Why is the normal distribution important in data science?

1. Many real-world datasets (e.g., heights, IQ scores) are normally distributed.

2. Many statistical tests assume normality (t-tests, ANOVA, regression).

3. Central Limit Theorem ensures sample means follow normal distribution.

4. Normalization methods (Z-score scaling) improve model performance.

5. Outlier detection (3 standard deviations from mean).

6. Probabilities & decision-making based on normal distribution.

7. Many ML models assume normality (Naïve Bayes, linear regression).

How to normalize data?

1. Min-Max Scaling: Scales values between 0 and 1.

Formula: X_norm = (X - X_min) / (X_max - X_min)

2. Z-Score Standardization: Centers data with mean 0, std 1.

Formula: X_std = (X - mean) / std

3. Robust Scaling: Uses median & IQR (good for outliers).

4. Log Transformation: Converts skewed data.

5. Power Transformation (Box-Cox, Yeo-Johnson): Normalizes skewed data.

6. Decimal Scaling: Moves decimal point based on max value.

Best Methods:

- Min-Max: Good for bounded data (0-1).

- Z-Score: Best when data is normally distributed.

- Robust: Best when data has outliers.

- Log & Power: Useful for skewed distributions.

Conclusion:

- Normalization improves consistency across features in ML models.

- Choose a method based on data distribution and outliers.

Data Normalization Machine Learning
No ratings yet
Data Normalization Machine Learning
5 pages
Standardization Campusx
No ratings yet
Standardization Campusx
4 pages
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
No ratings yet
Data Preprocessing: Essential Steps For Preparing Data Before Modeling
111 pages
Data Preprocessing: Normalize vs. Standardize
No ratings yet
Data Preprocessing: Normalize vs. Standardize
10 pages
Data Normalization in Data Mining
No ratings yet
Data Normalization in Data Mining
8 pages
Machine Learning Feature Scaling
No ratings yet
Machine Learning Feature Scaling
26 pages
Feature Scaling (Standardization & Normalization)
No ratings yet
Feature Scaling (Standardization & Normalization)
35 pages
Standardisation Vs Normalisation
No ratings yet
Standardisation Vs Normalisation
6 pages
Data Cleaning
No ratings yet
Data Cleaning
6 pages
Data Preprocessing
No ratings yet
Data Preprocessing
49 pages
Normalization: Normalization Techniques at A Glance
No ratings yet
Normalization: Normalization Techniques at A Glance
5 pages
2.6the Normal Transform
No ratings yet
2.6the Normal Transform
4 pages
dmdw2 2
No ratings yet
dmdw2 2
24 pages
Normalization Vs Standardization
No ratings yet
Normalization Vs Standardization
2 pages
Data Preprocessing PT 2
No ratings yet
Data Preprocessing PT 2
7 pages
Standardization & Normalization In: ML With Python Example
No ratings yet
Standardization & Normalization In: ML With Python Example
8 pages
ML Normalization Techniques - Overview & Practical Guide
No ratings yet
ML Normalization Techniques - Overview & Practical Guide
5 pages
Data Normalization
No ratings yet
Data Normalization
7 pages
Practical 6
No ratings yet
Practical 6
6 pages
04 - Data Normalization in Python - en
No ratings yet
04 - Data Normalization in Python - en
1 page
Summary Chap 1 & 2
No ratings yet
Summary Chap 1 & 2
5 pages
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
No ratings yet
Presentation #1 Data Mining Minahel Khan BSIT (E) 22!11!1
7 pages
ML - Week 04
No ratings yet
ML - Week 04
33 pages
Course 4
No ratings yet
Course 4
29 pages
8.1 3.4.standard-Normal-Distribution-Exercise-Solution
No ratings yet
8.1 3.4.standard-Normal-Distribution-Exercise-Solution
5 pages
Data Preprocessing and Feature Engineering
No ratings yet
Data Preprocessing and Feature Engineering
32 pages
Data Processing
No ratings yet
Data Processing
19 pages
General ML Notes
No ratings yet
General ML Notes
30 pages
Unit II - Data Preprocessing and Classification RSK-1
No ratings yet
Unit II - Data Preprocessing and Classification RSK-1
115 pages
28 Questions Data Preprocessing Normal Dist
No ratings yet
28 Questions Data Preprocessing Normal Dist
4 pages
Statistics 1 Revision Sheet
No ratings yet
Statistics 1 Revision Sheet
9 pages
3 1 Chapter 3 Normalization
No ratings yet
3 1 Chapter 3 Normalization
22 pages
Data Mining
No ratings yet
Data Mining
11 pages
Feature Engineering for BE Students
No ratings yet
Feature Engineering for BE Students
91 pages
Study+Material+Unit 4+Data+Preprocessing+
No ratings yet
Study+Material+Unit 4+Data+Preprocessing+
8 pages
Normalization
No ratings yet
Normalization
10 pages
8 Normalization Methods
No ratings yet
8 Normalization Methods
10 pages
Machine Learning - Lec4 - 5
No ratings yet
Machine Learning - Lec4 - 5
41 pages
ML Unit 2
No ratings yet
ML Unit 2
90 pages
3.4.standard Normal Distribution Exercise
No ratings yet
3.4.standard Normal Distribution Exercise
2 pages
3.4.standard Normal Distribution Exercise
No ratings yet
3.4.standard Normal Distribution Exercise
2 pages
Standard Normal Distribution: Background Task 1 Task 2 Task 3
No ratings yet
Standard Normal Distribution: Background Task 1 Task 2 Task 3
2 pages
Module III
No ratings yet
Module III
9 pages
Data Mining Lab Guide
No ratings yet
Data Mining Lab Guide
58 pages
Example Data Mining
No ratings yet
Example Data Mining
4 pages
Machine Learning
No ratings yet
Machine Learning
25 pages
Sigma Notation: Mean and Variance: Video Companion
No ratings yet
Sigma Notation: Mean and Variance: Video Companion
4 pages
S1 Cheat Sheet
No ratings yet
S1 Cheat Sheet
9 pages
3.4.standard Normal Distribution Exercise
No ratings yet
3.4.standard Normal Distribution Exercise
8 pages
Understanding Normal Distribution
No ratings yet
Understanding Normal Distribution
10 pages
Ma113-Chapter 5
No ratings yet
Ma113-Chapter 5
9 pages
Additional Notes Practice Exam
No ratings yet
Additional Notes Practice Exam
8 pages
5 Preprocessing
No ratings yet
5 Preprocessing
44 pages
Data Preparation.
No ratings yet
Data Preparation.
36 pages
Scaling Techniques
No ratings yet
Scaling Techniques
30 pages
2023-Me-114 (Aes Cep)
No ratings yet
2023-Me-114 (Aes Cep)
9 pages
Step 06 - Data Preprocessing
No ratings yet
Step 06 - Data Preprocessing
10 pages
WeWork Collapse
No ratings yet
WeWork Collapse
2 pages
Analyst
No ratings yet
Analyst
4 pages
ORM Life Cycle
No ratings yet
ORM Life Cycle
8 pages
Untitled Report
No ratings yet
Untitled Report
1 page
View Registraion Form - Employment Portal
No ratings yet
View Registraion Form - Employment Portal
1 page
Audit Interview Questions: 1. What Is Assertions?
100% (1)
Audit Interview Questions: 1. What Is Assertions?
4 pages
Public Announcement
No ratings yet
Public Announcement
1 page

Conversation Normalization

Uploaded by

Conversation Normalization

Uploaded by

Why do we need to use standard error of mean instead of standard deviation?

estimating the mean of a population from a sample.

- SD measures the spread of individual data points in a sample.

- SD = sqrt(sum((X - mean)^2) / (N - 1))

Heights of students: [160, 165, 170, 175, 180]

SD approximately 7.91 cm, SEM approximately 3.54 cm

Why is the normal distribution important in data science?

1. Many real-world datasets (e.g., heights, IQ scores) are normally distributed.

2. Many statistical tests assume normality (t-tests, ANOVA, regression).

3. Central Limit Theorem ensures sample means follow normal distribution.

4. Normalization methods (Z-score scaling) improve model performance.

5. Outlier detection (3 standard deviations from mean).

6. Probabilities & decision-making based on normal distribution.

7. Many ML models assume normality (Naïve Bayes, linear regression).

How to normalize data?

Formula: X_norm = (X - X_min) / (X_max - X_min)

2. Z-Score Standardization: Centers data with mean 0, std 1.

Formula: X_std = (X - mean) / std

3. Robust Scaling: Uses median & IQR (good for outliers).

4. Log Transformation: Converts skewed data.

5. Power Transformation (Box-Cox, Yeo-Johnson): Normalizes skewed data.

6. Decimal Scaling: Moves decimal point based on max value.

- Min-Max: Good for bounded data (0-1).

- Z-Score: Best when data is normally distributed.

- Robust: Best when data has outliers.

- Log & Power: Useful for skewed distributions.

- Normalization improves consistency across features in ML models.

- Choose a method based on data distribution and outliers.

You might also like