0% found this document useful (0 votes)

78 views3 pages

Data Mining Basics for Students

This document provides an overview of key concepts in data mining and analytics including: - Passive and active approaches to data mining including clustering, classification, and model construction. - Common data types and parameters such as ordered numeric data, time series data, and missing/hidden values. - Statistical concepts like probability distributions, mean, correlation, and outliers. - Similarity and distance measures to quantify relationships between data points including Euclidean, Manhattan, and Mahalanobis distances. - Dimensionality reduction techniques like principal component analysis, factor analysis, and multidimensional scaling.

Uploaded by

Yaksh Shah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

78 views3 pages

Data Mining Basics for Students

Uploaded by

Yaksh Shah

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOC, PDF, TXT or read online on Scribd

You are on page 1/ 3

Data Mining Lecture 1 – summary

0. Introduction
From data to information
Data mining relates to the area of application
Passive: Observing relations
Active: Finding the underlying model
Passive: Clustering, Classification
Active: Passive + Model construction + parameter estimation

1. Example: PCB production

 Normalization and standardization
 Hidden parameters and missing values
 Input, output, and state parameters

2. Data as Sets of Observations

Parameters and Observations/Measurements
Ordered Data Sets and alphanumeric sets and lexicographic sets
Data is a set of ordered numeric data of n observations of d parameters
Dynamic Sets and Time series
sampling
Data Quality

3. Statistics
Uncertainty and Probability distributions: normal, uniform, Poisson, Bernouli, something
Normal distribution
Kolmogorov-Smirnov test
Multivariate sets
Mean
Mean-centered data
Correlation and correlation coefficient
Covariance matrix
Estimation
Outliers and the linear correlation coefficient
Transforming

4. Similarity and Distance

Measures for Similarity and Dissimilarity

How similar or dissimilar two data points are
sim(p,q) in [0,1]
sim(p,q) = sim(q,p)
sim(p,p) = 1
dissim also in [0,1] : dissim = 1 – sim

Distance measures and Metrics

Distance measured according to certain rule in the data space
dist(p,q) >= 0
if dist(p,q) = 0 then p = q
triangle-inequality: dist(p,q) <= dist(p,a) + dist(a,q)
notice that distance relates to the dissimilarity
a vector space with a distance definition is a metric space

Examples of Distances
Euclidean : distE(p,q)2 = (p1 – q1)2 + (p2 – q2)2 + … + (pn – qn)2
Manhattan: distM(p,q) = |p1 – q1| + |p2 – q2| + … + |pn – qn|
Max-norm: distmax(p,q) = max {|p1 – q1|, |p2 – q2|, …, |pn – qn| }
Notice the graphs of dist@(p,0) in IR2 for @ = Euclidean, Manhattan, max

Generalized p-norm
1/ d
 n d
p d    pi 
 i 1 
notice that for: d =2: ||p - q||d = Euclidean distance
for: d =1: ||p - q||d = Manhattan distance
for: d = ∞: ||p - q||d = Max-norm distance
normally d >= 1

Riemannian Metric
Let g be a definite non-negative matrix on IRd (i.e. all eigen values >= 0)
then g induces a Riemannian metric on the space:
2
p g
 p T gp

Involving peculiarities of the distribution

Let ρ be a probability distribution on a data space. Let m be the mean and C be the
covariance matrix associated to ρ :
C   (x  m)  (x)(x  m)
T
dx
then the Mahalanobis distance is defined as:
dist Mahal (x)  (x  m)C 1 ( x  m ) T
It give a measure for the distance of a data point x to the center of the distribution.
Notice that in the mean-centered space the Mahalanobis-distance is a Riemannian
norm with metric g = C-1.

Similarity and Distance

Notice that we can define the similarity between two data points p and q as some
function f: sim(p,q) = f(dist(p,q)). Examples are:
f(d) = 1/(1 + d/L)
f(d) = exp(-d/L)
f(d) = - d/L if d < L and f(d) = 0 if d >= L
where d = dist(p,q) and L is some characteristic length for the problem.

Correlation

5. Visualizing and Exploring Data

single variable-display:
 Histogram
 Cumulative distribution
* Kernel estimate
Two-variable representation
 Scatter plot
 Contour plot
Multiple-variable representation
 Scatter plot matrix
 Trelis plot
 Chernoff face

6. Dimension Reduction
Principal Components Analysis (PCA)
Find the principal directions in the data, and use them to reduce the number of dimensions of
the set by representing the data in linear combinations of the principal components.
Works best for multivariate data. Finds the m < d eigen-vectors of the covariance matrix with
the largest eigen-values. These eigen-vectors are the principal components. Decompose the
data in these principal components and thus obtain as more concise data set.
Caution1: Depends on the normalization of the data! Ideal for data with equal units.
Caution2: works only in linear relations between the parameters
Caution3: valuable information can be lost in pca

Factor Analysis
Represent data with fewer variables
Not invariant for transformations: multiple equivalent solutions
Widely used esp. in alpha-world and medicine

Multidimensional scaling
Equivalent to PCA, and also in case there are non-linear relations between the parameters.
Input: similarity- or distance-map between the data-points. Output: a 2D- (or even higher D)
map of the data points.

Kohonen SO feature map

(Will be addressed later) Input: distance or similarity-map, Output: a 2D- (or even higher D)
map of the data points.

Chapter - 2 Data Mining
No ratings yet
Chapter - 2 Data Mining
21 pages
02data Part4
No ratings yet
02data Part4
28 pages
Lec 3
No ratings yet
Lec 3
60 pages
Lecture 4
No ratings yet
Lecture 4
33 pages
Lec 5
No ratings yet
Lec 5
24 pages
9-2 Data Analysis and Pre-Processing Part 2 PDF
No ratings yet
9-2 Data Analysis and Pre-Processing Part 2 PDF
27 pages
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
No ratings yet
Mbict 111 - 162 - 2021 - 11 - 14032021 - 3236
30 pages
Basic Statistical Descriptions of Data
No ratings yet
Basic Statistical Descriptions of Data
26 pages
Mod 4 Types of Data in Cluster Analysis
No ratings yet
Mod 4 Types of Data in Cluster Analysis
31 pages
Pattern Recognition - Clustering - Classification
No ratings yet
Pattern Recognition - Clustering - Classification
177 pages
DMi 03 Proximity
No ratings yet
DMi 03 Proximity
9 pages
Data Similarity
0% (1)
Data Similarity
18 pages
2 2 Data
No ratings yet
2 2 Data
27 pages
DWDM AR16 Unit 1.2
No ratings yet
DWDM AR16 Unit 1.2
14 pages
Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2
100% (1)
Data Mining: Data: Lecture Notes For Chapter 2 Lecture Notes For Chapter 2
16 pages
Data Science: Department of Computer Science & Engineering
No ratings yet
Data Science: Department of Computer Science & Engineering
31 pages
DMi 03-Proximity
No ratings yet
DMi 03-Proximity
51 pages
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
No ratings yet
Introduction To Machine Learning: K-Nearest Neighbor Algorithm
25 pages
Lecture 2. Similarity Measures For Cluster Analysis
No ratings yet
Lecture 2. Similarity Measures For Cluster Analysis
31 pages
02 Tinh Khoang Cach - Compatibility Mode
No ratings yet
02 Tinh Khoang Cach - Compatibility Mode
14 pages
Similarty and Dissimilarity
No ratings yet
Similarty and Dissimilarity
11 pages
ML Co4 Session 29
No ratings yet
ML Co4 Session 29
36 pages
Data Scaling and Statistical Methods
No ratings yet
Data Scaling and Statistical Methods
4 pages
2 Similarity Disimilarity Measure
No ratings yet
2 Similarity Disimilarity Measure
35 pages
Slides of Lecture 2 of CS3319 SJTU
No ratings yet
Slides of Lecture 2 of CS3319 SJTU
35 pages
Lec09 466 PDF
No ratings yet
Lec09 466 PDF
5 pages
Formulas at A Glance - IDS
No ratings yet
Formulas at A Glance - IDS
5 pages
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
No ratings yet
18CSE397T - Computational Data Analysis Unit - 3: Session - 8: SLO - 2
4 pages
Clustering Lecture 1: Basics: Jing Gao
No ratings yet
Clustering Lecture 1: Basics: Jing Gao
62 pages
03 - Data Mining
No ratings yet
03 - Data Mining
37 pages
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
No ratings yet
Source: Books by Tan, Steinbach, Kumar Han, Kamber & Pei Evans Dinesh Kumar + Experiential Knowledge
26 pages
DS5 Statistics
No ratings yet
DS5 Statistics
67 pages
Chapter 2: Getting To Know Your Data
No ratings yet
Chapter 2: Getting To Know Your Data
30 pages
05 KNN
No ratings yet
05 KNN
49 pages
Unit 1 Ganeshk e
No ratings yet
Unit 1 Ganeshk e
24 pages
Ruiz Modified I2ml3e Chap6
No ratings yet
Ruiz Modified I2ml3e Chap6
38 pages
02 Data
No ratings yet
02 Data
35 pages
I2ml3e Chap6
No ratings yet
I2ml3e Chap6
37 pages
Data Mining: Clustering Essentials
No ratings yet
Data Mining: Clustering Essentials
18 pages
5 Anomaly Detection Annotated Section 100 300
No ratings yet
5 Anomaly Detection Annotated Section 100 300
48 pages
Data Science Cheatsheet
No ratings yet
Data Science Cheatsheet
5 pages
16 dm2 Dimred 2022 23
No ratings yet
16 dm2 Dimred 2022 23
49 pages
Chapter 2
No ratings yet
Chapter 2
70 pages
4 - Basics in Statistics and Linear Algebra
No ratings yet
4 - Basics in Statistics and Linear Algebra
7 pages
DM Lab 02
No ratings yet
DM Lab 02
12 pages
Unit 2h
No ratings yet
Unit 2h
39 pages
DM-Knowing Your Data
No ratings yet
DM-Knowing Your Data
56 pages
Introduction To Data Science: Tom A S Horv Ath
No ratings yet
Introduction To Data Science: Tom A S Horv Ath
39 pages
DWM Unit-Vi
No ratings yet
DWM Unit-Vi
30 pages
Lecture 10
No ratings yet
Lecture 10
26 pages
Lecture 5
No ratings yet
Lecture 5
53 pages
K Nearest Neighbour - Algorithm
No ratings yet
K Nearest Neighbour - Algorithm
29 pages
CH 2
No ratings yet
CH 2
121 pages
Data Mining & Analysis Guide
No ratings yet
Data Mining & Analysis Guide
148 pages
CS361 FA23 Lec2 Post
No ratings yet
CS361 FA23 Lec2 Post
67 pages
TE IT DMBI Module2 Data Preprocessing L8-L11
No ratings yet
TE IT DMBI Module2 Data Preprocessing L8-L11
73 pages
RL3.2 Data Similarity 1
No ratings yet
RL3.2 Data Similarity 1
17 pages
PCA for Image Processing Students
No ratings yet
PCA for Image Processing Students
26 pages
Cluster Analysis and DBSCAN
No ratings yet
Cluster Analysis and DBSCAN
44 pages
Cost Control's Impact on Malawi Manufacturing Profitability
No ratings yet
Cost Control's Impact on Malawi Manufacturing Profitability
27 pages
Measures of Central Tendency and Dispersion
No ratings yet
Measures of Central Tendency and Dispersion
13 pages
Project Quality Control Guide
No ratings yet
Project Quality Control Guide
9 pages
Unit 5 Non-Parametric Tests Parametric Tests
No ratings yet
Unit 5 Non-Parametric Tests Parametric Tests
5 pages
Smart Hub Consultancy RFP
No ratings yet
Smart Hub Consultancy RFP
34 pages
FIN5000 Group 10 Assignment
No ratings yet
FIN5000 Group 10 Assignment
4 pages
Intro To Big Data Analytics
No ratings yet
Intro To Big Data Analytics
14 pages
Data Analytics for Finance Pros
No ratings yet
Data Analytics for Finance Pros
8 pages
Module3-Similarity-based Learning-11Mar2024
No ratings yet
Module3-Similarity-based Learning-11Mar2024
34 pages
Correlation and Regression Handout 1
No ratings yet
Correlation and Regression Handout 1
7 pages
Middlesex Student Market Study
No ratings yet
Middlesex Student Market Study
27 pages
(Smtebooks - Com) Big Data Processing With Hadoop 1st Edition
100% (1)
(Smtebooks - Com) Big Data Processing With Hadoop 1st Edition
255 pages
Stats With R
No ratings yet
Stats With R
103 pages
Steyn - Poligraafverslag
No ratings yet
Steyn - Poligraafverslag
160 pages
Business Analyst Mastery Course
No ratings yet
Business Analyst Mastery Course
32 pages
Answer For Assignment I For Biostatistics Course 2024 PG1 1
No ratings yet
Answer For Assignment I For Biostatistics Course 2024 PG1 1
27 pages
PreTest & Post Test
No ratings yet
PreTest & Post Test
3 pages
QB - Business Forecasting
No ratings yet
QB - Business Forecasting
8 pages
24 STRENGTHSANDLIMITATIONS-FernandoAlmeida
No ratings yet
24 STRENGTHSANDLIMITATIONS-FernandoAlmeida
20 pages
Chapter 3 and 4: Numerical Descriptive Measures: X N X WX P L N
No ratings yet
Chapter 3 and 4: Numerical Descriptive Measures: X N X WX P L N
7 pages
Quarter 4 Module 1 Day1
No ratings yet
Quarter 4 Module 1 Day1
5 pages
IA 2023 Rubric
No ratings yet
IA 2023 Rubric
2 pages
Urban Management and Governance in Agege PDF
No ratings yet
Urban Management and Governance in Agege PDF
142 pages
Inquires Investigations Immersion G 12 q1 Mod5 Understanding To Collect Data v3
No ratings yet
Inquires Investigations Immersion G 12 q1 Mod5 Understanding To Collect Data v3
25 pages
Principal Component Analysis
No ratings yet
Principal Component Analysis
61 pages
Viva Data Mining Lab
No ratings yet
Viva Data Mining Lab
11 pages
English & Research Exams
No ratings yet
English & Research Exams
4 pages
Nursing Research 2-Final
No ratings yet
Nursing Research 2-Final
18 pages
University Institute of Computing: Big Data Analytics 22CAH-782
No ratings yet
University Institute of Computing: Big Data Analytics 22CAH-782
27 pages
AI and Data Scientist Roadmap
No ratings yet
AI and Data Scientist Roadmap
7 pages

Data Mining Basics for Students

Uploaded by

Data Mining Basics for Students

Uploaded by

Data Mining Lecture 1 – summary

1. Example: PCB production

2. Data as Sets of Observations

4. Similarity and Distance

Measures for Similarity and Dissimilarity

Distance measures and Metrics

Involving peculiarities of the distribution

Similarity and Distance

5. Visualizing and Exploring Data

Kohonen SO feature map

You might also like