Unsupervised Learning Clustering Cribsheet

Uploaded by

Mahima Gurunathbg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views2 pages

Unsupervised Learning Clustering Cribsheet

Uploaded by

Mahima Gurunathbg

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

Unsupervised Learning & Clustering — Exam Crib

Sheet

Why Unsupervised?
• Labeling large datasets is costly.
• Useful for data mining and feature extraction.
• Handles evolving patterns over time.
• Reveals hidden data structure.

Mixture Models & Identifiability

• Model: p(x) = Σ P(ωj) p(x | θj)
• Identifiability: unique θ from p(x). If multiple θ → same p(x), can’t recover true parameters.
• Gaussian mixtures usually identifiable, but label switching possible.

Parameter Estimation
• Maximum Likelihood (ML): maximize log L(θ).
• EM Algorithm: E-step: compute responsibilities; M-step: update parameters.
• Bayesian: use prior p(θ) + data; better with small samples, reduces overfitting.

Clustering Algorithms
• K-Means: minimizes SSE; assumes spherical, equal-size clusters.
• Hierarchical: agglomerative (merge) or divisive (split); dendrogram output.
• Graph-Theoretic: clusters via connectivity in similarity graph; handles non-convex shapes.

Similarity Measures
• Metric: Euclidean, Manhattan, Minkowski.
• Non-metric: Inner product, Tanimoto.
• Normalize features for invariance.

Choosing Number of Clusters

• Elbow method (SSE drop-off).
• Silhouette score (compactness & separation).
• BIC/AIC for mixture models.
• Stability across bootstrap samples.

Key Pitfalls
• Singularities in ML (component collapse).
• Local optima in EM/K-means.
• Outliers distort distance-based methods.
• High-dimensional data reduces distance meaning.
Practical Tips
• Scale features; smart init (k-means++).
• Multiple restarts for robustness.
• Validate before interpretation.
• Combine with dimensionality reduction if needed.

Method Comparison
Method Strengths Weaknesses
K-Means Fast, simple, scalable Assumes spherical, equal-size clusters
GMM (EM) Elliptical clusters, soft assignments Sensitive to init, can collapse
Hierarchical Dendrogram, no preset k O(n^2) complexity
Graph/Spectral Non-convex shapes Needs similarity matrix

Chapter 04 - 1731894685
No ratings yet
Chapter 04 - 1731894685
17 pages
Data Analyst
No ratings yet
Data Analyst
5 pages
UnSupervised ML
No ratings yet
UnSupervised ML
17 pages
U5 Unsupervised Learning
No ratings yet
U5 Unsupervised Learning
15 pages
Unsupervised Learning Guide
No ratings yet
Unsupervised Learning Guide
5 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
21 pages
7 - Kmeans 5-11-24
No ratings yet
7 - Kmeans 5-11-24
51 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
6 pages
Unsupervised Learning - Overview
No ratings yet
Unsupervised Learning - Overview
6 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
8 pages
Unsupervised Lec
No ratings yet
Unsupervised Lec
12 pages
Unsupervised Machine Learning For Overview
No ratings yet
Unsupervised Machine Learning For Overview
3 pages
Unsupervised Learning Lecture Notes
No ratings yet
Unsupervised Learning Lecture Notes
1 page
Unit - 1-1
No ratings yet
Unit - 1-1
35 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
14 pages
Assignment 3
No ratings yet
Assignment 3
22 pages
Chapter 8
No ratings yet
Chapter 8
15 pages
Lecture-3 Big Data
No ratings yet
Lecture-3 Big Data
16 pages
Unsupervised Machine Learning
No ratings yet
Unsupervised Machine Learning
16 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
15 pages
Aprendizaje NO Supervisado Summary
No ratings yet
Aprendizaje NO Supervisado Summary
5 pages
New Doc 09-30-2024 20.37
No ratings yet
New Doc 09-30-2024 20.37
6 pages
Module 3
No ratings yet
Module 3
17 pages
Unsupervisedlearning
No ratings yet
Unsupervisedlearning
11 pages
Chapter 3 Unsupervised Machine Learning
No ratings yet
Chapter 3 Unsupervised Machine Learning
41 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
4 pages
Ai - W8L15
No ratings yet
Ai - W8L15
44 pages
Unsupervised Learning: Harsha Vardhan Reddy Burri
No ratings yet
Unsupervised Learning: Harsha Vardhan Reddy Burri
10 pages
What About Machine Learning Supervised Learning (Classification - Regression) Unsupervised Learning
No ratings yet
What About Machine Learning Supervised Learning (Classification - Regression) Unsupervised Learning
2 pages
Mathematics 11 03063
No ratings yet
Mathematics 11 03063
17 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
9 pages
Supervised vs. Unsupervised Learning: A Comparative Overview
No ratings yet
Supervised vs. Unsupervised Learning: A Comparative Overview
8 pages
Unsupervised Learning
No ratings yet
Unsupervised Learning
43 pages
9 Som
No ratings yet
9 Som
32 pages
L05 Unsupervised Learning - Overview
No ratings yet
L05 Unsupervised Learning - Overview
16 pages
ML Unit4
No ratings yet
ML Unit4
19 pages
Kmeans
No ratings yet
Kmeans
74 pages
2GP ML Unsupervised Learning
No ratings yet
2GP ML Unsupervised Learning
3 pages
Machine Learning File
No ratings yet
Machine Learning File
7 pages
04-FSSR DS610 2024 2025T1 Kmeans
No ratings yet
04-FSSR DS610 2024 2025T1 Kmeans
57 pages
Unit 2 Unsupervised Learning
No ratings yet
Unit 2 Unsupervised Learning
86 pages
Supervised Learning
No ratings yet
Supervised Learning
4 pages
Unit 3 Supervised Learning
No ratings yet
Unit 3 Supervised Learning
89 pages
CP4252 ML Unit-Iii
No ratings yet
CP4252 ML Unit-Iii
18 pages
Unit 4 Notes
No ratings yet
Unit 4 Notes
17 pages
Supervised vs Unsupervised Learning
No ratings yet
Supervised vs Unsupervised Learning
19 pages
Unit 2 R Programming
No ratings yet
Unit 2 R Programming
15 pages
ML & DA Unit3
No ratings yet
ML & DA Unit3
25 pages
Chapter7 Unit V2024 Up
No ratings yet
Chapter7 Unit V2024 Up
58 pages
Assignment 2
No ratings yet
Assignment 2
8 pages
Unit 5
No ratings yet
Unit 5
40 pages
DATA ANAYTICS Notes UNIT4
100% (1)
DATA ANAYTICS Notes UNIT4
45 pages
Unit 4
No ratings yet
Unit 4
53 pages
Module 6.1
No ratings yet
Module 6.1
42 pages
Supervised vs Unsupervised Learning
No ratings yet
Supervised vs Unsupervised Learning
46 pages
Unit 4
No ratings yet
Unit 4
26 pages
Unsupervised Machine Learning in Python
100% (2)
Unsupervised Machine Learning in Python
89 pages

Unsupervised Learning Clustering Cribsheet

Uploaded by

Unsupervised Learning Clustering Cribsheet

Uploaded by

Unsupervised Learning & Clustering — Exam Crib

Mixture Models & Identifiability

Choosing Number of Clusters

You might also like