0% found this document useful (0 votes)

44 views21 pages

01 - Data Mining Introduction

Uploaded by

salehaalsaleh602

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

44 views21 pages

01 - Data Mining Introduction

Uploaded by

salehaalsaleh602

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 21

Introduction

DATA MINING

Dr. Mohammad Alsaudi

Why Data Mining?

The Explosive Growth of Data: from terabytes to petabytes

– Data collection and data availability
○ Automated data collection tools, database systems, Web,
computerized society.
– Major sources data generation
○ Web, e-commerce, transactions, stocks, …
○ Remote sensing, bioinformatics, scientific simulation, etc
○ news, digital cameras, YouTube.

2
What Is Data Mining?

• Data mining (knowledge discovery from data)

Extraction of interesting ( previously unknown and potentially
useful) patterns or knowledge from huge amount of data.
– Data mining: a misnomer?

• Alternative names:
– Knowledge discovery (mining) in databases (KDD), knowledge
extraction, data/pattern analysis, data archeology, data dredging,
information harvesting, business intelligence, etc.
• Is everything “data mining”?
– Simple search and query processing.

3
Knowledge discovery from databases
• This is a view from typical database systems
and data warehousing communities
• Data mining plays an essential role in the
knowledge discovery process

Databases 4
Example: A Web Mining Framework

• Web mining usually involves

– Data cleaning
– Data integration from multiple sources
– Warehousing the data A data warehouse is an electronic system
for storing information in a manner that is secure, reliable, easy
to retrieve, and easy to manage.
– Data cube construction
– Data selection for data mining
– Data mining
– Presentation of the mining results
– Patterns and knowledge to be used or stored into knowledge-
base
5
Data Mining in Business Intelligence

End User
Increasing potential Decisio
to support n
business decisions
Making
Data Presentation Business
Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
6
KDD Process: A Typical View from ML and
Statistics
• This is a view from typical machine learning and statistics communities

Input Data Data Pre- Data Post-

Processing Mining Processin
g

Data integration Pattern discovery Pattern evaluation

Normalization Association & Pattern selection
correlation
Feature selection Classification Pattern
Dimension reduction interpretation
Clustering
Outlier analysis Pattern visualization
…………

7
Multi-Dimensional View of Data Mining

• Data to be mined
– Database data (extended-relational, object-oriented,
heterogeneous, legacy), transactional data, stream, time-series,
sequence, text and web, multi-media, graphs & social and
information networks.
• Knowledge to be mined (or: Data mining functions)
– Characterization, discrimination, association, classification,
clustering, trend/deviation, outlier analysis, etc.
– Descriptive vs. predictive data mining ?
– What is difference between predictive and descriptive model?
A descriptive mining will exploit the past data that are stored in
databases and provide you with the accurate report. In a
Predictive mining, it identifies patterns found in past and
transactional data to find risks and future outcomes.
8
Multi-Dimensional View of Data Mining

• Techniques utilized
– Warehouse , machine learning, statistics, pattern
recognition, visualization, high-performance, etc.
• Applications adapted
– telecommunication, banking, fraud analysis, bio-data
mining, stock market analysis, text mining, Web
mining, etc.

9
Data Mining: On What Kinds of Data?

• Database-oriented data sets and applications

– Relational database, data warehouse, transactional database

• Advanced data sets and advanced applications

– Data streams and sensor data
– Time-series data, temporal data, sequence data (incl. bio-sequences)
– Structure data, graphs, social networks and multi-linked data
– Object-relational databases
– Heterogeneous databases and legacy databases
– Spatial data and spatiotemporal data
– Multimedia database
– Text databases
– The World-Wide Web
10
Data Mining Function: (1) Generalization

• Information integration and data warehouse construction

– Data cleaning, transformation, integration, and multidimensional
data model
• Data cube technology
– Scalable methods for computing (i.e., materializing)
multidimensional aggregates
– OLAP (online analytical processing)

• Multidimensional concept description: Characterization

and discrimination
– Generalize, summarize, and contrast data characteristics, e.g.,
dry vs. wet region
11
Data Mining Function: (2) Association and
Correlation Analysis

• Frequent patterns (or frequent itemsets)

– What items are frequently purchased together in your Walmart?

• Association, correlation vs. causality

– A typical association rule
○ Diaper  Beer [0.5%, 75%] (support, confidence)
– Are strongly associated items also strongly correlated?

• How to mine such patterns and rules efficiently in large

datasets?
• How to use such patterns for classification, clustering,
and other applications?
12
Data Mining Function: (3) Classification

• Classification and label prediction

– Construct models (functions) based on some training examples
– Describe and distinguish classes or concepts for future prediction
○ E.g., classify countries based on (climate), or classify cars based
on (gas mileage)
– Predict some unknown class labels
• Typical methods
– Decision trees, naïve Bayesian classification, support vector
machines, neural networks, rule-based classification, pattern-based
classification, logistic regression, …
• Typical applications:
– Credit card fraud detection, direct marketing, classifying stars,
diseases, web-pages, …
13
Data Mining Function: (4) Cluster Analysis

• Unsupervised learning (i.e., Class label is unknown)

• Group data to form new categories (i.e., clusters), e.g.,
cluster houses to find distribution patterns
• Principle: Maximizing intra-class similarity & minimizing
interclass similarity
• Many methods and applications

14
Data Mining Function: (5) Outlier Analysis

• Outlier analysis
– Outlier: A data object that does not comply with the general
behavior of the data
– Noise or exception? ―
– Methods: by product of clustering or regression analysis, …
– Useful in fraud detection, rare events analysis

15
Time and Ordering: Sequential Pattern,
Trend and Evolution Analysis
• Sequence, trend and evolution analysis
– Trend, time-series, and deviation analysis: e.g., regression and
value prediction
– Sequential pattern mining
○ e.g., first buy digital camera, then buy large SD memory
cards
– Periodicity analysis
– Motifs and biological sequence analysis
○ Approximate and consecutive motifs
– Similarity-based analysis
• Mining data streams
– Ordered, time-varying, potentially infinite, data streams
16
Structure and Network Analysis

• Graph mining
– Finding frequent subgraphs (e.g., chemical compounds), trees (XML),
substructures (web fragments)
• Information network analysis
– Social networks: actors (objects, nodes) and relationships (edges)
○ e.g., author networks in CS, terrorist networks
– Multiple heterogeneous networks
○ A person could be multiple information networks: friends, family,
classmates, …
– Links carry a lot of semantic information: Link mining
• Web mining
– Web is a big information network: from PageRank to Google
– Analysis of Web information networks
○ Web community discovery, opinion mining, usage mining, …
17
Evaluation of Knowledge

• Are all mined knowledge interesting?

– One can mine tremendous amount of “patterns” and knowledge
– Some may fit only certain dimension space (time, location, …)
– Some may not be representative, may be transient, …

• Evaluation of mined knowledge → directly mine only

interesting knowledge?
– Descriptive vs. predictive
– Coverage
– Typicality vs. novelty
– Accuracy
– Timeliness
– … 18
Data Mining: Confluence of Multiple Disciplines

Machine Pattern Statistics

Learning Recognition

Applications Data Mining Visualization

Algorithm Database High-Performance

Technology Computing

19
Applications of Data Mining

• Web page analysis: from web page classification, clustering to PageRank &
HITS algorithms
• Collaborative analysis & recommender systems
• Basket data analysis to targeted marketing
• Biological and medical data analysis: classification, cluster analysis
(microarray data analysis), biological sequence analysis, biological
network analysis
• Data mining and software engineering (e.g., IEEE Computer, Aug. 2009
issue)
• From major dedicated data mining systems/tools (e.g., SAS, MS SQL-
Server Analysis Manager, Oracle Data Mining Tools) to invisible data
mining
20
Major Issues in Data Mining (2)

• Efficiency and Scalability

– Efficiency and scalability of data mining algorithms
– Parallel, distributed, stream, and incremental mining methods
• Diversity of data types
– Handling complex types of data
– Mining dynamic, networked, and global data repositories
• Data mining and society
– Social impacts of data mining
– Privacy-preserving data mining
– Invisible data mining
21

21IS503 UnitII LM5
No ratings yet
21IS503 UnitII LM5
20 pages
Lecture 1.1.1 1.1.2
No ratings yet
Lecture 1.1.1 1.1.2
32 pages
Unit 1: Data Warehousing & Data Mining
No ratings yet
Unit 1: Data Warehousing & Data Mining
54 pages
What Is Data Mining?
No ratings yet
What Is Data Mining?
35 pages
Chapter 1 DM
No ratings yet
Chapter 1 DM
20 pages
01 Intro
No ratings yet
01 Intro
29 pages
01 Intro
No ratings yet
01 Intro
23 pages
01 Intro 1
No ratings yet
01 Intro 1
33 pages
02-Introduction To Data Mining
No ratings yet
02-Introduction To Data Mining
40 pages
Week 02 PDF
No ratings yet
Week 02 PDF
39 pages
Data Mining:: Concepts and Techniques
No ratings yet
Data Mining:: Concepts and Techniques
28 pages
Inf 444e - Datamining N Advanced Databases Introduction 2019
No ratings yet
Inf 444e - Datamining N Advanced Databases Introduction 2019
32 pages
01 Introduction
No ratings yet
01 Introduction
36 pages
Chapter 1. Introduction
No ratings yet
Chapter 1. Introduction
323 pages
Data Mining Concepts
No ratings yet
Data Mining Concepts
35 pages
Chapter 1 Intro
No ratings yet
Chapter 1 Intro
23 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
37 pages
Introduction
No ratings yet
Introduction
46 pages
Module1 IntroToDataMining
No ratings yet
Module1 IntroToDataMining
36 pages
01 - Introduction To Datamining
No ratings yet
01 - Introduction To Datamining
19 pages
01 Intro
No ratings yet
01 Intro
40 pages
DWDM LS1 Fall 24 25
No ratings yet
DWDM LS1 Fall 24 25
42 pages
Chapter - 1
No ratings yet
Chapter - 1
22 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
25 pages
Data Analysis-2
No ratings yet
Data Analysis-2
41 pages
Data Mining for Analysts
No ratings yet
Data Mining for Analysts
17 pages
01 Intro
No ratings yet
01 Intro
28 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Data Mining & Warehousing Guide
No ratings yet
Data Mining & Warehousing Guide
23 pages
Comprehensive Guide to Data Mining
No ratings yet
Comprehensive Guide to Data Mining
32 pages
Intro Data Mining
No ratings yet
Intro Data Mining
51 pages
Day-2 BE-VIII DMDW (Into. Contd..)
No ratings yet
Day-2 BE-VIII DMDW (Into. Contd..)
23 pages
Lecture 01 11jan
No ratings yet
Lecture 01 11jan
29 pages
Combine 056
No ratings yet
Combine 056
57 pages
Intro to Data Mining Concepts
No ratings yet
Intro to Data Mining Concepts
50 pages
01 Intro
No ratings yet
01 Intro
22 pages
Data Mining: Concepts and Techniques
No ratings yet
Data Mining: Concepts and Techniques
27 pages
Data Mining Concepts & Techniques Guide
100% (2)
Data Mining Concepts & Techniques Guide
27 pages
LECTURE 1 Data Mining
No ratings yet
LECTURE 1 Data Mining
41 pages
Data Mining
No ratings yet
Data Mining
88 pages
Chap1 Introduction
No ratings yet
Chap1 Introduction
21 pages
Intro of Data Mining
No ratings yet
Intro of Data Mining
27 pages
Introduction
No ratings yet
Introduction
27 pages
Unit 1
No ratings yet
Unit 1
148 pages
Module 1
No ratings yet
Module 1
40 pages
1712060004 (1)
No ratings yet
1712060004 (1)
25 pages
Data Mining 1
No ratings yet
Data Mining 1
39 pages
VIPDMTheory Chapter 1
No ratings yet
VIPDMTheory Chapter 1
25 pages
Data Mining Basics for Beginners
No ratings yet
Data Mining Basics for Beginners
59 pages
Data Mining Essentials for Analysts
No ratings yet
Data Mining Essentials for Analysts
35 pages
Data Mining Introduction
No ratings yet
Data Mining Introduction
32 pages
Data Mining Essentials for Students
No ratings yet
Data Mining Essentials for Students
95 pages
01 Intro
No ratings yet
01 Intro
41 pages
01 Intro
No ratings yet
01 Intro
26 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Concepts and Techniques: - Chapter 1
No ratings yet
Concepts and Techniques: - Chapter 1
39 pages
Data Mining From Scratch
No ratings yet
Data Mining From Scratch
17 pages
Lecture 1
No ratings yet
Lecture 1
37 pages
Major Issues in Data Mining
75% (4)
Major Issues in Data Mining
45 pages
Introduction To The Apriori Algorithm
No ratings yet
Introduction To The Apriori Algorithm
10 pages
AI Ethics What It Is and Why It Matters
No ratings yet
AI Ethics What It Is and Why It Matters
9 pages
First Order Logic - Lecture 1
No ratings yet
First Order Logic - Lecture 1
13 pages
Lab3 Data Base
No ratings yet
Lab3 Data Base
2 pages
Waqar Ansari's RISE QM Ch#14
No ratings yet
Waqar Ansari's RISE QM Ch#14
20 pages
Geothermal From Oil Wells
No ratings yet
Geothermal From Oil Wells
7 pages
Practicle Java Sem 1 - Vikalp Sharma
No ratings yet
Practicle Java Sem 1 - Vikalp Sharma
3 pages
BMW R1200 GS - Touratech Catalog
100% (1)
BMW R1200 GS - Touratech Catalog
75 pages
Eclipse Control Flow Graph Plugin
No ratings yet
Eclipse Control Flow Graph Plugin
31 pages
Class X Annual Syllabus 2024-2025
No ratings yet
Class X Annual Syllabus 2024-2025
20 pages
Lecture 08 - Diffusion in Solids PDF
No ratings yet
Lecture 08 - Diffusion in Solids PDF
23 pages
Language & Linguistics Basics
No ratings yet
Language & Linguistics Basics
22 pages
Hibbeler S14 e CH 2 P 103
No ratings yet
Hibbeler S14 e CH 2 P 103
2 pages
DAA Lab Manual - 25042017
No ratings yet
DAA Lab Manual - 25042017
102 pages
Textile Forms' Computer Simulation Techniques
No ratings yet
Textile Forms' Computer Simulation Techniques
29 pages
COMSATS University Islamabad, Wah Campus: FINAL Examinations Fall-2020
No ratings yet
COMSATS University Islamabad, Wah Campus: FINAL Examinations Fall-2020
2 pages
DSA Notes Well Organised
No ratings yet
DSA Notes Well Organised
166 pages
W Sat Email Decoder Manual
No ratings yet
W Sat Email Decoder Manual
33 pages
Metals and Semiconductors
No ratings yet
Metals and Semiconductors
16 pages
Machine Design Problems & Solutions
No ratings yet
Machine Design Problems & Solutions
5 pages
MC Series Small PLC Programming Manual
No ratings yet
MC Series Small PLC Programming Manual
416 pages
Binaryhexaoctal
No ratings yet
Binaryhexaoctal
4 pages
Science 7 Week 1 - 2
100% (1)
Science 7 Week 1 - 2
6 pages
Naphtha Cracking For Light Olefins Production
No ratings yet
Naphtha Cracking For Light Olefins Production
5 pages
1 Mark Type (Statistics)
No ratings yet
1 Mark Type (Statistics)
13 pages
2023 Article 295
No ratings yet
2023 Article 295
32 pages
10th Grade Math Exam Questions
No ratings yet
10th Grade Math Exam Questions
3 pages
Permutations & Combinations MS
No ratings yet
Permutations & Combinations MS
19 pages
Academic Transcript: Geophysics Engineering
No ratings yet
Academic Transcript: Geophysics Engineering
1 page
Addisu Jagema
No ratings yet
Addisu Jagema
83 pages
Evaporation Crystallization
0% (1)
Evaporation Crystallization
53 pages
Eaton Fire Devices Vads Introduction To En54 23 2013
No ratings yet
Eaton Fire Devices Vads Introduction To En54 23 2013
20 pages
Lecture 16 Hao
No ratings yet
Lecture 16 Hao
56 pages
Speed /frequency / Wavelength: Equation
No ratings yet
Speed /frequency / Wavelength: Equation
3 pages

01 - Data Mining Introduction

Uploaded by

01 - Data Mining Introduction

Uploaded by

Introduction

Dr. Mohammad Alsaudi

The Explosive Growth of Data: from terabytes to petabytes

• Data mining (knowledge discovery from data)

• Web mining usually involves

Data Preprocessing/Integration, Data Warehouses

Input Data Data Pre- Data Post-

Data integration Pattern discovery Pattern evaluation

• Database-oriented data sets and applications

• Advanced data sets and advanced applications

• Information integration and data warehouse construction

• Multidimensional concept description: Characterization

• Frequent patterns (or frequent itemsets)

• Association, correlation vs. causality

• How to mine such patterns and rules efficiently in large

• Classification and label prediction

• Unsupervised learning (i.e., Class label is unknown)

• Are all mined knowledge interesting?

• Evaluation of mined knowledge → directly mine only

Machine Pattern Statistics

Applications Data Mining Visualization

Algorithm Database High-Performance

• Efficiency and Scalability

You might also like