0% found this document useful (0 votes)

11 views5 pages

Unit 1

Dmw

Uploaded by

srgimt485

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

11 views5 pages

Unit 1

Dmw

Uploaded by

srgimt485

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

Unit 1

🔷 1. Big Data and Data Science

📌 Big Data:
Refers to extremely large datasets that traditional data-processing software can't handle.

Characterized by 5 Vs:

Volume: Large amount of data

Velocity: Speed of data in/out

Variety: Different types (text, images, video)

Veracity: Uncertainty of data

Value: Insights derived from data

📈 Diagram: 5 V's of Big Data

Volume
|
Variety -- Value
|
Velocity
|
Veracity

📌 Data Science:
Interdisciplinary field combining:

Statistics

Computer Science

Domain Knowledge

Uses data to derive insights, make predictions, and aid decision-making.

Example: Using transaction data to recommend products on Amazon.

---

🔷 2. Datafication - Current Landscape of Perspectives

Datafication: Converting various aspects of life into data (e.g., social media behavior, health
records).

Everything from emotions to business processes is now measurable.

Example: Fitbit tracks physical activities → Converts to data → Used for fitness insights.

📊 Current Perspective:
Social Media → Behavioral Analysis

IoT Devices → Smart Homes

Healthcare → Predictive Diagnosis

---

🔷 3. Statistical Inference - Populations and Samples

📌 Populations:
Entire group we're interested in studying.

Example: All diabetics in India.

📌 Samples:
Subset of the population used for analysis.

Example: 1,000 diabetics surveyed.

📈 Diagram:
Population
|________ Sample

---
🔷 4. Statistical Modeling, Probability Distributions, Fitting a Model
📌 Statistical Modeling:
Creating a mathematical model to represent real-world processes.

Helps in prediction and decision-making.

📌 Probability Distributions:
Shows the likelihood of all possible outcomes.

Types:

Discrete: Binomial, Poisson

Continuous: Normal, Exponential

📉 Normal Distribution:
Bell-shaped curve
/\
/ \__
/ \__

📌 Fitting a Model:
Process of choosing the best model (e.g., linear regression) that fits the data.

Example: Predicting house prices using square footage.

---

🔷 5. Intro to R (Programming Language)

R is a programming language used for statistical computing and graphics.

Popular for data analysis, visualization, and machine learning.

📌 Basic R Commands:
# Create vector
x <- c(1, 2, 3, 4)

# Summary statistics
summary(x)

# Plotting
plot(x)

---

🔷 6. Exploratory Data Analysis (EDA) and Data Science Process

📌 EDA:
First step in data analysis to understand data patterns.

Uses graphs, charts, summary statistics.

📊 Basic Tools:
Histograms: Frequency of values

Box Plots: Summary of distribution

Scatter Plots: Relation between two variables

📈 Diagram: Box Plot Components

Min | Q1 | Median | Q3 | Max
----|----|--------|----|----

Example: Exploring sales data before predicting future sales.

📌 Data Science Process:

1. Define Problem

2. Collect Data

3. Clean Data
4. EDA

5. Modeling

6. Evaluation

7. Deployment

🔁 Diagram:
[Collect] → [Clean] → [EDA] → [Model] → [Evaluate] → [Deploy]

---

🔷 7. Philosophy of EDA
Emphasizes letting data speak for itself.

Developed by John Tukey.

Focuses on:

Visual inspection

Discovering patterns

Detecting outliers

Hypothesis generation (not testing)

📌 Quote:
"EDA is detective work — not confirmation."

Module 1 - Introduction To Data Science
No ratings yet
Module 1 - Introduction To Data Science
3 pages
Unit 1 Ids Summary
No ratings yet
Unit 1 Ids Summary
7 pages
IDS (R22) U1 NotesRK 03092024
No ratings yet
IDS (R22) U1 NotesRK 03092024
22 pages
Untitled Document
No ratings yet
Untitled Document
4 pages
Data Science Fundamentals Detailed Notes
No ratings yet
Data Science Fundamentals Detailed Notes
31 pages
Intro To Data Science Study Guide
No ratings yet
Intro To Data Science Study Guide
2 pages
Full Detailed I Need
No ratings yet
Full Detailed I Need
7 pages
Data Science and Analytics Theory Complete
No ratings yet
Data Science and Analytics Theory Complete
11 pages
Data Science
No ratings yet
Data Science
3 pages
Ids Unit 1,2,3,4 & 5
No ratings yet
Ids Unit 1,2,3,4 & 5
117 pages
Ocs353dsf Unit Wise Notes
100% (2)
Ocs353dsf Unit Wise Notes
121 pages
MCS DS
No ratings yet
MCS DS
5 pages
UNIT I Single Topic Per Page
No ratings yet
UNIT I Single Topic Per Page
12 pages
Data Science R SLB
No ratings yet
Data Science R SLB
3 pages
MCS102 Module1 Detailed
No ratings yet
MCS102 Module1 Detailed
5 pages
19CS003 Handout
No ratings yet
19CS003 Handout
5 pages
FDSNotes
No ratings yet
FDSNotes
12 pages
Ids Mod2
No ratings yet
Ids Mod2
34 pages
BD4151 Foundations OF DATA Science BD4151 Foundations OF DATA Science
No ratings yet
BD4151 Foundations OF DATA Science BD4151 Foundations OF DATA Science
70 pages
Ivy - Data Science and Data Visualization Certification Course
100% (1)
Ivy - Data Science and Data Visualization Certification Course
10 pages
Data Science
No ratings yet
Data Science
3 pages
What Is Data Science Explain Big Data and Hype in Data Science.
No ratings yet
What Is Data Science Explain Big Data and Hype in Data Science.
8 pages
CSE 355 Data Science Lab Manual
No ratings yet
CSE 355 Data Science Lab Manual
20 pages
R Programming Roadmap
No ratings yet
R Programming Roadmap
5 pages
UNIT I Exam Preparation Notes
No ratings yet
UNIT I Exam Preparation Notes
2 pages
Data Science With Advanced Tableau Certification Course
No ratings yet
Data Science With Advanced Tableau Certification Course
9 pages
Data Science: A Comprehensive Guide
No ratings yet
Data Science: A Comprehensive Guide
5 pages
UNIT I Complete Notes
No ratings yet
UNIT I Complete Notes
5 pages
Data Sciences
No ratings yet
Data Sciences
4 pages
Learn Data Science Tutorial - Full Course For Beginners
No ratings yet
Learn Data Science Tutorial - Full Course For Beginners
2 pages
Summary DS231
No ratings yet
Summary DS231
11 pages
Data Science Fundamentals
No ratings yet
Data Science Fundamentals
3 pages
Fundamentals of Data Science
No ratings yet
Fundamentals of Data Science
2 pages
Cs3352 - Foundation of Data Science
No ratings yet
Cs3352 - Foundation of Data Science
56 pages
DS - Unit I
No ratings yet
DS - Unit I
3 pages
ADS IA 1 Syllabus Prep
No ratings yet
ADS IA 1 Syllabus Prep
5 pages
Prime Classes Brochure
No ratings yet
Prime Classes Brochure
14 pages
Rohan More
No ratings yet
Rohan More
16 pages
U23AD492 - Data Science Syllabus
No ratings yet
U23AD492 - Data Science Syllabus
4 pages
Data Science Notes 1
No ratings yet
Data Science Notes 1
3 pages
DS Honors Sem 5 Syllabus
No ratings yet
DS Honors Sem 5 Syllabus
4 pages
DAI101 Detailed Syllabus
No ratings yet
DAI101 Detailed Syllabus
1 page
R Programming Lab Manual
No ratings yet
R Programming Lab Manual
54 pages
Data Science Notes
No ratings yet
Data Science Notes
3 pages
All Units MAAL BDA - Chatgpt
No ratings yet
All Units MAAL BDA - Chatgpt
17 pages
Bd4151 Foundations of Data Science
No ratings yet
Bd4151 Foundations of Data Science
70 pages
Data Science Fundamentals
No ratings yet
Data Science Fundamentals
8 pages
Data Science
No ratings yet
Data Science
2 pages
Data Science and Visualization Updated
No ratings yet
Data Science and Visualization Updated
3 pages
EDS Unit 1?
No ratings yet
EDS Unit 1?
15 pages
Advanced Diploma in Data& Business Analytics
No ratings yet
Advanced Diploma in Data& Business Analytics
13 pages
DA Unitwise Notes Detailed Cleaned
No ratings yet
DA Unitwise Notes Detailed Cleaned
5 pages
Data Science Course in Pitampura
No ratings yet
Data Science Course in Pitampura
19 pages
Introduction To Data Science - 23CSH-283
100% (1)
Introduction To Data Science - 23CSH-283
48 pages
Data Science Basics Module 1
No ratings yet
Data Science Basics Module 1
8 pages
Beginner's Data Science Roadmap
No ratings yet
Beginner's Data Science Roadmap
12 pages
4 III BTech Minor DS Courses Syllabus
No ratings yet
4 III BTech Minor DS Courses Syllabus
5 pages
Data Science Topics Notes
No ratings yet
Data Science Topics Notes
3 pages
BIG Data Analytics 21CSH-471: Computer Science & Engineering
No ratings yet
BIG Data Analytics 21CSH-471: Computer Science & Engineering
7 pages
Machine Learning Essentials
No ratings yet
Machine Learning Essentials
58 pages
Brain Rules: Boost Brain Power
100% (3)
Brain Rules: Boost Brain Power
11 pages
Michael P. Theophilos - Numismatics and Greek Lexicography-T&T Clark (2020)
No ratings yet
Michael P. Theophilos - Numismatics and Greek Lexicography-T&T Clark (2020)
297 pages
Enjoying Research Therapy
No ratings yet
Enjoying Research Therapy
7 pages
Week Eight, March 12
No ratings yet
Week Eight, March 12
15 pages
Springfield College - Daily Lesson Plan
No ratings yet
Springfield College - Daily Lesson Plan
6 pages
PhIMO 2023 Heat - PH RESULTS
No ratings yet
PhIMO 2023 Heat - PH RESULTS
41 pages
Term Paper 3 - Civil Engineering and Other Professions
No ratings yet
Term Paper 3 - Civil Engineering and Other Professions
9 pages
How To Write A 3 Page Research Paper Fast
No ratings yet
How To Write A 3 Page Research Paper Fast
5 pages
Lesson 2-Science Oobleck
No ratings yet
Lesson 2-Science Oobleck
4 pages
Midterm Quiz Bank
40% (5)
Midterm Quiz Bank
18 pages
Week 17
No ratings yet
Week 17
18 pages
SE Unit 1
No ratings yet
SE Unit 1
98 pages
POCSO Outline
No ratings yet
POCSO Outline
2 pages
GCP Data Engineer
No ratings yet
GCP Data Engineer
8 pages
New Employee Application Form
No ratings yet
New Employee Application Form
4 pages
Direct Second Yr Mechanical Engineering Cut Off 2021 Cap Round 1
No ratings yet
Direct Second Yr Mechanical Engineering Cut Off 2021 Cap Round 1
198 pages
Principles of Electric Circuits Electron Flow Version 9th Edition Test Bank Available Instantly
No ratings yet
Principles of Electric Circuits Electron Flow Version 9th Edition Test Bank Available Instantly
329 pages
Concept of Soul in Indian Philosophy
No ratings yet
Concept of Soul in Indian Philosophy
3 pages
Commitment Chaperones v2024
No ratings yet
Commitment Chaperones v2024
1 page
QTR 2 Module 3 - Lesson 9
No ratings yet
QTR 2 Module 3 - Lesson 9
27 pages
History Note
No ratings yet
History Note
8 pages
Psychology Graduate Resume
No ratings yet
Psychology Graduate Resume
3 pages
Lesson Plan in Application of Recombinant Dna
No ratings yet
Lesson Plan in Application of Recombinant Dna
4 pages
Ict Assignment
No ratings yet
Ict Assignment
1 page
Clm-Smaw Ncii Uc1 - Core
No ratings yet
Clm-Smaw Ncii Uc1 - Core
2 pages
Development of A Virtual Reality Safety-Training System For Construction Workers
No ratings yet
Development of A Virtual Reality Safety-Training System For Construction Workers
9 pages
Books and For Diploma in Health Councessling
No ratings yet
Books and For Diploma in Health Councessling
2 pages
Physics Grade 12 TERM 1 QUESTION PAPER
No ratings yet
Physics Grade 12 TERM 1 QUESTION PAPER
9 pages
Rooms in The House Vocabulary Matching Exercise ESL Worksheets For Kids and New Learners 5517
No ratings yet
Rooms in The House Vocabulary Matching Exercise ESL Worksheets For Kids and New Learners 5517
2 pages

Unit 1

Uploaded by

Unit 1

Uploaded by

Unit 1

🔷 1. Big Data and Data Science

Volume: Large amount of data

Velocity: Speed of data in/out

Variety: Different types (text, images, video)

Veracity: Uncertainty of data

Value: Insights derived from data

📈 Diagram: 5 V's of Big Data

Uses data to derive insights, make predictions, and aid decision-making.

Example: Using transaction data to recommend products on Amazon.

🔷 2. Datafication - Current Landscape of Perspectives

Everything from emotions to business processes is now measurable.

IoT Devices → Smart Homes

Healthcare → Predictive Diagnosis

🔷 3. Statistical Inference - Populations and Samples

Example: All diabetics in India.

Example: 1,000 diabetics surveyed.

Helps in prediction and decision-making.

Discrete: Binomial, Poisson

Continuous: Normal, Exponential

Example: Predicting house prices using square footage.

🔷 5. Intro to R (Programming Language)

Popular for data analysis, visualization, and machine learning.

🔷 6. Exploratory Data Analysis (EDA) and Data Science Process

Uses graphs, charts, summary statistics.

Box Plots: Summary of distribution

Scatter Plots: Relation between two variables

📈 Diagram: Box Plot Components

Example: Exploring sales data before predicting future sales.

📌 Data Science Process:

Developed by John Tukey.

Hypothesis generation (not testing)

You might also like