0% found this document useful (0 votes)

19 views3 pages

Unit 2

Uploaded by

srgimt485

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

19 views3 pages

Unit 2

Uploaded by

srgimt485

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Unit 2

🔷 1. The Data Science Process - Case Study: RealDirect

RealDirect: An online real estate firm helping users buy/sell homes using data-driven
decisions.

📌 Steps in Data Science Process:

1. Define Objective: e.g., Improve home sale prediction

2. Data Collection: Property listings, user interactions

3. Data Cleaning: Remove duplicates, missing values

4. Exploratory Data Analysis (EDA): Understand features like price, location

5. Model Building: Predict time-to-sell or price

6. Evaluation: RMSE, R² scores

7. Deployment: Integrated into the RealDirect platform

📈 Diagram: Data Science Process

[Collect] → [Clean] → [EDA] → [Model] → [Evaluate] → [Deploy]

---

🔷 2. Three Basic Machine Learning Algorithms

✅ Linear Regression
Predicts a continuous outcome using a straight line.

Formula: y = mx + b

📉 Use Case: Predict house prices based on size.

✅ k-Nearest Neighbors (k-NN)
Classifies based on 'k' closest data points.

No training phase — lazy learning.

📌 Example: Classify a new home’s neighborhood based on similar homes nearby.

📍 Diagram:
New point → check k nearest neighbors → assign most common class

✅ k-Means Clustering
Unsupervised learning algorithm.

Groups data into k clusters by minimizing distance from centroid.

📊 Example: Segment customers into groups based on buying behavior.

---

🔷 3. Motivating Application: Filtering Spam

📨 Goal: Classify emails as Spam or Not Spam.
❌ Why Linear Regression is a poor choice:
Predicts continuous output, not ideal for classification (spam is binary).

Sensitive to outliers.

❌ Why k-NN is not ideal:

High-dimensional data (emails) = slow computation.

Requires distance metric → Hard for text data.

---

🔷 4. Naive Bayes for Spam Filtering

✅ Why Naive Bayes works well:
Assumes independence between features (words).

Calculates probability that an email is spam based on word occurrences.

Very fast and effective in high-dimensional data like text.

📌 Formula:
P(Spam | Words) ∝ P(Words | Spam) * P(Spam)

📩 Example: If words like “FREE” and “WIN” appear → High probability of spam.
---

🔷 5. Data Wrangling: APIs & Web Scraping

📌 APIs (Application Programming Interface):
Structured way to access online data.

Example: Twitter API, Google Maps API

import requests
response = requests.get("https://api.twitter.com/...")

📌 Web Scraping Tools:

Extracts data from HTML pages.

Tools: BeautifulSoup, Scrapy, Selenium

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_data, 'html.parser')

📊 Use Case: Collect housing prices from websites like Zillow.

Complete Chapter
No ratings yet
Complete Chapter
6 pages
Customer Segmentation 2
No ratings yet
Customer Segmentation 2
19 pages
Data Science
No ratings yet
Data Science
17 pages
A Structured Learning Guide For Becoming A Data Scientist
No ratings yet
A Structured Learning Guide For Becoming A Data Scientist
9 pages
Machine Learning
No ratings yet
Machine Learning
5 pages
Introduction To Data Science
No ratings yet
Introduction To Data Science
3 pages
Unit 4 Data Science
No ratings yet
Unit 4 Data Science
8 pages
Data Science Career
No ratings yet
Data Science Career
6 pages
Data Science Roadmap
No ratings yet
Data Science Roadmap
4 pages
Data Processes
No ratings yet
Data Processes
4 pages
PGDDS - Subj (1) - Foundations of Data Science
No ratings yet
PGDDS - Subj (1) - Foundations of Data Science
2 pages
Data Science Roadmap From Beginner To Expert in A Structured Format
No ratings yet
Data Science Roadmap From Beginner To Expert in A Structured Format
4 pages
Data Science Brochure
No ratings yet
Data Science Brochure
9 pages
Data Science
No ratings yet
Data Science
13 pages
DS - Unit I
No ratings yet
DS - Unit I
3 pages
Data Science Notes 1
No ratings yet
Data Science Notes 1
3 pages
Data Science Roadmap
No ratings yet
Data Science Roadmap
2 pages
PythonData Scientist Roadmap v2
No ratings yet
PythonData Scientist Roadmap v2
5 pages
Road Map To Data Security
No ratings yet
Road Map To Data Security
3 pages
Data Science
No ratings yet
Data Science
8 pages
Data Scientist Learning Roadmap
No ratings yet
Data Scientist Learning Roadmap
3 pages
Data Science Notes
No ratings yet
Data Science Notes
3 pages
Complete Data Science Learning Guide - Beginner To Expert
No ratings yet
Complete Data Science Learning Guide - Beginner To Expert
25 pages
Internship Progress Report Template PG
No ratings yet
Internship Progress Report Template PG
14 pages
Final Report Submit Amrit
No ratings yet
Final Report Submit Amrit
12 pages
Data Science Road Map
No ratings yet
Data Science Road Map
47 pages
Data Science Topics Notes
No ratings yet
Data Science Topics Notes
3 pages
Data Science Roadmap 2025
No ratings yet
Data Science Roadmap 2025
2 pages
Data Scientist Nanodegree Syllabus: Before You Start
No ratings yet
Data Scientist Nanodegree Syllabus: Before You Start
5 pages
BCA507
No ratings yet
BCA507
2 pages
Data Science Full Stack Roadmap
No ratings yet
Data Science Full Stack Roadmap
25 pages
Machine Learning Roadmap
No ratings yet
Machine Learning Roadmap
4 pages
Session 4 Machine Learning Process
No ratings yet
Session 4 Machine Learning Process
28 pages
Machine Learning Guide
No ratings yet
Machine Learning Guide
10 pages
? Ultimate Data Science Topic List - (Beginner To ...
No ratings yet
? Ultimate Data Science Topic List - (Beginner To ...
4 pages
Data Science Roadmap
No ratings yet
Data Science Roadmap
4 pages
Course Objectives DM
No ratings yet
Course Objectives DM
4 pages
Ds Final
No ratings yet
Ds Final
3 pages
Data Science Roadmap: Mathematics and Statistics
No ratings yet
Data Science Roadmap: Mathematics and Statistics
5 pages
Ids Model 2
No ratings yet
Ids Model 2
63 pages
Roadmap AI
No ratings yet
Roadmap AI
19 pages
Regression Report
No ratings yet
Regression Report
63 pages
UNIT 1 (ML For DS)
No ratings yet
UNIT 1 (ML For DS)
10 pages
ASSIGNMENT 2 (Business Analytics For Managers)
No ratings yet
ASSIGNMENT 2 (Business Analytics For Managers)
5 pages
CSC407 - Chapter 1
No ratings yet
CSC407 - Chapter 1
31 pages
CourseCurriculum EML
No ratings yet
CourseCurriculum EML
3 pages
Roadmap To Becoming A Data Scientist
No ratings yet
Roadmap To Becoming A Data Scientist
3 pages
Data Science Roadmap For Beginners
No ratings yet
Data Science Roadmap For Beginners
4 pages
Data Science Report
No ratings yet
Data Science Report
32 pages
Data Science & Cyber Security
100% (1)
Data Science & Cyber Security
13 pages
Internship Report: T.J.Instituteoftechnology
No ratings yet
Internship Report: T.J.Instituteoftechnology
29 pages
Reflective Journal Writing 6 - 1733814927
No ratings yet
Reflective Journal Writing 6 - 1733814927
4 pages
Unit I - Notes
No ratings yet
Unit I - Notes
15 pages
Intro DA and ML Lecture 1 - S-2
No ratings yet
Intro DA and ML Lecture 1 - S-2
17 pages
MXV-10 00
No ratings yet
MXV-10 00
2 pages
P433 EN M R-63-A 313 654 Volume 2
No ratings yet
P433 EN M R-63-A 313 654 Volume 2
488 pages
Ohs Consultation 2
No ratings yet
Ohs Consultation 2
11 pages
Entrepreneurship Ut 1 Reviewer
No ratings yet
Entrepreneurship Ut 1 Reviewer
10 pages
Risk Management Mind Map
No ratings yet
Risk Management Mind Map
1 page
Construction of The New National Load Dispatch Center-3222
No ratings yet
Construction of The New National Load Dispatch Center-3222
2 pages
TNSTC. Mad
No ratings yet
TNSTC. Mad
1 page
2018 New Pull-Out Capacity Equations For The Design of Screw Fastener Connections
No ratings yet
2018 New Pull-Out Capacity Equations For The Design of Screw Fastener Connections
13 pages
Python CheatSheet - CodeWithHarry
No ratings yet
Python CheatSheet - CodeWithHarry
29 pages
ASTM-D 3375 - 95a (Reapproved 2001) PDF
No ratings yet
ASTM-D 3375 - 95a (Reapproved 2001) PDF
4 pages
Chemistry An Atoms First Approach 2nd Edition Steven S Zumdahl Susan A Zumdahl Digital Access
100% (1)
Chemistry An Atoms First Approach 2nd Edition Steven S Zumdahl Susan A Zumdahl Digital Access
405 pages
Elements of Chemical Reaction Engineering Fourth Edition H. Scott Fogler Latest PDF 2025
0% (1)
Elements of Chemical Reaction Engineering Fourth Edition H. Scott Fogler Latest PDF 2025
165 pages
Recent Changes in Software Patenting in India
No ratings yet
Recent Changes in Software Patenting in India
4 pages
EMU8086 Solutions
0% (1)
EMU8086 Solutions
10 pages
Chapter 3
No ratings yet
Chapter 3
81 pages
PDF Handbook of Human Factors in Web Design Second Edition Kim-Phuong L. Vu Download
No ratings yet
PDF Handbook of Human Factors in Web Design Second Edition Kim-Phuong L. Vu Download
81 pages
Aircraft Icing: Impact & Safety Measures
No ratings yet
Aircraft Icing: Impact & Safety Measures
11 pages
Free Pet Microchip Registry Home Page
No ratings yet
Free Pet Microchip Registry Home Page
2 pages
Lecture 4
No ratings yet
Lecture 4
21 pages
Sluice Gate NRS 4 To 8 IN DRAWING
No ratings yet
Sluice Gate NRS 4 To 8 IN DRAWING
1 page
Physical Progress Report Sample
100% (2)
Physical Progress Report Sample
1 page
Year 5 English SOW SK
No ratings yet
Year 5 English SOW SK
43 pages
Mumbai Plan
No ratings yet
Mumbai Plan
230 pages
Corporateprofile PDF
No ratings yet
Corporateprofile PDF
20 pages
Custom BAPI Creation
No ratings yet
Custom BAPI Creation
24 pages
Ls Maths9 2ed TR Workbook Answers
84% (83)
Ls Maths9 2ed TR Workbook Answers
49 pages
UAV Network Simulation with NetSim
No ratings yet
UAV Network Simulation with NetSim
5 pages
Second-Price Auction
No ratings yet
Second-Price Auction
4 pages
An Experimental Study of The Characteristics of Laminar Separation Bubble On An Airfoil
No ratings yet
An Experimental Study of The Characteristics of Laminar Separation Bubble On An Airfoil
68 pages
Aviation Distance and Speed Calculations Quiz
No ratings yet
Aviation Distance and Speed Calculations Quiz
10 pages

Unit 2

Uploaded by

Unit 2

Uploaded by

Unit 2

🔷 1. The Data Science Process - Case Study: RealDirect

📌 Steps in Data Science Process:

2. Data Collection: Property listings, user interactions

3. Data Cleaning: Remove duplicates, missing values

4. Exploratory Data Analysis (EDA): Understand features like price, location

5. Model Building: Predict time-to-sell or price

6. Evaluation: RMSE, R² scores

7. Deployment: Integrated into the RealDirect platform

📈 Diagram: Data Science Process

🔷 2. Three Basic Machine Learning Algorithms

📉 Use Case: Predict house prices based on size.

No training phase — lazy learning.

📌 Example: Classify a new home’s neighborhood based on similar homes nearby.

Groups data into k clusters by minimizing distance from centroid.

📊 Example: Segment customers into groups based on buying behavior.

🔷 3. Motivating Application: Filtering Spam

❌ Why k-NN is not ideal:

Requires distance metric → Hard for text data.

🔷 4. Naive Bayes for Spam Filtering

Calculates probability that an email is spam based on word occurrences.

Very fast and effective in high-dimensional data like text.

🔷 5. Data Wrangling: APIs & Web Scraping

Example: Twitter API, Google Maps API

📌 Web Scraping Tools:

Tools: BeautifulSoup, Scrapy, Selenium

from bs4 import BeautifulSoup

📊 Use Case: Collect housing prices from websites like Zillow.

You might also like