0% found this document useful (0 votes)

16 views3 pages

Big Data and Hadoop Notes

The document provides an overview of Big Data and Hadoop, covering topics such as Big Data analytics, the history of Hadoop, and its ecosystem tools like HDFS, MapReduce, Pig, and Hive. It also discusses data ingestion methods, job scheduling, and data analytics techniques including supervised and unsupervised learning. Additionally, it highlights IBM's integration of Hadoop with enterprise data management solutions.

Uploaded by

manveerjoc21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

16 views3 pages

Big Data and Hadoop Notes

Uploaded by

manveerjoc21

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Exam-Oriented Notes: Big Data and Hadoop

Unit I: Introduction to Big Data and Hadoop

1. Big Data Analytics:

- Processing large, complex datasets to extract useful patterns and insights.

- Types: Structured, Unstructured, Semi-structured.

2. History of Hadoop:

- Developed by Doug Cutting and Mike Cafarella.

- Inspired by Google's MapReduce and GFS papers.

3. Hadoop Ecosystem:

- Tools like HDFS, MapReduce, Pig, Hive, HBase, Sqoop, Flume, and Oozie.

4. IBM Big Data Strategy:

- Integrates Hadoop with IBM Infosphere BigInsights for enterprise data management.

Unit II: HDFS (Hadoop Distributed File System)

1. HDFS Concepts:

- Distributed storage system for large datasets.

- Data divided into blocks and distributed across nodes.

2. Data Ingestion (Flume and Sqoop):

- Flume: Moves large logs into HDFS.

- Sqoop: Transfers structured data between HDFS and databases.

3. Hadoop I/O:
- Compression: Reduces data size.

- Serialization: Converts data into storable formats.

Unit III: MapReduce

1. Anatomy of MapReduce Job:

- Splits data into tasks, processes them in parallel, and combines results.

2. Shuffle and Sort:

- Organizes data before the reduce phase.

3. Job Scheduling:

- Ensures efficient task execution using schedulers like FIFO, Fair Scheduler.

Unit IV: Hadoop Ecosystem Tools

1. Pig:

- High-level platform for processing data.

- Uses Pig Latin language, easier than Java.

2. Hive:

- Query data using HiveQL (SQL-like language).

- Used for data warehousing and querying.

3. HBase:

- NoSQL database for real-time data.

- Faster than traditional RDBMS.

Unit V: Data Analytics with R and Machine Learning

1. Supervised Learning:
- Uses labeled data to train models.

- Examples: Regression, Classification.

2. Unsupervised Learning:

- Works on unlabeled data to find patterns.

- Examples: Clustering, Dimensionality Reduction.

3. Collaborative Filtering:

- Recommender systems based on user preferences.

Detailed Big Data and Hadoop Notes
No ratings yet
Detailed Big Data and Hadoop Notes
3 pages
Big Data Notes With Diagrams
No ratings yet
Big Data Notes With Diagrams
3 pages
BD by Maaz
No ratings yet
BD by Maaz
19 pages
Big Data Analytics Unit Wise Short Note
No ratings yet
Big Data Analytics Unit Wise Short Note
6 pages
Hadoop Course Content
No ratings yet
Hadoop Course Content
2 pages
Big Data Analytics
No ratings yet
Big Data Analytics
61 pages
Introduction to Big Data & Hadoop
No ratings yet
Introduction to Big Data & Hadoop
45 pages
Big Data Analytics Overview
No ratings yet
Big Data Analytics Overview
17 pages
Big Data Notes Units II III IV
No ratings yet
Big Data Notes Units II III IV
3 pages
GAME
No ratings yet
GAME
2 pages
Big Data Important Questions AKTU
No ratings yet
Big Data Important Questions AKTU
3 pages
Syllabus
No ratings yet
Syllabus
2 pages
Big Data SV Publication
No ratings yet
Big Data SV Publication
142 pages
Big Data & Hadoop Study Guide
No ratings yet
Big Data & Hadoop Study Guide
2 pages
Big Data
No ratings yet
Big Data
8 pages
Bigdata - Important Topics For Exam
No ratings yet
Bigdata - Important Topics For Exam
1 page
Big Data Hadoop Complete Final Spaced
No ratings yet
Big Data Hadoop Complete Final Spaced
15 pages
BDA Simple 1 To 4
No ratings yet
BDA Simple 1 To 4
11 pages
BDH (1 5) ChatGPT
No ratings yet
BDH (1 5) ChatGPT
26 pages
Big Data
No ratings yet
Big Data
3 pages
Koe097big Data
No ratings yet
Koe097big Data
1 page
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
No ratings yet
B.Tech. CS - CE and CSE Syllabus 3rd Year 2024-25
2 pages
Big Data Question Bank
No ratings yet
Big Data Question Bank
3 pages
CT2 BDTT
No ratings yet
CT2 BDTT
6 pages
Big Data Computing Notes
No ratings yet
Big Data Computing Notes
17 pages
22cs702 Data Analytics Unit-2.Dcm
No ratings yet
22cs702 Data Analytics Unit-2.Dcm
73 pages
20IT503 - Big Data Analytics - Unit4
No ratings yet
20IT503 - Big Data Analytics - Unit4
73 pages
Big Data Analytics for B.Tech Students
No ratings yet
Big Data Analytics for B.Tech Students
119 pages
Question Bank Big Data Analytics
No ratings yet
Question Bank Big Data Analytics
2 pages
Big Data Analytics Syallabus
No ratings yet
Big Data Analytics Syallabus
3 pages
Bca Bigdata Fifth - Sem Approved Syllabus
No ratings yet
Bca Bigdata Fifth - Sem Approved Syllabus
23 pages
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
No ratings yet
Gujarat Technological University: Sr. No. Content Total Hrs % Weightage 1 13
3 pages
Big Data Viva Notes
No ratings yet
Big Data Viva Notes
2 pages
SYLLABUS
No ratings yet
SYLLABUS
2 pages
BgiData QB
100% (1)
BgiData QB
3 pages
MCA - BigData Notes
No ratings yet
MCA - BigData Notes
136 pages
Syllabus E63 Spring2016-2
No ratings yet
Syllabus E63 Spring2016-2
3 pages
Big Data BCS061 Complete Question Bank With RealWorld
No ratings yet
Big Data BCS061 Complete Question Bank With RealWorld
5 pages
RMK Group Data Analytics Guide
No ratings yet
RMK Group Data Analytics Guide
72 pages
Big Data Analytics
No ratings yet
Big Data Analytics
2 pages
Unit 4 - Class Notes
No ratings yet
Unit 4 - Class Notes
6 pages
Big Data Analytics
No ratings yet
Big Data Analytics
20 pages
Coursera Report Divyansh Sahai CSF443
No ratings yet
Coursera Report Divyansh Sahai CSF443
7 pages
Fillatre Big Data
No ratings yet
Fillatre Big Data
98 pages
Bda U2
No ratings yet
Bda U2
68 pages
BigData and Hadoop - Syllabus
No ratings yet
BigData and Hadoop - Syllabus
2 pages
Unit 2
No ratings yet
Unit 2
7 pages
CC ZG522 Course Handout
No ratings yet
CC ZG522 Course Handout
6 pages
Big Data Analytics Course
No ratings yet
Big Data Analytics Course
3 pages
Big Data Technologies Course Outline
No ratings yet
Big Data Technologies Course Outline
2 pages
Big Data
No ratings yet
Big Data
27 pages
Big Data Analytics - Notes
No ratings yet
Big Data Analytics - Notes
13 pages
DE Python
No ratings yet
DE Python
11 pages
Big Data Analytics Syllabus
No ratings yet
Big Data Analytics Syllabus
3 pages

Big Data and Hadoop Notes

Uploaded by

Big Data and Hadoop Notes

Uploaded by

Exam-Oriented Notes: Big Data and Hadoop

Unit I: Introduction to Big Data and Hadoop

1. Big Data Analytics:

- Processing large, complex datasets to extract useful patterns and insights.

- Types: Structured, Unstructured, Semi-structured.

- Developed by Doug Cutting and Mike Cafarella.

- Inspired by Google's MapReduce and GFS papers.

4. IBM Big Data Strategy:

Unit II: HDFS (Hadoop Distributed File System)

- Distributed storage system for large datasets.

- Data divided into blocks and distributed across nodes.

2. Data Ingestion (Flume and Sqoop):

- Flume: Moves large logs into HDFS.

- Sqoop: Transfers structured data between HDFS and databases.

- Serialization: Converts data into storable formats.

Unit III: MapReduce

1. Anatomy of MapReduce Job:

2. Shuffle and Sort:

- Organizes data before the reduce phase.

Unit IV: Hadoop Ecosystem Tools

- High-level platform for processing data.

- Uses Pig Latin language, easier than Java.

- Query data using HiveQL (SQL-like language).

- Used for data warehousing and querying.

- NoSQL database for real-time data.

- Faster than traditional RDBMS.

Unit V: Data Analytics with R and Machine Learning

- Examples: Regression, Classification.

- Works on unlabeled data to find patterns.

- Examples: Clustering, Dimensionality Reduction.

- Recommender systems based on user preferences.

You might also like