Streaming Ecosystem

StreamingEcosystem

Uploaded by

Moustapha SY

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

28 views31 pages

Streaming Ecosystem

StreamingEcosystem

Uploaded by

Moustapha SY

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 31

Streaming Ecosystem

Reza Farivar
Capital One

Reza.farivar@capitalone.com
Components of a streaming ecosystem
• Gather the data
• Funnel
• Distributed Queue
• Real-Time Processing
• Semi-Real-Time Processing
• Real-time OLAP
Step 1: Gather the Data
• Apache NiFi is a good distributed funnel
• Was made in NSA
• Over 8 years of development
• Open sourced in 2014 and picked up by HortonWorks
• Great visual UI to design a data flow
• Has many many processor types in the box
• But not very good for heavy weight distributed processing
• Same graph is executed on all the nodes
NiFi Components
• FlowFile
• Unit of data moving through the system
• Content + Attributes (key/value pairs)
• Processor
• Performs the work, can access FlowFiles
• Connection
• Links between processors
• Queues that can be dynamically prioritized
• Process Group
• Set of processors and their connections
• Receive data via input ports, send data via output ports
NiFi GUI
• Drag and drop processors to build a flow
• Start, stop, and configure components in real time
• View errors and corresponding error messages
• View statistics and health of data flow
• Create templates of common processor & connections
NiFi Site-to-Site
• Site-to-site allows very easy pushing of data from one data center to
another
• Makes it a great choice for
distributed funnel
Step 2: Distributed Queue
• Pub-sub model
Producer publish(topic, msg) Consumer
subscribe
• Kafka a very poular
example Topic
1
Topic msg
2
Topic
3
Publish subscribe
system Consumer
Producer
msg
Kafka Architecture
• Distributed, high-throughput,
pub-sub messaging system
• Fast, Scalable, Durable Producer Producer

• Main use cases:

• log aggregation, real-time Broker Broker ZK Broker Broker
processing, monitoring,
queueing
• Originally developed by
Consumer Consumer
LinkedIn
• Implemented in Scala/Java
Kafka Manager
• There are some CLI tools
kafka-console-producer
kafka-console-consumer
Kafka-topics
kafka-consumer-offset-checker

• Some very new open-source projects for monitoring Kafka

• Kafka-manager by yahoo
• https://github.com/yahoo/kafka-manager
Step 3: Distributed Processing
• Once data is in the Kafka message broker, we need to process it
• Filter
• Join
• Windowing
• Business logic
• Real-time requirements
• Sub ms to 10 ms
Storm
• Apache Storm
• Built in backtype, sold to Twitter
• Written in Clojure
Storm Architecture
Storm programming
• Topology
• Spouts
• Bolts
• Tuples
• Streams
• topologyBuilder API

TopologyBuilder builder = new TopologyBuilder();

builder.setSpout("words", new TestWordSpout(), 10);
builder.setBolt("exclaim1", ne ExclamationBolt(), 3)
.shuffleGrouping("words");
builder.setBolt("exclaim2", new ExclamationBolt(), 2)
.shuffleGrouping("exclaim1");
Example topology
• Storm is great for non-
trivial large scale
processing
• Mature enterprise
level features,
including multitenancy
and security
• Work on resource
aware scheduling
Step 5: Micro batch processing / SQL / ML
• Instead of real-time event-by event processing, we can do micro
batch
• Reduce overheads
• Fault tolerance  Kappa architecture
• High latency
Spark
• Spark was a project out of Berkeley from 2010
• Has become very popular
• Most contributed open source project in big-data domain
• RDD: Resilient Distributed Data Set
Spark Streaming
• Window a bit of
data
• Run a batch
• Repeat
Spark ML, Graph, etc.
• Advantage of Spark Streaming:
• Rich ecosystem of big data tools
• Spark SQL
• Spark ML
• Spark GraphX
• SparkR
• Disadvantage:
• Not really streaming
Benchmark: ETL pipeline
Three-way Comparison
• Flink and Storm
have similar linear
performance
profiles
• These two systems
process an
incoming event as
it becomes
available
• Spark Streaming
has much higher
latency, but is
expected to handle
higher throughputs
• System behaves in
a stepwise
function, a direct
result from its
micro-batching
nature
Side note: in-memory key-value store
• Redis
• Cassandra
Step 6: OLAP (Online Analytical Processing)
• Business Intelligence
• Multidimensional data analytics
• Analyze multidimensional data interactively
• Basic Operations
• Consolidation (roll-up, aggregation in dimensions)
• Drill-down (filter)
• Slicing and dicing (Look at the data from different viewpoints)
Druid
• Developed in Metamarkets in 2011
• RDBMs: Too slow
• NoSQL key value store: fast, but exponential memory space, precompute very slow
• Gaining in popularity
• Open Source (Apache license) in late 2012
• OLAP queries
• Column oriented
• Sub second query time (Avg query time 0.5 seconds)
• Real-time streaming ingestion
• Scalable
Druid
• Arbitrary slice and dive of data
Druid Architecture
Druid Bitmap Index
• This is one of the
reasons Druid is so fast
• Dictionary encoding
• Bitmap Index
• Compression ratio: 1
bit per record
• Logical AND/OR of a
few thousand numbers
for a query 
lightning fast queries
Step 7: BI
• Pivot
• web-based exploratory visualization UI for Druid
• Easily filter, split, visualize, etc.
• Tableu and SQL not natively supported 
• But wait!
Pivot
Druid and Spark
• Druid’s native API is JSON
• No Tableau, SQL support
• But there is hope!
https://github.com/SparklineData/spark-druid-olap

• Connect Druid to Tableu

through Spark
Why Druid and Spark together?
• Spark is great as a general engine
• Everything and the kitchen sink
• Queries can take a long time
• Still much faster than Hive on Yarn
• Druid is optimized for Column based time-series queries
Questions?
Email: reza.farivar@capitalone.com

Assignment No. 3 For Business Data Analytics
No ratings yet
Assignment No. 3 For Business Data Analytics
16 pages
BDA UNIT-2 (Final)
No ratings yet
BDA UNIT-2 (Final)
27 pages
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
100% (1)
Real-Time Streaming in Big Data: Kafka and Spark With Singlestore
23 pages
BDA Unit 3
No ratings yet
BDA Unit 3
42 pages
Open Source Technologies
No ratings yet
Open Source Technologies
19 pages
25-Introduction To Data Streaming-04-03-2025
No ratings yet
25-Introduction To Data Streaming-04-03-2025
13 pages
Compute Engine
No ratings yet
Compute Engine
49 pages
Hortonworks Data Platform (HDP)
100% (1)
Hortonworks Data Platform (HDP)
56 pages
Decomposing SMACK Stack
No ratings yet
Decomposing SMACK Stack
62 pages
Streaming Graph Processing Unit5
No ratings yet
Streaming Graph Processing Unit5
7 pages
Big Data Unit 1
No ratings yet
Big Data Unit 1
24 pages
Big Data Concepts - Spark & Streaming
No ratings yet
Big Data Concepts - Spark & Streaming
35 pages
Unit 5
No ratings yet
Unit 5
14 pages
Location Based REstaurants Recommendation System
No ratings yet
Location Based REstaurants Recommendation System
6 pages
Real Time Data Sentiment Analysis Report
No ratings yet
Real Time Data Sentiment Analysis Report
23 pages
4 Building Blocks of A Streaming Data Architecture
No ratings yet
4 Building Blocks of A Streaming Data Architecture
11 pages
Big Data 3rd Assignment Answers
No ratings yet
Big Data 3rd Assignment Answers
8 pages
Real-Time Analytics with Apache Storm
No ratings yet
Real-Time Analytics with Apache Storm
34 pages
Stream Processing
No ratings yet
Stream Processing
33 pages
Lambda Architecture - Wikipedia
No ratings yet
Lambda Architecture - Wikipedia
4 pages
Big Data Architecture Guide
No ratings yet
Big Data Architecture Guide
4 pages
SAAC03-Services Summary
No ratings yet
SAAC03-Services Summary
7 pages
Module 1 Glossary What Is Big Data
No ratings yet
Module 1 Glossary What Is Big Data
2 pages
BDTools
No ratings yet
BDTools
15 pages
BigDataAnalytics Unit5
No ratings yet
BigDataAnalytics Unit5
6 pages
Bigdata-Mining Data Streams
No ratings yet
Bigdata-Mining Data Streams
19 pages
Learning Real-Time Processing With Spark Streaming - Sample Chapter
No ratings yet
Learning Real-Time Processing With Spark Streaming - Sample Chapter
30 pages
Bigdata Unit II
No ratings yet
Bigdata Unit II
19 pages
70 ELT Tools
No ratings yet
70 ELT Tools
29 pages
Unit 3
No ratings yet
Unit 3
55 pages
BDA Unit V
No ratings yet
BDA Unit V
21 pages
Kafka
No ratings yet
Kafka
21 pages
Big Data Stream Processing Guide
No ratings yet
Big Data Stream Processing Guide
22 pages
Spark Streaming Through Dynamic Batch Sizing
No ratings yet
Spark Streaming Through Dynamic Batch Sizing
4 pages
Big Data Architecture
No ratings yet
Big Data Architecture
9 pages
Lambda - A Modern Big Data Architecture 5 - 12 PDF
No ratings yet
Lambda - A Modern Big Data Architecture 5 - 12 PDF
128 pages
Large Scale Data Pipelines
No ratings yet
Large Scale Data Pipelines
91 pages
Glossary
No ratings yet
Glossary
11 pages
DataStreaming L-4
No ratings yet
DataStreaming L-4
16 pages
Big Data Important Qiestion
No ratings yet
Big Data Important Qiestion
10 pages
Streaming Data Insights for Tech Pros
No ratings yet
Streaming Data Insights for Tech Pros
4 pages
Lect - 11 - BIG DATA
No ratings yet
Lect - 11 - BIG DATA
42 pages
12lecture - Technology and Tools (Ù SqoobFlume)
No ratings yet
12lecture - Technology and Tools (Ù SqoobFlume)
48 pages
Interactive Analytics with RADStack
No ratings yet
Interactive Analytics with RADStack
10 pages
Kafka Sparkstreaming
No ratings yet
Kafka Sparkstreaming
75 pages
4
No ratings yet
4
2 pages
Hadoop-Compatible Projects
No ratings yet
Hadoop-Compatible Projects
7 pages
Module4 1
No ratings yet
Module4 1
68 pages
Big Data Technology Stack Guide
100% (1)
Big Data Technology Stack Guide
12 pages
Spark Streaming for Developers
100% (1)
Spark Streaming for Developers
28 pages
Spark Streaming: Tathagata "TD" Das
No ratings yet
Spark Streaming: Tathagata "TD" Das
28 pages
Data Analytics Unit 3
No ratings yet
Data Analytics Unit 3
14 pages
Bigdata Unit-Ii
No ratings yet
Bigdata Unit-Ii
33 pages
Karthiayinidva Notes
No ratings yet
Karthiayinidva Notes
29 pages
A Brief Introduction of Existing Big Data Tools
No ratings yet
A Brief Introduction of Existing Big Data Tools
37 pages
Apache Spark Components
No ratings yet
Apache Spark Components
4 pages
DC Unit V
No ratings yet
DC Unit V
26 pages
Lectur 5
No ratings yet
Lectur 5
37 pages
Lab Manual & Code - Dsal - 4 - 1737181975297
No ratings yet
Lab Manual & Code - Dsal - 4 - 1737181975297
2 pages
Competetive Profile Matrix of STM PROJECT On Bharti AXA General Insurance 12
No ratings yet
Competetive Profile Matrix of STM PROJECT On Bharti AXA General Insurance 12
9 pages
War Wastes: Dark Heresy Supplement
100% (1)
War Wastes: Dark Heresy Supplement
7 pages
Chess Openings for Club Players
0% (2)
Chess Openings for Club Players
21 pages
MS 91for Extension of Manhole Wall
No ratings yet
MS 91for Extension of Manhole Wall
4 pages
1 - Medival
No ratings yet
1 - Medival
50 pages
Easement or Servitude
No ratings yet
Easement or Servitude
16 pages
MOST Work Measurement Systems (2002, CRC Press) Kjell B. Zandin
No ratings yet
MOST Work Measurement Systems (2002, CRC Press) Kjell B. Zandin
548 pages
MINERA Technical Data Sheet - E0Dk Rev A
No ratings yet
MINERA Technical Data Sheet - E0Dk Rev A
2 pages
Salami Taofiq Bolaji: Customer Statement
No ratings yet
Salami Taofiq Bolaji: Customer Statement
30 pages
Arts Group 3
No ratings yet
Arts Group 3
16 pages
16 04 2025 Answer Sheet Ahmed Youssif
No ratings yet
16 04 2025 Answer Sheet Ahmed Youssif
10 pages
10 Leadership Styles You Should Know Final
100% (1)
10 Leadership Styles You Should Know Final
13 pages
Tai Chi - New Energy Ways, Energy Body Manipulation, Development - Robert Bruce
No ratings yet
Tai Chi - New Energy Ways, Energy Body Manipulation, Development - Robert Bruce
61 pages
Curriculum - Vitae: Manish Kumar
No ratings yet
Curriculum - Vitae: Manish Kumar
2 pages
Accepted Manuscript: 10.1016/j.jlp.2017.09.011
No ratings yet
Accepted Manuscript: 10.1016/j.jlp.2017.09.011
24 pages
C ToolingSystem
No ratings yet
C ToolingSystem
148 pages
10th Maths Theorems Study Material English Medium PDF Download
No ratings yet
10th Maths Theorems Study Material English Medium PDF Download
2 pages
Bottle Extrusion Blow Moulding
No ratings yet
Bottle Extrusion Blow Moulding
2 pages
BEAMANAL (Metric) Copie
No ratings yet
BEAMANAL (Metric) Copie
19 pages
B.Tech 1st Sem Practical Schedule
No ratings yet
B.Tech 1st Sem Practical Schedule
2 pages
Geography - Student Copy-Jeet-Rana-GS
No ratings yet
Geography - Student Copy-Jeet-Rana-GS
18 pages
Training Calendar 2023 - Aa Kenya
No ratings yet
Training Calendar 2023 - Aa Kenya
6 pages
MMMMM18 V5 PDF
No ratings yet
MMMMM18 V5 PDF
70 pages
R-Wil303 Placement Form SEMESTER 1 2025
100% (1)
R-Wil303 Placement Form SEMESTER 1 2025
3 pages
French Exam Answers
No ratings yet
French Exam Answers
3 pages
Physics: Lab - Convex Lenses Name
No ratings yet
Physics: Lab - Convex Lenses Name
2 pages
Astro Billing Statement Feb-Mar 2019
No ratings yet
Astro Billing Statement Feb-Mar 2019
2 pages
10 WH Question
No ratings yet
10 WH Question
12 pages
Class 11 Accountancy Lesson Plan Chapter 3 Recording of Transactions-1
No ratings yet
Class 11 Accountancy Lesson Plan Chapter 3 Recording of Transactions-1
70 pages

Streaming Ecosystem

Uploaded by

Streaming Ecosystem

Uploaded by

Streaming Ecosystem

• Main use cases:

• Some very new open-source projects for monitoring Kafka

TopologyBuilder builder = new TopologyBuilder();

• Connect Druid to Tableu

You might also like