3 Analyze NYC Taxi Data Using Spark Pool

The document provides a Spark code example for analyzing NYC Taxi data stored in a Parquet file. It demonstrates how to load the data into a Spark DataFrame, create a database, and perform SQL queries to analyze passenger counts and trip distances. The results are then saved into a new table for further analysis.

Uploaded by

kasaramvenky082

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views3 pages

3 Analyze NYC Taxi Data Using Spark Pool

Uploaded by

kasaramvenky082

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as DOCX, PDF, TXT or read online on Scribd

You are on page 1/ 3

Analyze NYC Taxi data with a Spark pool

NYC Taxi Trip – Spark code:

%%pyspark

df =
spark.read.load('abfss://users@vnycdatalake.dfs.core.windows.net/
NYCTaxiTrip.parquet', format='parquet')

display(df.limit(10))

#check the schema of the dataframe

%%pyspark

df.printSchema()

#Load the NYC Taxi data into the Spark nyctaxi database

%%pyspark

spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")

df.write.mode("overwrite").saveAsTable("nyctaxi.trip")
#Analyze the NYC Taxi data using Spark and notebooks

%%pyspark

df = spark.sql("SELECT * FROM nyctaxi.trip")

display(df)

#analyze the passenger count status

%%pyspark

df = spark.sql("""

SELECT passenger_count,

SUM(trip_distance) as SumTripDistance,

AVG(trip_distance) as AvgTripDistance

FROM nyctaxi.trip

WHERE trip_distance > 0 AND passenger_count > 0

GROUP BY passenger_count

ORDER BY passenger_count

""")
display(df)

df.write.saveAsTable("nyctaxi.passengercountstats")

5 Analyze NYC Data in A Storage Account
No ratings yet
5 Analyze NYC Data in A Storage Account
3 pages
Assignment 8
No ratings yet
Assignment 8
2 pages
Group27 CS661 Report
No ratings yet
Group27 CS661 Report
3 pages
TDIA2 TP3 Spark
No ratings yet
TDIA2 TP3 Spark
2 pages
2 Analyze NYC Taxi Trip Data Using Serverless SQL Pool
No ratings yet
2 Analyze NYC Taxi Trip Data Using Serverless SQL Pool
2 pages
Taxi Trip Analysis Using Hive
No ratings yet
Taxi Trip Analysis Using Hive
3 pages
Taxi Trips Analysis Project 1682332303
100% (2)
Taxi Trips Analysis Project 1682332303
28 pages
NYC Taxi Data Analysis With PySpark
No ratings yet
NYC Taxi Data Analysis With PySpark
1 page
Project Report Edit
No ratings yet
Project Report Edit
20 pages
Assignment2 Problem
No ratings yet
Assignment2 Problem
4 pages
NYC Taxi Data Analysis
No ratings yet
NYC Taxi Data Analysis
8 pages
Analyzing Taxi Trends
No ratings yet
Analyzing Taxi Trends
43 pages
NYC Taxi Data Analysis with HiveQL
No ratings yet
NYC Taxi Data Analysis with HiveQL
2 pages
Taxi Fare Team 09
No ratings yet
Taxi Fare Team 09
25 pages
4 Analyze NYC Data Using Dedicated SQL Pool
No ratings yet
4 Analyze NYC Data Using Dedicated SQL Pool
5 pages
Car Analytics Solution
No ratings yet
Car Analytics Solution
4 pages
IP Project On Car Rental System in India
100% (6)
IP Project On Car Rental System in India
33 pages
CS Luxuary Car Project
No ratings yet
CS Luxuary Car Project
29 pages
Analytics Quefile Without Answer
No ratings yet
Analytics Quefile Without Answer
3 pages
Taxis Management System
No ratings yet
Taxis Management System
25 pages
1 PB
No ratings yet
1 PB
8 pages
Tutorial Query and Visualize Data From A Notebook
No ratings yet
Tutorial Query and Visualize Data From A Notebook
3 pages
Lab 5
No ratings yet
Lab 5
10 pages
Pyspark File Commands and Theory
No ratings yet
Pyspark File Commands and Theory
29 pages
Comp Project
No ratings yet
Comp Project
32 pages
Car Rent PDF
No ratings yet
Car Rent PDF
17 pages
Al-Dohuki Et Al. - 2017 - SemanticTraj A New Approach To Interacting With Massive Taxi Trajectories
No ratings yet
Al-Dohuki Et Al. - 2017 - SemanticTraj A New Approach To Interacting With Massive Taxi Trajectories
10 pages
2324 BigData Lab3
No ratings yet
2324 BigData Lab3
6 pages
NYC Taxi Trip Analytics Dashboard
No ratings yet
NYC Taxi Trip Analytics Dashboard
2 pages
Lab Spark
No ratings yet
Lab Spark
3 pages
Uber Trip Analysis Machine Learning Project (Data Analyst)
No ratings yet
Uber Trip Analysis Machine Learning Project (Data Analyst)
27 pages
Bda Exp - 7
No ratings yet
Bda Exp - 7
8 pages
1 Synapse Analytics Workspace
No ratings yet
1 Synapse Analytics Workspace
2 pages
How To Convert Casuals To Members?": Google Data Analytics Course Capstone Project: Case Study 1 "Cyclistic"
No ratings yet
How To Convert Casuals To Members?": Google Data Analytics Course Capstone Project: Case Study 1 "Cyclistic"
18 pages
Record of Experiments: Cloud Application Development Lab
No ratings yet
Record of Experiments: Cloud Application Development Lab
10 pages
Portfolio Project Solution Sheet
No ratings yet
Portfolio Project Solution Sheet
16 pages
NYC Green Taxi Data Pipeline 2022
No ratings yet
NYC Green Taxi Data Pipeline 2022
19 pages
Spark Lab
No ratings yet
Spark Lab
6 pages
2021 NS BDA Assign1
No ratings yet
2021 NS BDA Assign1
4 pages
UBER Data Wrangling
No ratings yet
UBER Data Wrangling
45 pages
Lab - 01 - Data Engineering Practice
No ratings yet
Lab - 01 - Data Engineering Practice
4 pages
Big Data Technologies Lab
No ratings yet
Big Data Technologies Lab
8 pages
Project Report DM Malyka & Qurat
No ratings yet
Project Report DM Malyka & Qurat
22 pages
Slide 10 PySpark - SQL
No ratings yet
Slide 10 PySpark - SQL
131 pages
Assignment2. (4) - JupyterLab
No ratings yet
Assignment2. (4) - JupyterLab
3 pages
Uber Fare Prediction Analysis
No ratings yet
Uber Fare Prediction Analysis
6 pages
Data Science Lab Group Submission
No ratings yet
Data Science Lab Group Submission
13 pages
N N N N N N: A Ovel Approach To A Alyze Uber Datausi G Machi E Lear I G
No ratings yet
N N N N N N: A Ovel Approach To A Alyze Uber Datausi G Machi E Lear I G
17 pages
BigQuery Lab
No ratings yet
BigQuery Lab
13 pages
NYC Taxi Data Analysis with R
No ratings yet
NYC Taxi Data Analysis with R
39 pages
DP 203t00a Enu Powerpoint 03
No ratings yet
DP 203t00a Enu Powerpoint 03
25 pages
ML Practical 1
No ratings yet
ML Practical 1
15 pages
Taxi Service
No ratings yet
Taxi Service
18 pages
Travel Agency Analysis Presentation
No ratings yet
Travel Agency Analysis Presentation
11 pages
ML All Prints
No ratings yet
ML All Prints
25 pages
Main Page of My Program FINAL
No ratings yet
Main Page of My Program FINAL
6 pages
Student Python Project Report
No ratings yet
Student Python Project Report
18 pages
Travel Agency Customer Analysis PPT
No ratings yet
Travel Agency Customer Analysis PPT
18 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages

3 Analyze NYC Taxi Data Using Spark Pool

Uploaded by

3 Analyze NYC Taxi Data Using Spark Pool

Uploaded by

Analyze NYC Taxi data with a Spark pool

NYC Taxi Trip – Spark code:

#check the schema of the dataframe

spark.sql("CREATE DATABASE IF NOT EXISTS nyctaxi")

df = spark.sql("SELECT * FROM nyctaxi.trip")

#analyze the passenger count status

WHERE trip_distance > 0 AND passenger_count > 0

You might also like