Sorting and Aggregating in HiveQL

The document explains sorting and aggregating in HiveQL, detailing key clauses such as ORDER BY, SORT BY, DISTRIBUTE BY, and CLUSTER BY for sorting data, as well as GROUP BY and HAVING for data aggregation. ORDER BY provides a global sort but is slower for large datasets, while SORT BY sorts within each reducer. The document also highlights the use of aggregation functions like COUNT(), SUM(), AVG(), MIN(), and MAX() for summarizing data.

Uploaded by

kanishqchezian

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

100% found this document useful (1 vote)

110 views10 pages

Sorting and Aggregating in HiveQL

Uploaded by

kanishqchezian

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 10

Sorting and Aggregating in HiveQL

• Understanding
– ORDER BY,
– SORT BY,
– GROUP BY, and more
Introduction to Sorting
• Purpose: Arrange results in a specific
order
• Key Clauses: ORDER BY, SORT BY,
DISTRIBUTE BY, CLUSTER BY
ORDER BY
• Global sort across all data
• Uses a single reducer (slower for large
data)
• Example:
– SELECT name, salary FROM employees
ORDER BY salary DESC;
SORT BY
• Sorts data within each reducer
• Faster, but output not globally sorted
• Example:
– SELECT name, salary FROM employees
SORT BY salary ASC;
DISTRIBUTE BY + SORT BY
• Distributes data by a column, sorts inside
partitions
• Example:
– SELECT name, department, salary
– FROM employees
– DISTRIBUTE BY department
– SORT BY salary DESC;
CLUSTER BY
• Shortcut for DISTRIBUTE BY + SORT BY
(same column, ASC)
• Example:
– SELECT name, department FROM
employees CLUSTER BY department;
Aggregating in HiveQL
• Purpose: Summarize data
• Functions: COUNT(), SUM(), AVG(),
MIN(), MAX()
GROUP BY
• Groups rows and applies aggregation
• Example:
– SELECT department, AVG(salary) AS
avg_salary
– FROM employees
– GROUP BY department;
HAVING Clause
• Filters groups after aggregation
• Example:
– SELECT department, COUNT(*) AS
emp_count
– FROM employees
– GROUP BY department
– HAVING COUNT(*) > 5;
Summary & Key Points
• ORDER BY → global, slow for large data
• SORT BY → local per reducer sort
• GROUP BY + aggregates for summaries
• HAVING for post-aggregation filters

Chapter - 1 Introduction
No ratings yet
Chapter - 1 Introduction
22 pages
PENTAGON SPACE - Java Full Stack Brochure New Syllabus 01
No ratings yet
PENTAGON SPACE - Java Full Stack Brochure New Syllabus 01
10 pages
Object-Oriented Modeling Guide
No ratings yet
Object-Oriented Modeling Guide
5 pages
Big Data Unit 1
No ratings yet
Big Data Unit 1
21 pages
BDA Lab ManuaL
No ratings yet
BDA Lab ManuaL
83 pages
New Batches Info: Quality Thought Ai-Data Science Diploma
No ratings yet
New Batches Info: Quality Thought Ai-Data Science Diploma
16 pages
Unit 1 Full Notes
No ratings yet
Unit 1 Full Notes
52 pages
OOAD FullNote
No ratings yet
OOAD FullNote
248 pages
Data Stream Processing Insights
No ratings yet
Data Stream Processing Insights
67 pages
Nptel - Data Mining - Week 2
No ratings yet
Nptel - Data Mining - Week 2
4 pages
BDA Lab Manual R22
0% (1)
BDA Lab Manual R22
70 pages
Data Mining:: Concepts and Techniques
100% (1)
Data Mining:: Concepts and Techniques
63 pages
Apache HIVE
No ratings yet
Apache HIVE
9 pages
Hive Using Hiveql
No ratings yet
Hive Using Hiveql
38 pages
Oracle SQL Syllabus
No ratings yet
Oracle SQL Syllabus
9 pages
Relational Database Management System
No ratings yet
Relational Database Management System
5 pages
R Language
No ratings yet
R Language
59 pages
Data Science & Analytics Beginners
No ratings yet
Data Science & Analytics Beginners
6 pages
The Full Stack Data Scientist BootCamp® Curriculum
No ratings yet
The Full Stack Data Scientist BootCamp® Curriculum
55 pages
BD - Unit - IV - Hive and Pig
No ratings yet
BD - Unit - IV - Hive and Pig
41 pages
DSML Curriculum Doc - Google Sheets
0% (1)
DSML Curriculum Doc - Google Sheets
12 pages
Supertype, Subtype
No ratings yet
Supertype, Subtype
31 pages
Unit 4 Hadoop Ecosystem - HIVE and PIG
No ratings yet
Unit 4 Hadoop Ecosystem - HIVE and PIG
157 pages
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
No ratings yet
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
55 pages
Hadoop Data Transfer with Sqoop
No ratings yet
Hadoop Data Transfer with Sqoop
21 pages
Chapter02.ppt 1
No ratings yet
Chapter02.ppt 1
33 pages
Data Imputation Techniques Guide
No ratings yet
Data Imputation Techniques Guide
6 pages
Mining Data Streams (Part 2)
No ratings yet
Mining Data Streams (Part 2)
56 pages
Orange
No ratings yet
Orange
11 pages
Big Data Analytics Unit-2
No ratings yet
Big Data Analytics Unit-2
30 pages
Hive Main Installation
No ratings yet
Hive Main Installation
2 pages
MySQL Master-Slave Replication Guide
100% (1)
MySQL Master-Slave Replication Guide
4 pages
BDA Unit - II
No ratings yet
BDA Unit - II
66 pages
MIcrosoft SQL Server 2012 - T-SQL
No ratings yet
MIcrosoft SQL Server 2012 - T-SQL
9 pages
Unit 4 Session 1
No ratings yet
Unit 4 Session 1
17 pages
SSIS Practical Training Course
No ratings yet
SSIS Practical Training Course
4 pages
Oltp Olap Rtap
No ratings yet
Oltp Olap Rtap
53 pages
BCA 428 Oracle
No ratings yet
BCA 428 Oracle
142 pages
Bda - Unit 1
No ratings yet
Bda - Unit 1
33 pages
Data Mining & Warehousing Basics
100% (1)
Data Mining & Warehousing Basics
86 pages
Unit 3 Topic 9 Hadoop Archives
No ratings yet
Unit 3 Topic 9 Hadoop Archives
32 pages
Hadoop Overview
100% (1)
Hadoop Overview
16 pages
Unit 1 Bda Complete Notes
No ratings yet
Unit 1 Bda Complete Notes
15 pages
Neovarsity DSML Brochure
No ratings yet
Neovarsity DSML Brochure
7 pages
FLUME
No ratings yet
FLUME
31 pages
Object-Relational & NoSQL Databases
No ratings yet
Object-Relational & NoSQL Databases
46 pages
Business Intelligence DW
No ratings yet
Business Intelligence DW
17 pages
Tech Interview Prep: Key Concepts
No ratings yet
Tech Interview Prep: Key Concepts
2 pages
SQL Database Development Test
No ratings yet
SQL Database Development Test
24 pages
Data Science Masters 2.0 - PW Skills
No ratings yet
Data Science Masters 2.0 - PW Skills
15 pages
DBMS - Unit-3
No ratings yet
DBMS - Unit-3
35 pages
CLOUD COMPUTING Presentation
No ratings yet
CLOUD COMPUTING Presentation
5 pages
MST Unit 5
No ratings yet
MST Unit 5
6 pages
Module 6
No ratings yet
Module 6
13 pages
Types of UML Diagrams
No ratings yet
Types of UML Diagrams
22 pages
Spark DataFrames Project Exercise - Jupyter Notebook
No ratings yet
Spark DataFrames Project Exercise - Jupyter Notebook
7 pages
Data-Mining-Lab-Manual Cs 703b
No ratings yet
Data-Mining-Lab-Manual Cs 703b
41 pages
Google Cloud Core Infrastructure Guide
No ratings yet
Google Cloud Core Infrastructure Guide
69 pages
HiveQL Guide for Data Analysts
No ratings yet
HiveQL Guide for Data Analysts
34 pages

Sorting and Aggregating in HiveQL

Uploaded by

Sorting and Aggregating in HiveQL

Uploaded by

Sorting and Aggregating in HiveQL

You might also like