MapReduce Scripts in HiveQL With Keywords

The document explains how to use MapReduce scripts in HiveQL with TRANSFORM, MAP, and REDUCE clauses to integrate external scripts written in languages like Python, Perl, or Bash. It provides syntax examples and best practices for implementing these clauses to enhance data processing capabilities in Hive. The use of external scripts is recommended for advanced analytics, data cleaning, and machine learning integration.

Uploaded by

kanishqchezian

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

15 views8 pages

MapReduce Scripts in HiveQL With Keywords

Uploaded by

kanishqchezian

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

You are on page 1/ 8

MapReduce Scripts in HiveQL

• Using TRANSFORM, MAP, and REDUCE

clauses with external scripts.
• Integrates HiveQL with custom logic
written in languages like Python, Perl, or
Bash.
Introduction
• Hive executes queries as MapReduce jobs
internally.
• Sometimes built-in Hive functions are not
enough, so external scripts can be used.
• Keywords:
• - TRANSFORM: Pass data to external script and
get processed output.
• - MAP: Apply an external script in the mapper
phase.
• - REDUCE: Apply an external script in the
reducer phase.
TRANSFORM Clause
• Definition: TRANSFORM sends Hive query results to an
external script for processing.
• Syntax:
• SELECT TRANSFORM (col1, col2, ...)
• USING 'script_name'
• AS (new_col1, new_col2, ...)
• FROM table_name;
• Keywords:
• - USING: Specifies the script/command to run.
• - AS: Defines the schema for the output returned from
the script.
Example: Python Script with
TRANSFORM
• Python script (process_data.py):
• #!/usr/bin/env python
• import sys
• for line in sys.stdin:
• name, salary = line.strip().split('\t')
• print(f"{name}\t{float(salary)*1.1}")

• HiveQL:
• ADD FILE process_data.py; -- Make script available on cluster
• SELECT TRANSFORM (name, salary)
• USING 'python process_data.py'
• AS (name STRING, new_salary FLOAT)
• FROM employees;
MAP Clause
• Definition: Applies an external script during the map
phase of a MapReduce job.
• Syntax:
• MAP col1, col2 USING 'script_name' AS (output_cols...)
• Example:
• FROM (
• MAP employees.name, employees.salary
• USING 'python mapper.py'
• AS name STRING, salary FLOAT
• ) map_output
REDUCE Clause
• Definition: Applies an external script during the reduce
phase.
• Often used after MAP to aggregate or combine data.
• Syntax:
• REDUCE col1, col2 USING 'script_name' AS
(output_cols...)
• Example:
• REDUCE map_output.name, map_output.salary
• USING 'python reducer.py'
• AS name STRING, total_salary FLOAT;
Best Practices
• - Always use ADD FILE to distribute
scripts.
• - Scripts read input from STDIN and write
output to STDOUT.
• - Default field delimiter is TAB ('\t') —
handle it carefully.
• - Ensure output data types match Hive
table definitions.
• - Prefer TRANSFORM over
MAP/REDUCE for simplicity.
Summary
• TRANSFORM: Sends data to an external
script for row-wise processing.
• MAP: Custom processing in mapper
phase.
• REDUCE: Custom processing in reducer
phase.
• Best for advanced analytics, data
cleaning, text parsing, or ML integration.

HiveQL Overview
No ratings yet
HiveQL Overview
71 pages
Big Data Analytics and Developers Training Session 10
No ratings yet
Big Data Analytics and Developers Training Session 10
27 pages
Microsoft Scope
No ratings yet
Microsoft Scope
23 pages
BDA Unit-5
No ratings yet
BDA Unit-5
39 pages
HQL Cheat Sheet PDF
No ratings yet
HQL Cheat Sheet PDF
3 pages
Module - 4
No ratings yet
Module - 4
58 pages
Session 3.2
No ratings yet
Session 3.2
27 pages
Hive for Data Engineers
No ratings yet
Hive for Data Engineers
13 pages
Hive
No ratings yet
Hive
65 pages
Unit V
No ratings yet
Unit V
23 pages
Unit-5 - Hive
No ratings yet
Unit-5 - Hive
31 pages
Apache Pig for Data Analysts
No ratings yet
Apache Pig for Data Analysts
58 pages
Hive Commands for Beginners
No ratings yet
Hive Commands for Beginners
6 pages
Big Data Analytics: Welcome
No ratings yet
Big Data Analytics: Welcome
69 pages
Hive and Pig
No ratings yet
Hive and Pig
57 pages
TD Hive Guide V2.0
No ratings yet
TD Hive Guide V2.0
34 pages
HiveQL Guide for Data Analysts
No ratings yet
HiveQL Guide for Data Analysts
34 pages
Fetch XML in Microsoft Dynamics
No ratings yet
Fetch XML in Microsoft Dynamics
23 pages
Intro Abintio
No ratings yet
Intro Abintio
7 pages
Cheat Sheet: Hive Basics
No ratings yet
Cheat Sheet: Hive Basics
1 page
Hive For SQL Users: Cheat Sheet
No ratings yet
Hive For SQL Users: Cheat Sheet
3 pages
Bods Notes
No ratings yet
Bods Notes
10 pages
Pig Hive
No ratings yet
Pig Hive
59 pages
7 Hive
No ratings yet
7 Hive
30 pages
HIVE
No ratings yet
HIVE
28 pages
Bda exp6finAL
No ratings yet
Bda exp6finAL
8 pages
Apache Pig: Hadoop
No ratings yet
Apache Pig: Hadoop
55 pages
Big Data Management Continued
No ratings yet
Big Data Management Continued
48 pages
Power Query Documentation
No ratings yet
Power Query Documentation
840 pages
18CS72-Big Data and Analytics 3rd Internal QP 7th Semester - Scheme of Evaluation
No ratings yet
18CS72-Big Data and Analytics 3rd Internal QP 7th Semester - Scheme of Evaluation
14 pages
Unit 3
No ratings yet
Unit 3
14 pages
PRQL Language Book
No ratings yet
PRQL Language Book
90 pages
Hive Lecture Notes
100% (1)
Hive Lecture Notes
17 pages
Daily Running Notes - Power Query
No ratings yet
Daily Running Notes - Power Query
21 pages
Big Data
No ratings yet
Big Data
120 pages
Unit-IV - BDA
No ratings yet
Unit-IV - BDA
42 pages
(R17a0528) Big Data Analytics-57-100
No ratings yet
(R17a0528) Big Data Analytics-57-100
44 pages
Big Data Analytics
No ratings yet
Big Data Analytics
2 pages
DSCI 5350 - Lecture 5 PDF
No ratings yet
DSCI 5350 - Lecture 5 PDF
64 pages
Transformation 20
No ratings yet
Transformation 20
24 pages
Hive Intoduction and Tables
No ratings yet
Hive Intoduction and Tables
31 pages
Hive Commands Syn
No ratings yet
Hive Commands Syn
27 pages
Lecture38 PDF
No ratings yet
Lecture38 PDF
23 pages
Hadoop - Session 7 Python
No ratings yet
Hadoop - Session 7 Python
6 pages
Big Data Practicals
No ratings yet
Big Data Practicals
10 pages
Bda Practical Index
No ratings yet
Bda Practical Index
2 pages
ESQL Short Course
100% (1)
ESQL Short Course
14 pages
Unit 5 (BDC)
No ratings yet
Unit 5 (BDC)
59 pages
HIVE Lect
No ratings yet
HIVE Lect
91 pages
Hive Overview
No ratings yet
Hive Overview
28 pages
PySpark Reference Guide
No ratings yet
PySpark Reference Guide
2 pages
Hiveppt
No ratings yet
Hiveppt
29 pages
Mod 2
No ratings yet
Mod 2
70 pages
ServiceNow Transform Scripts Guide
No ratings yet
ServiceNow Transform Scripts Guide
16 pages
Silo Help
No ratings yet
Silo Help
272 pages
Tanya Resume
No ratings yet
Tanya Resume
1 page
Assignment 1 Data Base
No ratings yet
Assignment 1 Data Base
4 pages
Web Services Practicals
No ratings yet
Web Services Practicals
42 pages
NA2750-usermanual Y 20130403
No ratings yet
NA2750-usermanual Y 20130403
20 pages
Alagapa University PG Dde
No ratings yet
Alagapa University PG Dde
4 pages
30 Types of Hackers by Sree Charan C
100% (2)
30 Types of Hackers by Sree Charan C
9 pages
Digital Technology Scheme of Work Jss2
No ratings yet
Digital Technology Scheme of Work Jss2
2 pages
DRDO Seeks Project Scientists
No ratings yet
DRDO Seeks Project Scientists
7 pages
West 9e Chapter 11 Slides
No ratings yet
West 9e Chapter 11 Slides
59 pages
Chapter 06 Software Engineering
No ratings yet
Chapter 06 Software Engineering
32 pages
The Fujitsu F53: Multi Cassette Media Dispenser
No ratings yet
The Fujitsu F53: Multi Cassette Media Dispenser
2 pages
Chapter-3 Instruction Set and Programming of 8085 Part1 - 1-Introduction
No ratings yet
Chapter-3 Instruction Set and Programming of 8085 Part1 - 1-Introduction
82 pages
ARCON Authenticator Mobile App OTP
No ratings yet
ARCON Authenticator Mobile App OTP
7 pages
Cse543 Web Security 23
No ratings yet
Cse543 Web Security 23
39 pages
AT Command Set: - M1HS, N501HS, H600
100% (1)
AT Command Set: - M1HS, N501HS, H600
46 pages
How To Prepare, Give and Evaluate Training Programs
No ratings yet
How To Prepare, Give and Evaluate Training Programs
33 pages
Critical Infrastructure Ics Scada Security Solutions Overview PDF
No ratings yet
Critical Infrastructure Ics Scada Security Solutions Overview PDF
2 pages
Class-6 Chapter 7 Solutions To Lab Assignments and Exercise
No ratings yet
Class-6 Chapter 7 Solutions To Lab Assignments and Exercise
4 pages
HC 06 Datasheet
No ratings yet
HC 06 Datasheet
14 pages
Application of Disruptive Technologies in Business: Mba (M&S) Section-B Mba (RM) Section-A
No ratings yet
Application of Disruptive Technologies in Business: Mba (M&S) Section-B Mba (RM) Section-A
18 pages
It Security Dissertation Topics
100% (2)
It Security Dissertation Topics
7 pages
Illustration Photo Editing Sept2022
No ratings yet
Illustration Photo Editing Sept2022
12 pages
Chapter7 Input Output Organization PDF
No ratings yet
Chapter7 Input Output Organization PDF
19 pages
Tech Ed: Testing Electronic Components
No ratings yet
Tech Ed: Testing Electronic Components
25 pages
Chapter 2 - The Origins of Software
No ratings yet
Chapter 2 - The Origins of Software
26 pages
LogRhythm REST API User Guide 7.14.0 RevA
No ratings yet
LogRhythm REST API User Guide 7.14.0 RevA
19 pages
ReSec Spotlight 2025
No ratings yet
ReSec Spotlight 2025
2 pages
EmpowermentTechnologies12 q4 Week5-6 v4
100% (1)
EmpowermentTechnologies12 q4 Week5-6 v4
12 pages
Technical Specifications
No ratings yet
Technical Specifications
43 pages

MapReduce Scripts in HiveQL With Keywords

Uploaded by

MapReduce Scripts in HiveQL With Keywords

Uploaded by

MapReduce Scripts in HiveQL

• Using TRANSFORM, MAP, and REDUCE

You might also like