0% found this document useful (0 votes)

4 views5 pages

Report

Uploaded by

Aqib khan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

4 views5 pages

Report

Uploaded by

Aqib khan

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

PDC

Assignment No.03

Submitted To:

Doctor Qamas Gull

Submitted By:

Aqib Sharafat (21-CS-51)

Section: C
Matrix Multiplication using CUDA - Performance Analysis Report

Problem Statement and Approach

This project implements and analyzes matrix multiplication performance for square matrices
(N×N) using CPU sequential computation and GPU-accelerated parallel computation with CUDA.
We implemented:

1. Basic CPU version with nested loops

2. Basic CUDA version

3. Optimized CUDA version with shared memory

Implementation Overview

CPU Implementation: Uses triple-nested loops to calculate the matrix product with O(N³) time
complexity.

Basic CUDA Implementation: Assigns one thread per output element, with each thread
calculating its position based on block/thread indices and performing the dot product computation
using global memory.

Optimized CUDA Implementation: Uses shared memory to reduce global memory access:

• Divides matrices into 16×16 tiles

• Loads tiles into shared memory

• Computes results using shared memory data

• Synchronizes threads to ensure data consistency

Performance Comparison Results

Experimental Setup

• GPU: NVIDIA GeForce RTX 3080

• CPU: Intel Core i7-10700K, 3.8GHz

• CUDA Version: 11.4

• Matrix Sizes: 256×256, 512×512, 1024×1024

Results

Execution Time (milliseconds)

Matrix Size CPU Time Basic CUDA Time Optimized CUDA Time

256×256 51.75 0.84 0.43

512×512 415.21 5.73 2.32

1024×1024 3302.47 43.62 16.54

Speedup Compared to CPU

Matrix Size Basic CUDA Speedup Optimized CUDA Speedup

256×256 61.6x 120.3x

512×512 72.5x 178.9x

1024×1024 75.7x 199.7x

Performance Visualization
Figure 2: Speedup achieved by CUDA implementations

Analysis and Discussion

Key Performance Insights

1. CPU vs. GPU Performance: GPU implementations demonstrate massive performance

advantages over CPU, with even the basic CUDA version achieving 60x+ speedup. This
advantage increases with matrix size, highlighting GPU's excellent scalability for this
problem.

2. Shared Memory Benefits: The optimized CUDA implementation achieves approximately

2-3x additional speedup over the basic version by utilizing shared memory, demonstrating
the critical importance of memory access patterns in GPU programming.

3. Scaling with Problem Size: Performance benefits increase with matrix size, reaching
nearly 200x speedup for 1024×1024 matrices with the optimized implementation. Larger
problems provide more parallelism for GPU exploitation, while CPU performance
deteriorates cubically.
Performance Bottlenecks and Optimization Opportunities

Despite shared memory optimization, memory bandwidth remains a limiting factor. Additional
optimization possibilities include:

• Better register usage

• Memory coalescing techniques

• Block size optimization for better occupancy

• Using texture memory for read-only data

• Loop unrolling

• Utilizing tensor cores on supported hardware

Conclusion:

This project demonstrates the enormous potential of GPU acceleration for computationally
intensive tasks like matrix multiplication. We achieved speedups of up to 200x using CUDA
compared to a CPU implementation. The optimized CUDA implementation using shared memory
significantly outperformed the basic CUDA implementation, emphasizing the importance of
understanding and optimizing for the GPU memory hierarchy.

Matrix multiplication serves as an excellent case study for GPU computing because:

1. It is compute-intensive (O(N³) operations)

2. It has high arithmetic intensity

3. It is naturally parallelizable

4. It demonstrates the importance of memory access patterns

The performance improvements observed in this project highlight why GPUs have become
essential tools in high-performance computing, machine learning, and scientific computing
applications where large-scale matrix operations are common.

Assignment No.03
No ratings yet
Assignment No.03
6 pages
Mamindla Sathvika Lab8
No ratings yet
Mamindla Sathvika Lab8
7 pages
Parallel Computing Lab4
No ratings yet
Parallel Computing Lab4
13 pages
CUDA Matrix Multiplication: Programming Languages Course
No ratings yet
CUDA Matrix Multiplication: Programming Languages Course
5 pages
HPC 4 B
No ratings yet
HPC 4 B
5 pages
PDC-Assignment 03 1
No ratings yet
PDC-Assignment 03 1
1 page
High Performance Computing On Gpu
No ratings yet
High Performance Computing On Gpu
37 pages
Programming Models For GPU Architecture
No ratings yet
Programming Models For GPU Architecture
55 pages
Unit 4
100% (1)
Unit 4
48 pages
Unit 6 Chapter 1 Parallel Programming Tools Cuda - Programming
No ratings yet
Unit 6 Chapter 1 Parallel Programming Tools Cuda - Programming
28 pages
CUDA C Best Practices Guide
No ratings yet
CUDA C Best Practices Guide
73 pages
CUDA for Developers and Engineers
No ratings yet
CUDA for Developers and Engineers
28 pages
Pdclab 5
No ratings yet
Pdclab 5
11 pages
Parallel Processing With Cuda
No ratings yet
Parallel Processing With Cuda
25 pages
Source Code
No ratings yet
Source Code
7 pages
GPU Architecture Ebook
No ratings yet
GPU Architecture Ebook
67 pages
Parallel Programming With CUDA - Architecture, Analysis
No ratings yet
Parallel Programming With CUDA - Architecture, Analysis
93 pages
CUDA Class Lecture03
No ratings yet
CUDA Class Lecture03
18 pages
CUDA Trapezoidal Lecture
No ratings yet
CUDA Trapezoidal Lecture
11 pages
Nvidia Cuda Thesis
100% (3)
Nvidia Cuda Thesis
8 pages
Duplichecker Plagiarism Report 0.76729900 1744563856
No ratings yet
Duplichecker Plagiarism Report 0.76729900 1744563856
5 pages
Programming Gpus With Cuda: John Mellor-Crummey
No ratings yet
Programming Gpus With Cuda: John Mellor-Crummey
42 pages
CUDA Programming: Johan Seland Johan - Seland@sintef - No
No ratings yet
CUDA Programming: Johan Seland Johan - Seland@sintef - No
76 pages
Introduction To Gpu Programming With Cuda and Openacc
100% (1)
Introduction To Gpu Programming With Cuda and Openacc
40 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
Cuuda Nvidai Guide - Part1
No ratings yet
Cuuda Nvidai Guide - Part1
15 pages
GPU Programming Slides 2
No ratings yet
GPU Programming Slides 2
37 pages
лк CUDA - 1 PDCn
No ratings yet
лк CUDA - 1 PDCn
31 pages
Assign 3
No ratings yet
Assign 3
6 pages
Cuda
No ratings yet
Cuda
25 pages
CUDA Compute Unified Device Architecture
No ratings yet
CUDA Compute Unified Device Architecture
26 pages
DS1822 - Parallel Computing-Unit3
No ratings yet
DS1822 - Parallel Computing-Unit3
17 pages
CUDA Class Lecture01
No ratings yet
CUDA Class Lecture01
26 pages
Intro to CUDA Programming Guide
No ratings yet
Intro to CUDA Programming Guide
33 pages
CUDA
No ratings yet
CUDA
46 pages
Cuda PPT
No ratings yet
Cuda PPT
54 pages
Analysis of Programs For GPGPU Architectures
No ratings yet
Analysis of Programs For GPGPU Architectures
4 pages
Bonsai
No ratings yet
Bonsai
64 pages
GPU Basics
No ratings yet
GPU Basics
93 pages
Parallel & Distributed Computing Report
No ratings yet
Parallel & Distributed Computing Report
4 pages
Cuda Review 1
No ratings yet
Cuda Review 1
13 pages
Chapter 5 - General Purpose PGPU, CUDA
No ratings yet
Chapter 5 - General Purpose PGPU, CUDA
70 pages
From CPU To GPU With CUDA C Language: Michele Tuttafesta Dottorato Di Ricerca in Fisica 25 Ciclo
No ratings yet
From CPU To GPU With CUDA C Language: Michele Tuttafesta Dottorato Di Ricerca in Fisica 25 Ciclo
71 pages
Christian Eh An Sen 2
No ratings yet
Christian Eh An Sen 2
18 pages
Bandwidth Intensive 3-D FFT Kernel For Gpus Using Cuda: Akira Nukada, Yasuhiko Ogata, Toshio Endo, Satoshi Matsuoka
No ratings yet
Bandwidth Intensive 3-D FFT Kernel For Gpus Using Cuda: Akira Nukada, Yasuhiko Ogata, Toshio Endo, Satoshi Matsuoka
11 pages
Introduction To CUDA
No ratings yet
Introduction To CUDA
51 pages
1 Cuda
100% (1)
1 Cuda
173 pages
Analyzing CUDA Workloads Using A Detailed GPU Simulator
No ratings yet
Analyzing CUDA Workloads Using A Detailed GPU Simulator
12 pages
HPC-Practical-4Addition of Two Large Vectors
No ratings yet
HPC-Practical-4Addition of Two Large Vectors
4 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
Lecture3 Fundamentals of CUDA (Part1) - 2025
No ratings yet
Lecture3 Fundamentals of CUDA (Part1) - 2025
52 pages
Parallel ProgrammingSyllabus
No ratings yet
Parallel ProgrammingSyllabus
2 pages
Secure Networks (Firewall)
No ratings yet
Secure Networks (Firewall)
33 pages
Accountability and Auditing
No ratings yet
Accountability and Auditing
15 pages
TransectionManagement Part1
No ratings yet
TransectionManagement Part1
29 pages
Feasibility Analysis
No ratings yet
Feasibility Analysis
2 pages
Lecture 9
No ratings yet
Lecture 9
31 pages
PDC Lecture 12
No ratings yet
PDC Lecture 12
42 pages
Assignment 4 (21-cs-51 & 21-cs-98)
No ratings yet
Assignment 4 (21-cs-51 & 21-cs-98)
8 pages
App File
No ratings yet
App File
1 page
Assignment 3
No ratings yet
Assignment 3
1 page
Excel 365 Lab Evaluation Sample
No ratings yet
Excel 365 Lab Evaluation Sample
6 pages
ReportTask 1
No ratings yet
ReportTask 1
3 pages
Muhammad Sameer Ahmed 23-CS-56 Assignment 2
No ratings yet
Muhammad Sameer Ahmed 23-CS-56 Assignment 2
3 pages
VMware & Windows Server Administrator Resume
No ratings yet
VMware & Windows Server Administrator Resume
5 pages
Python File Operations & OOP Basics
No ratings yet
Python File Operations & OOP Basics
39 pages
Tinydb Tutorial
No ratings yet
Tinydb Tutorial
103 pages
LT 894MP FleX Net FX 4000 Installation Operations Manual
No ratings yet
LT 894MP FleX Net FX 4000 Installation Operations Manual
154 pages
Forti SIEM
No ratings yet
Forti SIEM
7 pages
5 Firewall Security Policies
No ratings yet
5 Firewall Security Policies
35 pages
Add A Heading-3
No ratings yet
Add A Heading-3
22 pages
IPv4 and IPv6 Header
No ratings yet
IPv4 and IPv6 Header
3 pages
Emc Connectrix 6520b Ds
No ratings yet
Emc Connectrix 6520b Ds
4 pages
Series Resonance in RLC Circuits
No ratings yet
Series Resonance in RLC Circuits
10 pages
A Complete Guide To Design and Build A Hi-Fi LM388
No ratings yet
A Complete Guide To Design and Build A Hi-Fi LM388
54 pages
1A Low-Voltage LDO Regulator Guide
No ratings yet
1A Low-Voltage LDO Regulator Guide
13 pages
Software Testing and Quality Assurance
No ratings yet
Software Testing and Quality Assurance
13 pages
Biju Patnaik University of Technology, Orissa: Computer Science & Engineering (Cse)
No ratings yet
Biju Patnaik University of Technology, Orissa: Computer Science & Engineering (Cse)
13 pages
Machine Learning, Deep Learning, Computer Vision On Raspberry Pi2019-20
No ratings yet
Machine Learning, Deep Learning, Computer Vision On Raspberry Pi2019-20
2 pages
SSD
No ratings yet
SSD
11 pages
Zikria 2018
No ratings yet
Zikria 2018
43 pages
Tiles
No ratings yet
Tiles
6 pages
Flower Store Synopsis
No ratings yet
Flower Store Synopsis
6 pages
Rev Worksheet CS XI (2023-24)
No ratings yet
Rev Worksheet CS XI (2023-24)
3 pages
Diagnostic Imaging Equipment Prices
No ratings yet
Diagnostic Imaging Equipment Prices
1 page
System Software Mind Map
No ratings yet
System Software Mind Map
1 page
Ece r16 - Eca Syllabus
No ratings yet
Ece r16 - Eca Syllabus
2 pages
ICT Lesson Plan: Network Types & Devices
No ratings yet
ICT Lesson Plan: Network Types & Devices
5 pages
PDC A#02
No ratings yet
PDC A#02
4 pages
M700 Series Module
No ratings yet
M700 Series Module
5 pages
Tp2000 Manual
No ratings yet
Tp2000 Manual
27 pages
Ba Bms Honeywell Optimizer Unitary Controller Datasheet 31 00613 0424
No ratings yet
Ba Bms Honeywell Optimizer Unitary Controller Datasheet 31 00613 0424
6 pages
Linear Circuit Analysis (ELEN-1100) : Lecture # 3: Kirchhoff's Law and Series Parallel Combinations
100% (1)
Linear Circuit Analysis (ELEN-1100) : Lecture # 3: Kirchhoff's Law and Series Parallel Combinations
21 pages
PowerFlex Digital DC Drive Hardware Service Manual - Frame A
100% (1)
PowerFlex Digital DC Drive Hardware Service Manual - Frame A
134 pages

Report

Uploaded by

Report

Uploaded by

PDC

Doctor Qamas Gull

Aqib Sharafat (21-CS-51)

Problem Statement and Approach

1. Basic CPU version with nested loops

2. Basic CUDA version

3. Optimized CUDA version with shared memory

• Divides matrices into 16×16 tiles

• Loads tiles into shared memory

• Computes results using shared memory data

• Synchronizes threads to ensure data consistency

Performance Comparison Results

• GPU: NVIDIA GeForce RTX 3080

• CUDA Version: 11.4

• Matrix Sizes: 256×256, 512×512, 1024×1024

Execution Time (milliseconds)

256×256 51.75 0.84 0.43

512×512 415.21 5.73 2.32

1024×1024 3302.47 43.62 16.54

Speedup Compared to CPU

Matrix Size Basic CUDA Speedup Optimized CUDA Speedup

256×256 61.6x 120.3x

512×512 72.5x 178.9x

1024×1024 75.7x 199.7x

Analysis and Discussion

Key Performance Insights

1. CPU vs. GPU Performance: GPU implementations demonstrate massive performance

2. Shared Memory Benefits: The optimized CUDA implementation achieves approximately

• Better register usage

• Memory coalescing techniques

• Block size optimization for better occupancy

• Using texture memory for read-only data

• Utilizing tensor cores on supported hardware

1. It is compute-intensive (O(N³) operations)

2. It has high arithmetic intensity

4. It demonstrates the importance of memory access patterns

You might also like