BECOA157 Parallel Matrix Multiplication

This document discusses parallel matrix multiplication using CUDA. It defines a GPU kernel called GPUmatmul that performs matrix multiplication by assigning each matrix element to a unique thread. The kernel is launched on the GPU with block and grid dimensions. The CPU implementation CPUmatmul is also provided for comparison. The main function initializes matrices, runs both CPU and GPU multiplication, times the runs, and checks the results. It shows the GPU implementation achieves significant speedup over the CPU version.

Uploaded by

mysql mysql

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

55 views3 pages

BECOA157 Parallel Matrix Multiplication

Uploaded by

mysql mysql

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 3

Parallel Matrix Multiplication using CUDA

#include <bits/stdc++.h>
using namespace std;

// Kernel function for matrix multiplication

_global_
void GPUmatmul(int N, double *x, double *y, double *ans)
{
//calculates unique thread ID in the block
int t=
(blockDim.x*blockDim.y)*threadIdx.z+(threadIdx.y*blockDim.x)+(threadIdx.x);
//calculates unique block ID in the grid
int b= (gridDim.x*gridDim.y)*blockIdx.z+(blockIdx.y*gridDim.x)+(blockIdx.x);
//block size (this is redundant though)
int T= blockDim.x*blockDim.y*blockDim.z;
//grid size (this is redundant though)
int B= gridDim.x*gridDim.y*gridDim.z;

/*
* Each cell in the matrix is assigned to a different thread.
* Each thread do O(N*number of asssigned cell) computation.
* Assigned cells of different threads does not overlape with
* each other. And so no need for synchronization.
*/

for (int i=b;i<N;i+=B)

{
for(int j=t;j<N;j+=T)
{
for(int k=0;k<N;k++)
{
ans[i*N+j]+=(x[i*N+k]*y[k*N+j]);
}
}
}
}

void CPUmatmul(int N,double x, double y, double *ans)

{
for(int i=0;i<N;i++)
{
for(int j=0;j<N;j++)
{
for(int k=0;k<N;k++)
{
ans[i*N+j]+=(x[i*N+k]*y[k*N+j]);
}
}
}
}

bool check(int N,double *ans)

{
for(int i=0;i<N;i++)
{
for(int j=0;j<N;j++)
{
if(ans[i*N+j]!=20.0)return false;
}
}
return true;
}

int main(void)
{
//size of matrix
int N = 1<<9;

double x, y, *ans;

// Allocate Unified Memory – accessible from CPU or GPU

cudaMallocManaged(&x, N*N*sizeof(double));
cudaMallocManaged(&y, N*N*sizeof(double));
cudaMallocManaged(&ans, N*N*sizeof(double));

// initialize x,y and ans arrays on the host

for (int i = 0; i < N; i++)
{
for(int j=0;j<N;j++)
{
x[i*N+j]=5;
y[i*N+j]=(i==j?1:0);
ans[i*N+j]=(double)0.000000000000;
}
}

clock_t t;
double avg=0;
cout<<"Strting CPU computation"<<endl;
for(int i=0;i<=3;i++)
{
t=clock();
CPUmatmul(N, x, y,ans);
t = clock() - t;
if(i)avg+=t; //we will ignore the first run
printf ("It took CPU-%d %f
ms.\n",i,(((double)t)/CLOCKS_PER_SEC)*1000);
}
avg/=3;
avg/=CLOCKS_PER_SEC;
avg*=1000;
printf ("It took %lf ms on avg.\n",avg);
if(check(N,ans))cout<<"RUN OK."<<endl;
else cout<<"RUN NOT OK."<<endl;

// initialize x,y and ans arrays on the host

for (int i = 0; i < N; i++)
{
for(int j=0;j<N;j++)
{
x[i*N+j]=5;
y[i*N+j]=(i==j?1:0);
ans[i*N+j]=(double)0.000000000000;
}
}
avg=0;
cout<<"Strting GPU computation"<<endl;
// Run kernel on GPU
for(int i=0;i<=3;i++)
{
t=clock();
GPUmatmul<<<dim3(16,16,16), dim3(16,8,8)>>>(N, x, y,ans);
cudaDeviceSynchronize();
t = clock() - t;
if(i)avg+=t; //we will ignore the first run
printf ("It took GPU-%d %f
ms.\n",i,(((double)t)/CLOCKS_PER_SEC)*1000);
}
avg/=3;
avg/=CLOCKS_PER_SEC;
avg*=1000;
printf ("It took %lf ms on avg.\n",avg);
if(check(N,ans))cout<<"RUN OK."<<endl;
else cout<<"RUN NOT OK."<<endl;

// Free memory
cudaFree(x);
cudaFree(y);
return 0;
}

Source Code
No ratings yet
Source Code
7 pages
Lab7 GPU
No ratings yet
Lab7 GPU
10 pages
p4 Multiply
No ratings yet
p4 Multiply
2 pages
CUDA Matrix Multiplication Quiz
No ratings yet
CUDA Matrix Multiplication Quiz
12 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
CUDA MatrixMultiplication
No ratings yet
CUDA MatrixMultiplication
2 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
Cuda 4.1
No ratings yet
Cuda 4.1
2 pages
Rishi
No ratings yet
Rishi
30 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
PDC Assignment
No ratings yet
PDC Assignment
9 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
Cuda4 2
No ratings yet
Cuda4 2
4 pages
PC Cuda Assignment-2
No ratings yet
PC Cuda Assignment-2
29 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
No ratings yet
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
45 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
CUDA Class Lecture03
No ratings yet
CUDA Class Lecture03
18 pages
Cuda
No ratings yet
Cuda
4 pages
Assignment 04
No ratings yet
Assignment 04
16 pages
HPC 4 B
No ratings yet
HPC 4 B
5 pages
Input: Output: 1. Sub String Program
No ratings yet
Input: Output: 1. Sub String Program
8 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
2023 CSC14120 Lecture01 CUDAIntroduction
No ratings yet
2023 CSC14120 Lecture01 CUDAIntroduction
32 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
Google Colab Solution Activity
No ratings yet
Google Colab Solution Activity
5 pages
HPC-Practical-4Addition of Two Large Vectors
No ratings yet
HPC-Practical-4Addition of Two Large Vectors
4 pages
L06 GPGPU CUDA Programming 1
No ratings yet
L06 GPGPU CUDA Programming 1
23 pages
5 Computation
No ratings yet
5 Computation
13 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
HPC Int2 Key
No ratings yet
HPC Int2 Key
10 pages
Mulmatrix Cu
No ratings yet
Mulmatrix Cu
3 pages
Addition Cuda
No ratings yet
Addition Cuda
2 pages
HPC File
No ratings yet
HPC File
22 pages
DeviceFunc Cu
100% (1)
DeviceFunc Cu
1 page
CUDA
No ratings yet
CUDA
3 pages
CUDA Lab Guide for Students
No ratings yet
CUDA Lab Guide for Students
19 pages
Cuuda Nvidai Guide - Part3
No ratings yet
Cuuda Nvidai Guide - Part3
15 pages
Allocate The Device Memory Where We Will Copy M
No ratings yet
Allocate The Device Memory Where We Will Copy M
2 pages
My Experiments: Opencl Gpu Matrix Multiplication Program
No ratings yet
My Experiments: Opencl Gpu Matrix Multiplication Program
19 pages
3 Cuda
No ratings yet
3 Cuda
5 pages
G80 Cuda
No ratings yet
G80 Cuda
25 pages
Group A Assignment 4 (A) : Two Large Vectors
No ratings yet
Group A Assignment 4 (A) : Two Large Vectors
5 pages
217 Lec3
No ratings yet
217 Lec3
46 pages
Threads
No ratings yet
Threads
54 pages
Cuda Mode Lecture2
No ratings yet
Cuda Mode Lecture2
33 pages
Parallel Computing Lab4
No ratings yet
Parallel Computing Lab4
13 pages
GPU Assignment-3 Solution
No ratings yet
GPU Assignment-3 Solution
4 pages
CUDA Programming for Developers
No ratings yet
CUDA Programming for Developers
42 pages
Parallel Scan in C CUda
No ratings yet
Parallel Scan in C CUda
3 pages
cs239 Ejer1
No ratings yet
cs239 Ejer1
2 pages
Cuda Notes From Udacity Lecture
No ratings yet
Cuda Notes From Udacity Lecture
3 pages
GPU History & CUDA Programming Basics
No ratings yet
GPU History & CUDA Programming Basics
44 pages
CUDA Additionof2Vector
No ratings yet
CUDA Additionof2Vector
2 pages
CUDA Libraries for Developers
No ratings yet
CUDA Libraries for Developers
86 pages
HW 2
No ratings yet
HW 2
12 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
Wildfly Configuration, Deployment, and Administration: Second Edition
No ratings yet
Wildfly Configuration, Deployment, and Administration: Second Edition
28 pages
Hud Sight
No ratings yet
Hud Sight
4 pages
Civil Blue Gene
No ratings yet
Civil Blue Gene
19 pages
Github - Classroom - and - Linux - Commands
No ratings yet
Github - Classroom - and - Linux - Commands
32 pages
Opetrating System
No ratings yet
Opetrating System
25 pages
LPIC 1 Linux Professional Institute Certification Practice Tests Exam 101 500 and Exam 102 500 Steve Suehring PDF Download
100% (3)
LPIC 1 Linux Professional Institute Certification Practice Tests Exam 101 500 and Exam 102 500 Steve Suehring PDF Download
56 pages
EE-457 Spring
No ratings yet
EE-457 Spring
11 pages
Compiling Asterisk: Linode Cloud Hosting
No ratings yet
Compiling Asterisk: Linode Cloud Hosting
4 pages
Windows 11 Inside Out - PAG 9 A 29
No ratings yet
Windows 11 Inside Out - PAG 9 A 29
22 pages
Command Line Tips & Tricks Guide
No ratings yet
Command Line Tips & Tricks Guide
2 pages
Fedora Command Line Lab Guide
No ratings yet
Fedora Command Line Lab Guide
6 pages
How To Register An ActiveX Control (.Ocx) Manually
No ratings yet
How To Register An ActiveX Control (.Ocx) Manually
1 page
Intel GFX
No ratings yet
Intel GFX
12 pages
Tekla User Assistance
No ratings yet
Tekla User Assistance
14 pages
Lab - Creating A Virtual Install of Windows XP Using Virtualbox
No ratings yet
Lab - Creating A Virtual Install of Windows XP Using Virtualbox
11 pages
Red Hat Enterprise Linux-9-9 (4) .4 Release Notes-En-us
No ratings yet
Red Hat Enterprise Linux-9-9 (4) .4 Release Notes-En-us
202 pages
Windows CMD Mastery Guide
No ratings yet
Windows CMD Mastery Guide
11 pages
ISPF - Features
No ratings yet
ISPF - Features
49 pages
Avamar Backup Restoration
No ratings yet
Avamar Backup Restoration
4 pages
Guia de Instalação e-SmartDX - Linux
No ratings yet
Guia de Instalação e-SmartDX - Linux
4 pages
Message
No ratings yet
Message
2 pages
LIBRARY MANAGEMENT SYSTEM PROJECT C++
No ratings yet
LIBRARY MANAGEMENT SYSTEM PROJECT C++
10 pages
Unit 3 Introduction To Windows
No ratings yet
Unit 3 Introduction To Windows
25 pages
Operating System: Concurrent Process and Scheduling
No ratings yet
Operating System: Concurrent Process and Scheduling
98 pages
حل Midterm Exam- Group C
No ratings yet
حل Midterm Exam- Group C
3 pages
Linux Process Management Guide
No ratings yet
Linux Process Management Guide
29 pages
Cache Memory in Computer Organization
No ratings yet
Cache Memory in Computer Organization
5 pages
Network Install Scripts
No ratings yet
Network Install Scripts
9 pages
Top Unix Interview Questions - Part 1
No ratings yet
Top Unix Interview Questions - Part 1
37 pages
RC 6 Install Guide 1.11
No ratings yet
RC 6 Install Guide 1.11
16 pages

BECOA157 Parallel Matrix Multiplication

Uploaded by

BECOA157 Parallel Matrix Multiplication

Uploaded by

Parallel Matrix Multiplication using CUDA

// Kernel function for matrix multiplication

for (int i=b;i<N;i+=B)

void CPUmatmul(int N,double *x, double *y, double *ans)

bool check(int N,double *ans)

double *x, *y, *ans;

// Allocate Unified Memory – accessible from CPU or GPU

// initialize x,y and ans arrays on the host

// initialize x,y and ans arrays on the host

You might also like

void CPUmatmul(int N,double x, double y, double *ans)

double x, y, *ans;