0% found this document useful (0 votes)

32 views2 pages

CUDA MatrixMultiplication

The document contains a CUDA program for performing matrix multiplication. It allocates memory for matrices on both the host and device, initializes them, and executes the multiplication using a kernel. The program also measures and prints the elapsed time for the operation.

Uploaded by

yaseeniqbal365

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

32 views2 pages

CUDA MatrixMultiplication

Uploaded by

yaseeniqbal365

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 2

CUDA Program for Matrix Multiplication

#include <stdio.h>
#include <stdlib.h>
#include <cuda_runtime.h>

#define BLOCK_SIZE 16

global void matrix_multiply(float a, float b, float *c, int n) {

int row = blockIdx.y * blockDim.y + threadIdx.y;
int col = blockIdx.x * blockDim.x + threadIdx.x;
float sum = 0.0f;

if (row < n && col < n) {

for (int i = 0; i < n; ++i) {
sum += a[row * n + i] * b[i * n + col];
}
c[row * n + col] = sum;
}
}

int main() {
int n = 1024;
size_t size = n * n * sizeof(float);

float a, b, *c;

float *d_a, *d_b, *d_c;
cudaEvent_t start, stop;
float elapsed_time;

// Allocate host memory

a = (float*)malloc(size);
b = (float*)malloc(size);
c = (float*)malloc(size);

// Initialize matrices
for (int i = 0; i < n * n; ++i) {
a[i] = i % n;
b[i] = i % n;
}

// Allocate device memory

cudaMalloc(&d_a, size);
cudaMalloc(&d_b, size);
cudaMalloc(&d_c, size);

// Copy data to device

cudaMemcpy(d_a, a, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_b, b, size, cudaMemcpyHostToDevice);

// Configure kernel launch parameters

dim3 threads(BLOCK_SIZE, BLOCK_SIZE);
dim3 blocks((n + threads.x - 1) / threads.x, (n + threads.y - 1) /
threads.y);

// Launch and time the kernel

cudaEventCreate(&start);
cudaEventCreate(&stop);
cudaEventRecord(start);

matrix_multiply<<<blocks, threads>>>(d_a, d_b, d_c, n);

cudaEventRecord(stop);
cudaEventSynchronize(stop);
cudaEventElapsedTime(&elapsed_time, start, stop);

// Copy result to host

cudaMemcpy(c, d_c, size, cudaMemcpyDeviceToHost);

printf("Elapsed time for matrix multiplication: %.2f ms\n", elapsed_time);

// Free memory
cudaFree(d_a); cudaFree(d_b); cudaFree(d_c);
free(a); free(b); free(c);

return 0;
}

Output:
Elapsed time for matrix multiplication: 58.74 ms

Source Code
No ratings yet
Source Code
7 pages
p4 Multiply
No ratings yet
p4 Multiply
2 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
CUDA Matrix Multiplication Quiz
No ratings yet
CUDA Matrix Multiplication Quiz
12 pages
CUDA Class Lecture03
No ratings yet
CUDA Class Lecture03
18 pages
PC Cuda Assignment-2
No ratings yet
PC Cuda Assignment-2
29 pages
Cuda4 2
No ratings yet
Cuda4 2
4 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
HPC 4 B
No ratings yet
HPC 4 B
5 pages
Lab7 GPU
No ratings yet
Lab7 GPU
10 pages
Cuda 4.1
No ratings yet
Cuda 4.1
2 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
Threads
No ratings yet
Threads
54 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
PDC Assignment
No ratings yet
PDC Assignment
9 pages
Cuuda Nvidai Guide - Part3
No ratings yet
Cuuda Nvidai Guide - Part3
15 pages
Cuda
No ratings yet
Cuda
4 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
Rishi
No ratings yet
Rishi
30 pages
Allocate The Device Memory Where We Will Copy M
No ratings yet
Allocate The Device Memory Where We Will Copy M
2 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
2023 CSC14120 Lecture01 CUDAIntroduction
No ratings yet
2023 CSC14120 Lecture01 CUDAIntroduction
32 pages
HPC File
No ratings yet
HPC File
22 pages
Lecture 4
No ratings yet
Lecture 4
48 pages
GPU History & CUDA Programming Basics
No ratings yet
GPU History & CUDA Programming Basics
44 pages
HPC-Practical-4Addition of Two Large Vectors
No ratings yet
HPC-Practical-4Addition of Two Large Vectors
4 pages
Mulmatrix Cu
No ratings yet
Mulmatrix Cu
3 pages
217 Lec3
No ratings yet
217 Lec3
46 pages
5 Computation
No ratings yet
5 Computation
13 pages
CUDA
No ratings yet
CUDA
3 pages
217 Lec2
No ratings yet
217 Lec2
24 pages
CUDA Additionof2Vector
No ratings yet
CUDA Additionof2Vector
2 pages
Addition Cuda
No ratings yet
Addition Cuda
2 pages
CUDAProg Model
No ratings yet
CUDAProg Model
24 pages
Parallel Computing Lab4
No ratings yet
Parallel Computing Lab4
13 pages
CUDA Programming for Developers
No ratings yet
CUDA Programming for Developers
29 pages
DeviceFunc Cu
100% (1)
DeviceFunc Cu
1 page
CUDA Programming for Developers
No ratings yet
CUDA Programming for Developers
42 pages
Input: Output: 1. Sub String Program
No ratings yet
Input: Output: 1. Sub String Program
8 pages
Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código
No ratings yet
Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código
8 pages
CUDA Practical's
No ratings yet
CUDA Practical's
38 pages
CUDA Programming: Johan Seland Johan - Seland@sintef - No
No ratings yet
CUDA Programming: Johan Seland Johan - Seland@sintef - No
76 pages
Multithreaded Architectures: Memory and Data Locality
No ratings yet
Multithreaded Architectures: Memory and Data Locality
39 pages
Cuda Mode Lecture2
No ratings yet
Cuda Mode Lecture2
33 pages
Intro to CUDA Programming Guide
No ratings yet
Intro to CUDA Programming Guide
33 pages
Class 10
No ratings yet
Class 10
13 pages
002 - Introduction To CUDA Programming - 1
No ratings yet
002 - Introduction To CUDA Programming - 1
54 pages
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
No ratings yet
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
45 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
Introduction to GPGPU Programming
No ratings yet
Introduction to GPGPU Programming
32 pages
GPU Computing 2
No ratings yet
GPU Computing 2
28 pages
cs239 Ejer1
No ratings yet
cs239 Ejer1
2 pages
Google Colab Solution Activity
No ratings yet
Google Colab Solution Activity
5 pages

CUDA MatrixMultiplication

Uploaded by

CUDA MatrixMultiplication

Uploaded by

CUDA Program for Matrix Multiplication

__global__ void matrix_multiply(float *a, float *b, float *c, int n) {

if (row < n && col < n) {

float *a, *b, *c;

// Allocate host memory

// Allocate device memory

// Copy data to device

// Configure kernel launch parameters

// Launch and time the kernel

matrix_multiply<<<blocks, threads>>>(d_a, d_b, d_c, n);

// Copy result to host

printf("Elapsed time for matrix multiplication: %.2f ms\n", elapsed_time);

You might also like

global void matrix_multiply(float a, float b, float *c, int n) {

float a, b, *c;