0% found this document useful (0 votes)

33 views9 pages

PDC Assignment

Uploaded by

maryamasad668

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

33 views9 pages

PDC Assignment

Uploaded by

maryamasad668

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 9

Name: Maryam Asad

Reg. no.: COSC211101083

Course Instructor: Sir Ahsan Aslam

Due Date: 30th December, 2024 (14:00 hours)

1. Host to Device Code Conversions

Example 1: Basic Vector Addition

Host Code (CPU)

#include <iostream>

void vectorAdd(float* A, float* B, float* C, int N) {

for (int i = 0; i < N; ++i) {
C[i] = A[i] + B[i];
}
}

int main() {
int N = 1000;
float A[N], B[N], C[N];
// Initialize A and B arrays
vectorAdd(A, B, C, N);
return 0;
}

Device Code (GPU)

#include <iostream>

global void vectorAddKernel(float* A, float* B, float* C, int N) {

int idx = threadIdx.x + blockIdx.x * blockDim.x;
if (idx < N) {
C[idx] = A[idx] + B[idx];
}
}

int main() {
int N = 1000;
float *d_A, *d_B, *d_C;
float A[N], B[N], C[N];

// Allocate device memory

cudaMalloc((void**)&d_A, N * sizeof(float));
cudaMalloc((void**)&d_B, N * sizeof(float));
cudaMalloc((void**)&d_C, N * sizeof(float));

// Copy data to device

cudaMemcpy(d_A, A, N * sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(d_B, B, N * sizeof(float), cudaMemcpyHostToDevice);

// Launch the kernel

vectorAddKernel<<<(N + 255) / 256, 256>>>(d_A, d_B, d_C, N);

// Copy result back to host

cudaMemcpy(C, d_C, N * sizeof(float), cudaMemcpyDeviceToHost);

// Free device memory

cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);

return 0;
}

Example 2: Array Initialization and Summation

Host Code (CPU)

#include <iostream>

int main() {
const int N = 1000;
int A[N];
int sum = 0;

// Initialize array A
for (int i = 0; i < N; ++i) {
A[i] = i;
}

// Calculate sum of A
for (int i = 0; i < N; ++i) {
sum += A[i];
}

std::cout << "Sum: " << sum << std::endl;

return 0;
}

Device Code (GPU)

#include <iostream>

global void sumKernel(int* A, int* sum, int N) {

int idx = threadIdx.x + blockIdx.x * blockDim.x;
if (idx < N) {
atomicAdd(sum, A[idx]);
}
}

int main() {
const int N = 1000;
int *d_A, *d_sum;
int A[N];
int sum = 0;

// Initialize array A
for (int i = 0; i < N; ++i) {
A[i] = i;
}

// Allocate device memory

cudaMalloc((void**)&d_A, N * sizeof(int));
cudaMalloc((void**)&d_sum, sizeof(int));

// Initialize sum to 0 on device

cudaMemcpy(d_sum, &sum, sizeof(int), cudaMemcpyHostToDevice);
// Copy data to device
cudaMemcpy(d_A, A, N * sizeof(int), cudaMemcpyHostToDevice);

// Launch kernel
sumKernel<<<(N + 255) / 256, 256>>>(d_A, d_sum, N);

// Copy result back to host

cudaMemcpy(&sum, d_sum, sizeof(int), cudaMemcpyDeviceToHost);

std::cout << "Sum: " << sum << std::endl;

// Free device memory

cudaFree(d_A);
cudaFree(d_sum);

return 0;
}

Example 3: Parallel Array Scaling

Host Code (CPU)

#include <iostream>

void scaleArray(int* A, int scale, int N) {

for (int i = 0; i < N; ++i) {
A[i] *= scale;
}
}

int main() {
const int N = 1000;
int A[N];

// Initialize array A
for (int i = 0; i < N; ++i) {
A[i] = i;
}

int scale = 2;
scaleArray(A, scale, N);

return 0;
}

Device Code (GPU)

#include <iostream>

global void scaleArrayKernel(int* A, int scale, int N) {

int idx = threadIdx.x + blockIdx.x * blockDim.x;
if (idx < N) {
A[idx] *= scale;
}
}

int main() {
const int N = 1000;
int *d_A;
int A[N];

// Initialize array A
for (int i = 0; i < N; ++i) {
A[i] = i;
}

int scale = 2;

// Allocate device memory

cudaMalloc((void**)&d_A, N * sizeof(int));

// Copy data to device

cudaMemcpy(d_A, A, N * sizeof(int), cudaMemcpyHostToDevice);

// Launch kernel
scaleArrayKernel<<<(N + 255) / 256, 256>>>(d_A, scale, N);

// Copy result back to host

cudaMemcpy(A, d_A, N * sizeof(int), cudaMemcpyDeviceToHost);

// Free device memory

cudaFree(d_A);

return 0;
}

Example 4: Matrix Transposition

Host Code (CPU)

#include <iostream>

void transposeMatrix(int* A, int* B, int N) {

for (int i = 0; i < N; ++i) {
for (int j = 0; j < N; ++j) {
B[j * N + i] = A[i * N + j];
}
}
}

int main() {
const int N = 3;
int A[N * N] = {1, 2, 3, 4, 5, 6, 7, 8, 9};
int B[N * N];

transposeMatrix(A, B, N);

return 0;
}

Device Code (GPU)

#include <iostream>

global void transposeMatrixKernel(int* A, int* B, int N) {

int idx = threadIdx.x + blockIdx.x * blockDim.x;
int idy = threadIdx.y + blockIdx.y * blockDim.y;

if (idx < N && idy < N) {

B[idy * N + idx] = A[idx * N + idy];
}
}

int main() {
const int N = 3;
int *d_A, *d_B;
int A[N * N] = {1, 2, 3, 4, 5, 6, 7, 8, 9};
int B[N * N];

// Allocate device memory

cudaMalloc((void**)&d_A, N * N * sizeof(int));
cudaMalloc((void**)&d_B, N * N * sizeof(int));

// Copy data to device

cudaMemcpy(d_A, A, N * N * sizeof(int), cudaMemcpyHostToDevice);

// Launch kernel
dim3 block(1, 1);
dim3 grid(N, N);
transposeMatrixKernel<<<grid, block>>>(d_A, d_B, N);

// Copy result back to host

cudaMemcpy(B, d_B, N * N * sizeof(int), cudaMemcpyDeviceToHost);

// Free device memory

cudaFree(d_A);
cudaFree(d_B);

return 0;
}

Example 5: Finding the Maximum Value

Host Code (CPU)

#include <iostream>

int findMax(int* A, int N) {

int maxVal = A[0];
for (int i = 1; i < N; ++i) {
if (A[i] > maxVal) {
maxVal = A[i];
}
}
return maxVal;
}

int main() {
const int N = 1000;
int A[N];

// Initialize array A
for (int i = 0; i < N; ++i) {
A[i] = i;
}

int maxVal = findMax(A, N);

std::cout << "Max Value: " << maxVal << std::endl;

return 0;
}

Device Code (GPU)

#include <iostream>

global void findMaxKernel(int* A, int* maxVal, int N) {

int idx = threadIdx.x + blockIdx.x * blockDim.x;
if (idx < N) {
atomicMax(maxVal, A[idx]);
}
}

int main() {
const int N = 1000;
int *d_A, *d_maxVal;
int A[N];
int maxVal = 0;

// Initialize array A
for (int i = 0; i < N; ++i) {
A[i] = i;
}

// Allocate device memory

cudaMalloc((void**)&d_A, N * sizeof(int));
cudaMalloc((void**)&d_maxVal, sizeof(int));

// Initialize maxVal to 0 on device

cudaMemcpy(d_maxVal, &maxVal, sizeof(int), cudaMemcpyHostToDevice);

// Copy data to device

cudaMemcpy(d_A, A, N * sizeof(int), cudaMemcpyHostToDevice);

// Launch kernel
findMaxKernel<<<(N + 255) / 256, 256>>>(d_A, d_maxVal, N);

// Copy result back to host

cudaMemcpy(&maxVal, d_maxVal, sizeof(int), cudaMemcpyDeviceToHost);

std::cout << "Max Value: " << maxVal << std::endl;

// Free device memory

cudaFree(d_A);
cudaFree(d_maxVal);

return 0;
}

2. Matrix Multiplication Examples in Device Code

Matrix Multiplication (Example 1)

Device Code (GPU)

#include <iostream>

global void matrixMultiplyKernel(int* A, int* B, int* C, int N) {

int row = threadIdx.x + blockIdx.x * blockDim.x;
int col = threadIdx.y + blockIdx.y * blockDim.y;
if (row < N && col < N) {
int val = 0;
for (int k = 0; k < N; ++k) {
val += A[row * N + k] * B[k * N + col];
}
C[row * N + col] = val;
}
}

int main() {
const int N = 3;
int *d_A, *d_B, *d_C;
int A[N * N] = {1, 2, 3, 4, 5, 6, 7, 8, 9};
int B[N * N] = {9, 8, 7, 6, 5, 4, 3, 2, 1};
int C[N * N] = {0};

// Allocate device memory

cudaMalloc((void**)&d_A, N * N * sizeof(int));
cudaMalloc((void**)&d_B, N * N * sizeof(int));
cudaMalloc((void**)&d_C, N * N * sizeof(int));

// Copy data to device

cudaMemcpy(d_A, A, N * N * sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(d_B, B, N * N * sizeof(int), cudaMemcpyHostToDevice);

// Launch kernel
dim3 block(1, 1);
dim3 grid(N, N);
matrixMultiplyKernel<<<grid, block>>>(d_A, d_B, d_C, N);

// Copy result back to host

cudaMemcpy(C, d_C, N * N * sizeof(int), cudaMemcpyDeviceToHost);

// Free device memory

cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);

return 0;
}

Matrix Multiplication (Example 2)

Device Code (GPU)

#include <iostream>

global void matrixMultiplyKernel(int* A, int* B, int* C, int N) {

int row = threadIdx.x + blockIdx.x * blockDim.x;
int col = threadIdx.y + blockIdx.y * blockDim.y;
if (row < N && col < N) {
int value = 0;
for (int i = 0; i < N; i++) {
value += A[row * N + i] * B[i * N + col];
}
C[row * N + col] = value;
}
}

int main() {
const int N = 4;
int *d_A, *d_B, *d_C;
int A[N * N] = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16};
int B[N * N] = {16, 15, 14, 13, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1};
int C[N * N] = {0};

// Allocate device memory

cudaMalloc((void**)&d_A, N * N * sizeof(int));
cudaMalloc((void**)&d_B, N * N * sizeof(int));
cudaMalloc((void**)&d_C, N * N * sizeof(int));

// Copy data to device

cudaMemcpy(d_A, A, N * N * sizeof(int), cudaMemcpyHostToDevice);
cudaMemcpy(d_B, B, N * N * sizeof(int), cudaMemcpyHostToDevice);

// Launch kernel
dim3 block(2, 2);
dim3 grid(N / 2, N / 2);
matrixMultiplyKernel<<<grid, block>>>(d_A, d_B, d_C, N);

// Copy result back to host

cudaMemcpy(C, d_C, N * N * sizeof(int), cudaMemcpyDeviceToHost);

// Free device memory

cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);

return 0;
}

p4 Multiply
No ratings yet
p4 Multiply
2 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
Cuda
No ratings yet
Cuda
4 pages
Source Code
No ratings yet
Source Code
7 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
CUDA Matrix Multiplication Quiz
No ratings yet
CUDA Matrix Multiplication Quiz
12 pages
Rishi
No ratings yet
Rishi
30 pages
Input: Output: 1. Sub String Program
No ratings yet
Input: Output: 1. Sub String Program
8 pages
2023 CSC14120 Lecture01 CUDAIntroduction
No ratings yet
2023 CSC14120 Lecture01 CUDAIntroduction
32 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
CUDA Class Lecture03
No ratings yet
CUDA Class Lecture03
18 pages
217 Lec2
No ratings yet
217 Lec2
24 pages
GPU History & CUDA Programming Basics
No ratings yet
GPU History & CUDA Programming Basics
44 pages
CUDA Programming for Developers
No ratings yet
CUDA Programming for Developers
42 pages
Lab7 GPU
No ratings yet
Lab7 GPU
10 pages
Allocate The Device Memory Where We Will Copy M
No ratings yet
Allocate The Device Memory Where We Will Copy M
2 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
Cuda 4.1
No ratings yet
Cuda 4.1
2 pages
Threads
No ratings yet
Threads
54 pages
Addition Cuda
No ratings yet
Addition Cuda
2 pages
CUDA Part-1
No ratings yet
CUDA Part-1
52 pages
3 Cuda
No ratings yet
3 Cuda
5 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
CUDA MatrixMultiplication
No ratings yet
CUDA MatrixMultiplication
2 pages
Multithreaded Architectures: Memory and Data Locality
No ratings yet
Multithreaded Architectures: Memory and Data Locality
39 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
PC Cuda Assignment-2
No ratings yet
PC Cuda Assignment-2
29 pages
Cuda C/C++ Basics: NVIDIA Corporation
No ratings yet
Cuda C/C++ Basics: NVIDIA Corporation
67 pages
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
No ratings yet
Department of Computer Engineering BE Laboratory Practice-I A.Y 2021-22 SEM1
45 pages
CUDA - Part 1 LMS
No ratings yet
CUDA - Part 1 LMS
51 pages
CUDA Practical's
No ratings yet
CUDA Practical's
38 pages
Introduction To CUDA C 3
No ratings yet
Introduction To CUDA C 3
67 pages
01 Cuda C Basics
No ratings yet
01 Cuda C Basics
32 pages
GPUs and GPGPU
No ratings yet
GPUs and GPGPU
15 pages
CUDA Additionof2Vector
No ratings yet
CUDA Additionof2Vector
2 pages
Cuuda Nvidai Guide - Part3
No ratings yet
Cuuda Nvidai Guide - Part3
15 pages
CUDA
No ratings yet
CUDA
3 pages
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
No ratings yet
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
7 pages
Intro To CUDA
No ratings yet
Intro To CUDA
76 pages
Lecture2 Cuda Basic 2010
No ratings yet
Lecture2 Cuda Basic 2010
44 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
CUDA Programming Invert
No ratings yet
CUDA Programming Invert
36 pages
HPC Int2 Key
No ratings yet
HPC Int2 Key
10 pages
Google Colab Solution Activity
No ratings yet
Google Colab Solution Activity
5 pages
CUDA Compute Unified Device Architecture
No ratings yet
CUDA Compute Unified Device Architecture
26 pages
5 Computation
No ratings yet
5 Computation
13 pages
GPU Series III CUDA Compilation Host Side 1721302802
No ratings yet
GPU Series III CUDA Compilation Host Side 1721302802
8 pages
Cuda4 2
No ratings yet
Cuda4 2
4 pages
CUDAProg Model
No ratings yet
CUDAProg Model
24 pages
Introduction To CUDA C
No ratings yet
Introduction To CUDA C
67 pages
L06 GPGPU CUDA Programming 1
No ratings yet
L06 GPGPU CUDA Programming 1
23 pages
3 Computation
No ratings yet
3 Computation
28 pages
Chapter 12
No ratings yet
Chapter 12
7 pages
Rehana Research Project
No ratings yet
Rehana Research Project
111 pages
Abdul IMC CW2
No ratings yet
Abdul IMC CW2
18 pages
Terrorism Essay
No ratings yet
Terrorism Essay
4 pages
Mini Project Format
No ratings yet
Mini Project Format
5 pages
Anna University: Chennai - 600 025
0% (1)
Anna University: Chennai - 600 025
13 pages
Java 2: Quarter 3 - Module 1: DATA ARRAYS: Importance of Arrays
No ratings yet
Java 2: Quarter 3 - Module 1: DATA ARRAYS: Importance of Arrays
8 pages
Document 885643.1 - How To Install 11.2 - 12.1 - 12.2 - 18c - 19c Database - Client Software in Silent Mode
No ratings yet
Document 885643.1 - How To Install 11.2 - 12.1 - 12.2 - 18c - 19c Database - Client Software in Silent Mode
10 pages
Software QA Lab Guide
No ratings yet
Software QA Lab Guide
99 pages
Jetty Server Cookbook PDF
No ratings yet
Jetty Server Cookbook PDF
79 pages
Oose (3 &4)
No ratings yet
Oose (3 &4)
76 pages
Online Based Library Management System For Education Institutions
No ratings yet
Online Based Library Management System For Education Institutions
11 pages
Exam Example Sol
100% (2)
Exam Example Sol
11 pages
Visual Prolog 5.0 - Getstart
No ratings yet
Visual Prolog 5.0 - Getstart
149 pages
Installation Guide
No ratings yet
Installation Guide
45 pages
903 201995746 MD101T02AENUTrainerHandbook
No ratings yet
903 201995746 MD101T02AENUTrainerHandbook
122 pages
Android AutoCompleteTextView Guide
No ratings yet
Android AutoCompleteTextView Guide
5 pages
FLOW Automation Users Guide
No ratings yet
FLOW Automation Users Guide
94 pages
走出软件作坊【完整版】
No ratings yet
走出软件作坊【完整版】
214 pages
20it403 DBMS Digital Material Unit Iv
No ratings yet
20it403 DBMS Digital Material Unit Iv
115 pages
Introduction To PhpMyAdmin MySQL
100% (1)
Introduction To PhpMyAdmin MySQL
16 pages
Assignment-1: Student Name: K. Sai Charan
No ratings yet
Assignment-1: Student Name: K. Sai Charan
12 pages
PY0101 - Python For Data Science, AI, & Development Cheat Sheet
No ratings yet
PY0101 - Python For Data Science, AI, & Development Cheat Sheet
2 pages
Salesforce DL 2023
No ratings yet
Salesforce DL 2023
23 pages
Windows Workflow Foundation - Everything About Re-Hosting The Workflow Designer
No ratings yet
Windows Workflow Foundation - Everything About Re-Hosting The Workflow Designer
17 pages
Reference Guide: March 02, 2012
No ratings yet
Reference Guide: March 02, 2012
40 pages
SPSS Syntax Guide With Examples From The
No ratings yet
SPSS Syntax Guide With Examples From The
35 pages
Programmeren1 Tentamen Code
No ratings yet
Programmeren1 Tentamen Code
5 pages
Basics of Python-XI
No ratings yet
Basics of Python-XI
11 pages
How To Change - Customize The Key Mappings For Webforms - (ID 209671.1)
No ratings yet
How To Change - Customize The Key Mappings For Webforms - (ID 209671.1)
6 pages
Ravi Led Hitec
No ratings yet
Ravi Led Hitec
5 pages
Kuch Bhi Hoga
No ratings yet
Kuch Bhi Hoga
9 pages
Compiler Intermediate Code Guide
No ratings yet
Compiler Intermediate Code Guide
30 pages
SQL Injection Guide with Examples
No ratings yet
SQL Injection Guide with Examples
9 pages

PDC Assignment

Uploaded by

PDC Assignment

Uploaded by

Name: Maryam Asad

Reg. no.: COSC211101083

Course Instructor: Sir Ahsan Aslam

Due Date: 30th December, 2024 (14:00 hours)

Example 1: Basic Vector Addition

Host Code (CPU)

void vectorAdd(float* A, float* B, float* C, int N) {

Device Code (GPU)

__global__ void vectorAddKernel(float* A, float* B, float* C, int N) {

// Allocate device memory

// Copy data to device

// Launch the kernel

// Copy result back to host

// Free device memory

Example 2: Array Initialization and Summation

Host Code (CPU)

std::cout << "Sum: " << sum << std::endl;

Device Code (GPU)

__global__ void sumKernel(int* A, int* sum, int N) {

// Allocate device memory

// Initialize sum to 0 on device

// Copy result back to host

std::cout << "Sum: " << sum << std::endl;

// Free device memory

Example 3: Parallel Array Scaling

Host Code (CPU)

void scaleArray(int* A, int scale, int N) {

Device Code (GPU)

__global__ void scaleArrayKernel(int* A, int scale, int N) {

// Allocate device memory

// Copy data to device

// Copy result back to host

// Free device memory

Example 4: Matrix Transposition

Host Code (CPU)

void transposeMatrix(int* A, int* B, int N) {

Device Code (GPU)

__global__ void transposeMatrixKernel(int* A, int* B, int N) {

if (idx < N && idy < N) {

// Allocate device memory

// Copy data to device

// Copy result back to host

// Free device memory

Example 5: Finding the Maximum Value

Host Code (CPU)

int findMax(int* A, int N) {

int maxVal = findMax(A, N);

Device Code (GPU)

__global__ void findMaxKernel(int* A, int* maxVal, int N) {

// Allocate device memory

// Initialize maxVal to 0 on device

// Copy data to device

// Copy result back to host

std::cout << "Max Value: " << maxVal << std::endl;

// Free device memory

2. Matrix Multiplication Examples in Device Code

Device Code (GPU)

__global__ void matrixMultiplyKernel(int* A, int* B, int* C, int N) {

// Allocate device memory

// Copy data to device

// Copy result back to host

// Free device memory

Matrix Multiplication (Example 2)

Device Code (GPU)

__global__ void matrixMultiplyKernel(int* A, int* B, int* C, int N) {

// Allocate device memory

// Copy data to device

// Copy result back to host

// Free device memory

You might also like

global void vectorAddKernel(float* A, float* B, float* C, int N) {

global void sumKernel(int* A, int* sum, int N) {

global void scaleArrayKernel(int* A, int scale, int N) {

global void transposeMatrixKernel(int* A, int* B, int N) {

global void findMaxKernel(int* A, int* maxVal, int N) {

global void matrixMultiplyKernel(int* A, int* B, int* C, int N) {

global void matrixMultiplyKernel(int* A, int* B, int* C, int N) {