Topics tagged cutlass

Topic	Replies	Views	Activity
Switch from "sm90_xmma_gemm.._cublas"/ "void cutlass::Kernel<cutlass_80_tensorop_.." kernels with CUDA-12.1 to "nvjet_tst..." kernels with CUDA-12.8 GPU-Accelerated Libraries cudnn , cublas , cutlass	0	90	October 26, 2025
NVSHMEM issue with warpgroup all reduce GPU-Accelerated Libraries cuda , kernel , nvshmem , cutlass	3	85	October 9, 2025
Why is cuBLAS cublasDgemm slower than my naive GEMM kernel? GPU-Accelerated Libraries cuda , kernel , cublas , cutlass	1	65	September 15, 2025
Adding ThreadblockSwizzle GPU-Accelerated Libraries cutlass	0	45	September 4, 2025
How to Map CUTLASS AND CuTe Layouts to Linear Indexes (Hierarchical) GPU-Accelerated Libraries cutensor , cutlass	1	226	May 24, 2025
Error compiling cuFFTDx code: ‘cudafe++’ died with status 0xC0000409 GPU-Accelerated Libraries cufft , cutlass	2	159	October 8, 2024
H100 PCIe hgemm cannot reach peak performance GPU-Accelerated Libraries cublas , cutlass	4	593	May 6, 2024
GEMM stage on ampere GPU-Accelerated Libraries cutlass	0	372	March 12, 2024
[cuBLASDx] no instance of overloaded function "__half::__half" matches the specified type GPU-Accelerated Libraries cublas , cutlass	2	735	January 30, 2024
How to enable Tensor core for cublasSgemmBatched on H100? GPU-Accelerated Libraries cuda , kernel , cublas , cutlass	5	1045	November 17, 2023
Cutlasss Functionality for SIMT GPU-Accelerated Libraries cutlass	1	395	October 30, 2023
Is there any official benchmark tool to test a GPU's FLOPS? GPU-Accelerated Libraries cublas , cutlass	3	6706	October 24, 2023
Cutlass not working in ARM-based machine GPU-Accelerated Libraries cublas , cutlass	1	496	April 12, 2023
What does "sliced1x4_nn" mean in matmul? GPU-Accelerated Libraries cublas , cutlass	0	677	June 17, 2022
What is "custom" "custom-back" size for SGEMM in cutlass? GPU-Accelerated Libraries cutlass	0	566	June 16, 2022
Where does cutlass' detailed GEMM kernel? GPU-Accelerated Libraries cutlass	4	1092	June 16, 2022
How many threads and blocks does cutlass use? (When C is tall in official post) GPU-Accelerated Libraries cutlass	1	698	June 14, 2022
How to compile cutlass app using JIT GPU-Accelerated Libraries cutlass	1	976	May 23, 2022
Using CUTLASS to get inverse of a matrix GPU-Accelerated Libraries cutlass	1	1314	December 7, 2021
Understanding cutlass GEMM hierarchy GPU-Accelerated Libraries cutlass	1	3685	October 14, 2021