paulpak58

Paul Pak paulpak58

__syncthreads() @Liquid4All

Pinned Loading

TransformerEngine TransformerEngine Public

Forked from NVIDIA/TransformerEngine

A library for accelerating Transformer models on NVIDIA GPUs, including using 8-bit floating point (FP8) precision on Hopper and Ada GPUs, to provide better performance with lower memory utilizatio…

Python
surgical_ssms surgical_ssms Public

State Space Models for Surgical Phase Recognition

Python
cutlass cutlass Public

Forked from NVIDIA/cutlass

CUDA Templates for Linear Algebra Subroutines

C++
flash-attention flash-attention Public

Forked from Dao-AILab/flash-attention

Fast and memory-efficient exact attention

Python