InternLM · HIT-cwh · Sep 10, 2025
diff --git a/adaptive_gemm/jit_kernels/gemm.py b/adaptive_gemm/jit_kernels/gemm.py
@@ -158,7 +158,9 @@ def gemm_fp8_fp8_bf16_nt(lhs: List[torch.Tensor],
 
     # Auto-tuning with compilation
     global includes, template
-    num_sms = torch.cuda.get_device_properties(device='cuda').multi_processor_count - 24
+    # When communication overlaps with computing, both operations compete for SM resources.
+    # Disable persistent kernel can lead to better performance.
+    num_sms = torch.cuda.get_device_properties(device='cuda').multi_processor_count * 10
     num_sms, block_m, block_n, num_stages, num_tma_multicast, smem_size = get_best_configs(m, n, k, 1, num_sms)
     args = (lhs, lhs_scales, rhs, rhs_scales, out, m, torch.cuda.current_stream(), num_sms, smem_size)
     runtime = jit_tuner.compile_and_tune(

diff --git a/adaptive_gemm/jit_kernels/k_grouped_gemm_dw.py b/adaptive_gemm/jit_kernels/k_grouped_gemm_dw.py
@@ -170,7 +170,9 @@ def k_grouped_gemm_dw_fp8_fp8_bf16_tn_contiguous(
 
     # Auto-tuning with compilation
     global includes, template
-    num_sms = torch.cuda.get_device_properties(device='cuda').multi_processor_count - 24
+    # When communication overlaps with computing, both operations compete for SM resources.
+    # Disable persistent kernel can lead to better performance.
+    num_sms = torch.cuda.get_device_properties(device='cuda').multi_processor_count * 10
     block_m, block_n, num_stages, num_tma_multicast, smem_size = get_best_configs(m, n, k, num_groups, num_sms,
                                                                                   is_grouped_contiguous=True)
     args = (lhs, lhs_scales, rhs, rhs_scales, out,

diff --git a/adaptive_gemm/jit_kernels/m_grouped_gemm_varlen.py b/adaptive_gemm/jit_kernels/m_grouped_gemm_varlen.py
@@ -280,7 +280,9 @@ def m_grouped_varlen_gemm_fp8_fp8_bf16_nt_contiguous(lhs: Tuple[torch.Tensor, to
     # Auto-tuning with compilation
     # global includes, template
 
-    num_sms = torch.cuda.get_device_properties(device='cuda').multi_processor_count - 24
+    # When communication overlaps with computing, both operations compete for SM resources.
+    # Disable persistent kernel can lead to better performance.
+    num_sms = torch.cuda.get_device_properties(device='cuda').multi_processor_count * 10
 
     num_sms, block_m, block_n, num_stages, num_tma_multicast, smem_size = get_best_configs(m, n, k, 1, num_sms)