pytorch
diff --git a/‎.ci/aarch64_linux/aarch64_wheel_ci_build.py
Lines changed: 4 additions & 0 deletions b/‎.ci/aarch64_linux/aarch64_wheel_ci_build.py
Lines changed: 4 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/TensorShape.cpp
Lines changed: 1 addition & 2 deletions b/‎aten/src/ATen/native/TensorShape.cpp
Lines changed: 1 addition & 2 deletions
diff --git a/‎aten/src/ATen/native/cpu/Activation.cpp
Lines changed: 10 additions & 10 deletions b/‎aten/src/ATen/native/cpu/Activation.cpp
Lines changed: 10 additions & 10 deletions
diff --git a/‎aten/src/ATen/native/cuda/ActivationHardswishKernel.cu
Lines changed: 2 additions & 2 deletions b/‎aten/src/ATen/native/cuda/ActivationHardswishKernel.cu
Lines changed: 2 additions & 2 deletions
diff --git a/‎aten/src/ATen/native/cuda/Blas.cpp
Lines changed: 2 additions & 0 deletions b/‎aten/src/ATen/native/cuda/Blas.cpp
Lines changed: 2 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/cuda/CUDAScalar.cu
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/native/cuda/CUDAScalar.cu
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/native/mps/operations/BitwiseOps.mm
Lines changed: 8 additions & 43 deletions b/‎aten/src/ATen/native/mps/operations/BitwiseOps.mm
Lines changed: 8 additions & 43 deletions
diff --git a/‎aten/src/ATen/native/mps/operations/Scalar.mm
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/native/mps/operations/Scalar.mm
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/native/transformers/cuda/attention.cu
Lines changed: 20 additions & 36 deletions b/‎aten/src/ATen/native/transformers/cuda/attention.cu
Lines changed: 20 additions & 36 deletions
@@ -99,10 +99,14 @@ def update_wheel(wheel_path, desired_cuda) -> None:
         if "126" in desired_cuda:
             libs_to_copy += [
                 "/usr/local/cuda/lib64/libnvrtc-builtins.so.12.6",
+                "/usr/local/cuda/lib64/libcufile.so.0",
+                "/usr/local/cuda/lib64/libcufile_rdma.so.1",
             ]
         elif "128" in desired_cuda:
             libs_to_copy += [
                 "/usr/local/cuda/lib64/libnvrtc-builtins.so.12.8",
+                "/usr/local/cuda/lib64/libcufile.so.0",
+                "/usr/local/cuda/lib64/libcufile_rdma.so.1",
             ]
     else:
         libs_to_copy += [
 
@@ -3059,8 +3059,7 @@ Tensor slice(
   }
   auto storage_offset = self.storage_offset() + start_val * strides[dim];
   auto len = end_val - start_val;
-  sizes[dim] =
-      (len == 0) ? 0 : (1 + (len - 1) / step); // round-up, avoiding overflow
+  sizes[dim] = (len + step - 1) / step; // round-up
   strides[dim] *= step;
 
   Tensor result;
 
@@ -832,9 +832,9 @@ void hardswish_backward_kernel(TensorIterator& iter) {
     cpu_kernel_vec(
       iter,
       [&](scalar_t grad_val, scalar_t self_val) -> scalar_t {
-        if (float(self_val) < neg_three) {
+        if (float(self_val) <= neg_three) {
           return zero;
-        } else if (float(self_val) <= three) {
+        } else if (float(self_val) < three) {
           return float(grad_val) * ((float(self_val) / three) + one_half);
         } else {
           return grad_val;
@@ -847,19 +847,19 @@ void hardswish_backward_kernel(TensorIterator& iter) {
           Vec::blendv(
             grad_val0 * ((self_val0 / kThreeVec) + kOneHalfVec),
             grad_val0,
-            self_val0 > kThreeVec
+            self_val0 >= kThreeVec
           ),
           kZeroVec,
-          self_val0 < kNegThreeVec
+          self_val0 <= kNegThreeVec
         );
         self_val1 = Vec::blendv(
           Vec::blendv(
             grad_val1 * ((self_val1 / kThreeVec) + kOneHalfVec),
             grad_val1,
-            self_val1 > kThreeVec
+            self_val1 >= kThreeVec
           ),
           kZeroVec,
-          self_val1 < kNegThreeVec
+          self_val1 <= kNegThreeVec
         );
         return convert_from_float<scalar_t>(self_val0, self_val1);
       });
@@ -878,9 +878,9 @@ void hardswish_backward_kernel(TensorIterator& iter) {
     cpu_kernel_vec(
       iter,
       [&](scalar_t grad_val, scalar_t self_val) {
-        if (self_val < neg_three) {
+        if (self_val <= neg_three) {
           return zero;
-        } else if (self_val <= three) {
+        } else if (self_val < three) {
           return grad_val * ((self_val / three) + one_half);
         } else {
           return grad_val;
@@ -891,10 +891,10 @@ void hardswish_backward_kernel(TensorIterator& iter) {
           Vec::blendv(
             grad_val * ((self_val / kThreeVec) + kOneHalfVec),
             grad_val,
-            self_val > kThreeVec
+            self_val >= kThreeVec
           ),
           kZeroVec,
-          self_val < kNegThreeVec
+          self_val <= kNegThreeVec
         );
       }
     );
 
@@ -45,9 +45,9 @@ void hardswish_backward_kernel(TensorIterator& iter) {
       [zero, three, neg_three, one_half]GPU_LAMBDA(scalar_t grad_val_, scalar_t self_val_) -> scalar_t {
         opmath_t grad_val = static_cast<opmath_t>(grad_val_);
         opmath_t self_val = static_cast<opmath_t>(self_val_);
-        if (self_val < neg_three) {
+        if (self_val <= neg_three) {
           return zero;
-        } else if (self_val <= three) {
+        } else if (self_val < three) {
           return grad_val * ((self_val / three) + one_half);
         } else {
           return grad_val;
 
@@ -1149,9 +1149,11 @@ _scaled_mm_out_cuda(const Tensor& mat1, const Tensor& mat2,
   TORCH_CHECK(!out_dtype || *out_dtype == out.scalar_type(), "out_dtype must match output matrix type");
   TORCH_CHECK(isFloat8Type(mat1.scalar_type()), "Expected mat1 to be Float8 matrix got ", mat1.scalar_type());
   TORCH_CHECK(isFloat8Type(mat2.scalar_type()), "Expected mat2 to be Float8 matrix got ", mat2.scalar_type());
+#ifndef USE_ROCM
   // Type restrictions imposed by CuBLASLt as of CUDA-12.1
   TORCH_CHECK(mat1.scalar_type() != ScalarType::Float8_e5m2 || mat2.scalar_type() != ScalarType::Float8_e5m2,
         "Multiplication of two Float8_e5m2 matrices is not supported");
+#endif
   if (bias) {
     TORCH_CHECK(out.scalar_type() != kFloat, "Bias is not supported when out_dtype is set to Float32");
     TORCH_CHECK(bias->scalar_type() == ScalarType::BFloat16 || bias->scalar_type() == ScalarType::Half,
 
@@ -26,6 +26,7 @@ namespace at::native {
 
 Scalar _local_scalar_dense_cuda(const Tensor& self) {
   Scalar r;
+  TORCH_CHECK(self.numel() > 0, "_local_scalar_dense: Empty tensor not supported");
 #if defined(USE_ROCM)
   if (!use_sync_mode()){
 #endif
 
@@ -103,22 +103,14 @@ kernel void bitwise_not(device {0}  *out [[buffer(0)]],
   return getMetalType(t.scalar_type());
 }
 
-static inline std::string getMetalType(const c10::Scalar& s) {
-  return getMetalType(s.type());
-}
-
-template <typename ScalarOrTensor>
 static id<MTLComputePipelineState> getCPLState(const Tensor& t1,
                                                const Tensor& t2,
-                                               const ScalarOrTensor& t3,
+                                               const Tensor& t3,
                                                const std::string& fname) {
   return lib.getPipelineStateForFunc(fname, {getMetalType(t1), getMetalType(t2), getMetalType(t3)});
 }
 
-static void handle_tensor_tensor_binary_op(const Tensor& self,
-                                           const Tensor& other,
-                                           Tensor& output,
-                                           const std::string& kernel_name) {
+static void handle_binary_op(const Tensor& self, const Tensor& other, Tensor& output, const std::string& kernel_name) {
   using namespace at::mps;
   MPSStream* stream = getCurrentMPSStream();
   auto cplState = getCPLState(output, self, other, kernel_name);
@@ -142,33 +134,6 @@ static void handle_tensor_tensor_binary_op(const Tensor& self,
   });
 }
 
-static void handle_tensor_scalar_binary_op(const Tensor& self,
-                                           const Scalar& other,
-                                           Tensor& output,
-                                           const std::string& kernel_name) {
-  using namespace at::mps;
-  MPSStream* stream = getCurrentMPSStream();
-  auto cplState = getCPLState(output, self, other, kernel_name);
-  uint64_t sval = other.to<int64_t>();
-  uint32_t length = output.numel();
-  if (length == 0) {
-    return;
-  }
-
-  dispatch_sync(stream->queue(), ^() {
-    getMPSProfiler().beginProfileKernel(cplState, kernel_name, {self});
-
-    id<MTLComputeCommandEncoder> commandEncoder = stream->commandEncoder();
-
-    [commandEncoder pushDebugGroup:[NSString stringWithFormat:@"Dispatch %s kernel", kernel_name.c_str()]];
-    [commandEncoder setComputePipelineState:cplState];
-    mtl_setArgs(commandEncoder, output, self, sval);
-    mtl_dispatch1DJob(commandEncoder, cplState, length);
-
-    getMPSProfiler().endProfileKernel(cplState);
-  });
-}
-
 static void _bitwise_op_out_mps(const Tensor& self,
                                 const Tensor& other,
                                 const Tensor& output_,
@@ -201,14 +166,14 @@ static void _bitwise_op_out_mps(const Tensor& self,
       TORCH_CHECK(false, "Unknown operation to be performed over scalars ", op_name);
     }
   } else if (is_other_scalar) {
-    handle_tensor_scalar_binary_op(self.contiguous(), other.item(), output, fmt::format("bitwise_{}_scalar", op_name));
+    handle_binary_op(self.contiguous(), other, output, fmt::format("bitwise_{}_scalar", op_name));
   } else if (is_self_scalar) {
-    handle_tensor_scalar_binary_op(other.contiguous(), self.item(), output, fmt::format("bitwise_{}_scalar", op_name));
+    handle_binary_op(other.contiguous(), self, output, fmt::format("bitwise_{}_scalar", op_name));
   } else {
-    handle_tensor_tensor_binary_op(self.expand(output_size).contiguous(),
-                                   other.expand(output_size).contiguous(),
-                                   output,
-                                   fmt::format("bitwise_{}_tensor", op_name));
+    handle_binary_op(self.expand(output_size).contiguous(),
+                     other.expand(output_size).contiguous(),
+                     output,
+                     fmt::format("bitwise_{}_tensor", op_name));
   }
   if (needs_output_copy) {
     output_.copy_(output);
 
@@ -15,6 +15,7 @@
 
 Scalar _local_scalar_dense_mps(const Tensor& self) {
   Scalar r;
+  TORCH_CHECK(self.numel() > 0, "_local_scalar_dense: Empty tensor not supported");
 
   auto output = at::empty_like(self, TensorOptions(kCPU));
   mps::mps_copy_(output, self, false);
 
@@ -1246,22 +1246,19 @@ std::tuple<Tensor, Tensor, Tensor, Tensor, c10::SymInt, c10::SymInt> _efficient_
   auto ret = aotriton::v2::flash::check_gpu(stream);
   if (hipSuccess != ret) {
       TORCH_CHECK(false,
-                  "[AOTriton] Accelerated SDPA only supports MI200/MI300X/7900XTX/9070XT GPUs"
-                  " (gfx90a/gfx942/gfx1100/gfx1201)")
+                  "[AOTriton] Accelerated SDPA only supports MI200/MI300X/Navi31 GPUs"
+                  " (gfx90a:sramecc+:xnack-/gfx942:sramecc+:xnack-/gfx1100)")
   }
 
   // AOTriton may accept aligned on logsumexp tensor in the future for better
   // performance, but for now it requires compact logsumexp tensor, even if
   // compute_logsumexp is false
   constexpr int kAlignLSE = 1;
   res = at::empty({B, M, num_heads, Kv}, query.options());
-  at::Tensor softmax_lse;
   logsumexp = at::empty(
-      { B, num_heads, compute_logsumexp ? max_seqlen_q : 0},
+      { B, num_heads, max_seqlen_q },
       query.options().dtype(at::ScalarType::Float));
-  if (compute_logsumexp) {
-    softmax_lse = logsumexp.view({B * num_heads, max_seqlen_q});
-  }
+  at::Tensor softmax_lse = logsumexp.view({B * num_heads, max_seqlen_q});
   at::Tensor q_t = query.transpose(1, 2);
   at::Tensor k_t = key.transpose(1, 2);
   at::Tensor v_t = value.transpose(1, 2);
@@ -1277,40 +1274,32 @@ std::tuple<Tensor, Tensor, Tensor, Tensor, c10::SymInt, c10::SymInt> _efficient_
 
   const auto softmax_scale = sdp::calculate_scale(query, scale).expect_float();
 
-  at::Tensor atomic_counter;
-  if (is_causal) {
-    atomic_counter = at::zeros({1}, query.options().dtype(at::kInt));
-  }
-
   using aotriton::v2::flash::attn_fwd;
   using aotriton::v2::flash::attn_fwd_compact_varlen;
   using sdp::aotriton_adapter::mk_aotensor;
   using sdp::aotriton_adapter::mk_aoscalartensor;
   using sdp::aotriton_adapter::mk_philoxtensor;
-  using sdp::aotriton_adapter::mk_atomictensor;
   aotriton::TensorView<4> empty_t4(0, {0, 0, 0, 0}, {0, 0, 0, 0}, aotriton::DType::kFloat16);
-  aotriton::TensorView<2> empty_t2(0, {0, 0}, {0, 0}, aotriton::DType::kFloat32);
   at::Tensor softmax_fa_t = at::empty({ 0, 0, 0, 0 }, query.options());
   const bool use_philox_state = in_capture_stream;
   auto seed = use_philox_state ? mk_philoxtensor(philox_state.seed_.ptr) : mk_aoscalartensor(seed_t);
   auto offset1 = use_philox_state ? mk_philoxtensor(philox_state.offset_.ptr) : mk_aoscalartensor(offset_t);
   auto offset2 = use_philox_state ? philox_state.offset_i
10000
ntragraph_ : 0;
-  auto seed_output = mk_philoxtensor(use_philox_state ? seed_t.data_ptr<int64_t>() : nullptr);
-  auto offset_output = mk_philoxtensor(use_philox_state ? offset_t.data_ptr<int64_t>() : nullptr);
-  auto persistent_counter = mk_atomictensor(is_causal ? atomic_counter.data_ptr<int32_t>() : nullptr);
+  auto seed_output = use_philox_state ? mk_philoxtensor(seed_t.data_ptr<int64_t>()) : mk_philoxtensor(nullptr);
+  auto offset_output = use_philox_state ? mk_philoxtensor(offset_t.data_ptr<int64_t>()) : mk_philoxtensor(nullptr);
   hipError_t err; // TODO: Error handling
   if (seqstart_q.has_value()) {
     // varlen aka nested tensor
     err = attn_fwd_compact_varlen(mk_aotensor(q_t, "q"),
                                   mk_aotensor(k_t, "k"),
                                   mk_aotensor(v_t, "v"),
-                                  bias.has_value() ? mk_aotensor(bias.value(), "bias"): empty_t4,
                                   mk_aotensor<1>(seqstart_q.value(), "cu_seqlens_q"),
                                   mk_aotensor<1>(seqstart_k.value(), "cu_seqlens_k"),
                                   max_seqlen_q,
                                   max_seqlen_k,
+                                  bias.has_value() ? mk_aotensor(bias.value(), "bias"): empty_t4,
                                   softmax_scale,
-                                  compute_logsumexp ? mk_aotensor<2>(softmax_lse, "M") : empty_t2,
+                                  mk_aotensor<2>(softmax_lse, "M"),
                                   mk_aotensor(output_t, "Out"),
                                   dropout_p,
                                   seed,
@@ -1320,15 +1309,14 @@ std::tuple<Tensor, Tensor, Tensor, Tensor, c10::SymInt, c10::SymInt> _efficient_
                                   offset_output,
                                   mk_aotensor(softmax_fa_t, "encoded_softmax"),
                                   is_causal,
-                                  persistent_counter,
                                   stream);
   } else {
     err = attn_fwd(mk_aotensor(q_t, "q"),
                    mk_aotensor(k_t, "k"),
                    mk_aotensor(v_t, "v"),
                    bias.has_value() ? mk_aotensor(bias.value(), "bias"): empty_t4,
                    softmax_scale,
-                   compute_logsumexp ? mk_aotensor<2>(softmax_lse, "M") : empty_t2,
+                   mk_aotensor<2>(softmax_lse, "M"),
                    mk_aotensor(output_t, "Out"),
                    dropout_p,
                    seed,
@@ -1338,9 +1326,14 @@ std::tuple<Tensor, Tensor, Tensor, Tensor, c10::SymInt, c10::SymInt> _efficient_
                    offset_output,
                    mk_aotensor(softmax_fa_t, "encoded_softmax"),
                    is_causal,
-                   persistent_counter,
                    stream);
   }
+  if (!compute_logsumexp) {
+    // Set the tensor to empty when compute_logsumexp is false
+    logsumexp = at::empty(
+        { B * num_heads, max_seqlen_q, 0 },
+        query.options().dtype(at::ScalarType::Float));
+  }
 #else
   // CUDA Implementation
   cudaDeviceProp* p = at::cuda::getDeviceProperties(query.device().index());
@@ -1602,24 +1595,15 @@ at::Tensor& _fill_mem_eff_dropout_mask_(
 #if defined(USE_MEM_EFF_ATTENTION)
 
 #ifdef USE_ROCM
-  using aotriton::v2::flash::debug_simulate_encoded_softmax;
+  using aotriton::v2::flash::debug_fill_dropout_rng;
   using sdp::aotriton_adapter::mk_aotensor;
-  using sdp::aotriton_adapter::mk_aoscalartensor;
-  at::cuda::CUDAGuard device_guard(self.device());
   cudaStream_t stream = at::cuda::getCurrentCUDAStream();
-
-  at::Tensor seed_t, offset_t;
-  const auto options = at::dtype(at::kLong).device(at::kCUDA);
-  seed_t = at::scalar_tensor(at::Scalar(seed), options);
-  offset_t = at::scalar_tensor(at::Scalar(offset), options);
   hipError_t err; // TODO: Error handling
 
-  err = debug_simulate_encoded_softmax(mk_aotensor(self, "r"),
-                                       dropout_p,
-                                       mk_aoscalartensor(seed_t),
-                                       mk_aoscalartensor(offset_t),
-                                       0,
-                                       stream);
+  err = debug_fill_dropout_rng(mk_aotensor(self, "r"),
+                               static_cast<uint64_t>(seed),
+                               static_cast<uint64_t>(offset),
+                               stream);
 #else
   at::PhiloxCudaState rng_engine_inputs;
   rng_engine_inputs = at::PhiloxCudaState(seed, offset);
Original file line number	Diff line number	Diff line change
`@@ -3059,8 +3059,7 @@ Tensor slice(`
`3059`	`3059`	`}`
`3060`	`3060`	`auto storage_offset = self.storage_offset() + start_val * strides[dim];`
`3061`	`3061`	`auto len = end_val - start_val;`
`3062`		`- sizes[dim] =`
`3063`		`- (len == 0) ? 0 : (1 + (len - 1) / step); // round-up, avoiding overflow`
	`3062`	`+ sizes[dim] = (len + step - 1) / step; // round-up`
`3064`	`3063`	`strides[dim] *= step;`
`3065`	`3064`
`3066`	`3065`	`Tensor result;`