pytorch
diff --git a/‎.github/workflows/_link_check.yml‎
Lines changed: 2 additions & 0 deletions b/‎.github/workflows/_link_check.yml‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/transformers/hip/flash_attn/ck/mha_bwd_ck.hip‎
Lines changed: 5 additions & 10 deletions b/‎aten/src/ATen/native/transformers/hip/flash_attn/ck/mha_bwd_ck.hip‎
Lines changed: 5 additions & 10 deletions
diff --git a/‎aten/src/ATen/native/transformers/hip/flash_attn/ck/mha_fwd_ck.hip‎
Lines changed: 26 additions & 16 deletions b/‎aten/src/ATen/native/transformers/hip/flash_attn/ck/mha_fwd_ck.hip‎
Lines changed: 26 additions & 16 deletions
@@ -13,6 +13,7 @@ jobs:
     if: ${{ github.event_name != 'pull_request' || !contains(github.event.pull_request.labels.*.name, 'skip-url-lint') }}
     uses: pytorch/test-infra/.github/workflows/linux_job_v2.yml@main
     with:
+      job-name: lint-urls
       timeout: 120
       runner: ${{ inputs.runner }}linux.2xlarge
       docker-image: ci-image:pytorch-linux-jammy-linter
@@ -38,6 +39,7 @@ jobs:
     if: ${{ github.event_name != 'pull_request' || !contains(github.event.pull_request.labels.*.name, 'skip-xref-lint') }}
     uses: pytorch/test-infra/.github/workflows/linux_job_v2.yml@main
     with:
+      job-name: lint-xrefs
       timeout: 60
       runner: ${{ inputs.runner }}linux.2xlarge
       docker-image: ci-image:pytorch-linux-jammy-linter
 
@@ -388,16 +388,11 @@ mha_bwd_ck(const at::Tensor &dout,                   // batch_size x seqlen_q x
         dv_expanded = dv;
     }
 
-    auto gen = at::get_generator_or_default<at::CUDAGeneratorImpl>(
-            std::nullopt, at::cuda::detail::getDefaultCUDAGenerator());
-
-    uint64_t* drop_seed, drop_offset;
-    int64_t counter_offset = batch_size * num_heads * ck_tile::get_warp_size();
-    std::pair<uint64_t*, uint64_t*> drop_seed_offset = {nullptr,nullptr};
-    if(is_dropout) {
-        drop_seed_offset.first = philox_seed[0].data_ptr<uint64_t>();
-        drop_seed_offset.second = philox_seed[1].data_ptr<uint64_t>();
-    }
+    uint64_t drop_seed = 1, drop_offset = 0;
+    drop_seed = *philox_seed.data_ptr<int64_t>();
+    drop_offset = *philox_offset.data_ptr<int64_t>();
+    auto drop_seed_offset = std::make_pair(&drop_seed, &drop_offset);
+
 
     if (seqlen_q > 0) {
         ck_tile::stream_config stream_config{stream};
 
@@ -177,6 +177,7 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
     TORCH_CHECK(v.stride(-1) == 1, "Input tensor must have contiguous last dimension");
 
     const auto sizes = q.sizes();
+
     const int batch_size = sizes[0];
     int seqlen_q = sizes[1];
     int num_heads = sizes[2];
@@ -225,6 +226,7 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
     CHECK_SHAPE(k, batch_size, seqlen_k, num_heads_k, head_size);
     CHECK_SHAPE(v, batch_size, seqlen_k, num_heads_k, head_size);
 
+
     at::Tensor q_padded, k_padded, v_padded;
     if (head_size % 8 != 0) {
         q_padded = at::pad(temp_q, {0, 8 - head_size % 8});
@@ -237,6 +239,7 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
         v_padded = v;
     }
 
+
     at::Tensor out;
     if (out_.has_value()) {
         out = out_.value();
@@ -263,6 +266,7 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
     auto opts = q.options();
     bool has_lse = true;
     bool has_dropout = p_dropout > 0.0f;
+
     at::Tensor softmax_lse;
     // TODO - check gradient, only training require lse
     softmax_lse = at::empty({batch_size, num_heads, seqlen_q}, opts.dtype(at::kFloat));
@@ -273,41 +277,46 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
         p = at::empty({batch_size, num_heads, seqlen_q, seqlen_k}, opts.dtype(at::kByte));
     }
     else {
-        p = at::empty({ 0 }, opts.dtype(at::kByte));
+        p = at::empty({ 0 }, opts);
     }
 
-
-    uint64_t drop_seed = 1, drop_offset = 0;
     int64_t counter_offset = batch_size * num_heads * ck_tile::get_warp_size();
+    auto rng_state = at::empty({2}, opts.dtype(at::kLong));
+    auto rng_state_ptr = reinterpret_cast<uint64_t*>(rng_state.data_ptr());
 
-    auto rng_state_options = at::TensorOptions().dtype(at::kUInt64).device(at::kCUDA);
-    auto rng_state = at::zeros({2}, rng_state_options.dtype(at::kUInt64));
-    auto _unused = at::empty({}, at::dtype(c10::kUInt64).device(at::kCUDA));
 
-    if (p_dropout > 0.0)  {
 
+    at::Tensor seed_t, offset_t;
+
+    if (p_dropout > 0.0)  {
         auto gen = at::get_generator_or_default<at::CUDAGeneratorImpl>(
             gen_, at::cuda::detail::getDefaultCUDAGenerator());
-
         // See Note [Acquire lock when using random generators]
         std::lock_guard<std::mutex> lock(gen->mutex_);
+
         auto philox_args = gen->philox_cuda_state(counter_offset);
 
-        std::tie(drop_seed, drop_offset) = at::cuda::philox::unpack(philox_args);
 
+
+        hipLaunchKernelGGL(
+            flash::ParsePhiloxCudaState, dim3(1), dim3(64), 0, at::hip::getCurrentHIPStreamMasqueradingAsCUDA(), philox_args, rng_state_ptr);
+        seed_t = at::scalar_tensor(at::Scalar(static_cast<uint64_t>(rng_state_ptr[0])), at::dtype(at::kLong));
+        offset_t = at::scalar_tensor(at::Scalar(static_cast<uint64_t>(rng_state_ptr[1])), at::dtype(at::kLong));
+    }
+    else
+    {
+        seed_t = at::empty({}, at::dtype(at::kLong).device(at::kCUDA));
+        offset_t = at::empty({}, at::dtype(at::kLong).device(at::kCUDA));
     }
-    rng_state[0] = *(reinterpret_cast<int64_t*>(&drop_seed));
-    rng_state[1] = *(reinterpret_cast<int64_t*>(&drop_offset));
-    auto drop_options = at::TensorOptions().dtype(at::kLong).device(at::kCUDA);
 
     std::optional<at::Tensor> attn_bias;
     if( attn_bias_.has_value())
     {
       attn_bias = attn_bias_;
     }
+
     if (seqlen_k > 0) {
-        auto drop_seed_offset = std::make_pair(rng_state[0].data_ptr<uint64_t>(),
-                                               rng_state[1].data_ptr<uint64_t>());
+        auto drop_seed_offset = std::make_pair(rng_state_ptr, rng_state_ptr + 1);
         auto stream = at::cuda::getCurrentHIPStream().stream();
         ck_tile::stream_config stream_config{stream};
 
@@ -323,7 +332,7 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
         auto args =
             get_ck_fmha_fwd_args(
                 has_lse,
-                has_dropout,
+                return_dropout_randval,
                 mask,
                 batch_size,
                 seqlen_q,
@@ -349,11 +358,12 @@ mha_fwd_ck(const at::Tensor &q,                      // batch_size x seqlen_q x
         out.zero_();
         softmax_lse.fill_(std::numeric_limits<float>::infinity());
     }
+
     if (seqlenq_ngroups_swapped) {
         out = out.transpose(1, 2).reshape({batch_size, 1, num_heads_k * seqlen_q, head_size});
         q_padded = q_padded.transpose(1, 2).reshape({batch_size, 1, num_heads_k * seqlen_q, head_size});
         softmax_lse = softmax_lse.reshape({batch_size, num_heads_k * seqlen_q, 1});
     }
-    return {out, q_padded, k_padded, v_padded, softmax_lse, rng_state, _unused, p};
+    return {out, q_padded, k_padded, v_padded, softmax_lse, seed_t, offset_t, p};
 }
 } //namespace pytorch_flash