pytorch
diff --git a/‎aten/src/ATen/native/cuda/ForeachFunctors.cuh
+84-1 b/‎aten/src/ATen/native/cuda/ForeachFunctors.cuh
+84-1
diff --git a/‎aten/src/ATen/native/cuda/FusedAdamKernel.cu
+5-4 b/‎aten/src/ATen/native/cuda/FusedAdamKernel.cu
+5-4
diff --git a/‎aten/src/ATen/native/cuda/fused_adam_impl.cu
+51-20 b/‎aten/src/ATen/native/cuda/fused_adam_impl.cu
+51-20
@@ -76,6 +76,34 @@ __device__ bool init_args(
   return all_aligned;
 }
 
+template <
+    int depth,
+    typename param_type,
+    typename grad_type,
+    typename exp_avg_type,
+    typename exp_avg_sq_type>
+__device__ bool init_args_mixed_prec(
+    param_type** param_args,
+    grad_type** grad_args,
+    exp_avg_type** exp_avg_args,
+    exp_avg_sq_type** exp_avg_sq_args,
+    FusedOptimizerTensorListMetadata<depth>& tl,
+    const int64_t chunk_idx,
+    const int64_t chunk_size,
+    const int64_t tensor_loc) {
+  *param_args =
+      (param_type*)tl.addresses[0][tensor_loc] + chunk_idx * chunk_size;
+  *grad_args = (grad_type*)tl.addresses[1][tensor_loc] + chunk_idx * chunk_size;
+  *exp_avg_args =
+      (exp_avg_type*)tl.addresses[2][tensor_loc] + chunk_idx * chunk_size;
+  *exp_avg_sq_args =
+      (exp_avg_sq_type*)tl.addresses[3][tensor_loc] + chunk_idx * chunk_size;
+
+  bool all_aligned = is_aligned(*param_args) && is_aligned(*grad_args) &&
+      is_aligned(*exp_avg_args) && is_aligned(*exp_avg_sq_args);
+  return all_aligned;
+}
+
 template <int depth, typename T>
 __device__ void load_args(
     T r_args[][kILP],
@@ -95,6 +123,44 @@ __device__ void load_args(
   }
 }
 
+template <
+    typename T,
+    typename param_type,
+    typename grad_type,
+    typename exp_avg_type,
+    typename exp_avg_sq_type>
+__device__ void load_args(
+    T r_args[][kILP],
+    const param_type* param_args,
+    const grad_type* grad_args,
+    const exp_avg_type* exp_avg_args,
+    const exp_avg_sq_type* exp_avg_sq_args,
+    const int64_t i_start,
+    const int64_t chunk_size,
+    const int64_t n) {
+#pragma unroll
+  for (int ii = 0; ii < kILP; ii++) {
+    // const auto i = i_start + threadIdx.x + ii * blockDim.x;
+    const auto i = i_start + threadIdx.x * kILP + ii;
+    r_args[0][ii] = 0;
+    if (i < n && i < chunk_size) {
+      r_args[0][ii] = static_cast<T>(param_args[i]);
+    }
+    r_args[1][ii] = 0;
+    if (i < n && i < chunk_size) {
+      r_args[1][ii] = static_cast<T>(grad_args[i]);
+    }
+    r_args[2][ii] = 0;
+    if (i < n && i < chunk_size) {
+      r_args[2][ii] = static_cast<T>(exp_avg_args[i]);
+    }
+    r_args[3][ii] = 0;
+    if (i < n && i < chunk_size) {
+      r_args[3][ii] = static_cast<T>(exp_avg_sq_args[i]);
+    }
+  }
+}
+
 template <typename T>
 __device__ void store_args(
     T* dst,
@@ -104,12 +170,29 @@ __device__ void store_args(
     const int64_t n) {
 #pragma unroll
   for (int ii = 0; ii < kILP; ii++) {
-    const int64_t i = i_start + threadIdx.x + ii * blockDim.x;
+    // const int64_t i = i_start + threadIdx.x + ii * blockDim.x;
+    const auto i = i_start + threadIdx.x * kILP + ii;
     if (i < n && i < chunk_size)
       dst[i] = src[ii];
   }
 }
 
+template <typename dT, typename sT>
+__device__ void store_args(
+    dT* dst,
+    sT* src,
+    const int64_t i_start,
+    const int64_t chunk_size,
+    const int64_t n) {
+#pragma unroll
+  for (int ii = 0; ii < kILP; ii++) {
+    // const int64_t i = i_start + threadIdx.x + ii * blockDim.x;
+    const auto i = i_start + threadIdx.x * kILP + ii;
+    if (i < n && i < chunk_size)
+      dst[i] = static_cast<dT>(src[ii]);
+  }
+}
+
 template <int res_arg_index, typename Op, typename T, typename opmath_t>
 __device__ __forceinline__ void binary_op_scalar(
     T r_args[][kILP],
 
@@ -50,10 +50,11 @@ void _fused_adam_kernel_cuda_(
         grad_scale,
         found_inf);
   } else {
-    TORCH_CHECK(
-        at::native::check_fast_path_restrictions(
-            {params, grads, exp_avgs, exp_avg_sqs}),
-        "params, grads, exp_avgs, and exp_avg_sqs must have same dtype, device, and layout");
+    // TORCH_CHECK(
+    //     at::native::check_fast_path_restrictions(
+    //         {params, grads, exp_avgs, exp_avg_sqs}),
+    //     "params, grads, exp_avgs, and exp_avg_sqs must have same dtype,
+    //     device, and layout");
     _fused_adam_cuda_impl_(
         params,
         grads,
 
@@ -31,26 +31,57 @@ void _fused_adam_cuda_impl_(
       found_inf.has_value() ? found_inf->data_ptr<float>() : nullptr;
   const float* lr_ptr = nullptr;
 
-  AT_DISPATCH_FLOATING_TYPES_AND2(
-      kHalf,
-      kBFloat16,
-      params[0].scalar_type(),
-      "fused_adam_kernel_cuda",
-      [&]() {
-        multi_tensor_apply_for_fused_optimizer<4>(
-            tensor_lists,
-            state_steps,
-            FusedAdamMathFunctor<scalar_t, 4, ADAM_MODE::ORIGINAL, false>(),
-            lr_ptr, // unused
-            lr,
-            beta1,
-            beta2,
-            weight_decay,
-            eps,
-            maximize,
-            grad_scale_ptr,
-            found_inf_ptr);
-      });
+  if (params[0].scalar_type() != exp_avgs[0].scalar_type()) {
+    AT_DISPATCH_FLOATING_TYPES_AND2(
+        kHalf,
+        kBFloat16,
+        params[0].scalar_type(),
+        "fused_adam_kernel_cuda",
+        [&]() {
+          multi_tensor_apply_for_fused_optimizer<4>(
+              tensor_lists,
+              state_steps,
+              FusedAdamMathFunctorMP<
+                  scalar_t,
+                  float,
+                  float,
+                  BFloat16,
+                  BFloat16,
+                  4,
+                  ADAM_MODE::ORIGINAL,
+                  false>(),
+              lr_ptr, // unused
+              lr,
+              beta1,
+              beta2,
+              weight_decay,
+              eps,
+              maximize,
+              grad_scale_ptr,
+              found_inf_ptr);
+        });
+  } else {
+    AT_DISPATCH_FLOATING_TYPES_AND2(
+        kHalf,
+        kBFloat16,
+        params[0].scalar_type(),
+        "fused_adam_kernel_cuda",
+        [&]() {
+          multi_tensor_apply_for_fused_optimizer<4>(
+              tensor_lists,
+              state_steps,
+              FusedAdamMathFunctor<scalar_t, 4, ADAM_MODE::ORIGINAL, false>(),
+              lr_ptr, // unused
+              lr,
+              beta1,
+              beta2,
+              weight_decay,
+              eps,
+              maximize,
+              grad_scale_ptr,
+              found_inf_ptr);
+        });
+  }
 }
 
 // The following overload simply has a Tensor lr