[jiterator, complex32] tanh_backward : complex (#76289)

khushi-411 · facebook-github-bot · commit 0ccd3ae33f7c · 2022-04-27T14:46:29.000-07:00
Summary: Follows #74748 and #74537 cc kshitij12345! Pull Request resolved: #76289 Approved by: https://github.com/anjali411 Test Plan: contbuild & OSS CI, see https://hud.pytorch.org/commit/pytorch/pytorch/305a9cc00a58fe7f265e1c6331f197f61a2390b5 Reviewed By: osalpekar Differential Revision: D35971220 fbshipit-source-id: bce0fb21b4d23ad8f9081a0b30a0d096829dc8c3
diff --git a/aten/src/ATen/native/cuda/BinaryMiscBackwardOpsKernels.cu b/aten/src/ATen/native/cuda/BinaryMiscBackwardOpsKernels.cu
@@ -87,15 +87,37 @@ void logit_backward_kernel_cuda(TensorIteratorBase& iter, const Scalar& eps_scal
       });
 }
 
+const char tanh_backward_name[] = "tanh_backward";
 void tanh_backward_kernel_cuda(TensorIteratorBase& iter) {
-  if(isComplexType(iter.dtype())) {
-    AT_DISPATCH_COMPLEX_TYPES(iter.dtype(), "tanh_backward_complex_cuda", [&]() {
+  auto dtype = iter.dtype();
+  if(isComplexType(dtype)) {
+#if AT_USE_JITERATOR()
+    static const auto tanh_backward_string = jiterator_stringify(
+      template <typename T>
+      T tanh_backward(T a, T b) {
+        return a * std::conj(T{1.} - b * b);
+      }
+    ); // tanh_backward_string
+    AT_DISPATCH_COMPLEX_TYPES_AND(kComplexHalf, dtype, "tanh_backward_complex_cuda", [&]() {
+      jitted_gpu_kernel<
+          /*name=*/ tanh_backward_name,
+          /*return_dtype=*/ scalar_t,
+          /*common_dtype=*/ scalar_t,
+          /*arity=*/ 2>(iter, tanh_backward_string);
+    });
+#else
+    AT_DISPATCH_COMPLEX_TYPES_AND(kComplexHalf, dtype, "tanh_backward_complex_cuda", [&]() {
       gpu_kernel(iter, [] GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
-        return a * std::conj(scalar_t{1.} - b * b);
+        using comp_t = at::opmath_type<scalar_t>;
+        const auto one = comp_t{1.};
+        const auto comp_b = static_cast<comp_t>(b);
+        const auto comp_a = static_cast<comp_t>(a);
+        return static_cast<scalar_t>(comp_a * std::conj(one - comp_b * comp_b));
       });
     });
+#endif
   } else {
-    AT_DISPATCH_FLOATING_TYPES_AND2(at::ScalarType::Half, at::ScalarType::BFloat16, iter.dtype(), "tanh_backward_cuda", [&]() {
+    AT_DISPATCH_FLOATING_TYPES_AND2(at::ScalarType::Half, at::ScalarType::BFloat16, dtype, "tanh_backward_cuda", [&]() {
       gpu_kernel(iter, [] GPU_LAMBDA(scalar_t a, scalar_t b) -> scalar_t {
         return a * (scalar_t{1.} - b * b);
       });