pytorch
diff --git a/‎.github/scale-config.yml
Lines changed: 4 additions & 4 deletions b/‎.github/scale-config.yml
Lines changed: 4 additions & 4 deletions
diff --git a/‎.github/scripts/gql_mocks.json
Lines changed: 11905 additions & 11153 deletions b/‎.github/scripts/gql_mocks.json
Lines changed: 11905 additions & 11153 deletions
diff --git a/‎.github/scripts/test_trymerge.py
Lines changed: 3 additions & 1 deletion b/‎.github/scripts/test_trymerge.py
Lines changed: 3 additions & 1 deletion
diff --git a/‎.github/scripts/trymerge.py
Lines changed: 26 additions & 15 deletions b/‎.github/scripts/trymerge.py
Lines changed: 26 additions & 15 deletions
diff --git a/‎aten/src/ATen/Context.cpp
Lines changed: 20 additions & 0 deletions b/‎aten/src/ATen/Context.cpp
Lines changed: 20 additions & 0 deletions
diff --git a/‎aten/src/ATen/Context.h
Lines changed: 10 additions & 0 deletions b/‎aten/src/ATen/Context.h
Lines changed: 10 additions & 0 deletions
diff --git a/‎aten/src/ATen/Dispatch.h
Lines changed: 40 additions & 0 deletions b/‎aten/src/ATen/Dispatch.h
Lines changed: 40 additions & 0 deletions
diff --git a/‎aten/src/ATen/core/interned_strings.h
Lines changed: 1 addition & 0 deletions b/‎aten/src/ATen/core/interned_strings.h
Lines changed: 1 addition & 0 deletions
diff --git a/‎aten/src/ATen/cpu/vec/vec_base.h
Lines changed: 1 addition & 1 deletion b/‎aten/src/ATen/cpu/vec/vec_base.h
Lines changed: 1 addition & 1 deletion
diff --git a/‎aten/src/ATen/cuda/CUDABlas.cpp
Lines changed: 15 additions & 2 deletions b/‎aten/src/ATen/cuda/CUDABlas.cpp
Lines changed: 15 additions & 2 deletions
diff --git a/‎aten/src/ATen/cuda/detail/CUDAHooks.h
Lines changed: 2 additions & 0 deletions b/‎aten/src/ATen/cuda/detail/CUDAHooks.h
Lines changed: 2 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/BinaryOps.cpp
Lines changed: 2 additions & 1 deletion b/‎aten/src/ATen/native/BinaryOps.cpp
Lines changed: 2 additions & 1 deletion
@@ -30,25 +30,25 @@ runner_types:
   linux.2xlarge:
     instance_type: c5.2xlarge
     os: linux
-    max_available: 750
+    max_available: 1000
     disk_size: 150
     is_ephemeral: false
   linux.4xlarge: # for binary-builds
     instance_type: c5.4xlarge
     os: linux
-    max_available: 250
+    max_available: 500
     disk_size: 150
     is_ephemeral: false
   linux.8xlarge.nvidia.gpu:
     instance_type: g3.8xlarge
     os: linux
-    max_available: 125
+    max_available: 200
     disk_size: 150
     is_ephemeral: false
   linux.4xlarge.nvidia.gpu:
     instance_type: g3.4xlarge
     os: linux
-    max_available: 175
+    max_available: 250
     disk_size: 150
     is_ephemeral: false
   linux.16xlarge.nvidia.gpu:
 
@@ -176,7 +176,9 @@ def test_pending_status_check(self, mocked_gql: Any, mocked_read_merge_rules: An
         """
         pr = GitHubPR("pytorch", "pytorch", 76118)
         repo = GitRepo(get_git_repo_dir(), get_git_remote_name())
-        self.assertRaisesRegex(MandatoryChecksMissingError, ".*are not yet run.*", lambda: find_matching_merge_rule(pr, repo))
+        self.assertRaisesRegex(MandatoryChecksMissingError,
+                               ".*are pending/not yet run.*",
+                               lambda: find_matching_merge_rule(pr, repo))
 
     @mock.patch('trymerge.gh_graphql', side_effect=mocked_gh_graphql)
     def test_get_author_many_reviews(self, mocked_gql: Any) -> None:
 
@@ -77,13 +77,15 @@
                   nodes {
                     name
                     conclusion
+                    detailsUrl
                   }
                   pageInfo {
                     endCursor
                     hasNextPage
                   }
                 }
                 conclusion
+                url
               }
               pageInfo {
                 endCursor
@@ -179,13 +181,15 @@
                   nodes {
                     name
                     conclusion
+                    detailsUrl
                   }
                   pageInfo {
                     endCursor
                     hasNextPage
                   }
                 }
                 conclusion
+                url
               }
               pageInfo {
                 endCursor
@@ -411,7 +415,7 @@ def __init__(self, org: str, project: str, pr_num: int) -> None:
         self.pr_num = pr_num
         self.info = gh_get_pr_info(org, project, pr_num)
         self.changed_files: Optional[List[str]] = None
-        self.conclusions: Optional[Dict[str, str]] = None
+        self.conclusions: Optional[Dict[str, Tuple[str, str]]] = None
         self.comments: Optional[List[GitHubComment]] = None
         self._authors: Optional[List[Tuple[str, str]]] = None
         self._reviews: Optional[List[Tuple[str, str]]] = None
@@ -526,8 +530,8 @@ def get_committer_login(self, num: int = 0) -> str:
     def get_committer_author(self, num: int = 0) -> str:
         return self._fetch_authors()[num][1]
 
-    def get_checkrun_conclusions(self) -> Dict[str, str]:
-        """ Returns list of checkrun / conclusions """
+    def get_checkrun_conclusions(self) -> Dict[str, Tuple[str, str]]:
+        """ Returns dict of checkrun -> [conclusion, url] """
         if self.conclusions is not None:
             return self.conclusions
         orig_last_commit = self.info["commits"]["nodes"][-1]["commit"]
@@ -539,10 +543,10 @@ def add_conclusions(nodes: List[Dict[str, Any]]) -> None:
                 workflow_run = node["workflowRun"]
                 checkruns = node["checkRuns"]
                 if workflow_run is not None:
-                    conclusions[workflow_run["workflow"]["name"]] = node["conclusion"]
+                    conclusions[workflow_run["workflow"]["name"]] = (node["conclusion"], node["url"])
                 if checkruns is not None:
                     for checkrun_node in checkruns["nodes"]:
-                        conclusions[checkrun_node["name"]] = checkrun_node["conclusion"]
+                        conclusions[checkrun_node["name"]] = (checkrun_node["conclusion"], checkrun_node["detailsUrl"])
 
         add_conclusions(checksuites["nodes"])
         while bool(checksuites["pageInfo"]["hasNextPage"]):
@@ -646,7 +650,7 @@ def has_internal_changes(self) -> bool:
         checks = self.get_checkrun_conclusions()
         if checks is None or checkrun_name not in checks:
             return False
-        return checks[checkrun_name] != "SUCCESS"
+        return checks[checkrun_name][0] != "SUCCESS"
 
     def merge_ghstack_into(self, repo: GitRepo, force: bool, comment_id: Optional[int] = None) -> None:
         assert self.is_ghstack_pr()
@@ -785,25 +789,32 @@ def find_matching_merge_rule(pr: GitHubPR,
                                  f"{','.join(list(rule_approvers_set)[:5])}{', ...' if len(rule_approvers_set) > 5 else ''}")
             continue
         if rule.mandatory_checks_name is not None:
-            pending_checks = []
-            failed_checks = []
+            pending_checks: List[Tuple[str, Optional[str]]] = []
+            failed_checks: List[Tuple[str, Optional[str]]] = []
             checks = pr.get_checkrun_conclusions()
             # HACK: We don't want to skip CLA check, even when forced
             for checkname in filter(lambda x: force is False or "CLA Check" in x, rule.mandatory_checks_name):
-                if checkname not in checks or checks[checkname] is None:
-                    pending_checks.append(checkname)
-                elif checks[checkname] != 'SUCCESS':
-                    failed_checks.append(checkname)
+                if checkname not in checks:
+                    pending_checks.append((checkname, None))
+                elif checks[checkname][0] is None:
+                    pending_checks.append((checkname, checks[checkname][1]))
+                elif checks[checkname][0] != 'SUCCESS':
+                    failed_checks.append((checkname, checks[checkname][1]))
+
+        def checks_to_str(checks: List[Tuple[str, Optional[str]]]) -> str:
+            return ", ".join(f"[{c[0]}]({c[1]})" if c[1] is not None else c[0] for c in checks)
+
         if len(failed_checks) > 0:
             if reject_reason_score < 30000:
                 reject_reason_score = 30000
-                reject_reason = f"Refusing to merge as mandatory check(s) {','.join(failed_checks)} failed for rule {rule_name}"
+                reject_reason = ("Refusing to merge as mandatory check(s)" +
+                                 checks_to_str(failed_checks) + f" failed for rule {rule_name}")
             continue
         elif len(pending_checks) > 0:
             if reject_reason_score < 20000:
                 reject_reason_score = 20000
-                reject_reason = f"Refusing to merge as mandatory check(s) {','.join(pending_checks)}"
-                reject_reason += f" are not yet run for rule {rule_name}"
+                reject_reason = f"Refusing to merge as mandatory check(s) {checks_to_str(pending_checks)}"
+                reject_reason += f" are pending/not yet run for rule {rule_name}"
             continue
         if not skip_internal_checks and pr.has_internal_changes():
             raise RuntimeError("This PR has internal changes and must be landed via Phabricator")
 
@@ -349,6 +349,26 @@ bool NoTF32Guard::should_disable_tf32() {
   return override_allow_tf32_flag;
 }
 
+#ifdef USE_ROCM
+// Ops can query this flag to know they are in the backward pass.
+// This information can be used, for example, to select implementations
+// with different numerical or performance characteristics.
+// See https://pytorch.org/docs/stable/notes/numerical_accuracy.html for details.
+thread_local bool ROCmBackwardPassGuard::is_backward_pass_;
+
+ROCmBackwardPassGuard::ROCmBackwardPassGuard() {
+  is_backward_pass_ = true;
+}
+
+ROCmBackwardPassGuard::~ROCmBackwardPassGuard() {
+  is_backward_pass_ = false;
+}
+
+bool ROCmBackwardPassGuard::is_backward_pass() {
+  return is_backward_pass_;
+}
+#endif
+
 bool Context::areVmapFallbackWarningsEnabled() const {
   return display_vmap_fallback_warnings_;
 }
 
@@ -403,4 +403,14 @@ struct TORCH_API NoTF32Guard {
   bool changed = false;
 };
 
+#ifdef USE_ROCM
+struct TORCH_API ROCmBackwardPassGuard {
+  ROCmBackwardPassGuard();
+  ~ROCmBackwardPassGuard();
+  static bool is_backward_pass();
+private:
+  static thread_local bool is_backward_pass_;
+};
+#endif
+
 } // namespace at
@@ -416,6 +416,46 @@ inline void deprecated_AT_DISPATCH_ALL_TYPES_AND_HALF_AND_COMPLEX() {}
     }                                                                       \
   }()
 
+#define AT_DISPATCH_FLOATING_AND_COMPLEX_TYPES_AND3(                          \
+    SCALARTYPE1, SCALARTYPE2, SCALARTYPE3, TYPE, NAME, ...)                   \
+  [&] {                                                                       \
+    const auto& the_type = TYPE;                                              \
+    /* don't use TYPE again in case it is an expensive or side-effect op */   \
+    at::ScalarType _st = ::detail::scalar_type(the_type);                     \
+    RECORD_KERNEL_FUNCTION_DTYPE(NAME, _st);                                  \
+    switch (_st) {                                                            \
+      AT_PRIVATE_CASE_TYPE(NAME, at::ScalarType::Double, double, __VA_ARGS__) \
+      AT_PRIVATE_CASE_TYPE(NAME, at::ScalarType::Float, float, __VA_ARGS__)   \
+      AT_PRIVATE_CASE_TYPE(                                                   \
+          NAME,                                                               \
+          at::ScalarType::ComplexDouble,                                      \
+          c10::complex<double>,                                               \
+          __VA_ARGS__)                                                        \
+      AT_PRIVATE_CASE_TYPE(                                                   \
+          NAME,                                                               \
+          at::ScalarType::ComplexFloat,                                       \
+          c10::complex<float>,                                                \
+          __VA_ARGS__)                                                        \
+      AT_PRIVATE_CASE_TYPE(                                                   \
+          NAME,                                                               \
+          SCALARTYPE1,                                                        \
+          decltype(c10::impl::ScalarTypeToCPPType<SCALARTYPE1>::t),           \
+          __VA_ARGS__)                                                        \
+      AT_PRIVATE_CASE_TYPE(                                                   \
+          NAME,                                                               \
+          SCALARTYPE2,                                                        \
+          decltype(c10::impl::ScalarTypeToCPPType<SCALARTYPE2>::t),           \
+          __VA_ARGS__)                                                        \
+      AT_PRIVATE_CASE_TYPE(                                                   \
+          NAME,                                                               \
+          SCALARTYPE3,                                                        \
+          decltype(c10::impl::ScalarTypeToCPPType<SCALARTYPE3>::t),           \
+          __VA_ARGS__)                                                        \
+      default:                                                                \
+        AT_ERROR(#NAME, " not implemented for '", toString(_st), "'");        \
+    }                                                                         \
+  }()
+
 #define AT_DISPATCH_INTEGRAL_TYPES(TYPE, NAME, ...)                         \
   [&] {                                                                     \
     const auto& the_type = TYPE;                                            \
 
@@ -51,6 +51,7 @@ namespace c10 {
   _(prim, reshape_copy)              \
   _(prim, squeeze_copy)              \
   _(prim, unsqueeze_copy)            \
+  _(prim, flatten_copy)              \
   _(prim, DifferentiableGraph)       \
   _(prim, TensorExprGroup)           \
   _(prim, TensorExprDynamicGroup)    \
 
@@ -538,7 +538,7 @@ struct Vectorized {
     // 1 if the pred is true, otherwise 0.
     Vectorized<T> vector;
     for (int i = 0; i != size(); ++ i) {
-      vector[i] = bool(op(values[i], other.values[i]));
+      vector[i] = static_cast<T>(op(values[i], other.values[i]));
     }
     return vector;
   }
 
@@ -15,6 +15,11 @@
 #include <cublasLt.h>
 #endif
 
+#ifdef USE_ROCM
+#define PYTORCH_ROCBLAS_VERSION_DECIMAL (ROCBLAS_VERSION_MAJOR * 100 + ROCBLAS_VERSION_MINOR)
+#define USE_GEMM_FLAGS_FP16_ALT_IMPL (PYTORCH_ROCBLAS_VERSION_DECIMAL >= 242)
+#endif
+
 #define CUDABLAS_POSINT_CHECK(FD, X)         \
   TORCH_CHECK(                               \
       (X > 0 && X <= INT_MAX),               \
@@ -246,13 +251,17 @@ void bgemm<at::Half>(CUDABLAS_BGEMM_ARGTYPES(at::Half)) {
   float falpha = alpha;
   float fbeta = beta;
 #ifdef USE_ROCM
+  int flag = 0;
+#if USE_GEMM_FLAGS_FP16_ALT_IMPL
+  flag = at::ROCmBackwardPassGuard::is_backward_pass() ? rocblas_gemm_flags_fp16_alt_impl : 0;
+#endif
   TORCH_CUDABLAS_CHECK(rocblas_gemm_strided_batched_ex(handle, opa, opb, (int)m, (int)n, (int)k,
                                    (void*)&falpha, a, rocblas_datatype_f16_r, (int)lda, stridea,
                                    b, rocblas_datatype_f16_r, (int)ldb, strideb,
                                    (void*)&fbeta, c, rocblas_datatype_f16_r, (int)ldc, stridec,
                                    c, rocblas_datatype_f16_r, (int)ldc, stridec,
                                    (int) num_batches, rocblas_datatype_f32_r, rocblas_gemm_algo_standard,
-                                   0, 0));
+                                   0, flag));
 #else
   #if defined(CUDA_VERSION) && CUDA_VERSION < 11000
     // On CUDA versions prior to 11, users are required to set the math mode to CUBLAS_TENSOR_OP_MATH
@@ -392,6 +401,10 @@ void gemm<at::Half>(CUDABLAS_GEMM_ARGTYPES(at::Half)) {
   _cublasAdjustLdLevel3(transa, transb, m, n, k, &lda, &ldb, &ldc);
   GEMM_CHECK_ARGVALUES(at::Half);
 #ifdef USE_ROCM
+  int flag = 0;
+#if USE_GEMM_FLAGS_FP16_ALT_IMPL
+  flag = at::ROCmBackwardPassGuard::is_backward_pass() ? rocblas_gemm_flags_fp16_alt_impl : 0;
+#endif
   TORCH_CUDABLAS_CHECK(rocblas_gemm_ex(
       handle,
       opa,
@@ -416,7 +429,7 @@ void gemm<at::Half>(CUDABLAS_GEMM_ARGTYPES(at::Half)) {
       rocblas_datatype_f32_r,
       rocblas_gemm_algo_standard,
       0,
-      0));
+      flag));
 #else
   cudaDeviceProp* prop = at::cuda::getCurrentDeviceProperties();
   if (prop->major >= 5) {
 
@@ -1,3 +1,5 @@
+#pragma once
+
 #include <ATen/detail/CUDAHooksInterface.h>
 
 #include <ATen/Generator.h>
 
@@ -21,10 +21,11 @@ namespace native {
 static void check_convert(const Scalar& scalar, ScalarType scalarType) {
   // Validate that is possible to convert scalar to tensor dtype without
   // overflow
-  AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND3(
+  AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND4(
       at::ScalarType::Bool,
       at::ScalarType::BFloat16,
       at::ScalarType::Half,
+      at::ScalarType::ComplexHalf,
       scalarType,
       "check_convert",
       [&] { scalar.to<scalar_t>(); });
Original file line number	Diff line number	Diff line change
`@@ -538,7 +538,7 @@ struct Vectorized {`
`538`	`538`	`// 1 if the pred is true, otherwise 0.`
`539`	`539`	`Vectorized<T> vector;`
`540`	`540`	`for (int i = 0; i != size(); ++ i) {`
`541`		`- vector[i] = bool(op(values[i], other.values[i]));`
	`541`	`+ vector[i] = static_cast<T>(op(values[i], other.values[i]));`
`542`	`542`	`}`
`543`	`543`	`return vector;`
`544`	`544`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,5 @@`
	`1`	`+#pragma once`
	`2`	`+`
`1`	`3`	`#include <ATen/detail/CUDAHooksInterface.h>`
`2`	`4`
`3`	`5`	`#include <ATen/Generator.h>`