pytorch
diff --git a/‎test/cpp/c10d/ProcessGroupNCCLErrorsTest.cpp
Lines changed: 12 additions & 14 deletions b/‎test/cpp/c10d/ProcessGroupNCCLErrorsTest.cpp
Lines changed: 12 additions & 14 deletions
diff --git a/‎test/distributed/test_c10d_nccl.py
Lines changed: 10 additions & 4 deletions
F438 b/‎test/distributed/test_c10d_nccl.py
Lines changed: 10 additions & 4 deletions
F438
diff --git a/‎torch/csrc/cuda/nccl.cpp
Lines changed: 6 additions & 8 deletions b/‎torch/csrc/cuda/nccl.cpp
Lines changed: 6 additions & 8 deletions
diff --git a/‎torch/csrc/cuda/nccl.h
Lines changed: 2 additions & 2 deletions b/‎torch/csrc/cuda/nccl.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎torch/csrc/distributed/c10d/NCCLUtils.hpp
Lines changed: 26 additions & 31 deletions b/‎torch/csrc/distributed/c10d/NCCLUtils.hpp
Lines changed: 26 additions & 31 deletions
@@ -20,20 +20,18 @@ constexpr int kNcclErrorHandlingVersion = 2400;
 class WorkNCCLSimulateErrors : public c10d::ProcessGroupNCCL::WorkNCCL {
  public:
   WorkNCCLSimulateErrors(
-      const std::vector<at::Device>& devices,
+      at::Device& device,
       bool simulate_error,
       int rank,
       c10d::OpType opType,
       uint64_t seq)
-      : WorkNCCL(devices, rank, opType, seq), simulateError_(simulate_error) {}
+      : WorkNCCL(device, rank, opType, seq), simulateError_(simulate_error) {}
 
-  std::exception_ptr checkForNCCLErrors(
-      const std::vector<std::shared_ptr<c10d::NCCLComm>>& ncclComms)
-      const override {
+  std::exception_ptr checkForNCCLErrors() override {
     if (simulateError_) {
       return std::make_exception_ptr(std::runtime_error("Error"));
     }
-    return c10d::ProcessGroupNCCL::WorkNCCL::checkForNCCLErrors(ncclComms);
+    return c10d::ProcessGroupNCCL::WorkNCCL::checkForNCCLErrors();
   }
 
  private:
@@ -50,11 +48,11 @@ class ProcessGroupNCCLSimulateErrors : public c10d::ProcessGroupNCCL {
       : ProcessGroupNCCL(store, rank, size, opts), simulateError_(false) {}
 
   std::exception_ptr checkForNCCLErrors(
-      const std::vector<std::shared_ptr<c10d::NCCLComm>>& ncclComms) override {
+      std::shared_ptr<c10d::NCCLComm>& ncclComm) override {
     if (simulateError_) {
       return std::make_exception_ptr(std::runtime_error("Error"));
     }
-    return c10d::ProcessGroupNCCL::checkForNCCLErrors(ncclComms);
+    return c10d::ProcessGroupNCCL::checkForNCCLErrors(ncclComm);
   }
 
   std::chrono::duration<int64_t, std::milli> getWatchdogSleepInterval() {
@@ -63,14 +61,14 @@ class ProcessGroupNCCLSimulateErrors : public c10d::ProcessGroupNCCL {
   }
 
   c10::intrusive_ptr<ProcessGroupNCCL::WorkNCCL> initWork(
-      std::vector<at::Device> devices,
+      at::Device& device,
       int rank,
       c10d::OpType opType,
       const char* profilingTitle,
       const std::vector<at::Tensor>& inputs = {},
       const std::vector<at::Tensor>& outputs = {}) override {
     return c10::make_intrusive<WorkNCCLSimulateErrors>(
-        devices, simulateError_, rank, opType, seq_);
+        device, simulateError_, rank, opType, seq_);
   }
 
   size_t getNCCLCommCacheSize() {
@@ -92,12 +90,12 @@ class ProcessGroupNCCLSimulateErrors : public c10d::ProcessGroupNCCL {
 class WorkNCCLTimedoutErrors : public c10d::ProcessGroupNCCL::WorkNCCL {
  public:
   WorkNCCLTimedoutErrors(
-      const std::vector<at::Device>& devices,
+      at::Device& device,
       bool set_timedout_error,
       int rank,
       c10d::OpType opType,
       uint64_t seq)
-      : WorkNCCL(devices, rank, opType, seq),
+      : WorkNCCL(device, rank, opType, seq),
         setTimedoutError_(set_timedout_error) {}
 
  private:
@@ -124,14 +122,14 @@ class ProcessGroupNCCLTimedOutErrors : public ProcessGroupNCCLSimulateErrors {
         setTimedoutError_(false) {}
 
   c10::intrusive_ptr<ProcessGroupNCCL::WorkNCCL> initWork(
-      std::vector<at::Device> devices,
+      at::Device& device,
       int rank,
       c10d::OpType opType,
       const char* profilingTitle,
       const std::vector<at::Tensor>& inputs = {},
       const std::vector<at::Tensor>& outputs = {}) override {
     return c10::make_intrusive<WorkNCCLTimedoutErrors>(
-        devices, setTimedoutError_, rank, opType, seq_);
+        device, setTimedoutError_, rank, opType, seq_);
   }
 
   void setTimedoutError() {
 
@@ -2947,6 +2947,10 @@ def world_size(self):
     def blocking_wait_error_msg(self):
         return "timeout"
 
+    @property
+    def remote_error_msg(self):
+        return "remote process exit"
+
     def _run_all_reduce(self, pg):
         pg.allreduce(torch.rand(10).cuda(self.rank))
 
@@ -2995,8 +2999,9 @@ def _test_nccl_errors_blocking(self, func):
         process_group.allreduce(torch.rand(10).cuda(self.rank))
         if self.rank == 0:
             work = process_group.allreduce(torch.rand(10).cuda(self.rank))
-            with self.assertRaisesRegex(dist.DistBackendError, self.blocking_wait_error_msg):
-                # Operation would time out in blocking mode.
+            with self.assertRaisesRegex(dist.DistBackendError, self.remote_error_msg):
+                # Previously this should timeout; but with newer NCCL version,
+                # it seems NCCL would detect that the peer rank has exited
                 work.wait(timeout=timedelta(seconds=self.op_timeout_sec))
             # Run some GPU operations to make sure cuda has not gotten stuck.
             # It was observed cuda could get stuck if NCCL communicators were
@@ -3064,8 +3069,9 @@ def test_nccl_blocking_wait_with_barrier(self):
         )
         process_group.barrier().wait()
         if self.rank == 0:
-            with self.assertRaisesRegex(dist.DistBackendError, self.blocking_wait_error_msg):
-                # This should timeout
+            with self.assertRaisesRegex(dist.DistBackendError, self.remote_error_msg):
+                # Previously this should timeout; but with newer NCCL version,
+                # it seems NCCL would detect that the peer rank has exited
                 process_group.barrier().wait(timeout=timedelta(seconds=self.op_timeout_sec))
 
     def _run_invalid_nccl_blocking_wait_env(self, val):
 
@@ -415,20 +415,18 @@ AutoNcclGroup::AutoNcclGroup() {
   (c10::cuda::getFreeMutex())->lock();
 #endif
   comm_nonblocking_ = false;
+  comm_ = nullptr;
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR >= 2)
   detail::NCCL_CHECK(ncclGroupStart());
 #endif
 }
 
-AutoNcclGroup::AutoNcclGroup(
-    std::vector<ncclComm_t>& comms,
-    bool comm_nonblocking) {
+AutoNcclGroup::AutoNcclGroup(ncclComm_t comm, bool comm_nonblocking) {
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR < 2)
   // nccl < 2.0 cannot be called concurrently with cudaFree
   (c10::cuda::getFreeMutex())->lock();
 #endif
-  // TODO(eqy): can we make comms_ reference?
-  comms_ = comms;
+  comm_ = comm;
   comm_nonblocking_ = comm_nonblocking;
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR >= 2)
   detail::NCCL_CHECK(ncclGroupStart());
@@ -437,10 +435,10 @@ AutoNcclGroup::AutoNcclGroup(
 
 AutoNcclGroup::~AutoNcclGroup() noexcept(false) {
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR >= 2)
-  if (!comm_nonblocking_) {
-    detail::NCCL_CHECK(ncclGroupEnd());
+  if (comm_nonblocking_ && comm_ != nullptr) {
+    detail::NCCL_CHECK_TIMEOUT(ncclGroupEnd(), comm_);
   } else {
-    detail::NCCL_CHECK_TIMEOUT(ncclGroupEnd(), comms_);
+    detail::NCCL_CHECK(ncclGroupEnd());
   }
 #endif
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR < 2)
 
@@ -76,9 +76,9 @@ enum class ncclDataType {
 // manages group and lock lifetimes.
 struct AutoNcclGroup {
   AutoNcclGroup();
-  AutoNcclGroup(std::vector<ncclComm_t>& comms, bool comm_nonblocking);
+  AutoNcclGroup(ncclComm_t comm, bool comm_nonblocking);
   ~AutoNcclGroup() noexcept(false);
-  std::vector<ncclComm_t> comms_;
+  ncclComm_t comm_;
   bool comm_nonblocking_;
 };
 
 
@@ -126,37 +126,32 @@
     TORCH_CHECK_WITH(DistBackendError, false, err);                           \
   }
 
-#define C10D_NCCL_CHECK_TIMEOUT_GROUPEND(cmd, comms_, failureReason)           \
-  ncclResult_t state = cmd;                                                    \
-  auto startTimepoint = std::chrono::steady_clock::now();                      \
-  if (state == ncclInProgress) {                                               \
-    for (const auto i : c10::irange(comms_.size())) {                          \
-      do {                                                                     \
-        if (nccl_nonblocking_timeout() > 0) {                                  \
-          auto currentTimepoint = std::chrono::steady_clock::now();            \
-          auto timeElapsed = std::chrono::duration_cast<std::chrono::seconds>( \
-                                 currentTimepoint - startTimepoint)            \
-                                 .count();                                     \
-          if (timeElapsed > nccl_nonblocking_timeout()) {                      \
-            std::string err = "NCCL timeout in: " + std::string(__FILE__) +    \
-                ":" + std::to_string(__LINE__) + ", " +                        \
-                ncclGetErrorWithVersion(state) + "\n" +                        \
-                getNcclErrorDetailStr(state, failureReason);                   \
-            TORCH_CHECK_WITH(DistBackendError, false, err);                    \
-          }                                                                    \
-        }                                                                      \
-        ncclCommGetAsyncError(comms_[i]->getNcclComm(), &state);               \
-      } while (state == ncclInProgress);                                       \
-      if (state != ncclSuccess) {                                              \
-        break; /* fall through to failed case */                               \
-      }                                                                        \
-    }                                                                          \
-  }                                                                            \
-  if (state != ncclSuccess) {                                                  \
-    std::string err = "NCCL error in: " + std::string(__FILE__) + ":" +        \
-        std::to_string(__LINE__) + ", " + ncclGetErrorWithVersion(state) +     \
-        "\n" + getNcclErrorDetailStr(state, failureReason);                    \
-    TORCH_CHECK_WITH(DistBackendError, false, err);                            \
+#define C10D_NCCL_CHECK_TIMEOUT_GROUPEND(cmd, comm, failureReason)           \
+  ncclResult_t state = cmd;                                                  \
+  auto startTimepoint = std::chrono::steady_clock::now();                    \
+  if (state == ncclInProgress) {                                             \
+    do {                                                                     \
+      if (nccl_nonblocking_timeout() > 0) {                                  \
+        auto currentTimepoint = std::chrono::steady_clock::now();            \
+        auto timeElapsed = std::chrono::duration_cast<std::chrono::seconds>( \
+                               currentTimepoint - startTimepoint)            \
+                               .count();                                     \
+        if (timeElapsed > nccl_nonblocking_timeout()) {                      \
+          std::string err = "NCCL timeout in: " + std::string(__FILE__) +    \
+              ":" + std::to_string(__LINE__) + ", " +                        \
+              ncclGetErrorWithVersion(state) + "\n" +                        \
+              getNcclErrorDetailStr(state, failureReason);                   \
+          TORCH_CHECK_WITH(DistBackendError, false, err);                    \
+        }                                                                    \
+      }                                                                      \
+      ncclCommGetAsyncError(comm->getNcclComm(), &state);                    \
+    } while (state == ncclInProgress);                                       \
+  }                                                                          \
+  <
6006
span class="pl-k">if (state != ncclSuccess) {                                                \
+    std::string err = "NCCL error in: " + std::string(__FILE__) + ":" +      \
+        std::to_string(__LINE__) + ", " + ncclGetErrorWithVersion(state) +   \
+        "\n" + getNcclErrorDetailStr(state, failureReason);                  \
+    TORCH_CHECK_WITH(DistBackendError, false, err);                          \
   }
 
 // Macro to print and abort on a non-successful NCCL return value.