pytorch
diff --git a/‎test/cpp/c10d/ProcessGroupNCCLErrorsTest.cpp
Lines changed: 14 additions & 12 deletions b/‎test/cpp/c10d/ProcessGroupNCCLErrorsTest.cpp
Lines changed: 14 additions & 12 deletions
diff --git a/‎test/distributed/test_c10d_nccl.py
Lines changed: 4 additions & 10 deletions b/‎test/distributed/test_c10d_nccl.py
Lines changed: 4 additions & 10 deletions
diff --git a/‎torch/csrc/cuda/nccl.cpp
Lines changed: 8 additions & 6 deletions b/‎torch/csrc/cuda/nccl.cpp
Lines changed: 8 additions & 6 deletions
diff --git a/‎torch/csrc/cuda/nccl.h
Lines changed: 2 additions & 2 deletions b/‎torch/csrc/cuda/nccl.h
Lines changed: 2 additions & 2 deletions
diff --git a/‎torch/csrc/distributed/c10d/NCCLUtils.hpp
Lines changed: 31 additions & 26 deletions b/‎torch/csrc/distributed/c10d/NCCLUtils.hpp
Lines changed: 31 additions & 26 deletions
@@ -20,18 +20,20 @@ constexpr int kNcclErrorHandlingVersion = 2400;
 class WorkNCCLSimulateErrors : public c10d::ProcessGroupNCCL::WorkNCCL {
  public:
   WorkNCCLSimulateErrors(
-      at::Device& device,
+      const std::vector<at::Device>& devices,
       bool simulate_error,
       int rank,
       c10d::OpType opType,
       uint64_t seq)
-      : WorkNCCL(device, rank, opType, seq), simulateError_(simulate_error) {}
+      : WorkNCCL(devices, rank, opType, seq), simulateError_(simulate_error) {}
 
-  std::exception_ptr checkForNCCLErrors() override {
+  std::exception_ptr checkForNCCLErrors(
+      const std::vector<std::shared_ptr<c10d::NCCLComm>>& ncclComms)
+      const override {
     if (simulateError_) {
       return std::make_exception_ptr(std::runtime_error("Error"));
     }
-    return c10d::ProcessGroupNCCL::WorkNCCL::checkForNCCLErrors();
+    return c10d::ProcessGroupNCCL::WorkNCCL::checkForNCCLErrors(ncclComms);
   }
 
  private:
@@ -48,11 +50,11 @@ class ProcessGroupNCCLSimulateErrors : public c10d::ProcessGroupNCCL {
       : ProcessGroupNCCL(store, rank, size, opts), simulateError_(false) {}
 
   std::exception_ptr checkForNCCLErrors(
-      std::shared_ptr<c10d::NCCLComm>& ncclComm) override {
+      const std::vector<std::shared_ptr<c10d::NCCLComm>>& ncclComms) override {
     if (simulateError_) {
       return std::make_exception_ptr(std::runtime_error("Error"));
     }
-    return c10d::ProcessGroupNCCL::checkForNCCLErrors(ncclComm);
+    return c10d::ProcessGroupNCCL::checkForNCCLErrors(ncclComms);
   }
 
   std::chrono::duration<int64_t, std::milli> getWatchdogSleepInterval() {
@@ -61,14 +63,14 @@ class ProcessGroupNCCLSimulateErrors : public c10d::ProcessGroupNCCL {
   }
 
   c10::intrusive_ptr<ProcessGroupNCCL::WorkNCCL> initWork(
-      at::Device& device,
+      std::vector<at::Device> devices,
       int rank,
       c10d::OpType opType,
       const char* profilingTitle,
       const std::vector<at::Tensor>& inputs = {},
       const std::vector<at::Tensor>& outputs = {}) override {
     return c10::make_intrusive<WorkNCCLSimulateErrors>(
-        device, simulateError_, rank, opType, seq_);
+        devices, simulateError_, rank, opType, seq_);
   }
 
   size_t getNCCLCommCacheSize() {
@@ -90,12 +92,12 @@ class ProcessGroupNCCLSimulateErrors : public c10d::ProcessGroupNCCL {
 class WorkNCCLTimedoutErrors : public c10d::ProcessGroupNCCL::WorkNCCL {
  public:
   WorkNCCLTimedoutErrors(
-      at::Device& device,
+      const std::vector<at::Device>& devices,
       bool set_timedout_error,
       int rank,
       c10d::OpType opType,
       uint64_t seq)
-      : WorkNCCL(device, rank, opType, seq),
+      : WorkNCCL(devices, rank, opType, seq),
         setTimedoutError_(set_timedout_error) {}
 
  private:
@@ -122,14 +124,14 @@ class ProcessGroupNCCLTimedOutErrors : public ProcessGroupNCCLSimulateErrors {
         setTimedoutError_(false) {}
 
   c10::intrusive_ptr<ProcessGroupNCCL::WorkNCCL> initWork(
-      at::Device& device,
+      std::vector<at::Device> devices,
       int rank,
       c10d::OpType opType,
       const char* profilingTitle,
       const std::vector<at::Tensor>& inputs = {},
       const std::vector<at::Tensor>& outputs = {}) override {
     return c10::make_intrusive<WorkNCCLTimedoutErrors>(
-        device, setTimedoutError_, rank, opType, seq_);
+        devices, setTimedoutError_, rank, opType, seq_);
   }
 
   void setTimedoutError() {
 
@@ -2947,10 +2947,6 @@ def world_size(self):
     def blocking_wait_error_msg(self):
         return "timeout"
 
-    @property
-    def remote_error_msg(self):
-        return "remote process exit"
-
     def _run_all_reduce(self, pg):
         pg.allreduce(torch.rand(10).cuda(self.rank))
 
@@ -2999,9 +2995,8 @@ def _test_nccl_errors_blocking(self, func):
         process_group.allreduce(torch.rand(10).cuda(self.rank))
         if self.rank == 0:
             work = process_group.allreduce(torch.rand(10).cuda(self.rank))
-            with self.assertRaisesRegex(dist.DistBackendError, self.remote_error_msg):
-                # Previously this should timeout; but with newer NCCL version,
-                # it seems NCCL would detect that the peer rank has exited
+            with self.assertRaisesRegex(dist.DistBackendError, self.blocking_wait_error_msg):
+                # Operation would time out in blocking mode.
                 work.wait(timeout=timedelta(seconds=self.op_timeout_sec))
             # Run some GPU operations to make sure cuda has not gotten stuck.
             # It was observed cuda could get stuck if NCCL communicators were
@@ -3069,9 +3064,8 @@ def test_nccl_blocking_wait_with_barrier(self):
         )
         process_group.barrier().wait()
         if self.rank == 0:
-            with self.assertRaisesRegex(dist.DistBackendError, self.remote_error_msg):
-                # Previously this should timeout; but with newer NCCL version,
-                # it seems NCCL would detect that the peer rank has exited
+            with self.assertRaisesRegex(dist.DistBackendError, self.blocking_wait_error_msg):
+                # This should timeout
                 process_group.barrier().wait(timeout=timedelta(seconds=self.op_timeout_sec))
 
     def _run_invalid_nccl_blocking_wait_env(self, val):
 
@@ -415,18 +415,20 @@ AutoNcclGroup::AutoNcclGroup() {
   (c10::cuda::getFreeMutex())->lock();
 #endif
   comm_nonblocking_ = false;
-  comm_ = nullptr;
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR >= 2)
   detail::NCCL_CHECK(ncclGroupStart());
 #endif
 }
 
-AutoNcclGroup::AutoNcclGroup(ncclComm_t comm, bool comm_nonblocking) {
+AutoNcclGroup::AutoNcclGroup(
+    std::vector<ncclComm_t>& comms,
+    bool comm_nonblocking) {
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR < 2)
   // nccl < 2.0 cannot be called concurrently with cudaFree
   (c10::cuda::getFreeMutex())->lock();
 #endif
-  comm_ = comm;
+  // TODO(eqy): can we make comms_ reference?
+  comms_ = comms;
   comm_nonblocking_ = comm_nonblocking;
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR >= 2)
   detail::NCCL_CHECK(ncclGroupStart());
@@ -435,10 +437,10 @@ AutoNcclGroup::AutoNcclGroup(ncclComm_t comm, bool comm_nonblocking) {
 
 AutoNcclGroup::~AutoNcclGroup() noexcept(false) {
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR >= 2)
-  if (comm_nonblocking_ && comm_ != nullptr) {
-    detail::NCCL_CHECK_TIMEOUT(ncclGroupEnd(), comm_);
-  } else {
+  if (!comm_nonblocking_) {
     detail::NCCL_CHECK(ncclGroupEnd());
+  } else {
+    detail::NCCL_CHECK_TIMEOUT(ncclGroupEnd(), comms_);
   }
 #endif
 #if defined(NCCL_MAJOR) && (NCCL_MAJOR < 2)
 
@@ -76,9 +76,9 @@ enum class ncclDataType {
 // manages group and lock lifetimes.
 struct AutoNcclGroup {
   AutoNcclGroup();
-  AutoNcclGroup(ncclComm_t comm, bool comm_nonblocking);
+  AutoNcclGroup(std::vector<ncclComm_t>& comms, bool comm_nonblocking);
   ~AutoNcclGroup() noexcept(false);
-  ncclComm_t comm_;
+  std::vector<ncclComm_t> comms_;
   bool comm_nonblocking_;
 };
 
 
@@ -126,32 +126,37 @@
     TORCH_CHECK_WITH(DistBackendError, false, err);                           \
   }
 
-#define C10D_NCCL_CHECK_TIMEOUT_GROUPEND(cmd, comm, failureReason)           \
-  ncclResult_t state = cmd;                                                  \
-  auto startTimepoint = std::chrono::steady_clock::now();                    \
-  if (state == ncclInProgress) {                                             \
-    do {                                                                     \
-      if (nccl_nonblocking_timeout() > 0) {                                  \
-        auto currentTimepoint = std::chrono::steady_clock::now();            \
-        auto timeElapsed = std::chrono::duration_cast<std::chrono::seconds>( \
-                               currentTimepoint - startTimepoint)            \
-                               .count();                                     \
-        if (timeElapsed > nccl_nonblocking_timeout()) {                      \
-          std::string err = "NCCL timeout in: " + std::string(__FILE__) +    \
-              ":" + std::to_string(__LINE__) + ", " +                        \
-              ncclGetErrorWithVersion(state) + "\n" +                        \
-              getNcclErrorDetailStr(state, failureReason);                   \
-          TORCH_CHECK_WITH(DistBackendError, false, err);                    \
-        }                                                                    \
-      }                                                                      \
-      ncclCommGetAsyncError(comm->getNcclComm(), &state);                    \
-    } while (state == ncclInProgress);                                       \
-  }                                                                          \
-  if (state != ncclSuccess) {                                                \
-    std::string err = "NCCL error in: " + std::string(__FILE__) + ":" +      \
-        std::to_string(__LINE__) + ", " + ncclGetErrorWithVersion(state) +   \
-        "\n" + getNcclErrorDetailStr(state, failureReason);                  \
-    TORCH_CHECK_WITH(DistBackendError, false, err);                          \
+#define C10D_NCCL_CHECK_TIMEOUT_GROUPEND(cmd, comms_, failureReason)           \
+  ncclResult_t state = cmd;                                                    \
+  auto startTimepoint = std::chrono::steady_clock::now();                      \
+  if (state == ncclInProgress) {                                               \
+    for (const auto i : c10::irange(comms_.size())) {                          \
+      do {                                                                     \
+        if (nccl_nonblocking_timeout() > 0) {                                  \
+          auto currentTimepoint = std::chrono::steady_clock::now();            \
+          auto timeElapsed = std::chrono::duration_cast<std::chrono::seconds>( \
+                                 currentTimepoint - startTimepoint)            \
+                                 .count();                                     \
+          if (timeElapsed > nccl_nonblocking_timeout()) {                      \
+            std::string err = "NCCL timeout in: " + std::string(__FILE__) +    \
+                ":" + std::to_string(__LINE__) + ", " +                        \
+                ncclGetErrorWithVersion(state) + "\n" +                        \
+                getNcclErrorDetailStr(state, failureReason);                   \
+            TORCH_CHECK_WITH(DistBackendError, false, err);                    \
+          }                                                                    \
+        }                                                                      \
+        ncclCommGetAsyncError(comms_[i]->getNcclComm(), &state);               \
+      } while (state == ncclInProgress);                                       \
+      if (state != ncclSuccess) {                                              \
+        break; /* fall through to failed case */                               \
+      }                                                                        \
+    }                                                                          \
+  }                                                                            \
+  if (state != ncclSuccess) {                                                  \
+    std::string err = "NCCL error in: " + std::string(__FILE__) + ":" +        \
+        std::to_string(__LINE__) + ", " + ncclGetErrorWithVersion(state) +     \
+        "\n" + getNcclErrorDetailStr(state, failureReason);                    \
+    TORCH_CHECK_WITH(DistBackendError, false, err);                            \
   }
 
 // Macro to print and abort on a non-successful NCCL return value.