pytorch
diff --git a/‎aten/src/ATen/native/mkldnn/xpu/Conv.cpp
Lines changed: 15 additions & 0 deletions
< 10000 /div> b/‎aten/src/ATen/native/mkldnn/xpu/Conv.cpp
Lines changed: 15 additions & 0 deletions
< 10000 /div>
diff --git a/‎test/xpu/test_conv.py
Lines changed: 20 additions & 0 deletions b/‎test/xpu/test_conv.py
Lines changed: 20 additions & 0 deletions
@@ -401,6 +401,11 @@ Tensor _convolution_out(
     int64_t groups_,
     Attr attr,
     IntArrayRef pad_nd = IntArrayRef({})) {
+  CheckedFrom c = "xpu_convolution";
+  TensorArg input_t{input_r, "input", 1}, weight_t{weight_r, "weight", 2};
+  checkAllSameType(c, {input_t, weight_t});
+  checkAllSameGPU(c, {input_t, weight_t});
+  c10::DeviceGuard device_guard(input_r.device());
   auto ndim = input_r.ndimension();
   TORCH_CHECK(
       3 == ndim || 4 == ndim || 5 == ndim,
@@ -611,6 +616,8 @@ std::tuple<Tensor, Tensor, Tensor> convolution_backward_overrideable(
     IntArrayRef output_padding,
     int64_t groups,
     std::array<bool, 3> output_mask) {
+  CheckedFrom c = "xpu_convolution_backward";
+  c10::DeviceGuard device_guard(grad_output.device());
   auto ndim = input.ndimension();
   TORCH_CHECK(
       3 == ndim || 4 == ndim || 5 == ndim,
@@ -675,6 +682,10 @@ std::tuple<Tensor, Tensor, Tensor> convolution_backward_overrideable(
     grad_bias = at::empty({grad_output_.size(1)}, opt);
 
   if (output_mask[0]) {
+    TensorArg grad_output_t{grad_output, "grad_output", 1},
+        input_t{input, "input", 2};
+    checkAllSameType(c, {grad_output_t, input_t});
+    checkAllSameGPU(c, {grad_output_t, input_t});
     if (input.numel() > 0) {
       if (transposed_) {
         onednn::deconvolution_backward_data(
@@ -701,6 +712,10 @@ std::tuple<Tensor, Tensor, Tensor> convolution_backward_overrideable(
     }
   }
   if (output_mask[1] || output_mask[2]) {
+    TensorArg grad_output_t{grad_output, "grad_output", 1},
+        weight_t{weight, "weight", 2};
+    checkAllSameType(c, {grad_output_t, weight_t});
+    checkAllSameGPU(c, {grad_output_t, weight_t});
     if (input.numel() > 0) {
       if (transposed_) {
         onednn::deconvolution_backward_weights(
 
@@ -1,5 +1,6 @@
 # Owner(s): ["module: intel"]
 
+import copy
 import itertools
 import math
 import unittest
@@ -1191,6 +1192,25 @@ def test_conv2d_no_grad(self, device, dtype):
                 output = m(input)
                 self.assertEqual(output, output_ng, rtol=1e-2, atol=1e-5)
 
+    @unittest.skipIf(torch.xpu.device_count() < 2, "only one GPU detected")
+    @dtypes(torch.double, torch.float, torch.half)
+    def test_conv2d_on_multi_device(self, dtype):
+        input = torch.randn(3, 256, 224, 224, dtype=dtype, requires_grad=True)
+        conv = torch.nn.Conv2d(256, 256, kernel_size=3, padding=1, dtype=dtype)
+        output_grad = torch.randn(3, 256, 224, 224, dtype=dtype)
+        input_0 = input.to(device="xpu:0")
+        conv_0 = copy.deepcopy(conv).to(device="xpu:0")
+        output_0 = conv_0(input_0)
+        input_1 = input.to(device="xpu:1")
+        conv_1 = copy.deepcopy(conv).to(device="xpu:1")
+        output_1 = conv_1(input_1)
+        self.assertEqual(output_0.cpu(), output_1.cpu())
+        output_grad_0 = output_grad.to(device="xpu:0")
+        output_0.backward(output_grad_0)
+        output_grad_1 = output_grad.to(device="xpu:1")
+        output_1.backward(output_grad_1)
+        self.assertEqual(output_grad_0.cpu(), output_grad_1.cpu())
+
     def test_conv_double_backward_strided_with_3D_input_and_weight(self, device):
         input = torch.randn(2, 3, 6, device=device)
         weight = torch.randn(3, 3, 3, device=device)