pytorch
diff --git a/‎aten/src/ATen/native/mkldnn/Conv.cpp
Lines changed: 80 additions & 33 deletions b/‎aten/src/ATen/native/mkldnn/Conv.cpp
Lines changed: 80 additions & 33 deletions
diff --git a/‎aten/src/ATen/native/mkldnn/MKLDNNConversions.cpp
Lines changed: 99 additions & 0 deletions b/‎aten/src/ATen/native/mkldnn/MKLDNNConversions.cpp
Lines changed: 99 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/mkldnn/RegisterMkldnnOpContextClass.cpp
Lines changed: 2 additions & 0 deletions b/‎aten/src/ATen/native/mkldnn/RegisterMkldnnOpContextClass.cpp
Lines changed: 2 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/mkldnn/Utils.h
Lines changed: 21 additions & 0 deletions b/‎aten/src/ATen/native/mkldnn/Utils.h
Lines changed: 21 additions & 0 deletions
diff --git a/‎test/test_mkldnn_fusion.py
Lines changed: 17 additions & 2 deletions b/‎test/test_mkldnn_fusion.py
Lines changed: 17 additions & 2 deletions
@@ -594,25 +594,29 @@ Tensor& mkldnn_convolution_pointwise_binary_(
   return other_t;
 }
 
-static inline std::vector<int64_t> padding_r(
-    IntArrayRef padding, IntArrayRef output_padding)
-{
-  // ConvTranpose padding adjustment
-  //
-  // PyTorch uses padding/output_padding:
-  //   osize = (isize - 1) * stride - 2 * padding + dilation * (kernel_size - 1) + output_padding + 1
-  //
-  // MKLDNN uses padding_l/padding_r:
-  //   osize = (isize - 1) * stride - padding_l - padding_r + dilation * (kernel_size - 1) + 1
-  //
-  // So: padding_l = padding, padding_r = padding - output_padding
-  //
-  auto dim = padding.size();
-  std::vector<int64_t> pad_r(dim);
-  for (const auto d : c10::irange(dim)) {
-    pad_r[d] = padding[d] - output_padding[d];
+std::vector<int64_t> _original_deconv_weight_size(
+    const Tensor& weight_t,
+    int64_t groups) {
+  TORCH_CHECK(weight_t.is_mkldnn() || weight_t.is_meta(), "expects weight_t to be mkldnn or meta tensor");
+  // The size of weight_t is the prepacked size.
+  //  Groups > 1: [g*o, i/g, ...]
+  //  Groups == 1: [o, i, ...]
+  // Returns original weight size in [i, o, ...]
+  auto dim = weight_t.sizes().size();
+  TORCH_CHECK(dim > 2);
+
+  std::vector<int64_t> weight_IOHW_sizes(dim);
+  if (groups > 1) {
+    weight_IOHW_sizes[0] = weight_t.sizes()[1] * groups;
+    weight_IOHW_sizes[1] = weight_t.sizes()[0] / groups;
+  } else {
+    weight_IOHW_sizes[0] = weight_t.sizes()[1];
+    weight_IOHW_sizes[1] = weight_t.sizes()[0];
   }
-  return pad_r;
+  for (const auto d : c10::irange(2, dim)) {
+    weight_IOHW_sizes[d] = weight_t.sizes()[d];
+  }
+  return weight_IOHW_sizes;
 }
 
 
@@ -625,6 +629,7 @@ Tensor _mkldnn_convolution_transpose(
     IntArrayRef stride,
     IntArrayRef dilation,
     int64_t groups,
+    bool use_channels_last,
     c10::string_view attr = "none",
     torch::List<c10::optional<at::Scalar>> scalars =
         torch::List<c10::optional<at::Scalar>>(),
@@ -644,22 +649,33 @@ Tensor _mkldnn_convolution_transpose(
     TORCH_CHECK(mkldnn_bf16_device_check(),
         "mkldnn_convolution_transpose: bf16 path needs the cpu support avx512bw, avx512vl and avx512dq");
   }
-  bool is_channels_last = input_t.suggest_memory_format() == at::MemoryFormat::ChannelsLast;
 
-  auto output_sizes = conv_input_size(input_t.sizes(), weight_t.sizes(), padding, output_padding, stride, dilation, groups);
-  auto output = at::empty({0}, input_t.options());
+  std::vector<int64_t> weight_IOHW_sizes = weight_t.is_mkldnn() ? _original_deconv_weight_size(weight_t, groups) : weight_t.sizes().vec();
+
+  auto memory_format =
+      mkldnn_convolution_memory_format(input_t.ndimension(), use_channels_last);
+
+  auto input = input_t.is_mkldnn() ? input_t : input_t.contiguous(memory_format);
+  auto weight = weight_t.is_mkldnn() ? weight_t : weight_t.contiguous(memory_format);
 
-  const ideep::tensor x = itensor_from_tensor(input_t);
-  ideep::tensor w = itensor_from_tensor(weight_t);
-  // mkldnn transposed convolution has weight in logical order of OIHW or OIDHW,
-  // while PyTorch has IOHW or IODHW, `._tranpose()` switches strides (no memory copy).
-  w.transpose_(0, 1);
+  auto output_sizes = conv_input_size(input.sizes(), weight_IOHW_sizes, padding, output_padding, stride, dilation, groups);
+  auto output = at::empty({0}, input.options());
+
+  const ideep::tensor x = itensor_from_tensor(input);
+
+  ideep::tensor w = itensor_from_tensor(weight);
+  if (!weight.is_mkldnn()) {
+    // mkldnn transposed convolution has weight in logical order of OIHW or OIDHW,
+    // while PyTorch has IOHW or IODHW, `._tranpose()` switches strides (no memory copy).
+    w.transpose_(0, 1);
+  }
 
   ideep::tensor y;
-  if (is_channels_last) {
-    output.resize_(output_sizes, input_t.suggest_memory_format());
+  if (use_channels_last) {
+    output.resize_(output_sizes, memory_format);
     y = itensor_from_tensor(output);
   }
+
   if (bias.defined()) {
     const ideep::tensor b = itensor_from_tensor(bias);
     ideep::convolution_transpose_forward::compute(
@@ -687,10 +703,10 @@ Tensor _mkldnn_convolution_transpose(
         groups,
         op_attr);
   }
-  if (input_t.is_mkldnn()) {
-    return MKLDNNTensor(y, input_t.options());
-  } else if (!is_channels_last) {
-    return mkldnn_to_dense(MKLDNNTensor(y, input_t.options()));
+  if (input.is_mkldnn()) {
+    return MKLDNNTensor(y, input.options());
+  } else if (!use_channels_last) {
+    return mkldnn_to_dense(MKLDNNTensor(y, input.options()));
   } else {
     TORCH_INTERNAL_ASSERT(y.get_desc().is_nhwc());
     return output;
@@ -710,6 +726,8 @@ Tensor mkldnn_convolution_transpose_pointwise(
     torch::List<c10::optional<at::Scalar>> scalars,
     c10::optional<c10::string_view> algorithm) {
   c10::impl::ExcludeDispatchKeyGuard edkg(c10::autograd_dispatch_keyset);
+  bool use_channels_last =
+      weight_t.is_mkldnn() || mkldnn_conv_use_channels_last(input_t, weight_t);
   return _mkldnn_convolution_transpose(
       input_t,
       weight_t,
@@ -719,12 +737,32 @@ Tensor mkldnn_convolution_transpose_pointwise(
       stride,
       dilation,
       groups,
+      use_channels_last,
       attr,
       scalars,
       algorithm
   );
 }
 
+Tensor mkldnn_convolution_transpose_pointwise_meta(
+    const Tensor& input_t,
+    const Tensor& weight_t,
+    const c10::optional<Tensor>& bias_opt,
+    IntArrayRef padding,
+    IntArrayRef output_padding,
+    IntArrayRef stride,
+    IntArrayRef dilation,
+    int64_t groups,
+    c10::string_view attr,
+    torch::List<c10::optional<at::Scalar>> scalars,
+    c10::optional<c10::string_view> algorithm) {
+
+  std::vector<int64_t> weight_IOHW_sizes = _original_deconv_weight_size(weight_t, groups);
+  auto output_sizes = conv_input_size(input_t.sizes(), weight_IOHW_sizes, padding, output_padding, stride, dilation, groups);
+
+  auto output = at::empty(output_sizes, input_t.options());
+  return output;
+}
 
 Tensor mkldnn_convolution_backward_input(
     IntArrayRef input_size,
@@ -871,7 +909,16 @@ TORCH_LIBRARY_IMPL(mkldnn, MkldnnCPU, m) {
   m.impl(
       TORCH_SELECTIVE_NAME("mkldnn::_convolution_pointwise_.binary"),
       TORCH_FN(mkldnn_convolution_pointwise_binary_));
+  m.impl(
+      TORCH_SELECTIVE_NAME("mkldnn::_convolution_transpose_pointwise"),
+      TORCH_FN(mkldnn_convolution_transpose_pointwise));
+}
+
+TORCH_LIBRARY_IMPL(mkldnn, Meta, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("mkldnn::_convolution_transpose_pointwise"),
+      TORCH_FN(mkldnn_convolution_transpose_pointwise_meta));
 }
 }}  // namespace at::native
 
-#endif
+#endif
@@ -168,6 +168,105 @@ Tensor mkldnn_reorder_conv3d_weight(
   return new_with_itensor_mkldnn(std::move(result), optTypeMetaToScalarType(self.options().dtype_opt()), self.options().device_opt());
 }
 
+
+ideep::tensor::desc get_conv_transpose_expected_weights_desc(
+    const ideep::tensor::dims& weights_dims,
+    ideep::tensor::data_type w_dtype,
+    const ideep::tensor::dims& strides,
+    const ideep::tensor::dims& padding_l,
+    const ideep::tensor::dims& padding_r,
+    const ideep::tensor::dims& dilates,
+    int groups,
+    bool channels_last,
+    ideep::algorithm aalgorithm,
+    ideep::data_type x_dtype,
+    const ideep::dims& src_dims) {
+  if (channels_last) {
+    return ideep::convolution_transpose_forward::expected_weights_desc<true>(
+        weights_dims,
+        w_dtype,
+        strides,
+        padding_l,
+        padding_r,
+        dilates,
+        groups,
+        aalgorithm,
+        ideep::prop_kind::forward,
+        src_dims);
+  } else {
+    return ideep::convolution_transpose_forward::expected_weights_desc<false>(
+        weights_dims,
+        w_dtype,
+        strides,
+        padding_l,
+        padding_r,
+        dilates,
+        groups,
+        aalgorithm,
+        ideep::prop_kind::forward,
+        src_dims);
+  }
+}
+
+
+Tensor mkldnn_reorder_conv_transpose2d_weight(
+    const Tensor& self,
+    IntArrayRef padding,
+    IntArrayRef output_padding,
+    IntArrayRef stride,
+    IntArrayRef dilation,
+    int64_t groups,
+    c10::OptionalArrayRef<int64_t> input_size) {
+  c10::impl::ExcludeDispatchKeyGuard edkg(c10::autograd_dispatch_keyset);
+  if (self.scalar_type() == ScalarType::BFloat16) {
+    TORCH_CHECK(mkldnn_bf16_device_check(),
+        "mkldnn_reorder_conv2d_weight: bf16 path needs the cpu support avx512bw, avx512vl and avx512dq");
+  }
+
+  ideep::tensor w = itensor_from_tensor(self);
+
+  ideep::dims src_dims = ideep::dims();
+  bool is_channels_last = false;
+  if (input_size.has_value()) {
+    src_dims = input_size.value().vec();
+    // if has input size, we always use channels last.
+    is_channels_last = true;
+  }
+
+  auto expected_desc = get_conv_transpose_expected_weights_desc(
+      w.get_dims(),
+      w.get_data_type(),
+      stride.vec(),
+      padding.vec(),
+      padding_r(padding, output_padding),
+      dilation.vec(),
+      groups,
+      is_channels_last,
+      ideep::algorithm::deconvolution_direct,
+      w.get_data_type(),
+      src_dims);
+
+  if (groups > 1) {
+    expected_desc = expected_desc.transpose(1, 2);
+  } else {
+    expected_desc = expected_desc.transpose(0, 1);
+  }
+
+  ideep::tensor result;
+  result.init(expected_desc);
+  w.transpose_(0, 1);
+  result.feed_from(w, /*is_deconv_weights*/true);
+
+  return new_with_itensor_mkldnn(std::move(result), optTypeMetaToScalarType(self.options().dtype_opt()),
+                                 self.options().device_opt());
+}
+
+TORCH_LIBRARY_IMPL(mkldnn, MkldnnCPU, m) {
+  m.impl(
+      TORCH_SELECTIVE_NAME("mkldnn::_reorder_convolution_transpose_weight"),
+      TORCH_FN(mkldnn_reorder_conv_transpose2d_weight));
+}
+
 #else
 
 Tensor mkldnn_to_dense(const Tensor& mkldnn_tensor, c10::optional<ScalarType> dtype) {
 
@@ -44,6 +44,8 @@ TORCH_LIBRARY(mkldnn, m) {
       "mkldnn::_convolution_pointwise_.binary(Tensor X, Tensor(a!) other, Tensor W, Tensor? B, int[] padding, int[] stride, int[] dilation, int groups, str binary_attr, Scalar? alpha, str? unary_attr, Scalar?[] unary_scalars, str? unary_algorithm) -> Tensor(a!) Y"));
   m.def(TORCH_SELECTIVE_SCHEMA(
       "mkldnn::_convolution_transpose_pointwise(Tensor X, Tensor W, Tensor? B, int[] padding, int[] output_padding, int[] stride, int[] dilation, int groups, str attr, Scalar?[] scalars, str? algorithm) -> Tensor Y"));
+  m.def(TORCH_SELECTIVE_SCHEMA(
+      "mkldnn::_reorder_convolution_transpose_weight(Tensor self, int[2] padding=0, int[2] output_padding=0, int[2] stride=1, int[2] dilation=1, int groups=1, int[]? input_size=None) -> Tensor Y"));
 }
 
 TORCH_LIBRARY(mkldnn_prepacked, m) {
 
@@ -33,6 +33,27 @@ void check_mkldnn_binary_fusion_inputs(
     const Tensor& weight,
     const Tensor& bias);
 
+static inline std::vector<int64_t> padding_r(
+    IntArrayRef padding, IntArrayRef output_padding)
+{
+  // ConvTranpose padding adjustment
+  //
+  // PyTorch uses padding/output_padding:
+  //   osize = (isize - 1) * stride - 2 * padding + dilation * (kernel_size - 1) + output_padding + 1
+  //
+  // MKLDNN uses padding_l/padding_r:
+  //   osize = (isize - 1) * stride - padding_l - padding_r + dilation * (kernel_size - 1) + 1
+  //
+  // So: padding_l = padding, padding_r = padding - output_padding
+  //
+  auto dim = padding.size();
+  std::vector<int64_t> pad_r(dim);
+  for (const auto d : 
10000
c10::irange(dim)) {
+    pad_r[d] = padding[d] - output_padding[d];
+  }
+  return pad_r;
+}
+
 #if AT_MKLDNN_ENABLED()
 
 using AttrFunction = std::function<ideep::attr_t(
 
@@ -350,8 +350,8 @@ def forward(self, x):
         for pointwise_name, pointwise_info in self._unary_list().items():
             for dim in [2]:
                 channels_last = torch.channels_last if dim == 2 else torch.channels_last_3d
-                options = itertools.product([True, False], [1, 2], [1, 4], [torch.contiguous_format, channels_last])
-                for bias, dilation, groups, memory_format in options:
+                options = itertools.product([True, False], [1, 2], [1, 4], [torch.contiguous_format, channels_last], [False, True])
+                for bias, dilation, groups, memory_format, prepack_weight in options:
                     oC = 32 * groups
                     iC = 3 * groups
                     x_shape = (1, iC) + input_shapes[dim]
@@ -363,6 +363,21 @@ def forward(self, x):
                         attr = pointwise_info.attr
                         scalars = pointwise_info.scalars
                         algorithm = pointwise_info.algorithm
+
+                        if prepack_weight:
+                            packed_weight = torch.ops.mkldnn._reorder_convolution_transpose_weight(
+                                mod.conv_transpose.weight.to_mkldnn(),
+                                mod.conv_transpose.padding,
+                                mod.conv_transpose.output_padding,
+                                mod.conv_transpose.stride,
+                                mod.conv_transpose.dilation,
+                                mod.conv_transpose.groups,
+                                x.size())
+                            mod.conv_transpose.weight = torch.nn.Parameter(
+                                packed_weight,
+                                requires_grad=mod.conv_transpose.weight.requires_grad,
+                            )
+
                         fused = torch.ops.mkldnn._convolution_transpose_pointwise(
                             x,
                             mod.conv_transpose.weight,
Original file line number	Diff line number	Diff line change
`@@ -44,6 +44,8 @@ TORCH_LIBRARY(mkldnn, m) {`
`44`	`44`	`"mkldnn::_convolution_pointwise_.binary(Tensor X, Tensor(a!) other, Tensor W, Tensor? B, int[] padding, int[] stride, int[] dilation, int groups, str binary_attr, Scalar? alpha, str? unary_attr, Scalar?[] unary_scalars, str? unary_algorithm) -> Tensor(a!) Y"));`
`45`	`45`	`m.def(TORCH_SELECTIVE_SCHEMA(`
`46`	`46`	`"mkldnn::_convolution_transpose_pointwise(Tensor X, Tensor W, Tensor? B, int[] padding, int[] output_padding, int[] stride, int[] dilation, int groups, str attr, Scalar?[] scalars, str? algorithm) -> Tensor Y"));`
	`47`	`+ m.def(TORCH_SELECTIVE_SCHEMA(`
	`48`	`+ "mkldnn::_reorder_convolution_transpose_weight(Tensor self, int[2] padding=0, int[2] output_padding=0, int[2] stride=1, int[2] dilation=1, int groups=1, int[]? input_size=None) -> Tensor Y"));`
`47`	`49`	`}`
`48`	`50`
`49`	`51`	`TORCH_LIBRARY(mkldnn_prepacked, m) {`