pytorch
diff --git a/‎aten/src/ATen/native/Blas.cpp
Lines changed: 14 additions & 0 deletions b/‎aten/src/ATen/native/Blas.cpp
Lines changed: 14 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/mkldnn/Linear.cpp
Lines changed: 15 additions & 0 deletions b/‎aten/src/ATen/native/mkldnn/Linear.cpp
Lines changed: 15 additions & 0 deletions
diff --git a/‎test/test_mkldnn.py
Lines changed: 30 additions & 0 deletions b/‎test/test_mkldnn.py
Lines changed: 30 additions & 0 deletions
@@ -246,6 +246,10 @@ _scaled_mm_out_cpu_emulated(const Tensor& mat1, const Tensor& mat2,
       mat1.sizes()[0], "x", mat1.sizes()[1], " and ", mat2.sizes()[0], "x", mat2.sizes()[1], ")");
 
   TORCH_INTERNAL_ASSERT((scale_a.numel() == 1 && scale_b.numel() == 1), "Now _scaled_mm only supports per-tensor scaling for CPU backend.");
+  TORCH_CHECK(
+      !scale_result ||
+          (scale_result->numel() == 1 && scale_result->scalar_type() == kFloat),
+      "scale_result must be a float scalar");
   TORCH_CHECK(!bias || bias->numel() == mat2.sizes()[1], "Bias must be size ", mat2.sizes()[1],
        " but got ", bias->numel());
 
@@ -262,12 +266,22 @@ _scaled_mm_out_cpu_emulated(const Tensor& mat1, const Tensor& mat2,
 
   float input_scale = scale_a.item<float>();
   float weight_scale = scale_b.item<float>();
+  float output_scale = float(1.0);
+  if (scale_result.has_value() &&
+      (*out_dtype == ScalarType::Float8_e4m3fn ||
+       *out_dtype == ScalarType::Float8_e5m2)) {
+    output_scale = scale_result.value().item<float>();
+  }
   auto fp32_mat1 = at::mul(mat1.to(kFloat), input_scale);
   auto fp32_mat2 = at::mul(mat2_c.to(kFloat), weight_scale);
   auto out_tmp = at::matmul(fp32_mat1, fp32_mat2);
   if (bias) {
     out_tmp.add_(bias.value());
   }
+  if (*out_dtype == ScalarType::Float8_e4m3fn ||
+      *out_dtype == ScalarType::Float8_e5m2) {
+    out_tmp = at::mul(out_tmp, 1 / output_scale);
+  }
   out_tmp = out_tmp.to(out.scalar_type());
   out.copy_(out_tmp);
   return out;
 
@@ -487,6 +487,10 @@ mkldnn_scaled_mm(const Tensor& mat1, const Tensor& mat2,
       mat1.sizes()[0], "x", mat1.sizes()[1], " and ", mat2.sizes()[0], "x", mat2.sizes()[1], ")");
 
   TORCH_INTERNAL_ASSERT((scale_a.numel() == 1 && scale_b.numel() == 1), "Now _scaled_mm only supports per-tensor scaling for CPU backend.");
+  TORCH_CHECK(
+      !scale_result ||
+          (scale_result->numel() == 1 && scale_result->scalar_type() == kFloat),
+      "scale_result must be a float scalar");
   TORCH_CHECK(!bias || bias->numel() == mat2.sizes()[1], "Bias must be size ", mat2.sizes()[1],
        " but got ", bias->numel());
 
@@ -504,6 +508,12 @@ mkldnn_scaled_mm(const Tensor& mat1, const Tensor& mat2,
 
   float input_scale = scale_a.item<float>();
   float weight_scale = scale_b.item<float>();
+  float output_scale = float(1.0);
+  if (scale_result.has_value() &&
+      (*out_dtype == ScalarType::Float8_e4m3fn ||
+       *out_dtype == ScalarType::Float8_e5m2)) {
+    output_scale = scale_result.value().item<float>();
+  }
   auto src = at::native::itensor_view_from_dense(mat1_c);
   auto weight_t = at::native::itensor_view_from_dense(mat2_c);
   bool with_bias = bias.has_value();
@@ -550,6 +560,9 @@ mkldnn_scaled_mm(const Tensor& mat1, const Tensor& mat2,
   if (weight_scale != 1.0f) {
     op_attr.set_scales_mask(DNNL_ARG_WEIGHTS, 0);
   }
+  if (output_scale != 1.0f) {
+    op_attr.set_scales_mask(DNNL_ARG_DST, 0);
+  }
 
   op_attr.set_scratchpad_mode(dnnl::scratchpad_mode::user);
   auto engine = ideep::engine::cpu_engine();
@@ -578,6 +591,8 @@ mkldnn_scaled_mm(const Tensor& mat1, const Tensor& mat2,
     args.insert({DNNL_ARG_ATTR_SCALES | DNNL_ARG_SRC, src_scales_t});
   }
   args.insert({DNNL_ARG_ATTR_SCALES | DNNL_ARG_WEIGHTS, wei_scales_t});
+  ideep::tensor dst_scales_t = ideep::tensor(ideep::scale_t(1, output_scale));
+  args.insert({DNNL_ARG_ATTR_SCALES | DNNL_ARG_DST, dst_scales_t});
 
   primitive.execute(ideep::stream::default_stream(), args);
   return out;
 
@@ -1629,6 +1629,36 @@ def test_mkldnn_error_on_zero_stride(self, device):
         with self.assertRaises(ValueError):
             torch.mkldnn_max_pool2d(x, kernel_size=3, stride=0)
 
+    def test_mkldnn_scaled_mm(self, device) -> None:
+        # test with input scale, weight scale and output_scale
+        M, N, K = 2, 13, 16
+        x = torch.randn((M, K), device=device) / K
+        y = torch.randn((N, K), device=device).t() / K
+        options = itertools.product(
+            [torch.float8_e4m3fn, torch.float8_e5m2],
+            [torch.float8_e4m3fn, torch.float8_e5m2],
+            [torch.float8_e4m3fn, torch.float8_e5m2, torch.bfloat16, torch.float16, torch.float32])
+        for x_dtype, y_dtype, out_dtype in options:
+            if out_dtype in (torch.float8_e4m3fn, torch.float8_e5m2):
+                if x_dtype != out_dtype:
+                    continue
+            x_fp8 = x.to(x_dtype)
+            y_fp8 = y.to(y_dtype)
+            scale_a = torch.randn(1, device=device)
+            scale_b = torch.randn(1, device=device)
+            scale_out = torch.randn(1, device=device)
+            out_fp32 = torch.mm(x_fp8.to(torch.float) * scale_a, y_fp8.to(torch.float) * scale_b)
+            if out_dtype in (torch.float8_e4m3fn, torch.float8_e5m2):
+                out_emulated = (out_fp32 / scale_out).to(out_dtype)
+            else:
+                out_emulated = out_fp32.to(out_dtype)
+
+            out = torch._scaled_mm(x_fp8, y_fp8, scale_a, scale_b, scale_result=scale_out, out_dtype=out_dtype)
+            if out_dtype is not None:
+                self.assertEqual(out_dtype, out.dtype)
+            self.assertEqual(out_emulated.float(), out.float(), atol=5e-2, rtol=5e-2)
+
+
 
 instantiate_device_type_tests(TestMkldnn, globals(), only_for=('cpu',))