pytorch
diff --git a/‎aten/src/ATen/native/mkldnn/xpu/qlinear.cpp
Lines changed: 22 additions & 12 deletions b/‎aten/src/ATen/native/mkldnn/xpu/qlinear.cpp
Lines changed: 22 additions & 12 deletions
@@ -7,6 +7,18 @@ using namespace at::native::onednn;
 
 namespace at::native::xpu {
 
+static inline c10::ScalarType qlinear_decide_out_dtype(
+    const at::Tensor& act,
+    const std::optional<c10::ScalarType> output_dtype) {
+  bool fp32_output = output_dtype.has_value() && (output_dtype == c10::kFloat);
+  bool bfloat16_output =
+      output_dtype.has_value() && (output_dtype == c10::kBFloat16);
+  auto dst_dtype = fp32_output
+      ? c10::kFloat
+      : (bfloat16_output ? c10::kBFloat16 : act.scalar_type());
+  return dst_dtype;
+}
+
 Tensor q_linear_pointwise(
     Tensor act,
     double act_scale,
@@ -37,9 +49,9 @@ Tensor q_linear_pointwise(
 
   std::vector<int64_t> src_dims = {M, K};
   std::vector<int64_t> dst_dims = {M, N};
-  auto out_dtype =
-      output_dtype.has_value() ? output_dtype.value() : act.scalar_type();
-  Tensor qout = at::empty(dst_dims, act.options().dtype(out_dtype));
+
+  auto dst_dtype = qlinear_decide_out_dtype(act, output_dtype);
+  Tensor qout = at::empty(dst_dims, act.options().dtype(dst_dtype));
 
   quantized_matmul(
       act.contiguous(),
@@ -96,9 +108,9 @@ Tensor q_linear_pointwise_tensor(
 
   std::vector<int64_t> src_dims = {M, K};
   std::vector<int64_t> dst_dims = {M, N};
-  auto out_dtype =
-      output_dtype.has_value() ? output_dtype.value() : act.scalar_type();
-  Tensor qout = at::empty(dst_dims, act.options().dtype(out_dtype));
+
+  auto dst_dtype = qlinear_decide_out_dtype(act, output_dtype);
+  Tensor qout = at::empty(dst_dims, act.options().dtype(dst_dtype));
 
   quantized_matmul(
       act.contiguous(),
@@ -159,9 +171,8 @@ Tensor q_linear_pointwise_binary(
 
   std::vector<int64_t> src_dims = {M, K};
   std::vector<int64_t> dst_dims = {M, N};
-  auto out_dtype =
-      output_dtype.has_value() ? output_dtype.value() : act.scalar_type();
-  Tensor qout = at::empty(dst_dims, act.options().dtype(out_dtype));
+  auto dst_dtype = qlinear_decide_out_dtype(act, output_dtype);
+  Tensor qout = at::empty(dst_dims, act.options().dtype(dst_dtype));
 
   quantized_matmul(
       act.contiguous(),
@@ -222,9 +233,8 @@ Tensor q_linear_pointwise_binary_tensor(
 
   std::vector<int64_t> src_dims = {M, K};
   std::vector<int64_t> dst_dims = {M, N};
-  auto out_dtype =
-      output_dtype.has_value() ? output_dtype.value() : act.scalar_type();
-  Tensor qout = at::empty(dst_dims, act.options().dtype(out_dtype));
+  auto dst_dtype = qlinear_decide_out_dtype(act, output_dtype);
+  Tensor qout = at::empty(dst_dims, act.options().dtype(dst_dtype));
 
   quantized_matmul(
       act.contiguous(),