pytorch
diff --git a/‎aten/src/ATen/native/quantized/cpu/ACLUtils.cpp
Lines changed: 45 additions & 0 deletions b/‎aten/src/ATen/native/quantized/cpu/ACLUtils.cpp
Lines changed: 45 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/quantized/cpu/ACLUtils.h
Lines changed: 24 additions & 0 deletions b/‎aten/src/ATen/native/quantized/cpu/ACLUtils.h
Lines changed: 24 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/quantized/cpu/BinaryOps.cpp
Lines changed: 71 additions & 0 deletions b/‎aten/src/ATen/native/quantized/cpu/BinaryOps.cpp
Lines changed: 71 additions & 0 deletions
@@ -288,6 +288,51 @@ void StaticQuantMatmul::configure() {
       gemm_info_);
 }
 
+QuantAdd::QuantAdd(
+    arm_compute::DataType dtype,
+    const std::vector<int64_t>& input_dims,
+    double qa_scale,
+    int64_t qa_offset,
+    double qb_scale,
+    int64_t qb_offset,
+    double dst_scale,
+    int64_t dst_offset) {
+  arm_compute::QuantizationInfo qa_qinfo = {
+      static_cast<float>(qa_scale), static_cast<int32_t>(qa_offset), false};
+  arm_compute::QuantizationInfo qb_qinfo = {
+      static_cast<float>(qb_scale), static_cast<int32_t>(qb_offset), false};
+  arm_compute::QuantizationInfo qdst_qinfo = {
+      static_cast<float>(dst_scale), static_cast<int32_t>(dst_offset), false};
+
+  arm_compute::TensorShape qa_acl_tensor_shape;
+  arm_compute::TensorShape qb_acl_tensor_shape;
+  arm_compute::TensorShape qdst_acl_tensor_shape;
+  for (int i = input_dims.size() - 1; i >= 0; i--) {
+    qa_acl_tensor_shape.set(i, input_dims[i], false, true);
+    qb_acl_tensor_shape.set(i, input_dims[i], false, true);
+    qdst_acl_tensor_shape.set(i, input_dims[i], false, true);
+  }
+  arm_compute::TensorInfo qa_acl_tensor_info(
+      qa_acl_tensor_shape, 1, dtype, qa_qinfo);
+  arm_compute::TensorInfo qb_acl_tensor_info(
+      qb_acl_tensor_shape, 1, dtype, qb_qinfo);
+  arm_compute::TensorInfo qdst_acl_tensor_info(
+      qdst_acl_tensor_shape, 1, dtype, qdst_qinfo);
+
+  qa_tensor.allocator()->init(qa_acl_tensor_info);
+  qb_tensor.allocator()->init(qb_acl_tensor_info);
+  qdst_tensor.allocator()->init(qdst_acl_tensor_info);
+}
+
+arm_compute::Status QuantAdd::validate() {
+  return q_add.validate(
+      qa_tensor.info(), qb_tensor.info(), qdst_tensor.info(), policy);
+}
+
+void QuantAdd::configure() {
+  q_add.configure(&qa_tensor, &qb_tensor, &qdst_tensor, policy);
+}
+
 } // namespace at::native::acl_utils
 
 PackedLinearWeightsACL::PackedLinearWeightsACL(
 
@@ -8,6 +8,7 @@
 #include <arm_compute/core/TensorInfo.h>
 #include <arm_compute/function_info/ActivationLayerInfo.h>
 #include <arm_compute/runtime/NEON/functions/NEActivationLayer.h>
+#include <arm_compute/runtime/NEON/functions/NEArithmeticAddition.h>
 #include <arm_compute/runtime/NEON/functions/NEGEMMLowpMatrixMultiplyCore.h>
 #include <arm_compute/runtime/NEON/functions/NEQuantizationLayer.h>
 #include <arm_compute/runtime/Tensor.h>
@@ -121,6 +122,29 @@ struct StaticQuantMatmul : public QuantMatmul {
   std::optional<at::Tensor> bia_q_tensor_orig_;
 };
 
+struct QuantAdd {
+  arm_compute::Tensor qa_tensor;
+  arm_compute::Tensor qb_tensor;
+  arm_compute::Tensor qdst_tensor;
+  arm_compute::NEArithmeticAddition q_add;
+
+  QuantAdd(
+      arm_compute::DataType dtype,
+      const std::vector<int64_t>& input_dims,
+      double qa_scale,
+      int64_t qa_offset,
+      double qb_scale,
+      int64_t qb_offset,
+      double dst_scale,
+      int64_t dst_offset);
+
+  arm_compute::Status validate();
+  void configure();
+
+ private:
+  arm_compute::ConvertPolicy policy{arm_compute::ConvertPolicy::SATURATE};
+};
+
 } // namespace at::native::acl_utils
 struct PackedLinearWeightsACL : public PackedLinearWeightsOnednn {
   using ACLQuantMatmul = at::native::acl_utils::QuantMatmul;
 
@@ -5,6 +5,7 @@
 #include <ATen/ExpandUtils.h>
 #include <torch/library.h>
 #include <ATen/quantized/Quantizer.h>
+#include <ATen/native/quantized/cpu/ACLUtils.h>
 #include <ATen/native/quantized/cpu/BinaryOps.h>
 #include <ATen/native/quantized/cpu/QuantizedOps.h>
 #include <ATen/native/quantized/cpu/init_qnnpack.h>
@@ -384,6 +385,67 @@ Tensor xnnp_add(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
 }
 #endif // USE_XNNPACK
 
+#if AT_MKLDNN_ACL_ENABLED()
+Tensor acl_qadd(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
+  TORCH_CHECK(
+      qa.qscheme() == kPerTensorAffine || qa.qscheme() == kPerTensorSymmetric,
+      "Only per tensor quantization is supported in ACL quantized add.");
+
+  Tensor qa_contig = qa.contiguous(qa.suggest_memory_format());
+  Tensor qb_contig = qb.contiguous(qa.suggest_memory_format());
+  auto qa_mem_format = qa_contig.suggest_memory_format();
+  Tensor dst = at::native::empty_affine_quantized(
+      at::infer_size_dimvector(qa_contig.sizes(), qb_contig.sizes()),
+      qa_contig.scalar_type(),
+      std::nullopt /* layout */,
+      kCPU,
+      std::nullopt /* pin_memory */,
+      scale,
+      zero_point,
+      qa_mem_format);
+
+  if (qb_contig.size(0) == 0) {
+    return dst;
+  }
+
+  auto input_dims = qa_contig.sizes().vec();
+  auto acl_dtype = dst.scalar_type() == kQInt8
+      ? arm_compute::DataType::QASYMM8_SIGNED
+      : arm_compute::DataType::QASYMM8;
+  auto acl_add = std::make_shared<acl_utils::QuantAdd>(
+      acl_dtype,
+      input_dims,
+      qa_contig.q_scale(),
+      qa_contig.q_zero_point(),
+      qb_contig.q_scale(),
+      qb_contig.q_zero_point(),
+      dst.q_scale(),
+      dst.q_zero_point());
+
+  auto status = acl_add->validate();
+  TORCH_CHECK(
+      status.error_code() == arm_compute::ErrorCode::OK,
+      "Arm Compute Library's Quantized Matmul Validation Failed: " +
+          status.error_description());
+
+  acl_add->configure();
+
+  acl_add->qa_tensor.allocator()->import_memory(qa_contig.data_ptr());
+  acl_add->qb_tensor.allocator()->import_memory(qb_contig.data_ptr());
+  acl_add->qdst_tensor.allocator()->import_memory(dst.data_ptr());
+
+  acl_add->q_add.run();
+
+  // this will not free memory, it will just tell ACL that we're no longer
+  // using the pointer
+  acl_add->qb_tensor.allocator()->free();
+  acl_add->qdst_tensor.allocator()->free();
+
+  return dst;
+}
+#endif // AT_MKLDNN_ACL_ENABLED()
+
 template <bool ReLUFused = false>
 Tensor qadd(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
   check_inputs(qa, qb);
@@ -406,6 +468,15 @@ Tensor qadd(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
     }
 #endif // USE_PYTORCH_QNNPACK
   }
+
+#if AT_MKLDNN_ACL_ENABLED()
+  if (!ReLUFused && qa.ndimension() > 0 && qa.sizes() == qb.sizes() &&
+      qa.scalar_type() == qb.scalar_type() &&
+      (qa.scalar_type() == kQInt8 || qa.scalar_type() == kQUInt8)) {
+    return acl_qadd(qa, qb, scale, zero_point);
+  }
+#endif // AT_MKLDNN_ACL_ENABLED()
+
   auto qc = at::_empty_affine_quantized(
       qa.sizes(),
       at::device(kCPU)