pytorch
diff --git a/‎aten/src/ATen/native/quantized/cpu/ACLUtils.h
Lines changed: 16 additions & 0 deletions b/‎aten/src/ATen/native/quantized/cpu/ACLUtils.h
Lines changed: 16 additions & 0 deletions
diff --git a/‎aten/src/ATen/native/quantized/cpu/BinaryOps.cpp
Lines changed: 90 additions & 0 deletions b/‎aten/src/ATen/native/quantized/cpu/BinaryOps.cpp
Lines changed: 90 additions & 0 deletions
@@ -9,6 +9,7 @@
 #include <arm_compute/function_info/ActivationLayerInfo.h>
 #include <arm_compute/runtime/Allocator.h>
 #include <arm_compute/runtime/NEON/functions/NEActivationLayer.h>
+#include <arm_compute/runtime/NEON/functions/NEArithmeticAddition.h>
 #include <arm_compute/runtime/NEON/functions/NEGEMMLowpMatrixMultiplyCore.h>
 #include <arm_compute/runtime/NEON/functions/NEQuantizationLayer.h>
 #include <arm_compute/runtime/Tensor.h>
@@ -63,6 +64,21 @@ struct ACLDynamicQuantMatmul {
   }
 };
 
+struct ACLInt8Add {
+  arm_compute::Tensor qa_acl_tensor;
+  arm_compute::Tensor qb_acl_tensor;
+  arm_compute::Tensor qdst_acl_tensor;
+  arm_compute::NEArithmeticAddition acl_add;
+
+  ~ACLInt8Add() {
+    // This will free memory allocated for the quantized src tensor since the
+    // allocation happened through ACL: src_s8_tensor.allocator()->allocate()
+    qa_acl_tensor.allocator()->free();
+    qb_acl_tensor.allocator()->free();
+    qdst_acl_tensor.allocator()->free();
+  }
+};
+
 } // namespace at::native::acl_utils
 
 struct PackedLinearWeightsACL : public PackedLinearWeightsOnednn {
 
@@ -5,6 +5,7 @@
 #include <ATen/ExpandUtils.h>
 #include <torch/library.h>
 #include <ATen/quantized/Quantizer.h>
+#include <ATen/native/quantized/cpu/ACLUtils.h>
 #include <ATen/native/quantized/cpu/BinaryOps.h>
 #include <ATen/native/quantized/cpu/QuantizedOps.h>
 #include <ATen/native/quantized/cpu/init_qnnpack.h>
@@ -384,6 +385,83 @@ Tensor xnnp_add(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
 }
 #endif // USE_XNNPACK
 
+#if AT_MKLDNN_ACL_ENABLED()
+  template <typename T>
+  Tensor acl_qadd(Tensor qa, Tensor qb, double scale, int64_t zero_point){
+    TORCH_CHECK(qa.ndimension() > 0, "acl_qadd(): Got empty input tensor.");
+    TORCH_CHECK(qa.qscheme() == kPerTensorAffine ||
+                qa.qscheme() == kPerTensorSymmetric,
+                "Only per tensor quantization is supported in ACL quantized add.");
+
+    auto qa_mem_format = qa.suggest_memory_format();
+    Tensor dst = at::native::empty_affine_quantized(
+          at::infer_size_dimvector(qa.sizes(), qb.sizes()),
+          qa.scalar_type(),
+          std::nullopt /* layout */,
+          kCPU,
+          std::nullopt /* pin_memory */,
+          scale,
+          zero_point,
+          qa_mem_format);
+
+    if (qb.size(0) == 0){
+      return dst;
+    }
+
+    // acl_obj created here to enable to cache this in the future
+    std::shared_ptr<at::native::acl_utils::ACLInt8Add> acl_obj = std::make_shared<at::native::acl_utils::ACLInt8Add>();
+
+    auto input_dims = qa.sizes().vec();
+
+    arm_compute::TensorShape qa_acl_tensor_shape;
+    arm_compute::TensorShape qb_acl_tensor_shape;
+    arm_compute::TensorShape qdst_acl_tensor_shape;
+    for(size_t i = input_dims.size() - 1; i != (size_t)-1; i--){
+      qa_acl_tensor_shape.set(i, input_dims[i], false, true);
+      qb_acl_tensor_shape.set(i, input_dims[i], false, true);
+      qdst_acl_tensor_shape.set(i, input_dims[i], false, true);
+    }
+
+    arm_compute::QuantizationInfo qa_qinfo = { static_cast<float>(qa.q_scale()), static_cast<int32_t>(qa.q_zero_point()), false };
+    arm_compute::QuantizationInfo qb_qinfo = { static_cast<float>(qb.q_scale()), static_cast<int32_t>(qb.q_zero_point()),  false };
+    arm_compute::QuantizationInfo qdst_qinfo = { static_cast<float>(scale), static_cast<int32_t>(zero_point),  false };
+
+    arm_compute::DataType acl_data_t;
+    if(typeid(T) == typeid(int8_t)){
+      acl_data_t = arm_compute::DataType::QASYMM8_SIGNED;
+    }
+    else{
+      acl_data_t = arm_compute::DataType::QASYMM8; // unsigned
+    }
+
+    arm_compute::TensorInfo qa_acl_tensor_info(qa_acl_tensor_shape, 1, acl_data_t, qa_qinfo);
+    arm_compute::TensorInfo qb_acl_tensor_info(qb_acl_tensor_shape, 1, acl_data_t, qb_qinfo);
+    arm_compute::TensorInfo qdst_acl_tensor_info(qdst_acl_tensor_shape, 1, acl_data_t, qdst_qinfo);
+
+    acl_obj->qa_acl_tensor.allocator()->init(qa_acl_tensor_info);
+    acl_obj->qb_acl_tensor.allocator()->init(qb_acl_tensor_info);
+    acl_obj->qdst_acl_tensor.allocator()->init(qdst_acl_tensor_info);
+
+    arm_compute::ConvertPolicy policy = arm_compute::ConvertPolicy::SATURATE;
+    auto stat = acl_obj->acl_add.validate(&qa_acl_tensor_info, &qb_acl_tensor_info, &qdst_acl_tensor_info, policy);
+    TORCH_CHECK(stat.error_code() == arm_compute::ErrorCode::OK,
+                "arm_compute::NEArithmeticAddition config error.");
+    acl_obj->acl_add.configure(&(acl_obj->qa_acl_tensor), &(acl_obj->qb_acl_tensor), &(acl_obj->qdst_acl_tensor), policy);
+
+    acl_obj->qa_acl_tensor.allocator()->import_memory((T*)qa.data_ptr());
+    acl_obj->qb_acl_tensor.allocator()->import_memory((T*)qb.data_ptr());
+    acl_obj->qdst_acl_tensor.allocator()->import_memory((T*)dst.data_ptr());
+
+    // If creating acl_obj once and caching need to reset QuantizationInfo with:
+    // acl_obj->qa_acl_tensor.info()->set_quantization_info(qa_qinfo);
+    // acl_obj->qb_acl_tensor.info()->set_quantization_info(qb_qinfo);
+    // acl_obj->qdst_acl_tensor.info()->set_quantization_info(qdst_qinfo);
+    acl_obj->acl_add.run();
+
+    return dst;
+#endif // AT_MKLDNN_ACL_ENABLED()
+
 template <bool ReLUFused = false>
 Tensor qadd(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
   check_inputs(qa, qb);
@@ -406,6 +484,18 @@ Tensor qadd(Tensor qa, Tensor qb, double scale, int64_t zero_point) {
     }
 #endif // USE_PYTORCH_QNNPACK
   }
+
+#if AT_MKLDNN_ACL_ENABLED()
+  if((!ReLUFused) && (qa.sizes() == qb.sizes())){
+    if(qa.scalar_type() == c10::ScalarType::QInt8){
+      return acl_qadd<int8_t>(qa, qb, scale, zero_point);
+    }
+    else if(qa.scalar_type() == c10::ScalarType::QUInt8){
+      return acl_qadd<uint8_t>(qa, qb, scale, zero_point);
+    }
+  }
+#endif // AT_MKLDNN_ACL_ENABLED()
+
   auto qc = at::_empty_affine_quantized(
       qa.sizes(),
       at::device(kCPU)