pytorch
diff --git a/‎test/cpp/aoti_inference/aoti_custom_class.cpp
Lines changed: 5 additions & 0 deletions b/‎test/cpp/aoti_inference/aoti_custom_class.cpp
Lines changed: 5 additions & 0 deletions
diff --git a/‎test/inductor/test_aot_inductor_package.py
Lines changed: 4 additions & 4 deletions b/‎test/inductor/test_aot_inductor_package.py
Lines changed: 4 additions & 4 deletions
diff --git a/‎torch/csrc/inductor/aoti_eager/kernel_holder.cpp
Lines changed: 11 additions & 0 deletions b/‎torch/csrc/inductor/aoti_eager/kernel_holder.cpp
Lines changed: 11 additions & 0 deletions
diff --git a/‎torch/csrc/inductor/aoti_package/model_package_loader.cpp
Lines changed: 3 additions & 2 deletions b/‎torch/csrc/inductor/aoti_package/model_package_loader.cpp
Lines changed: 3 additions & 2 deletions
diff --git a/‎torch/csrc/inductor/aoti_package/model_package_loader.h
Lines changed: 3 additions & 1 deletion b/‎torch/csrc/inductor/aoti_package/model_package_loader.h
Lines changed: 3 additions & 1 deletion
diff --git a/‎torch/csrc/inductor/aoti_package/pybind.cpp
Lines changed: 5 additions & 1 deletion b/‎torch/csrc/inductor/aoti_package/pybind.cpp
Lines changed: 5 additions & 1 deletion
diff --git a/‎torch/csrc/inductor/aoti_runner/model_container_runner.cpp
Lines changed: 2 additions & 2 deletions b/‎torch/csrc/inductor/aoti_runner/model_container_runner.cpp
Lines changed: 2 additions & 2 deletions
diff --git a/‎torch/csrc/inductor/aoti_runner/model_container_runner.h
Lines changed: 3 additions & 3 deletions b/‎torch/csrc/inductor/aoti_runner/model_container_runner.h
Lines changed: 3 additions & 3 deletions
diff --git a/‎torch/csrc/inductor/aoti_runner/model_container_runner_cpu.cpp
Lines changed: 3 additions & 2 deletions b/‎torch/csrc/inductor/aoti_runner/model_container_runner_cpu.cpp
Lines changed: 3 additions & 2 deletions
diff --git a/‎torch/csrc/inductor/aoti_runner/model_container_runner_cpu.h
Lines changed: 4 additions & 2 deletions b/‎torch/csrc/inductor/aoti_runner/model_container_runner_cpu.h
Lines changed: 4 additions & 2 deletions
@@ -36,6 +36,11 @@ MyAOTIClass::MyAOTIClass(
   } else if (device_ == "cuda") {
     runner_ = std::make_unique<torch::inductor::AOTIModelContainerRunnerCuda>(
         model_path.c_str());
+#endif
+#if defined(USE_XPU)
+  } else if (device_ == "xpu") {
+    runner_ = std::make_unique<torch::inductor::AOTIModelContainerRunnerXpu>(
+        model_path.c_str());
 #endif
   } else {
     throw std::runtime_error("invalid device: " + device);
 
@@ -15,7 +15,7 @@
 from torch._inductor.utils import fresh_inductor_cache
 from torch.export import Dim
 from torch.testing._intern
6D40
al.common_utils import IS_FBCODE, TEST_CUDA
-from torch.testing._internal.triton_utils import HAS_CUDA
+from torch.testing._internal.inductor_utils import GPU_TYPE, HAS_GPU
 
 
 def skipif(predicate: Callable[[str, bool], bool], reason: str):
@@ -69,8 +69,8 @@ def compile(
     )
     + (
         [
-            {"device": "cuda", "package_cpp_only": False},
-            {"device": "cuda", "package_cpp_only": True},
+            {"device": GPU_TYPE, "package_cpp_only": False},
+            {"device": GPU_TYPE, "package_cpp_only": True},
         ]
         if sys.platform != "darwin"
         else []
@@ -445,5 +445,5 @@ def forward(self, a):
     from torch._inductor.test_case import run_tests
 
     # cpp_extension N/A in fbcode
-    if HAS_CUDA or sys.platform == "darwin":
+    if HAS_GPU or sys.platform == "darwin":
         run_tests(needs="filelock")
@@ -13,6 +13,9 @@
 #ifdef USE_CUDA
 #include <torch/csrc/inductor/aoti_runner/model_container_runner_cuda.h>
 #endif
+#ifdef USE_XPU
+#include <torch/csrc/inductor/aoti_runner/model_container_runner_xpu.h>
+#endif
 #include <torch/csrc/jit/frontend/function_schema_parser.h>
 
 #include <ATen/core/jit_type.h>
@@ -177,6 +180,7 @@ AOTIPythonKernelHolder::AOTIPythonKernelHolder(
   auto registered_aoti_runner = getAOTIModelRunnerRegistry();
   TORCH_CHECK(
       device_.type() == c10::DeviceType::CUDA ||
+          device_.type() == c10::DeviceType::XPU ||
           device_.type() == c10::DeviceType::CPU ||
           registered_aoti_runner.find(device_name) !=
               registered_aoti_runner.end(),
@@ -417,6 +421,7 @@ std::shared_ptr<AOTIModelContainerRunner> AOTIPythonKernelHolder::
   auto registered_aoti_runner = getAOTIModelRunnerRegistry();
   TORCH_CHECK(
       device_.type() == c10::DeviceType::CUDA ||
+          device_.type() == c10::DeviceType::XPU ||
           device_.type() == c10::DeviceType::CPU ||
           registered_aoti_runner.find(device_name) !=
               registered_aoti_runner.end(),
@@ -428,6 +433,12 @@ std::shared_ptr<AOTIModelContainerRunner> AOTIPythonKernelHolder::
     return std::make_shared<AOTIModelContainerRunnerCuda>(so_path);
 #else
     return nullptr;
+#endif
+  } else if (device_.type() == c10::DeviceType::XPU) {
+#ifdef USE_XPU
+    return std::make_shared<AOTIModelContainerRunnerXpu>(so_path);
+#else
+    return nullptr;
 #endif
   } else if (device_.type() == c10::DeviceType::CPU) {
     return std::make_shared<AOTIModelContainerRunnerCpu>(so_path);
 
@@ -459,8 +459,9 @@ AOTIModelContainerRunner* AOTIModelPackageLoader::get_runner() {
 }
 
 std::vector<at::Tensor> AOTIModelPackageLoader::run(
-    const std::vector<at::Tensor>& inputs) {
-  return runner_->run(inputs);
+    const std::vector<at::Tensor>& inputs,
+    void* stream_handle) {
+  return runner_->run(inputs, stream_handle);
 }
 
 std::unordered_map<std::string, std::string> AOTIModelPackageLoader::
 
@@ -15,7 +15,9 @@ class TORCH_API AOTIModelPackageLoader {
 
   AOTIModelContainerRunner* get_runner();
   std::unordered_map<std::string, std::string> get_metadata();
-  std::vector<at::Tensor> run(const std::vector<at::Tensor>& inputs);
+  std::vector<at::Tensor> run(
+      const std::vector<at::Tensor>& inputs,
+      void* stream_handle = nullptr);
   std::vector<std::string> get_call_spec();
   void load_constants(
       std::unordered_map<std::string, at::Tensor>& constants_map,
 
@@ -18,7 +18,11 @@ void initAOTIPackageBindings(PyObject* module) {
       .def(py::init<const std::string&, const std::string&>())
       .def(py::init<const std::string&>())
       .def("get_metadata", &AOTIModelPackageLoader::get_metadata)
-      .def("run", &AOTIModelPackageLoader::run)
+      .def(
+          "run",
+          &AOTIModelPackageLoader::run,
+          py::arg("inputs"),
+          py::arg("stream_handle") = nullptr)
       .def("get_call_spec", &AOTIModelPackageLoader::get_call_spec)
       .def("load_constants", &AOTIModelPackageLoader::load_constants)
       .def("get_constant_fqns", &AOTIModelPackageLoader::get_constant_fqns);
 
@@ -93,7 +93,7 @@ AOTIModelContainerRunner::~AOTIModelContainerRunner() {
 
 std::vector<at::Tensor> AOTIModelContainerRunner::run(
     const std::vector<at::Tensor>& inputs,
-    AOTInductorStreamHandle cuda_stream_handle) {
+    void* stream_handle) {
   auto input_handles =
       torch::aot_inductor::unsafe_alloc_new_handles_from_tensors(inputs);
 
@@ -110,7 +110,7 @@ std::vector<at::Tensor> AOTIModelContainerRunner::run(
       input_handles.size(),
       output_handles.data(),
-      cuda_stream_handle,
+      reinterpret_cast<AOTInductorStreamHandle>(stream_handle),
       proxy_executor_handle_));
 
   return torch::aot_inductor::alloc_tensors_by_stealing_from_handles(
 
@@ -22,11 +22,11 @@ class TORCH_API AOTIModelContainerRunner {
       delete;
   AOTIModelContainerRunner& operator=(AOTIModelContainerRunner&& other) =
       delete;
-  ~AOTIModelContainerRunner();
+  virtual ~AOTIModelContainerRunner();
 
-  std::vector<at::Tensor> run(
+  virtual std::vector<at::Tensor> run(
       const std::vector<at::Tensor>& inputs,
-      AOTInductorStreamHandle cuda_stream_handle = nullptr);
+      void* stream_handle = nullptr);
 
   std::unordered_map<std::string, std::string> getConstantNamesToOriginalFQNs()
       const;
 
@@ -13,8 +13,9 @@ AOTIModelContainerRunnerCpu::AOTIModelContainerRunnerCpu(
 AOTIModelContainerRunnerCpu::~AOTIModelContainerRunnerCpu() = default;
 
 std::vector<at::Tensor> AOTIModelContainerRunnerCpu::run(
-    const std::vector<at::Tensor>& inputs) {
-  return AOTIModelContainerRunner::run(inputs);
+    const std::vector<at::Tensor>& inputs,
+    void* stream_handle) {
+  return AOTIModelContainerRunner::run(inputs, stream_handle);
 }
 
 namespace {
 
@@ -10,9
7B28
 +10,11 @@ class TORCH_API AOTIModelContainerRunnerCpu : public AOTIModelContainerRunner {
       const std::string& model_so_path,
       size_t num_models = 1);
 
-  ~AOTIModelContainerRunnerCpu();
+  ~AOTIModelContainerRunnerCpu() override;
 
-  std::vector<at::Tensor> run(const std::vector<at::Tensor>& inputs);
+  std::vector<at::Tensor> run(
+      const std::vector<at::Tensor>& inputs,
+      void* stream_handle = nullptr) override;
 };
 
 } // namespace torch::inductor
Original file line number	Diff line number	Diff line change
`@@ -459,8 +459,9 @@ AOTIModelContainerRunner* AOTIModelPackageLoader::get_runner() {`
`459`	`459`	`}`
`460`	`460`
`461`	`461`	`std::vector<at::Tensor> AOTIModelPackageLoader::run(`
`462`		`- const std::vector<at::Tensor>& inputs) {`
`463`		`- return runner_->run(inputs);`
	`462`	`+ const std::vector<at::Tensor>& inputs,`
	`463`	`+ void* stream_handle) {`
	`464`	`+ return runner_->run(inputs, stream_handle);`
`464`	`465`	`}`
`465`	`466`
`466`	`467`	`std::unordered_map<std::string, std::string> AOTIModelPackageLoader::`