pytorch
diff --git a/‎aten/src/ATen/native/TensorConversions.cpp
+40 b/‎aten/src/ATen/native/TensorConversions.cpp
+40
diff --git a/‎test/test_lazy_clone.py
+33-4 b/‎test/test_lazy_clone.py
+33-4
@@ -17,6 +17,7 @@
 #include <ATen/ops/_convert_indices_from_coo_to_csr_native.h>
 #include <ATen/ops/_convert_indices_from_csr_to_coo.h>
 #include <ATen/ops/_convert_indices_from_csr_to_coo_native.h>
+#include <ATen/ops/_lazy_clone.h>
 #include <ATen/ops/_sparse_bsc_tensor_unsafe_native.h>
 #include <ATen/ops/_sparse_bsr_tensor_unsafe_native.h>
 #include <ATen/ops/_sparse_compressed_tensor_unsafe_native.h>
@@ -422,6 +423,25 @@ bool to_will_alias(
        self.suggest_memory_format() == memory_format);
 }
 
+static bool _only_device_differs(
+    const Tensor& self,
+    std::optional<ScalarType> dtype,
+    std::optional<Layout> layout,
+    std::optional<Device> device,
+    std::optional<bool> pin_memory,
+    std::optional<c10::MemoryFormat> optional_memory_format) {
+  bool device_differs = device.has_value() && device.value() != self.device();
+  bool dtype_differs = dtype.has_value() && dtype.value() != self.scalar_type();
+  bool layout_differs = layout.has_value() && layout.value() != self.layout();
+  bool pin_memory_differs =
+      pin_memory.has_value() && pin_memory.value() != self.is_pinned();
+  auto memory_format = optional_memory_format.value_or(MemoryFormat::Preserve);
+  bool memory_format_differs = memory_format != MemoryFormat::Preserve &&
+      memory_format != self.suggest_memory_format();
+  return device_differs && !dtype_differs && !layout_differs &&
+      !pin_memory_differs && !memory_format_differs;
+}
+
 static inline Tensor to_impl(
     const Tensor& self,
     std::optional<ScalarType> dtype,
@@ -436,6 +456,26 @@ static inline Tensor to_impl(
           self, dtype, layout, device, copy, optional_memory_format)) {
     return self;
   }
+  if (device.has_value()) {
+    c10::DeviceType src_device_type = self.device().type();
+    c10::DeviceType dst_device_type = device.value().type();
+    // Conversion between MPS and CPU is done lazily, as long as `device` is the
+    // only thing that is changed. Also, in order to lazy clone from CPU to MPS,
+    // the CPU data must be pinned.
+    if ((src_device_type == c10::kCPU && dst_device_type == c10::kMPS &&
+         self.is_pinned()) ||
+        (src_device_type == c10::kMPS && dst_device_type == c10::kCPU)) {
+      if (_only_device_differs(
+              self,
+              dtype,
+              layout,
+              device,
+              pin_memory,
+              optional_memory_format)) {
+        return at::_lazy_clone(self, device);
+      }
+    }
+  }
   return at::_to_copy(
       self,
       dtype,
 
@@ -56,6 +56,13 @@ def get_src_dest_devices(self, case, device):
     @skipCUDAIf(True, "Does not work for CUDA")
     @skipIfTorchDynamo("Not a suitable test for TorchDynamo")
     @skipXLA
+    @parametrize(
+        "op",
+        [
+            "_lazy_clone",
+            "to",
+        ],
+    )
     @parametrize("materialize_first", ("src", "dest"))
     @parametrize(
         "case",
@@ -67,7 +74,7 @@ def get_src_dest_devices(self, case, device):
             "from_1_to_0",
         ],
     )
-    def test_interdevice_materialize(self, device, materialize_first, case):
+    def test_interdevice_materialize(self, device, op, materialize_first, case):
         src_device, dest_device = self.get_src_dest_devices(case, device)
 
         src_device_check = torch.empty(0, device=src_device).device
 
         a = torch.randn(10, device=src_device, pin_memory=pin_memory)
         orig_data_ptr = torch._C._data_address_resolve_unified(a)
-        b = a._lazy_clone(device=dest_device)
+
+        if op == "_lazy_clone":
+            b = a._lazy_clone(device=dest_device)
+        elif op == "to":
+            if torch.device(device).type != "mps":
+                self.skipTest("op='to' only runs if device='mps'")
+            b = a.to(device=dest_device)
+        else:
+            raise AssertionError(f"op='{op}' not recognized")
 
         self.assertEqual(a.device, src_device_check)
         self.assertEqual(b.device, dest_device_check)
@@ -146,6 +161,13 @@ def test_interdevice_materialize(self, device, materialize_first, case):
     @skipCUDAIf(True, "Does not work for CUDA")
     @skipIfTorchDynamo("Not a suitable test for TorchDynamo")
     @skipXLA
+    @parametrize(
+        "op",
+        [
+            "_lazy_clone",
+            "to",
+        ],
+    )
     @parametrize(
         "case",
         [
@@ -156,7 +178,7 @@ def test_interdevice_materialize(self, device, materialize_first, case):
             "from_1_to_0",
         ],
     )
-    def test_interdevice_read(self, device, case):
+    def test_interdevice_read(self, device, op, case):
         src_device, dest_device = self.get_src_dest_devices(case, device)
 
         src_device_check = torch.empty(0, device=src_device).device
@@ -168,7 +190,14 @@ def test_interdevice_read(self, device, case):
         a.copy_(orig_tensor)
 
         orig_data_ptr = torch._C._data_address_resolve_unified(a)
-        b = a._lazy_clone(device=dest_device)
+        if op == "_lazy_clone":
+            b = a._lazy_clone(device=dest_device)
+        elif op == "to":
+            if torch.device(device).type != "mps":
+                self.skipTest("op='to' only runs if device='mps'")
+            b = a.to(device=dest_device)
+        else:
+            raise AssertionError(f"op='{op}' not recognized")
 
         self.assertEqual(a.device, src_device_check)
         self.assertEqual(b.device, dest_device_check)