pytorch
diff --git a/‎test/dynamo/test_subclasses.py
Lines changed: 10 additions & 3 deletions b/‎test/dynamo/test_subclasses.py
Lines changed: 10 additions & 3 deletions
diff --git a/‎test/test_fake_tensor.py
Lines changed: 1 addition & 0 deletions b/‎test/test_fake_tensor.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎test/test_nestedtensor.py
Lines changed: 0 additions & 1 deletion b/‎test/test_nestedtensor.py
Lines changed: 0 additions & 1 deletion
@@ -1371,7 +1371,11 @@ def fn(values, offsets):
 
         values = nt.values().requires_grad_(True)
         out = torch.compile(fn, fullgraph=True, backend="aot_eager")(values, nt.offsets())
-        torch.autograd.grad(out, inputs=(values,), grad_outputs=(torch.ones_like(out),))
+        ref_out = fn(values, nt.offsets())
+        grad, = torch.autograd.grad(out, inputs=(values,), grad_outputs=(torch.ones_like(out),))
+        ref_grad, = torch.autograd.grad(ref_out, inputs=(values,), grad_outputs=(torch.ones_like(ref_out),))
+        self.assertEqual(out, ref_out)
+        self.assertEqual(grad, ref_grad)
 
         # Binary op
         def fn(values, offsets, offsets2):
@@ -1380,7 +1384,11 @@ def fn(values, offsets, offsets2):
             return nt1 * nt2
 
         out = torch.compile(fn, fullgraph=True, backend="aot_eager")(values, nt.offsets(), nt.offsets())
-        torch.autograd.grad(out, inputs=(values,), grad_outputs=(torch.ones_like(out),))
+        ref_out = fn(values, nt.offsets(), nt.offsets())
+        grad, = torch.autograd.grad(out, inputs=(values,), grad_outputs=(torch.ones_like(out),))
+        ref_grad, = torch.autograd.grad(ref_out, inputs=(values,), grad_outputs=(torch.ones_like(ref_out),))
+        self.assertEqual(out, ref_out)
+        self.assertEqual(grad, ref_grad)
 
         # Not only do we recompile, we also error out on the recompile with
         # an error message mentioning data-dependent-ness.
@@ -1521,7 +1529,6 @@ def f(x):
     # view. To construct this intermediate properly, we need the associated nested int
     # to be symbolic. This view is expected to fail compilation until symbolic nested ints
     # are cached onto fake offsets to solve this problem.
-    @unittest.expectedFailure
     def test_subclass_dense_subclass_dense_view(self):
         x = self._get_jagged_tensor(((2, 3, 4), 3), None, requires_grad=True)[0].clone()
         offsets2 = x.offsets().clone().detach()
 
@@ -578,6 +578,7 @@ def test_same_shape_env_preserved(self):
         self.assertIs(t2.size(0).node.shape_env, t1.size(0).node.shape_env)
         self.assertEqual(str(t2.size(0)), str(t1.size(0)))
 
+    @unittest.skipIf(TEST_WITH_TORCHDYNAMO, "creating NJT in the middle of graph fails in some cases")
     def test_jagged_fake_to_fake_preserved(self):
         from torch.nested._internal.nested_tensor import jagged_from_list
 
 
@@ -3787,7 +3787,6 @@ def test_unbind(self, device):
             for i, t in enumerate(out):
                 self.assertEqual(t, tensor_list[i])
 
-    @xfailIfTorchDynamo
     def test_layer_norm_2(self, device):
         test_tensor_list = self._get_list_for_jagged_tensor(
             ((2, 3, 4), 3), device=device, requires_grad=True