pytorch
diff --git a/‎test/test_nestedtensor.py
Lines changed: 88 additions & 9 deletions b/‎test/test_nestedtensor.py
Lines changed: 88 additions & 9 deletions
diff --git a/‎tools/autograd/derivatives.yaml
Lines changed: 8 additions & 0 deletions b/‎tools/autograd/derivatives.yaml
Lines changed: 8 additions & 0 deletions
diff --git a/‎torch/csrc/autograd/FunctionsManual.cpp
Lines changed: 24 additions & 0 deletions b/‎torch/csrc/autograd/FunctionsManual.cpp
Lines changed: 24 additions & 0 deletions
diff --git a/‎torch/csrc/autograd/FunctionsManual.h
Lines changed: 6 additions & 0 deletions b/‎torch/csrc/autograd/FunctionsManual.h
Lines changed: 6 additions & 0 deletions
diff --git a/‎torch/nested/_internal/ops.py
Lines changed: 78 additions & 3 deletions b/‎torch/nested/_internal/ops.py
Lines changed: 78 additions & 3 deletions
diff --git a/‎torch/testing/_internal/opinfo/definitions/nested.py
Lines changed: 4 additions & 2 deletions b/‎torch/testing/_internal/opinfo/definitions/nested.py
Lines changed: 4 additions & 2 deletions
@@ -6022,6 +6022,66 @@ def test_narrow(self, device):
                 nt.values()[nt.offsets()[i] : (nt.offsets()[i] + nt.lengths()[i])],
             )
 
+    @skipCUDAIf(not SM70OrLater, "GPU capability is < SM70")
+    @torch._dynamo.utils.disable_cache_limit()
+    @dtypes(torch.float32)
+    @parametrize("env", ["eager", "compile", "compile_dynamic"])
+    def test_narrow_on_batch_dim(self, device, dtype, env):
+        nt = torch.nested.nested_tensor(
+            [
+                torch.randn(2, 5, device=device, dtype=dtype),
+                torch.randn(3, 5, device=device, dtype=dtype),
+                torch.randn(4, 5, device=device, dtype=dtype),
+                torch.randn(6, 5, device=device, dtype=dtype),
+                torch.randn(7, 5, device=device, dtype=dtype),
+            ],
+            layout=torch.jagged,
+            requires_grad=True,
+        )
+
+        def f(nt, start, length):
+            return nt.narrow(0, start, length)
+
+        # tests narrow() of narrow()ed NJT
+        def g(nt, start, length):
+            intermediate = nt.narrow(0, start, length)
+            return intermediate.narrow(0, 1, length - 2)
+
+        if "compile" in env:
+            # required to avoid data-dependent guard errors
+            torch._dynamo.config.capture_scalar_outputs = True
+            f = torch.compile(f, dynamic=(env == "compile_dynamic"), fullgraph=True)
+
+        # first few batch items
+        out1 = f(nt, 0, 2)
+        self.assertEqual(out1.shape[0], 2)
+        for out1_comp, nt_comp in zip(out1.unbind(), nt.unbind()[0:2]):
+            self.assertEqual(out1_comp, nt_comp)
+
+        # some middle batch items
+        out2 = f(nt, 1, 3)
+        self.assertEqual(out2.shape[0], 3)
+        for out2_comp, nt_comp in zip(out2.unbind(), nt.unbind()[1:4]):
+            self.assertEqual(out2_comp, nt_comp)
+
+        # last few batch items
+        out3 = f(nt, 2, 3)
+        self.assertEqual(out3.shape[0], 3)
+        for out3_comp, nt_comp in zip(out3.unbind(), nt.unbind()[2:5]):
+            self.assertEqual(out3_comp, nt_comp)
+
+        # length past the end
+        with self.assertRaisesRegex(RuntimeError, "exceeds dimension size"):
+            out4 = f(nt, 3, 3)
+
+        # narrow() of narrow()ed NJT
+        # first narrow(): 1:5
+        # second narrow() 1+1:4-2 == 2:4
+        out4 = g(nt, 1, 4)
+        self.assertEqual(out4.shape[0], 2)
+        for out4_comp, nt_comp in zip(out4.unbind(), nt.unbind()[2:4]):
+            self.assertEqual(out4_comp, nt_comp)
+
     def test_njt_cat(self, device):
         offsets = torch.tensor([0, 2, 3], device=device, dtype=torch.int64)
         values_1 = torch.randn(
@@ -8035,7 +8095,6 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
             in {
                 "chunk",
                 "masked_select",
-                "narrow",
                 "split",
                 "split_with_sizes",
                 "squeeze",
@@ -8062,6 +8121,17 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
         sample_match_fn=lambda device, sample: "ragged_dim" in sample.name,
         name="ragged_dim_unsupported",
     ),
+    # narrow(): not supported with non-contig on dims other than the batch dim
+    XFailRule(
+        error_type=RuntimeError,
+        error_msg="not yet supported for non-contiguous nested tensors on dim != 0",
+        op_match_fn=lambda device, op: (op.full_name == "narrow"),
+        sample_match_fn=lambda device, sample: (
+            sample.kwargs["dim"] != 0
+            and (sample.input._lengths is not None or sample.input._ragged_idx != 1)
+        ),
+        name="narrow_missing_noncontig_support_on_batch_dim",
+    ),
     XFailRule(
         error_type=RuntimeError,
         # error comes from usage of view() in the decomp
@@ -8077,7 +8147,6 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
         op_match_fn=lambda device, op: (
             op.full_name
             in {
-                "narrow",
                 "split",
                 "split_with_sizes",
                 "unsqueeze",
@@ -8284,13 +8353,6 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
         sample_match_fn=lambda device, sample: ("with bias" in sample.name),
         name="broken_linear_backward",
     ),
-    # narrow(): unimplemented backward
-    XFailRule(
-        error_type=RuntimeError,
-        error_msg="derivative for aten::narrow is not implemented",
-        op_match_fn=lambda device, op: (op.full_name == "narrow"),
-        name="broken_narrow_backward",
-    ),
     # min / max: need to examine backwards formula for non-full reduction
     XFailRule(
         error_type=RuntimeError,
@@ -8495,6 +8557,18 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
         op_match_fn=lambda device, op: (op.full_name in {"cdouble", "cfloat", "chalf"}),
         name="unimplemented_view_as_real",
     ),
+    # narrow(): unbacked SymInt bug with non-contig transposed inputs
+    XFailRule(
+        error_type=torch.fx.experimental.symbolic_shapes.GuardOnDataDependentSymNode,
+        error_msg=r"data-dependent expression Eq.IsNonOverlappingAndDenseIndicator",
+        op_match_fn=lambda device, op: (op.full_name == "narrow"),
+        sample_match_fn=lambda device, sample: (
+            "noncontig_transposed" in sample.name
+            and "batch_dim" in sample.name
+            and sample.kwargs["length"] < sample.input.size(0)
+        ),
+        name="broken_narrow_backward",
+    ),
     # torch._subclasses.fake_tensor.DataDependentOutputException: aten._local_scalar_dense.default
     # from item call in clone() -> unbind()
     XFailRule(
@@ -8565,6 +8639,8 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
 COMPARE_TENSOR_COMPONENT_EQUALITY = {
     # masked_select is expected to output a different shape
     "masked_select",
+    # narrow is expected to output a new shape
+    "narrow",
 }
 
 
@@ -8661,6 +8737,9 @@ def test_compile_forward(self, device, dtype, op):
         ):
             with subtest_ctx(self), skip_xfail_ctx(self):
                 torch.compiler.reset()
+                # must be set to avoid:
+                # DataDependentOutputException: aten._local_scalar_dense.default
+                torch._dynamo.config.capture_scalar_outputs = True
 
                 op_fn = op.op
 
 
@@ -1693,6 +1693,14 @@
       # TODO: replace this function once semantics for nested tensor expand have been settled on
       self: _nested_sum_backward(grad, self, dim, keepdim)
 
+- name: narrow(Tensor(a) self, int dim, SymInt start, SymInt length) -> Tensor(a)
+  dispatch:
+    Default:
+      # CompositeImplicit for dense tensors
+      self: not_implemented("narrow()")
+    AutogradNestedTensor:
+      self: _nested_narrow_backward(grad, self, dim, start, length)
+
 - name: nansum(Tensor self, int[1]? dim=None, bool keepdim=False, *, ScalarType? dtype=None) -> Tensor
   self: nansum_backward(grad.to(self.scalar_type()), self, dim, keepdim)
   result: at::where(self_p.isnan(), 0, self_t).sum(dim, keepdim, dtype)
 
@@ -2164,6 +2164,30 @@ Tensor split_backward(
   return split_with_sizes_backward(grads, split_sizes, dim, sym_sizes, options);
 }
 
+Tensor _nested_narrow_backward(
+    const Tensor& grad,
+    const Tensor& self,
+    int64_t dim,
+    const c10::SymInt& start,
+    const c10::SymInt& length) {
+  Tensor grad_input = at::zeros_like(self);
+  Tensor narrowed_grad = grad_input.narrow_symint(dim, start, length);
+  Tensor grad_values = at::_nested_get_values(grad);
+  Tensor narrowed_grad_values = at::_nested_get_values(narrowed_grad);
+  TORCH_INTERNAL_ASSERT(
+      grad_values.dim() == narrowed_grad_values.dim(),
+      "Bug encountered in _nested_narrow_backward(); please open an issue");
+  for (int i = 0; i < grad_values.dim(); ++i) {
+    auto narrowed_grad_size = narrowed_grad_values.sym_size(i);
+    auto grad_size = grad_values.sym_size(i);
+    TORCH_SYM_CHECK(
+        narrowed_grad_size.sym_eq(grad_size),
+        "Bug encountered in _nested_narrow_backward(); please open an issue");
+  }
+  narrowed_grad_values.copy_(grad_values);
+  return grad_input;
+}
+
 Tensor max_pool_double_backward(
     const Tensor& grad,
     const Tensor& indices,
 
@@ -447,6 +447,12 @@ at::Tensor split_backward(
     int64_t dim,
     c10::SymIntArrayRef sizes,
     const at::TensorOptions& options);
+at::Tensor _nested_narrow_backward(
+    const at::Tensor& grad,
+    const at::Tensor& self,
+    int64_t dim,
+    const c10::SymInt& start,
+    const c10::SymInt& length);
 at::Tensor max_pool_double_backward(
     const at::Tensor& grad,
     const at::Tensor& indices,
 
@@ -884,16 +884,91 @@ def split_with_sizes_default(func, *args, **kwargs):
     ]
 
 
+# TODO: Implement slice() instead and narrow() in terms of slice()
 @register_jagged_func(
-    torch.ops.aten.narrow.default, "self: jt, dim: any, start: any, length: any"
+    torch.ops.aten.narrow.default, "self: jt_all, dim: any, start: any, length: any"
 )
 def narrow(func, *args, **kwargs):
     _, new_kwargs = normalize_function(  # type: ignore[misc]
         func, args=args, kwargs=kwargs, normalize_to_only_use_kwargs=True
     )
     inp = new_kwargs.pop("input")
 
-    dim = _wrap_jagged_dim(inp.dim(), new_kwargs["dim"], inp._ragged_idx, "narrow")
+    dim, operating_on_batch = _wrap_jagged_dim(
+        inp.dim(), new_kwargs["dim"], inp._ragged_idx, "narrow", allow_batch_dim=True
+    )
+    if operating_on_batch:
+        # batch dim narrowing requires custom logic involving offsets
+        out_kwargs = extract_kwargs(inp)
+        start_val, length_val = new_kwargs["start"], new_kwargs["length"]
+        end_val = start_val + length_val
+        batch = inp._offsets.shape[0] - 1
+        if end_val > batch:
+            raise RuntimeError(
+                f"narrow(): start ({start_val}) + length ({length_val}) "
+                f"exceeds dimension size ({batch})"
+            )
+
+        # clamp start, end values
+        if start_val < 0:
+            start_val += inp._values.size(dim)
+        if end_val < 0:
+            end_val += inp._values.size(dim)
+        start_val = max(min(start_val, inp._values.size(dim)), 0)
+        end_val = max(min(end_val, inp._values.size(dim)), 0)
+        length_val = max(min(length_val, end_val - start_val), 0)
+
+        # shortcut if no actual narrowing is happening; this helps us ensure
+        # that length < batch size if we don't take this path
+        if length_val == inp.size(0):
+            return inp.detach()
+
+        # +1 to include last offset. Also normalize offsets to start at 0.
+        out_kwargs["offsets"] = (
+            inp._offsets[start_val : start_val + length_val + 1]
+            - inp._offsets[start_val]
+        )
+        # metadata cache may no longer be accurate since offsets have changed
+        if "_metadata_cache" in out_kwargs:
+            del out_kwargs["_metadata_cache"]
+
+        if inp._lengths is not None:
+            out_kwargs["lengths"] = inp._lengths[start_val : start_val + length_val]
+
+        # unbacked SymInt for new storage offset
+        new_storage_offset = (
+            inp._values.storage_offset()
+            + (inp._offsets[start_val] * inp._values.stride(dim))
+        ).item()
+        torch._check_is_size(new_storage_offset)
+
+        # compute symbolic start involving unbacked SymInt
+        start = (
+            new_storage_offset - inp._values.storage_offset()
+        ) // inp._values.stride(dim)
+        torch._check_is_size(start)
+        torch._check(start <= inp._values.size(dim))
+
+        # unbacked SymInt for length
+        length = (inp._offsets[start_val + length_val] - inp._offsets[start_val]).item()
+        torch._check_is_size(length)
+        # we can say this because we short-circuit earlier if length == inp._values.size(dim)
+        torch._check(length < inp._values.size(dim))
+        torch._check(start + length <= inp._values.size(dim))
+
+        # compute new sizes / strides from symbolic values
+        new_sizes = list(inp._values.size())
+        new_sizes[dim] = length
+        new_strides = list(inp._values.stride())
+
+        # apply view with new sizes / strides / storage offset
+        new_values = inp._values.as_strided(new_sizes, new_strides, new_storage_offset)
+        return NestedTensor(new_values, **out_kwargs)
+
+    if inp._lengths is not None or inp._ragged_idx != 1:
+        raise RuntimeError(
+            "narrow(): not yet supported for non-contiguous nested tensors on dim != 0"
+        )
     values = func(
         inp._values,
         dim=dim,
@@ -1542,7 +1617,7 @@ def view_default(func, *args, **kwargs):
         )
 
     # Ensure specified size still includes batch and ragged dims
-    if len(size) < 3 or not raggedness_matches(inp, size):
+    if len(size) < 2 or not raggedness_matches(inp, size):
         raise RuntimeError(f"view(): cannot view shape {inp._size} as {size}")
 
     # outer size: the size of the NT, e.g. [3, j0, 10]
 
@@ -837,8 +837,10 @@ def batchwise_reference_chunk(op, sample):
 
 
 def batchwise_reference_narrow(op, sample):
-    # TODO: write this!
-    raise NotImplementedError
+    start, length = sample.kwargs["start"], sample.kwargs["length"]
+    components = list(sample.input.unbind())
+    narrowed = components[start : start + length]
+    return torch.nested.as_nested_tensor(narrowed, layout=torch.jagged)
 
 
 def batchwise_reference_select(op, sample):