pytorch
diff --git a/‎test/test_nestedtensor.py
Lines changed: 56 additions & 2 deletions b/‎test/test_nestedtensor.py
Lines changed: 56 additions & 2 deletions
diff --git a/‎tools/autograd/derivatives.yaml
Lines changed: 8 additions & 0 deletions b/‎tools/autograd/derivatives.yaml
Lines changed: 8 additions & 0 deletions
diff --git a/‎torch/csrc/autograd/FunctionsManual.cpp
Lines changed: 24 additions & 0 deletions b/‎torch/csrc/autograd/FunctionsManual.cpp
Lines changed: 24 additions & 0 deletions
diff --git a/‎torch/csrc/autograd/FunctionsManual.h
Lines changed: 6 additions & 0 deletions b/‎torch/csrc/autograd/FunctionsManual.h
Lines changed: 6 additions & 0 deletions
diff --git a/‎torch/fx/passes/runtime_assert.py
Lines changed: 4 additions & 1 deletion b/‎torch/fx/passes/runtime_assert.py
Lines changed: 4 additions & 1 deletion
diff --git a/‎torch/nested/_internal/ops.py
Lines changed: 65 additions & 12 deletions b/‎torch/nested/_internal/ops.py
Lines changed: 65 additions & 12 deletions
diff --git a/‎torch/testing/_internal/opinfo/definitions/nested.py
Lines changed: 6 additions & 4 deletions b/‎torch/testing/_internal/opinfo/definitions/nested.py
Lines changed: 6 additions & 4 deletions
@@ -6021,6 +6021,51 @@ def test_narrow(self, device):
                 nt.values()[nt.offsets()[i] : (nt.offsets()[i] + nt.lengths()[i])],
             )
 
+    @torch._dynamo.utils.disable_cache_limit()
+    @dtypes(torch.float32)
+    @parametrize("env", ["eager", "compile", "compile_dynamic"])
+    def test_narrow_on_batch_dim(self, device, dtype, env):
+        nt = torch.nested.nested_tensor(
+            [
+                torch.randn(2, 5, device=device, dtype=dtype),
+                torch.randn(3, 5, device=device, dtype=dtype),
+                torch.randn(4, 5, device=device, dtype=dtype),
+                torch.randn(6, 5, device=device, dtype=dtype),
+                torch.randn(7, 5, device=device, dtype=dtype),
+            ],
+            layout=torch.jagged,
+            requires_grad=True,
+        )
+
+        def f(nt, start, length):
+            return nt.narrow(0, start, length)
+
+        if "compile" in env:
+            torch._dynamo.config.capture_scalar_outputs = True
+            f = torch.compile(f, dynamic=(env == "compile_dynamic"), fullgraph=True)
+
+        # first few batch items
+        out1 = f(nt, 0, 2)
+        self.assertEqual(out1.shape[0], 2)
+        for out1_comp, nt_comp in zip(out1.unbind(), nt.unbind()[0:2]):
+            self.assertEqual(out1_comp, nt_comp)
+
+        # some middle batch items
+        out2 = f(nt, 1, 3)
+        self.assertEqual(out2.shape[0], 3)
+        for out2_comp, nt_comp in zip(out2.unbind(), nt.unbind()[1:4]):
+            self.assertEqual(out2_comp, nt_comp)
+
+        # last few batch items
+        out3 = f(nt, 2, 3)
+        self.assertEqual(out3.shape[0], 3)
+        for out3_comp, nt_comp in zip(out3.unbind(), nt.unbind()[2:5]):
+            self.assertEqual(out3_comp, nt_comp)
+
+        # length past the end
+        with self.assertRaisesRegex(RuntimeError, "exceeds dimension size"):
+            out4 = f(nt, 3, 3)
+
     def test_njt_cat(self, de
9E7A
vice):
         offsets = torch.tensor([0, 2, 3], device=device, dtype=torch.int64)
         values_1 = torch.randn(
@@ -8034,7 +8079,6 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
             in {
                 "chunk",
                 "masked_select",
-                "narrow",
                 "split",
                 "split_with_sizes",
                 "squeeze",
@@ -8061,6 +8105,17 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
         sample_match_fn=lambda device, sample: "ragged_dim" in sample.name,
         name="ragged_dim_unsupported",
     ),
+    # narrow(): not supported with non-contig on dims other than the batch dim
+    XFailRule(
+        error_type=RuntimeError,
+        error_msg="not yet supported for non-contiguous nested tensors on dim != 0",
+        op_match_fn=lambda device, op: (op.full_name == "narrow"),
+        sample_match_fn=lambda device, sample: (
+            sample.kwargs["dim"] != 0
+            and (sample.input._lengths is not None or sample.input._ragged_idx != 1)
+        ),
+        name="narrow_missing_noncontig_support_on_batch_dim",
+    ),
     XFailRule(
         error_type=RuntimeError,
         # error comes from usage of view() in the decomp
@@ -8076,7 +8131,6 @@ def __torch_dispatch__(self, func, types, args=..., kwargs=None):
         op_match_fn=lambda device, op: (
             op.full_name
             in {
-                "narrow",
                 "split",
                 "split_with_sizes",
                 "unsqueeze",
 
@@ -1693,6 +1693,14 @@
       # TODO: replace this function once semantics for nested tensor expand have been settled on
       self: _nested_sum_backward(grad, self, dim, keepdim)
 
+- name: narrow(Tensor(a) self, int dim, SymInt start, SymInt length) -> Tensor(a)
+  dispatch:
+    Default:
+      # CompositeImplicit for dense tensors
+      self: not_implemented("narrow()")
+    AutogradNestedTensor:
+      self: _nested_narrow_backward(grad, self, dim, start, length)
+
 - name: nansum(Tensor self, int[1]? dim=None, bool keepdim=False, *, ScalarType? dtype=None) -> Tensor
   self: nansum_backward(grad.to(self.scalar_type()), self, dim, keepdim)
   result: at::where(self_p.isnan(), 0, self_t).sum(dim, keepdim, dtype)
 
@@ -2164,6 +2164,30 @@ Tensor split_backward(
   return split_with_sizes_backward(grads, split_sizes, dim, sym_sizes, options);
 }
 
+Tensor _nested_narrow_backward(
+    const Tensor& grad,
+    const Tensor& self,
+    int64_t dim,
+    const c10::SymInt& start,
+    const c10::SymInt& length) {
+  Tensor grad_input = at::zeros_like(self);
+  Tensor narrowed_grad = grad_input.narrow_symint(dim, start, length);
+  Tensor grad_values = at::_nested_get_values(grad);
+  Tensor narrowed_grad_values = at::_nested_get_values(narrowed_grad);
+  TORCH_INTERNAL_ASSERT(
+      grad_values.dim() == narrowed_grad_values.dim(),
+      "Bug encountered in _nested_narrow_backward(); please open an issue");
+  for (int i = 0; i < grad_values.dim(); ++i) {
+    auto narrowed_grad_size = narrowed_grad_values.sym_size(i);
+    auto grad_size = grad_values.sym_size(i);
+    TORCH_SYM_CHECK(
+        narrowed_grad_size.sym_eq(grad_size),
+        "Bug encountered in _nested_narrow_backward(); please open an issue");
+  }
+  narrowed_grad_values.copy_(grad_values);
+  return grad_input;
+}
+
 Tensor max_pool_double_backward(
     const Tensor& grad,
     const Tensor& indices,
 
@@ -447,6 +447,12 @@ at::Tensor split_backward(
     int64_t dim,
     c10::SymIntArrayRef sizes,
     const at::TensorOptions& options);
+at::Tensor _nested_narrow_backward(
+    const at::Tensor& grad,
+    const at::Tensor& self,
+    int64_t dim,
+    const c10::SymInt& start,
+    const c10::SymInt& length);
 at::Tensor max_pool_double_backward(
     const at::Tensor& grad,
     const at::Tensor& indices,
 
@@ -172,7 +172,10 @@ def _node_metadata_hook(
             node.args,
         )
         try:
-            node.meta[val_key] = node.target(*fake_args)  # type: ignore[operator]
+            target = node.target
+            if isinstance(node.target, str):
+                target = getattr(torch.Tensor, node.target)
+            node.meta[val_key] = target(*fake_args)  # type: ignore[operator]
         except NotImplementedError:
             # This can happen when attempting to reify a symbol with an unsupported call_function node,
             # e.g. with NestedTensors + sym_size.int via match_symbol().
 
@@ -17,20 +17,22 @@
 JAGGED_OPS_TABLE: Dict[Any, Any] = {}
 
 
-# Simplifying assumption: we assume that the batch dim is always the left-most
-# dim, and the ragged dim is always the second dim.
-def _outer_to_inner_dim(ndim, dim, canonicalize=False):
+def _outer_to_inner_dim(ndim, dim, ragged_dim, canonicalize=False):
     from torch._prims_common import canonicalize_dims
 
     if isinstance(dim, (tuple, list)):
-        output = type(dim)(_outer_to_inner_dim(ndim, d) for d in dim)
+        output = type(dim)(_outer_to_inner_dim(ndim, d, ragged_dim) for d in dim)
         # ensure no duplicates, which can result from both batch and ragged mapping to 0
         return type(output)(dict.fromkeys(output))
 
     if canonicalize:
         dim = canonicalize_dims(ndim, dim)
+
     assert dim >= 0 and dim < ndim
-    return 0 if dim < 2 else dim - 1
+
+    # Map dim=0 (AKA batch dim) -> packed dim i.e. outer ragged dim - 1.
+    # For other dims, subtract 1 to convert to inner space.
+    return ragged_dim - 1 if dim == 0 else dim - 1
 
 
 def _wrap_jagged_dim(
@@ -49,7 +51,11 @@ def _wrap_jagged_dim(
         raise RuntimeError(f"{op_name}(): not supported for NestedTensor on ragged dim")
     elif wrapped == 0 and not allow_batch_dim:
         raise RuntimeError(f"{op_name}(): not supported for NestedTensor on dim=0")
-    ret = _outer_to_inner_dim(ndim, wrapped) if convert_to_inner_dim else wrapped
+    ret = (
+        _outer_to_inner_dim(ndim, wrapped, ragged_dim)
+        if convert_to_inner_dim
+        else wrapped
+    )
     if allow_batch_dim:
         # Need to disambiguate whether we're operating on the batch dim or not.
         # Operating on dim=1 -> dim=0 after the inner dim conversion.
@@ -80,7 +86,7 @@ def _wrap_jagged_dims(ndim, dims, op_name, ragged_idx=1):
 
     # ensure no duplicates, which can result from both batch and ragged mapping to 0
     outer_to_inner_dim = tuple(
-        dict.fromkeys(_outer_to_inner_dim(ndim, d) for d in wrapped_dims)
+        dict.fromkeys(_outer_to_inner_dim(ndim, d, ragged_idx) for d in wrapped_dims)
     )
 
     return outer_to_inner_dim, operate_on_batch, operate_on_ragged, operate_on_non_batch
@@ -874,15 +880,59 @@ def split_with_sizes_default(func, *args, **kwargs):
 
 
 @register_jagged_func(
-    torch.ops.aten.narrow.default, "self: jt, dim: any, start: any, length: any"
+    torch.ops.aten.narrow.default, "self: jt_all, dim: any, start: any, length: any"
 )
 def narrow(func, *args, **kwargs):
     _, new_kwargs = normalize_function(  # type: ignore[misc]
         func, args=args, kwargs=kwargs, normalize_to_only_use_kwargs=True
     )
     inp = new_kwargs.pop("input")
 
-    dim = _wrap_jagged_dim(inp.dim(), new_kwargs["dim"], inp._ragged_idx, "narrow")
+    dim, operating_on_batch = _wrap_jagged_dim(
+        inp.dim(), new_kwargs["dim"], inp._ragged_idx, "narrow", allow_batch_dim=True
+    )
+    if operating_on_batch:
+        # batch dim narrowing requires custom logic involving offsets
+        out_kwargs = extract_kwargs(inp)
+        start, length = new_kwargs["start"], new_kwargs["length"]
+        end = start + length - 1
+        batch = inp._offsets.shape[0] - 1
+        if end >= batch:
+            raise RuntimeError(
+                f"narrow(): start ({start}) + length ({length}) exceeds dimension size ({batch})"
+            )
+
+        # +1 to include last offset. Also normalize offsets to start at 0.
+        out_kwargs["offsets"] = (
+            inp._offsets[start : start + length + 1] - inp._offsets[start]
+        )
+        # metadata cache may no longer be accurate since offsets have changed
+        if "_metadata_cache" in out_kwargs:
+            del out_kwargs["_metadata_cache"]
+
+        if inp._lengths is not None:
+            out_kwargs["lengths"] = inp._lengths[start : start + length]
+
+        start_offset = inp._offsets[start].item()
+        torch._check_is_size(start_offset)
+        torch._check(start_offset <= inp._values.size(inp._ragged_idx - 1))
+
+        length = (inp._offsets[start + length] - inp._offsets[start]).item()
+        torch._check_is_size(length)
+        torch._check(length <= inp._values.size(inp._ragged_idx - 1))
+
+        new_values = inp._values.narrow(
+            dim=(inp._ragged_idx - 1),
+            start=start_offset,
+            length=length,
+        )
+
+        return NestedTensor(new_values, **out_kwargs)
+
+    if inp._lengths is not None or inp._ragged_idx != 1:
+        raise RuntimeError(
+            "narrow(): not yet supported for non-contiguous nested tensors on dim != 0"
+        )
     values = func(
         inp._values,
         dim=dim,
@@ -1419,8 +1469,8 @@ def transpose_int(func, *args, **kwargs):
         inp_kwargs["_ragged_idx"] = to_dim
         return NestedTensor(
             inp.values().transpose(
-                _outer_to_inner_dim(len(inp._size), dim0),
-                _outer_to_inner_dim(len(inp._size), dim1),
+                _outer_to_inner_dim(len(inp._size), dim0, inp._ragged_idx),
+                _outer_to_inner_dim(len(inp._size), dim1, inp._ragged_idx),
             ),
             **inp_kwargs,
         )
@@ -1468,7 +1518,10 @@ def permute_default(func, *args, **kwargs):
             "Permute is not supported on the batch dimension for jagged NT"
         )
     inp_kwargs["_ragged_idx"] = canonicalized_dims.index(inp._ragged_idx)
-    inner_dims = [_outer_to_inner_dim(inp_dim, dim) for dim in canonicalized_dims[1:]]
+    inner_dims = [
+        _outer_to_inner_dim(inp_dim, dim, inp._ragged_idx)
+        for dim in canonicalized_dims[1:]
+    ]
     new_kwargs["dims"] = inner_dims
     return NestedTensor(func(inp._values, **new_kwargs), **inp_kwargs)
 
 
@@ -388,7 +388,7 @@ def _slice_input(t, i=i, inp=nt_inp):
                 # allow the SampleInput to tell us how to canonicalize the dim kwargs
                 ndim = nt_inp._ndim if hasattr(nt_inp, "_ndim") else nt_inp.dim()
                 kwargs[argname] = _outer_to_inner_dim(
-                    ndim, kwargs[argname], canonicalize=True
+                    ndim, kwargs[argname], nt_inp._ragged_idx, canonicalize=True
                 )
 
         out_ref_component = op.op(inp, *args, **kwargs)
@@ -463,7 +463,7 @@ def reduction_reference(op, sample):
         ref_kwargs = dict(sample.kwargs)
         assert dimlist_argname is not None
         ref_kwargs[dimlist_argname] = _outer_to_inner_dim(
-            sample.input.dim(), dim, canonicalize=True
+            sample.input.dim(), dim, sample.input._ragged_idx, canonicalize=True
         )
         out = op.op(sample.input.values(), *sample.args, **ref_kwargs)
         if keepdim:
@@ -828,8 +828,10 @@ def batchwise_reference_chunk(op, sample):
 
 
 def batchwise_reference_narrow(op, sample):
-    # TODO: write this!
-    raise NotImplementedError
+    start, length = sample.kwargs["start"], sample.kwargs["length"]
+    components = list(sample.input.unbind())
+    narrowed = components[start : start + length]
+    return torch.nested.nested_tensor(narrowed, layout=torch.jagged)
 
 
 def batchwise_reference_select(op, sample):