pytorch · fegin · Dec 12, 2023
diff --git a/test/distributed/checkpoint/test_state_dict.py b/test/distributed/checkpoint/test_state_dict.py
@@ -3,10 +3,11 @@
 import copy
 import sys
 from itertools import chain
-from typing import Callable
+from typing import Callable, Tuple
 
 import torch
 import torch.distributed as dist
+import torch.nn as nn
 from torch.distributed._composable import fully_shard, replicate
 from torch.distributed._shard.sharded_tensor import ShardedTensor
 from torch.distributed._tensor import DTensor, init_device_mesh
@@ -133,7 +134,12 @@ def _test_save_load(
         self._verify_osd(model, optim, osd, dist_osd)
 
     def _test_fsdp(
-        self, use_orig_params: bool, use_composable: bool, use_dtensor: bool
+        self,
+        *,
+        use_orig_params: bool,
+        use_composable: bool,
+        use_dtensor: bool,
+        wrapping: Tuple[nn.Module] = (),
     ) -> None:
         if not use_orig_params and use_composable:
             return
@@ -149,23 +155,27 @@ def init_model_optim():
             orig_model = CompositeParamModel(device=torch.device("cuda"))
             orig_optim = torch.optim.Adam(orig_model.parameters(), lr=1e-3)
             copy_optim = torch.optim.Adam(orig_model.parameters(), lr=1e-3)
+            if wrapping:
+                strategy = set(wrapping)
+            else:
+                strategy = {UnitModule}
             if use_composable:
                 dist_model = fully_shard(
-                    copy.deepcopy(orig_model), policy=ModuleWrapPolicy({UnitModule})
+                    copy.deepcopy(orig_model), policy=ModuleWrapPolicy(strategy)
                 )
             else:
                 if use_dtensor:
                     device_mesh = init_device_mesh("cuda", (self.world_size,))
                     dist_model = FSDP(
                         copy.deepcopy(orig_model),
-                        auto_wrap_policy=ModuleWrapPolicy({UnitModule}),
+                        auto_wrap_policy=ModuleWrapPolicy(strategy),
                         use_orig_params=use_orig_params,
                         device_mesh=device_mesh,
                     )
                 else:
                     dist_model = FSDP(
                         copy.deepcopy(orig_model),
-                        auto_wrap_policy=ModuleWrapPolicy({UnitModule}),
+                        auto_wrap_policy=ModuleWrapPolicy(strategy),
                         use_orig_params=use_orig_params,
                     )
 
@@ -182,6 +192,7 @@ def test_fsdp(self) -> None:
                 "use_orig_params": [True, False],
                 "use_composable": [True, False],
                 "use_dtensor": [True, False],
+                "wrapping": [tuple(), (nn.Linear, UnitModule)],
             },
             self._test_fsdp,
         )

diff --git a/torch/distributed/checkpoint/state_dict.py b/torch/distributed/checkpoint/state_dict.py
@@ -157,7 +157,7 @@ def _get_fqns(model: nn.Module, name: str, skip_ddp_prefix: bool = True) -> FQNS
             if not skip_ddp_prefix:
                 fqn_obj_names.append(curr_obj_name)
         elif isinstance(curr_obj, FSDP):
-            if obj_names[i + 1] == FLAT_PARAM:
+            if i < len(obj_names) - 1 and obj_names[i + 1] == FLAT_PARAM:
                 prefix = ".".join(fqn_obj_names)
                 flat_param = getattr(curr_obj, FLAT_PARAM)
                 if prefix: