InferenceNexus
diff --git a/‎lmdeploy/pytorch/backends/dlinfer/ascend/op_backend.py
Lines changed: 48 additions & 25 deletions b/‎lmdeploy/pytorch/backends/dlinfer/ascend/op_backend.py
Lines changed: 48 additions & 25 deletions
@@ -50,50 +50,73 @@ def update_step_context(cls, step_context):
         device = step_context.block_offsets.device
 
         is_unpaged_prefill = False
-        q_start_loc_cpu = step_context.q_start_loc.cpu()
-        q_seqlens_cpu = step_context.q_seqlens.cpu()
-        kv_seqlens_cpu = step_context.kv_seqlens.cpu()
-        max_q_seq_len = torch.max(q_seqlens_cpu).item()
-        max_kv_seq_len = torch.max(kv_seqlens_cpu).item()
-
         if not step_context.is_decoding:
             is_unpaged_prefill = \
                 all((step_context.q_seqlens ==
                      step_context.kv_seqlens).tolist())
-            if is_unpaged_prefill:
-                single_attention_mask = torch.logical_not(
-                    torch.tril(
-                        torch.ones(max_q_seq_len,
-                                   max_kv_seq_len,
-                                   dtype=torch.bool).cuda(),
-                        diagonal=max_kv_seq_len - max_q_seq_len,
-                    ))
-                attention_mask.append(single_attention_mask)
+
         total_slots = torch.arange(block_num * block_size,
                                    dtype=torch.long,
                                    device=device)
         total_slots = total_slots.view(block_num, block_size)
+
+        q_seqlens_list = step_context.q_seqlens.tolist()
+        kv_seqlens_list = step_context.kv_seqlens.tolist()
+        max_q_seq_len = max(q_seqlens_list)
+        max_kv_seq_len = max(kv_seqlens_list)
+
         for i in range(step_context.q_start_loc.size(0)):
-            q_seq_len = int(step_context.q_seqlens[i])
-            kv_seq_len = int(step_context.kv_seqlens[i])
+            q_seq_len = q_seqlens_list[i]
+            kv_seq_len = kv_seqlens_list[i]
+
+            # collect kv start indices.
+            history_length = kv_seq_len - q_seq_len
+            slot_tables = total_slots[step_context.block_offsets[i]].flatten()
+            slot_indices = [p for p in range(history_length, kv_seq_len)]
+            slots = slot_tables[slot_indices].reshape((-1, 1))
+            kv_start_indices.append(slots)
+
+            # collect attention mask of paged_prefill attention stage.
             if not (step_context.is_decoding or is_unpaged_prefill):
                 single_attention_mask = torch.logical_not(
                     torch.tril(
-                        torch.ones(step_context.q_seqlens[i],
+                        torch.ones(q_seq_len,
                                    step_context.block_offsets.shape[1] *
                                    block_size,
                                    dtype=torch.bool).cuda(),
-                        diagonal=step_context.kv_seqlens[i] -
-                        step_context.q_seqlens[i],
+                        diagonal=kv_seq_len - q_seq_len,
                     ))
                 attention_mask.append(single_attention_mask)
-            history_length = kv_seq_len - q_seq_len
-            slot_tables = total_slots[step_context.block_offsets[i]].flatten()
-            slot_indices = [p for p in range(history_length, kv_seq_len)]
-            slots = slot_tables[slot_indices].reshape((-1, 1))
-            kv_start_indices.append(slots)
+
         kv_start_indices = torch.cat(kv_start_indices)
 
+        if step_context.is_decoding:
+            # prepare somae params of paged_decode attention stage.
+            q_start_loc_cpu, q_seqlens_cpu = None, None
+            kv_seqlens_cpu = step_context.kv_seqlens.cpu()
+        elif is_unpaged_prefill:
+            # prepare somae params of unpaged_prefill attention stage.
+            q_start_loc_cpu, kv_seqlens_cpu = None, None
+            q_seqlens_cpu = step_context.q_seqlens.cpu()
+            single_attention_mask = torch.logical_not(
+                torch.tril(
+                    torch.ones(max_q_seq_len, max_kv_seq_len,
+                               dtype=torch.bool).cuda(),
+                    diagonal=max_kv_seq_len - max_q_seq_len,
+                ))
+            attention_mask.append(single_attention_mask)
+        else:
+            # prepare somae params of paged_prefill attention stage.
+            q_start_loc_cpu, q_seqlens_cpu = None, None
+            kv_seqlens_cpu = step_context.kv_seqlens.repeat_interleave(
+                step_context.q_seqlens, 0).cpu()
+            block_offsets_int32 = step_context.block_offsets.to(torch.int32)
+            step_context.block_offsets = block_offsets_int32.repeat_interleave(
+                step_context.q_seqlens, 0)
+            attention_mask = [
+                torch.cat([mask for mask in attention_mask]).unsqueeze(1)
+            ]
+
         attn_meta_cls = cls.get_attention_metadata_cls()
         attn_metadata = attn_meta_cls(
             step_context.is_decoding,