xx

wangxiaoxin-sherie · wangxiaoxin-sherie · commit c1bfb7a19848 · 2025-10-16T09:15:18.000+08:00
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -2205,6 +2205,9 @@ def _build_attention_metadata(self, create_mixed_batch, num_reqs,
             self.seq_lens_np[:num_reqs] = seq_lens
             self.seq_lens_np[num_reqs:] = 0
 
+            self.query_start_loc[:num_reqs + 1] = torch.arange(num_reqs + 1)
+            self.query_start_loc_cpu[:num_reqs + 1] = torch.arange(num_reqs + 1)
+
             num_computed_tokens_cpu = (
                 self.input_batch.num_computed_tokens_cpu_tensor[:num_reqs])