Merge pull request #3 from Delphine-Nic/long_seq_tmp

LookAround0301 · web-flow · commit ae2438b8f777 · 2025-09-04T10:01:11.000+08:00
【bugfix】128K Long Sequence Freezes in CP&amp;SP Scenario
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -242,7 +242,7 @@ def __init__(self, vllm_config: VllmConfig, device: torch.device):
         self.attn_metadata_builder = self.attn_backend.get_builder_cls()(
             vllm_config, device)
         self.attn_mask_builder = AttentionMaskBuilder(
-            self.model_config.max_model_len, self.dtype)
+            self.model_config.max_model_len, self.dtype) if self.cp_size * self.sp_size == 1 else None
 
         # Set up speculative decoding.
         self.use_aux_hidden_state_outputs = False