tiny fix

MengqingCao · 1092626063 · commit 1f43715f7ffd · 2025-09-28T11:23:20.000+08:00
Signed-off-by: MengqingCao &lt;cmq0113@163.com&gt;
diff --git a/tests/ut/worker/test_worker_v1.py b/tests/ut/worker/test_worker_v1.py
@@ -429,7 +429,8 @@ def test_execute_dummy_batch(self):
             worker.execute_dummy_batch()
 
             # Verify call
-            mock_model_runner._dummy_run.assert_called_once_with(1)
+            mock_model_runner._dummy_run.assert_called_once_with(
+                1, uniform_decode=True, force_attention=True)
 
     @patch("vllm_ascend.worker.worker_v1.envs_vllm")
     @patch("vllm_ascend.worker.worker_v1.logger")
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
@@ -2377,11 +2377,11 @@ def _dummy_run(
             with_prefill = True
 
         attn_metadata = self._build_attention_metadata(
-            with_prefill,
-            num_reqs,
-            num_tokens,
-            max_query_len,
-            force_attention,
+            create_mixed_batch=False,
+            num_reqs=num_reqs,
+            num_tokens=num_tokens,
+            max_query_len=max_query_len,
+            force_attention=force_attention,
         )
 
         if not self.in_profile_run and self.dynamic_eplb:
diff --git a/vllm_ascend/worker/worker_v1.py b/vllm_ascend/worker/worker_v1.py
@@ -25,7 +25,8 @@
 import torch_npu
 import vllm.envs as envs_vllm
 from torch_npu.op_plugin.atb._atb_ops import _register_atb_extensions
-from vllm.config import VllmConfig
+from torch_npu.profiler import dynamic_profile as dp
+from vllm.config import CUDAGraphMode, VllmConfig
 from vllm.distributed import (ensure_model_parallel_initialized,
                               init_distributed_environment)
 from vllm.distributed.kv_transfer import ensure_kv_transfer_initialized
@@ -333,9 +334,13 @@ def pin_lora(self, lora_id: int) -> bool:
         return self.model_runner.pin_lora(lora_id)
 
     def execute_dummy_batch(self) -> None:
-        self.model_runner._dummy_run(1,
-                                     uniform_decode=True,
-                                     force_attention=True)
+        uniform_decode = self.compilation_config.cudagraph_mode in [
+            CUDAGraphMode.FULL, CUDAGraphMode.PIECEWISE
+        ]
+        force_attention = self.compilation_config.cudagraph_mode == CUDAGraphMode.FULL
+        self.model_runner._dummy_run(num_tokens=1,
+                                     uniform_decode=uniform_decode,
+                                     force_attention=force_attention)
 
     def _init_worker_distributed_environment(self) -> None:
         """Initialize the distributed environment."""