enable ep for pangu

MengqingCao · MengqingCao · commit b680c8b0ec76 · 2025-07-15T01:15:22.000Z
Signed-off-by: MengqingCao &lt;cmq0113@163.com&gt;
diff --git a/tests/e2e/multicard/test_torchair_graph_mode.py b/tests/e2e/multicard/test_torchair_graph_mode.py
@@ -129,6 +129,7 @@ def _pangu_torchair_test_fixture(
             distributed_executor_backend="mp",
             enforce_eager=False,
             additional_config=additional_config,
+            enable_expert_parallel=True,
     ) as vllm_model:
         # use greedy sampler to make sure the generated results are fix
         vllm_output = vllm_model.generate_greedy(example_prompts, 5)
diff --git a/vllm_ascend/models/pangu_moe.py b/vllm_ascend/models/pangu_moe.py
@@ -356,7 +356,7 @@ def pangu_group8_topk(
         num_tokens = scores.shape[0]
         router_scale = _ROUTER_SCALE.squeeze(  # type: ignore
         )
-
+        # TODO: support disable expert parallel
         ep_size = get_ep_group().world_size
         local_num_experts = global_num_experts // ep_size
         local_num_group = topk // ep_size
@@ -463,6 +463,7 @@ def __init__(
             custom_routing_function=topk_wrapper(num_voted_experts),
             prefix=f"{prefix}.experts",
         )
+        self.use_ep = self.experts.use_ep
 
         self.gate = ReplicatedLinear(
             config.hidden_size,