update doc and test

MengqingCao · MengqingCao · commit f73bbbcd7990 · 2025-07-15T01:15:22.000Z
Signed-off-by: MengqingCao &lt;cmq0113@163.com&gt;
diff --git a/docs/source/tutorials/multi_npu_moge.md b/docs/source/tutorials/multi_npu_moge.md
@@ -48,6 +48,7 @@ Run the following script to start the vLLM server on Multi-NPU:
 ```bash
 vllm serve /path/to/pangu-pro-moe-model \
 --tensor-parallel-size 4 \
+--enable-expert-parallel \
 --trust-remote-code \
 --enforce-eager
 ```
@@ -113,6 +114,7 @@ if __name__ == "__main__":
 
     llm = LLM(model="/path/to/pangu-pro-moe-model",
             tensor_parallel_size=4,
+            enable_expert_parallel=True,
             distributed_executor_backend="mp",
             max_model_len=1024,
             trust_remote_code=True,
diff --git a/tests/e2e/multicard/test_ep.py b/tests/e2e/multicard/test_ep.py
@@ -1,13 +1,9 @@
-import os
-
 import pytest
 
 from tests.conftest import VllmRunner
 from tests.model_utils import check_outputs_equal
 
 
-@pytest.mark.skipif(os.getenv("VLLM_USE_V1") == "0",
-                    reason="ep is not supported on v0")
 @pytest.mark.parametrize("model_name", ["deepseek-ai/DeepSeek-V2-Lite-Chat"])
 def test_e2e_ep_correctness(model_name):
     example_prompts = [