vllm-project
diff --git a/‎docs/source/tutorials/multi_npu_moge.md
Lines changed: 2 additions & 0 deletions b/‎docs/source/tutorials/multi_npu_moge.md
Lines changed: 2 additions & 0 deletions
diff --git a/‎docs/source/user_guide/configuration/additional_config.md
Lines changed: 0 additions & 2 deletions b/‎docs/source/user_guide/configuration/additional_config.md
Lines changed: 0 additions & 2 deletions
diff --git a/‎tests/e2e/multicard/test_ep.py
Lines changed: 30 additions & 0 deletions b/‎tests/e2e/multicard/test_ep.py
Lines changed: 30 additions & 0 deletions
diff --git a/‎tests/e2e/multicard/test_fused_moe_allgather_ep.py
Lines changed: 0 additions & 2 deletions b/‎tests/e2e/multicard/test_fused_moe_allgather_ep.py
Lines changed: 0 additions & 2 deletions
diff --git a/‎tests/e2e/multicard/test_torchair_graph_mode.py
Lines changed: 1 addition & 0 deletions b/‎tests/e2e/multicard/test_torchair_graph_mode.py
Lines changed: 1 addition & 0 deletions
diff --git a/‎tests/ut/distributed/test_parallel_state.py
Lines changed: 0 additions & 208 deletions b/‎tests/ut/distributed/test_parallel_state.py
Lines changed: 0 additions & 208 deletions
diff --git a/‎tests/ut/test_ascend_config.py
Lines changed: 0 additions & 3 deletions b/‎tests/ut/test_ascend_config.py
Lines changed: 0 additions & 3 deletions
diff --git a/‎tests/ut/test_platform.py
Lines changed: 0 additions & 25 deletions b/‎tests/ut/test_platform.py
Lines changed: 0 additions & 25 deletions
diff --git a/‎vllm_ascend/ascend_config.py
Lines changed: 0 additions & 2 deletions b/‎vllm_ascend/ascend_config.py
Lines changed: 0 additions & 2 deletions
@@ -48,6 +48,7 @@ Run the following script to start the vLLM server on Multi-NPU:
 ```bash
 vllm serve /path/to/pangu-pro-moe-model \
 --tensor-parallel-size 4 \
+--enable-expert-parallel \
 --trust-remote-code \
 --enforce-eager
 ```
@@ -113,6 +114,7 @@ if __name__ == "__main__":
 
     llm = LLM(model="/path/to/pangu-pro-moe-model",
             tensor_parallel_size=4,
+            enable_expert_parallel=True,
             distributed_executor_backend="mp",
             max_model_len=1024,
             trust_remote_code=True,
 
@@ -28,7 +28,6 @@ The following table lists the additional configuration options available in vLLM
 |-------------------------------| ---- |------|-----------------------------------------------------------------------------------------------|
 | `torchair_graph_config`       | dict | `{}` | The config options for torchair graph mode                                                    |
 | `ascend_scheduler_config`     | dict | `{}` | The config options for ascend scheduler                                                       |
-| `expert_tensor_parallel_size` | str  | `0`  | Expert tensor parallel size the model to use.                                                 |
 | `refresh`                     | bool | `false` | Whether to refresh global ascend config content. This value is usually used by rlhf or ut/e2e test case.     |
 | `expert_map_path`             | str  | `None` | When using expert load balancing for the MOE model, an expert map path needs to be passed in. |
 | `chunked_prefill_for_mla`     | bool | `False` | Whether to enable the fused operator-like chunked_prefill. |
@@ -75,7 +74,6 @@ An example of additional configuration is as follows:
         "enabled": True,
         "enable_chunked_prefill": True,
     },
-    "expert_tensor_parallel_size": 1,
     "refresh": False,
 }
 ```
@@ -0,0 +1,30 @@
+import pytest
+
+from tests.conftest import VllmRunner
+from tests.model_utils import check_outputs_equal
+
+
+@pytest.mark.parametrize("model_name", ["deepseek-ai/DeepSeek-V2-Lite-Chat"])
+def test_e2e_ep_correctness(model_name):
+    example_prompts = [
+        "Hello, my name is",
+        "The president of the United States is",
+        "The capital of France is",
+        "The future of AI is",
+    ]
+    max_tokens = 5
+
+    with VllmRunner(model_name, tensor_parallel_size=2) as vllm_model:
+        tp_output = vllm_model.generate_greedy(example_prompts, max_tokens)
+
+    with VllmRunner(model_name,
+                    tensor_parallel_size=2,
+                    enable_expert_parallel=True) as vllm_model:
+        ep_output = vllm_model.generate_greedy(example_prompts, max_tokens)
+
+    check_outputs_equal(
+        outputs_0_lst=ep_output,
+        outputs_1_lst=tp_output,
+        name_0="ep_output",
+        name_1="tp_output",
+    )
@@ -50,7 +50,6 @@ def test_generate_with_allgather():
                             "enabled": True,
                             "chunked_prefill_enabled": False,
                         },
-                        "expert_tensor_parallel_size": 1
                     }) as vllm_model:
         vllm_model.generate(example_prompts, sampling_params)
 
@@ -74,6 +73,5 @@ def test_generate_with_alltoall():
                             "enabled": True,
                             "chunked_prefill_enabled": False,
                         },
-                        "expert_tensor_parallel_size": 1
                     }) as vllm_model:
         vllm_model.generate(example_prompts, sampling_params)
@@ -123,6 +123,7 @@ def _pangu_torchair_test_fixture(
             distributed_executor_backend="mp",
             enforce_eager=False,
             additional_config=additional_config,
+            enable_expert_parallel=True,
     ) as vllm_model:
         # use greedy sampler to make sure the generated results are fix
         vllm_output = vllm_model.generate_greedy(example_prompts, 5)
 
@@ -42,7 +42,6 @@ def test_init_ascend_config_without_additional_config(self):
         test_vllm_config = VllmConfig()
         # No additional config given, check the default value here.
         ascend_config = init_ascend_config(test_vllm_config)
-        self.assertEqual(ascend_config.expert_tensor_parallel_size, 0)
         self.assertIsNone(ascend_config.expert_map_path)
 
         torchair_graph_config = ascend_config.torchair_graph_config
@@ -75,12 +74,10 @@ def test_init_ascend_config_with_additional_config(self):
             "ascend_scheduler_config": {
                 "enabled": True
             },
-            "expert_tensor_parallel_size": 1,
             "expert_map_path": "test_expert_map_path",
             "refresh": True
         }
         ascend_config = init_ascend_config(test_vllm_config)
-        self.assertEqual(ascend_config.expert_tensor_parallel_size, 1)
         self.assertEqual(ascend_config.expert_map_path, "test_expert_map_path")
 
         torchair_graph_config = ascend_config.torchair_graph_config
 
@@ -28,7 +28,6 @@ def setUp(self):
         self.mock_vllm_config.speculative_config = None
 
         self.mock_ascend_config = MagicMock()
-        self.mock_ascend_config.expert_tensor_parallel_size = 0
         self.mock_ascend_config.torchair_graph_config.enabled = False
         self.mock_ascend_config.ascend_scheduler_config.enabled = False
 
@@ -253,30 +252,6 @@ def test_check_and_update_config_basic_config_update(
         mock_init_ascend.assert_called_once_with(self.mock_vllm_config)
         mock_check_ascend.assert_called_once()
 
-    @patch("vllm_ascend.utils.is_310p", return_value=False)
-    @patch("vllm_ascend.ascend_config.check_ascend_config")
-    @patch("vllm_ascend.ascend_config.init_ascend_config")
-    def test_check_and_update_config_expert_parallel_enabled(
-            self, mock_init_ascend, mock_check_ascend, mock_is_310p):
-        mock_init_ascend.return_value = self.mock_ascend_config
-        self.mock_vllm_config.parallel_config.enable_expert_parallel = True
-        self.mock_vllm_config.parallel_config.tensor_parallel_size = 2
-        self.mock_vllm_config.parallel_config.world_size_across_dp = 4
-
-        from vllm_ascend import platform
-
-        importlib.reload(platform)
-
-        self.platform.check_and_update_config(self.mock_vllm_config)
-
-        self.assertEqual(
-            self.mock_vllm_config.parallel_config.expert_tensor_parallel_size,
-            1)
-        self.assertEqual(
-            self.mock_vllm_config.parallel_config.expert_parallel_size,
-            self.mock_vllm_config.parallel_config.world_size_across_dp,
-        )
-
     @patch("vllm_ascend.utils.is_310p", return_value=False)
     @patch("vllm_ascend.ascend_config.check_ascend_config")
     @patch("vllm_ascend.ascend_config.init_ascend_config")
 
@@ -44,8 +44,6 @@ def __init__(self, vllm_config):
         self.ascend_scheduler_config = AscendSchedulerConfig(
             ascend_scheduler_config)
 
-        self.expert_tensor_parallel_size = int(
-            additional_config.get("expert_tensor_parallel_size", 0))
         self.expert_map_path = additional_config.get("expert_map_path", None)
         self.chunked_prefill_for_mla = additional_config.get(
             "chunked_prefill_for_mla", False)