test_pd_connector

wangxiaoteng888 · wangxiaoteng888 · commit 68afe74c9e72 · 2025-09-19T18:02:36.000+08:00
Signed-off-by: wangxiaoteng &lt;wangxiaoteng@huawei.com&gt;
diff --git a/tests/e2e/multi_node/config/config.json b/tests/e2e/multi_node/config/config.json
@@ -48,5 +48,261 @@
             "request_rate": 1
         },
         "accuracy_parameters": {}
+    },
+    {
+        "test_name": "test_deepseek_pd_llmdatadist",
+        "disaggregate_prefill": true,
+        "num_nodes": 2,
+        "server_parameters": {
+            "leader_config": {
+                "model": "vllm-ascend/DeepSeek-V3-W8A8",
+                "enforce_eager": true,
+                "enable_expert_parallel": true,
+                "data_parallel_size": 2,
+                "data_parallel_size_local": 2,
+                "quantization": "ascend",
+                "tensor_parallel_size": 8,
+                "kv_transfer_config": {
+                    "kv_connector": "LLMDataDistCMgrConnector",
+                    "kv_buffer_device": "npu",
+                    "kv_role": "kv_producer",
+                    "kv_connector_module_path": "vllm_ascend.distributed.llmdatadist_c_mgr_connector"
+                },
+                "additional_config": {}
+            },
+            "worker_config": {
+                "model": "vllm-ascend/DeepSeek-V3-W8A8",
+                "enable_expert_parallel": true,
+                "data_parallel_size": 2,
+                "data_parallel_size_local": 2,
+                "quantization": "ascend",
+                "tensor_parallel_size": 8,
+                "max_num_seqs": 28,
+                "kv_transfer_config": {
+                    "kv_connector": "LLMDataDistCMgrConnector",
+                    "kv_buffer_device": "npu",
+                    "kv_role": "kv_consumer",
+                    "kv_connector_module_path": "vllm_ascend.distributed.llmdatadist_c_mgr_connector"
+                },
+                "additional_config": {
+                    "torchair_graph_config": {
+                        "enabled": true,
+                        "graph_batch_sizes": [28]
+                    }
+                }
+            }
+        },
+        "client_parameters": {
+            "model": "vllm-ascend/DeepSeek-V3-W8A8",
+            "endpoint_type": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "/root/.cache/datasets/ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "request_rate": 1
+        },
+        "accuracy_parameters": {}
+    },
+    {
+        "test_name": "test_qwen_pd_llmdatadist",
+        "disaggregate_prefill": true,
+        "num_nodes": 2,
+        "server_parameters": {
+            "leader_config": {
+                "model": "vllm-ascend/Qwen3-235B-A22B-W8A8",
+                "enforce_eager": true,
+                "enable_expert_parallel": true,
+                "data_parallel_size": 4,
+                "data_parallel_size_local": 4,
+                "quantization": "ascend",
+                "tensor_parallel_size": 4,
+                "kv_transfer_config": {
+                    "kv_connector": "LLMDataDistCMgrConnector",
+                    "kv_buffer_device": "npu",
+                    "kv_role": "kv_producer",
+                    "kv_connector_module_path": "vllm_ascend.distributed.llmdatadist_c_mgr_connector"
+                },
+                "additional_config": {}
+            },
+            "worker_config": {
+                "model": "vllm-ascend/Qwen3-235B-A22B-W8A8",
+                "enable_expert_parallel": true,
+                "data_parallel_size": 4,
+                "data_parallel_size_local": 4,
+                "quantization": "ascend",
+                "tensor_parallel_size": 4,
+                "max_num_seqs": 32,
+                "compilation_config": {
+                    "cudagraph_capture_sizes": [1,4,8,16,32]
+                },
+                "kv_transfer_config": {
+                    "kv_connector": "LLMDataDistCMgrConnector",
+                    "kv_buffer_device": "npu",
+                    "kv_role": "kv_consumer",
+                    "kv_connector_module_path": "vllm_ascend.distributed.llmdatadist_c_mgr_connector"
+                },
+                "additional_config": {}
+            }
+        },
+        "client_parameters": {
+            "model": "vllm-ascend/Qwen3-235B-A22B-W8A8",
+            "endpoint_type": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "/root/.cache/datasets/ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "request_rate": 1
+        },
+        "accuracy_parameters": {}
+    },
+    {
+        "test_name": "test_deepseek_pd_mooncake",
+        "disaggregate_prefill": true,
+        "num_nodes": 2,
+        "server_parameters": {
+            "leader_config": {
+                "model": "vllm-ascend/DeepSeek-V3-W8A8",
+                "enforce_eager": true,
+                "enable_expert_parallel": true,
+                "data_parallel_size": 2,
+                "data_parallel_size_local": 2,
+                "quantization": "ascend",
+                "tensor_parallel_size": 8,
+                "kv_transfer_config": {
+                    "kv_connector": "MooncakeConnector",
+                    "kv_role": "kv_producer",
+                    "kv_port": "36010",
+                    "engine_id": "0",
+                    "kv_connector_module_path": "vllm_ascend.distributed.mooncake_connector",
+                    "kv_connector_extra_config": {
+                        "use_ascend_direct": true,
+                        "prefill": {
+                            "dp_size": 2,
+                            "tp_size": 8
+                        },
+                        "decode":{
+                            "dp_size": 2,
+                            "tp_size": 8
+                        }
+                    }
+                },
+                "additional_config": {}
+            },
+            "worker_config": {
+                "model": "vllm-ascend/DeepSeek-V3-W8A8",
+                "enable_expert_parallel": true,
+                "data_parallel_size": 2,
+                "data_parallel_size_local": 2,
+                "quantization": "ascend",
+                "tensor_parallel_size": 8,
+                "max_num_seqs": 28,
+                "kv_transfer_config": {
+                    "kv_connector": "MooncakeConnector",
+                    "kv_role": "kv_consumer",
+                    "kv_port": "36010",
+                    "engine_id": "1",
+                    "kv_connector_module_path": "vllm_ascend.distributed.mooncake_connector",
+                    "kv_connector_extra_config": {
+                        "use_ascend_direct": true,
+                        "prefill": {
+                            "dp_size": 2,
+                            "tp_size": 8
+                        },
+                        "decode":{
+                            "dp_size": 2,
+                            "tp_size": 8
+                        }
+                    }
+                },
+                "additional_config": {
+                    "torchair_graph_config": {
+                        "enabled": true,
+                        "graph_batch_sizes": [28]
+                    }
+                }
+            }
+        },
+        "client_parameters": {
+            "model": "vllm-ascend/DeepSeek-V3-W8A8",
+            "endpoint_type": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "/root/.cache/datasets/ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "request_rate": 1
+        },
+        "accuracy_parameters": {}
+    },
+    {
+        "test_name": "test_qwen_pd_mooncake",
+        "disaggregate_prefill": true,
+        "num_nodes": 2,
+        "server_parameters": {
+            "leader_config": {
+                "model": "vllm-ascend/Qwen3-235B-A22B-W8A8",
+                "enforce_eager": true,
+                "enable_expert_parallel": true,
+                "data_parallel_size": 4,
+                "data_parallel_size_local": 4,
+                "quantization": "ascend",
+                "tensor_parallel_size": 4,
+                "kv_transfer_config": {
+                    "kv_connector": "MooncakeConnector",
+                    "kv_role": "kv_producer",
+                    "kv_port": "36010",
+                    "engine_id": "0",
+                    "kv_connector_module_path": "vllm_ascend.distributed.mooncake_connector",
+                    "kv_connector_extra_config": {
+                        "use_ascend_direct": true,
+                        "prefill": {
+                            "dp_size": 4,
+                            "tp_size": 4
+                        },
+                        "decode":{
+                            "dp_size": 4,
+                            "tp_size": 4
+                        }
+                    }
+                },
+                "additional_config": {}
+            },
+            "worker_config": {
+                "model": "vllm-ascend/Qwen3-235B-A22B-W8A8",
+                "enable_expert_parallel": true,
+                "data_parallel_size": 4,
+                "data_parallel_size_local": 4,
+                "quantization": "ascend",
+                "tensor_parallel_size": 4,
+                "max_num_seqs": 32,
+                "compilation_config": {
+                    "cudagraph_capture_sizes": [1,4,8,16,32]
+                },
+                "kv_transfer_config": {
+                    "kv_connector": "MooncakeConnector",
+                    "kv_role": "kv_consumer",
+                    "kv_port": "36010",
+                    "engine_id": "1",
+                    "kv_connector_module_path": "vllm_ascend.distributed.mooncake_connector",
+                    "kv_connector_extra_config": {
+                        "use_ascend_direct": true,
+                        "prefill": {
+                            "dp_size": 4,
+                            "tp_size": 4
+                        },
+                        "decode":{
+                            "dp_size": 4,
+                            "tp_size": 4
+                        }
+                    }
+                },
+                "additional_config": {}
+            }
+        },
+        "client_parameters": {
+            "model": "vllm-ascend/Qwen3-235B-A22B-W8A8",
+            "endpoint_type": "vllm",
+            "dataset_name": "sharegpt",
+            "dataset_path": "/root/.cache/datasets/ShareGPT_V3_unfiltered_cleaned_split.json",
+            "num_prompts": 200,
+            "request_rate": 1
+        },
+        "accuracy_parameters": {}
     }
 ]
diff --git a/tests/e2e/multi_node/scripts/run.sh b/tests/e2e/multi_node/scripts/run.sh
@@ -28,6 +28,14 @@ checkout_src() {
     if [ ! -d "$SRC_DIR/vllm" ]; then
         git clone -b v0.10.2 https://github.com/vllm-project/vllm.git "$SRC_DIR/vllm"
     fi
+
+    #mooncake
+    if [ ! -d "$SRC_DIR/Mooncake" ]; then
+        git clone https://github.com/kvcache-ai/Mooncake.git "$SRC_DIR/Mooncake"
+        cd "$SRC_DIR/Mooncake"
+        git checkout 06cc217504a6f1b0cdaa26b096b985651b262748
+        cd -
+    fi
 }
 
 install_sys_dependencies() {
@@ -51,6 +59,23 @@ install_vllm() {
     pip install -r "$SRC_DIR/vllm-ascend/requirements-dev.txt"
 }
 
+install_mooncake() {
+    echo "====> Install mooncake"
+    apt-get update
+    apt install -y --allow-change-held-packages python3 python-is-python3
+    apt-get install -y --no-install-recommends mpich libmpich-dev
+    cd $SRC_DIR/Mooncake
+    sed -i '/option(USE_ASCEND_DIRECT)/s/OFF/ON/' mooncake-common/common.cmake
+    bash dependencies.sh --yes
+    mkdir build
+    cd -
+    cd $SRC_DIR/Mooncake/build
+    cmake ..
+    make -j
+    make install
+    cd -
+}
+
 run_tests() {
     echo "====> Run tests"
     cd "$SRC_DIR/vllm-ascend"
@@ -63,6 +88,7 @@ main() {
     checkout_src
     install_sys_dependencies
     install_vllm
+    install_mooncake
     run_tests
 }