[Fixbug] Fix soc_version for 310p

zhangxinyuehfad · zhangxinyuehfad · commit 7655d3b39d00 · 2025-09-19T00:36:41.000+08:00
Signed-off-by: hfadzxy &lt;starmoon_zhang@163.com&gt;
diff --git a/Dockerfile.a3 b/Dockerfile.a3
@@ -50,6 +50,7 @@ RUN export PIP_EXTRA_INDEX_URL=https://mirrors.huaweicloud.com/ascend/repos/pypi
     source /usr/local/Ascend/ascend-toolkit/set_env.sh && \
     source /usr/local/Ascend/nnal/atb/set_env.sh && \
     export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/Ascend/ascend-toolkit/latest/`uname -i`-linux/devlib && \
+    export SOC_VERSION=Ascend910_9392 && \
     python3 -m pip install -v -e /vllm-workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/ && \
     python3 -m pip cache purge
 
diff --git a/Dockerfile.a3.openEuler b/Dockerfile.a3.openEuler
@@ -48,6 +48,7 @@ RUN export PIP_EXTRA_INDEX_URL=https://mirrors.huaweicloud.com/ascend/repos/pypi
     source /usr/local/Ascend/nnal/atb/set_env.sh && \
     export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/Ascend/ascend-toolkit/latest/`uname -i`-linux/devlib && \
     export CPLUS_INCLUDE_PATH=$CPLUS_INCLUDE_PATH:/usr/include/c++/12:/usr/include/c++/12/`uname -i`-openEuler-linux && \
+    export SOC_VERSION=Ascend910_9392 && \
     python3 -m pip install -v -e /vllm-workspace/vllm-ascend/ --extra-index https://download.pytorch.org/whl/cpu/ && \
     python3 -m pip cache purge
 
diff --git a/examples/disaggregated_prefill_v1/gen_ranktable.py b/examples/disaggregated_prefill_v1/gen_ranktable.py
@@ -4,7 +4,7 @@
 
 import torch.distributed as dist
 
-from vllm_ascend.utils import AscendSocVersion, init_ascend_soc_version, get_ascend_soc_version
+from vllm_ascend import _build_info  # type: ignore
 
 parser = argparse.ArgumentParser(
     description="Arguments of rank table generator", )
@@ -38,8 +38,7 @@
 # and is different from WORLD_SIZE in gen_rank_table.sh.
 world_size = os.environ.get("WORLD_SIZE")
 
-init_ascend_soc_version()
-soc_info = get_ascend_soc_version()
+soc_info = _build_info.__ascend_soc_version__
 
 
 def get_cmd_stdout(cmd):
@@ -75,7 +74,7 @@ def get_cmd_stdout(cmd):
         device_id = local_device_ids[idx]
         chip_id = device_id % chips_per_card
         card_id = device_id // chips_per_card
-        if soc_info == AscendSocVersion.A3:
+        if soc_info == "A3":
             device_ip = get_cmd_stdout(
                 f"{hccn_tool_path} -i {device_id} -vnic -g | grep ipaddr"
             ).split(":")[1].strip()
@@ -87,15 +86,15 @@ def get_cmd_stdout(cmd):
             ).split(":")[1].strip()
         else:
             device_ip = get_cmd_stdout(
-                f"{hccn_tool_path} -i {device_id} -ip -g | grep ipaddr"
-            ).split(":")[1].strip()
+                f"{hccn_tool_path} -i {device_id} -ip -g | grep ipaddr").split(
+                    ":")[1].strip()
 
         device_info = {
             "server_id": local_host,
             "device_id": str(device_id),
             "device_ip": str(device_ip),
         }
-        if soc_info == AscendSocVersion.A3:
+        if soc_info == "A3":
             device_info.update({
                 "super_pod_id": str(super_pod_id),
                 "super_device_id": str(super_device_id)
diff --git a/setup.py b/setup.py
@@ -32,6 +32,11 @@
 from setuptools.command.install import install
 from setuptools_scm import get_version
 
+# Supported SOC_VERSION codes
+ASCEND_A2_SOC_VERSION = ["ASCEND910B1"]
+ASCEND_A3_SOC_VERSION = ["ASCEND910_9392"]
+ASCEND_310P_SOC_VERSION = ["ASCEND310P3"]
+
 
 def load_module_from_path(module_name, path):
     spec = importlib.util.spec_from_file_location(module_name, path)
@@ -91,11 +96,20 @@ def run(self):
             raise ValueError(
                 "SOC version 310 only supports custom kernels. Please set COMPILE_CUSTOM_KERNELS=1 to enable custom kernels."
             )
+        if soc_version in ASCEND_A2_SOC_VERSION:
+            ascend_soc_version = "A2"
+        elif soc_version in ASCEND_A3_SOC_VERSION:
+            ascend_soc_version = "A3"
+        elif soc_version in ASCEND_310P_SOC_VERSION:
+            ascend_soc_version = "310P"
+        else:
+            ascend_soc_version = "UNDEFINED"
 
         package_dir = os.path.join(ROOT_DIR, "vllm_ascend", "_build_info.py")
         with open(package_dir, "w+") as f:
             f.write('# Auto-generated file\n')
             f.write(f"__soc_version__ = '{soc_version}'\n")
+            f.write(f"__ascend_soc_version__ = '{ascend_soc_version}'\n")
             f.write(
                 f"__sleep_mode_enabled__ = {envs.COMPILE_CUSTOM_KERNELS}\n")
         logging.info(
diff --git a/tests/ut/conftest.py b/tests/ut/conftest.py
@@ -23,4 +23,4 @@
 adapt_patch(True)
 
 # register Ascend CustomOp here because uts will use this
-register_ascend_customop()
+register_ascend_customop()
diff --git a/tests/ut/models/conftest.py b/tests/ut/models/conftest.py
@@ -98,7 +98,7 @@ def mock_distributed():
                   return_value=Mock(is_first_rank=False, is_last_rank=False)), \
             patch("vllm_ascend.ops.fused_moe.get_current_vllm_config", return_value=mock_vllm_config), \
             patch("vllm_ascend.ops.moe.token_dispatcher.torch.distributed.get_rank", return_value=0), \
-            patch("vllm_ascend.ops.moe.token_dispatcher.get_ascend_soc_version", return_value=None), \
+            patch("vllm_ascend._build_info.__ascend_soc_version__", return_value=""), \
             patch.dict("vllm.distributed.parallel_state.__dict__", _TP=tp_group, _EP=ep_group, _DP=dp_group,
                        _PP=pp_group), \
             patch.dict("vllm_ascend.distributed.parallel_state.__dict__", _MC2=ep_group), \
diff --git a/tests/ut/ops/test_fused_ops.py b/tests/ut/ops/test_fused_ops.py
@@ -27,7 +27,7 @@
                                        AscendUnquantizedFusedMoEMethod)
 from vllm_ascend.ops.moe.experts_selector import select_experts
 from vllm_ascend.ops.moe.moe_mlp import cumsum_group_list, unified_apply_mlp
-from vllm_ascend.utils import AscendSocVersion, adapt_patch
+from vllm_ascend.utils import adapt_patch
 
 adapt_patch(True)
 
@@ -109,7 +109,7 @@ def mock_finalize(hidden_states, **kwargs):
                     scheduler_config=MagicMock(max_num_seqs=4),
                     model_config=MagicMock(max_model_len=2048)
                 )), \
-        patch("vllm_ascend.utils.get_ascend_soc_version", return_value=AscendSocVersion.A3), \
+        patch("vllm_ascend._build_info.__ascend_soc_version__", return_value="A3"), \
         patch('vllm_ascend.ops.moe.moe_mlp.get_forward_context',
                 return_value=mock_forward_context_obj), \
         patch('vllm_ascend.ops.moe.moe_comm_method.MC2CommImpl._get_token_dispatcher',
@@ -387,7 +387,8 @@ def test_apply_with_expert_map(self, moe_method, mock_dist_env,
         forward_context = mock_dist_env['mock_forward_context_obj']
 
         with patch("vllm_ascend.ops.fused_moe.get_forward_context", return_value=forward_context), \
-             patch("vllm_ascend.utils.get_ascend_soc_version", return_value=AscendSocVersion.A3):
+             patch("vllm_ascend._build_info.__ascend_soc_version__", return_value="A3"):
+
             expert_map = torch.tensor([0, 1, 2, -1, -1, -1, -1, -1])
             moe_method.ep_size = ep_size
             x = torch.randn(8, 2, 2)
diff --git a/tests/ut/ops/test_token_dispatcher.py b/tests/ut/ops/test_token_dispatcher.py
@@ -22,8 +22,8 @@
 from tests.ut.base import TestBase
 
 from vllm_ascend.ops.moe.token_dispatcher import (  # isort: skip
-    AscendSocVersion, TokenDispatcherWithAll2AllV,
-    TokenDispatcherWithAllGather, TokenDispatcherWithMC2)
+    TokenDispatcherWithAll2AllV, TokenDispatcherWithAllGather,
+    TokenDispatcherWithMC2)
 
 
 class TestTokenDispatcherWithMC2(TestBase):
@@ -50,10 +50,9 @@ def setUp(self):
             return_value=self.forward_context)
         self.forward_context_patch.start()
 
-        # Mock get_ascend_soc_version()
+        # Mock __ascend_soc_version__
         self.ascend_soc_version_patch = patch(
-            "vllm_ascend.ops.moe.token_dispatcher.get_ascend_soc_version",
-            return_value=AscendSocVersion.A3)
+            "vllm_ascend._build_info.__ascend_soc_version__", new="A3")
         self.ascend_soc_version_patch.start()
 
         kwargs = {"with_quant": False, "top_k": 8, "num_experts": 128}
diff --git a/tests/ut/torchair/ops/test_torchair_fused_moe.py b/tests/ut/torchair/ops/test_torchair_fused_moe.py
@@ -26,7 +26,7 @@
 from vllm_ascend.quantization.quant_config import AscendFusedMoEMethod
 from vllm_ascend.torchair.ops.torchair_fused_moe import (
     TorchairAscendFusedMoE, TorchairAscendUnquantizedFusedMoEMethod)
-from vllm_ascend.utils import AscendSocVersion, adapt_patch  # noqa E402
+from vllm_ascend.utils import adapt_patch  # noqa E402
 
 adapt_patch(True)
 
@@ -379,7 +379,7 @@ def test_apply_with_expert_map(self, moe_method, mock_dist_env,
         forward_context = MagicMock(
             fused_moe_state=_get_fused_moe_state(ep_size, is_prefill, True))
         with patch("vllm_ascend.torchair.ops.torchair_fused_moe.get_forward_context", return_value=forward_context), \
-             patch("vllm_ascend.torchair.ops.torchair_fused_moe.get_ascend_soc_version", return_value=AscendSocVersion.A3):
+             patch("vllm_ascend._build_info.__ascend_soc_version__", return_value="A3"):
             expert_map = torch.tensor([0, 1, 2, -1, -1, -1, -1, -1])
             moe_method.ep_size = ep_size
             x = torch.randn(8, 2, 2)
diff --git a/tests/ut/worker/test_model_runner_v1.py b/tests/ut/worker/test_model_runner_v1.py
@@ -15,7 +15,6 @@
 
 import pytest
 
-from vllm_ascend.utils import AscendSocVersion
 from vllm_ascend.worker.model_runner_v1 import NPUModelRunner
 
 
@@ -24,21 +23,25 @@
     "soc_version, enable_expert_parallel, world_size, num_tokens, mc2_tokens_capacity, quant_type, expected_method",
     [
         # Case 1: Expert parallel is disabled, should always be 'allgather'
-        (AscendSocVersion.A2, False, 8, 100, 256, None, "allgather"),
-        (AscendSocVersion.A3, False, 16, 500, 256, None, "allgather"),
+        ("A2", False, 8, 100, 256, None, "allgather"),
+        ("A3", False, 16, 500, 256, None, "allgather"),
 
         # Case 2: A2 SOC with w4a8_dynamic -> use alltoall when not mc2
-        (AscendSocVersion.A2, True, 8, 100, 256, "w4a8_dynamic", "alltoall"),
-        (AscendSocVersion.A2, True, 16, 257, 256, "w4a8_dynamic", "alltoall"),
-        (AscendSocVersion.A2, True, 16, 100, 256, "w4a8_dynamic", "mc2"),  # meets mc2 condition
+        ("A2", True, 8, 100, 256, "w4a8_dynamic", "alltoall"),
+        ("A2", True, 16, 257, 256, "w4a8_dynamic", "alltoall"),
+        ("A2", True, 16, 100, 256, "w4a8_dynamic", "mc2"),  # meets mc2 condition
 
         # Case 3: A2 SOC without w4a8_dynamic -> fallback to allgather
-        (AscendSocVersion.A2, True, 8, 100, 256, None, "allgather"),
-        (AscendSocVersion.A2, True, 16, 257, 256, None, "allgather"),
+        ("A2", True, 8, 100, 256, None, "allgather"),
+        ("A2", True, 16, 257, 256, None, "allgather"),
 
         # Case 4: A3 SOC
-        (AscendSocVersion.A3, True, 8, 100, 256, None, "mc2"),
-        (AscendSocVersion.A3, True, 8, 257, 256, None, "alltoall"),
+        ("A3", True, 8, 100, 256, None, "mc2"),
+        ("A3", True, 8, 257, 256, None, "alltoall"),
+
+        # Case 5: P3 SOC
+        ("310P", True, 8, 100, 256, None, "allgather"),
+        ("310P", True, 8, 257, 256, None, "allgather"),
     ])
 # yapf: enable
 def test_select_moe_comm_method(soc_version, enable_expert_parallel,
@@ -64,8 +67,8 @@ def test_select_moe_comm_method(soc_version, enable_expert_parallel,
     mock_runner.vllm_config = mock_vllm_config
 
     # Patch the helper functions
-    with patch('vllm_ascend.worker.model_runner_v1.get_ascend_soc_version',
-               return_value=soc_version), \
+    with patch('vllm_ascend._build_info.__ascend_soc_version__',
+               new=soc_version), \
          patch('vllm_ascend.worker.model_runner_v1.is_global_first_rank',
                return_value=True):
 
@@ -97,8 +100,8 @@ def test_select_moe_comm_method_unsupported_soc():
 
     unsupported_soc = "UnsupportedSOC"
 
-    with patch('vllm_ascend.worker.model_runner_v1.get_ascend_soc_version',
-               return_value=unsupported_soc), \
+    with patch('vllm_ascend._build_info.__ascend_soc_version__',
+               new=unsupported_soc), \
          patch('vllm_ascend.worker.model_runner_v1.is_global_first_rank',
                return_value=True), \
          pytest.raises(ValueError, match=f"Unsupported soc_version: {unsupported_soc}"):
diff --git a/tests/ut/worker/test_worker_v1.py b/tests/ut/worker/test_worker_v1.py
@@ -41,7 +41,6 @@ def setUp(self):
     @patch("vllm_ascend.worker.worker_v1._register_atb_extensions")
     @patch("vllm_ascend.worker.worker_v1.register_ascend_customop")
     @patch("vllm_ascend.worker.worker_v1.init_ascend_config")
-    @patch("vllm_ascend.worker.worker_v1.init_ascend_soc_version")
     @patch("vllm_ascend.worker.worker_v1.try_register_lib")
     @patch("vllm.utils.init_cached_hf_modules")
     @patch("vllm_ascend.worker.worker_v1.NPUWorker._init_profiler")
@@ -50,7 +49,6 @@ def test_init_npu_worker_normal_case(
         mock_init_profiler,
         mock_init_cached_hf_modules,
         mock_try_register_lib,
-        mock_init_ascend_soc_version,
         mock_init_ascend_config,
         mock_register_ascend_customop,
         mock_register_atb_extensions,
@@ -78,7 +76,6 @@ def test_init_npu_worker_normal_case(
         mock_register_atb_extensions.assert_called_once()
         mock_register_ascend_customop.assert_called_once()
         mock_init_ascend_config.assert_called_once_with(self.vllm_config_mock)
-        mock_init_ascend_soc_version.assert_called_once()
 
         # Verify try_register_lib call
         mock_try_register_lib.assert_called_once_with(
@@ -98,7 +95,6 @@ def test_init_npu_worker_normal_case(
     @patch("vllm_ascend.worker.worker_v1._register_atb_extensions")
     @patch("vllm_ascend.worker.worker_v1.register_ascend_customop")
     @patch("vllm_ascend.worker.worker_v1.init_ascend_config")
-    @patch("vllm_ascend.worker.worker_v1.init_ascend_soc_version")
     @patch("vllm_ascend.worker.worker_v1.try_register_lib")
     @patch("vllm.utils.init_cached_hf_modules")
     @patch("vllm_ascend.worker.worker_v1.NPUWorker._init_profiler")
@@ -107,7 +103,6 @@ def test_init_npu_worker_with_trust_remote_code(
         mock_init_profiler,
         mock_init_cached_hf_modules,
         mock_try_register_lib,
-        mock_init_ascend_soc_version,
         mock_init_ascend_config,
         mock_register_ascend_customop,
         mock_register_atb_extensions,
@@ -138,7 +133,6 @@ def test_init_npu_worker_with_trust_remote_code(
     @patch("vllm_ascend.worker.worker_v1._register_atb_extensions")
     @patch("vllm_ascend.worker.worker_v1.register_ascend_customop")
     @patch("vllm_ascend.worker.worker_v1.init_ascend_config")
-    @patch("vllm_ascend.worker.worker_v1.init_ascend_soc_version")
     @patch("vllm_ascend.worker.worker_v1.try_register_lib")
     @patch("vllm.utils.init_cached_hf_modules")
     @patch("vllm_ascend.worker.worker_v1.NPUWorker._init_profiler")
@@ -147,7 +141,6 @@ def test_init_npu_worker_with_custom_cache_dtype(
         mock_init_profiler,
         mock_init_cached_hf_modules,
         mock_try_register_lib,
-        mock_init_ascend_soc_version,
         mock_init_ascend_config,
         mock_register_ascend_customop,
         mock_register_atb_extensions,
diff --git a/vllm_ascend/__init__.py b/vllm_ascend/__init__.py
@@ -15,6 +15,15 @@
 # This file is a part of the vllm-ascend project.
 #
 
+import logging
+
+logger = logging.getLogger(__name__)
+
+# Supported SOC_VERSION codes
+ASCEND_A2_SOC_VERSION = range(220, 226)
+ASCEND_A3_SOC_VERSION = range(250, 256)
+ASCEND_310P_SOC_VERSION = [202]
+
 
 def register():
     """Register the NPU platform."""
@@ -23,5 +32,25 @@ def register():
 
 
 def register_model():
+    try:
+        import torch_npu  # type: ignore
+
+        from vllm_ascend import _build_info  # type: ignore
+        raw = torch_npu.npu.get_soc_version()
+        soc_version = (
+            "ASCEND910B1" if raw in ASCEND_A2_SOC_VERSION else
+            "ASCEND910_9392" if raw in ASCEND_A3_SOC_VERSION else
+            "ASCEND310P3" if raw in ASCEND_310P_SOC_VERSION else "UNDEFINED")
+        if soc_version == "UNDEFINED":
+            raise RuntimeError("Unsupported or undefined Ascend SOC version.")
+        elif soc_version != _build_info.__soc_version__:
+            raise RuntimeError(
+                f"Built for SOC version {_build_info.__soc_version__}, but need running on default {soc_version}. Please reinstall vllm-ascend with the default SOC_VERSION."
+            )
+    except ImportError:
+        logger.warning(
+            "torch_npu is not installed. Running in test/CI mode — "
+            "skipping SOC checks and proceeding to register models.")
+
     from .models import register_model
     register_model()
diff --git a/vllm_ascend/distributed/llmdatadist_c_mgr_connector.py b/vllm_ascend/distributed/llmdatadist_c_mgr_connector.py
@@ -28,7 +28,6 @@
 from vllm.v1.request import Request, RequestStatus
 
 import vllm_ascend.envs as envs_ascend
-from vllm_ascend.utils import AscendSocVersion, get_ascend_soc_version
 
 TORCH_DTYPE_TO_NPU_DTYPE = {
     torch.half: llm_datadist.DataType.DT_FLOAT16,
@@ -336,7 +335,8 @@ def __init__(self, vllm_config: VllmConfig):
                                         self.local_agent_metadata.cluster_id)
         self.init_llm_datadist()
         self.finished_reqs: set[str] = set()
-        self.soc_info = get_ascend_soc_version()
+        from vllm_ascend import _build_info  # type: ignore
+        self.soc_info = _build_info.__ascend_soc_version__
         # Set hccl deterministic for model execute
         os.environ["HCCL_DETERMINISTIC"] = "true"
         self.done_receiving_counts: defaultdict[str,
@@ -658,7 +658,7 @@ def add_remote_agent(self, metadata: LLMDataDistCMgrAgentMetadata) -> int:
             rank_table["server_list"].append(  # type: ignore[attr-defined]
                 decode_server_device_info)
 
-        if self.soc_info == AscendSocVersion.A3:
+        if self.soc_info == "A3":
             # generate super_pod_list for rank table
             super_pod_list = []
             prefill_super_pod_info = {
diff --git a/vllm_ascend/ops/moe/token_dispatcher.py b/vllm_ascend/ops/moe/token_dispatcher.py
@@ -31,7 +31,6 @@
 from vllm_ascend.distributed.parallel_state import get_mc2_group
 from vllm_ascend.ops.moe.comm_utils import (
     async_all_to_all, gather_from_sequence_parallel_region)
-from vllm_ascend.utils import AscendSocVersion, get_ascend_soc_version
 
 
 class MoETokenDispatcher(ABC):
@@ -93,12 +92,12 @@ def __init__(self, **kwargs):
         self.ep_world_size = get_mc2_group().world_size
         self.enable_dispatch_v2 = hasattr(torch_npu,
                                           "npu_moe_distribute_dispatch_v2")
-        self.need_extra_args = (
-            get_ascend_soc_version() == AscendSocVersion.A3)
+        from vllm_ascend import _build_info  # type: ignore
+        self.need_extra_args = (_build_info.__ascend_soc_version__ == "A3")
 
         # NOTE: Currently, when in A3, we need to pass in some extra param into dispatch & combine
         self.a3_need_extra_args = \
-            get_ascend_soc_version() == AscendSocVersion.A3
+            _build_info.__ascend_soc_version__ == "A3"
         self.output = None
         self.assist_info_for_combine = None
         self.ep_recv_counts = None
diff --git a/vllm_ascend/torchair/ops/torchair_fused_moe.py b/vllm_ascend/torchair/ops/torchair_fused_moe.py
diff --git a/vllm_ascend/torchair/quantization/torchair_w8a8_dynamic.py b/vllm_ascend/torchair/quantization/torchair_w8a8_dynamic.py
diff --git a/vllm_ascend/torchair/torchair_model_runner.py b/vllm_ascend/torchair/torchair_model_runner.py
diff --git a/vllm_ascend/utils.py b/vllm_ascend/utils.py
diff --git a/vllm_ascend/worker/model_runner_v1.py b/vllm_ascend/worker/model_runner_v1.py
diff --git a/vllm_ascend/worker/worker_v1.py b/vllm_ascend/worker/worker_v1.py